Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
准确的车辆类型分类在智能运输系统中起重要作用。对于统治者而言,重要的是要了解道路状况,通常为交通灯控制系统的贡献,以相应地响应以减轻交通拥堵。新技术和全面数据源,例如航空照片和遥感数据,提供了更丰富,高维的信息。同样,由于深度神经网络技术的快速发展,基于图像的车辆分类方法可以在处理数据时更好地提取基本的客观特征。最近,已经提出了几种深度学习模型来解决该问题。但是,基于纯卷积的传统方法对全球信息提取有限制,而复杂的环境(例如恶劣的天气)严重限制了识别能力。为了在复杂环境下提高车辆类型的分类能力,本研究提出了一种新型连接的卷积变压器在变压器神经网络(密度TNT)框架中,通过堆叠密集连接的卷积网络(Densenet)和变压器(TNT)(TNT)(TNT)(TNT )层。部署了三个区域的数据和四个不同的天气条件以评估识别能力。实验发现,即使在严重的雾气天气条件下,我们提出的车辆分类模型的识别能力也很少。
translated by 谷歌翻译
电动汽车(EV)充电需求和充电站的可用性预测是智能运输系统中的挑战之一。通过准确的EV站情况预测,可以提前安排合适的充电行为以缓解范围焦虑。但是,由于复杂的道路网络结构和全面的外部因素,例如兴趣点(POI)和天气效应,许多现有的深度学习方法用于解决此问题,因此,许多常用算法只能在没有历史用法的情况下提取历史用法考虑外部因素的全面影响。为了提高预测准确性和可解释性,在本研究中提出了属性增强的时空图信息器(AST-GIN)结构,通过将图形卷积网络(GCN)层和告密者层组合来提取外部和内部空间 - 相关运输数据的时间依赖性。并且外部因素被模拟为动态属性,由属性调制的编码器进行训练。测试了邓迪市收集的数据的AST-gin模型,实验结果表明,与其他基线相比,考虑到外部因素对各种地平线环境的影响,我们的模型的有效性。
translated by 谷歌翻译
选择第一次到达的Prestack收集时间被称为首次到达时间(FAT)采摘,这是地震数据处理中必不可少的一步,并且主要是手动解决的。随着当前地震数据收集密度的增加,手动采摘效率无法满足实际需求。因此,近几十年来,自动采摘方法已经大大开发出来,尤其是基于深度学习的方法。但是,当前有监督的基于深度学习的方法很少可以避免对标记样品的依赖。此外,由于收集数据是一组与自然图像大不相同的信号,因此当前方法在低信号与噪声比(SNR)的情况下很难解决脂肪拾取问题。在本文中,对于Hard Rock地震收集数据,我们提出了一个多阶段分割拾取网络(MSSPN),该网络解决了跨工作地点的概括问题以及在低SNR的情况下的采摘问题。在MSSPN中,有四个子模型可以模拟手动采摘处理,从而将其假定为从粗糙到细的四个阶段。具有不同质量的七个现场数据集的实验表明,我们的MSSPN的表现优于大幅度的基准。尤其是,在中等和高snrs的情况下,我们的方法可以实现超过90 \%的精确拾取,甚至精细模型也可以使用低SNR实现88 \%精确的数据集。
translated by 谷歌翻译
具有更多参数数量的深卷积神经网络在自然图像上的对象检测任务中提高了精度,其中感兴趣的对象用水平边界框注释。从鸟类视角捕获的航空图像上,这些对模型架构和更深卷积层的改进也可以提高定向对象检测任务的性能。但是,很难直接在设备上使用有限的计算资源应用那些最先进的对象探测器,这需要通过模型压缩来实现轻量级模型。为了解决此问题,我们提出了一种模型压缩方法,用于通过知识蒸馏(即KD-RNET)在空中图像上旋转对象检测。凭借具有大量参数的训练有素的以教师为导向的对象探测器,获得的对象类别和位置信息都通过协作培训策略转移到KD-RNET的紧凑型学生网络中。传输类别信息是通过对预测概率分布的知识蒸馏来实现的,并且在处理位置信息传输中的位移时采用了软回归损失。大规模空中对象检测数据集(DOTA)的实验结果表明,提出的KD-RNET模型可以通过减少参数数量来提高均值平均精度(MAP),同时kd-rnet促进性能增强性能在提供高质量检测的情况下,与地面截然注释的重叠更高。
translated by 谷歌翻译
结构光(SL)系统以主动照明投影获得高保真3D几何形状。当在具有强烈的环境照明,全球照明和跨设备干扰的环境中工作时,常规系统会出现挑战。本文提出了一种通用技术,以通过投影除天然SL模式来预测冗余光学信号来提高SL的鲁棒性。这样,预计的信号与错误更具区别。因此,可以使用简单的信号处理更容易地恢复几何信息,并获得``性能中的编码增益''。我们使用冗余代码提出了三个应用程序:(1)在强环境光下进行SL成像的自我错误校正,((( 2)在全球照明下自适应重建的错误检测,以及(3)使用设备特定的投影序列编码的干扰过滤,尤其是针对基于事件摄像机的SL和灯窗帘设备。我们系统地分析了这些应用中的设计规则和信号处理算法。相应的硬件原型是用于在现实世界复杂场景上进行评估的。合成和真实数据的实验结果证明了具有冗余代码的SL系统的显着性能改进。
translated by 谷歌翻译
从理论上讲,通过引入蛋白质3D结构信息,可以改善化合物蛋白结合亲和力(CPA)中计算模型的准确性。但是,由于缺乏有效编码信息蛋白质特征的有效方法,这些模型中的大多数仍然存在低精度。主要的挑战是如何结合多模式信息,例如蛋白质的残基序列,残基原子坐标和扭转角。为了解决这个问题,我们开发了快速的进化关注和彻底的图形神经网络(featnn),以促进蛋白质3D结构信息的应用以预测CPA。具体而言,我们建立了一种新型的端到端结构,以共同嵌入扭转矩阵,离散距离矩阵以及蛋白质和提取具有深图卷积层的复合特征的序列信息。此外,引入了一种新的成对映射注意机制,以全面了解蛋白质和化合物之间的潜在相互作用信息。在CPA预测中,R2系数升高约21.33%,在CPA预测中的各种最新基准都大大优于各种最新基线。因此,壮举为高度准确的CPA预测提供了出色的方法,并促进了候选药物的高通量虚拟筛查。
translated by 谷歌翻译
基于方面的情绪分析旨在确定产品评论中特定方面的情感极性。我们注意到,大约30%的评论不包含明显的观点词,但仍然可以传达清晰的人类感知情绪取向,称为隐含情绪。然而,最近的基于神经网络的方法几乎没有关注隐性情绪,这一审查有所关注。为了克服这个问题,我们通过域名语言资源检索的大规模情绪注释的Corpora采用监督对比培训。通过将隐式情感表达式的表示对准与具有相同情绪标签的人,预培训过程可以更好地捕获隐含和明确的情绪方向,以便在评论中的方面。实验结果表明,我们的方法在Semeval2014基准上实现了最先进的性能,综合分析验证了其对学习隐含情绪的有效性。
translated by 谷歌翻译
在本文中,我们提出了一个新型的相互一致性网络(MC-NET+),以有效利用未标记的数据进行半监督的医学图像分割。 MC-NET+模型的动机是通过观察到的,即经过有限注释训练的深模型很容易输出不确定的,易于分类的预测,例如模棱两可的区域(例如,粘合边缘或薄分支)进行医学图像分割。利用这些具有挑战性的样品可以使半监督分割模型训练更有效。因此,我们提出的MC-NET+模型由两个新设计组成。首先,该模型包含一个共享的编码器和多个略有不同的解码器(即使用不同的上采样策略)。计算多个解码器输出的统计差异以表示模型的不确定性,这表明未标记的硬区域。其次,我们在一个解码器的概率输出和其他解码器的软伪标签之间应用了一种新颖的相互一致性约束。通过这种方式,我们最大程度地减少了训练过程中多个输出(即模型不确定性)的差异,并迫使模型在此类具有挑战性的区域中产生不变的结果,旨在使模型训练正规化。我们将MC-NET+模型的细分结果与三个公共医疗数据集中的五种最先进的半监督方法进行了比较。具有两个标准半监督设置的扩展实验证明了我们模型的优越性能,而不是其他方法,这为半监督医学图像分割设定了新的最新技术。我们的代码将在https://github.com/ycwu1997/mc-net上公开发布。
translated by 谷歌翻译
Current computer vision models, unlike the human visual system, cannot yet achieve general-purpose visual understanding. Existing efforts to create a general vision model are limited in the scope of assessed tasks and offer no overarching framework to perform them holistically. We present a new comprehensive benchmark, General-purpose Visual Understanding Evaluation (G-VUE), covering the full spectrum of visual cognitive abilities with four functional domains $\unicode{x2014}$ Perceive, Ground, Reason, and Act. The four domains are embodied in 11 carefully curated tasks, from 3D reconstruction to visual reasoning and manipulation. Along with the benchmark, we provide a general encoder-decoder framework to allow for the evaluation of arbitrary visual representation on all 11 tasks. We evaluate various pre-trained visual representations with our framework and observe that (1) Transformer-based visual backbone generally outperforms CNN-based backbone on G-VUE, (2) visual representations from vision-language pre-training are superior to those with vision-only pre-training across visual tasks. With G-VUE, we provide a holistic evaluation standard to motivate research toward building general-purpose visual systems via obtaining more general-purpose visual representations.
translated by 谷歌翻译