适当的重量初始化是成功培训神经网络的重要意义。最近,批量归一化通过基于批处理统计数据量化每层来判定权重初始化的作用。遗憾的是,批量归一化在应用于小批量尺寸时具有多个缺点,因为在点云上学习时需要应对内存限制。虽然良好的重量初始化策略可以不需要呈现批量归一化,从而避免这些缺点,没有提出这种方法对于点卷积网络。为了填补这一差距,我们提出了一个框架来统一众多持续卷积。这实现了我们的主要贡献,方差感知权重初始化。我们表明,此初始化可以避免批量标准化,同时实现相似,并且在某些情况下更好的性能。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
多层erceptron(MLP),作为出现的第一个神经网络结构,是一个大的击中。但是由硬件计算能力和数据集的大小限制,它一旦沉没了数十年。在此期间,我们目睹了从手动特征提取到带有局部接收领域的CNN的范式转变,以及基于自我关注机制的全球接收领域的变换。今年(2021年),随着MLP混合器的推出,MLP已重新进入敏捷,并吸引了计算机视觉界的广泛研究。与传统的MLP进行比较,它变得更深,但改变了完全扁平化以补丁平整的输入。鉴于其高性能和较少的需求对视觉特定的感应偏见,但社区无法帮助奇迹,将MLP,最简单的结构与全球接受领域,但没有关注,成为一个新的电脑视觉范式吗?为了回答这个问题,本调查旨在全面概述视觉深层MLP模型的最新发展。具体而言,我们从微妙的子模块设计到全局网络结构,我们审查了这些视觉深度MLP。我们比较了不同网络设计的接收领域,计算复杂性和其他特性,以便清楚地了解MLP的开发路径。调查表明,MLPS的分辨率灵敏度和计算密度仍未得到解决,纯MLP逐渐发展朝向CNN样。我们建议,目前的数据量和计算能力尚未准备好接受纯的MLP,并且人工视觉指导仍然很重要。最后,我们提供了开放的研究方向和可能的未来作品的分析。我们希望这项努力能够点燃社区的进一步兴趣,并鼓励目前为神经网络进行更好的视觉量身定制设计。
translated by 谷歌翻译
LIDAR数据的实时语义分割对于自动驾驶车辆至关重要,这通常配备有嵌入式平台并具有有限的计算资源。直接在点云上运行的方法使用复杂的空间聚合操作,这非常昂贵,难以优化嵌入式平台。因此,它们不适用于嵌入式系统的实时应用。作为替代方案,基于投影的方法更有效并且可以在嵌入式平台上运行。然而,目前基于最先进的投影的方法不会达到与基于点的方法相同的准确性并使用数百万个参数。因此,我们提出了一种基于投影的方法,称为多尺度交互网络(Minet),这是非常有效和准确的。该网络使用具有不同尺度的多个路径并余额尺度之间的计算资源。尺度之间的额外密集相互作用避免了冗余计算并使网络高效。在准确度,参数数量和运行时,所提出的网络以基于点为基础的基于图像和基于投影的方法。此外,网络处理在嵌入式平台上每秒超过24个扫描,该嵌入式平台高于激光雷达传感器的帧。因此,网络适用于自动车辆。
translated by 谷歌翻译
鸟瞰图(BEV)地图已成为现场理解最强大的表达之一,因为他们能够提供丰富的空间上下文,同时容易解释和处理。此类地图已在许多实际任务中发现,广泛地依赖于准确的场景分段以及在BEV空间中的对象实例标识以进行操作。然而,现有的分段算法仅预测BEV空间中的语义,这限制了它们在对象实例概念也是关键的应用中的应用。在这项工作中,给出了前面视图(FV)中的单眼图像,前往直接预测BEV中的密集Panoptic分段图的第一个BEV Panoptic分割方法。我们的架构遵循自上而下的范式,并采用了一种新型密集变压器模块,包括两个不同的变压器,该模块包括从FV到BEV的输入图像中独立地将垂直和平坦区域映射到BEV的不同变压器。另外,我们推导出用于FV-BEV变换的灵敏度的数学制定,其允许我们智能地重量BEV空间中的像素,以考虑在FV图像上的变化描述。关于基提-360和NUSCENES数据集的广泛评估表明,我们的方法分别超过了PQ度量的最先进的3.61 pp和4.93 pp。
translated by 谷歌翻译
对于许多3D视觉任务,包括对象检测,分割,注册和3D输入的各种感知任务,这一点是普遍的。然而,由于3D数据的稀疏性和不规则性,定制3D运算符或网络设计一直是3D研究的主要焦点,而参数的网络或参数的功效的大小被忽略了。在这项工作中,我们对空间稀疏3D卷积网络的重量稀疏性进行了第一综合研究,并提出了一种用于语义分割和实例分割的紧凑的权重稀疏和空间稀疏的3D Conver(WS ^ 3-Tromet)。我们采用各种网络修剪策略来查找紧凑的网络,并展示我们的WS ^ 3-TRMYNET在数值较少数量的参数(1/100压缩速率)中实现了最小的性能(2.15%掉落)。最后,我们系统地分析了WS ^ 3-Tromnet的压缩模式,并在我们的压缩网络中显示了有趣的新出现的稀疏模式,以进一步加速推断。
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译
近年来,自主驾驶LIDAR数据的3D对象检测一直在迈出卓越的进展。在最先进的方法中,已经证明了将点云进行编码为鸟瞰图(BEV)是有效且有效的。与透视图不同,BEV在物体之间保留丰富的空间和距离信息;虽然在BEV中相同类型的更远物体不会较小,但它们包含稀疏点云特征。这一事实使用共享卷积神经网络削弱了BEV特征提取。为了解决这一挑战,我们提出了范围感知注意网络(RAANET),提取更强大的BEV功能并产生卓越的3D对象检测。范围感知的注意力(RAA)卷曲显着改善了近距离的特征提取。此外,我们提出了一种新的辅助损耗,用于密度估计,以进一步增强覆盖物体的Raanet的检测精度。值得注意的是,我们提出的RAA卷积轻量级,并兼容,以集成到用于BEV检测的任何CNN架构中。 Nuscenes DataSet上的广泛实验表明,我们的提出方法优于基于LIDAR的3D对象检测的最先进的方法,具有16 Hz的实时推断速度,为LITE版本为22 Hz。该代码在匿名GitHub存储库HTTPS://github.com/Anonymous0522 / ange上公开提供。
translated by 谷歌翻译
现代车辆配备各种驾驶员辅助系统,包括自动车道保持,这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能,然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化,太阳眩光和运动模糊,这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机,用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型,它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池(ASPP)块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能,并缓解后处理计算。使用DVS数据集进行通道提取(DET)的DVS数据集进行评估所提出的工作的功效。实验结果表明,多人和二进制车道标记检测任务中的5.54 \%$ 5.54 \%$ 5.54 \%$ 5.03 \%$ 5.03 \%$ 5.03。此外,在建议方法的联盟($ iou $)分数上的交叉点将超越最佳最先进的方法,分别以6.50 \%$ 6.50 \%$ 6.5.37 \%$ 9.37 \%$ 。
translated by 谷歌翻译
特征测量对于植物育种和农业生产管道至关重要。通常,使用费力的手动测量测量一套植物特征,然后用于培训和/或验证更高的吞吐量特征估计技术。这里,我们介绍了一种相对简单的卷积神经网络(CNN)模型,该模型接受多个传感器输入并预测多个连续特征输出 - 即多输入,多输出CNN(MIMO-CNN)。此外,我们将可变形的卷积层引入该网络架构(MIMO-DCNN),以使模型能够自适应地调整其接收领域,模拟数据中的复杂变量几何变换,以及微调连续的特征输出。我们检查MIMO-CNN和MIMO-DCNN模型如何在多输入(即RGB和深度图像)上执行,来自2021年自主温室挑战的多特征输出莴苣数据集。进行了消融研究以检查使用单一与多个输入的效果,以及单个与多个输出。 MIMO-DCNN模型导致归一化平均平方误差(NMSE)为0.068 - 顶部2021排行榜得分为0.081的实质性改进。提供了开源代码。
translated by 谷歌翻译
农业部门的自动化和机器人被视为该行业面临的社会经济挑战的可行解决方案。该技术经常依赖于提供有关作物,植物和整个环境的信息的智能感知系统。传统的2D视觉系统面临的挑战可以由现代3D视觉系统解决,使物体,尺寸和形状估计的直接定位或闭塞的处理能够。到目前为止,使用3D感测主要限于室内或结构化环境。在本文中,我们评估了现代传感技术,包括立体声和飞行时间摄像机,用于在农业中的形状的3D感知,并根据其形状从背景中分割软果实的可用性。为此,我们提出了一种新颖的3D深度神经网络,其利用来自基于相机的3D传感器的信息的有组织性质。与最先进的3D网络相比,我们展示了所提出的体系结构的卓越性能和效率。通过模拟研究,我们还显示了农业中对象分割的3D感测范例的潜力,并提供了洞察力和分析所需的形状质量和预期作物的进一步分析。这项工作的结果应该鼓励研究人员和公司开发更准确和强大的3D传感技术,以确保他们在实际农业应用中更广泛的采用。
translated by 谷歌翻译
在本文中,我们提出了解决稳定性和卷积神经网络(CNN)的稳定性和视野的问题的神经网络。作为提高网络深度或宽度以提高性能的替代方案,我们提出了与全球加权拉普拉斯,分数拉普拉斯和逆分数拉普拉斯算子有关的基于积分的空间非识别算子,其在物理科学中的几个问题中出现。这种网络的前向传播由部分积分微分方程(PIDE)启发。我们在自动驾驶中测试基准图像分类数据集和语义分段任务的提出神经架构的有效性。此外,我们调查了这些密集的运营商的额外计算成本以及提出神经网络的前向传播的稳定性。
translated by 谷歌翻译
由于缺乏大规模标记的3D数据集,大多数3D神经网络都是从划痕训练。在本文中,我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质,我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外,我们设计了一个上采样功能投影层,以增加高级2D特征图的空间分辨率,这使得能够学习细粒度的3D表示。利用普雷累染的2D网络,所提出的预介绍过程不需要额外的2D或3D标记数据,进一步缓解了昂贵的3D数据注释成本。据我们所知,我们是第一个利用现有的2D培训的权重,以预先rain 3D深度神经网络。我们的密集实验表明,使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixelsto-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet [20], the VGG net [31], and GoogLeNet [32]) into fully convolutional networks and transfer their learned representations by fine-tuning [3] to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves stateof-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.
translated by 谷歌翻译
以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据,但将其扩展到整个国家,以外的高度分辨率几乎不可能。在这项工作中,我们提出了一种贝叶斯深度学习方法,以10米的分辨率为全国范围的森林结构变量,使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图:95th高度百分位,平均高度,密度,基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型,并证明它能够概括取消测试区域,从而达到11%和15%之间的归一化平均值误差,具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作,以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务,例如知情决策。我们提出了一组广泛的实验,以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性,我们为五个森林结构变量提供挪威地图。
translated by 谷歌翻译
在本文中,我们建议采用高斯地图表示来估计3D表面特征的精确位置和计数,基于在存在局部干扰的情况下挣扎的密度估计来解决最先进方法的限制。高斯地图表示可能的对象位置,可以直接从keypoint注释生成避免费力且昂贵的每像素注释。我们将该方法应用于可以投射到2D形状表示的3D球面类对象,该模拟能够通过神经网络GNet的有效处理,改进的UNET架构,这产生了表面特征的可能位置及其精确计数。我们证明了这种技术对数替代的果实质量措施计算了这种技术的实际用途。培训拟议系统的结果从公共可公共数据集培训了几百次3D扫描草莓的3D扫描展示了系统的准确性和精度,这优于本申请的最先进的基于密度的方法。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
本文提出了一个统一的神经网络结构,用于联合3D对象检测和点云分段。我们利用检测和分割标签的丰富监督,而不是使用其中一个。另外,基于广泛应用于3D场景和对象理解的隐式功能,提出了基于单级对象检测器的扩展。扩展分支从对象检测模块作为输入采用最终特征映射,并产生隐式功能,为其对应的体素中心产生每个点的语义分布。我们展示了我们在NUSCENES-LIDARSEG上的结构的表现,这是一个大型户外数据集。我们的解决方案在与对象检测解决方案相比,在3D对象检测和点云分割中实现了针对现有的方法的竞争结果。通过实验验证了所提出的方法的有效弱监管语义分割的能力。
translated by 谷歌翻译
在该研究中,提出了一种具有贝叶斯优化(ADSNN-BO)的关注深度可分离的神经网络,以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40%的公司生产损失的产量,与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减​​少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测,我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外,贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的,总共有四个类别。实验结果表明,我们的移动兼容ADSNN-BO模型实现了94.65 \%的测试精度,这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性,还进行了包括激活图和过滤器可视化方法的特征分析。结果表明,我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。
translated by 谷歌翻译