在不规则的几何结构和高维空间的情况下,三维点云学习被广泛应用,但是点云仍无法令人满意地处理分类和识别任务。在3D空间中,点云由于其密度而倾向于具有规则的欧几里得结构。相反,由于高维度,高维空间的空间结构更为复杂,而点云主要在非欧洲结构中呈现。此外,在当前的3D点云分类算法中,基于欧几里得距离的规范胶囊算法很难有效分解并有效地识别非欧几里得结构。因此,针对3D和高维空间中非欧国人结构的点云分类任务时,本文是指基于测量距离的LLE算法,以优化并提出了高维点云的无监督算法。在本文中,在提取过程中考虑了点云的几何特征,以便将高维的非欧几里得结构转变为具有保持空间几何特征的较低维度的欧几里得结构。为了验证高维点云胶囊的无监督算法的可行性,在瑞士滚动数据集,点云MNIST数据集和点云LFW数据集中进行了实验。结果表明,(1)可以在瑞士滚动数据集中有效地确定(1)非欧几里得结构; (2)在Point Clouds MNIST数据集中实现了重要的无监督学习效果。总之,本文提出的高维点云无监督算法有利于扩展当前点云分类和识别任务的应用程序方案。
translated by 谷歌翻译
随着深度学习技术的快速发展和计算能力的提高,深度学习已广泛应用于高光谱图像(HSI)分类领域。通常,深度学习模型通常包含许多可训练参数,并且需要大量标记的样品来实现最佳性能。然而,关于HSI分类,由于手动标记的难度和耗时的性质,大量标记的样本通常难以获取。因此,许多研究工作侧重于建立一个少数标记样本的HSI分类的深层学习模型。在本文中,我们专注于这一主题,并对相关文献提供系统审查。具体而言,本文的贡献是双重的。首先,相关方法的研究进展根据学习范式分类,包括转移学习,积极学习和少量学习。其次,已经进行了许多具有各种最先进的方法的实验,总结了结果以揭示潜在的研究方向。更重要的是,虽然深度学习模型(通常需要足够的标记样本)和具有少量标记样本的HSI场景之间存在巨大差距,但是通过深度学习融合,可以很好地表征小样本集的问题方法和相关技术,如转移学习和轻量级模型。为了再现性,可以在HTTPS://github.com/shuguoj/hsi-classification中找到纸张中评估的方法的源代码.git。
translated by 谷歌翻译
深入学习云越来越发展。将点与其邻居分组并对它们进行卷积相同的操作可以了解点云的本地特征,但此方法薄弱以提取长距离全局功能。在整个点云上执行关注的变换器可以有效地学习它的全局特征,但此方法几乎不会提取本地详细功能。在本文中,我们提出了一种新颖的模块,可以同时提取和保险熔断本地和全局功能,该功能被命名为CT-Block。 CT-块由两个分支组成,其中字母C表示卷积分支,字母T表示变压器分支。卷积分支对分组邻点的卷积进行了卷积以提取本地功能。同时,变压器分支对整个点云执行偏移注意过程以提取全局功能。通过CT-块中的特征传输元件构造的桥梁,本地和全局特征在学习期间彼此引导并有效地融合。我们应用CT-Block构建点云分类和分段网络,并评估几个公共数据集的性能。实验结果表明,由于CT-Block学习的特征是多种表现力的,所以由CT-Block构成的网络的性能在点云分类和分割任务实现现有技术。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
多标签遥感图像分类(MLRSIC)已获得越来越多的研究兴趣。将多个标签的辅助关系作为其他信息有助于提高此任务的性能。当前方法着重于使用它来限制卷积神经网络(CNN)的最终功能输出。一方面,这些方法不会充分利用标签相关来形成特征表示。另一方面,它们增加了系统的标签噪声灵敏度,导致稳健性差。在本文中,提出了一种称为语义交织的全球通道注意(Signa)的新颖方法。首先,根据数据集的统计信息获得标签共发生图。标签共发生图用作图形神经网络(GNN)的输入,以生成最佳特征表示。然后,语义特征和视觉特征交错,以指导图像从原始特征空间到具有嵌入式标签关系的语义特征空间的特征表达。 Signa在新的语义特征空间中触发了特征地图通道的全球关注,以提取更重要的视觉特征。提出了基于多头签名的功能自适应加权网络,以插件的方式对任何CNN作用。对于遥感图像,可以通过将CNN插入浅层层来实现更好的分类性能。我们对三个数据集进行了广泛的实验比较:UCM数据集,AID数据集和DFC15数据集。实验结果表明,与最新方法(SOTA)方法相比,所提出的Signa具有出色的分类性能。值得一提的是,本文的代码将向社区开放,以进行可重复性研究。我们的代码可在https://github.com/kyle-one/signa上找到。
translated by 谷歌翻译
近年来,在各种环境中,在城市道路,大型建筑物等各种环境中越来越多的应用,以及室内和户外场所。然而,由于不同传感器的局限性和环境的外观变化,这项任务仍然仍然具有挑战性。目前的作用仅考虑使用各个传感器,或者只是结合不同的传感器,忽略不同传感器的重要性随着环境变化而变化的事实。本文提出了一种名为Adafusion的自适应加权视觉激光融合方法,以了解图像和点云特征的权重。因此,这两个模式的特征根据当前的环境情况不同地贡献。通过网络的注意分支实现权重的学习,然后与多模态特征提取分支融合。此外,为了更好地利用图像和点云之间的潜在关系,我们设计一个突变融合方法来组合2D和3D关注。我们的工作在两个公共数据集上进行了测试,实验表明,自适应权重有助于提高识别准确性和系统鲁棒性与不同的环境。
translated by 谷歌翻译
我们为3D点云提出了一种自我监督的胶囊架构。我们通过置换等级的注意力计算对象的胶囊分解,并通过用对随机旋转对象的对进行自我监督处理。我们的主要思想是将注意力掩码汇总为语义关键点,并使用这些来监督满足胶囊不变性/设备的分解。这不仅能够培训语义一致的分解,而且还允许我们学习一个能够以对客观的推理的规范化操作。培训我们的神经网络,我们既不需要分类标签也没有手动对齐训练数据集。然而,通过以自我监督方式学习以对象形式的表示,我们的方法在3D点云重建,规范化和无监督的分类上表现出最先进的。
translated by 谷歌翻译
有效的早期检测马铃薯晚枯萎病(PLB)是马铃薯栽培的必要方面。然而,由于缺乏在冠层水平上缺乏视觉线索,在具有传统成像方法的领域的早期阶段来检测晚期枯萎是一项挑战。高光谱成像可以,捕获来自宽范围波长的光谱信号也在视觉波长之外。在这种情况下,通过将2D卷积神经网络(2D-CNN)和3D-CNN与深度合作的网络(PLB-2D-3D-A)组合来提出高光谱图像的深度学习分类架构。首先,2D-CNN和3D-CNN用于提取丰富的光谱空间特征,然后使用注意力块和SE-RESET用于强调特征图中的突出特征,并提高模型的泛化能力。数据集采用15,360张图像(64x64x204)构建,从在实验领域捕获的240个原始图像裁剪,具有超过20种马铃薯基因型。 2000年图像的测试数据集中的精度在全带中达到0.739,特定带中的0.790(492nm,519nm,560nm,592nm,717nm和765nm)。本研究表明,具有深入学习和近端高光谱成像的早期检测PLB的令人鼓舞的结果。
translated by 谷歌翻译
最近,卷积神经网络(CNN)技术具有普及作为高光谱图像分类(HSIC)的工具。为了在有限样品的条件下提高HSIC的特征提取效率,目前的方法通常使用大量层的深层模型。然而,当样品有限时,深网络模型容易出现过度拟合和梯度消失问题。此外,空间分辨率严重降低,深度深度,这对空间边缘特征提取非常有害。因此,这封信提出了一种HSIC的浅模型,称为深度过度参数化卷积神经网络(DOCNN)。为了确保浅模型的有效提取,引入深度过度参数化卷积(DO-CONV)内核以提取歧视特征。深度过度参数化卷积内核由标准卷积内核和深度卷积内核组成,其可以单独地提取不同信道的空间特征,并同时熔合整个通道的空间特征。此外,为了进一步减少由于卷积操作引起的空间边缘特征的损失,提出了一种密集的残余连接(DRC)结构以适用于整个网络的特征提取部分。从三个基准数据集获得的实验结果表明,该方法在分类准确度和计算效率方面优于其他最先进的方法。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求,有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上,以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果,但在球形投影中,邻里信息尚未保存得很好。此外,在单个扫描分割任务中未考虑时间信息。为了解决这些问题,我们提出了一种新型的语义分割方法,用于元素rangeseg的激光雷达序列,其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言,使用元内核来提取元特征,从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外,特征聚合模块(FAM)增强了范围通道的作用,并在不同级别上汇总特征。我们已经进行了广泛的实验,以评估semantickitti和semanticposs。有希望的结果表明,我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。
translated by 谷歌翻译
在所提出的Sehybridsn模型中,使用密集块来重用浅特征,并旨在更好地利用分层空间谱特征。随后的深度可分离卷积层用于区分空间信息。通过通道注意方法实现了空间谱特征的进一步改进,该方法在每个3D卷积层和每个2D卷积层后面进行。实验结果表明,我们所提出的模型使用很少的训练数据了解更多辨别的空间谱特征。Sehybridsn使用仅0.05和0.01个标记的训练数据,获得了非常令人满意的性能。
translated by 谷歌翻译
高光谱图像(HSI)分类一直是决定的热门话题,因为高光谱图像具有丰富的空间和光谱信息,并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益,基于深度学习的HSI分类方法已实现了有希望的表现。最近,已经提出了一些用于HSI分类的神经架构搜索(NAS)算法,这将HSI分类的准确性进一步提高到了新的水平。在本文中,NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比,提出的方法有两个主要差异。首先,我们重新访问了先前的HSI分类NAS方法中设计的搜索空间,并提出了一个新型的混合搜索空间,该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比,所提出的混合搜索空间与HSI数据的特征更加一致,即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次,为了进一步提高分类准确性,我们尝试将新兴变压器模块移植到自动设计的卷积神经网络(CNN)上,以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明,所提出的方法的性能要比比较方法更好,包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中,总体准确性提高了近6个百分点。代码可在以下网址获得:https://github.com/cecilia-xue/hyt-nas。
translated by 谷歌翻译
多模态数据在遥感(RS)中变得容易获得,并且可以提供有关地球表面的互补信息。因此,多模态信息的有效融合对于卢比的各种应用是重要的,而且由于域差异,噪音和冗余,也是非常具有挑战性的。缺乏有效和可扩展的融合技术,用于遍布多种模式编码器和完全利用互补信息。为此,我们提出了一种基于新型金字塔注意融合(PAF)模块和门控融合单元(GFU)的多模态遥感数据的新型多模态网络(Multimodnet)。 PAF模块旨在有效地从每个模态中获得丰富的细粒度上下文表示,具有内置的交叉级别和巧克力关注融合机制,GFU模块利用了新颖的门控机制,用于早期合并特征,从而降低隐藏的冗余和噪音。这使得可以有效地提取补充方式来提取最迟到的特征融合的最有价值和互补的信息。两个代表性RS基准数据集的广泛实验证明了多模态土地覆盖分类的多模型的有效性,鲁棒性和优越性。
translated by 谷歌翻译
基于激光雷达的3D单一对象跟踪是机器人技术和自动驾驶中的一个具有挑战性的问题。当前,现有方法通常会遇到长距离对象通常具有非常稀疏或部分倾斜的点云的问题,这使得模型含糊不清。模棱两可的功能将很难找到目标对象,并最终导致不良跟踪结果。为了解决此问题,我们使用功能强大的变压器体系结构,并为基于点云的3D单一对象跟踪任务提出一个点轨转换器(PTT)模块。具体而言,PTT模块通过计算注意力重量来生成微调的注意力特征,该功能指导追踪器的重点关注目标的重要功能,并提高复杂场景中的跟踪能力。为了评估我们的PTT模块,我们将PTT嵌入主要方法中,并构建一个名为PTT-NET的新型3D SOT跟踪器。在PTT-NET中,我们分别将PTT嵌入了投票阶段和提案生成阶段。投票阶段中的PTT模块可以模拟点斑块之间的交互作用,该点贴片学习上下文依赖于上下文。同时,提案生成阶段中的PTT模块可以捕获对象和背景之间的上下文信息。我们在Kitti和Nuscenes数据集上评估了PTT-NET。实验结果证明了PTT模块的有效性和PTT-NET的优越性,PTT-NET的优势超过了基线,在CAR类别中〜10%。同时,我们的方法在稀疏场景中也具有显着的性能提高。通常,变压器和跟踪管道的组合使我们的PTT-NET能够在两个数据集上实现最先进的性能。此外,PTT-NET可以在NVIDIA 1080TI GPU上实时以40fps实时运行。我们的代码是为研究社区开源的,网址为https://github.com/shanjiayao/ptt。
translated by 谷歌翻译
确实,卷积神经网络(CNN)更合适。然而,固定内核大小使传统的CNN太具体,既不灵活也不有利于特征学习,从而影响分类准确性。不同内核大小网络的卷积可以通过捕获更多辨别和相关信息来克服这个问题。鉴于此,所提出的解决方案旨在将3D和2D成立网的核心思想与促进混合方案中的HSIC CNN性能提升。生成的\ Textit {注意融合混合网络}(AFNET)基于三个关注融合的并行混合子网,每个块中的不同内核使用高级功能,以增强最终的地面图。简而言之,AFNET能够选择性地过滤滤除对分类至关重要的辨别特征。与最先进的模型相比,HSI数据集的几次测试为AFNET提供了竞争力的结果。拟议的管道实现,实际上,印度松树的总体准确性为97 \%,博茨瓦纳100 \%,帕尔茨大学,帕维亚中心和萨利纳斯数据集的99 \%。
translated by 谷歌翻译
In this paper, we present the Circular Accessible Depth (CAD), a robust traversability representation for an unmanned ground vehicle (UGV) to learn traversability in various scenarios containing irregular obstacles. To predict CAD, we propose a neural network, namely CADNet, with an attention-based multi-frame point cloud fusion module, Stability-Attention Module (SAM), to encode the spatial features from point clouds captured by LiDAR. CAD is designed based on the polar coordinate system and focuses on predicting the border of traversable area. Since it encodes the spatial information of the surrounding environment, which enables a semi-supervised learning for the CADNet, and thus desirably avoids annotating a large amount of data. Extensive experiments demonstrate that CAD outperforms baselines in terms of robustness and precision. We also implement our method on a real UGV and show that it performs well in real-world scenarios.
translated by 谷歌翻译
语义细分是农业机器人了解自然果园周围环境的一项基本任务。 LIDAR技术的最新发展使机器人能够在非结构化果园中获得准确的范围测量。与RGB图像相比,3D点云具有几何特性。通过将LIDAR和相机组合在一起,可以获得有关几何和纹理的丰富信息。在这项工作中,我们提出了一种基于深度学习的分割方法,以对来自激光镜像相机视觉传感器的融合数据进行准确的语义分割。在这项工作中探索和解决了两个关键问题。第一个是如何有效地从多传感器数据中融合纹理和几何特征。第二个是如何在严重失衡类条件下有效训练3D分割网络的方法。此外,详细介绍了果园中3D分割的实现,包括LiDAR-CAMERA数据融合,数据收集和标签,网络培训和模型推断。在实验中,我们在处理从苹果园获得的高度非结构化和嘈杂的点云时,全面分析了网络设置。总体而言,我们提出的方法在高分辨率点云(100k-200k点)上的水果分割时达到了86.2%MIOU。实验结果表明,所提出的方法可以在真实的果园环境中进行准确的分割。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
从RGB-D图像中对刚性对象的6D姿势估计对于机器人技术中的对象抓握和操纵至关重要。尽管RGB通道和深度(d)通道通常是互补的,分别提供了外观和几何信息,但如何完全从两个跨模式数据中完全受益仍然是非平凡的。从简单而新的观察结果来看,当对象旋转时,其语义标签是姿势不变的,而其关键点偏移方向是姿势的变体。为此,我们提出了So(3)pose,这是一个新的表示学习网络,可以探索SO(3)equivariant和So(3) - 从深度通道中进行姿势估计的特征。 SO(3) - 激素特征有助于学习更独特的表示,以分割来自RGB通道外观相似的对象。 SO(3) - 等级特征与RGB功能通信,以推导(缺失的)几何形状,以检测从深度通道的反射表面的对象的关键点。与大多数现有的姿势估计方法不同,我们的SO(3) - 不仅可以实现RGB和深度渠道之间的信息通信,而且自然会吸收SO(3) - 等级的几何学知识,从深度图像中,导致更好的外观和更好的外观和更好几何表示学习。综合实验表明,我们的方法在三个基准测试中实现了最先进的性能。
translated by 谷歌翻译