尽管多尺度稀疏张量的卷积表示表明其较高的效率,可以准确地模拟密集对象点云的几何形状分量压缩的占用概率,但其代表稀疏的LIDAR点云几何形状(PCG)的能力在很大程度上受到限制。这是因为1)卷积的固定接受场不能很好地表征极其分布的稀疏点点; 2)经过固定权重的经过预定的卷积不足以动态捕获在输入条件下的信息。因此,这项工作暗示了邻里点的注意(NPA)来解决它们,在那里我们首先使用K最近的邻居(KNN)来构建自适应的当地社区。然后利用自我发明机制在该社区内动态汇总信息。将这种NPA设计为最佳利用跨尺度和相同相关性的NPA形式,以进行几何占用概率估计。与使用标准化G-PCC锚的锚相比,我们的方法为有损压缩提供了> 17%的BD率增长,并且使用Semantickitti和Ford数据集中流行的LIDAR点云的无损场景降低了> 14%的比特率。与使用注意力优化的OCTREE编码方法的最先进的(SOTA)解决方案相比,我们的方法平均需要减少分解运行时的分解时间要少得多,同时仍提出更好的压缩效率。
translated by 谷歌翻译
本研究通过基于稀疏的张量处理(STP)的Voxelized PCG的多尺度表示,通过稀疏的张解器处理(STP)进行了一种统一点云几何形状(PCG)压缩方法。应用STP显着降低了复杂性,因为它只执行以最可能的积极占用体素(MP-POV)为中心的卷曲。并且多尺度代表有助于我们逐步压缩规模明智的MP-POV。总压缩效率高度取决于每个MP-POV的占用概率的近似精度。因此,我们设计基于稀疏的卷积的神经网络(Sparsecnn),包括稀疏卷曲和体素重新采样以广泛利用前沿。然后,我们开发基于SPARSECNN的占用概率近似(SOPA)模型,以估计在单阶段的方式中仅在逐步使用自回归邻居之前或以多阶段使用的横级或以多级的方式估计占用概率。此外,我们还建议基于SPARSECNN的本地邻居嵌入(SLNE),以表征当地空间变化作为改进SOPA的特征属性。我们的统一方法显示了在与MPEG G-PCC相比的各种数据集中,包括致密PCG(8iVFB,OWLII)和稀疏LIDAR PCG(KITTI,FORD)的各种数据集中的无损压缩模式中的最先进的性能和其他基于学习的压缩方案。此外,所提出的方法由于跨越所有尺度的模型共享而引起的轻量级复杂性,并且由于模型共享。我们使所有材料可在HTTPS://github.com/njuvision/sparsepcgc上公开访问可重复的研究。
translated by 谷歌翻译
为基于几何的点云压缩(G-PCC)标准开发了基于学习的自适应环滤波器,以减少属性压缩工件。提出的方法首先生成多个最可行的样品偏移(MPSO)作为潜在的压缩失真近似值,然后线性权重以减轻伪影。因此,我们将过滤后的重建驱动尽可能靠近未压缩的PCA。为此,我们设计了一个由两个连续的处理阶段组成的压缩工件还原网络(CARNET):MPSOS推导和MPSOS组合。 MPSOS派生使用两个流网络来模拟来自直接空间嵌入和频率依赖性嵌入的局部邻域变化,在该嵌入中,稀疏的卷积被利用可从细微和不规则分布的点中最佳汇总信息。 MPSOS组合由最小平方误量学指导,以进一步捕获输入PCAS的内容动力学,从而得出加权系数。 Carnet作为GPCC的环内过滤工具实现,其中这些线性加权系数被封装在比特斯流中,并以忽略不计的比特率开销。实验结果表明,对最新的GPCC的主观和客观性都显着改善。
translated by 谷歌翻译
有效的点云压缩对于虚拟和混合现实,自动驾驶和文化遗产等应用至关重要。在本文中,我们为动态点云几何压缩提出了一个基于深度学习的框架间编码方案。我们提出了一种有损的几何压缩方案,该方案通过使用新的预测网络,使用先前的框架来预测当前帧的潜在表示。我们提出的网络利用稀疏的卷积使用层次多尺度3D功能学习来使用上一个帧编码当前帧。我们在目标坐标上采用卷积来将上一个帧的潜在表示为当前帧的降采样坐标,以预测当前帧的特征嵌入。我们的框架通过使用学习的概率分解熵模型来压缩预测功能的残差和实际特征。在接收器中,解码器层次结构通过逐步重新嵌入功能嵌入来重建当前框架。我们将我们的模型与基于最先进的视频点云压缩(V-PCC)和基于几何的点云压缩(G-PCC)方案进行了比较,该方案由Moving Picture Experts Group(MPEG)标准化。我们的方法实现了91%以上的BD率Bjontegaard三角洲率)降低了G-PCC,针对V-PCC框架内编码模式的BD率降低了62%以上,而对于V-PC。使用HEVC,基于PCC P框架的框架间编码模式。
translated by 谷歌翻译
点云压缩(PCC)是各种3-D应用程序的关键推动器,这是由于点云格式的通用性。理想情况下,3D点云努力描绘了连续的对象/场景表面。实际上,作为一组离散样本,点云是局部断开连接并稀疏分布的。这种稀疏的性质阻碍了在压缩点之间发现局部相关性的发现。通过分形维度的分析,我们提出了一种异质方法,并深入学习有损耗的点云几何压缩。在压缩输入的粗表示的基础层的顶部上,增强层的设计旨在应对具有挑战性的几何残差/详细信息。具体而言,应用基于点的网络将不稳定的本地详细信息转换为位于粗点云上的潜在特征。然后启动了在粗点云上运行的稀疏卷积神经网络。它利用粗糙几何形状的连续性/平滑度来压缩潜在特征,作为增强的位流,极大地使重建质量受益。当此位流不可用时,例如,由于数据包丢失,我们支持具有相同体系结构的跳过模式,该模式直接从粗点云中生成几何细节。对密度和稀疏点云的实验证明了我们的提案实现的最新压缩性能。我们的代码可在https://github.com/interdigitalinc/grasp-net上找到。
translated by 谷歌翻译
激光点云(LPC)的非均匀分布和极稀疏的性质给其高效压缩带来了重大挑战。本文提出了一个新颖的端到端,完全物质的深层框架,该框架将原始LPC编码为OCTREE结构,并分层分解OCTREE熵模型。所提出的框架利用层次的潜在变量作为侧面信息来封装兄弟姐妹和祖先依赖性,该依赖性为点云分布的建模提供了足够的上下文信息,同时启用了同一层中的Octree节点的并行编码和解码。此外,我们提出了一个用于压缩潜在变量的残留编码框架,该框架通过渐进的下采样探索了每一层的空间相关性,并用完全属于熵模型对相应的残差进行建模。此外,我们提出了剩余编码的软添加和减法,以提高网络灵活性。 LIDAR基准Semantickitti和MPEG指定数据集福特的综合实验结果表明,我们提出的框架在所有以前的LPC框架中都实现了最先进的性能。此外,我们的端到端,完全物质化的框架被实验证明是高平行和及时效率的,并且与以前的LPC压缩方法相比,与以前的最新方法相比,可以节省超过99.8%的解码时间。
translated by 谷歌翻译
点云是3D内容的至关重要表示,在虚拟现实,混合现实,自动驾驶等许多领域已广泛使用,随着数据中点数的增加,如何有效地压缩点云变为一个具有挑战性的问题。在本文中,我们提出了一组基于贴片的点云压缩的重大改进,即用于熵编码的可学习上下文模型,用于采样质心点的OCTREE编码以及集成的压缩和训练过程。此外,我们提出了一个对抗网络,以改善重建过程中点的均匀性。我们的实验表明,改进的基于斑块的自动编码器在稀疏和大规模点云上的速率延伸性能方面优于最先进的。更重要的是,我们的方法可以在确保重建质量的同时保持短时间的压缩时间。
translated by 谷歌翻译
Due to the diverse sparsity, high dimensionality, and large temporal variation of dynamic point clouds, it remains a challenge to design an efficient point cloud compression method. We propose to code the geometry of a given point cloud by learning a neural volumetric field. Instead of representing the entire point cloud using a single overfit network, we divide the entire space into small cubes and represent each non-empty cube by a neural network and an input latent code. The network is shared among all the cubes in a single frame or multiple frames, to exploit the spatial and temporal redundancy. The neural field representation of the point cloud includes the network parameters and all the latent codes, which are generated by using back-propagation over the network parameters and its input. By considering the entropy of the network parameters and the latent codes as well as the distortion between the original and reconstructed cubes in the loss function, we derive a rate-distortion (R-D) optimal representation. Experimental results show that the proposed coding scheme achieves superior R-D performances compared to the octree-based G-PCC, especially when applied to multiple frames of a point cloud video. The code is available at https://github.com/huzi96/NVFPCC/.
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
我们提出了一种新的注意机制,称为全球分层注意(GHA),用于3D点云分析。 GHA通过在多个层次结构上进行一系列粗化和插值操作,近似于常规的全局点产生关注。 GHA的优势是两个方面。首先,它相对于点数具有线性复杂性,从而使大点云的处理能够处理。其次,GHA固有地具有归纳性偏见,可以专注于空间接近点,同时保留所有点之间的全球连通性。与前馈网络相结合,可以将GHA插入许多现有的网络体系结构中。我们尝试多个基线网络,并表明添加GHA始终如一地提高不同任务和数据集的性能。对于语义分割的任务,GHA在扫描板上的Minkowskiengine基线增加了1.7%的MIOU。对于3D对象检测任务,GHA将CenterPoint基线提高了Nuscenes数据集上的 +0.5%地图,而3DETR基线将SCANNET上的基线提高到 +2.1%MAP25和 +1.5%MAP50。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
本文提出了解码器 - 侧交叉分辨率合成(CRS)模块,以追求更好的压缩效率超出最新的通用视频编码(VVC),在那里我们在原始高分辨率(HR)处编码帧内帧,以较低的分辨率压缩帧帧间( LR),然后通过在先前的HR帧内和相邻的LR帧间帧内解解码LR帧间帧间帧帧。对于LR帧间帧,设计运动对准和聚合网络(MAN)以产生时间汇总的运动表示,以最佳保证时间平滑度;使用另一个纹理补偿网络(TCN)来生成从解码的HR帧内帧的纹理表示,以便更好地增强空间细节;最后,相似性驱动的融合引擎将运动和纹理表示合成为Upscale LR帧帧,以便去除压缩和分辨率重新采样噪声。我们使用所提出的CRS增强VVC,显示平均为8.76%和11.93%BJ {\ O} NTEGAARD Delta率(BD速率)分别在随机接入(RA)和低延延迟P(LDP)设置中的最新VVC锚点。此外,对基于最先进的超分辨率(SR)的VVC增强方法和消融研究的实验比较,进一步报告了所提出的算法的卓越效率和泛化。所有材料都将在HTTPS://njuvision.github.io /crs上公开进行可重复的研究。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
有效处理3D数据一直是一个挑战。大规模点云上的空间操作以稀疏数据存储,需要额外的成本。由于变形金刚的成功吸引,研究人员正在使用多头关注视力任务。但是,变压器中的注意力计算在输入数量和点云等集合的空间直觉中具有二次复杂性。我们重新设计了这项工作中的“变压器”,并将它们纳入形状分类以及部分和场景细分的层次结构框架中。我们建议我们的当地注意力单元,该单元捕获了空间社区的特征。我们还通过利用每次迭代的采样和分组来计算有效且动态的全局交叉注意。最后,为了减轻点云的非异质性,我们提出了一个有效的多尺度令牌化(MST),该标记(MST)提取了尺度不变的令牌以供注意操作。所提出的分层模型以平均准确性实现最新的形状分类,并以先前的分割方法的相同,同时需要更少的计算。我们提出的体系结构预测分割标签的标签约为以前最有效方法的延迟和参数计数的一半,具有可比的性能。该代码可从https://github.com/yigewang-whu/cloudattention获得。
translated by 谷歌翻译
本文解决了从给定稀疏点云生成密集点云的问题,以模拟物体/场景的底层几何结构。为了解决这一具有挑战性的问题,我们提出了一种新的基于端到端学习的框架。具体地,通过利用线性近似定理,我们首先明确地制定问题,这逐到确定内插权和高阶近似误差。然后,我们设计轻量级神经网络,通过分析输入点云的局部几何体,自适应地学习统一和分类的插值权重以及高阶改进。所提出的方法可以通过显式制定来解释,因此比现有的更高的内存效率。与仅用于预定义和固定的上采样因子的现有方法的鲜明对比,所提出的框架仅需要一个单一的神经网络,一次性训练可以在典型范围内处理各种上采样因子,这是真实的-world应用程序。此外,我们提出了一种简单但有效的培训策略来推动这种灵活的能力。此外,我们的方法可以很好地处理非均匀分布和嘈杂的数据。合成和现实世界数据的广泛实验证明了所提出的方法在定量和定性的最先进方法上的优越性。
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
Scene understanding is crucial for autonomous robots in dynamic environments for making future state predictions, avoiding collisions, and path planning. Camera and LiDAR perception made tremendous progress in recent years, but face limitations under adverse weather conditions. To leverage the full potential of multi-modal sensor suites, radar sensors are essential for safety critical tasks and are already installed in most new vehicles today. In this paper, we address the problem of semantic segmentation of moving objects in radar point clouds to enhance the perception of the environment with another sensor modality. Instead of aggregating multiple scans to densify the point clouds, we propose a novel approach based on the self-attention mechanism to accurately perform sparse, single-scan segmentation. Our approach, called Gaussian Radar Transformer, includes the newly introduced Gaussian transformer layer, which replaces the softmax normalization by a Gaussian function to decouple the contribution of individual points. To tackle the challenge of the transformer to capture long-range dependencies, we propose our attentive up- and downsampling modules to enlarge the receptive field and capture strong spatial relations. We compare our approach to other state-of-the-art methods on the RadarScenes data set and show superior segmentation quality in diverse environments, even without exploiting temporal information.
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
开发了一种基于变换器的图像压缩(TIC)方法,其重用了具有配对主和超编码器解码器的规范变形AutoEncoder(VAE)架构。主要和超编码器包括一系列神经转换单元(NTU),以分析和聚合重要信息以进行更紧凑的输入图像表示,而解码器镜像编码器侧操作以生成从压缩的像素域图像重建。比特流。每个NTU由Swin变压器块(STB)和卷积层(CONV)组成,以最佳地嵌入远程和短程信息;同时,设计了一种休闲的注意模块(CAM),用于潜在特征的自适应上下文建模,以利用超自行性前提。具有最先进的方法的TIC竞争对手,包括基于深度卷积神经网络(CNNS)的学习图像编码(LIC)方法以及最近批准的多功能视频编码(VVC)标准的基于规则的基于规则的简介,并且需要很多较少的模型参数,例如,降低前导性能LIC减少45%。
translated by 谷歌翻译