点云是3D内容的至关重要表示,在虚拟现实,混合现实,自动驾驶等许多领域已广泛使用,随着数据中点数的增加,如何有效地压缩点云变为一个具有挑战性的问题。在本文中,我们提出了一组基于贴片的点云压缩的重大改进,即用于熵编码的可学习上下文模型,用于采样质心点的OCTREE编码以及集成的压缩和训练过程。此外,我们提出了一个对抗网络,以改善重建过程中点的均匀性。我们的实验表明,改进的基于斑块的自动编码器在稀疏和大规模点云上的速率延伸性能方面优于最先进的。更重要的是,我们的方法可以在确保重建质量的同时保持短时间的压缩时间。
translated by 谷歌翻译
有效的点云压缩对于虚拟和混合现实,自动驾驶和文化遗产等应用至关重要。在本文中,我们为动态点云几何压缩提出了一个基于深度学习的框架间编码方案。我们提出了一种有损的几何压缩方案,该方案通过使用新的预测网络,使用先前的框架来预测当前帧的潜在表示。我们提出的网络利用稀疏的卷积使用层次多尺度3D功能学习来使用上一个帧编码当前帧。我们在目标坐标上采用卷积来将上一个帧的潜在表示为当前帧的降采样坐标,以预测当前帧的特征嵌入。我们的框架通过使用学习的概率分解熵模型来压缩预测功能的残差和实际特征。在接收器中,解码器层次结构通过逐步重新嵌入功能嵌入来重建当前框架。我们将我们的模型与基于最先进的视频点云压缩(V-PCC)和基于几何的点云压缩(G-PCC)方案进行了比较,该方案由Moving Picture Experts Group(MPEG)标准化。我们的方法实现了91%以上的BD率Bjontegaard三角洲率)降低了G-PCC,针对V-PCC框架内编码模式的BD率降低了62%以上,而对于V-PC。使用HEVC,基于PCC P框架的框架间编码模式。
translated by 谷歌翻译
激光点云(LPC)的非均匀分布和极稀疏的性质给其高效压缩带来了重大挑战。本文提出了一个新颖的端到端,完全物质的深层框架,该框架将原始LPC编码为OCTREE结构,并分层分解OCTREE熵模型。所提出的框架利用层次的潜在变量作为侧面信息来封装兄弟姐妹和祖先依赖性,该依赖性为点云分布的建模提供了足够的上下文信息,同时启用了同一层中的Octree节点的并行编码和解码。此外,我们提出了一个用于压缩潜在变量的残留编码框架,该框架通过渐进的下采样探索了每一层的空间相关性,并用完全属于熵模型对相应的残差进行建模。此外,我们提出了剩余编码的软添加和减法,以提高网络灵活性。 LIDAR基准Semantickitti和MPEG指定数据集福特的综合实验结果表明,我们提出的框架在所有以前的LPC框架中都实现了最先进的性能。此外,我们的端到端,完全物质化的框架被实验证明是高平行和及时效率的,并且与以前的LPC压缩方法相比,与以前的最新方法相比,可以节省超过99.8%的解码时间。
translated by 谷歌翻译
点云压缩(PCC)是各种3-D应用程序的关键推动器,这是由于点云格式的通用性。理想情况下,3D点云努力描绘了连续的对象/场景表面。实际上,作为一组离散样本,点云是局部断开连接并稀疏分布的。这种稀疏的性质阻碍了在压缩点之间发现局部相关性的发现。通过分形维度的分析,我们提出了一种异质方法,并深入学习有损耗的点云几何压缩。在压缩输入的粗表示的基础层的顶部上,增强层的设计旨在应对具有挑战性的几何残差/详细信息。具体而言,应用基于点的网络将不稳定的本地详细信息转换为位于粗点云上的潜在特征。然后启动了在粗点云上运行的稀疏卷积神经网络。它利用粗糙几何形状的连续性/平滑度来压缩潜在特征,作为增强的位流,极大地使重建质量受益。当此位流不可用时,例如,由于数据包丢失,我们支持具有相同体系结构的跳过模式,该模式直接从粗点云中生成几何细节。对密度和稀疏点云的实验证明了我们的提案实现的最新压缩性能。我们的代码可在https://github.com/interdigitalinc/grasp-net上找到。
translated by 谷歌翻译
Due to the diverse sparsity, high dimensionality, and large temporal variation of dynamic point clouds, it remains a challenge to design an efficient point cloud compression method. We propose to code the geometry of a given point cloud by learning a neural volumetric field. Instead of representing the entire point cloud using a single overfit network, we divide the entire space into small cubes and represent each non-empty cube by a neural network and an input latent code. The network is shared among all the cubes in a single frame or multiple frames, to exploit the spatial and temporal redundancy. The neural field representation of the point cloud includes the network parameters and all the latent codes, which are generated by using back-propagation over the network parameters and its input. By considering the entropy of the network parameters and the latent codes as well as the distortion between the original and reconstructed cubes in the loss function, we derive a rate-distortion (R-D) optimal representation. Experimental results show that the proposed coding scheme achieves superior R-D performances compared to the octree-based G-PCC, especially when applied to multiple frames of a point cloud video. The code is available at https://github.com/huzi96/NVFPCC/.
translated by 谷歌翻译
本研究通过基于稀疏的张量处理(STP)的Voxelized PCG的多尺度表示,通过稀疏的张解器处理(STP)进行了一种统一点云几何形状(PCG)压缩方法。应用STP显着降低了复杂性,因为它只执行以最可能的积极占用体素(MP-POV)为中心的卷曲。并且多尺度代表有助于我们逐步压缩规模明智的MP-POV。总压缩效率高度取决于每个MP-POV的占用概率的近似精度。因此,我们设计基于稀疏的卷积的神经网络(Sparsecnn),包括稀疏卷曲和体素重新采样以广泛利用前沿。然后,我们开发基于SPARSECNN的占用概率近似(SOPA)模型,以估计在单阶段的方式中仅在逐步使用自回归邻居之前或以多阶段使用的横级或以多级的方式估计占用概率。此外,我们还建议基于SPARSECNN的本地邻居嵌入(SLNE),以表征当地空间变化作为改进SOPA的特征属性。我们的统一方法显示了在与MPEG G-PCC相比的各种数据集中,包括致密PCG(8iVFB,OWLII)和稀疏LIDAR PCG(KITTI,FORD)的各种数据集中的无损压缩模式中的最先进的性能和其他基于学习的压缩方案。此外,所提出的方法由于跨越所有尺度的模型共享而引起的轻量级复杂性,并且由于模型共享。我们使所有材料可在HTTPS://github.com/njuvision/sparsepcgc上公开访问可重复的研究。
translated by 谷歌翻译
我们认为,作为离散位置向量值体积功能的采样点云的属性。为了压缩所提供的位置属性,我们压缩体积函数的参数。我们通过平铺空间成块,并通过基于坐标的,或隐式的,神经网络的偏移较每个块中的函数的体积函数建模。输入到网络包括空间坐标和每个块的潜矢量。我们代表使用区域自适应分级的系数潜矢量变换在MPEG基于几何形状的点云的编解码器G-PCC使用(RAHT)。的系数,这是高度可压缩的,是速率 - 失真通过在自动解码器配置的速率 - 失真拉格朗日损失由反向传播最优化。结果由2-4分贝优于RAHT。这是第一工作由局部坐标为基础的神经网络为代表的压缩体积的功能。因此,我们希望它是适用超越的点云,例如高分辨率的神经辐射场的压缩。
translated by 谷歌翻译
Point Cloud升级旨在从给定的稀疏中产生密集的点云,这是一项具有挑战性的任务,这是由于点集的不规则和无序的性质。为了解决这个问题,我们提出了一种新型的基于深度学习的模型,称为PU-Flow,该模型结合了正常的流量和权重预测技术,以产生均匀分布在基础表面上的致密点。具体而言,我们利用标准化流的可逆特征来转换欧几里得和潜在空间之间的点,并将UPSMPLING过程作为潜在空间中相邻点的集合,从本地几何环境中自适应地学习。广泛的实验表明,我们的方法具有竞争力,并且在大多数测试用例中,它在重建质量,近距到表面的准确性和计算效率方面的表现优于最先进的方法。源代码将在https://github.com/unknownue/pu-flow上公开获得。
translated by 谷歌翻译
本文解决了从给定稀疏点云生成密集点云的问题,以模拟物体/场景的底层几何结构。为了解决这一具有挑战性的问题,我们提出了一种新的基于端到端学习的框架。具体地,通过利用线性近似定理,我们首先明确地制定问题,这逐到确定内插权和高阶近似误差。然后,我们设计轻量级神经网络,通过分析输入点云的局部几何体,自适应地学习统一和分类的插值权重以及高阶改进。所提出的方法可以通过显式制定来解释,因此比现有的更高的内存效率。与仅用于预定义和固定的上采样因子的现有方法的鲜明对比,所提出的框架仅需要一个单一的神经网络,一次性训练可以在典型范围内处理各种上采样因子,这是真实的-world应用程序。此外,我们提出了一种简单但有效的培训策略来推动这种灵活的能力。此外,我们的方法可以很好地处理非均匀分布和嘈杂的数据。合成和现实世界数据的广泛实验证明了所提出的方法在定量和定性的最先进方法上的优越性。
translated by 谷歌翻译
点云降级旨在从噪音和异常值损坏的原始观察结果中恢复清洁点云,同时保留细粒细节。我们提出了一种新型的基于深度学习的DeNoising模型,该模型结合了正常的流量和噪声解散技术,以实现高降解精度。与提取点云特征以进行点校正的现有作品不同,我们从分布学习和特征分离的角度制定了denoising过程。通过将嘈杂的点云视为清洁点和噪声的联合分布,可以从将噪声对应物从潜在点表示中解​​散出来,而欧几里得和潜在空间之间的映射是通过标准化流量来建模的。我们评估了具有各种噪声设置的合成3D模型和现实世界数据集的方法。定性和定量结果表明,我们的方法表现优于先前的最先进的基于深度学习的方法。
translated by 谷歌翻译
在本文中,我们提出了一种新的点云表示。与传统点云表示不同,其中每个点仅表示3D空间中的位置或局部平面,神经点中的每个点通过神经领域表示局部连续几何形状。因此,神经点可以表达更复杂的细节,因此具有更强的表示能力。具有含有丰富的几何细节的高分辨率表面培训神经点,使得训练模型具有足够的各种形状的表达能力。具体地,我们通过2D参数域和3D本地补丁之间的局部同构来提取点上的深度局部特征并通过局部同构构造神经字段。在决赛中,局部神经领域集成在一起以形成全局表面。实验结果表明,神经点具有强大的代表能力,展示了优异的鲁棒性和泛化能力。通过神经点,我们可以用任意分辨率重新采样点云,并优于最先进的点云上采样方法,通过大边距。
translated by 谷歌翻译
为基于几何的点云压缩(G-PCC)标准开发了基于学习的自适应环滤波器,以减少属性压缩工件。提出的方法首先生成多个最可行的样品偏移(MPSO)作为潜在的压缩失真近似值,然后线性权重以减轻伪影。因此,我们将过滤后的重建驱动尽可能靠近未压缩的PCA。为此,我们设计了一个由两个连续的处理阶段组成的压缩工件还原网络(CARNET):MPSOS推导和MPSOS组合。 MPSOS派生使用两个流网络来模拟来自直接空间嵌入和频率依赖性嵌入的局部邻域变化,在该嵌入中,稀疏的卷积被利用可从细微和不规则分布的点中最佳汇总信息。 MPSOS组合由最小平方误量学指导,以进一步捕获输入PCAS的内容动力学,从而得出加权系数。 Carnet作为GPCC的环内过滤工具实现,其中这些线性加权系数被封装在比特斯流中,并以忽略不计的比特率开销。实验结果表明,对最新的GPCC的主观和客观性都显着改善。
translated by 谷歌翻译
本文档描述了基于深度学习的点云几何编解码器和基于深度学习的点云关节几何和颜色编解码器,并提交给2022年1月发出的JPEG PLENO点云编码的建议。拟议的编解码器是基于最新的。基于深度学习的PC几何编码的发展,并提供了呼吁提案的一些关键功能。拟议的几何编解码器提供了一种压缩效率,可超过MPEG G-PCC标准和胜过MPEG的效率,或者与V-PCC Intra Intra Interra Interra Intra标准的竞争力均超过了jpeg呼叫提案测试集;但是,由于需要克服的质量饱和效应,关节几何和颜色编解码器不会发生同样的情况。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
尽管多尺度稀疏张量的卷积表示表明其较高的效率,可以准确地模拟密集对象点云的几何形状分量压缩的占用概率,但其代表稀疏的LIDAR点云几何形状(PCG)的能力在很大程度上受到限制。这是因为1)卷积的固定接受场不能很好地表征极其分布的稀疏点点; 2)经过固定权重的经过预定的卷积不足以动态捕获在输入条件下的信息。因此,这项工作暗示了邻里点的注意(NPA)来解决它们,在那里我们首先使用K最近的邻居(KNN)来构建自适应的当地社区。然后利用自我发明机制在该社区内动态汇总信息。将这种NPA设计为最佳利用跨尺度和相同相关性的NPA形式,以进行几何占用概率估计。与使用标准化G-PCC锚的锚相比,我们的方法为有损压缩提供了> 17%的BD率增长,并且使用Semantickitti和Ford数据集中流行的LIDAR点云的无损场景降低了> 14%的比特率。与使用注意力优化的OCTREE编码方法的最先进的(SOTA)解决方案相比,我们的方法平均需要减少分解运行时的分解时间要少得多,同时仍提出更好的压缩效率。
translated by 谷歌翻译
最近的研究表明,MMWave雷达感测在低可见性环境中对象检测的有效性,这使其成为自主导航系统中的理想技术。在本文中,我们将雷达介绍给点云(R2P),这是一个深度学习模型,该模型基于具有不正确点的粗糙和稀疏点云,生成具有精细几何细节的3D对象的平滑,密集且高度准确的点云表示。来自mmwave雷达。这些输入点云是从由原始MMWave雷达传感器数据生成的2D深度图像转换的,其特征是不一致,方向和形状误差。 R2P利用两个顺序的深度学习编码器块的体系结构在从多个角度观察到对象的基于雷达的输入点云的基本特征,并确保生成的输出点云及其准确的内部一致性和原始对象的详细形状重建。我们实施R2P来替换我们最近提出的3DRIMR(通过MMWave Radar)系统的第2阶段。我们的实验证明了R2P在流行的现有方法(例如PointNet,PCN和原始3DRIMR设计)上的显着性能提高。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
在本文中,我们从功能学习的角度解决了点云完成的具有挑战性的问题。我们的主要观察结果是,要恢复基础结构以及表面细节,给定部分输入,基本组件是一个很好的特征表示,可以同时捕获全球结构和局部几何细节。因此,我们首先提出了FSNET,这是一个功能结构模块,可以通过从本地区域学习多个潜在图案来适应汇总点的点功能。然后,我们将FSNET集成到粗线管道中,以完成点云完成。具体而言,采用2D卷积神经网络将特征图从FSNET解码为粗且完整的点云。接下来,使用一个点云UP抽样网络来从部分输入和粗糙的中间输出中生成密集的点云。为了有效利用局部结构并增强点分布均匀性,我们提出了IFNET,该点具有自校正机制的点提升模块,该模块可以逐步完善生成的密集点云的细节。我们已经在Shapenet,MVP和Kitti数据集上进行了定性和定量实验,这些实验表明我们的方法优于最先进的点云完成方法。
translated by 谷歌翻译
完成无序部分点云是一个具有挑战性的任务。依赖于解码潜在特征来恢复完整形状的现有方法,通常导致完成的点云过度平滑,丢失细节和嘈杂。我们建议首先解码和优化低分辨率(低res)点云,而不是一次性地解码和优化低分辨率(低分辨率)点云,而不是一次性地插入整个稀疏点云,这趋于失去细节。关于缺乏最初解码的低res点云的细节的可能性,我们提出了一种迭代细化,以恢复几何细节和对称化过程,以保护来自输入部分点云的值得信赖的信息。获得稀疏和完整的点云后,我们提出了一种补丁设计的上采样策略。基于补丁的上采样允许更好地恢复精细细节与整个形状不同,然而,由于数据差异(即,这里的输入稀疏数据不是来自地面真理的输入稀疏数据,现有的上采样方法不适用于完成任务。因此,我们提出了一种补丁提取方法,在稀疏和地面 - 真值云之间生成训练补丁对,以及抑制来自稀疏点云的噪声点的异常删除步骤。我们的整个方法都能实现高保真点云完成。提供综合评估以证明所提出的方法及其各个组件的有效性。
translated by 谷歌翻译
Training parts from ShapeNet. (b) t-SNE plot of part embeddings. (c) Reconstructing entire scenes with Local Implicit Grids Figure 1:We learn an embedding of parts from objects in ShapeNet [3] using a part autoencoder with an implicit decoder. We show that this representation of parts is generalizable across object categories, and easily scalable to large scenes. By localizing implicit functions in a grid, we are able to reconstruct entire scenes from points via optimization of the latent grid.
translated by 谷歌翻译