有效的点云压缩对于虚拟和混合现实,自动驾驶和文化遗产等应用至关重要。在本文中,我们为动态点云几何压缩提出了一个基于深度学习的框架间编码方案。我们提出了一种有损的几何压缩方案,该方案通过使用新的预测网络,使用先前的框架来预测当前帧的潜在表示。我们提出的网络利用稀疏的卷积使用层次多尺度3D功能学习来使用上一个帧编码当前帧。我们在目标坐标上采用卷积来将上一个帧的潜在表示为当前帧的降采样坐标,以预测当前帧的特征嵌入。我们的框架通过使用学习的概率分解熵模型来压缩预测功能的残差和实际特征。在接收器中,解码器层次结构通过逐步重新嵌入功能嵌入来重建当前框架。我们将我们的模型与基于最先进的视频点云压缩(V-PCC)和基于几何的点云压缩(G-PCC)方案进行了比较,该方案由Moving Picture Experts Group(MPEG)标准化。我们的方法实现了91%以上的BD率Bjontegaard三角洲率)降低了G-PCC,针对V-PCC框架内编码模式的BD率降低了62%以上,而对于V-PC。使用HEVC,基于PCC P框架的框架间编码模式。
translated by 谷歌翻译
本研究通过基于稀疏的张量处理(STP)的Voxelized PCG的多尺度表示,通过稀疏的张解器处理(STP)进行了一种统一点云几何形状(PCG)压缩方法。应用STP显着降低了复杂性,因为它只执行以最可能的积极占用体素(MP-POV)为中心的卷曲。并且多尺度代表有助于我们逐步压缩规模明智的MP-POV。总压缩效率高度取决于每个MP-POV的占用概率的近似精度。因此,我们设计基于稀疏的卷积的神经网络(Sparsecnn),包括稀疏卷曲和体素重新采样以广泛利用前沿。然后,我们开发基于SPARSECNN的占用概率近似(SOPA)模型,以估计在单阶段的方式中仅在逐步使用自回归邻居之前或以多阶段使用的横级或以多级的方式估计占用概率。此外,我们还建议基于SPARSECNN的本地邻居嵌入(SLNE),以表征当地空间变化作为改进SOPA的特征属性。我们的统一方法显示了在与MPEG G-PCC相比的各种数据集中,包括致密PCG(8iVFB,OWLII)和稀疏LIDAR PCG(KITTI,FORD)的各种数据集中的无损压缩模式中的最先进的性能和其他基于学习的压缩方案。此外,所提出的方法由于跨越所有尺度的模型共享而引起的轻量级复杂性,并且由于模型共享。我们使所有材料可在HTTPS://github.com/njuvision/sparsepcgc上公开访问可重复的研究。
translated by 谷歌翻译
点云压缩(PCC)是各种3-D应用程序的关键推动器,这是由于点云格式的通用性。理想情况下,3D点云努力描绘了连续的对象/场景表面。实际上,作为一组离散样本,点云是局部断开连接并稀疏分布的。这种稀疏的性质阻碍了在压缩点之间发现局部相关性的发现。通过分形维度的分析,我们提出了一种异质方法,并深入学习有损耗的点云几何压缩。在压缩输入的粗表示的基础层的顶部上,增强层的设计旨在应对具有挑战性的几何残差/详细信息。具体而言,应用基于点的网络将不稳定的本地详细信息转换为位于粗点云上的潜在特征。然后启动了在粗点云上运行的稀疏卷积神经网络。它利用粗糙几何形状的连续性/平滑度来压缩潜在特征,作为增强的位流,极大地使重建质量受益。当此位流不可用时,例如,由于数据包丢失,我们支持具有相同体系结构的跳过模式,该模式直接从粗点云中生成几何细节。对密度和稀疏点云的实验证明了我们的提案实现的最新压缩性能。我们的代码可在https://github.com/interdigitalinc/grasp-net上找到。
translated by 谷歌翻译
激光点云(LPC)的非均匀分布和极稀疏的性质给其高效压缩带来了重大挑战。本文提出了一个新颖的端到端,完全物质的深层框架,该框架将原始LPC编码为OCTREE结构,并分层分解OCTREE熵模型。所提出的框架利用层次的潜在变量作为侧面信息来封装兄弟姐妹和祖先依赖性,该依赖性为点云分布的建模提供了足够的上下文信息,同时启用了同一层中的Octree节点的并行编码和解码。此外,我们提出了一个用于压缩潜在变量的残留编码框架,该框架通过渐进的下采样探索了每一层的空间相关性,并用完全属于熵模型对相应的残差进行建模。此外,我们提出了剩余编码的软添加和减法,以提高网络灵活性。 LIDAR基准Semantickitti和MPEG指定数据集福特的综合实验结果表明,我们提出的框架在所有以前的LPC框架中都实现了最先进的性能。此外,我们的端到端,完全物质化的框架被实验证明是高平行和及时效率的,并且与以前的LPC压缩方法相比,与以前的最新方法相比,可以节省超过99.8%的解码时间。
translated by 谷歌翻译
Due to the diverse sparsity, high dimensionality, and large temporal variation of dynamic point clouds, it remains a challenge to design an efficient point cloud compression method. We propose to code the geometry of a given point cloud by learning a neural volumetric field. Instead of representing the entire point cloud using a single overfit network, we divide the entire space into small cubes and represent each non-empty cube by a neural network and an input latent code. The network is shared among all the cubes in a single frame or multiple frames, to exploit the spatial and temporal redundancy. The neural field representation of the point cloud includes the network parameters and all the latent codes, which are generated by using back-propagation over the network parameters and its input. By considering the entropy of the network parameters and the latent codes as well as the distortion between the original and reconstructed cubes in the loss function, we derive a rate-distortion (R-D) optimal representation. Experimental results show that the proposed coding scheme achieves superior R-D performances compared to the octree-based G-PCC, especially when applied to multiple frames of a point cloud video. The code is available at https://github.com/huzi96/NVFPCC/.
translated by 谷歌翻译
尽管多尺度稀疏张量的卷积表示表明其较高的效率,可以准确地模拟密集对象点云的几何形状分量压缩的占用概率,但其代表稀疏的LIDAR点云几何形状(PCG)的能力在很大程度上受到限制。这是因为1)卷积的固定接受场不能很好地表征极其分布的稀疏点点; 2)经过固定权重的经过预定的卷积不足以动态捕获在输入条件下的信息。因此,这项工作暗示了邻里点的注意(NPA)来解决它们,在那里我们首先使用K最近的邻居(KNN)来构建自适应的当地社区。然后利用自我发明机制在该社区内动态汇总信息。将这种NPA设计为最佳利用跨尺度和相同相关性的NPA形式,以进行几何占用概率估计。与使用标准化G-PCC锚的锚相比,我们的方法为有损压缩提供了> 17%的BD率增长,并且使用Semantickitti和Ford数据集中流行的LIDAR点云的无损场景降低了> 14%的比特率。与使用注意力优化的OCTREE编码方法的最先进的(SOTA)解决方案相比,我们的方法平均需要减少分解运行时的分解时间要少得多,同时仍提出更好的压缩效率。
translated by 谷歌翻译
点云是3D内容的至关重要表示,在虚拟现实,混合现实,自动驾驶等许多领域已广泛使用,随着数据中点数的增加,如何有效地压缩点云变为一个具有挑战性的问题。在本文中,我们提出了一组基于贴片的点云压缩的重大改进,即用于熵编码的可学习上下文模型,用于采样质心点的OCTREE编码以及集成的压缩和训练过程。此外,我们提出了一个对抗网络,以改善重建过程中点的均匀性。我们的实验表明,改进的基于斑块的自动编码器在稀疏和大规模点云上的速率延伸性能方面优于最先进的。更重要的是,我们的方法可以在确保重建质量的同时保持短时间的压缩时间。
translated by 谷歌翻译
本文档描述了基于深度学习的点云几何编解码器和基于深度学习的点云关节几何和颜色编解码器,并提交给2022年1月发出的JPEG PLENO点云编码的建议。拟议的编解码器是基于最新的。基于深度学习的PC几何编码的发展,并提供了呼吁提案的一些关键功能。拟议的几何编解码器提供了一种压缩效率,可超过MPEG G-PCC标准和胜过MPEG的效率,或者与V-PCC Intra Intra Interra Interra Intra标准的竞争力均超过了jpeg呼叫提案测试集;但是,由于需要克服的质量饱和效应,关节几何和颜色编解码器不会发生同样的情况。
translated by 谷歌翻译
为基于几何的点云压缩(G-PCC)标准开发了基于学习的自适应环滤波器,以减少属性压缩工件。提出的方法首先生成多个最可行的样品偏移(MPSO)作为潜在的压缩失真近似值,然后线性权重以减轻伪影。因此,我们将过滤后的重建驱动尽可能靠近未压缩的PCA。为此,我们设计了一个由两个连续的处理阶段组成的压缩工件还原网络(CARNET):MPSOS推导和MPSOS组合。 MPSOS派生使用两个流网络来模拟来自直接空间嵌入和频率依赖性嵌入的局部邻域变化,在该嵌入中,稀疏的卷积被利用可从细微和不规则分布的点中最佳汇总信息。 MPSOS组合由最小平方误量学指导,以进一步捕获输入PCAS的内容动力学,从而得出加权系数。 Carnet作为GPCC的环内过滤工具实现,其中这些线性加权系数被封装在比特斯流中,并以忽略不计的比特率开销。实验结果表明,对最新的GPCC的主观和客观性都显着改善。
translated by 谷歌翻译
基于几何点云压缩(G-PCC)可以为点云实现显着的压缩效率。但是,它仍然导致严重的属性压缩伪影,尤其是在低比特率方案下。在本文中,我们提出了一个多尺度图注意网络(MS-GAT),以删除由G-PCC压缩的点云属性的伪影。我们首先构建基于点云几何坐标的图形,然后使用Chebyshev Graph卷曲来提取点云属性的特征。考虑到一个点可以与离IT附近和远离它的点来相关,我们提出了一种多尺度方案来捕获当前点与其相邻和远处的远程之间的短距离和长距离相关性。为了解决各种点可能具有由自适应量化引起的不同程度的不同程度的问题,我们将量化步骤介绍为对所提出的网络的额外输入。我们还将图形注意力层纳入网络中,以特别关注具有更多属性工件的点。据我们所知,这是G-PCC的第一个属性伪影删除方法。我们在各种点云上验证了我们方法的有效性。实验结果表明,我们的提出方法平均降低了9.28%的BD速率。此外,我们的方法可以实现下游点云语义分割任务的一些性能改进。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
学习的视频压缩方法在赶上其速率 - 失真(R-D)性能时,追赶传统视频编解码器的许多承诺。然而,现有的学习视频压缩方案受预测模式和固定网络框架的绑定限制。它们无法支持各种帧间预测模式,从而不适用于各种场景。在本文中,为了打破这种限制,我们提出了一种多功能学习的视频压缩(VLVC)框架,它使用一个模型来支持所有可能的预测模式。具体而言,为了实现多功能压缩,我们首先构建一个运动补偿模块,该模块应用用于在空间空间中的加权三线性翘曲的多个3D运动矢量字段(即,Voxel流量)。 Voxel流量传达了时间参考位置的信息,有助于与框架设计中的帧间预测模式分离。其次,在多参考帧预测的情况下,我们应用流预测模块以预测具有统一多项式函数的准确运动轨迹。我们表明流量预测模块可以大大降低体素流的传输成本。实验结果表明,我们提出的VLVC不仅支持各种设置中的多功能压缩,而且还通过MS-SSIM的最新VVC标准实现了可比的R-D性能。
translated by 谷歌翻译
我们认为,作为离散位置向量值体积功能的采样点云的属性。为了压缩所提供的位置属性,我们压缩体积函数的参数。我们通过平铺空间成块,并通过基于坐标的,或隐式的,神经网络的偏移较每个块中的函数的体积函数建模。输入到网络包括空间坐标和每个块的潜矢量。我们代表使用区域自适应分级的系数潜矢量变换在MPEG基于几何形状的点云的编解码器G-PCC使用(RAHT)。的系数,这是高度可压缩的,是速率 - 失真通过在自动解码器配置的速率 - 失真拉格朗日损失由反向传播最优化。结果由2-4分贝优于RAHT。这是第一工作由局部坐标为基础的神经网络为代表的压缩体积的功能。因此,我们希望它是适用超越的点云,例如高分辨率的神经辐射场的压缩。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
最近,学习的视频压缩引起了很多关注,并显示出令人鼓舞的结果的快速发展趋势。但是,先前的作品仍然存在一些批评问题,并且在广泛使用的PSNR度量方面,具有传统压缩标准的性​​能差距。在本文中,我们提出了几种技术来有效提高性能。首先,为了解决累积错误的问题,我们将有条件的I框架作为GOP中的第一帧,该框架稳定了重建的质量并节省了比特率。其次,为了有效地提高相互预测的准确性而不增加解码器的复杂性,我们提出了一种像素到功能的运动预测方法,可以帮助我们获得高质量的运动信息。第三,我们提出了一种基于概率的熵跳过方法,该方法不仅带来了性能增长,而且大大降低了熵编码的运行时。借助这些强大的技术,本文提出了Alphavc,这是一种高性能且高效的学习视频压缩方案。据我们所知,Alphavc是第一个E2E AI编解码器,它超过了PSNR的所有常见测试数据集上最新的压缩标准VVC(-28.2%BD率节省)和MSSSSIM(-52.2%BD-rate节省),并且具有非常快速的编码(0.001x VVC)和解码(1.69x VVC)速度。
translated by 谷歌翻译
神经图像编码现在表示现有的图像压缩方法。但是,在视频域中仍有很多工作。在这项工作中,我们提出了一部结束了学习的视频编解码器,介绍了几个建筑Noveltize以及培训Noveltizes,围绕适应和关注的概念。我们的编解码器被组织为与帧间编解码器配对的帧内编解码器。作为一种建筑新颖,我们建议培训帧间编解码器模型以基于输入视频的分辨率来调整运动估计处理。第二个建筑新奇是一种新的神经块,它将基于分裂的神经网络和Densenets的概念结合了。最后,我们建议在推理时间内过度装备一组解码器侧乘法参数。通过消融研究和对现有技术的比较,我们在编码收益方面表现出我们所提出的技术的好处。我们将编解码器与VVC / H.266和RLVC进行比较,该rlvc分别代表最先进的传统和端到端学习的编解码器,并在2021年在2021年在2021年执行端到端学习方法竞争,e2e_t_ol。我们的编解码器显然优于E2E_T_OL,并在某些设置中对VVC和RLVC有利地进行比较。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
Point Cloud上采样是增强现实,虚拟现实和触觉场景所必需的。尽管对几何形状的提升进行了充分的研究以使点云坐标致密,但颜色的上采样已在很大程度上被忽略了。在本文中,我们提出了Cu-net,这是第一个深度学习点云颜色上采样模型。基于稀疏卷积和基于神经隐式函数的颜色预测模块利用特征提取器,Cu-net实现了线性时间和空间的复杂性。因此,在理论上,CU-NET比具有二次复杂性的大多数现有方法更有效。实验结果表明,Cu-net可以实时用近一百万分为单位逼真的点云上色,同时具有比基线更好的视觉质量。此外,Cu-net可以适应任意的上采样比和看不见的对象。我们的源代码将很快发布给公众。
translated by 谷歌翻译
本文解决了从给定稀疏点云生成密集点云的问题,以模拟物体/场景的底层几何结构。为了解决这一具有挑战性的问题,我们提出了一种新的基于端到端学习的框架。具体地,通过利用线性近似定理,我们首先明确地制定问题,这逐到确定内插权和高阶近似误差。然后,我们设计轻量级神经网络,通过分析输入点云的局部几何体,自适应地学习统一和分类的插值权重以及高阶改进。所提出的方法可以通过显式制定来解释,因此比现有的更高的内存效率。与仅用于预定义和固定的上采样因子的现有方法的鲜明对比,所提出的框架仅需要一个单一的神经网络,一次性训练可以在典型范围内处理各种上采样因子,这是真实的-world应用程序。此外,我们提出了一种简单但有效的培训策略来推动这种灵活的能力。此外,我们的方法可以很好地处理非均匀分布和嘈杂的数据。合成和现实世界数据的广泛实验证明了所提出的方法在定量和定性的最先进方法上的优越性。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译