With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
translated by 谷歌翻译
3D点云的客观质量评估对于在现实世界应用中的沉浸式多媒体系统的开发至关重要。尽管对2D图像和视频的感知质量评估成功,但对于具有大规模不规则分布的3D点的3D点云仍然很少。因此,在本文中,我们提出了一个带有结构引导重采样(SGR)的客观点云质量指数,以自动评估3D密集点云的感知视觉质量。所提出的SGR是无需任何参考信息的通用盲质量评估方法。具体而言,考虑到人类视觉系统(HVS)对结构信息高度敏感,我们首先利用点云的唯一正常向量来执行区域预处理,其中包括按键重新采样和局部区域构建。然后,我们提取三组与质量相关的特征,包括:1)几何密度特征; 2)颜色自然特征; 3)角度一致性特征。人脑的认知特征和自然性的规律性都涉及设计的质量感知功能,这些特征可以捕获扭曲的3D点云的最重要方面。对几个公开可用的主点云质量数据库进行的广泛实验验证了我们提出的SGR可以与最新的全参考,减少引用和无参考质量评估算法竞争。
translated by 谷歌翻译
由于预计不断增长的3D视觉应用程序将为用户提供具有成本效益和高质量的体验,因此人们非常强调点云的视觉质量。回顾点云质量评估(PCQA)方法的开发,通常通过使用单模式信息,即从2D投影或3D点云中提取的视觉质量进行评估。 2D投影包含丰富的纹理和语义信息,但高度依赖于观点,而3D点云对几何变形更敏感,并且对观点不变。因此,为了利用点云和投影图像模式的优势,我们提出了一种新型的无引用点云质量评估(NR-PCQA),以多模式方式进行。在具体上,我们将点云分为子模型,以表示局部几何变形,例如点移和下采样。然后,我们将点云渲染为2D图像投影,以进行纹理特征提取。为了实现目标,子模型和投影图像由基于点和基于图像的神经网络编码。最后,使用对称的跨模式注意来融合多模式质量意识的信息。实验结果表明,我们的方法的表现都优于所有最新方法,并且远远超过了先前的NR-PCQA方法,这突出了所提出方法的有效性。
translated by 谷歌翻译
Point Cloud是3D内容使用最广泛使用的数字表示格式之一,其视觉质量可能会在生产过程中遇到噪声和几何变化,以及在传输过程中的压缩和压缩采样。为了应对点云质量评估(PCQA)的挑战,已经提出了许多PCQA方法来评估点云的视觉质量水平,以评估渲染的静态2D投影。尽管这种基于投影的PCQA方法在成熟图像质量评估(IQA)方法的帮助下实现了竞争性能,但它们忽略了动态质量感知信息,这与观察者倾向于通过两种静态感知点云的事实完全不符和动态视图。因此,在本文中,我们将点云视为移动相机视频,并通过使用视频质量评估(VQA)方法(NR)方式探索处理PCQA任务的方式。首先,我们通过四个圆形路径将相机围绕点云旋转来生成捕获的视频。然后,我们分别使用可训练的2D-CNN和预训练的3D-CNN模型从所选的关键帧和视频剪辑中提取空间和时间质量感知功能。最后,点云的视觉质量由回归的视频质量值表示。实验结果表明,所提出的方法可有效预测点云的视觉质量水平,甚至可以使用全参考(FR)PCQA方法竞争。消融研究进一步验证了提出的框架的合理性,并确认了从动态视图中提取的质量感知特征所做的贡献。
translated by 谷歌翻译
我们提出了一种小说的无参考质量评估度量,图像转移点云质量评估(IT-PCQA),用于3D点云。对于质量评估,深度神经网络(DNN)在无参考度量设计上显示了令人信服的性能。但是,无引用PCQA最具挑战性的问题是我们缺乏大规模的主观数据库来驱动强大的网络。我们的动机是人类视觉系统(HVS)是决策者,无论质量评估的媒体类型如何。利用自然图像的丰富主观评分,我们可以通过DNN探讨人类感知的评估标准,并将预测的能力转移到3D点云。特别是,我们将自然图像视为源域和点云作为目标域,并通过无监督的对抗域适应推断云质量。为了提取有效的潜在特征并最小化域差异,我们提出了分层特征编码器和条件鉴别网络。考虑到最终目的是回归客观评分,我们在条件鉴别网络中引入了一种新的条件跨熵损失,以惩罚阻碍质量回归网络的收敛的负样本。实验结果表明,该方法可以实现比传统的无参考度量更高的性能,甚至与全引用度量的相当结果。该方法还表明,在没有昂贵和繁琐的主观评估的情况下评估特定媒体内容质量的可行性。
translated by 谷歌翻译
基于几何点云压缩(G-PCC)可以为点云实现显着的压缩效率。但是,它仍然导致严重的属性压缩伪影,尤其是在低比特率方案下。在本文中,我们提出了一个多尺度图注意网络(MS-GAT),以删除由G-PCC压缩的点云属性的伪影。我们首先构建基于点云几何坐标的图形,然后使用Chebyshev Graph卷曲来提取点云属性的特征。考虑到一个点可以与离IT附近和远离它的点来相关,我们提出了一种多尺度方案来捕获当前点与其相邻和远处的远程之间的短距离和长距离相关性。为了解决各种点可能具有由自适应量化引起的不同程度的不同程度的问题,我们将量化步骤介绍为对所提出的网络的额外输入。我们还将图形注意力层纳入网络中,以特别关注具有更多属性工件的点。据我们所知,这是G-PCC的第一个属性伪影删除方法。我们在各种点云上验证了我们方法的有效性。实验结果表明,我们的提出方法平均降低了9.28%的BD速率。此外,我们的方法可以实现下游点云语义分割任务的一些性能改进。
translated by 谷歌翻译
Following the advent of immersive technologies and the increasing interest in representing interactive geometrical format, 3D Point Clouds (PC) have emerged as a promising solution and effective means to display 3D visual information. In addition to other challenges in immersive applications, objective and subjective quality assessments of compressed 3D content remain open problems and an area of research interest. Yet most of the efforts in the research area ignore the local geometrical structures between points representation. In this paper, we overcome this limitation by introducing a novel and efficient objective metric for Point Clouds Quality Assessment, by learning local intrinsic dependencies using Graph Neural Network (GNN). To evaluate the performance of our method, two well-known datasets have been used. The results demonstrate the effectiveness and reliability of our solution compared to state-of-the-art metrics.
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
基于激光雷达的3D单一对象跟踪是机器人技术和自动驾驶中的一个具有挑战性的问题。当前,现有方法通常会遇到长距离对象通常具有非常稀疏或部分倾斜的点云的问题,这使得模型含糊不清。模棱两可的功能将很难找到目标对象,并最终导致不良跟踪结果。为了解决此问题,我们使用功能强大的变压器体系结构,并为基于点云的3D单一对象跟踪任务提出一个点轨转换器(PTT)模块。具体而言,PTT模块通过计算注意力重量来生成微调的注意力特征,该功能指导追踪器的重点关注目标的重要功能,并提高复杂场景中的跟踪能力。为了评估我们的PTT模块,我们将PTT嵌入主要方法中,并构建一个名为PTT-NET的新型3D SOT跟踪器。在PTT-NET中,我们分别将PTT嵌入了投票阶段和提案生成阶段。投票阶段中的PTT模块可以模拟点斑块之间的交互作用,该点贴片学习上下文依赖于上下文。同时,提案生成阶段中的PTT模块可以捕获对象和背景之间的上下文信息。我们在Kitti和Nuscenes数据集上评估了PTT-NET。实验结果证明了PTT模块的有效性和PTT-NET的优越性,PTT-NET的优势超过了基线,在CAR类别中〜10%。同时,我们的方法在稀疏场景中也具有显着的性能提高。通常,变压器和跟踪管道的组合使我们的PTT-NET能够在两个数据集上实现最先进的性能。此外,PTT-NET可以在NVIDIA 1080TI GPU上实时以40fps实时运行。我们的代码是为研究社区开源的,网址为https://github.com/shanjiayao/ptt。
translated by 谷歌翻译
点云上采样是为了使从3D传感器获得的稀疏点集致密,从而为基础表面提供了密度的表示。现有方法将输入点划分为小贴片,并分别对每个贴片进行整理,但是,忽略了补丁之间的全局空间一致性。在本文中,我们提出了一种新颖的方法PC $^2 $ -PU,该方法探讨了贴片对点和点对点相关性,以实现更有效和强大的点云上采样。具体而言,我们的网络有两个吸引人的设计:(i)我们将相邻的补丁作为补充输入来补偿单个补丁中的损失结构信息,并引入一个补丁相关模块以捕获补丁之间的差异和相似性。 (ii)在增强每个贴片的几何形状后,我们进一步引入了一个点相关模块,以揭示每个贴片内部的关系以维持局部空间一致性。对合成和真实扫描数据集进行的广泛实验表明,我们的方法超过了以前的上采样方法,尤其是在嘈杂的输入中。代码和数据位于\ url {https://github.com/chenlongwhu/pc2-pu.git}。
translated by 谷歌翻译
Point Cloud是3D模型使用最广泛的数字格式之一,其视觉质量对扭曲(例如下采样,噪声和压缩)非常敏感。为了在没有参考的情况下应对点云质量评估(PCQA)的挑战,我们建议基于捕获的视频序列对彩色点云进行无参考质量评估指标。具体而言,通过将摄像机围绕点云旋转三个特定轨道来获得三个视频序列。视频序列不仅包含静态视图,而且还包含多帧的时间信息,这极大地有助于了解人类对点云的感知。然后,我们将RESNET3D修改为特征提取模型,以了解捕获视频与相应的主观质量分数之间的相关性。实验结果表明,我们的方法的表现优于最先进的全参考和无参考PCQA指标,从而验证了所提出的方法的有效性。
translated by 谷歌翻译
360 {\ TextDegree}视频的盲目视觉质量评估(BVQA)在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时,人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影,以视频级质量分数为止,即渐进性质量评估范式。然而,现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中,我们考虑了人类对球面视频质量的逐步范例,因此提出了一种新颖的BVQA方法(即ProvQA),通过逐步学习从像素,帧和视频中逐步学习。对应于像素,帧和视频的渐进学习,三个子网被设计为我们的PROPQA方法,即球形感知感知质量预测(SPAQ),运动感知感知质量预测(MPAQ)和多帧时间非本地(MFTN)子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后,通过跨越相邻帧的运动提示,MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后,MFTN子网聚集多帧质量劣化,通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能,该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}
translated by 谷歌翻译
变压器在各种计算机视觉地区发挥着越来越重要的作用,并且在点云分析中也取得了显着的成就。由于它们主要专注于点亮变压器,因此本文提出了一种自适应通道编码变压器。具体地,被设计为对频道的通道卷积旨在对信道进行编码。它可以通过捕获坐标和特征之间的潜在关系来编码特征通道。与简单地为每个通道分配注意重量相比,我们的方法旨在自适应地对信道进行编码。此外,我们的网络采用了邻域搜索方法的低级和高级双语义接收领域,以提高性能。广泛的实验表明,我们的方法优于三个基准数据集的最先进的点云分类和分段方法。
translated by 谷歌翻译
任意神经风格转移是一个重要的主题,具有研究价值和工业应用前景,该主题旨在使用另一个样式呈现一个图像的结构。最近的研究已致力于任意风格转移(AST)的任务,以提高风格化质量。但是,关于AST图像的质量评估的探索很少,即使它可以指导不同算法的设计。在本文中,我们首先构建了一个新的AST图像质量评估数据库(AST-IQAD),该数据库包括150个内容样式的图像对以及由八种典型AST算法产生的相应的1200个风格化图像。然后,在我们的AST-IQAD数据库上进行了一项主观研究,该研究获得了三种主观评估(即内容保存(CP),样式相似(SR)和整体视觉(OV),该数据库获得了所有风格化图像的主观评分评分。 。为了定量测量AST图像的质量,我们提出了一个新的基于稀疏表示的图像质量评估度量(SRQE),该指标(SRQE)使用稀疏特征相似性来计算质量。 AST-IQAD的实验结果证明了该方法的优越性。数据集和源代码将在https://github.com/hangwei-chen/ast-iqad-srqe上发布
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
随着激光雷达传感器和3D视觉摄像头的扩散,3D点云分析近年来引起了重大关注。经过先驱工作点的成功后,基于深度学习的方法越来越多地应用于各种任务,包括3D点云分段和3D对象分类。在本文中,我们提出了一种新颖的3D点云学习网络,通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络(DPFA-NET)。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块,我们提出了一个特征聚合层,其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比,来自固定邻域的聚合特征,我们的方法可以在不同层中聚合来自不同邻居的特征,在不同层中为查询点提供更具选择性和更广泛的视图,并更多地关注本地邻域中的相关特征。此外,为了进一步提高所提出的语义分割模型的性能,我们提出了两种新方法,即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明,所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数,在S3DIS数据集上进行了语义分割,并在不同的语义分割,部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比,它也在计算上更有效。
translated by 谷歌翻译
本文解决了从给定稀疏点云生成密集点云的问题,以模拟物体/场景的底层几何结构。为了解决这一具有挑战性的问题,我们提出了一种新的基于端到端学习的框架。具体地,通过利用线性近似定理,我们首先明确地制定问题,这逐到确定内插权和高阶近似误差。然后,我们设计轻量级神经网络,通过分析输入点云的局部几何体,自适应地学习统一和分类的插值权重以及高阶改进。所提出的方法可以通过显式制定来解释,因此比现有的更高的内存效率。与仅用于预定义和固定的上采样因子的现有方法的鲜明对比,所提出的框架仅需要一个单一的神经网络,一次性训练可以在典型范围内处理各种上采样因子,这是真实的-world应用程序。此外,我们提出了一种简单但有效的培训策略来推动这种灵活的能力。此外,我们的方法可以很好地处理非均匀分布和嘈杂的数据。合成和现实世界数据的广泛实验证明了所提出的方法在定量和定性的最先进方法上的优越性。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
机载激光扫描(ALS)点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现,但他们忽略了接受场的统一性,这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中,为了配置多受感受性的场特征,我们提出了一个新型的接受场融合和分层网络(RFFS-NET)。以新颖的扩张图卷积(DGCONV)及其扩展环形扩张卷积(ADCONV)作为基本的构建块,使用扩张和环形图融合(Dagfusion)模块实现了接受场融合过程,该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础,使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层,并由多层接受场聚集损失(MRFALOSS)驱动,以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层,RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估,我们的RFFS-NET显着优于MF1的基线方法5.3%,而MIOU的基线方法的总体准确性为82.1%,MF1的总准确度为71.6%,MIOU的MF1和MIOU为58.2%。此外,LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示,RFFS-NET可以实现新的最新分类性能。
translated by 谷歌翻译