最近,在一步的Panoptic细分方法上越来越关注,旨在有效地旨在在完全卷积的管道内共同分割实例和材料。但是,大多数现有的工作直接向骨干功能提供给各种分段头,忽略语义和实例分割的需求不同:前者需要语义级别的判别功能,而后者需要跨实例可区分的功能。为了缓解这一点,我们建议首先预测用于增强骨干特征的不同位置之间的语义级和实例级相关性,然后分别将改进的鉴别特征馈送到相应的分割头中。具体地,我们将给定位置与所有位置之间的相关性组织为连续序列,并将其预测为整体。考虑到这种序列可以非常复杂,我们采用离散的傅里叶变换(DFT),一种可以近似由幅度和短语参数化的任意序列的工具。对于不同的任务,我们以完全卷积的方式从骨干网上生成这些参数,该参数通过相应的任务隐含地优化。结果,这些准确和一致的相关性有助于产生符合复杂的Panoptic细分任务的要求的合理辨别特征。为了验证我们的方法的有效性,我们对几个具有挑战性的Panoptic细分数据集进行实验,并以45.1美元\%PQ和ADE20K为32.6美元\%PQ实现最先进的绩效。
translated by 谷歌翻译
在恢复低分辨率灰度图像的实际应用中,我们通常需要为目标设备运行三个单独的图像着色,超分辨率和Dows采样操作。但是,该管道对于独立进程是冗余的并且低效,并且可以共享一些内部特征。因此,我们提出了一种有效的范例来执行{s} {s} {c} olorization和{s} Uper分辨率(SCS),并提出了端到端的SCSNet来实现这一目标。该方法由两部分组成:用于学习颜色信息的彩色分支,用于采用所提出的即插即用\ EMPH {金字塔阀跨关注}(PVCATTN)模块来聚合源和参考图像之间的特征映射;和超分辨率分支集成颜色和纹理信息以预测使用设计的\ emph {连续像素映射}(CPM)模块的目标图像来预测连续放大率的高分辨率图像。此外,我们的SCSNet支持对实际应用更灵活的自动和参照模式。丰富的实验证明了我们通过最先进的方法生成真实图像的方法的优越性,例如,平均降低了1.8 $ \ Depararrow $和5.1 $ \ Downarrow $相比,与自动和参照模式的最佳分数相比,分别在拥有更少的参数(超过$ \ \倍$ 2 $ \ dovearrow $)和更快的运行速度(超过$ \ times $ 3 $ \ Uprarow $)。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅通过使用图像级标签来学习对象本地化器。基于卷积神经网络(CNN)的技术通常导致突出显示物体的最辨别部分,同时忽略整个对象范围。最近,变压器架构已经部署到WSOL,以捕获具有自我关注机制和多层的Perceptron结构的远程特征依赖性。然而,变压器缺乏CNN所固有的局部感应偏差,因此可以恶化WSOL中的局部特征细节。在本文中,我们提出了一种基于变压器的新型框架,称为LCTR(局部连续性变压器),该框架被称为LCTR(局部连续性变压器),该框架在长期特征依赖项中提高全局特征的本地感知能力。为此,我们提出了一个关系的修补程序注意模块(RPAM),其考虑全球跨补丁信息。我们进一步设计了一个CUE挖掘模块(CDM),它利用本地特征来指导模型的学习趋势,以突出弱局部响应。最后,在两个广泛使用的数据集,即Cub-200-2011和ILSVRC上进行综合实验,以验证我们方法的有效性。
translated by 谷歌翻译
在图像中恢复任意缺失区域的合理和现实内容是一个重要而挑战性的任务。尽管最近的图像批量模型在生动的视觉细节方面取得了重大进展,但它们仍然可以导致纹理模糊或由于在处理更复杂的场景时由于上下文模糊而导致的结构扭曲。为了解决这个问题,我们提出了通过学习来自特定借口任务的多尺度语义代理的想法激励的语义金字塔网络(SPN)可以大大使图像中局部缺失内容的恢复极大地利益。 SPN由两个组件组成。首先,它将语义前视图从托管模型蒸馏到多尺度特征金字塔,实现对全局背景和局部结构的一致了解。在现有的学习者内,我们提供了一个可选模块,用于变分推理,以实现由各种学习的前沿驱动的概率图像染色。 SPN的第二组件是完全上下文感知的图像生成器,其在与(随机)先前金字塔一起自适应地和逐渐地改进低级视觉表示。我们将先前的学习者和图像发生器培训为统一模型,而无需任何后处理。我们的方法在多个数据集中实现了本领域的最先进,包括在确定性和概率的侵略设置下,包括Parket2,Paris Streetview,Celeba和Celeba-HQ。
translated by 谷歌翻译
我们呈现NERF-SR,一种用于高分辨率(HR)新型视图合成的解决方案,主要是低分辨率(LR)输入。我们的方法是基于神经辐射场(NERF)的内置,其预测每点密度和颜色,具有多层的射击。在在任意尺度上产生图像时,NERF与超越观察图像的分辨率努力。我们的关键识别是NERF具有本地之前的,这意味着可以在附近区域传播3D点的预测,并且保持准确。我们首先通过超级采样策略来利用它,该策略在每个图像像素处射击多个光线,这在子像素级别强制了多视图约束。然后,我们表明,NERF-SR可以通过改进网络进一步提高超级采样的性能,该细化网络利用估计的深度来实现HR参考图像上的相关补丁的幻觉。实验结果表明,NERF-SR在合成和现实世界数据集的HR上为新型视图合成产生高质量结果。
translated by 谷歌翻译
倒角距离(CD)和地球移动器的距离(EMD)是两个广泛采用的度量标准,用于测量两点集之间的相似性。然而,CD通常对不匹配的局部密度不敏感,EMD通常由全球分配主导,而忽略了详细结构的保真度。此外,他们的无限值范围从异常值引起沉重的影响。这些缺陷可防止它们提供一致的评估。为了解决这些问题,我们提出了一个名为密度感知倒角距离(DCD)的新的相似度量。它来自CD的源自来自若干所需性质的效果:1)它可以检测密度分布的差异,因此与CD相比更加强烈的相似性。 2)更严格,具有详细的结构,比EMD明显更加计算; 3)界限值范围促进整个测试集更稳定和合理的评估。我们采用DCD来评估点云完成任务,实验结果表明,DCD关注整体结构和本地几何细节,即使CD和EMD相互矛盾,也能提供更可靠的评估。我们还可以使用DCD作为培训损失,这胜过与所有三个指标上的CD损失培训的相同模型。此外,我们提出了一种新的点鉴别器模块,其估计另一个引导的下采样步骤的优先级,并且它在DCD下实现了明显的改进以及CD和EMD的竞争结果。我们希望我们的工作可以为更全面而实用的点云相似性评估铺平道路。我们的代码将可用:https://github.com/wutong16/dentions_aware_Chamfer_distance。
translated by 谷歌翻译
3D对象检测是各种实际应用所需的重要功能,例如驾驶员辅助系统。单眼3D检测作为基于图像的方法的代表性的常规设置,提供比依赖Lidars的传统设置更经济的解决方案,但仍然产生不令人满意的结果。本文首先提出了对这个问题的系统研究。我们观察到,目前的单目3D检测可以简化为实例深度估计问题:不准确的实例深度阻止所有其他3D属性预测改善整体检测性能。此外,最近的方法直接估计基于孤立的实例或像素的深度,同时忽略不同对象的几何关系。为此,我们在跨预测对象构建几何关系图,并使用该图来促进深度估计。随着每个实例的初步深度估计通常在这种不均匀的环境中通常不准确,我们纳入了概率表示以捕获不确定性。它提供了一个重要的指标,以确定自信的预测并进一步引导深度传播。尽管基本思想的简单性,但我们的方法,PGD对基蒂和NUSCENES基准的显着改进,尽管在所有单眼视觉的方法中实现了第1个,同时仍保持实时效率。代码和模型将在https://github.com/open-mmlab/mmdetection3d发布。
translated by 谷歌翻译
灵感来自生物进化,我们通过比喻与经过验证的实用进化算法(EA)进行了类比的愿景变压器的合理性,并导致它们两者都有一致的数学表示。类似于EA的动态局部人口,我们改善了现有的变压器结构,并提出了更有效的吃模型,并设计任务相关的头来处理不同的任务更灵活。此外,我们将空间填充曲线介绍到电流视觉变压器中以将图像数据序列为均匀的顺序格式。因此,我们可以设计一个统一的Eat框架来解决多模式任务,将网络架构与数据格式自适应分开。与最近的视觉变压器工作相比,我们的方法对ImageNet分类任务进行了最先进的结果,同时具有较小的参数和更高的吞吐量。我们进一步开展多模态任务,以展示统一的饮食的优越性,例如基于文本的图像检索,我们的方法在CSS数据集上的基线上通过+3.7点提高了+3.7点。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译