为了在盲图超级分辨率(SR)上取得有希望的结果,一些尝试利用低分辨率(LR)图像来预测内核并改善SR性能。但是,由于不可用的现实世界模糊内核,这些监督的内核预测(SKP)方法是不切实际的。尽管提出了一些无监督的降解预测(UDP)方法来绕过此问题,但\ textIt {contercestency}之间的降解嵌入和SR功能之间仍然具有挑战性。通过探索降解嵌入与SR功能之间的相关性,我们观察到共同学习内容和降解感知功能是最佳的。基于此观察结果,提出了一个名为CDSR的内容和退化的SR网络。具体而言,CDSR包含三个新建立的模块:(1)将基于重量的编码器(LPE)应用于共同提取内容和降解功能; (2)采用基于域查询的基于注意力的模块(DQA)来适应不一致; (3)基于密码的空格压缩模块(CSC),可以抑制冗余信息。对几个基准测试的广泛实验表明,即使与最先进的SKP方法相比,提议的CDSR的表现都优于现有的UDP模型,并在PSNR和SSIM上实现竞争性能。
translated by 谷歌翻译
在3D点云的一代任务中,点云完成越来越流行,因为从其部分观察结果中恢复了3D对象的完整形状是一个具有挑战性但必不可少的问题。在本文中,我们提出了一种新型的种子形式,以提高点云完成中细节保存和恢复的能力。与以前的基于全局特征向量的方法不同,我们引入了一种新的形状表示形式,即补丁种子,不仅可以从部分输入中捕获一般结构,而且还保留了本地模式的区域信息。然后,通过将种子特征集成到生成过程中,我们可以以粗到精细的方式恢复忠实的细节,以获取完整的点云。此外,我们通过将变压器结构扩展到点发生器的基本操作来设计上样本变压器,该结构有效地结合了相邻点之间的空间和语义关系。定性和定量评估表明,我们的方法在多个基准数据集上优于最先进的完成网络。我们的代码可从https://github.com/hrzhou2/seedformer获得。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使在标记的源域上训练的模型适应未标记的目标域。在本文中,我们提出了典型的对比度适应(PROCA),这是一种无监督域自适应语义分割的简单有效的对比度学习方法。以前的域适应方法仅考虑跨各个域的阶级内表示分布的对齐,而阶层间结构关系的探索不足,从而导致目标域上的对齐表示可能不像在源上歧视的那样容易歧视。域了。取而代之的是,ProCA将类间信息纳入班级原型,并采用以班级为中心的分布对齐进行适应。通过将同一类原型与阳性和其他类原型视为实现以集体为中心的分配对齐方式的负面原型,Proca在经典领域适应任务上实现了最先进的性能,{\ em i.e. text {and} synthia $ \ to $ cityScapes}。代码可在\ href {https://github.com/jiangzhengkai/proca} {proca}获得代码
translated by 谷歌翻译
视频实例细分(VIS)是一项在视频中同时需要分类,细分和实例关联的任务。最近的VIS方法依靠复杂的管道来实现此目标,包括与ROI相关的操作或3D卷积。相比之下,我们通过添加额外的跟踪头提出了基于实例分割方法Condinst的简单有效的单阶段VIS框架。为了提高实例关联精度,提出了一种新型的双向时空对比度学习策略,用于跟踪跨帧的嵌入。此外,利用实例的时间一致性方案来产生时间连贯的结果。在YouTube-VIS-2019,YouTube-Vis-2021和OVIS-2021数据集上进行的实验验证了所提出方法的有效性和效率。我们希望所提出的框架可以作为许多其他实例级视频关联任务的简单而强大的替代方案。
translated by 谷歌翻译
最近,在一步的Panoptic细分方法上越来越关注,旨在有效地旨在在完全卷积的管道内共同分割实例和材料。但是,大多数现有的工作直接向骨干功能提供给各种分段头,忽略语义和实例分割的需求不同:前者需要语义级别的判别功能,而后者需要跨实例可区分的功能。为了缓解这一点,我们建议首先预测用于增强骨干特征的不同位置之间的语义级和实例级相关性,然后分别将改进的鉴别特征馈送到相应的分割头中。具体地,我们将给定位置与所有位置之间的相关性组织为连续序列,并将其预测为整体。考虑到这种序列可以非常复杂,我们采用离散的傅里叶变换(DFT),一种可以近似由幅度和短语参数化的任意序列的工具。对于不同的任务,我们以完全卷积的方式从骨干网上生成这些参数,该参数通过相应的任务隐含地优化。结果,这些准确和一致的相关性有助于产生符合复杂的Panoptic细分任务的要求的合理辨别特征。为了验证我们的方法的有效性,我们对几个具有挑战性的Panoptic细分数据集进行实验,并以45.1美元\%PQ和ADE20K为32.6美元\%PQ实现最先进的绩效。
translated by 谷歌翻译
在恢复低分辨率灰度图像的实际应用中,我们通常需要为目标设备运行三个单独的图像着色,超分辨率和Dows采样操作。但是,该管道对于独立进程是冗余的并且低效,并且可以共享一些内部特征。因此,我们提出了一种有效的范例来执行{s} {s} {c} olorization和{s} Uper分辨率(SCS),并提出了端到端的SCSNet来实现这一目标。该方法由两部分组成:用于学习颜色信息的彩色分支,用于采用所提出的即插即用\ EMPH {金字塔阀跨关注}(PVCATTN)模块来聚合源和参考图像之间的特征映射;和超分辨率分支集成颜色和纹理信息以预测使用设计的\ emph {连续像素映射}(CPM)模块的目标图像来预测连续放大率的高分辨率图像。此外,我们的SCSNet支持对实际应用更灵活的自动和参照模式。丰富的实验证明了我们通过最先进的方法生成真实图像的方法的优越性,例如,平均降低了1.8 $ \ Depararrow $和5.1 $ \ Downarrow $相比,与自动和参照模式的最佳分数相比,分别在拥有更少的参数(超过$ \ \倍$ 2 $ \ dovearrow $)和更快的运行速度(超过$ \ times $ 3 $ \ Uprarow $)。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅通过使用图像级标签来学习对象本地化器。基于卷积神经网络(CNN)的技术通常导致突出显示物体的最辨别部分,同时忽略整个对象范围。最近,变压器架构已经部署到WSOL,以捕获具有自我关注机制和多层的Perceptron结构的远程特征依赖性。然而,变压器缺乏CNN所固有的局部感应偏差,因此可以恶化WSOL中的局部特征细节。在本文中,我们提出了一种基于变压器的新型框架,称为LCTR(局部连续性变压器),该框架被称为LCTR(局部连续性变压器),该框架在长期特征依赖项中提高全局特征的本地感知能力。为此,我们提出了一个关系的修补程序注意模块(RPAM),其考虑全球跨补丁信息。我们进一步设计了一个CUE挖掘模块(CDM),它利用本地特征来指导模型的学习趋势,以突出弱局部响应。最后,在两个广泛使用的数据集,即Cub-200-2011和ILSVRC上进行综合实验,以验证我们方法的有效性。
translated by 谷歌翻译
在图像中恢复任意缺失区域的合理和现实内容是一个重要而挑战性的任务。尽管最近的图像批量模型在生动的视觉细节方面取得了重大进展,但它们仍然可以导致纹理模糊或由于在处理更复杂的场景时由于上下文模糊而导致的结构扭曲。为了解决这个问题,我们提出了通过学习来自特定借口任务的多尺度语义代理的想法激励的语义金字塔网络(SPN)可以大大使图像中局部缺失内容的恢复极大地利益。 SPN由两个组件组成。首先,它将语义前视图从托管模型蒸馏到多尺度特征金字塔,实现对全局背景和局部结构的一致了解。在现有的学习者内,我们提供了一个可选模块,用于变分推理,以实现由各种学习的前沿驱动的概率图像染色。 SPN的第二组件是完全上下文感知的图像生成器,其在与(随机)先前金字塔一起自适应地和逐渐地改进低级视觉表示。我们将先前的学习者和图像发生器培训为统一模型,而无需任何后处理。我们的方法在多个数据集中实现了本领域的最先进,包括在确定性和概率的侵略设置下,包括Parket2,Paris Streetview,Celeba和Celeba-HQ。
translated by 谷歌翻译
灵感来自生物进化,我们通过比喻与经过验证的实用进化算法(EA)进行了类比的愿景变压器的合理性,并导致它们两者都有一致的数学表示。类似于EA的动态局部人口,我们改善了现有的变压器结构,并提出了更有效的吃模型,并设计任务相关的头来处理不同的任务更灵活。此外,我们将空间填充曲线介绍到电流视觉变压器中以将图像数据序列为均匀的顺序格式。因此,我们可以设计一个统一的Eat框架来解决多模式任务,将网络架构与数据格式自适应分开。与最近的视觉变压器工作相比,我们的方法对ImageNet分类任务进行了最先进的结果,同时具有较小的参数和更高的吞吐量。我们进一步开展多模态任务,以展示统一的饮食的优越性,例如基于文本的图像检索,我们的方法在CSS数据集上的基线上通过+3.7点提高了+3.7点。
translated by 谷歌翻译
Recently, very deep convolutional neural networks (CNNs) have been attracting considerable attention in image restoration. However, as the depth grows, the long-term dependency problem is rarely realized for these very deep models, which results in the prior states/layers having little influence on the subsequent ones. Motivated by the fact that human thoughts have persistency, we propose a very deep persistent memory network (MemNet) that introduces a memory block, consisting of a recursive unit and a gate unit, to explicitly mine persistent memory through an adaptive learning process. The recursive unit learns multi-level representations of the current state under different receptive fields. The representations and the outputs from the previous memory blocks are concatenated and sent to the gate unit, which adaptively controls how much of the previous states should be reserved, and decides how much of the current state should be stored. We apply MemNet to three image restoration tasks, i.e., image denosing, superresolution and JPEG deblocking. Comprehensive experiments demonstrate the necessity of the MemNet and its unanimous superiority on all three tasks over the state of the arts. Code is available at https://github.com/ tyshiwo/MemNet.
translated by 谷歌翻译