这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
学习目标域中的未知样本(不存在于源类中)对于无监督域适应(UDA)相当重要。存在两个典型的UDA方案,即开放式和开放式集合,后者假定目标域中并非所有源类都显示在内。但是,大多数先前的方法都是为一个UDA场景而设计的,并且始终在其他UDA方案上表现差。此外,它们还需要在适应过程中标记的源数据,限制其在数据隐私敏感应用中的可用性。为了解决这些问题,本文提出了一种通用模型适应(UMAD)框架,其处理了UDA方案,而无需访问源数据,也不是关于域之间类别的类别的知识。具体而言,我们的目标是使用优雅设计的双头分类器来学习源模型,并将其提供给目标域。在适应期间,我们开发了一种信息丰富的一致性分数,以帮助区分从已知样品中的未知样本。为了在目标域中实现双边适应,我们进一步最大化了局部化的相互信息,以将已知的样本与源分类器对齐,并采用熵丢失,以便分别推动远离源分类边界的未知样本。开放式和开放式的UDA方案的实验表明,umad作为无需访问源数据的统一方法,展示与最先进的数据相关方法的可比性。
translated by 谷歌翻译
类增量学习(CIL)旨在以相位逐相的方式学习多级分类器,其中仅在每个阶段提供类的子集的数据。以前的作品主要专注于初始之后减轻阶段的遗忘。但是,我们发现,在初始阶段改善CIL也是一个有希望的方向。具体而言,我们通过实验表明,在初始阶段直接鼓励CIL学习者将类似的表示类似的表示,因为在所有类别上训练的模型可以大大提升CIL性能。由此激励,我们研究了NA \“IVERY训练初始阶段模型和Oracle模型之间的差异。具体来说,由于这两个模型之间的一个主要区别是培训类的数量,我们研究了这种差异如何影响模型表示。我们发现,通过较少的培训类,每个班级的数据表示位于一个漫长而狭窄的地区;通过更多的培训类,每个阶级的陈述更统一地散射。灵感来自这种观察,我们提出了课堂上的去相关性(CWD)有效地规范了每个类的表示,以更统一地散射,从而模拟与所有类联合训练的模型(即Oracle模型)。我们的CWD易于实施,易于插入现有方法。各种各样的实验基准数据集显示CWD一直在且显着提高现有最先进方法的性能约为1 \%至3 \%。代码将被释放。
translated by 谷歌翻译
在这项工作中,我们在具有稀疏相机视图的设置下,开发了一个可概括和高效的神经辐射场(nerf)管道,用于高保真自由观点人体合成。虽然现有的基于NERF的方法可以合成人体的相当逼真的细节,但是当输入具有自动闭塞时,它们往往会产生差的结果,特别是对于在稀疏视野下的看不见的人类。此外,这些方法通常需要大量的采样点进行渲染,这导致效率低,限制了其现实世界的适用性。为了解决这些挑战,我们提出了一种几何形状导向的进步nerf〜(GP-NERF)。特别地,为了更好地解决自动阻塞,我们设计了一种几何指导的多视图特征集成方法,该多视图特征集成方法在从输入视图集成不完全信息之前利用估计的几何形状,并构建目标人体的完整几何体积。同时,为了实现更高的渲染效率,我们引入了几何形状导向的渐进性渲染管线,其利用几何特征卷和预测的密度值来逐步减少采样点的数量并加快渲染过程。 ZJU-Mocap和Thuman数据集的实验表明,我们的方法在多种泛化设置上显着优于最先进的,而通过应用我们有效的渐进式渲染管道,时间成本降低> 70%。
translated by 谷歌翻译
近期视觉变压器〜(VIT)模型在各种计算机视觉任务中展示了令人鼓舞的结果,因为他们的竞争力通过自我关注建模图像补丁或令牌的长距离依赖性。然而,这些模型通常指定每层中每个令牌特征的类似场景。这种约束不可避免地限制了每个自我注意层在捕获多尺度特征中的能力,从而导致处理具有不同尺度的多个对象的图像的性能下降。为了解决这个问题,我们提出了一种新颖和通用的策略,称为分流的自我关注〜(SSA),它允许VITS为每个关注层的混合秤的关注进行模拟。 SSA的关键概念是将异构接收领域的尺寸注入令牌:在计算自我注意矩阵之前,它选择性地合并令牌以表示较大的对象特征,同时保持某些令牌以保持细粒度的特征。这种新颖的合并方案能够自我注意,以了解具有不同大小的对象之间的关系,并同时降低令牌数字和计算成本。各种任务的广泛实验表明了SSA的优越性。具体而言,基于SSA的变压器实现了84.0 \%的前1个精度,并且在ImageNet上占据了最先进的焦距变压器,只有一半的模型尺寸和计算成本,并且在Coco上超过了焦点变压器1.3映射2.9 MIOU在ADE20K上类似参数和计算成本。代码已在https://github.com/oliverrensu/shunted-transformer发布。
translated by 谷歌翻译
变压器在计算机视觉任务中表现出很大的潜力。常见的信念是他们的注意力令牌混合器模块对他们的能力做出了贡献。但是,最近的作品显示了变压器中的基于关注的模块可以被空间MLP所取代,由此产生的模型仍然表现得很好。基于该观察,我们假设变压器的一般架构,而不是特定的令牌混音器模块对模型的性能更为必要。为了验证这一点,我们刻意用尴尬的简单空间池汇集操作员取代变压器中的注意模块,以仅进行最基本的令牌混合。令人惊讶的是,我们观察到,派生模型称为池,在多台计算机视觉任务上实现了竞争性能。例如,在ImageNet-1K上,泳池制造器实现了82.1%的前1个精度,超越了调节的视觉变压器/ MLP样基线Deit-B / ResmmP-B24,比参数的35%/ 52%的准确度为0.3%/ 1.1%和48%/ 60%的Mac。泳道的有效性验证了我们的假设,并敦促我们启动“MetaFormer”的概念,这是一个从变压器抽象的一般架构,而无需指定令牌混音器。基于广泛的实验,我们认为MetaFormer是在视觉任务上实现最近变压器和MLP样模型的优越结果的关键球员。这项工作要求更具未来的研究,专门用于改善元形器,而不是专注于令牌混音器模块。此外,我们提出的池更换器可以作为未来的MetaFormer架构设计的起始基线。代码可在https://github.com/sail-sg/poolformer使用
translated by 谷歌翻译
我们呈现多视图姿势变压器(MVP),用于从多视图图像估计多人3D姿势。而不是从昂贵的体积表示或从多个检测到的2D重建的每人3D姿势估计从昂贵的体积表示或从多个检测到的2D姿势进行估计3D联合位置,而是MVP以清洁和有效的方式直接回归多人3D姿势,而不依赖于中间任务。具体而言,MVP表示作为学习查询嵌入的骨架关节,并让它们从输入图像中逐渐参加和原因,以直接回归实际的3D联合位置。为了提高这种简单管道的准确性,MVP呈现了一个分层方案,简明地代表了多人骨架关节的查询嵌入,并引入了输入相关的查询适应方法。此外,MVP设计了一种新颖的几何引导注意力机制,称为投影注意力,更精确地熔化每个关节的跨视网膜信息。 MVP还介绍了RAYCONV操作,以将视图依赖的相机几何整合到特征表示中,以增加投射注意。我们通过实验展示我们的MVP模型在几个基准上占据了最先进的方法,同时更有效。值得注意的是,它在挑战的Panoptic DataSet上实现了92.3%的AP25,提高了先前的最佳方法[36],提高了9.8%。 MVP是通用的,并且还可以扩展到恢复SMPL模型表示的人网格,因此可用于建模多人身体形状。代码和模型可在https://github.com/sail-sg/mvp上获得。
translated by 谷歌翻译
最近,DETR通过变压器启动了视觉任务的解决方案,它直接将图像特征映射转换为对象检测结果。虽然有效,但翻译完整的特征映射可能是由于背景的某些区域的冗余计算而成本。在这项工作中,我们封装了将空间冗余降低到新型民意调查和池(PNP)采样模块中的想法,其中我们构建了一个端到端的PNP-DETR架构,可在空间上自适应地分配其计算以更有效。具体地,PNP模块将图像特征映射到精细的前景对象特征向量和少量粗糙背景上下文特征向量。变压器模型在细粗糙度空间内的信息交互,并将要素转化为检测结果。此外,通过改变采样的特征长度,PNP - 增强模型可以通过单个模型立即在性能和计算之间实现各种期望的权衡,而不需要将多个模型作为现有方法训练。因此,在不同的情况下,它提供了更大的部署灵活性,不同的情况下具有不同的计算约束。我们进一步验证了PNP模块对Panoptic分割和最近的基于变压器的图像识别模型VIT的普遍性,并显示了一致的效率增益。我们相信我们的方法对变压器进行有效的视觉视觉分析,其中通常观察到空间冗余。代码将在\ url {https://github.com/twangnh/pnp-detr}上使用。
translated by 谷歌翻译
旨在从长尾数据培训类平衡模型的现有长尾识别方法,通常假设将在均匀的测试类分布上进行评估模型。然而,实际的测试类分布通常违反了这种假设(例如,长尾甚至是长尾的),这将导致现有的方法在现实世界中失败。在这项工作中,我们研究了一个更实用的任务设置,称为测试不稳定的长尾识别,其中训练类分布在测试类分布未知时长尾,可以任意偏斜。除了类别不平衡的问题外,这项任务造成了另一个挑战:培训和测试样本之间的班级分布转移是未识别的。为了处理这项任务,我们提出了一种新的方法,称为测试时间聚合各种专家,提供了两种解决方案策略:(1)一种新的技能 - 多样化专家学习策略,将各种专家培训从单一的处理不同的类分布时颁发不同的专家。长尾训练分配; (2)一种新的测试时间专家聚合策略,利用自我监督来汇总多个专家来处理各种未知的测试分布。理论上我们表明我们的方法具有模拟测试类分布的可提供能力。广泛的实验验证了我们的方法在香草和测试不可知的长尾识别上实现了新的最先进的性能,其中只有三个专家足以处理任意变化的测试级分布。代码可在https://github.com/vanint/tade-agnosticlt获得。
translated by 谷歌翻译
持续学习依次解决学习不同任务的设置。尽管以前的许多解决方案,但大多数仍然遭受重大忘记或昂贵的记忆成本。在这项工作中,针对这些问题,我们首先通过信息理论的镜头来研究持续学习过程,并观察到在学习时从前一个任务中的参数丢失的遗忘。新任务。从这个角度来看,我们提出了一种名为位级信息保留(BLIP)的新的连续学习方法,其通过更新位电平的参数来保留模型参数的信息增益,这可以用参数量化方便地实现。更具体地,BLIP首先列举具有对新输入任务的权重量化的神经网络,然后估计由任务数据提供的每个参数上的信息增益,以确定要冻结的比特以防止遗忘。我们进行广泛的实验,从分类任务到加强学习任务,结果表明,我们的方法更好地生成了与以前最先进的结果相比的结果。实际上,昙花一现接近零忘记,同时只需要在连续学习中需要恒定的记忆开销。
translated by 谷歌翻译