最近的工作表明,视觉变压器(VTS)的注意力图在接受自学训练时,可以包含一种语义分割结构,在监督训练时不会自发出现。在本文中,我们明确鼓励这种空间聚类的出现作为一种培训正规化的形式,这种方式包括在标准监督学习中进行自我监督的借口任务。更详细地,我们根据信息熵的空间公式提出了一种VT正则化方法。通过最大程度地减少提议的空间熵,我们明确要求VT生成空间有序的注意图,这是在训练过程中包括基于对象的先验。使用广泛的实验,我们表明,在不同的培训方案,数据集,下游任务和VT体系结构中,提出的正则化方法是有益的。该代码将在接受后可用。
translated by 谷歌翻译
我们为姿势传输任务提供了一种定制的3D网格变压器模型。随着3D姿势转移基本上是依赖于给定网格的变形过程,这项工作的直觉是在具有强大的自我关注机制之间感知给定网格之间的几何不一致。具体而言,我们提出了一种新的几何对比变压器,其具有高效的3D结构感知能力,对给定网格的全局几何不一致。此外,在本地,进一步提出了一种简单但高效的中央测地对比损失,以改善区域几何不一致学习。最后,我们将潜在的等距正则化模块与新的半合成数据集一起呈现,用于跨DataSet 3D姿势传输任务对未知空间。大规模的实验结果证明了我们对SMPL-NPT,浮点和新建议的数据集SMG-3D数据集的最新定量表演的效果,以及在MG布和SMAL数据集中有前途的定性结果。结果证明,我们的方法可以实现鲁棒3D姿势传输,并且广泛地挑战来自跨数据集任务的未知空间的网格。代码和数据集可用。代码可用:https://github.com/mikecheninoulu/cgt。
translated by 谷歌翻译
我们在语义分段(NCDSS)中介绍了新型类发现的新设置,其目的在于将未标记的图像分段,其中给出了从标记的不相交类集之前知识的新类。与看起来在图像分类中的新型类发现的现有方法相比,我们专注于更具挑战性的语义细分。在NCDS中,我们需要区分对象和背景,并处理图像内的多个类的存在,这增加了使用未标记数据的难度。为了解决这个新的设置,我们利用标记的基础数据和显着模型来粗略地集群新颖的课程,以便在我们的基本框架中进行模型培训。此外,我们提出了基于熵的不确定性建模和自我培训(EUMS)框架来克服嘈杂的伪标签,进一步提高了新颖类别的模型性能。我们的欧姆斯利用熵排名技术和动态重新分配来蒸馏清洁标签,从而充分利用自我监督的学习来充分利用嘈杂的数据。我们在Pascal-5 $ ^ i $ dataSet上构建NCDSS基准。广泛的实验表明了基本框架的可行性(实现了平均Miou的49.81%)和欧姆斯框架的有效性(优于9.28%Miou的基本框架)。
translated by 谷歌翻译
最近已经示出了从2D图像中提取隐式3D表示的生成神经辐射场(GNERF)模型,以产生代表刚性物体的现实图像,例如人面或汽车。然而,他们通常难以产生代表非刚性物体的高质量图像,例如人体,这对许多计算机图形应用具有很大的兴趣。本文提出了一种用于人类图像综合的3D感知语义导向生成模型(3D-SAGGA),其集成了GNERF和纹理发生器。前者学习人体的隐式3D表示,并输出一组2D语义分段掩模。后者将这些语义面部掩模转化为真实的图像,为人类的外观添加了逼真的纹理。如果不需要额外的3D信息,我们的模型可以使用照片现实可控生成学习3D人类表示。我们在Deepfashion DataSet上的实验表明,3D-SAGGAN显着优于最近的基线。
translated by 谷歌翻译
为了实现解除不诚格的图像操纵,以前的作品依赖于手动注释。同时,可用的操作仅限于预定义的集合培训的模型。在本文中,我们提出了一种新颖的框架,即预测,预防和评估(PPE),用于解散的文本驱动的图像操纵,其不需要手动注释,因此不限于固定操作。我们的方法通过深入利用大规模预先训练的视觉语言模型剪辑的力量来接近目标。具体地,我们首先预测给定文本命令可能纠缠的属性。然后,基于预测的属性,我们引入了纠缠损失以防止培训期间的缠结。最后,我们提出了一个新的评估度量来评估解除戒开的图像操纵。我们验证了我们对挑战面部编辑任务的方法的有效性。广泛的实验表明,所提出的PPE框架比最新的特写率基线实现了更好的定量和定性结果。
translated by 谷歌翻译
未配对的图像到图像转换的目标是产生反映目标域样式的输出图像,同时保持输入源图像的不相关内容不变。但是,由于缺乏对现有方法的内容变化的关注,来自源图像的语义信息遭受翻译期间的降级。在论文中,为了解决这个问题,我们介绍了一种新颖的方法,全局和局部对齐网络(GLA-NET)。全局对齐网络旨在将输入图像从源域传输到目标域。要有效地这样做,我们通过使用MLP-MILLER基于MATY编码器将多元高斯分布的参数(均值和标准偏差)作为样式特征学习。要更准确地传输样式,我们在编码器中使用自适应实例归一化层,具有目标多功能高斯分布的参数作为输入。我们还采用正常化和可能性损失,以进一步降低领域差距并产生高质量的产出。另外,我们介绍了局部对准网络,该网络采用预磨平的自我监督模型来通过新颖的局部对准丢失来产生注意图,确保翻译网络专注于相关像素。在五个公共数据集上进行的广泛实验表明,我们的方法有效地产生比现有方法更锐利和更现实的图像。我们的代码可在https://github.com/ygjwd12345/glanet获得。
translated by 谷歌翻译
在自动驾驶中,学习可以适应各种环境条件的分割模型至关重要。特别是,具有严重的照明变化的复制是一种推动的需求,因为在日光数据上培训的模型将在夜间训练。在本文中,我们研究了域自适应夜间语义分割(DANS)的问题,旨在学习具有标有日间数据集和未标记的数据集的判别夜间模型,包括粗略对齐的日夜图像对。为此,我们提出了一种新的双向混合(Bi-Mix)框架,用于疏浚,这可以有助于图像平移和分割适应过程。具体地,在图像翻译阶段中,Bi-Mix利用日夜图像对的知识来提高夜间图像致密的质量。另一方面,在分段适应阶段,双混合有效地桥接白天和夜间域之间的分布差距,以使模型适应夜间域。在这两个过程中,双混合简单地通过混合两个样本而无需额外的超参数来操作,因此易于实施。暗苏黎世和夜间驾驶数据集的广泛实验展示了所提出的双组合的优势,并表明我们的方法在丹盘中获得最先进的表现。我们的代码可在https://github.com/ygjwd12345/bimix上获得。
translated by 谷歌翻译
视觉变换器(VTS)作为卷积网络(CNNS)的架构范式替代品。与CNN不同,VT可以捕获图像元素之间的全局关系,并且它们可能具有更大的表示容量。然而,缺乏典型的卷积电感偏差使这些模型比普通的CNN更饥饿。实际上,嵌入在CNN架构设计中的某些本地属性,在VTS中应该从样品中学习。在本文中,我们明确地分析了不同的VTS,比较了他们在小型训练制度中的鲁棒性,并且我们表明,尽管在想象中训练时具有可比的准确性,但它们在较小数据集上的性能可能很大程度上不同。此外,我们提出了一种自我监督的任务,可以从图像中提取其他信息,只有可忽略不计的计算开销。这项任务鼓励VTS学习图像内的空间关系,并使VT培训在训练数据稀缺时更加强劲。我们的任务与标准(监督)培训共同使用,它不依赖于特定的架构选择,因此它可以轻松插入现有的VTS。使用与不同的VTS和数据集进行广泛的评估,我们表明我们的方法可以改善(有时显着地)VTS的最终精度。我们的代码可用于:https://github.com/yhlleo/vts-droc。
translated by 谷歌翻译
为了对线性不可分离的数据进行分类,神经元通常被组织成具有至少一个隐藏层的多层神经网络。灵感来自最近神经科学的发现,我们提出了一种新的神经元模型以及一种新的激活函数,可以使用单个神经元来学习非线性决策边界。我们表明标准神经元随后是新颖的顶端枝晶激活(ADA)可以使用100 \%的精度来学习XOR逻辑函数。此外,我们在计算机视觉,信号处理和自然语言处理中进行五个基准数据集进行实验,即摩洛哥,utkface,crema-d,时尚mnist和微小的想象成,表明ADA和泄漏的ADA功能提供了卓越的结果用于各种神经网络架构的整流线性单元(Relu),泄漏的Relu,RBF和嗖嗖声,例如单隐层或两个隐藏层的多层的Perceptrons(MLPS)和卷积神经网络(CNNS),如LENET,VGG,RESET和字符级CNN。当我们使用具有顶端树突激活(Pynada)的金字塔神经元改变神经元的标准模型时,我们获得进一步的性能改进。我们的代码可用于:https://github.com/raduionescu/pynada。
translated by 谷歌翻译