本文比较并对11种UDA验证方法进行排名。验证者估计模型的准确性,这使它们成为任何UDA火车测试管道的重要组成部分。我们对这些验证器进行排名,以指示其中哪些最有用的目的是选择最佳模型,检查点和超参数。此外,我们建议并比较新的有效验证器,并显着改进了现有验证器的版本。据我们所知,这项大规模的基准研究是UDA领域中的第一项。
translated by 谷歌翻译
视觉变压器的最新进展在基于点产生自我注意的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,我们表明,视觉变压器背后的关键要素,即输入自适应,远程和高阶空间相互作用,也可以通过基于卷积的框架有效地实现。我们介绍了递归封闭式卷积($ \ textit {g}^\ textit {n} $ conv),该卷积{n} $ conv)与封闭的卷积和递归设计执行高阶空间交互。新操作是高度灵活和可定制的,它与卷积的各种变体兼容,并将自我注意的两阶相互作用扩展到任意订单,而无需引入大量额外的计算。 $ \ textit {g}^\ textit {n} $ conv可以用作插件模块,以改善各种视觉变压器和基于卷积的模型。根据该操作,我们构建了一个名为Hornet的新型通用视觉骨干家族。关于ImageNet分类,可可对象检测和ADE20K语义分割的广泛实验表明,大黄蜂的表现优于Swin变形金刚,并具有相似的整体体系结构和训练配置的明显边距。大黄蜂还显示出对更多训练数据和更大模型大小的有利可伸缩性。除了在视觉编码器中的有效性外,我们还可以将$ \ textit {g}^\ textit {n} $ conv应用于特定于任务的解码器,并始终通过较少的计算来提高密集的预测性能。我们的结果表明,$ \ textIt {g}^\ textit {n} $ conv可以成为视觉建模的新基本模块,可有效结合视觉变形金刚和CNN的优点。代码可从https://github.com/raoyongming/hornet获得
translated by 谷歌翻译
我们表明,著名的混音的有效性[Zhang等,2018],如果而不是将其用作唯一的学习目标,就可以进一步改善它,而是将其用作标准跨侧面损失的附加规则器。这种简单的变化不仅提供了太大的准确性,而且在大多数情况下,在各种形式的协变量转移和分布外检测实验下,在大多数情况下,混合量的预测不确定性估计质量都显着提高了。实际上,我们观察到混合物在检测出分布样本时可能会产生大量退化的性能,因为我们在经验上表现出来,因为它倾向于学习在整个过程中表现出高渗透率的模型。很难区分分布样本与近分离样本。为了显示我们的方法的功效(RegMixup),我们在视觉数据集(Imagenet&Cifar-10/100)上提供了详尽的分析和实验,并将其与最新方法进行比较,以进行可靠的不确定性估计。
translated by 谷歌翻译
神经网络分类器已成为当前“火车前的Fine-Tune”范例的De-Facto选择。在本文中,我们调查了K $ -Nearest邻居(K-NN)分类器,这是一种从预先学习时代的无古典无模型学习方法,作为基于现代神经网络的方法的增强。作为懒惰的学习方法,K-Nn简单地聚集了训练集中的测试图像和顶-k邻居之间的距离。我们采用k-nn具有由监督或自我监督方法产生的预训练的视觉表现,分为两个步骤:(1)利用K-NN预测概率作为培训期间容易\〜〜硬示例的迹象。 (2)用增强分类器的预测分布线性地插入k-nn。通过广泛的实验在广泛的分类任务中,我们的研究揭示了K-NN集成与额外见解的一般性和灵活性:(1)K-NN实现竞争结果,有时甚至优于标准的线性分类器。 (2)结合K-NN对参数分类器执行不良和/或低数据制度的任务特别有益。我们希望这些发现将鼓励人们重新考虑预先学习的角色,计算机愿景中的古典方法。我们的代码可用于:https://github.com/kmnp/nn-revisit。
translated by 谷歌翻译
以无监督的方式训练图像标题模型而不利用注释的图像标题对是朝向更广泛的文本和图像语料库的重要步骤。在监督设置中,图像标题对“良好匹配”,其中句子中提到的所有对象都显示在相应的图像中。然而,这些配对在无监督的环境中不可用。为了克服这一点,主要是在克服这方面有效的主要研究学院是根据它们对物体的重叠来构建训练集中的图像和文本的对。与监督设置不同,然而,这些构造的配对不保证具有完全重叠的对象集。我们本文的工作通过从训练集中收获对应于给定句子的对象来克服了这一点,即使它们不属于同一图像也是如此。当用作变压器的输入时,如果不是完整的对象覆盖,并且当由相应的句子监督时,这些物体的混合使得产生的结果通过显着的余量产生艺术无监督方法的最佳状态。在此发现时,我们进一步展示了(1)对象与物体属性之间关系的其他信息也有助于提高性能; (2)我们的方法也很好地延伸到非英语图像标题,这通常遭受稀缺的注释水平。我们的研究结果得到了强大的经验结果。
translated by 谷歌翻译
近年来,对无监督域适应(UDA)的兴趣飙升,导致血腥的新算法。但是,正如快速移动字段中的常见情况一样,基线算法未在它们应该的范围内进行测试。此外,已经注意到验证方法,即估计靶域标签的模型准确性的方法。尽管验证方法是任何UDA火车/ VAL管道的重要组成部分。在本文中,我们通过大规模实验显示1)在Oracle设置中,UDA算法之间的准确性差异小于先前认为,2)最先进的验证方法与准确性没有完全相关3)UDA算法之间的差异被验证方法引起的准确性下降。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
自我关注学习成对相互作用以模型远程依赖性,从而产生了对视频动作识别的巨大改进。在本文中,我们寻求更深入地了解视频中的时间建模的自我关注。我们首先表明通过扁平所有像素通过扁平化的时空信息的缠结建模是次优的,未明确捕获帧之间的时间关系。为此,我们介绍了全球暂时关注(GTA),以脱钩的方式在空间关注之上进行全球时间关注。我们在像素和语义类似地区上应用GTA,以捕获不同水平的空间粒度的时间关系。与计算特定于实例的注意矩阵的传统自我关注不同,GTA直接学习全局注意矩阵,该矩阵旨在编码遍布不同样本的时间结构。我们进一步增强了GTA的跨通道多头方式,以利用通道交互以获得更好的时间建模。对2D和3D网络的广泛实验表明,我们的方法一致地增强了时间建模,并在三个视频动作识别数据集中提供最先进的性能。
translated by 谷歌翻译
与人类相互作用的机器人和人造代理应该能够在没有偏见和不平等的情况下这样做,但是众所周知,面部感知系统对某些人来说比其他人的工作更差。在我们的工作中,我们旨在建立一个可以以更透明和包容的方式感知人类的系统。具体而言,我们专注于对人脸的动态表达,由于隐私问题以及面部本质上可识别的事实,这很难为广泛的人收集。此外,从互联网收集的数据集不一定代表一般人群。我们通过提供SIM2REAL方法来解决这个问题,在该方法中,我们使用一套3D模拟的人类模型,使我们能够创建一个可审核的合成数据集覆盖1)在六种基本情绪之外,代表性不足的面部表情(例如混乱); 2)种族或性别少数群体; 3)机器人可能在现实世界中遇到人类的广泛视角。通过增强包含包含4536个样本的合成数据集的123个样本的小型动态情感表达数据集,我们在自己的数据集上的准确性提高了15%,与外部基准数据集的11%相比,我们的精度为11%,与同一模型体系结构的性能相比没有合成训练数据。我们还表明,当体系结构的特征提取权重从头开始训练时,这一额外的步骤专门针对种族少数群体的准确性。
translated by 谷歌翻译
团队是人类成就的核心。在过去的半个世纪中,心理学家已经确定了五个跨文化有效的人格变量:神经质,外向性,开放性,尽职尽责和同意。前四个与团队绩效显示一致的关系。然而,令人愉快的(和谐,无私,谦虚和合作)表现出与团队绩效的无关紧要和高度可变的关系。我们通过计算建模解决这种不一致。基于代理的模型(ABM)用于预测人格特质对团队合作的影响,然后使用遗传算法来探索ABM的限制,以发现哪种特征与最佳和最差的表现相关,以解决与与最差的团队相关的问题,以解决与问题有关的问题。不同级别的不确定性(噪声)。探索所揭示的新依赖性通过分析迄今为止最大的团队绩效数据集的先前未观察到的数据来证实,其中包括593个团队中的3,698个个人,从事5,000多个没有不确定性的小组任务,在10年内收集了不确定性。我们的发现是,团队绩效和同意之间的依赖性受到任务不确定性的调节。以这种方式将进化计算与ABM相结合,为团队合作的科学研究,做出新的预测以及提高我们对人类行为的理解提供了一种新方法。我们的结果证实了计算机建模对发展理论的潜在实用性,并阐明了随着工作环境的越来越流畅和不确定的启示。
translated by 谷歌翻译