通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
基于Heatmap回归的深度学习模型彻底改变了面部地标定位的任务,现有模型在大型姿势,非均匀照明和阴影,闭塞和自闭合,低分辨率和模糊。然而,尽管采用了广泛的采用,Heatmap回归方法遭受与热图编码和解码过程相关的离散化引起的误差。在这项工作中,我们表明这些误差对面部对准精度具有令人惊讶的大量负面影响。为了减轻这个问题,我们通过利用底层连续分布提出了一种热爱编码和解码过程的新方法。为了充分利用新提出的编码解码机制,我们还介绍了基于暹罗的训练,该训练能够在各种几何图像变换上实施热线图一致性。我们的方法在多个数据集中提供了明显的增益,在面部地标本地化中设置新的最先进的结果。旁边的代码将在https://www.adrianbulat.com/face-alignment上提供
translated by 谷歌翻译
我们为对密集物体网(DON)的稳健训练(DON)提出了一个框架,重点是多对象机器人操纵方案。 DON是一种获取密集的,视图的对象描述符的流行方法,可用于机器人操纵中的多种下游任务,例如,姿势估算,控制状态表示控制等。在唱歌对象上,在实例特定的多对象应用程序上的结果有限。此外,训练需要复杂的数据收集管道,包括每个对象的3D重建和掩盖注释。在本文中,我们通过简化的数据收集和培训制度进一步提高了DON的功效,从而始终如一地产生更高的精度,并能够对数据要求较少的关键点进行强有力的跟踪。特别是,我们专注于使用多对象数据而不是奇异的对象进行培训,并结合精心挑选的增强方案。我们还针对原始PixelWise配方提出了一种替代损失公式,该配方提供了更好的结果,并且对超参数较少敏感。最后,我们在现实世界的机器人抓握任务上展示了我们提出的框架的鲁棒性和准确性。
translated by 谷歌翻译
研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
整个幻灯片组织学图像中的组织类型学注释是一项复杂而乏味但既繁琐但必要的任务,用于开发计算病理学模型。我们建议通过将开放式识别技术应用于共同分类属于一组带注释类的组织的任务来解决此问题。临床相关的组织类别,同时拒绝测试时间开放式样品,即属于训练集中不存在的类别的图像。为此,我们引入了一种基于训练模型的开放式组织病理图像识别的新方法,以准确识别图像类别,并同时预测已应用了哪些数据增强变换。在测试时间中,我们测量了模型的置信度预测这种转换,我们期望开放集中的图像较低。在组织学图像的结直肠癌评估的背景下,我们进行了全面的实验,这些实验为我们的方法提供了证据,以自动从未知类别中识别样品的优势。代码在https://github.com/agaldran/t3po上发布。
translated by 谷歌翻译
机器学习和认知科学的最新工作表明,了解因果信息对于智力的发展至关重要。使用``Blicket otter''环境的认知科学的广泛文献表明,孩子们擅长多种因果推理和学习。我们建议将该环境适应机器​​学习代理。当前机器学习算法的关键挑战之一是建模和理解因果关系:关于因果关系集的可转移抽象假设。相比之下,即使是幼儿也会自发学习和使用因果关系。在这项工作中,我们提出了一个新的基准 - 一种灵活的环境,可以评估可变因果溢出物下的现有技术 - 并证明许多现有的最新方法在这种环境中概括了困难。该基准的代码和资源可在https://github.com/cannylab/casual_overhypothess上获得。
translated by 谷歌翻译
NUCLS数据集包含乳腺癌中细胞核的220.000多个注释。我们展示了如何使用这些数据创建具有MISCNN框架的多评价者模型来自动化细胞核的分析。对于模型创建,我们使用嵌入管道中的广泛的U-NET方法。该管道除了高性能卷积神经网络外,还提供了几种预处理器技术和扩展数据探索。最终模型在评估阶段进行了测试,并使用多种指标和随后的可视化度量进行了测试。最后,将结果与NUCLS研究的结果进行比较和解释。作为一个前景,给出了对于在细胞核背景下模型的未来发展至关重要的指示。
translated by 谷歌翻译
文本生成模型(TGMS)成功地创建了与人类语言风格匹配的文本。可以区分TGM生成的文本和人写的探测器在防止滥用TGM方面起着重要作用。在本文中,我们描述了两个Dialog-22 RUATD任务的管道:检测生成的文本(二进制任务)和使用哪个模型的分类来生成文本(多类任务)。我们在二进制分类任务上获得了第一名,精度得分为0.82995,在私人测试集上,在多类分类任务中排名第四,在私人测试集上的精度为0.62856。我们提出了一种基于注意机制的不同预训练模型的合奏方法。
translated by 谷歌翻译
尽管深度神经网络能够在各种任务上实现优于人类的表现,但他们臭名昭著,因为他们需要大量的数据和计算资源,将其成功限制在可用的这些资源的领域。金属学习方法可以通过从相关任务中转移知识来解决此问题,从而减少学习新任务所需的数据和计算资源的数量。我们组织了元数据竞赛系列,该系列为世界各地的研究小组提供了创建和实验评估实际问题的新元学习解决方案的机会。在本文中,我们在竞争组织者和排名最高的参与者之间进行了合作,我们描述了竞争的设计,数据集,最佳实验结果以及Neurips 2021挑战中最高的方法,这些方法吸引了15进入最后阶段的活跃团队(通过表现优于基线),在反馈阶段进行了100多次代码提交。顶级参与者的解决方案是开源的。汲取的经验教训包括学习良好的表示对于有效的转移学习至关重要。
translated by 谷歌翻译
本文解决了深度和自我运动的端到端自我监督预测的问题。给定一系列原始图像,其目的是通过自我监督的光度损失预测几何和自我运动。该体系结构是使用卷积和变压器模块设计的。这利用了两个模块的好处:CNN的电感偏置和变压器的多头注意力,从而实现了丰富的时空表示,从而实现了准确的深度预测。先前的工作尝试使用多模式输入/输出使用有监督的地面真实数据来解决此问题,这是不实际的,因为需要大量注释的数据集。另外,本文仅使用自我监督的原始图像作为输入来预测深度​​和自我运动。该方法在KITTI数据集基准上表现出色,几个性能标准甚至可以与先前的非预测自我监督的单眼深度推理方法相提并论。
translated by 谷歌翻译