视频理解需要在多种时空分辨率下推理 - 从短的细粒度动作到更长的持续时间。虽然变压器架构最近提出了最先进的,但它们没有明确建模不同的时空分辨率。为此,我们为视频识别(MTV)提供了多视图变压器。我们的模型由单独的编码器组成,表示输入视频的不同视图,以横向连接,以跨视图熔断信息。我们对我们的模型提供了彻底的消融研究,并表明MTV在一系列模型尺寸范围内的准确性和计算成本方面始终如一地表现优于单视对应力。此外,我们在五个标准数据集上实现最先进的结果,并通过大规模预制来进一步提高。我们将释放代码和备用检查点。
translated by 谷歌翻译
大规模未标记数据集的预培训显示了计算机视觉和自然语言处理领域的令人印象深刻的性能改进。鉴于大规模教学视频数据集的出现,预训练视频编码器的常见策略是使用随附的语音作为弱监管。但是,由于演讲用于监督预培训,视频编码器从未见过,这不会学会处理该模态。我们解决了当前预训练方法的这种缺点,这未能利用口语语言中的丰富的线索。我们的提议是使用所有可用的视频模型作为监督,即外观,声音和转录语音预先列车。我们在输入中掩盖了整个模态并使用其他两个模态预测它。这鼓励每个码头与其他方式合作,我们的视频编码器学会处理外观和音频以及语音。我们展示了我们在How2R,YouScook2和浓缩电影数据集上视频检索的“模态屏蔽”预培训方法的卓越性能。
translated by 谷歌翻译
对无监督对象发现的现有方法(UOD)不会向大大扩展到大型数据集,而不会损害其性能的近似。我们提出了一种新颖的UOD作为排名问题的制定,适用于可用于特征值问题和链接分析的分布式方法的阿森纳。通过使用自我监督功能,我们还展示了UOD的第一个有效的完全无监督的管道。对Coco和OpenImages的广泛实验表明,在每个图像中寻求单个突出对象的单对象发现设置中,所提出的LOD(大规模对象发现)方法与之相当于或更好地中型数据集的艺术(最多120K图像),比能够缩放到1.7M图像的唯一其他算法超过37%。在每个图像中寻求多个对象的多对象发现设置中,所提出的LOD平均精度(AP)比所有其他用于从20K到1.7M图像的数据的方法更好。使用自我监督功能,我们还表明该方法在OpenImages上获得最先进的UOD性能。我们的代码在HTTPS://github.com/huyvvo/lod上公开提供。
translated by 谷歌翻译
真实世界的图像通常是通过对每级图像数量的显着不平衡的特征,导致长尾的分布。长尾视觉识别的有效和简单的方法是分别学习特征表示和分类器,分别使用实例和类平衡采样。在这项工作中,我们介绍一个新的框架,通过键观察,即使用实例采样学习的特征表示远远不受长尾设置的最佳选择。我们的主要贡献是一种新的培训方法,称为类别平衡蒸馏(CBD),其利用知识蒸馏来增强特征表示。 CBD允许特征表示在第二阶段的老师指导的第二次培训阶段演变。第二阶段使用类平衡的采样,以专注于非代表性的类。此框架可以自然地适应多个教师的使用,从模型的集合中解锁信息以增强识别能力。我们的实验表明,所提出的技术始终如一地优于本领域的长尾识别基准,例如想象群 - LT,Inaturatibry17和Inaturation18。
translated by 谷歌翻译
我们呈现了基于纯变压器的视频分类模型,在图像分类中最近的近期成功进行了借鉴。我们的模型从输入视频中提取了时空令牌,然后由一系列变压器层编码。为了处理视频中遇到的令牌的长序列,我们提出了我们模型的几种有效的变体,它们将输入的空间和时间维构建。虽然已知基于变换器的模型只有在可用的大型训练数据集时才有效,但我们展示了我们如何在训练期间有效地规范模型,并利用预先训练的图像模型能够在相对小的数据集上训练。我们进行彻底的消融研究,并在包括动力学400和600,史诗厨房,东西的多个视频分类基准上实现最先进的结果,其中 - 基于深度3D卷积网络的现有方法表现出优先的方法。为了促进进一步的研究,我们在https://github.com/google-research/scenic/tree/main/scenic/projects/vivit发布代码
translated by 谷歌翻译
深度神经网络(DNN)用于敏感应用域的一个主要缺点是它们的黑匣子性质。这使得难以验证或监控复杂的象征要求。在这项工作中,我们展示了一个简单但有效的方法来验证训练有素的卷积神经网络(CNN)是否尊重指定的符号背景知识。知识可能包括任何模糊的谓词逻辑规则。为此,我们利用来自可解释的人工智能(XAI)的方法:首先,使用概念嵌入分析,计算机视觉CNN的输出由概念输出富集的HOC;其次,从先验知识中的逻辑规则被欺骗以用作概念输出的连续值函数。这些可以用很少的计算开销进行评估。我们展示了我们在现有技术的对象探测器上的三种多样化案例:在运行时在运行时检测和定位DNN不当行为的规则以及比较DNN的逻辑一致性的规则。后者用于查找有效的D1和掩模R-CNN对象检测器之间的相关差异。我们表明这种方法从模糊和校准概念输出中受益。
translated by 谷歌翻译
对理解通过语言模型(LMS)的隐藏表示捕获的信息有很多兴趣。通常,解释方法I)不保证模型实际使用编码信息,并且II)不发现负责考虑现象的小型神经元。灵感来自因果调解分析,我们提出了一种在神经LM内发现的方法,该方法在负责特定语言现象的小神经元的小神经元中发现,即引起相应令牌排放概率的变化的子集。我们使用可怜的放松来近似搜索组合空间。 $ L_0 $正常化术语可确保搜索收敛到离散和稀疏解决方案。我们应用我们在LSTMS中分析主题 - 动词号协议和性别偏见检测的方法。我们观察到它是快速的,而不是替代方面的解决方案(加强)。我们的实验证实,这些现象中的每一个都是通过不发挥任何其他可辨别作用的小神经元的小型介导的。
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
培训大型神经网络架构的快速增长带来了对划分策略的需要,例如通过使用数据,模型或管道并行性。通过程序基元越来越多地支持这些方法,但识别有效的分区策略需要昂贵的实验和专业知识。我们介绍了自动分区器的原型,它无缝集成到现有的编译器和现有用户工作流中。我们的分区使SPMD风格的并行性能够包含数据并行性和参数/激活分片。通过归纳策略和在平台独立的分区IR中搜索的组合,Automap可以恢复用于变压器层的专家分区策略,如Megatron分片。
translated by 谷歌翻译
现代大规模深度学习工作负载突出了在许多设备上并行执行的需要,以便将模型数据拟合到硬件加速器存储器中。在这些设置中,在计算期间可能需要数组再分配,但如果没有有效地完成,也可以成为瓶颈。在本文中,我们解决了在SPMD计算中重新分配多维阵列数据的问题,深度学习中最普遍的并行性形式。我们介绍了一种类型定向的方法来合成阵列再分配作为MPI式集体操作的序列。我们证明了我们的合成重新分发是内存高效的,并且不执行过多的数据传输。使用集体操作的SPMD计算的数组再分配也在XLA SPMD Partitioner的上下文中实现了一种用于跨加速器系统进行分区程序的生产级工具。我们评估我们对XLA实施的方法,并发现我们的方法提供了1.22美元的几何平均加速,最大加速度为高达5.7倍$,同时提供可提供的内存保证,使我们的系统特别吸引力 - 规模模型。
translated by 谷歌翻译