多模式分类是人类以人为本的机器学习中的核心任务。我们观察到信息跨多模式融合在多模式融合之前,信息在偶像中具有高度互补的信息,因此在多模式融合之前可以彻底稀释。为此,我们呈现稀疏的融合变压器(SFT),一种用于现有最先进的方法的变压器的新型多模式融合方法,同时具有大大降低了内存占用和计算成本。我们想法的关键是稀疏池块,可在跨模式建模之前减少单峰令牌集合。评估在多个多模式基准数据集上进行,用于广泛的分类任务。在类似的实验条件下的多个基准上获得最先进的性能,同时报告计算成本和内存要求降低六倍。广泛的消融研究展示了在天真的方法中结合稀疏和多式化学习的好处。这铺平了在低资源设备上实现多模级学习的方式。
translated by 谷歌翻译
我们解决了预测动态场景视频的显着图的问题。我们注意到,从固定数量的观察者的凝视数据重建的地图的准确性随帧而变化,因为它取决于场景的内容。当有有限数量的观察者可用时,此问题尤其如此紧迫。在这种情况下,随着传统的深度学习方法,直接最大限度地减少预测和测量的显着性图之间的差异,导致对嘈杂数据过度接受。我们提出了一种噪声感知培训(NAT)范式,这些培训量量化和占帧特异性凝视数据不准确的不确定性。我们表明NAT在有限的培训数据可用时特别有利,在不同模型,丢失函数和数据集中有实验。我们还引入了基于视频游戏的显着数据集,具有富有的时间语义,每帧多个凝视吸引子。数据集和源代码可在https://github.com/nvlabs/nattacy上获得。
translated by 谷歌翻译
许多不同的研究表明,发作内存是一种生成过程,但大多数计算模型采用存储视图。在这项工作中,我们提出了一种用于生成的eoisodic记忆的计算模型。它基于中央假设,即海马存储和检索作为存储器迹线的集发作的选定方面,这必然不完整。在召回时,Neocortex在我们称之为语义完成的过程中,基于一般语义信息合理地填写缺失的信息。作为剧集我们使用代表上下文的不同背景增强数字(MNIST)的图像。我们的模型基于VQ-VAE,其以索引矩阵的形式产生压缩潜在表示,其仍然具有一些空间分辨率。我们假设注意其他人被丢弃的索引矩阵的某些部分,然后表示剧集的主旨,并存储为内存跟踪。在调用缺失的部件时,通过PixelCNN填充,建模语义完成,然后由VQ-VAE解码为完整图像。该模型能够以语义合理的方式完成存储器迹线的丢失部分,直到它可以从头开始产生合理图像的点。由于索引矩阵中的组合学,模型将概括为未培训的图像。压缩以及语义完成有助于对内存要求的强烈降低和对噪声的鲁棒性。最后,我们还模拟了一个eoicodic存储器实验,并且可以重现语义一致上下文总是比不一致的语调更好地召回,高度关注水平提高两种情况下的记忆精度,并且不记得正确的背景更常常以完全错误的方式记住。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
本文介绍了使用变压器解决关键点检测和实例关联的新方法。对于自下而上的多人姿势估计模型,他们需要检测关键点并在关键点之间学习关联信息。我们认为这些问题可以完全由变压器解决。具体而言,变压器中的自我关注测量任何一对位置之间的依赖性,这可以为关键点分组提供关联信息。但是,天真的注意力模式仍然没有主观控制,因此无法保证关键点始终会参加它们所属的实例。为了解决它,我们提出了一种监督多人关键点检测和实例关联的自我关注的新方法。通过使用实例掩码来监督自我关注的实例感知,我们可以基于成对引人注定分数为其对应的实例分配检测到的关键字,而无需使用预定义的偏移量字段或嵌入像基于CNN的自下而上模型。我们方法的另一个好处是可以从监督的注意矩阵直接获得任何数量的人的实例分段结果,从而简化了像素分配管道。对Coco多人关键点检测挑战和人实例分割任务的实验证明了所提出的方法的有效性和简单性,并显示出于针对特定目的控制自我关注行为的有希望的方法。
translated by 谷歌翻译
物理产品通常是复杂的组件,组合计算机辅助设计(CAD)软件中建模的多个3D零件。CAD Designers通过使用称为关节的约束对齐各个部件来构建这些程序集。在本文中,我们介绍了可连接,一种基于学习的方法,可以将部件组合在一起以形成关节。可加入使用标准参数CAD文件中提供的弱监管,而无需对象类标签或人类指导。我们的研究结果表明,通过对实体模型的图表表示进行网络预测,我们可以优于多种基线方法,精度(79.53%)接近人类性能(80%)。最后,为了支持未来的研究,我们释放了Fusion 360 Gallery集合数据集,其中包含了具有关于关节,接触表面,孔和底层装配图结构的丰富信息的程序集。
translated by 谷歌翻译
读取文本读取序列的确定是对记录理解的基础。在文本组织成一系列行和垂直对准的页面中,可以轻松解决此问题,并运行页面的高度(生成可以从左到右读取的多列)。我们展示了一种情况 - 目录页面解析问题 - 以不规则,视觉组织的二维格式在页面上呈现信息。目录页面在金融招股说明书中相当常见,并携带有关组织,其地址和关系的信息,这是客户在车内客户端的关键。有趣的是,目录页有时有分层结构,激励需要将读取序列概括为读取树。我们向识别目录页面和构建读取树的问题提供解决方案,使用(学习)文本段和自下而上的(向左,左上,顶部顶部)遍历的段的横向。该解决方案是支持从客户端船上文件自动提取组织,地址和关系信息的生产服务的关键部分。
translated by 谷歌翻译
持续学习(CL)旨在开发单一模型适应越来越多的任务的技术,从而潜在地利用跨任务的学习以资源有效的方式。 CL系统的主要挑战是灾难性的遗忘,在学习新任务时忘记了早期的任务。为了解决此问题,基于重播的CL方法在遇到遇到任务中选择的小缓冲区中维护和重复培训。我们提出梯度Coreset重放(GCR),一种新颖的重播缓冲区选择和使用仔细设计的优化标准的更新策略。具体而言,我们选择并维护一个“Coreset”,其与迄今为止关于当前模型参数的所有数据的梯度紧密近似,并讨论其有效应用于持续学习设置所需的关键策略。在学习的离线持续学习环境中,我们在最先进的最先进的最先进的持续学习环境中表现出显着的收益(2%-4%)。我们的调查结果还有效地转移到在线/流媒体CL设置,从而显示现有方法的5%。最后,我们展示了持续学习的监督对比损失的价值,当与我们的子集选择策略相结合时,累计增益高达5%。
translated by 谷歌翻译
多跳质量有注释的支持事实,这是考虑到答案的可解释性的阅读理解(RC)的任务,已被广泛研究。在这项研究中,我们将可解释的阅读理解(IRC)模型定义为管道模型,其具有预测未签发的查询的能力。 IRC模型通过在预测的支持事实和可解释性的实际理由之间建立一致性来证明答案预测。 IRC模型检测不可批售的问题,而不是基于不足的信息强制输出答案,以确保答案的可靠性。我们还提出了一种管道RC模型的端到端培训方法。为了评估可解释性和可靠性,我们在给定段落中考虑了在多跳问题中考虑不答复性的实验。我们表明,我们的端到端培训管道模型在我们修改的热浦问题数据集中表现出不可解释的模型。实验结果还表明,尽管预测性能与解释性之间的权衡,IRC模型尽管有折衷,但IRC模型仍然可以对先前的不可解释模型实现了可比的结果。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译