我们向多人3D运动轨迹预测提出了一种新颖的框架。我们的主要观察是,人类的行动和行为可能高度依赖于其他人。因此,不是以隔离预测每个人类姿势轨迹,我们引入了一种多范围变压器模型,该模型包含用于各个运动的局部运动和用于社交交互的全局范围编码器。然后,通过将相应的姿势作为查询来参加本地和全球范围编码器特征,对变压器解码器对每个人进行预测。我们的模型不仅优于长期3D运动预测的最先进的方法,而且还产生了不同的社交互动。更有趣的是,我们的模型甚至可以通过自动将人分为不同的交互组来同时预测15人运动。具有代码的项目页面可在https://jiahunwang.github.io/mrt/处获得。
translated by 谷歌翻译
保守主义的概念导致了离线强化学习(RL)的重要进展,其中代理从预先收集的数据集中学习。但是,尽可能多的实际方案涉及多个代理之间的交互,解决更实际的多代理设置中的离线RL仍然是一个开放的问题。鉴于最近将Online RL算法转移到多代理设置的成功,可以预期离线RL算法也将直接传输到多代理设置。令人惊讶的是,当基于保守的算法应用于多蛋白酶的算法时,性能显着降低了越来越多的药剂。为了减轻劣化,我们确定了价值函数景观可以是非凹形的关键问题,并且策略梯度改进容易出现本地最优。自从任何代理人的次优政策可能导致不协调的全球失败以来,多个代理人会加剧问题。在这种直觉之后,我们提出了一种简单而有效的方法,脱机多代理RL与演员整流(OMAR),通过有效的一阶政策梯度和Zeroth订单优化方法为演员更好地解决这一关键挑战优化保守值函数。尽管简单,奥马尔显着优于强大的基线,在多售后连续控制基准测试中具有最先进的性能。
translated by 谷歌翻译
现代神经网络能够在涉及对象分类和图像生成的许多任务中执行至少和人类。然而,人类难以察觉的小扰动可能会显着降低训练有素的深神经网络的性能。我们提供了分布稳健的优化(DRO)框架,其集成了基于人的图像质量评估方法,以设计对人类来说难以察觉而难以察觉的最佳攻击,而是针对深度神经网络造成显着损害。通过广泛的实验,我们表明我们的攻击算法比其他最先进的人类难以察觉的攻击方法产生更好的质量(对人类)的攻击。此外,我们证明了使用我们最佳设计的人类难以察觉的攻击的DRO培训可以改善图像分类中的群体公平。在最后,我们提供了一种算法实现,以显着加速DRO训练,这可能是独立的兴趣。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
正规化可以通过引入感应偏压来减轻训练与推理之间的泛化差距。现有的作品已经提出了各种视角的各种归纳偏见。然而,据我们所知,他们都没有探讨各种神经元的类依赖性响应分布的视角探讨归纳偏见。在本文中,我们对这种分布的特征进行了大量分析。基于分析结果,我们阐明了神经元稳定性假设:具有与同一类别的情况相似的神经元导致更好的概括。因此,我们提出了一种新的正则化方法,称为神经元稳定正则化,以减少神经元内响应方差。我们在多层的Perceptron,卷积神经网络和图形神经网络上进行了广泛的实验,具有不同域的流行基准数据集,这表明我们的神经元稳定性正则化始终优于Vanilla版本的模型,具有显着增益和低额外的开销。
translated by 谷歌翻译
人工智能和神经科学都深受互动。人工神经网络(ANNS)是一种多功能的工具,用于研究腹侧视觉流中的神经表现,以及神经科学中的知识返回激发了ANN模型,以提高任务的性能。但是,如何将这两个方向合并到统一模型中较少研究。这里,我们提出了一种混合模型,称为深度自动编码器,具有神经响应(DAE-NR),其将来自视觉皮质的信息包含在ANN中,以实现生物和人造神经元之间的更好的图像重建和更高的神经表示相似性。具体地,对小鼠脑和DAE-NR的输入相同的视觉刺激(即自然图像)。 DAE-NR共同学会通过映射函数将编码器网络的特定层映射到腹侧视觉流中的生物神经响应,并通过解码器重建视觉输入。我们的实验表明,如果只有在联合学习,DAE-NRS可以(i)可以提高图像重建的性能,并且(ii)增加生物神经元和人工神经元之间的代表性相似性。 DAE-NR提供了一种关于计算机视觉和视觉神经科学集成的新视角。
translated by 谷歌翻译
基于视频的自动抑郁分析提供了一种快速,客观和可重复的自我评估解决方案,近年来已被广泛发展。虽然抑郁线索可能被各个时间尺度的人类面部行为反映,但大多数现有方法都集中在短期或视频级面部行为中的模拟抑郁症。从这个意义上讲,我们提出了一个两级框架,模拟了从多尺度短期和视频级面部行为模拟了抑郁严重程度。短期抑郁行为建模阶段首先学习来自多个短时间尺度的抑郁相关的面部行为特征,其中提出了一种凹陷特征增强(DFE)模块来增强所有时间尺度的抑郁相关线索并去除非抑郁症噪音。然后,视频级抑郁行为建模阶段提出了两个新颖的曲线图编码策略,即顺序图形表示(SEG)和频谱图表示(SPG),以将目标视频的所有短期特征重新编码为视频 - 级别图形表示,总结抑郁相关的多尺度视频级时间信息。结果,所产生的图表表示使用短期和长期面部Beahviour模式预测抑郁严重程度。 AVEC 2013和AVEC 2014数据集上的实验结果表明,所提出的DFE模块不断增强各种CNN模型的抑郁严重性估计性能,而SPG优于其他视频级建模方法。更重要的是,与拟议的两级框架实现的结果表明,与广泛使用的单阶段建模方法相比,其有前景和坚实的性能。
translated by 谷歌翻译
对象编码和识别对于自主探索,语义场景理解和重新定位等机器人任务至关重要。以前的方法已经尝试了对象或生成用于对象标识的描述符。然而,这种系统仅限于单个视点的“固定”部分对象表示。在机器人探索设置中,由于机器人从多个视点观察对象,因此需要暂时“不断发展”的全局对象表示。此外,鉴于现实世界中未知新颖对象的广泛分布,对象识别过程必须是类无话的。在此上下文中,我们提出了一种新的时间3D对象编码方法,被称为AirObject,以获取基于对象的全局关键点图形的嵌入。具体地,使用跨从基于曲线图的编码方法获得的多个帧的结构信息的时间卷积网络生成全局3D对象嵌入。我们证明AirObject实现了视频对象识别的最先进的性能,并且对严重的遮挡,感知锯齿,视点换档,变形和缩放变换,表现出最先进的单帧和稳健顺序描述符。据我们所知,AirObject是第一个时间对象编码方法之一。
translated by 谷歌翻译
条件梯度方法(CGM)广泛用于现代机器学习。 CGM的整体运行时间通常由两部分组成:迭代次数和每次迭代的成本。大多数努力侧重于减少迭代的数量,作为减少整体运行时间的手段。在这项工作中,我们专注于改善CGM的迭代成本。大多数CGM中的瓶颈步骤是最大内部产品搜索(MAXIP),需要在参数上线性扫描。在实践中,发现近似的maxip数据结构是有用的启发式。然而,理论上,关于近似的MAIPIP数据结构和CGM的组合,没有任何内容。在这项工作中,我们通过提供一个正式的框架来肯定地回答这个问题,以将临时敏感散列类型近似maxip数据结构与CGM算法组合起来。结果,我们展示了第一算法,其中每个迭代的成本在参数的数量中,对于许多基本优化算法,例如Frank-Wolfe,emergorithm和政策梯度。
translated by 谷歌翻译
视觉变形金刚(VIT)S表现出可观的全球和本地陈述的自我监督学习表现,可以转移到下游应用程序。灵感来自这些结果,我们介绍了一种新的自我监督学习框架,具有用于医学图像分析的定制代理任务。具体而言,我们提出:(i)以新的3D变压器为基础的型号,被称为往返变压器(Swin Unet),具有分层编码器,用于自我监督的预训练; (ii)用于学习人类解剖学潜在模式的定制代理任务。我们展示了来自各种身体器官的5,050个公共可用的计算机断层扫描(CT)图像的提出模型的成功预培训。通过微调超出颅穹窿(BTCV)分割挑战的预先调整训练模型和来自医疗细分牌组(MSD)数据集的分割任务,通过微调训练有素的模型来验证我们的方法的有效性。我们的模型目前是MSD和BTCV数据集的公共测试排行榜上的最先进的(即第1号)。代码:https://monai.io/research/swin-unetr.
translated by 谷歌翻译