多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
具有给定相对取向的一对二维硬质颗粒之间的排除区域是在另一个颗粒存在的情况下不能定位一个颗粒的区域。作为相对颗粒取向的函数的排除区域的大小在硬颗粒的体相行为的确定中起主要作用。我们使用主成分分析来识别不同类型的被排除的对应于随机生成的二维硬粒子,其被建模为非自相交多边形和星线(从共同起源辐射的线段)。只需要三个主要成分就可以很好地表示排除区域的值作为相对粒子方向的函数。独立于颗粒形状,当颗粒彼此平行时,总是实现排除区域的最小值。影响排除区域值最强的特性是粒子形状的伸长。主成分分析确定了在等间隔相对方向上具有一到四个全局最小值的排除区域的四种限制情况。我们使用蒙特卡罗模拟研究选定的粒子形状。
translated by 谷歌翻译
在本文中,我们介绍了强化学习(RL)方法,包括策略,包括人工神经网络策略,它既是\ emph {backpropagation-free}又是\ emph {clock-free}。它是\ emph {backpropagation-free},因为它不会通过网络向后传播任何信息。它是\ emph {clock-free},因为网络中的每个节点都没有信号来指定何时应该计算其输出以及何时应该更新其权重。我们认为这两个属性增加了我们算法的生物合理性并促进了分布式实现。此外,我们的方法消除了对像theoption-critic这样的分层RL算法的自定义学习规则的需要。
translated by 谷歌翻译
当与功能近似器结合时,非政策时间差异(TD)学习方法遭受分歧的风险,这种现象称为致命的三元组。人们早就注意到,某些特征表示比其他特征更好。在本文中,我们研究了特征规范化如何防止分歧和改进训练。我们称之为CrossNorm的方法可以被视为批量标准化的一种新变体,它将多模式分布的数据作为中心,这些数据发生在非策略TDupdates中。我们凭经验证明CrossNorm可以提高学习过程的稳定性。我们将CrossNorm应用于DDPG和TD3,并在一系列MuJoCo基准任务中实现稳定的训练和改进的性能。此外,我们首次能够在不使用目标网络的情况下稳定地训练DDPG。
translated by 谷歌翻译
在NeuroEvolution中,人工神经网络的拓扑结构采用进化算法进行优化,以解决数据回归,数据分类或强化学习中的任务。 NeuroEvolution的一个缺点是大量必要的适应性评估,这可能使得对于具有昂贵评估的任务(例如实时学习)非常有效。对于这些昂贵的优化任务,基于代理模型的优化经常应用,因为其具有良好的评估效率。虽然两个程序的组合似乎是一个有价值的解决方案,但是替代建模过程的适当距离测量的定义是困难的。在这项研究中,我们将通过使用基于替代模型的优化来扩展人工神经网络的笛卡尔遗传规划。我们提出了不同的距离测量,并在可复制的基准任务上测试我们的算法。结果表明,我们可以显着提高评估效率,并且基于相关神经网络行为的表型距离是最有希望的。
translated by 谷歌翻译
人体姿势估计 - 在视频中识别人的肢体位置和方向的过程 - 具有许多重要的应用,包括监视,运动障碍的诊断和计算机动画。虽然深度学习导致单个视频源的2D和3D姿势估计的巨大进步,但是从具有重叠视场的多个视频传感器估计3D人体姿势的问题受到较少关注。当应用允许使用多个相机时,通过融合多视图姿势估计和观察在一些视图中完全或部分遮挡的肢体,可以极大地改善3D人体姿势估计。过去的方法多视图3D姿态估计使用概率图形模型来对约束进行调整,包括每图像姿势估计,时间平滑和肢长。在本文中,我们提出了一个多个人的管道多视图3D姿态估计,它结合了先进的2D姿态检测器和用信念传播优化的三维肢体约束的因子图。我们在TUM-Campus和Shelf数据集上评估我们的结果,用于多人3D姿势估计,并显示我们的系统通过更简单的肢体依赖模型显着优于先前的先进技术。
translated by 谷歌翻译
慢性肺曲霉菌病(CPA)是由曲霉菌感染引起的复杂肺病。计算机断层扫描(CT)图像经常被怀疑患有疑似和已确定疾病的患者,但CT上的放射学标志难以量化,从而使准确的随访具有挑战性。我们提出了一种新的方法来训练卷积神经网络,只使用病理标志的区域标签,不仅检测CPA,而且在空间上定位病理标志。我们使用Hounsfield单位(HU)值的不同范围内的平均强度投影,将输入3D CT扫描转换为2D RGB样图像。 CNN架构用于分层任务,导致病理模式的精确激活图。 352名受试者的队列结果显示高分类准确性,定位精度和2年生存率的预测能力。对于药物治疗的患者,这种工具为CPA患者分层和CPA病理征象的定量随访开辟了道路。
translated by 谷歌翻译
HRI研究人员在开发机器人架构方面取得了重大进展,这些机器人架构能够阅读有限的一系列社交线索并产生能够增强人们的喜爱和人类舒适感的行为。然而,这些模型中的线索相当直接且相互作用大致相同。为了更加坚定地捕捉交互的规范性质,我们建议将同意作为HRI研究的一个独特,关键的领域。在现有的HRI工作中围绕触摸,代理,凝视和道德规范等主题的重要见解,同意的概念揭示了可以做出的关键期望。塑造机器人在社交空间中的行为方式。通过社会和法律学说对各种同意进行排序,我们描述了经验和技术问题,以满足主要应用领域和机器人角色所面临的同意挑战。例如,注意同意可以表明,如果特殊的,违反规范的行为可以被代理人证明是合理的,并且被他们周围的人所接受。我们认为,从法律学术中实施思想可以更好地指导机器人系统如何培养和保持适当的同意形式。
translated by 谷歌翻译
与更简单和更浅的模型相比,每层具有多个注意头的多层模型提供了更高的翻译质量,但是确定与每个目标词最相关的源上下文更具挑战性。因此,从现有技术的神经机器翻译模型的激活中导出高精度的单词对齐是一个开放的挑战。我们建议对Transformer架构进行简单的模型扩展,利用其隐藏的表示,并且仅限于参与编码器信息以预测下一个字。它可以在没有字对齐信息的双语数据上进行训练。我们进一步介绍了一种新的对齐参考程序,该程序应用随机梯度下降来直接优化对给定目标词的注意激活。由此产生的结果显着优于解释变形引起注意激活的天真方法,并且在两个公开可用的数据集上与Giza ++相当。
translated by 谷歌翻译