多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
最近,模型驱动的深度学习通过用网络模块替换符号器的一阶信息(即(子)梯度或近端运算符)来拓展到级联网络中的一定迭代算法,该算法呈现出更可说明的与常见的数据驱动网络相比,可以预测。相反,理论上,不一定存在这样的功能常规程序,其一级信息与替换的网络模块匹配,这意味着网络输出可能不被原始正则化模型覆盖。此外,到目前为止,在现实假设下,也没有保证展开网络的全球收敛性和鲁棒性(规律性)。为了弥合这一差距,本文建议在展开网络上提出保障方法。具体而言,专注于加速MRI,我们展开了一个零阶算法,网络模块代表常规器本身,使得网络输出可以仍然被正则化模型覆盖。此外,受到深度均衡模型的理想的启发,在反向化之前,我们执行了展开的迭代网络,以收敛到一个固定点,以确保收敛。如果测量数据包含噪声,我们证明了所提出的网络对嘈杂干扰具有强大。最后,数值实验表明,所提出的网络始终如一地优于最先进的MRI重建方法,包括传统的正规化方法和其他深度学习方法。
translated by 谷歌翻译
嵌入在自主系统中的机器学习(ML)组件的增加使用 - 所谓的启用学习的系统(LES) - 导致压力需要确保其功能安全性。至于传统的功能安全,在工业和学术界的新兴共识是为此目的使用保证案例。通常,保证案例支持可靠性的支持权,支持安全性,并且可以被视为组织争论和从安全分析和可靠性建模活动产生的证据的结构化方式。虽然这些保证活动传统上由基于协商一致的标准,但由于ML模型的特点和设计,在安全关键应用中,LES构成了新的挑战。在本文中,我们首先向LES提出了一种强调定量方面的总体保证框架,例如,打破系统级安全目标与可靠性指标中所述的组件级要求和支持索赔。然后,我们向ML分类器介绍一种新的模型 - 不可能可靠性评估模型(RAM),该分类器利用操作简档和鲁棒性验证证据。我们讨论了模型假设以及评估我们RAM揭示的ML可靠性的固有挑战,并提出了实用的解决方案。还基于RAM开发了较低ML组件级的概率安全争论。最后,为了评估和展示我们的方法,我们不仅对合成/基准数据集进行实验,还展示了我们对模拟中自动水下车辆的综合案例研究的方法。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
本文介绍了使用变压器解决关键点检测和实例关联的新方法。对于自下而上的多人姿势估计模型,他们需要检测关键点并在关键点之间学习关联信息。我们认为这些问题可以完全由变压器解决。具体而言,变压器中的自我关注测量任何一对位置之间的依赖性,这可以为关键点分组提供关联信息。但是,天真的注意力模式仍然没有主观控制,因此无法保证关键点始终会参加它们所属的实例。为了解决它,我们提出了一种监督多人关键点检测和实例关联的自我关注的新方法。通过使用实例掩码来监督自我关注的实例感知,我们可以基于成对引人注定分数为其对应的实例分配检测到的关键字,而无需使用预定义的偏移量字段或嵌入像基于CNN的自下而上模型。我们方法的另一个好处是可以从监督的注意矩阵直接获得任何数量的人的实例分段结果,从而简化了像素分配管道。对Coco多人关键点检测挑战和人实例分割任务的实验证明了所提出的方法的有效性和简单性,并显示出于针对特定目的控制自我关注行为的有希望的方法。
translated by 谷歌翻译
多模式分类是人类以人为本的机器学习中的核心任务。我们观察到信息跨多模式融合在多模式融合之前,信息在偶像中具有高度互补的信息,因此在多模式融合之前可以彻底稀释。为此,我们呈现稀疏的融合变压器(SFT),一种用于现有最先进的方法的变压器的新型多模式融合方法,同时具有大大降低了内存占用和计算成本。我们想法的关键是稀疏池块,可在跨模式建模之前减少单峰令牌集合。评估在多个多模式基准数据集上进行,用于广泛的分类任务。在类似的实验条件下的多个基准上获得最先进的性能,同时报告计算成本和内存要求降低六倍。广泛的消融研究展示了在天真的方法中结合稀疏和多式化学习的好处。这铺平了在低资源设备上实现多模级学习的方式。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
基于深度学习的模型占主导地位的生产推荐系统的当前景观。此外,近年来目睹了模型规模的指数增长 - 从谷歌的2016年模型,最新的Facebook的型号有10亿个参数,具有12万亿参数。型号容量的每次跳跃都有显着的质量增强,这使我们相信100万亿参数的时代即将来临。然而,即使在工业规模数据中心内,这些模型的培训也在挑战。这种困难是从训练计算的惊人的异质性继承 - 模型的嵌入层可以包括总模型尺寸的99.99%,这是极其内存密集的;虽然其余的神经网络越来越多地计算密集型。为支持培训此类巨大模式,迫切需要有效的分布式培训系统。在本文中,我们通过仔细共同设计优化算法和分布式系统架构来解决这一挑战。具体而言,为了确保培训效率和训练精度,我们设计一种新型混合训练算法,其中嵌入层和密集的神经网络由不同的同步机制处理;然后,我们构建一个名为Persia的系统(短暂的并行推荐培训系统,其中包含混合加速),以支持这种混合培训算法。理论上的示范和实证研究均达到100万亿参数,以证明了波斯的系统设计和实施。我们将Pensia公开使用(在https://github.com/persiamml/persia),以便任何人都能够以100万亿参数的规模轻松培训推荐模型。
translated by 谷歌翻译
对于移动设备上的实际深度神经网络设计,必须考虑计算资源产生的约束以及各种应用中的推理延迟。在深度网络加速相关方法中,修剪是广泛采用的做法,以平衡计算资源消耗和准确性,可以在明智地或随机地拆除通道的不重要连接,并对模型精度的最小影响最小。信道修剪立即导致显着的延迟降低,而随机重量灌注更加灵活,以平衡延迟和精度。在本文中,我们介绍了一个统一的框架,具有联合通道修剪和重量修剪(JCW),并且在比以前的模型压缩方法的延迟和准确性之间实现更好的静脉前沿。为了完全优化延迟和准确性之间的权衡,我们在JCW框架中开发了一定量身定制的多目标进化算法,这使得一个搜索能够获得各种部署要求的最佳候选架构。广泛的实验表明,JCW在想象集分类数据集上的各种最先进的修剪方法之间实现了更好的折衷和准确性。我们的代码在https://github.com/jcw-anonymous/jcw提供。
translated by 谷歌翻译
鉴于单个椅子图像,我们可以提取其3D形状并为其合理的关节和动作提供动画吗?这是一个有趣的新问题,可能有许多下游增强现实和虚拟现实应用。在本文中,我们提出了一种自动化方法来解决从单个图像,索引和动画中重建这种三维通用对象的整个过程。与以往的对象操纵的努力相比,我们的工作超出了2D操纵。此外,我们赋予了诸如椅子的其他刚体物体的合理的人类或类似动物的变形;这导致可行的物体运动方面的灵活性更大。凭经验我们的方法在公共数据集以及我们的内部数据集中令人满意地表明了令人满意的表现;与3D重建和骨架预测的相关任务相比,我们的结果通过明显的余量超越了最先进的。我们的实施和数据集将在纸张接受后公开提供。
translated by 谷歌翻译