Our experience of the world is multimodal - we see objects, hear sounds, feeltexture, smell odors, and taste flavors. Modality refers to the way in whichsomething happens or is experienced and a research problem is characterized asmultimodal when it includes multiple such modalities. In order for ArtificialIntelligence to make progress in understanding the world around us, it needs tobe able to interpret such multimodal signals together. Multimodal machinelearning aims to build models that can process and relate information frommultiple modalities. It is a vibrant multi-disciplinary field of increasingimportance and with extraordinary potential. Instead of focusing on specificmultimodal applications, this paper surveys the recent advances in multimodalmachine learning itself and presents them in a common taxonomy. We go beyondthe typical early and late fusion categorization and identify broaderchallenges that are faced by multimodal machine learning, namely:representation, translation, alignment, fusion, and co-learning. This newtaxonomy will enable researchers to better understand the state of the fieldand identify directions for future research.
translated by 谷歌翻译
本文将线性范围定义为参数扰动的范围,其大致导致状态中的线性扰动。我们通过比较状态中的实际扰动和网络的切线解来计算线性范围。线性范围是渐变有意义的新标准,因此具有许多可能的应用。特别是,我们建议通过选择一个步长来自动找到训练开始时的最佳学习率,使得所有小批量都在线性范围内。我们在具有规范架构和aResNet的网络上演示我们的算法。
translated by 谷歌翻译
最近,已经提出了一种称为使用神经网络的互信息神经估计器(MINE)的方法来估计互信息,并且更一般地估计两个分布之间的Kullback-Leibler(KL)偏差。方法使用Donsker-Varadhan表示来得出KL分歧的估计,并且在可扩展性和灵活性方面优于现有估计。 MINE算法的输出不能保证是一致的估计器。我们提出了一种新的估计器,它不是搜索以神经网络为特征的函数,而是在生成核Hilbert空间中搜索函数。我们证明了所提出的估计量是一致的。我们进行了模拟并表明,当数据集很小时,所提出的估计量比MINE估计量更可靠,并且当数据集很大时,两种方法的性能接近。
translated by 谷歌翻译
本文提出了一种确定的盲源分离方法,该方法采用贝叶斯非参数化源模型。通常,通过使用非负矩阵分解(NMF)对它们进行建模,从给定的混合信号集分离源信号。然而,在NMF中,必须适当地指定潜在的变量信号模型复杂度以避免过度拟合或不合适。由于现实世界的来源可能具有不同的和未知的复杂性,我们提出了一个贝叶斯非参数框架,它不受这种潜在变量的影响。我们表明我们提出的方法适应不同的源复杂性,而传统方法需要参数化以实现最佳分离。
translated by 谷歌翻译
我们通过使用来自图像标题对的弱监视来解决将自由格式文本短语接地的问题。我们提出了一种新颖的端到端模型,它将字幕到图像检索作为“下游”任务来指导词语本地化过程。作为第一步,我们的方法推断标题中的感兴趣区域(RoI)和短语之间的潜在对应,并使用这些匹配的RoI创建辨别图像表示。在随后的步骤中,这个(学习的)表示与标题一致。我们的关键贡献在于构建这种“字幕条件”图像编码,它紧密地耦合两个任务并允许弱监督有效地指导视觉基础。我们提供了广泛的经验和定性分析,以研究我们提出的模型的不同组成部分,并将其与竞争基线进行比较。对于短语本地化而言,相对于VisualGenome数据集的先前技术水平,改进了4.9%(绝对值)。我们还报告了与COCO和Flickr30k数据集上下游字幕到图像检索任务的最新技术相关的结果。
translated by 谷歌翻译
我们提出了一种新技术,使用由单独的卷积算法编码器生成的特征图将注意力集中在卷积神经网络中。我们的注意力架构非常适合与深度卷积网络结合使用。我们在皮肤癌分割和肺病变分割的基准分割数据集上评估我们的模型。与U-Net相比,结果显示出极具竞争力的性能及其残余变量。
translated by 谷歌翻译
深度学习领域的最新发展促使许多研究人员将这些方法应用于量子信息中的问题。 Torlaiand Melko首先提出了一种基于神经网络的表面码解码器。从那时起,许多其他研究人员已经应用神经网络来研究解码环境中的各种问题。这方面的一个重要发展是由于Varsamopoulos等人。谁提出了使用神经网络的两步解码器。 Maskara等人的后续工作。使用相同的概念来解码各种噪声模型。我们提出了一种类似的两步神经解码器,它使用逆奇偶校验矩阵用于拓扑颜色代码。我们表明它在2D六边形颜色代码上优于非神经解码器的独立Pauli误差噪声模型的最先进性能。我们的最终解码器独立于噪声模型,达到了10美元/%的门槛。我们的结果与Maskara等人最近关于量子误差校正的神经解码器的工作相当。我们的解码器在培训成本方面具有显着的优势与Maskara等人相比,网络的复杂程度更高。我们提出的方法也可以扩展到任意维度和其他稳定器代码。
translated by 谷歌翻译
由于不受约束的外观变化和动态环境,视觉跟踪是一个复杂的问题。通过多种特征从对象环境中提取补充信息并适应目标的外观变化是这项工作的关键问题。为此,我们提出了一种基于多线索统一图形融合(UGF)的鲁棒对象跟踪框架,以适应对象的外观。所提出的稀疏和密集特征的交叉扩散不仅抑制了各个特征的缺陷,而且还从多线索中提取了补充信息。这种迭代过程构建了强大的统一特征,这些特征对于对象变形,快速运动和遮挡是不变的。统一特征的稳健性还使随机森林分类器能够精确地区分前景和背景,增加了背景杂乱的弹性。此外,我们提出了一种新的基于核的自适应策略,使用离群检测和转换可靠性度量。适应策略更新外观模型以适应比例,照明,旋转的变化。对25个基准视频序列(OTB-50,OTB-100和VOT2017 / 18)的定性和定量分析表明,在各种对象跟踪挑战下,所提出的UGF跟踪器对15种其他最先进的跟踪器有利。
translated by 谷歌翻译
我们专注于学习单个电机模块的问题,该模块可以灵活地表达一系列行为,以控制高维物理模拟人形机器人。为此,我们提出了一种具有潜在变量瓶颈的逆模型的一般结构的电机架构。通过Weshow可以完全离线训练这个模型,以完成数千个专家政策并学习电机原始嵌入空间。训练的神经概率运动原始系统可以执行全身人形行为的一次性模仿,强有力地模仿未经观察的行为。此外,我们证明了直接控制控制器重用学习的电机原始空间来解决任务,并且产生的运动相对自然。为了支持我们的模型训练,我们比较了两种离线策略克隆方法,包括一种经验有效的方法,我们称之为线性反馈策略克隆。我们鼓励读者查看总结我们结果的补充视频(https://youtu.be/1NAHsrrH2t0)。
translated by 谷歌翻译
持续学习是在保护旧知识的同时学习新任务或知识的问题,并且理想地从旧体验中推广以更快地学习新任务。随机梯度下降训练的神经网络在连续训练具有不同数据分布的新任务时经常降级旧任务。这种被称为灾难性遗忘的现象被认为是学习非固定数据或新任务序列的主要障碍,并且阻止网络不断积累知识和技能。我们在强化学习的背景下研究这个问题,在一个代理暴露于序列中的任务的位置。与大多数其他工作不同,我们没有为任务边界模型提供明确的指示,这是学习代理暴露出连续经验的最普遍情况。虽然最近提出了各种抵消灾难性遗忘的方法,但我们探索了一种直截了当,一般而且看似被忽视的解决方案 - 使用经验重放缓冲过去的事件 - 结合政策上和政策外的学习,利用行为克隆。我们表明,这种策略仍然可以快速学习新任务,但可以大大减少Atari和DMLab域中的灾难性遗忘,甚至可以匹配需要任务同等性的方法的性能。当缓冲存储受到约束时,我们确认随机丢弃数据的简单机制允许有限大小的缓冲区最常用以及无条件缓冲区。
translated by 谷歌翻译