多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
在本文中,我们介绍了一种利用未标记数据来改进图像分类器的泛化性能的新模型:一种称为HybridNet的双分支编码器 - 解码器架构。第一个分支接收监视信号,专用于提取与invariantclass相关的表示。第二个分支是完全无监督的,并且用于模拟第一分支丢弃的信息以重建输入数据。为了进一步支持我们模型的预期行为,我们提出了原始培训目标。它有利于歧视性分支的稳定性和双重分支中学到的表征之间的互补性。 HybridNet能够在各种半监督环境中超越CIFAR-10,SVHN和STL-10的最新结果。此外,可视化和消融研究验证了我们对CIFAR-10和STL-10数据集的贡献和模型的行为。
translated by 谷歌翻译
Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
translated by 谷歌翻译
图形神经网络(GNN)有许多种类,但应始终是不变的(输入图的节点的排列不影响输出)或等变的(输入的排列置换输出)。在本文中,我们考虑一类特定的不变和等变网络,为此我们证明了新的普遍性定理。更确切地说,我们考虑具有单个隐藏层的网络,通过对通过应用等变线性算子,点态非线性和不变量等变线性算子形成的通道求和来获得。最近,Maron等人。 (2019)表明,通过网络内部的高阶张量化,可以获得通用不变量GNN。作为第一个贡献,我们提出了这个结果的另一种证明,它依赖于Stone-Weierstrass定理用于实值函数的代数。我们的主要贡献是将这种结果扩展到等效的情况,这种情况出现在许多实际应用中,但从理论的角度来看,研究较少。该证明依赖于一个新的广义Stone-Weierstrass定理,用于等变函数的代数,这是一个独立的兴趣。最后,与考虑固定数量的节点的许多先前设置不同,我们的结果表明,由单个参数集定义的GNN可以均匀地近似在不同大小的图上定义的函数。
translated by 谷歌翻译
我们探索人工神经网络作为从虚构时间格林函数重建光谱函数的工具,这是一个经典条件反问题。我们的ansatz基于有监督的学习框架,其中先验知识在训练数据中被编码,并且逆变换流形通过神经网络被明确地参数化。我们系统地研究了这种新的重建方法,提供了对其在物理动机模拟数据上的表现的详细分析,并将其与已建立的贝叶斯推理方法进行了比较。发现构造精度至少是可比较的,并且特别是在较大的噪声水平下可能是优越的。我们认为,在监督环境中使用标记的训练数据和确定优化目标的自由度是本方法的固有优势,并且可能导致对未来最先进方法的重大改进。进一步研究的潜在方向是详细讨论。
translated by 谷歌翻译
在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
事实证明,半监督学习是利用未标记数据来减轻对大型标记数据集的依赖的有力范例。在这项工作中,我们统一了当前用于半监督学习的主要方法,产生了一种新算法MixMatch,它通过猜测低熵标签来处理数据增强的未标记示例,并使用MixUp混合标记和未标记数据。我们展示了MixMatch通过许多数据集和标记数据量的大数据获得最先进的结果。例如,在具有250个标签的CIFAR-10上,我们将错误率降低了4倍(从38%降至11%),在STL-10上降低了2倍。我们还演示了MixMatch如何帮助实现更好的准确性 - 隐私折衷以实现差异隐私。最后,我们进行了一项消融研究,以分辨出MixMatch的哪些组件对其成功最重要。
translated by 谷歌翻译
许多现实世界的任务表现出丰富的结构,在州空间的不同部分或时间上重复。在这项工作中,我们研究了利用这种重复结构加速和规范学习的可能性。我们从KL正规化的预期奖励目标开始,该目标引入了一个额外的组件,即默认策略。我们不是依赖于固定的默认策略,而是从数据中学习它。但至关重要的是,我们限制默认策略接收的信息量,迫使其学习可重用行为,以帮助策略更快地学习。我们正式化了这一策略,并讨论了与信息瓶颈方法和变分EM算法的联系。我们在离散和连续作用域中提供实证结果,并证明,对于某些任务,在策略旁边学习默认策略可以显着加快和改善学习。
translated by 谷歌翻译
预测视频序列的未来帧是具有挑战性的生成建模任务。有希望的方法包括概率潜变量模型,例如变分自动编码器。虽然VAE可以处理不确定性并模拟多种可能的未来结果,但它们倾向于产生预测。在这项工作中,我们认为这是欠拟合的标志。为了解决这个问题,我们建议增加潜在分布的表现力并使用更高容量的可能性模型。我们的方法依赖于潜在变量的层次结构,它定义了一系列灵活的priorand后验分布,以便更好地模拟未来序列的概率。我们通过一系列消融实验来验证我们的建议,并将我们的方法与当前最先进的潜变量模型进行比较。我们的方法在三个不同的数据集中的几个指标下表现良好。
translated by 谷歌翻译