多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
这项工作对图像识别领域中提出的大多数深度神经网络(DNN)进行了深入分析。观察到Foreach DNN多个性能指标,例如识别准确性,模型复杂性,计算复杂性,存储器使用和参考时间。分析和讨论了这些性能指标的行为及其组合。为了测量指数,我们在两种不同的计算机架构上试验DNN的使用,配备NVIDIA Titan X Pascal的工作站和基于NVIDIA JetsonTX1板的嵌入式系统。该实验允许直接比较运行具有非常不同计算能力的机器的DNN。这项研究有助于研究人员全面了解已经探索过的解决方案,以及未来值得探索的研究方向;并且forpractitioners选择更适合实际部署和应用程序的资源约束的DNN体系结构。为了完成这项工作,所有DNN以及用于分析的软件都是在线提供的。
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
理解学习黑盒子的工作方式对于机器学习的未来至关重要。在本文中,我们开创了学习黑盒模型的全局可解释性问题,该模型为符号序列数据赋予了数值。为了解决这个问题,我们提出了一种从这些黑盒子中提取加权自动机(WA)的光谱算法。该算法不需要访问数据集或黑盒子的内部表示:推断模型可以单独获得使用回归神经网络(RNN)对48个合成数据集和2个真实数据集进行广泛收集的实验表明,获得的近似值具有很高的质量。
translated by 谷歌翻译
虽然近年来取得了很多进展,但深度非线性神经网络的学习动力至今仍未得到很好的理解。在这项工作中,我们研究了二元分类的情况,并在强大的假设下证明了这种网络中学习的各种属性,如数据的线性可分性。从线性情况扩展现有结果,我们通过证明分类误差在非线性体系结构中也遵循S形形状来证实经验观察。我们表明,给定适当的初始化,学习阐述了并行相关模式,并且参数空间的某些区域可能导致tofailed训练。我们还证明了数据集中的输入范数和特征频率导致了明显的收敛速度,这可能会对深度神经网络的泛化能力有所启发。我们提供了学习动态与交叉熵和铰链损失之间的比较,这可能有助于理解生成对抗网络训练的最新进展。最后,我们确定了一种将梯度饥饿纳入其中的现象,其中数据集中最常见的特征可以防止学习其他不太频繁但信息量相同的特征。
translated by 谷歌翻译
虽然最近的进展产生了非常强大的机器学习系统,但这些代理仍然非常专业,无法将知识收益转移到类似但看不见的任务上。在本文中,我们研究了一个简单的强化学习问题,并专注于学习策略,这些策略将适当的不变性编码为不同设置的泛化。我们评估了政策概括的三种潜在方法:数据增强,元学习和对抗性训练。我们发现我们的数据增强方法是有效的,并研究元学习和对抗性学习作为替代任务不可知方法的潜力。关键词:强化学习,泛化,数据增强,元学习,对抗性学习。
translated by 谷歌翻译
如今,地球观测系统提供了大量的异构远程传感数据。如何利用其互补性来管理这种丰富性是现代遥感分析的关键挑战。数据融合技术处理这一点提出了在不同数据传感器之间组合和利用互补性的方法。考虑到光学超高空分辨率(VHSR)图像,卫星以不同的空间分辨率获得多光谱(MS)和全色(PAN)图像。 VHSR图像被广泛利用来制作土地覆盖图,以处理农业,生态和社会经济问题,以及评估生态系统状况,监测生物多样性和提供投入以构想食品风险监测系统。从这种VHSR图像生成土地覆盖图的常用技术通常选择先前对多分辨率源进行扫描以进行全分辨率处理。在这里,我们提出了一种新的深度学习架构,可以联合使用PAN和MS图像进行直接分类,无需任何先验图像融合或重采样过程。通过在其空间分辨率下管理光谱信息,我们的方法名为MRFusion,旨在避免由pansharpening或任何其他手工制作的预处理引起的可能的信息损失。此外,所提出的架构被适当地设计为容许源的非线性变换,其明确目的是尽可能地利用PAN和MS图像的互补性。实验是在描绘具有不同土地的大区域的两个真实世界场景上进行的。封面特征。所提出的场景的特征强调了我们的方法在操作设置中的适用性和一般性。
translated by 谷歌翻译
我们引入了一种新的强化学习算法,称为Maximumaposteriori Policy Optimization(MPO),它基于相对熵目标的坐标上升。我们证明了几种现有方法可以直接与我们的推导相关联。我们开发了两种非策略算法,并证明它们与深度强化学习中的最新技术竞争。特别是,对于连续控制,我们的方法在实现类似或更好的最终性能的同时,在样本效率,早熟收敛和对超参数设置的鲁棒性方面优于成熟方法。
translated by 谷歌翻译
我们引入了一种算法来定位昂贵的函数轮廓进行评估。定位轮廓的问题出现在许多应用中,包括分类,约束优化以及机械和动力系统的性能分析(可靠性,故障概率,稳定性等)。我们的算法使用来自多个源的信息来定位轮廓,这些信息可以以相对便宜,有偏差且可能对原始函数有噪声的近似形式获得。考虑多个信息源可以显着节省成本。我们还介绍了轮廓熵的概念,即关于由统计模型近似的函数零轮廓位置的不确定性的形式测量。我们的算法通过最大化每单位成本的轮廓熵的减少来有效地定位轮廓。
translated by 谷歌翻译