多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
在本文中,我们介绍了一种利用未标记数据来改进图像分类器的泛化性能的新模型:一种称为HybridNet的双分支编码器 - 解码器架构。第一个分支接收监视信号,专用于提取与invariantclass相关的表示。第二个分支是完全无监督的,并且用于模拟第一分支丢弃的信息以重建输入数据。为了进一步支持我们模型的预期行为,我们提出了原始培训目标。它有利于歧视性分支的稳定性和双重分支中学到的表征之间的互补性。 HybridNet能够在各种半监督环境中超越CIFAR-10,SVHN和STL-10的最新结果。此外,可视化和消融研究验证了我们对CIFAR-10和STL-10数据集的贡献和模型的行为。
translated by 谷歌翻译
Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
translated by 谷歌翻译
通过引入辅助变量,数据增加已经成为改进混合/收敛性质,简化实现或减少推理方法(例如马尔可夫链蒙特卡罗)的计算时间的一种非常有效的技术。尽管如此,在保留初始目标概率分布的同时引入适当的辅助变量不能以系统的方式进行,但在很大程度上取决于所考虑的问题。为了解决这些问题,本文提出了一个统一的框架,即渐近精确的数据增强(AXDA),其中包括几个井 - 已建立但也是最近的近似增强模型。从更广泛的角度来看,它提供了一些关于这些方案的额外定性和定量见解。特别地,陈述了AXDA的一般性质以及对所得的近似的非渐近理论结果。还绘制了与现有贝叶斯方法的紧密连接(例如,混合建模,鲁棒贝叶斯模型和近似贝叶斯计算)。所有结果都用实例说明,并应用于标准统计学习问题。
translated by 谷歌翻译
在过去几年中,对抗性例子的现象 - 恶意构建的输入,欺骗训练有素的机器学习模型 - 引起了研究界的关注,特别是当对手仅限于对正确处理输入的小修改时。令人惊讶的是,图像分类器在随机损坏的图像上也缺乏人类级别的性能,例如具有加性高斯噪声的图像。在本文中,我们提供了经验和理论证据,证明这些是同一潜在现象的两种表现形式,在对抗性稳健性和腐败稳健性研究计划之间建立了紧密的联系。这表明,在存在更普遍和现实的图像损坏的情况下,改善对抗性稳健性应与提高性能相结合。根据我们的结果,我们建议未来对抗性防御考虑使用Imagenet-C等基准测试评估其方法的分布式转移的稳健性。
translated by 谷歌翻译
在这项工作中,我们提出了一个随机化的八卦算法,用于解决平均共识问题,同时保护存储在节点上的初始私有值的信息。我们给出了方法的迭代复杂性界限并进行了广泛的数值实验。
translated by 谷歌翻译
谱聚类是用于图上社区检测的最流行但尚未完全理解的方法之一。在本文中,我们基于变形拉普拉斯矩阵$ D-rA $,对于稀疏异构图(遵循两级度校正随机块模型)进行了基于聚类的聚类。对于特定值$ r = \ zeta $,我们表明,与Bethe Hessian或非回溯算子方法等竞争方法不同,聚类对图异质性不敏感。基于启发式参数,我们研究了$ D- \ zeta A $的信息特征向量的行为,因此,我们准确地预测了聚类精度。通过对实际网络的广泛仿真和应用,对得到的聚类算法进行了验证,并观察到系统地优于最先进的竞争方法。
translated by 谷歌翻译
计算市场均衡是市场设计(例如公平分配,项目分配)的重要实际问题。然而,计算均衡需要大量信息(例如,所有购买者的所有估值)和计算能力。我们考虑通过应用用于解决复杂游戏的方法来改善这些问题:构建给定市场的粗略抽象,解决抽象中的均衡,以及将价格和分配提升回原始市场。我们展示了当抽取的价格和分配用于代替实际均衡时,如何限制诸如遗憾,嫉妒,纳什社会福利,Paretooptimality和maximin份额等重要数量。然后,我们研究了两种从业者感兴趣的抽象方法:1)使用矩阵完成技术填写未知估值; 2)通过将购买者/项目组聚合成较少数量的代表性购买者/项目并在这个粗化市场中解决均衡来减小问题规模。我们发现在实际数据中,相对接近均衡的分配/价格可以通过非常粗略的抽象来计算。
translated by 谷歌翻译
在最近深度强化学习方法取得成功的基础上,我们通过使用来自多个连续政策的数据来研究政策强化学习改进的可能性。政策上的方法带来很多好处,例如评估每个结果政策的能力。但是,它们通常会丢弃之前存在的所有政策信息。在这项工作中,我们建议调整重放缓冲区概念,借鉴非政策学习环境,创建方法,结合政策和非政策学习的优势。为了实现这一点,所提出的算法为来自多个策略的数据提供了$ Q $ - ,值和优势函数。该方法使用信任区域优化,同时避免了诸如TRPO或ACKTR之类的算法的一些常见问题:它使用超参数替换信任区域选择启发法,以及可训练协方差矩阵而不是固定协方差矩阵。在许多情况下,与最先进的信任区域政策学习算法(如PPO,ACKTR和TRPO)相比,该方法不仅改善了结果,而且还与其政策外对应的DDPG相关。
translated by 谷歌翻译