多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
在本文中,我们介绍了一种利用未标记数据来改进图像分类器的泛化性能的新模型:一种称为HybridNet的双分支编码器 - 解码器架构。第一个分支接收监视信号,专用于提取与invariantclass相关的表示。第二个分支是完全无监督的,并且用于模拟第一分支丢弃的信息以重建输入数据。为了进一步支持我们模型的预期行为,我们提出了原始培训目标。它有利于歧视性分支的稳定性和双重分支中学到的表征之间的互补性。 HybridNet能够在各种半监督环境中超越CIFAR-10,SVHN和STL-10的最新结果。此外,可视化和消融研究验证了我们对CIFAR-10和STL-10数据集的贡献和模型的行为。
translated by 谷歌翻译
Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
translated by 谷歌翻译
许多最近的成功(深度)强化学习算法利用了通常基于熵或Kullback-Leibler发散的规范化。我们提出了正则化马尔可夫决策过程的一般理论,它将这些方法概括为两个方向:我们考虑更大类的规则制定者,我们考虑一般修改的策略迭代方法,包括策略迭代和值迭代。该理论的核心构建块是正则化Bellman算子和Legendre-Fenchel变换的概念,这是凸优化的经典工具。该方法允许对一般算法方案的错误传播分析,其中(可能是变体的)经典算法,例如Trust RegionPolicy Optimization,Soft Q-learning,Stochastic Actor Critic或Dynamic PolicyProgramming是特殊情况。这也与近端凸优化有关,特别是镜面下降。
translated by 谷歌翻译
脓毒症是ICU死亡的主要原因。管理具有挑战性,因为个体患者对治疗的反应不同。因此,为个体患者定制治疗对于最佳结果至关重要。在本文中,我们通过应用专家专家框架来个性化败血症治疗,从而实现这一目标。混合模型根据患者的当前历史选择性地在基于邻居(核心)和深度加强学习(DRL)专家之间交替。在一个大型回顾性队列中,这种基于混合物的方法优于医生,核心和仅限DRL的专家。
translated by 谷歌翻译
我们提供了固定深度全连接深度神经网络的泛化性能演变的描述,作为其参数数量$ N $的函数。在数据点数大于输入维数的设置中,当$ N $变大时,我们观察到固定深度增加$ N $减少了由初始条件引起的输出函数$ f_N $的波动。 \!| f_N - {\ bar f} _N | \!| \ sim N ^ { - 1/4} $其中$ {\ bar f} _N $表示初始条件下的平均值。我们根据控制输出函数动态的所谓NeuralTangent Kernel的波动来解释这种渐近行为。对于分类任务,我们预测这些波动会增加真正的testror $ \ epsilon $为$ \ epsilon_ {N} - \ epsilon _ {\ infty} \ sim N ^ { - 1/2} + \ mathcal {O}(N ^ { - 3/4})$。该预测与我们在MNIST数据集上的实证结果一致,并且在具体情况下解释了令人费解的观察结果,即深度网络的预测能力随着拟合参数的数量增加而改善。这种渐近描述在所谓的模拟转换中发生故障,该转换发生在关键的$ N = N ^ * $,低于该值时,训练误差为非零。在没有正则化的情况下,我们观察到一个明显的分歧$ | \!| f_N | \!| \ sim(NN ^ *)^ { - \ alpha} $并提供一个简单的参数,建议$ \ alpha = 1 $,与经验观察一致。这导致了一个似乎合理的解释,即已知的测试误差中的尖点为$ N ^ * $。总的来说,我们的分析表明,一旦模型平均化,最佳模型复杂度就会超出数据库完美拟合的范围,这是实际重要性的结果,需要在各种体系结构和数据集中进行验证。
translated by 谷歌翻译
卷积神经网络(CNN)是许多计算机视觉任务(例如对象分类和检测)中的最新技术。然而,它们包含的大量参数导致高计算复杂性并且极大地限制了它们在诸如嵌入式设备的预算受限设备中的可用性。在本文中,我们提出了一种新的修剪技术和量化方案的组合,有效地降低了CNN卷积层的复杂性和存储器使用,并用低成本的多路复用器取代了复杂的卷积运算。我们对CIFAR10,CIFAR100和SVHN进行了实验,并表明所提出的方法几乎具有最先进的精度,同时大大减少了计算和内存占用。我们还提出了一种有效的硬件架构来加速CNN的运营。所提出的硬件架构是一个流水线,可以容纳多个层同时工作以推进推理过程。
translated by 谷歌翻译
语义分割是许多计算机视觉任务的关键问题。虽然基于卷积神经网络的方法在不同的基准测试中不断打破新的记录,但很好地推广到各种测试环境仍然是一项重大挑战。在许多实际应用中,在列车和测试域中的数据分布之间确实存在很大差距,这导致在运行时严重的性能损失。在这项工作中,我们解决了语义分割中的无监督域自适应的任务,其中基于像素预测的熵具有损失。为此,我们提出了两种新的互补方法,分别使用(i)熵损失和(ii)对抗性损失。我们在两个具有挑战性的“合成2实际”设置的语义分割中展示了最先进的性能,并表明该方法也可用于检测。
translated by 谷歌翻译
除结构化临床数据外,临床文本还提供了估计住院期间患者敏锐度的基本信息。在本研究中,我们将探讨临床文本如何补充临床预测学习任务。我们利用内部医学自然语言处理服务对临床记录执行命名实体提取和否定检测,并将所选实体组合成新的文本语料库以训练文档表示。然后,我们提出了一种多模态神经网络来联合训练时间序列信号和非结构化临床文本表示,以预测ICU患者的院内死亡风险。我们的模型优于基准标记2%AUC。
translated by 谷歌翻译