虽然现在深度神经网络在语义分割任务上取得了令人印象深刻的表现,但它们通常通过优化像素 - 自发(例如交叉熵)来训练。结果,由这种网络输出的预测通常难以准确地捕获对象边界和对象内部的孔。在本文中,我们提出了一种改进预测分割掩模结构的新方法。我们引入了一种新颖的语义边缘检测网络,它允许匹配预测和地面真实分割掩模。这种语义边缘感知策略(SEMEDA)可以与端到端培训框架中的任何骨干深度网络结合。通过对Pascal VOC 2012和Cityscapesdatasets的全面实验验证,我们证明了所提出的SEMEDA方法增强了预测分割的结构。通过强制清晰的边界并避免对象内部的不连续性来提高分割性能。此外,与标准的逐像素交叉entropyloss相比,我们的语义边缘感知损失可以集成到任何popularsegmentation网络中,而不需要任何额外的注释和不可忽略的计算负荷。
translated by 谷歌翻译
图像完成是从片段生成整个图像的问题。它包括修复(在其周围产生补丁),反向修复/外推(在给定中心补片的情况下产生外围)以及着色(产生给予其他的一个或多个通道)。在本文中,我们采用深度网络来执行图像完成,具有对抗性训练以及感知和完成损失,并称之为“缺失数据编码器”(MDE)。我们根据如何选择种子片段来考虑几种配置。我们表明,训练MDE用于“randomextrapolation和colorization”(MDE-REC),即使用随机信道独立片段,可以更好地捕获图像语义和几何。 MDE训练利用了一种新颖的“捉迷藏”对抗性,其中鉴别者寻找原始的非掩蔽区域,而生成器试图隐藏它们。我们在几个数据集上定性和定量地验证我们的模型,显示他们对图像完成,无监督表示学习以及面部遮挡处理的兴趣。
translated by 谷歌翻译
多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
在本文中,我们介绍了一种利用未标记数据来改进图像分类器的泛化性能的新模型:一种称为HybridNet的双分支编码器 - 解码器架构。第一个分支接收监视信号,专用于提取与invariantclass相关的表示。第二个分支是完全无监督的,并且用于模拟第一分支丢弃的信息以重建输入数据。为了进一步支持我们模型的预期行为,我们提出了原始培训目标。它有利于歧视性分支的稳定性和双重分支中学到的表征之间的互补性。 HybridNet能够在各种半监督环境中超越CIFAR-10,SVHN和STL-10的最新结果。此外,可视化和消融研究验证了我们对CIFAR-10和STL-10数据集的贡献和模型的行为。
translated by 谷歌翻译
Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
translated by 谷歌翻译
向用户推荐适当的项目对于许多电子商务平台至关重要,这些电子商务平台包含隐含数据作为用户的浏览,购买和流媒体历史。一种常见的方法是为给定的N选择每个用户的N个最相关的项目,称为顶级推荐。为此,推荐系统依赖于各种信息,例如项目和用户特征,用户对项目的过去兴趣,浏览历史和用户之间的信任。但是,它们通常只使用一两种这样的信息,这限制了它们的性能。在本文中,我们设计并实现了GraFC2T2,这是一个基于图形的通​​用框架,可以轻松地组合和比较前N推荐的各种辅助信息。它将基于内容的特征,时间和信任信息编码到acomplex图中,并使用个性化的PageRank在此图表上进行推荐。我们对Epinions和Ciao数据集进行了实验,并使用F1得分,命中率和MAP评估指标对基于矩阵分解和深度学习的系统进行了比较。这表明我们的框架对于这种探索是方便的,并且组合不同种类的信息确实改善了一般的推荐。
translated by 谷歌翻译
许多最近的成功(深度)强化学习算法利用了通常基于熵或Kullback-Leibler发散的规范化。我们提出了正则化马尔可夫决策过程的一般理论,它将这些方法概括为两个方向:我们考虑更大类的规则制定者,我们考虑一般修改的策略迭代方法,包括策略迭代和值迭代。该理论的核心构建块是正则化Bellman算子和Legendre-Fenchel变换的概念,这是凸优化的经典工具。该方法允许对一般算法方案的错误传播分析,其中(可能是变体的)经典算法,例如Trust RegionPolicy Optimization,Soft Q-learning,Stochastic Actor Critic或Dynamic PolicyProgramming是特殊情况。这也与近端凸优化有关,特别是镜面下降。
translated by 谷歌翻译
脓毒症是ICU死亡的主要原因。管理具有挑战性,因为个体患者对治疗的反应不同。因此,为个体患者定制治疗对于最佳结果至关重要。在本文中,我们通过应用专家专家框架来个性化败血症治疗,从而实现这一目标。混合模型根据患者的当前历史选择性地在基于邻居(核心)和深度加强学习(DRL)专家之间交替。在一个大型回顾性队列中,这种基于混合物的方法优于医生,核心和仅限DRL的专家。
translated by 谷歌翻译
我们提供了固定深度全连接深度神经网络的泛化性能演变的描述,作为其参数数量$ N $的函数。在数据点数大于输入维数的设置中,当$ N $变大时,我们观察到固定深度增加$ N $减少了由初始条件引起的输出函数$ f_N $的波动。 \!| f_N - {\ bar f} _N | \!| \ sim N ^ { - 1/4} $其中$ {\ bar f} _N $表示初始条件下的平均值。我们根据控制输出函数动态的所谓NeuralTangent Kernel的波动来解释这种渐近行为。对于分类任务,我们预测这些波动会增加真正的testror $ \ epsilon $为$ \ epsilon_ {N} - \ epsilon _ {\ infty} \ sim N ^ { - 1/2} + \ mathcal {O}(N ^ { - 3/4})$。该预测与我们在MNIST数据集上的实证结果一致,并且在具体情况下解释了令人费解的观察结果,即深度网络的预测能力随着拟合参数的数量增加而改善。这种渐近描述在所谓的模拟转换中发生故障,该转换发生在关键的$ N = N ^ * $,低于该值时,训练误差为非零。在没有正则化的情况下,我们观察到一个明显的分歧$ | \!| f_N | \!| \ sim(NN ^ *)^ { - \ alpha} $并提供一个简单的参数,建议$ \ alpha = 1 $,与经验观察一致。这导致了一个似乎合理的解释,即已知的测试误差中的尖点为$ N ^ * $。总的来说,我们的分析表明,一旦模型平均化,最佳模型复杂度就会超出数据库完美拟合的范围,这是实际重要性的结果,需要在各种体系结构和数据集中进行验证。
translated by 谷歌翻译