解决基础语言任务通常需要推理给定任务上下文中对象之间的关系。例如,回答问题:“盘子里的杯子是什么颜色的?”我们必须检查特定杯子的颜色,该杯子满足关于盘子的“开启”关系。最近的工作提出了各种方法复杂的关系推理。然而,它们的大部分功率都在推理结构中,而场景用简单的局部外观特征表示。在本文中,我们采用另一种方法,在视觉场景中为对象构建上下文化表示,以支持关系推理。我们提出了语言条件图网络(LCGN)的一般框架,其中每个节点表示一个对象,并且由相关对象的上下文感知表示通过以文本输入为条件的迭代消息传递来描述。例如,调整与盘子的“上”关系,对象``mug''收集来自对象``plate''的消息,将其表示更新为“盘子上的杯子”,这可以很容易地消耗掉通过简单的分类器进行答案预测。我们通过实验证明,我们的LCGN能够有效地支持关系推理,并提高了几个任务和数据集的性能。
translated by 谷歌翻译
现有的视觉解释生成代理学习流利地证明了类别预测。然而,他们可能会提到反映强烈等级的视觉属性,尽管证据可能实际上不在图像中。这尤其令人担忧,因为最终这些代理人在与人类用户建立信任方面失败了。为了克服这个限制,我们提出了一个短语 - 评论模型来改进生成的候选解释,这些解释用翻转的短语增强,我们在训练时将其用作反面例子。在推理时,我们的评论 - 评论模型将图像和候选解释作为输入,并输出一个分数,表明候选解释在图像中的基础。我们可解释的AI代理能够为替代预测提供反驳论据,即反事实,以及证明正确分类决策合理性的解释。我们的模型通过提及基于图像的短语来改进CUBdataset上细粒度分类决策的文本解释质量。此外,在FINIL任务中,我们的代理会检测到句子中何时出现错误,并检查错误的短语并比其他模型更好地纠正它。
translated by 谷歌翻译
深度神经网络决策的自然语言解释为AI代理人阐明推理过程提供了一种直观的方式。当前的textualexplanations学习讨论图像中的类判别特征。但是,如果图像中存在哪些属性可能会改变分类决策(例如,“这不是ScarletTanager,因为它没有黑色的翅膀”),也是有帮助的。我们将此类文本解释称为反事实解释,并提出一种直观的方法,通过检查输入中哪些证据缺失来生成反事实解释,但如果图像中存在,则可能有助于不同的分类决策。为了演示我们的方法,我们考虑一个细粒度图像分类任务,其中我们将图像和acounterfactual类和输出文本作为输入,这解释了为什么图像不属于反事实类。然后,我们使用提出的自动度量来定性地和定量地分析我们生成的反事实计划。
translated by 谷歌翻译
由自然语言指令引导的导航为指令追随者提出了具有挑战性的推理问题。自然语言教学通常只识别一些高级决策和地标,而不是完整的低级运动行为;必须根据感知背景推断出大部分缺失的信息。在机器学习设置中,这是具有挑战性的:难以收集足够的注释数据以从头开始学习该推理过程,并且难以使用通用序列模型实现推理过程。在这里,我们描述了视觉和语言导航的方法,通过嵌入式扬声器模型解决了这两个问题。我们使用这种说话者模型来(1)​​合成用于数据增强的新指令,并且(2)实现语用推理,其评估候选动作序列解释指令的程度。这些步骤由反映人类生成的粒度的全景动作空间支持。说明。实验表明,这种方法的所有三个组成部分 - 扬声器驱动的数据增强,实用推理和全景动作空间 - 显着提高了基线指令跟随者的性能,使标准基准上最好的现有方法的成功率翻了一倍多。
translated by 谷歌翻译
People often refer to entities in an image in terms of their relationshipswith other entities. For example, "the black cat sitting under the table"refers to both a "black cat" entity and its relationship with another "table"entity. Understanding these relationships is essential for interpreting andgrounding such natural language expressions. Most prior work focuses on eithergrounding entire referential expressions holistically to one region, orlocalizing relationships based on a fixed set of categories. In this paper weinstead present a modular deep architecture capable of analyzing referentialexpressions into their component parts, identifying entities and relationshipsmentioned in the input expression and grounding them all in the scene. We callthis approach Compositional Modular Networks (CMNs): a novel architecture thatlearns linguistic analysis and visual inference end-to-end. Our approach isbuilt around two types of neural modules that inspect local regions andpairwise interactions between regions. We evaluate CMNs on multiple referentialexpression datasets, outperforming state-of-the-art approaches on all tasks.
translated by 谷歌翻译
In this paper we approach the novel problem of segmenting an image based on anatural language expression. This is different from traditional semanticsegmentation over a predefined set of semantic classes, as e.g., the phrase"two men sitting on the right bench" requires segmenting only the two people onthe right bench and no one standing or sitting on another bench. Previousapproaches suitable for this task were limited to a fixed set of categoriesand/or rectangular regions. To produce pixelwise segmentation for the languageexpression, we propose an end-to-end trainable recurrent and convolutionalnetwork model that jointly learns to process visual and linguistic information.In our model, a recurrent LSTM network is used to encode the referentialexpression into a vector representation, and a fully convolutional network isused to a extract a spatial feature map from the image and output a spatialresponse map for the target object. We demonstrate on a benchmark dataset thatour model can produce quality segmentation output from the natural languageexpression, and outperforms baseline methods by a large margin.
translated by 谷歌翻译
In this paper, we address the task of natural language object retrieval, tolocalize a target object within a given image based on a natural language queryof the object. Natural language object retrieval differs from text-based imageretrieval task as it involves spatial information about objects within thescene and global scene context. To address this issue, we propose a novelSpatial Context Recurrent ConvNet (SCRC) model as scoring function on candidateboxes for object retrieval, integrating spatial configurations and globalscene-level contextual information into the network. Our model processes querytext, local image descriptors, spatial configurations and global contextfeatures through a recurrent network, outputs the probability of the query textconditioned on each candidate box as a score for the box, and can transfervisual-linguistic knowledge from image captioning domain to our task.Experimental results demonstrate that our method effectively utilizes bothlocal and global information, outperforming previous baseline methodssignificantly on different datasets and scenarios, and can exploit large scalevision and language datasets for knowledge transfer.
translated by 谷歌翻译
在视觉内容中对任意的,自由形式的文本短语进行接地(即本地化)是一个具有挑战性的问题,其中许多应用于人机交互和图像文本参考分辨率。很少有数据集提供短语的地面真实空间定位,因此需要从没有或很少接地监督的数据中学习。我们提出了一种新方法,通过使用注意机制重建给定短语来学习基础,注意机制可以是潜在的或直接优化的。在训练期间,使用循环网络语言模型对短语进行编码,然后学习参与相关图像区域以重建输入短语。在测试时,评估正确的注意力,即接地。如果接地监督可用,则可以通过注意机制的损失直接应用。我们证明了对Flickr 30k实体和ReferItGame数据集的有效性,这些数据集具有不同的监督水平,范围从不监督部分监督全面监督。我们的监督变体在两个数据集上都比现有技术提高了很多。
translated by 谷歌翻译
缩放对象检测的主要挑战是难以获得大量类别的标记图像。最近,深度卷积神经网络(CNNs)已成为对象分类基准的明显赢家,部分原因在于使用1.2M +标记的分类图像进行训练。遗憾的是,这些标签中只有一小部分可用于检测任务。从搜索引擎收集大量图像级标签比收集检测数据并用精确的边界框标记它要便宜得多,也便宜得多。在本文中,我们提出了通过适应的大规模检测(LSDA),这是一种学习两个任务之间的差异的算法,并将这些知识传递给类别的分类器,没有边界框注释数据,将它们变成检测器。我们的方法有可能实现检测数以万计的类别缺少边界框注释,但有大量的分类数据。对ImageNet LSVRC-2013检测挑战的评估证明了我们的方法的有效性。该算法使我们能够通过使用来自ImageNet树中的叶节点的可用分类数据来产生> 7.6K检测器。我们还演示了如何修改我们的架构以生成快速检测器(7.6K检测器以2fps运行)。模型和软件可在
translated by 谷歌翻译
在本文中,我们提出了深度学习算法,用于排列响应面,并应用于金融数学中的最优停止问题。通过在随机控制问题中估计最优反馈策略图来激发排序响应面的问题,目的是有效地找到与整个连续输入空间上的最小响应相关联的索引$ \ mathcal {X} \ subseteq \ mathbb {R} ^ d $。通过将$ \ mathcal {X} $中的点作为像素和最小曲面的索引作为标签,我们将该问题重新设计为图像分割问题,该问题为图像中的每个像素分配标签,使得具有相同标签的像素共享某些特征。这提供了一种替代方法,可以有效地解决问题,而不是在我们以前的工作中使用顺序设计[R. Hu和M. Ludkovski,SIAM / ASA Journal on UncertaintyQuantification,5(2017),212--239]。深度学习算法是可扩展的,并行的和无模型的,即响应表面上需要的非参数假设。考虑到排名响应表面,因为图像分割允许人们使用广泛的深度神经网络,例如,UNet,SegNet,DeconvNet,它们已被广泛应用并且在数值上证明在该领域具有高精度。我们还系统地研究了深度学习算法对均匀网格上生成的输入数据的依赖性或通过顺序设计采样,并观察到深度学习的性能对训练的噪声和位置(接近/远离边界)敏感。数据。我们提出了一个包括合成的样本和百慕大期权定价问题,以显示该方法的效率和准确性。
translated by 谷歌翻译