解决基础语言任务通常需要推理给定任务上下文中对象之间的关系。例如,回答问题:“盘子里的杯子是什么颜色的?”我们必须检查特定杯子的颜色,该杯子满足关于盘子的“开启”关系。最近的工作提出了各种方法复杂的关系推理。然而,它们的大部分功率都在推理结构中,而场景用简单的局部外观特征表示。在本文中,我们采用另一种方法,在视觉场景中为对象构建上下文化表示,以支持关系推理。我们提出了语言条件图网络(LCGN)的一般框架,其中每个节点表示一个对象,并且由相关对象的上下文感知表示通过以文本输入为条件的迭代消息传递来描述。例如,调整与盘子的“上”关系,对象``mug''收集来自对象``plate''的消息,将其表示更新为“盘子上的杯子”,这可以很容易地消耗掉通过简单的分类器进行答案预测。我们通过实验证明,我们的LCGN能够有效地支持关系推理,并提高了几个任务和数据集的性能。
translated by 谷歌翻译
检测环境中某些事物发生变化的能力是非常有价值的,但通常只有在能够准确地传达给人类操作员的情况下才会发挥作用。我们引入了Viewpoint Invariant Change Captioning,并开发了可以通过自然语言在环境中复杂变化进行本地化和描述的模型。此外,我们区分视点的变化和实际的场景变化(例如,对象属性的变化)。为了研究这个新问题,我们收集了一个Viewpoint Invariant Change Captioning Dataset(VICC),将其建立在CLEVR数据集和引擎之外。我们介绍了5种类型的场景变化,包括属性,位置等的变化。为了解决这个问题,我们提出了一种方法,将视点变化与重要的场景变化区分开来,定位“之前”和“之后”图像之间的变化,并动态参与描述变化时的相关视觉特征。我们在新数据集上对许多基线进行基准测试,并系统地研究不同的变更类型。我们在变更字幕和本地化方面展示了我们提出的方法的优越性。最后,我们还表明我们的方法是通用的,可以应用于最近的Spot-the-diff数据集上的真实图像和语言。
translated by 谷歌翻译
虽然在图像字幕任务方面取得了重大进展,但由于视频数据的复杂性,视频编码仍处于初期阶段。为长视频生成多句子描述更具挑战性。主要问题包括生成描述的流畅性和连贯性,以及它们与视频的相关性。最近,已经探索了基于强化和对抗性学习的方法来改进图像字幕模型;然而,两种类型的方法都存在许多问题,例如: GAN的RL和稳定性问题可读性差,冗余度高。在这项工作中,我们建议在推理期间应用对抗技术,设计一个鉴别器,以鼓励更好的多句话视频描述。此外,我们发现多鉴别器“混合”设计,其中每个鉴别器针对描述的目标,导致最佳结果。具体来说,我们将鉴别器分离以评估三个标准:1)与视频的视觉相关性,2)语言多样性和流畅性,以及3)句子之间的一致性。我们的方法产生更准确,多样和连贯的多句子视频描述,如对人口活动网络数据集的自动和人工评估。
translated by 谷歌翻译
深度神经感知和控制网络已成为自动驾驶车辆的关键组成部分。用户接受可能有利于语法解释的文本解释,允许最终用户理解触发特定行为的行为。解释可以由神经控制器触发,即内省解释,或通过神经控制器的输出,即合理化来提供。我们提出了一种新的解释方法,包括两部分。首先,我们使用视觉(空间)注意模型来训练从图像到车辆控制命令的端到端的卷积网络,即加速和改变路径。控制器的注意力识别可能影响网络输出的图像区域。其次,我们使用基于注意力的视频到文本模型来生成模型动作的文本解释。控制器和解释模型的注意力图是对齐的,因此解释是在对控制器很重要的场景部分中进行的。我们探讨注意对齐,强对齐和弱对齐的两种方法。最后,我们探索了一个生成合理化的模型版本,并与同一视频片段的内省解释进行比较。我们在一个新的驾驶数据集上评估这些模型,这些数据集具有真实的人类解释,即伯克利深度驱动程序(BDD-X)数据集。代码可以通过以下网址获得://github.com/JinkyuKimUCB/explainable-deep-driving。
translated by 谷歌翻译
已知大多数机器学习方法捕获和利用训练数据的偏差。虽然有些偏见有利于学习,但其他偏见却是有害的。具体而言,图像字幕模型倾向于夸大训练数据中存在的偏差。由于过度依赖于学习的前端和图像上下文,这可能导致需要或需要无偏字幕的域中的字幕不正确。我们根据人的外观或图像背景调查性别特定字幕词(例如男人,女人)的生成。我们引入了一个新的均衡器模型,该模型确保在场景中阻止证据的相同性别概率和存在性别证据时的自信预测。由此产生的模型被迫查看一个人,而不是使用上下文线索来进行性别特定的预测。包含我们模型的损失,外观混淆损失和置信损失,一般都可以添加到任何描述模型中,以减轻描述数据集中不需要的偏差的影响。我们提出的模型在向人们描述图像时提出了较低的错误,并提及他们的性别,并且更接近地匹配包括男性在内的女性的句子的基本真实比率。
translated by 谷歌翻译
由自然语言指令引导的导航为指令追随者提出了具有挑战性的推理问题。自然语言教学通常只识别一些高级决策和地标,而不是完整的低级运动行为;必须根据感知背景推断出大部分缺失的信息。在机器学习设置中,这是具有挑战性的:难以收集足够的注释数据以从头开始学习该推理过程,并且难以使用通用序列模型实现推理过程。在这里,我们描述了视觉和语言导航的方法,通过嵌入式扬声器模型解决了这两个问题。我们使用这种说话者模型来(1)​​合成用于数据增强的新指令,并且(2)实现语用推理,其评估候选动作序列解释指令的程度。这些步骤由反映人类生成的粒度的全景动作空间支持。说明。实验表明,这种方法的所有三个组成部分 - 扬声器驱动的数据增强,实用推理和全景动作空间 - 显着提高了基线指令跟随者的性能,使标准基准上最好的现有方法的成功率翻了一倍多。
translated by 谷歌翻译
近年来,已经成功地探索了使用从大型语言或视觉数据集训练的矢量表示来建模文本或视觉信息。但是,视觉问题回答等任务需要将这些向量表示相互组合。多模式池的方法包括元素方式的产品或总和,以及视觉和文本表示的连接。我们假设这些方法不是视觉和文本向量的外在产品。由于外部产品由于其高维度而通常是不可行的,因此我们建议利用多模式紧凑双线性池(MCB)来有效地压缩地组合多模态特征。我们在视觉问题回答和基础任务上广泛评估MCB。我们始终显示MCB对没有MCB的消融的好处。对于视觉问题回答,我们提出了两次使用MCB的anarchitecture,一次用于预测对空间特征的关注,并再次将有人参与的表示与问题表示相结合。该模型优于Visual7Wdataset和VQA挑战的最新技术。
translated by 谷歌翻译
在视觉内容中对任意的,自由形式的文本短语进行接地(即本地化)是一个具有挑战性的问题,其中许多应用于人机交互和图像文本参考分辨率。很少有数据集提供短语的地面真实空间定位,因此需要从没有或很少接地监督的数据中学习。我们提出了一种新方法,通过使用注意机制重建给定短语来学习基础,注意机制可以是潜在的或直接优化的。在训练期间,使用循环网络语言模型对短语进行编码,然后学习参与相关图像区域以重建输入短语。在测试时,评估正确的注意力,即接地。如果接地监督可用,则可以通过注意机制的损失直接应用。我们证明了对Flickr 30k实体和ReferItGame数据集的有效性,这些数据集具有不同的监督水平,范围从不监督部分监督全面监督。我们的监督变体在两个数据集上都比现有技术提高了很多。
translated by 谷歌翻译
Descriptive video service (DVS) provides linguistic descriptions of moviesand allows visually impaired people to follow a movie along with their peers.Such descriptions are by design mainly visual and thus naturally form aninteresting data source for computer vision and computational linguistics. Inthis work we propose a novel dataset which contains transcribed DVS, which istemporally aligned to full length HD movies. In addition we also collected thealigned movie scripts which have been used in prior work and compare the twodifferent sources of descriptions. In total the Movie Description datasetcontains a parallel corpus of over 54,000 sentences and video snippets from 72HD movies. We characterize the dataset by benchmarking different approaches forgenerating video descriptions. Comparing DVS to scripts, we find that DVS isfar more visual and describes precisely what is shown rather than what shouldhappen according to the scripts created prior to movie production.
translated by 谷歌翻译
将机器学习(ML)模型有效地转化为临床实践需要建立临床医生的信任。可解释性,或anML模型证明其结果合理性并帮助临床医生合理化模型预测的能力,一般被认为对建立信任至关重要。然而,该领域在不同环境中缺乏具体定义可用解释。为了确定可解释ML模型建立信任的可解释性的具体方面,我们调查了两个不同的急症护理专业(强化护理单位和紧急部门)的临床医生。我们使用他们的反馈来表征不可解释性有助于提高临床医生对ML模型的信任。我们进一步确定临床医生认为对于有效转化为临床实践最重要和最关键的解释类别。最后,我们识别出严格评估临床可解释性方法的具体指标。通过整合临床医生和MLresearchers之间的可解释性观念,我们希望能够促进ML系统在医疗保健领域的认可和广泛采用以及持续使用。
translated by 谷歌翻译