解决基础语言任务通常需要推理给定任务上下文中对象之间的关系。例如,回答问题:“盘子里的杯子是什么颜色的?”我们必须检查特定杯子的颜色,该杯子满足关于盘子的“开启”关系。最近的工作提出了各种方法复杂的关系推理。然而,它们的大部分功率都在推理结构中,而场景用简单的局部外观特征表示。在本文中,我们采用另一种方法,在视觉场景中为对象构建上下文化表示,以支持关系推理。我们提出了语言条件图网络(LCGN)的一般框架,其中每个节点表示一个对象,并且由相关对象的上下文感知表示通过以文本输入为条件的迭代消息传递来描述。例如,调整与盘子的“上”关系,对象``mug''收集来自对象``plate''的消息,将其表示更新为“盘子上的杯子”,这可以很容易地消耗掉通过简单的分类器进行答案预测。我们通过实验证明,我们的LCGN能够有效地支持关系推理,并提高了几个任务和数据集的性能。
translated by 谷歌翻译
无监督模型转移有可能极大地提高深层模型对新域的可扩展性。然而,目前的文献认为将目标数据分离成不同的域称为先验。在本文中,我们提出了域不可知学习(DAL)的任务:如何将知识从标记的源域转移到未标记的数据到目标域?为了解决这个问题,我们设计了一种新颖的DeepAdversarial解缠绕自动编码器(DADA),能够从类身份中解开特定于域的特征。我们通过实验证明,当目标域标签未知时,DADA会在几个图像分类数据集上产生最先进的性能。
translated by 谷歌翻译
Contemporary domain adaptation methods are very effective at aligning feature distributions of source and target domains without any target supervision. However, we show that these techniques perform poorly when even a few labeled examples are available in the target domain. To address this semi-supervised domain adaptation (SSDA) setting, we propose a novel Minimax Entropy (MME) approach that adversarially optimizes an adaptive few-shot model. Our base model consists of a feature encoding network , followed by a classification layer that computes the features' similarity to estimated prototypes (representatives of each class). Adaptation is achieved by alternately maximizing the conditional entropy of unlabeled target data with respect to the classifier and minimizing it with respect to the feature encoder. We empirically demonstrate the superiority of our method over many baselines, including conventional feature alignment and few-shot methods, setting a new state of the art for SSDA.
translated by 谷歌翻译
许多感兴趣的活动都是罕见的事件,只有少数标记的例子可用。因此,期望能够从几个示例中容忍的用于时间活动检测的模型。在本文中,我们提出了几乎简单和一般但新颖的几拍时间性检测框架,它检测未修剪视频中的少数输入活动的开始和结束时间。我们的模型是端到端的可训练的,可以从更多的几个例子中受益。在测试时,为每个提议分配与最大相似度得分相对应的少数活动类别的标签。我们的相似性R-C3D方法在几次拍摄设置中优于之前关于时间活动检测的三个基准测试(THUMOS14,ActivityNet1.2和ActivityNet1.3数据集)的工作。我们的代码将可用。
translated by 谷歌翻译
我们提出了引导式缩放,这种方法利用空间接地来做出更明智的预测。它通过确保模型具有预测的“正确理由”来实现,被定义为与在训练时间做出类似正确决策的一致的原因。深度神经网络进行预测的原因/证据被定义为在像素空间中对于模型输出中的特定类条件概率的空间基础。引导缩放问题用于进行预测的证据是多么合理。在最先进的深单标签分类模型中,top-k(k = 2,3,4,...)精度通常显着高于top-1精度。这是更明显的细粒度数据集,其中类之间的差异非常微妙。通过引导式缩放,可以在三个细粒度分类数据集上细化模型的分类精度。我们还探讨了不同基础技术的互补性,通过将它们的整体与一种对抗性擦除方法进行比较,该方法迭代地揭示了下一个最具歧视性的证据。
translated by 谷歌翻译
传统的无监督域自适应(UDA)假设训练数据是从单个域采样的。这忽略了从多个来源收集的更实际的场景训练数据,需要多源域适应。我们为解决这一问题做出了三大贡献。首先,我们提出了一种新的深度学习方法,即多源域自适应的时间匹配M3SDA,旨在通过动态调整其特征分布的时刻,将从多个标记源域学到的知识转移到未标记的目标域。其次,我们为多源域适应的矩相关误差界提供了合理的理论分析。第三,我们收集并注释了迄今为止最大的UDAdataset六个不同的域和大约60万个图像分布在345个类别中,解决了多源UDA研究中数据可用性的差距。进行了广泛的实验,以证明我们提出的模型的有效性,该模型大大优于现有的最先进的方法。
translated by 谷歌翻译
视频生成是一项具有挑战性的任务,因为它需要模型同时生成逼真的内容和动作。现有方法使用单个生成器网络一起生成运动和内容,但是这种方法可能在复杂视频上失败。在本文中,我们提出了将内容和运动生成分离为两个并行生成器的双流视频生成模型,称为双流变分对抗网络(TwoStreamVAN)。我们的模型通过使用自适应运动内核逐步生成和融合多尺度上的运动和内容特征,在给定输入动作标签的情况下输出逼真的视频。此外,为了更好地评估视频生成模型,我们设计了一个新的合成人类行动数据集,以弥合过度复杂的人类行为数据集和简单的数据集之间的困难差距。我们的模型明显优于标准Weizmann Human Action和MUG Facial Expression数据集以及我们的newdataset上的现有方法。
translated by 谷歌翻译
视觉检测器的域适应是一个关键挑战,但现有方法忽略了像素外观变换,而是关注引导和/或域混淆损失。我们提出了一种语义像素级适应变换(SPLAT)方法,用于检测器自适应,有效生成跨域图像对。我们的模型使用对齐对和/或假标签损失来使对象检测器适应目标域,并且可以在源中具有或不具有密集标记数据的情况下进行转换(例如,语义分段注释)。如果没有密集标签,就像在源中只有检测标签的情况那样,使用CycleGAN对齐来学习转换。否则,当密集标签可用时,我们引入了一种更有效的无循环方法,该方法利用像素级语义标签来调节转换网络的训练。然后使用来自源的检测框标签训练末端任务,可能包括在未标记的源数据上推断的标签。我们展示了像素级变换优于先前的检测器域适应方法,并且我们的无循环方法优于先前的模型,用于通用变换的无约束循环学习,同时运行速度快3.8倍。我们的组合模型改进了先前的检测基线12.5mAP,从Sim 10K改编为Cityscapes,恢复了未适应基线和标记目标上限之间缺失性能的50%以上。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
驾驶场景理解是智能交通系统的关键要素。为了实现能够在复杂的物理和社会环境中运行的系统,他们需要了解和学习人类如何驾驶和与交通场景交互。我们介绍本田研究院驾驶数据集(HDD),这是一个具有挑战性的数据集,可用于研究现实生活环境中的学习驾驶员行为。该数据集包括使用配备有不同传感器的装备车辆收集的旧金山湾区104小时的人类驾驶。我们提供HDD的详细分析,并与其他驾驶数据集进行比较。引入了一种新颖的注释方法,使得能够从未修剪的数据序列中研究驾驶员行为理解。作为第一步,对驾驶员行为检测的基线算法进行训练和测试,以证明所提议任务的可行性。
translated by 谷歌翻译