解决基础语言任务通常需要推理给定任务上下文中对象之间的关系。例如,回答问题:“盘子里的杯子是什么颜色的?”我们必须检查特定杯子的颜色,该杯子满足关于盘子的“开启”关系。最近的工作提出了各种方法复杂的关系推理。然而,它们的大部分功率都在推理结构中,而场景用简单的局部外观特征表示。在本文中,我们采用另一种方法,在视觉场景中为对象构建上下文化表示,以支持关系推理。我们提出了语言条件图网络(LCGN)的一般框架,其中每个节点表示一个对象,并且由相关对象的上下文感知表示通过以文本输入为条件的迭代消息传递来描述。例如,调整与盘子的“上”关系,对象``mug''收集来自对象``plate''的消息,将其表示更新为“盘子上的杯子”,这可以很容易地消耗掉通过简单的分类器进行答案预测。我们通过实验证明,我们的LCGN能够有效地支持关系推理,并提高了几个任务和数据集的性能。
translated by 谷歌翻译
准确的车辆定位是建立有效的车辆到车辆网络和汽车应用的关键一步。然而,诸如移动电话提供的标准等级GPS数据通常是嘈杂的并且在许多城市区域中表现出显着的定位误差。从图像精确定位的方法通常依赖于基于结构的技术,因此在规模上受到限制并且计算成本高。在本文中,我们提出了适用于实时性能的可扩展视觉定位方法。我们提出了一种利用视觉和GPS定位的混合粗到精方法。我们的解决方案使用自我监督的方法来学习紧凑的道路图像表示。该表示使得有效的视觉检索能够提供粗略的定位提示,其与车辆自我运动融合以获得高精度的位置估计。作为评估我们的视觉定位方法性能的基准,我们引入了一个新的大型数据集,该数据集基于从连接的破折号凸轮的大型网络获得的视频和GPS数据。我们的实验证实,我们的方法在挑战城市环境方面非常有效,将定位误差降低了一个数量级。
translated by 谷歌翻译
视觉世界是巨大而多样的,但其变化分为组织结构和非结构化因素。我们构建自由形式滤波器和结构化高斯滤波器,优化端到端,分解深度表示并学习局部特征及其局部性。 Oursemi结构化组合比自由形式过滤更具表现力,其结构化参数的变化需要改变形式结构。实际上,这优化了接收字段大小和形状,调整数据和任务的位置。动态推理,其中高斯结构随输入而变化,使得感知场大小适应于局部尺度变化。优化感受野大小可以将Cityscapes的语义分割准确度提高1-2个点,用于强扩张和跳过架构,最多10个点用于次优设计。通过动态高斯结构调整感知场进一步改善了结果,在提高效率的同时等于自由变形的精度。
translated by 谷歌翻译
Contemporary domain adaptation methods are very effective at aligning feature distributions of source and target domains without any target supervision. However, we show that these techniques perform poorly when even a few labeled examples are available in the target domain. To address this semi-supervised domain adaptation (SSDA) setting, we propose a novel Minimax Entropy (MME) approach that adversarially optimizes an adaptive few-shot model. Our base model consists of a feature encoding network , followed by a classification layer that computes the features' similarity to estimated prototypes (representatives of each class). Adaptation is achieved by alternately maximizing the conditional entropy of unlabeled target data with respect to the classifier and minimizing it with respect to the feature encoder. We empirically demonstrate the superiority of our method over many baselines, including conventional feature alignment and few-shot methods, setting a new state of the art for SSDA.
translated by 谷歌翻译
检测环境中某些事物发生变化的能力是非常有价值的,但通常只有在能够准确地传达给人类操作员的情况下才会发挥作用。我们引入了Viewpoint Invariant Change Captioning,并开发了可以通过自然语言在环境中复杂变化进行本地化和描述的模型。此外,我们区分视点的变化和实际的场景变化(例如,对象属性的变化)。为了研究这个新问题,我们收集了一个Viewpoint Invariant Change Captioning Dataset(VICC),将其建立在CLEVR数据集和引擎之外。我们介绍了5种类型的场景变化,包括属性,位置等的变化。为了解决这个问题,我们提出了一种方法,将视点变化与重要的场景变化区分开来,定位“之前”和“之后”图像之间的变化,并动态参与描述变化时的相关视觉特征。我们在新数据集上对许多基线进行基准测试,并系统地研究不同的变更类型。我们在变更字幕和本地化方面展示了我们提出的方法的优越性。最后,我们还表明我们的方法是通用的,可以应用于最近的Spot-the-diff数据集上的真实图像和语言。
translated by 谷歌翻译
许多感兴趣的活动都是罕见的事件,只有少数标记的例子可用。因此,期望能够从几个示例中容忍的用于时间活动检测的模型。在本文中,我们提出了几乎简单和一般但新颖的几拍时间性检测框架,它检测未修剪视频中的少数输入活动的开始和结束时间。我们的模型是端到端的可训练的,可以从更多的几个例子中受益。在测试时,为每个提议分配与最大相似度得分相对应的少数活动类别的标签。我们的相似性R-C3D方法在几次拍摄设置中优于之前关于时间活动检测的三个基准测试(THUMOS14,ActivityNet1.2和ActivityNet1.3数据集)的工作。我们的代码将可用。
translated by 谷歌翻译
用于像素对应的现有深度学习方法输出运动场的指针,但不表示完全匹配分布。匹配分布的明确表示对于许多应用是期望的,因为它允许直接表示对应概率。用深度网络估计全概率分布的主要困难是推断出分布的高计算成本。在本文中,我们提出了分层离散分布分解,称为HD $ ^ 3 $,以学习概率点和区域匹配。不仅可以模拟匹配不确定性,还可以模拟区域传播。为此,我们估计了不同图像尺度下像素对应的层次分布,没有多假设集合。尽管它的简单性,我们的方法可以在已建立的基准上实现光流和立体匹配的竞争结果,而估计不确定性是错误的良好指标。此外,即使区域在图像上变化,也可以将区域内的点匹配分布组合在一起以传播整个区域。
translated by 谷歌翻译
虽然在图像字幕任务方面取得了重大进展,但由于视频数据的复杂性,视频编码仍处于初期阶段。为长视频生成多句子描述更具挑战性。主要问题包括生成描述的流畅性和连贯性,以及它们与视频的相关性。最近,已经探索了基于强化和对抗性学习的方法来改进图像字幕模型;然而,两种类型的方法都存在许多问题,例如: GAN的RL和稳定性问题可读性差,冗余度高。在这项工作中,我们建议在推理期间应用对抗技术,设计一个鉴别器,以鼓励更好的多句话视频描述。此外,我们发现多鉴别器“混合”设计,其中每个鉴别器针对描述的目标,导致最佳结果。具体来说,我们将鉴别器分离以评估三个标准:1)与视频的视觉相关性,2)语言多样性和流畅性,以及3)句子之间的一致性。我们的方法产生更准确,多样和连贯的多句子视频描述,如对人口活动网络数据集的自动和人工评估。
translated by 谷歌翻译
这项工作旨在解决具有挑战性的几个镜头对象检测问题,其中只有少数带注释的示例可用于每个对象类别以构建检测模型。这种从少数例子中学习检测物体的能力对于人类视觉系统来说是常见的,但对于计算机视觉系统来说仍然不存在。尽管少数元学习提供了一种promisingsolution技术,但以前的工作主要针对图像分类的任务,并不直接适用于更复杂的对象检测任务。在这项工作中,我们提出了一种新颖的基于元学习的模型,该模型具有精心设计的架构,包括元模型和基础检测模型。基础检测模型在几个基类上进行训练,并提供足够的样本以提供基本特征。元模型被训练为从输入图像的基础检测模型重新加权特征的重要性,并且通过少数示例来适应这些特征以辅助新颖的对象检测。元模型重量轻,端到端可训练,并且能够使基本模型具有快速检测新物体的能力。通过实验,我们证明了我们的模型可以通过在多个数据集和设置上进行少数对象检测的大数据来优于基线。我们的模型也表现出对新颖的几次射击类的快速适应速度。
translated by 谷歌翻译
广义零射击学习中的许多方法依赖于图像特征空间和类嵌入空间之间的跨模态映射。由于标记图像很少见,因此一个方向是通过生成图像或图像特征来增加数据集。然而,前者错过了细粒度的细节,后者需要学习与类嵌入相关的映射。在这项工作中,我们将特征生成更进一步,并提出了一个模型,其中图像特征和类嵌入的共享潜在空间是由模态特定的对齐变分自动编码器学习的。这使我们得到关于潜在特征中的图像和类的所需的判别信息,我们在其上训练softmax分类器。我们的方法的关键是我们将从图像和侧面信息中学习的分布对齐,以构建包含与看不见的类相关的基本多模态信息的潜在特征。我们在几个基准数据集上评估我们学到的潜在特征,即CUB,SUN,AWA1和AWA2,并建立了关于广义零射击以及少数射击学习的最新技术。此外,我们在ImageNet上的结果各种零点分割表明,我们的特征在大规模设置中得到了很好的推广。
translated by 谷歌翻译