我们专注于视觉接地管道语言与位置之间的混淆偏见,在那里我们发现偏差是主要的视觉推理瓶颈。例如,接地过程通常是一种琐碎的语言 - 位置关联,没有视觉推理,例如,将任何包含绵羊的语言查询接地到近中心区域,由于绵羊在图像中心的地面真实位置存在地面真相位置。首先,我们将视觉接地管道框架框成了因果图,其显示图像,查询,目标位置和底层混淆之间的因果关系。通过因果图,我们知道如何打破接地瓶颈:Deconfounded视觉接地。其次,为了解决混乱的挑战,即一般而言,我们提出了一种呼吁呼吁:引用表达式解构器(红色),以消除混淆偏差。第三,我们实施红色作为一种简单的语言关注,可以以任何接地方法应用。在流行的基准测试中,红色通过显着的边缘改善了各种最先进的接地方法。代码将很快提供:https://github.com/jianqiangh/deconfounded_vg。
translated by 谷歌翻译
我们针对虚线监督的视频对象接地(WSVog)的任务,其中仅在模型学习期间只提供视频句子注释。它旨在将句子中描述的对象本地化为视频中的视觉区域,这是模式分析和机器学习中所需的基本功能。尽管最近的进展,但现有的方法都遭受了虚假协会的严重问题,这将损害接地性能。在本文中,我们从WSVog的定义开始,从两个方面定位虚假关联:(1)协会本身由于监督弱而不是对象相关但极其暧昧,而(2)联想是不可避免的在现有方法中采用基于统计数据的匹配策略时观察偏见。考虑到这一点,我们设计一个统一的因果框架,以了解Deconfounded对象相关协会,以获得更准确和强大的视频对象接地。具体而言,我们从视频数据生成过程的角度来看,通过因果干预来学习对象相关关联。为了克服在干预方面缺乏细粒度监督的问题,我们提出了一种新的空间对抗对比学习范式。为了进一步消除对象相关协会内的随附的混杂效果,我们通过通过后门调整进行因果干预来追求真正的因果关系。最后,在统一的因果关系中以端到端的方式在统一的因果框架下学习和优化了Deconfound的对象相关关联。关于IID和OOD测试组的广泛实验,三个基准测试展示了其针对最先进的准确和强大的接地性能。
translated by 谷歌翻译
视觉表示学习在各种现实世界中无处不在,包括视觉理解,视频理解,多模式分析,人类计算机的互动和城市计算。由于出现了大量多模式的异质空间/时间/时空数据,因此在大数据时代,缺乏可解释性,鲁棒性和分布外的概括正在成为现有视觉模型的挑战。大多数现有方法倾向于符合原始数据/可变分布,而忽略了多模式知识背后的基本因果关系,该知识缺乏统一的指导和分析,并分析了为什么现代视觉表示学习方法很容易崩溃成数据偏见并具有有限的概括和认知能力。因此,受到人类水平代理人的强大推理能力的启发,近年来见证了巨大的努力,以发展因果推理范式,以良好的认知能力实现强大的代表性和模型学习。在本文中,我们对视觉表示学习的现有因果推理方法进行了全面审查,涵盖了基本理论,模型和数据集。还讨论了当前方法和数据集的局限性。此外,我们提出了一些预期的挑战,机会和未来的研究方向,用于基准视觉表示学习中的因果推理算法。本文旨在为这个新兴领域提供全面的概述,引起人们的注意,鼓励讨论,使发展新颖的因果推理方法,公开可用的基准和共识建设标准的紧迫性,以可靠的视觉表示和相关的真实实践。世界应用更有效。
translated by 谷歌翻译
弱监督的参考表达接地(REG)旨在将特定目标扎根于语言表达描述的图像中,同时缺乏目标和表达之间的对应关系。弱监督的REG存在两个主要问题。首先,缺乏区域级注释会引入建议和查询之间的歧义。其次,大多数以前的弱监督的REG方法忽略了指南的判别位置和上下文,从而在将目标与其他相同类别对象区分开时造成了困难。为了应对上述挑战,我们设计了实体增强的自适应重建网络(enail)。具体而言,赚取包括三个模块:实体增强,自适应接地和协作重建。在实体增强中,我们计算语义相似性作为监督选择候选建议。自适应接地可以在主题,位置和背景下以分层关注计算候选提案的排名评分。协作重建从三个角度衡量排名结果:自适应重建,语言重建和属性分类。自适应机制有助于减轻不同参考表达式的差异。五个数据集的实验表明,赚取胜于现有的最新方法。定性结果表明,提议的收入可以更好地处理特定类别的多个对象在一起的情况。
translated by 谷歌翻译
现有的视觉问题回答方法倾向于捕获视觉和语言方式中的虚假相关性,并且未能发现真正的休闲机制,这些机制是基于主导的视觉证据和正确的问题意图而实现推理的真正休闲机制。此外,现有方法通常忽略了多模式设置中复杂的事件级别的理解,这需要因果推断对共同模型跨模式事件的时间性,因果关系和动力学的强大认知能力。在这项工作中,我们通过引入因果干预方法来减轻虚假相关性并发现真实的因果结构,从而从新的角度(即跨模式因果关系推理)回答事件级别的视觉问题,即跨模式的因果关系推理并发现了真实的因果结构,以集成视觉和语言的相关性方式。具体而言,我们提出了一个新颖的事件级视觉问题答案框架,称为跨模式因果关系推理(CMCIR),以实现强大的偶然性随意感知的视觉视觉语言问题。为了揭示视觉和语言方式的因果结构,提出了新颖的因果关系 - 感知视觉语言推理(CVLR)模块,以通过精心设计的前对门和后门Causal Causal Intervention模块进行合作地解散视觉和语言的杂语相关性。为了发现语言语义和时空表示之间的细粒度相互作用,我们构建了一种新型的时空变压器(STT),该变压器(STT)构建了视觉内容和语言内容之间的多模式共发生相互作用。大规模事件级城市数据集SUTD-TrafficQA和三个基准现实世界数据集TGIF-QA,MSVD-QA和MSRVTT-QA进行了广泛的实验,这证明了我们的CMCIR在发现视觉效果的Causal Causal Causal结构中的有效性。
translated by 谷歌翻译
参考表达理解(REC)是视觉推理中最重要的任务之一,该任务需要模型来检测自然语言表达式所引用的目标对象。在拟议的管道中,一阶段参考表达理解(OSREC)已成为主要趋势,因为它合并了区域建议和选择阶段。许多最先进的OSREC模型采用多跳的推理策略,因为单个表达式中经常提到一系列对象,该对象需要多跳的推理来分析语义关系。但是,这些模型的一个未解决的问题是,在推理之前需要预先定义和固定推理步骤的数量,而忽略了表达式的不同复杂性。在本文中,我们提出了一个动态的多步推理网络,该网络允许根据推理状态和表达复杂性动态调整推理步骤。具体而言,我们采用变压器模块来记住和处理推理状态和增强学习策略,以动态推断推理步骤。这项工作可在几个REC数据集上实现最新性能或重大改进,从具有短表达式的Refcoco(+,G)到具有长而复杂的组成表达式的数据集。
translated by 谷歌翻译
视觉接地是一项旨在根据自然语言表达方式定位目标对象的任务。作为一项多模式任务,文本和视觉输入之间的特征相互作用至关重要。但是,先前的解决方案主要在将它们融合在一起之前独立处理每种模式,在提取视觉功能时,这并不能充分利用相关的文本信息。为了更好地利用视觉接地中的文本视觉关系,我们提出了一个查询条件的卷积模块(QCM),该模块(QCM)通过将查询信息纳入卷积内核的产生中来提取查询感知的视觉特征。借助我们提出的QCM,下游融合模块接收到更具歧视性的视觉特征,并专注于表达式中描述的所需对象,从而导致更准确的预测。在三个流行的视觉接地数据集上进行的广泛实验表明,我们的方法可以达到最新的性能。此外,当直接用于预测而无需进一步的多模式融合时,查询感知的视觉特征足以实现与最新方法可比的性能。
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse human walk on/ sit on/lay on beach into human on beach. Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., person read book rather than eat) and bad long-tailed bias (e.g., near dominating behind/in front of). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit 1 on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.
translated by 谷歌翻译
开放式视频对象检测(OVD)旨在扩展词汇大小,以检测训练词汇以外的新颖类别的对象。最近的工作诉诸于预先训练的视觉模型中的丰富知识。但是,现有方法在提案级视觉语言对准方面无效。同时,这些模型通常遭受对基本类别的信心偏见,并且在新颖的类别上表现较差。为了克服挑战,我们提出了Medet,这是一个新颖有效的OVD框架,并具有建议挖掘和预测均衡。首先,我们设计了一个在线建议挖掘,以完善从粗到细的继承的视觉语义知识,从而允许提案级别以检测为导向的特征对齐。其次,基于因果推论理论,我们引入了班级的后门调整,以加强对新类别的预测,以提高整体OVD性能。对可可和LVIS基准的广泛实验验证了MEDET在检测新型类别的对象(例如可可的32.6%AP50)和LVI上的22.4%蒙版图中的优越性。
translated by 谷歌翻译
The prevailing framework for matching multimodal inputs is based on a two-stage process: 1) detecting proposals with an object detector and 2) matching text queries with proposals. Existing two-stage solutions mostly focus on the matching step. In this paper, we argue that these methods overlook an obvious \emph{mismatch} between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., query-agnostic), hoping that the proposals contain all instances mentioned in the text query (i.e., query-aware). Due to this mismatch, chances are that proposals relevant to the text query are suppressed during the filtering process, which in turn bounds the matching performance. To this end, we propose VL-NMS, which is the first method to yield query-aware proposals at the first stage. VL-NMS regards all mentioned instances as critical objects, and introduces a lightweight module to predict a score for aligning each proposal with a critical object. These scores can guide the NMS operation to filter out proposals irrelevant to the text query, increasing the recall of critical objects, resulting in a significantly improved matching performance. Since VL-NMS is agnostic to the matching step, it can be easily integrated into any state-of-the-art two-stage matching methods. We validate the effectiveness of VL-NMS on two multimodal matching tasks, namely referring expression grounding and image-text matching. Extensive ablation studies on several baselines and benchmarks consistently demonstrate the superiority of VL-NMS.
translated by 谷歌翻译
Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
translated by 谷歌翻译
现有语言接地模型通常使用对象提案瓶颈:预先训练的探测器提出了场景中的对象,模型学会从这些框提案中选择答案,而不会参加原始图像或3D点云。对象探测器通常在固定词汇上培训,其对象和属性通常过于限制开放域语言接地,其中话语可以指在各种抽象层面的视觉实体,例如椅子,椅子的椅子,或椅子前腿的尖端。我们为3D场景提出了一个用于接地语言的模型,绕过具有三个主要创新的盒子提案瓶颈:i)横跨语言流的迭代注意,点云特征流和3D框提案。 ii)具有非参数实体查询的变压器解码器,用于对对象和部分参考进行解码3D框。 iii)通过将物体检测视为由候选类别标签列表的参考词汇的接地为基础,从3D对象注释和语言接地注释的联合监督。这些创新在流行的3D语言接地基准上之前的方法上产生了显着的定量收益(对SR3D基准测试的绝对改善)。我们消除了我们的每一个创新,向模型表现出贡献。当在具有次要变化的2D图像上应用于语言接地时,它会与最先进的,同时收敛于GPU时间的一半。代码和检查点将在https://github.com/nickgkan/beaut_detr中提供
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译
From a visual scene containing multiple people, human is able to distinguish each individual given the context descriptions about what happened before, their mental/physical states or intentions, etc. Above ability heavily relies on human-centric commonsense knowledge and reasoning. For example, if asked to identify the "person who needs healing" in an image, we need to first know that they usually have injuries or suffering expressions, then find the corresponding visual clues before finally grounding the person. We present a new commonsense task, Human-centric Commonsense Grounding, that tests the models' ability to ground individuals given the context descriptions about what happened before, and their mental/physical states or intentions. We further create a benchmark, HumanCog, a dataset with 130k grounded commonsensical descriptions annotated on 67k images, covering diverse types of commonsense and visual scenes. We set up a context-object-aware method as a strong baseline that outperforms previous pre-trained and non-pretrained models. Further analysis demonstrates that rich visual commonsense and powerful integration of multi-modal commonsense are essential, which sheds light on future works. Data and code will be available https://github.com/Hxyou/HumanCog.
translated by 谷歌翻译
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题,即具有手动设计的机制,即多模式融合和推理。这样的启发式设计不仅复杂化,而且使模型容易过度拟合特定的数据分布。为了避免这种情况,我们首先提出了TransVG,该TransVG通过变压器建立了多模式的对应关系,并通过直接回归框坐标来定位引用区域。我们从经验上表明,复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是,TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性,因此应在有限的视觉接地数据上从头开始训练,这使得很难优化并导致次优性能。为此,我们进一步介绍了TransVG ++以进行两倍的改进。一方面,我们通过利用Vision Transformer(VIT)进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说,我们设计了语言有条件的视觉变压器,以去除外部融合模块,并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验,并报告一系列最先进的记录。
translated by 谷歌翻译
语言规划旨在通过分解为更简单的低级步骤来实现复杂的高级目标。这种程序推理能力对于诸如家用机器人和虚拟助手等应用至关重要。尽管语言规划是日常生活中人类的基本技能,但对于缺乏现实世界中缺乏深层常识性知识的大型语言模型(LLM)来说,这仍然是一个挑战。以前的方法需要手动示例或带注释的程序才能从LLM中获取此类能力。相比之下,本文提出了神经符号的因果语言规划师(CLAP),该策划者通过注入常识的提示从LLM中引起了程序知识。 LLMS中的预训练知识本质上是一种未观察到的混杂因素,它在任务和行动计划之间引起虚假的相关性。通过结构性因果模型(SCM)的镜头,我们提出了一个有效的策略,以构建提示作为对SCM的因果干预。我们的策略使用图形采样技术和符号程序执行者,正式从常识知识基础上形成结构化因果提示。拍手在Wikihow和机器人上获得最新的表现,在反事实环境下,人类评估的相对提高了5.28%。这表明在语义和顺序的因果语言规划中拍手的优势。
translated by 谷歌翻译
分布式概括(OOD)都是关于对环境变化的学习不变性。如果每个类中的上下文分布均匀分布,则OOD将是微不足道的,因为由于基本原则,可以轻松地删除上下文:类是上下文不变的。但是,收集这种平衡的数据集是不切实际的。学习不平衡的数据使模型偏见对上下文,从而伤害了OOD。因此,OOD的关键是上下文平衡。我们认为,在先前工作中广泛采用的假设,可以直接从偏见的类预测中注释或估算上下文偏差,从而使上下文不完整甚至不正确。相比之下,我们指出了上述原则的另一面:上下文对于类也不变,这激励我们将类(已经被标记为已标记的)视为不同环境以解决上下文偏见(没有上下文标签)。我们通过最大程度地减少阶级样本相似性的对比损失,同时确保这种相似性在所有类别中不变,从而实现这一想法。在具有各种上下文偏见和域间隙的基准测试中,我们表明,配备了我们上下文估计的简单基于重新加权的分类器实现了最新的性能。我们在https://github.com/simpleshinobu/irmcon上提供了附录中的理论理由和代码。
translated by 谷歌翻译
In this paper, we study the problem of visual grounding by considering both phrase extraction and grounding (PEG). In contrast to the previous phrase-known-at-test setting, PEG requires a model to extract phrases from text and locate objects from images simultaneously, which is a more practical setting in real applications. As phrase extraction can be regarded as a $1$D text segmentation problem, we formulate PEG as a dual detection problem and propose a novel DQ-DETR model, which introduces dual queries to probe different features from image and text for object prediction and phrase mask prediction. Each pair of dual queries is designed to have shared positional parts but different content parts. Such a design effectively alleviates the difficulty of modality alignment between image and text (in contrast to a single query design) and empowers Transformer decoder to leverage phrase mask-guided attention to improve performance. To evaluate the performance of PEG, we also propose a new metric CMAP (cross-modal average precision), analogous to the AP metric in object detection. The new metric overcomes the ambiguity of Recall@1 in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG pre-trained DQ-DETR establishes new state-of-the-art results on all visual grounding benchmarks with a ResNet-101 backbone. For example, it achieves $91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with a ResNet-101 backbone. Code will be availabl at \url{https://github.com/IDEA-Research/DQ-DETR}.
translated by 谷歌翻译
人群的理解由于其重要的实际意义引起了人们对视觉领域的普遍兴趣。不幸的是,没有努力探索桥接自然语言和计算机视觉的多模式领域中的人群理解。参考表达理解(REF)是一项代表性的多模式任务。当前的REF研究更多地集中在一般情况下从多个独特类别中扎根目标对象。很难应用于复杂的现实世界人群的理解。为了填补这一空白,我们提出了一个新的挑战性数据集,称为Refcrowd,该数据集旨在通过参考表达方式寻找人群中的目标人。它不仅需要充分挖掘自然语言信息,而且还需要仔细地专注于目标与具有相似外观的人群之间的细微差异,以实现从语言到视觉的细粒度映射。此外,我们提出了一个细粒度的多模式属性对比网络(FMAC),以在人群的理解中处理参考。它首先将复杂的视觉和语言特征分解为属性感知的多模式特征,然后捕获歧视性但健壮性的细粒属性特征,以有效地区分相似人之间的这些细微差异。所提出的方法优于我们的档案数据集和现有参考数据集中的现有最新方法(SOTA)方法。此外,我们为多模式域中的更深入研究实施了端到端的REF工具箱。我们的数据集和代码可以在:\ url {https://qiuheqian.github.io/datasets/refcrowd/}中可用。
translated by 谷歌翻译