人体对象交互(HOI)检测是高级人以人为中心的场景理解的基本任务。我们提出了短语,其中包含了Hoi分支和一个新型短语分支,以利用语言和改进关系表达。具体而言,短语分支由语义嵌入式监督,其基础事实自动从原始的Hoi注释自动转换,而无需额外的人力努力。同时,提出了一种新颖的标签组合方法来处理会安的长尾问题,由语义邻居复合新型短语标签。此外,为了优化短语分支,提出了由蒸馏损失和平衡三态损耗组成的损失。进行了广泛的实验,以证明拟议的短语疗养的有效性,这使得对基线的显着改善,并超越了以前的最先进的方法,以满足的HICO-DET基准。
translated by 谷歌翻译
对人类对象互动(HOI)的全面理解不仅需要检测一小部分预定义的HOI概念(或类别),还需要其他合理的HOI概念,而当前的方法通常无法探索大部分未知的HOI概念(即,即动词和对象的未知但合理的组合)。在本文中,1)我们介绍了一项新颖而挑战性的任务,以进行全面的HOI理解,称为HOI概念发现; 2)我们为HOI概念发现设计了一个自我复合学习框架(或SCL)。具体来说,我们在培训期间保持了在线更新的概念置信矩阵:1)根据自我训练的概念置信矩阵,我们为所有复合HOI实例分配了伪标记; 2)我们使用所有复合HOI实例的预测更新概念置信矩阵。因此,提出的方法可以对已知和未知的HOI概念进行学习。我们对几个流行的HOI数据集进行了广泛的实验,以证明提出的HOI概念发现方法,对象负担能力识别和HOI检测的有效性。例如,拟议的自我复合学习框架可显着提高1)HOI概念发现的性能,分别在HICO-DET上和V-Coco的3%以上。 2)在MS-Coco和Hico-Det上,对象负担能力识别超过9%的地图; 3)相对较少30%和20%。代码可在https://github.com/zhihou7/hoi-cl上公开获取。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是一项具有挑战性的任务,需要区分人类对象对之间的相互作用。基于注意力的关系解析是HOI中使用的一种流行而有效的策略。但是,当前方法以“自下而上”的方式执行关系解析。我们认为,在HOI中,独立使用自下而上的解析策略是违反直觉的,可能导致注意力的扩散。因此,我们将新颖的知识引导自上而下的关注引入HOI,并提议将关系解析为“外观和搜索”过程:执行场景 - 文化建模(即外观),然后给定对知识的知识。目标对,搜索视觉线索,以区分两对之间的相互作用。我们通过基于单个编码器模型统一自下而上的注意力来实现该过程。实验结果表明,我们的模型在V-Coco和Hico-Det数据集上实现了竞争性能。
translated by 谷歌翻译
在图像中检测人对象相互作用(HOI)是迈向高级视觉理解的重要一步。现有工作通常会阐明改善人类和对象检测或互动识别。但是,由于数据集的局限性,这些方法倾向于在检测到的对象的频繁相互作用上非常适合,但在很大程度上忽略了稀有的对象,这被称为本文中的对象偏置问题。在这项工作中,我们第一次从两个方面揭示了问题:不平衡的交互分布和偏见的模型学习。为了克服对象偏置问题,我们提出了一种新颖的插件插件,以对象的偏差记忆(ODM)方法来重新平衡检测到的对象下的交互分布。拟议的ODM配备了精心设计的读写策略,可以更频繁地对训练进行稀有的互动实例,从而减轻不平衡交互分布引起的对象偏差。我们将此方法应用于三个高级基线,并在HICO-DET和HOI-COCO数据集上进行实验。为了定量研究对象偏置问题,我们主张一项新协议来评估模型性能。正如实验结果所证明的那样,我们的方法对基准的一致和显着改善,尤其是在每个物体下方的罕见相互作用上。此外,在评估常规标准设置时,我们的方法在两个基准测试中实现了新的最新方法。
translated by 谷歌翻译
人类对象相互作用(HOI)检测的任务目标是人类与环境相互作用的细粒度视觉解析,从而实现了广泛的应用。先前的工作证明了有效的体系结构设计和相关线索的集成的好处,以进行更准确的HOI检测。但是,现有方法的设计适当的预训练策略的设计仍未得到充实。为了解决这一差距,我们提出了关系语言图像预训练(RLIP),这是一种利用实体和关系描述的对比预训练的策略。为了有效利用此类预训练,我们做出了三个技术贡献:(1)一种新的并行实体检测和顺序关系推理(Parse)体系结构,可在整体优化的预训练期间使用实体和关系描述; (2)合成数据生成框架,标签序列扩展,扩展了每个Minibatch中可用的语言数据的规模; (3)解释歧义,关系质量标签和关系伪标签的机制,以减轻训练数据中模棱两可/嘈杂样本的影响。通过广泛的实验,我们证明了这些贡献的好处,共同称为rlip-parse,以改善零射击,很少射击和微调的HOI检测性能以及从噪音注释中学习的鲁棒性。代码将在\ url {https://github.com/jacobyuan7/rlip}上找到。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
translated by 谷歌翻译
人类对象的相互作用(HOI)检测在场景理解的背景下受到了很大的关注。尽管基准上的进步越来越高,但我们意识到现有方法通常在遥远的相互作用上表现不佳,其中主要原因是两个方面:1)遥远的相互作用本质上比亲密的相互作用更难以识别。一个自然的场景通常涉及多个人类和具有复杂空间关系的物体,从而使远距离人对象的互动识别很大程度上受到复杂的视觉背景的影响。 2)基准数据集中的远处相互作用不足导致这些实例的合适。为了解决这些问题,在本文中,我们提出了一种新型的两阶段方法,用于更好地处理HOI检测中的遥远相互作用。我们方法中的一个必不可少的组成部分是一个新颖的近距离注意模块。它可以在人类和物体之间进行信息传播,从而熟练考虑空间距离。此外,我们设计了一种新颖的远距离感知损失函数,该功能使模型更加专注于遥远而罕见的相互作用。我们对两个具有挑战性的数据集进行了广泛的实验-HICO-DET和V-COCO。结果表明,所提出的方法可以通过很大的利润来超越现有方法,从而导致新的最新性能。
translated by 谷歌翻译
Visual relationships capture a wide variety of interactions between pairs of objects in images (e.g. "man riding bicycle" and "man pushing bicycle"). Consequently, the set of possible relationships is extremely large and it is difficult to obtain sufficient training examples for all possible relationships. Because of this limitation, previous work on visual relationship detection has concentrated on predicting only a handful of relationships. Though most relationships are infrequent, their objects (e.g. "man" and "bicycle") and predicates (e.g. "riding" and "pushing") independently occur more frequently. We propose a model that uses this insight to train visual models for objects and predicates individually and later combines them together to predict multiple relationships per image. We improve on prior work by leveraging language priors from semantic word embeddings to finetune the likelihood of a predicted relationship. Our model can scale to predict thousands of types of relationships from a few examples. Additionally, we localize the objects in the predicted relationships as bounding boxes in the image. We further demonstrate that understanding relationships can improve content based image retrieval.
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
检测人类相互作用对于人类行为分析至关重要。已经提出了许多方法来处理人对物体交互(HOI)检测,即检测人和物体在一起和分类交互类型的图像中检测。然而,人类对人类的相互作用,例如社会和暴力互动,通常不会在可用的会议训练数据集中考虑。由于我们认为这些类型的互动在分析人类行为时,我们不能从海内忽略和去相关,我们提出了一个新的互动数据集来处理两种类型的人类相互作用:人对人类或对象(H2O)。此外,我们介绍了一个新的动词分类,旨在更接近人体态度与周围的相互作用目标的描述,更加独立于环境。与某些现有数据集不同,我们努力避免在高度取决于目标类型时定义同义词,或者需要高水平的语义解释。由于H2O数据集包括使用此新分类系统注释的V-Coco映像,图像显然包含更多的交互。这可能是HOI检测方法的问题,其复杂性取决于人数,目标或交互的数量。因此,我们提出了空灵博(通过仅寻找一次),一种有效的主题的单射方法,用于检测一个向前通过的所有交互,恒定的推断时间与图像内容无关。此外,此多任务网络同时检测所有人员和对象。我们展示了如何为这些任务共享网络不仅可以节省计算资源,而且还可通过协作提高性能。最后,Diabolo是一种强大的基线,用于H2O交互检测的新挑战,因为它在Hoi DataSet V-Coco上训练和评估时表现出所有最先进的方法。
translated by 谷歌翻译
我们提出了DEFR,一种无检测方法,以在图像水平处识别人对象交互(HOI)而不使用对象位置或人类姿势。当探测器是现有方法的一个组成部分时,这是具有挑战性的。在本文中,我们提出了两个调查结果来提高无检测方法的性能,这显着优于辅助现有技术。首先,我们发现它至关重要,可以有效地利用了海上课程之间的语义相关性。可以通过使用Hoi标签的语言嵌入来初始化线性分类器来实现显着的增益,该分类器编码HOI的结构以指导培训。此外,我们提出了Log-Sum-exp符号(LSE-Sign)丢失,以便通过使用SoftMax格式平衡渐变渐变的渐变来促进长尾数据集上的多标签学习。我们的无检测方法实现了65.6地图在Hoi分类上的HICO分类,优于18.5地图的检测辅助状态(SOTA),在一次拍摄类中,52.7地图,超过了SOTA 27.3地图。与以前的工作不同,我们的分类模型(DEFR)可以直接用于HOI检测,而无需任何额外的训练,通过连接到废弃的对象检测器,其边界框输出被转换为DEFR的二进制掩模。令人惊讶的是,这两个解耦模型的这种简单的连接实现了SOTA性能(32.35张图)。
translated by 谷歌翻译
In this paper, we study the problem of visual grounding by considering both phrase extraction and grounding (PEG). In contrast to the previous phrase-known-at-test setting, PEG requires a model to extract phrases from text and locate objects from images simultaneously, which is a more practical setting in real applications. As phrase extraction can be regarded as a $1$D text segmentation problem, we formulate PEG as a dual detection problem and propose a novel DQ-DETR model, which introduces dual queries to probe different features from image and text for object prediction and phrase mask prediction. Each pair of dual queries is designed to have shared positional parts but different content parts. Such a design effectively alleviates the difficulty of modality alignment between image and text (in contrast to a single query design) and empowers Transformer decoder to leverage phrase mask-guided attention to improve performance. To evaluate the performance of PEG, we also propose a new metric CMAP (cross-modal average precision), analogous to the AP metric in object detection. The new metric overcomes the ambiguity of Recall@1 in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG pre-trained DQ-DETR establishes new state-of-the-art results on all visual grounding benchmarks with a ResNet-101 backbone. For example, it achieves $91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with a ResNet-101 backbone. Code will be availabl at \url{https://github.com/IDEA-Research/DQ-DETR}.
translated by 谷歌翻译
开放世界对象检测是一个更具笼统和挑战性的目标,旨在识别和本地化由任意类别名称描述的对象。最近的工作GLIP通过将检测数据集的所有类别名称连接到句子中,从而将此问题作为接地问题,从而导致类别名称之间的效率低下的相互作用。本文介绍了Distclip,这是一种通过诉诸于设计概念词典的知识富集,是一种平行的视觉概念训练预训练方法,用于开放世界检测。为了提高学习效率,我们提出了一种新型的并行概念公式,该公式分别提取概念,以更好地利用异质数据集(即检测,接地和图像文本对)进行培训。我们进一步设计了来自各种在线资源和检测数据集的概念字典〜(带有描述),以提供每个概念的先验知识。通过用描述丰富这些概念,我们明确地建立了各种概念之间的关系,以促进开放域学习。所提出的概念词典进一步用于提供足够的负面概念,用于构建单词区域对齐损失\,并完成图像对文本对数据标题中缺少描述的对象的标签。所提出的框架显示出强烈的零射击性能性能,例如,在LVIS数据集上,我们的DETCLIP-T优于9.9%的地图GLIPT-T优于GLIP-T,并且与完全避免的型号相比,稀有类别的稀有类别提高了13.5%。作为我们的。
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
短语检测需要方法来标识短语是否与图像相关,然后如果适用,则本地化。培训更多歧视性短语检测模型的关键挑战是采样硬质否定。这是因为少数短语被注释了可能适用的几乎无限的变化。为了解决这个问题,我们介绍了PFP-net,一个短语检测器,通过两种新方法区分短语。首先,我们将相关对象的短语组合成粗俗的视觉相干概念(例如动物VS汽车),然后培训我们的PFP-网以根据他们的概念成员来区分它们。其次,对于包含细粒般的互相令牌(例如颜色)的短语,我们强制模型只为每个区域选择一个适用的短语。我们在Flickr30k实体和Refcoco +数据集中评估我们的方法,在那里我们在这场具有挑战性任务的所有短语上通过1-1.5点改进地图。在考虑只考虑受我们细粒度推理模块影响的短语时,我们在两个数据集中都会在1-4分。
translated by 谷歌翻译
最近的高性能人对象相互作用(HOI)检测技术受到了基于变压器的对象检测器(即DETR)的高度影响。然而,它们中的大多数直接将参数相互作用查询以一阶段的方式通过香草变压器映射到一组HOI预测中。这会使富裕的相互作用结构富含探索。在这项工作中,我们设计了一种新型的变压器风格的HOI检测器,即相互作用建议(STIP)的结构感知变压器,用于HOI检测。这种设计将HOI集预测的过程分解为两个随后的阶段,即首先执行交互建议的生成,然后通过结构感知的变压器将非参数相互作用建议转换为HOI预测。结构感知的变压器通过对互动提案中的整体语义结构以及每个交互建议中人类/对象的局部空间结构进行整体语义结构来升级香草变压器,从而增强HOI预测。在V-Coco和Hico-Det基准测试上进行的广泛实验已经证明了Stip的有效性,并且在与最先进的HOI探测器进行比较时报告了卓越的结果。源代码可在\ url {https://github.com/zyong812/stip}中获得。
translated by 谷歌翻译
人们在我们的日常互动中互相看待彼此或相互凝视是无处不在的,并且发现相互观察对于理解人类的社会场景具有重要意义。当前的相互视线检测方法集中在两阶段方法上,其推理速度受到两阶段管道的限制,第二阶段的性能受第一阶段的影响。在本文中,我们提出了一个新型的一阶段相互视线检测框架,称为相互视线变压器或MGTR,以端到端的方式执行相互视线检测。通过设计相互视线实例三元,MGTR可以检测每个人头边界框,并基于全局图像信息同时推断相互视线的关系,从而简化整个过程。两个相互视线数据集的实验结果表明,我们的方法能够加速相互视线检测过程而不会失去性能。消融研究表明,MGTR的不同组成部分可以捕获图像中不同级别的语义信息。代码可在https://github.com/gmbition/mgtr上找到
translated by 谷歌翻译
视频中的动作通常涉及人类与物体的相互作用。动作标签通常由动词和名词的各种组合组成,但我们可能没有所有可能组合的培训数据。在本文中,我们旨在通过利用知识图的力量来提高组成动作识别模型在训练时间期间看不见的新型动词或新名词的概括能力。先前的工作利用了知识图中的动词 - 单词组成动作节点,因此比效率低下,因为相对于动词和名词的数量,组成动作节点的数量在四倍上增长。为了解决这个问题,我们提出了我们的方法:通过知识掩盖(黑暗)的解开行动识别,它利用了动作的固有组成。黑暗训练一个分解模型,首先提取动词和名词的解开特征表示,然后使用外部知识图中的关系预测分类权重。动词和名词之间的类型约束是从外部知识库中提取的,并在组成动作时最终应用。黑暗的对象和动词数量具有更好的可伸缩性,并在Charades数据集中实现了最新性能。我们进一步根据Epic-Kitchen数据集提出了一个新的基准分配,该数据集的类别和样本数量更大,并且该基准测试了各种模型。
translated by 谷歌翻译
图像字幕显示可以通过使用场景图来表示图像中对象的关系来实现更好的性能。当前字幕编码器通常使用图形卷积网(GCN)来表示关系信息,并通过串联或卷积将其与对象区域特征合并,以获取句子解码的最终输入。但是,由于两个原因,现有方法中基于GCN的编码器在字幕上的有效性较小。首先,使用图像字幕作为目标(即最大似然估计),而不是以关系为中心的损失无法完全探索编码器的潜力。其次,使用预训练的模型代替编码器本身提取关系不是灵活的,并且不能有助于模型的解释性。为了提高图像字幕的质量,我们提出了一个新颖的体系结构改革者 - 一种关系变压器,可以生成具有嵌入关系信息的功能,并明确表达图像中对象之间的成对关系。改革者将场景图的生成目标与使用一个修改后的变压器模型的图像字幕结合在一起。这种设计使改革者不仅可以通过提取强大的关系图像特征的利益生成更好的图像标题,还可以生成场景图,以明确描述配对关系。公开可用数据集的实验表明,我们的模型在图像字幕和场景图生成上的最先进方法明显优于最先进的方法
translated by 谷歌翻译