人对象相互作用(HOI)检测在活动理解中起着至关重要的作用。尽管已经取得了重大进展,但交互性学习仍然是HOI检测的一个具有挑战性的问题:现有方法通常会产生冗余的负H-O对提案,并且无法有效提取交互式对。尽管已经在整个身体和部分级别研究了互动率,并促进了H-O配对,但以前的作品仅专注于目标人一次(即,从本地角度来看)并忽略了其他人的信息。在本文中,我们认为同时比较多人的身体零件可以使我们更有用,更补充的互动提示。也就是说,从全球的角度学习身体部分的互动:当对目标人的身体零件互动进行分类时,不仅要从自己/他本人,而且还从图像中的其他人那里探索视觉提示。我们基于自我注意力来构建身体的显着性图,以挖掘交叉人物的信息线索,并学习所有身体零件之间的整体关系。我们评估了广泛使用的基准曲线和V-Coco的建议方法。从我们的新角度来看,整体的全部本地人体互动互动学习可以对最先进的发展取得重大改进。我们的代码可从https://github.com/enlighten0707/body-part-map-for-interactimence获得。
translated by 谷歌翻译
人类对象的相互作用(HOI)检测在场景理解的背景下受到了很大的关注。尽管基准上的进步越来越高,但我们意识到现有方法通常在遥远的相互作用上表现不佳,其中主要原因是两个方面:1)遥远的相互作用本质上比亲密的相互作用更难以识别。一个自然的场景通常涉及多个人类和具有复杂空间关系的物体,从而使远距离人对象的互动识别很大程度上受到复杂的视觉背景的影响。 2)基准数据集中的远处相互作用不足导致这些实例的合适。为了解决这些问题,在本文中,我们提出了一种新型的两阶段方法,用于更好地处理HOI检测中的遥远相互作用。我们方法中的一个必不可少的组成部分是一个新颖的近距离注意模块。它可以在人类和物体之间进行信息传播,从而熟练考虑空间距离。此外,我们设计了一种新颖的远距离感知损失函数,该功能使模型更加专注于遥远而罕见的相互作用。我们对两个具有挑战性的数据集进行了广泛的实验-HICO-DET和V-COCO。结果表明,所提出的方法可以通过很大的利润来超越现有方法,从而导致新的最新性能。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是高级图像理解的核心任务。最近,由于其出色的性能和有效的结构,检测变压器(DETR)基于HOI的检测器已变得流行。但是,这些方法通常对所有测试图像采用固定的HOI查询,这很容易受到一个特定图像中对象的位置变化的影响。因此,在本文中,我们建议通过挖掘硬阳性查询来增强DETR的鲁棒性,这些查询被迫使用部分视觉提示做出正确的预测。首先,我们根据每个训练图像标记的人类对象对的地面真相(GT)位置明确地组成硬阳性查询。具体而言,我们将每个标记的人类对象对的GT边界框移动,以使移位框仅覆盖GT的一定部分。我们将每个标记的人类对象对的移位框的坐标编码为HOI查询。其次,我们通过在解码器层的交叉注意地图中掩盖了最高分数,从而隐式构建了另一组硬阳性查询。然后,掩盖的注意图仅涵盖HOI预测的部分重要提示。最后,提出了一种替代策略,该策略有效地结合了两种类型的硬性查询。在每次迭代中,都采用了Detr的可学习查询和一种选择的硬阳性查询进行损失计算。实验结果表明,我们提出的方法可以广泛应用于现有的基于DITR的HOI探测器。此外,我们始终在三个基准上实现最先进的性能:HICO-DET,V-COCO和HOI-A。代码可在https://github.com/muchhair/hqm上找到。
translated by 谷歌翻译
人对象交互(HOI)检测作为对象检测任务的下游需要本地化人和对象,并从图像中提取人类和对象之间的语义关系。最近,由于其高效率,一步方法已成为这项任务的新趋势。然而,这些方法侧重于检测可能的交互点或过滤人对象对,忽略空间尺度处的不同物体的位置和大小的可变性。为了解决这个问题,我们提出了一种基于变压器的方法,Qahoi(用于人对象交互检测的查询锚点),它利用了多尺度架构来提取来自不同空间尺度的特征,并使用基于查询的锚来预测全部Hoi实例的元素。我们进一步调查了强大的骨干,显着提高了QAHOI的准确性,QAHOI与基于变压器的骨干优于最近的最近最先进的方法,通过HICO-DEC基准。源代码以$ \ href {https://github.com/cjw2021/qhoii} {\ text {this https url}} $。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是一项具有挑战性的任务,需要区分人类对象对之间的相互作用。基于注意力的关系解析是HOI中使用的一种流行而有效的策略。但是,当前方法以“自下而上”的方式执行关系解析。我们认为,在HOI中,独立使用自下而上的解析策略是违反直觉的,可能导致注意力的扩散。因此,我们将新颖的知识引导自上而下的关注引入HOI,并提议将关系解析为“外观和搜索”过程:执行场景 - 文化建模(即外观),然后给定对知识的知识。目标对,搜索视觉线索,以区分两对之间的相互作用。我们通过基于单个编码器模型统一自下而上的注意力来实现该过程。实验结果表明,我们的模型在V-Coco和Hico-Det数据集上实现了竞争性能。
translated by 谷歌翻译
用于视觉数据的变压器模型的最新进程导致识别和检测任务的显着改进。特别是,使用学习查询代替区域建议,这已经引起了一种新的一类单级检测模型,由检测变压器(DETR)。这种单阶段方法的变化已经主导了人对象相互作用(HOI)检测。然而,这种单阶段Hoi探测器的成功可以很大程度上被归因于变压器的表示力。我们发现,当配备相同的变压器时,他们的两级同行可以更加性能和记忆力,同时取得一小部分训练。在这项工作中,我们提出了一对成对变压器,这是一个用于HOI的一元和成对表示的两级检测器。我们观察到我们的变压器网络的一对和成对部分专门化,前者优先增加积极示例的分数,后者降低了阴性实例的分数。我们评估我们在HiCO-DET和V-Coco数据集上的方法,并显着优于最先进的方法。在推理时间内,我们使用RESET50的模型在单个GPU上接近实时性能。
translated by 谷歌翻译
最近的高性能人对象相互作用(HOI)检测技术受到了基于变压器的对象检测器(即DETR)的高度影响。然而,它们中的大多数直接将参数相互作用查询以一阶段的方式通过香草变压器映射到一组HOI预测中。这会使富裕的相互作用结构富含探索。在这项工作中,我们设计了一种新型的变压器风格的HOI检测器,即相互作用建议(STIP)的结构感知变压器,用于HOI检测。这种设计将HOI集预测的过程分解为两个随后的阶段,即首先执行交互建议的生成,然后通过结构感知的变压器将非参数相互作用建议转换为HOI预测。结构感知的变压器通过对互动提案中的整体语义结构以及每个交互建议中人类/对象的局部空间结构进行整体语义结构来升级香草变压器,从而增强HOI预测。在V-Coco和Hico-Det基准测试上进行的广泛实验已经证明了Stip的有效性,并且在与最先进的HOI探测器进行比较时报告了卓越的结果。源代码可在\ url {https://github.com/zyong812/stip}中获得。
translated by 谷歌翻译
在图像中检测人对象相互作用(HOI)是迈向高级视觉理解的重要一步。现有工作通常会阐明改善人类和对象检测或互动识别。但是,由于数据集的局限性,这些方法倾向于在检测到的对象的频繁相互作用上非常适合,但在很大程度上忽略了稀有的对象,这被称为本文中的对象偏置问题。在这项工作中,我们第一次从两个方面揭示了问题:不平衡的交互分布和偏见的模型学习。为了克服对象偏置问题,我们提出了一种新颖的插件插件,以对象的偏差记忆(ODM)方法来重新平衡检测到的对象下的交互分布。拟议的ODM配备了精心设计的读写策略,可以更频繁地对训练进行稀有的互动实例,从而减轻不平衡交互分布引起的对象偏差。我们将此方法应用于三个高级基线,并在HICO-DET和HOI-COCO数据集上进行实验。为了定量研究对象偏置问题,我们主张一项新协议来评估模型性能。正如实验结果所证明的那样,我们的方法对基准的一致和显着改善,尤其是在每个物体下方的罕见相互作用上。此外,在评估常规标准设置时,我们的方法在两个基准测试中实现了新的最新方法。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
人类的姿势估计旨在弄清不同场景中所有人的关键。尽管结果有希望,但目前的方法仍然面临一些挑战。现有的自上而下的方法单独处理一个人,而没有不同的人与所在的场景之间的相互作用。因此,当发生严重闭塞时,人类检测的表现会降低。另一方面,现有的自下而上方法同时考虑所有人,并捕获整个图像的全局知识。但是,由于尺度变化,它们的准确性不如自上而下的方法。为了解决这些问题,我们通过整合自上而下和自下而上的管道来探索不同接受场的视觉线索并实现其互补性,提出了一种新颖的双皮线整合变压器(DPIT)。具体而言,DPIT由两个分支组成,自下而上的分支介绍了整个图像以捕获全局视觉信息,而自上而下的分支则从单人类边界框中提取本地视觉的特征表示。然后,从自下而上和自上而下的分支中提取的特征表示形式被馈入变压器编码器,以交互融合全局和本地知识。此外,我们定义了关键点查询,以探索全景和单人类姿势视觉线索,以实现两个管道的相互互补性。据我们所知,这是将自下而上和自上而下管道与变压器与人类姿势估计的变压器相结合的最早作品之一。关于可可和MPII数据集的广泛实验表明,我们的DPIT与最先进的方法相当。
translated by 谷歌翻译
本文的目标是人对象交互(HO-I)检测。 HO-I检测旨在找到与图像相互作用的交互和分类。研究人员近年来依靠[5]强大的HO-I对齐监督,近年来取得了重大改善。 Ho-i对齐监督对具有互动对象的人类,然后将人对象对与其交互类别对齐。由于收集这种注释是昂贵的,本文提出了检测HO-I,无需对齐监督。我们依靠图像级监控,只枚举图像中的现有交互而不指向它们发生的位置。我们的论文提出了三个贡献:i)我们提出对齐器,基于Visual-Conversion的CNN,可以检测HO-I,只有图像级监控。 ii)对齐器配有HO-I对齐层,可以学习选择适当的目标以允许检测器监控。 iii)我们在Hico-det [5]和V-Coco [13]上评估对齐 - 前者,并显示对准的是现有的图像水平监督Ho-i探测器的大幅度(4.71%从16.14%的地图改进在Hico-DET [5]上的20.85%)。
translated by 谷歌翻译
人类对象相互作用(HOI)检测的任务目标是人类与环境相互作用的细粒度视觉解析,从而实现了广泛的应用。先前的工作证明了有效的体系结构设计和相关线索的集成的好处,以进行更准确的HOI检测。但是,现有方法的设计适当的预训练策略的设计仍未得到充实。为了解决这一差距,我们提出了关系语言图像预训练(RLIP),这是一种利用实体和关系描述的对比预训练的策略。为了有效利用此类预训练,我们做出了三个技术贡献:(1)一种新的并行实体检测和顺序关系推理(Parse)体系结构,可在整体优化的预训练期间使用实体和关系描述; (2)合成数据生成框架,标签序列扩展,扩展了每个Minibatch中可用的语言数据的规模; (3)解释歧义,关系质量标签和关系伪标签的机制,以减轻训练数据中模棱两可/嘈杂样本的影响。通过广泛的实验,我们证明了这些贡献的好处,共同称为rlip-parse,以改善零射击,很少射击和微调的HOI检测性能以及从噪音注释中学习的鲁棒性。代码将在\ url {https://github.com/jacobyuan7/rlip}上找到。
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
我们提出了一种直接的,基于回归的方法,以从单个图像中估计2D人姿势。我们将问题提出为序列预测任务,我们使用变压器网络解决了问题。该网络直接学习了从图像到关键点坐标的回归映射,而无需诉诸中间表示(例如热图)。这种方法避免了与基于热图的方法相关的许多复杂性。为了克服以前基于回归的方法的特征错位问题,我们提出了一种注意机制,该机制适应与目标关键最相关的功能,从而大大提高了准确性。重要的是,我们的框架是端到端的可区分,并且自然学会利用关键点之间的依赖关系。两个主要的姿势估计数据集在MS-Coco和MPII上进行的实验表明,我们的方法在基于回归的姿势估计中的最新方法显着改善。更值得注意的是,与最佳的基于热图的姿势估计方法相比,我们的第一种基于回归的方法是有利的。
translated by 谷歌翻译
什么构成一个物体?这是计算机愿景中的长期问题。为了实现这一目标,已经开发了许多基于学习的基于学习的方法来得分对象。但是,它们通常不会划过新域和未经看不见的对象。在本文中,我们倡导现有方法缺乏由人类可理解的语义管理的自上而下的监督信号。为了弥合这一差距,我们探索了已经用对齐的图像文本对培训的多模态视觉变压器(MVIT)。我们对各个域和新型对象的广泛实验显示了MVITS的最先进的性能,以使图像中的通用对象本地化。基于这些发现,我们使用多尺度特征处理和可变形的自我关注来开发一种高效且灵活的MVIT架构,可以自适应地生成给定特定语言查询的提议。我们展示了MVIT提案在各种应用中的重要性,包括开放世界对象检测,突出和伪装对象检测,监督和自我监督的检测任务。此外,MVITS提供了具有可理解文本查询的增强的交互性。代码:https://git.io/j1hpy。
translated by 谷歌翻译
Recently, the dominant DETR-based approaches apply central-concept spatial prior to accelerate Transformer detector convergency. These methods gradually refine the reference points to the center of target objects and imbue object queries with the updated central reference information for spatially conditional attention. However, centralizing reference points may severely deteriorate queries' saliency and confuse detectors due to the indiscriminative spatial prior. To bridge the gap between the reference points of salient queries and Transformer detectors, we propose SAlient Point-based DETR (SAP-DETR) by treating object detection as a transformation from salient points to instance objects. In SAP-DETR, we explicitly initialize a query-specific reference point for each object query, gradually aggregate them into an instance object, and then predict the distance from each side of the bounding box to these points. By rapidly attending to query-specific reference region and other conditional extreme regions from the image features, SAP-DETR can effectively bridge the gap between the salient point and the query-based Transformer detector with a significant convergency speed. Our extensive experiments have demonstrated that SAP-DETR achieves 1.4 times convergency speed with competitive performance. Under the standard training scheme, SAP-DETR stably promotes the SOTA approaches by 1.0 AP. Based on ResNet-DC-101, SAP-DETR achieves 46.9 AP.
translated by 谷歌翻译
人类时尚理解是一项至关重要的计算机视觉任务,因为它具有用于现实世界应用的全面信息。这种关注人类时装细分和属性识别。与以前的作品相反,将每个任务分别建模为多头预测问题,我们的见解是通过Vision Transformer建模将这两个任务用一个统一的模型桥接,以使每个任务受益。特别是,我们介绍了分割的对象查询和属性预测的属性查询。查询及其相应的功能都可以通过掩码预测链接。然后,我们采用两流查询学习框架来学习解耦的查询表示。我们为属性流设计了一种新颖的多层渲染模块,以探索更细粒度的功能。解码器设计与DETR具有相同的精神。因此,我们将提出的方法\ textit {fahsionformer}命名。在三个人类时尚数据集上进行的广泛实验说明了我们方法的有效性。特别是,在\ textit {a intivit {a intim trictric(ap $^{\ text {mask}} _ {_ {\ text {iou+f text {iou+f textiT { } _1} $)用于分割和属性识别}。据我们所知,我们是人类时装分析的第一个统一的端到端视觉变压器框架。我们希望这种简单而有效的方法可以作为时尚分析的新灵活基准。代码可从https://github.com/xushilin1/fashionformer获得。
translated by 谷歌翻译
我们提出了DEFR,一种无检测方法,以在图像水平处识别人对象交互(HOI)而不使用对象位置或人类姿势。当探测器是现有方法的一个组成部分时,这是具有挑战性的。在本文中,我们提出了两个调查结果来提高无检测方法的性能,这显着优于辅助现有技术。首先,我们发现它至关重要,可以有效地利用了海上课程之间的语义相关性。可以通过使用Hoi标签的语言嵌入来初始化线性分类器来实现显着的增益,该分类器编码HOI的结构以指导培训。此外,我们提出了Log-Sum-exp符号(LSE-Sign)丢失,以便通过使用SoftMax格式平衡渐变渐变的渐变来促进长尾数据集上的多标签学习。我们的无检测方法实现了65.6地图在Hoi分类上的HICO分类,优于18.5地图的检测辅助状态(SOTA),在一次拍摄类中,52.7地图,超过了SOTA 27.3地图。与以前的工作不同,我们的分类模型(DEFR)可以直接用于HOI检测,而无需任何额外的训练,通过连接到废弃的对象检测器,其边界框输出被转换为DEFR的二进制掩模。令人惊讶的是,这两个解耦模型的这种简单的连接实现了SOTA性能(32.35张图)。
translated by 谷歌翻译
DETR是使用变压器编码器 - 解码器架构的第一端到端对象检测器,并在高分辨率特征映射上展示竞争性能但低计算效率。随后的工作变形Detr,通过更换可变形的关注来提高DEDR的效率,这实现了10倍的收敛性和改进的性能。可变形DETR使用多尺度特征来改善性能,但是,与DETR相比,编码器令牌的数量增加了20倍,编码器注意的计算成本仍然是瓶颈。在我们的初步实验中,我们观察到,即使只更新了编码器令牌的一部分,检测性能也几乎没有恶化。灵感来自该观察,我们提出了稀疏的DETR,其仅选择性更新预期的解码器预期的令牌,从而有效地检测模型。此外,我们表明在编码器中的所选令牌上应用辅助检测丢失可以提高性能,同时最小化计算开销。即使在Coco数据集上只有10%的编码器令牌,我们验证稀疏DETR也可以比可变形DETR实现更好的性能。尽管只有编码器令牌稀疏,但总计算成本减少了38%,与可变形的Detr相比,每秒帧(FPS)增加42%。代码可在https://github.com/kakaobrain/sparse-dett
translated by 谷歌翻译