人类对象相互作用(HOI)检测是一项具有挑战性的任务,需要区分人类对象对之间的相互作用。基于注意力的关系解析是HOI中使用的一种流行而有效的策略。但是,当前方法以“自下而上”的方式执行关系解析。我们认为,在HOI中,独立使用自下而上的解析策略是违反直觉的,可能导致注意力的扩散。因此,我们将新颖的知识引导自上而下的关注引入HOI,并提议将关系解析为“外观和搜索”过程:执行场景 - 文化建模(即外观),然后给定对知识的知识。目标对,搜索视觉线索,以区分两对之间的相互作用。我们通过基于单个编码器模型统一自下而上的注意力来实现该过程。实验结果表明,我们的模型在V-Coco和Hico-Det数据集上实现了竞争性能。
translated by 谷歌翻译