识别人类行为基本上是一种时空推理问题,并且应该至少在某种程度上不变,不变于人类的外观和所涉及的物体。在这项工作中,这一假设的激励,我们采取了以物体为中心的行动认可方法。多个工程之前研究过这个设置,但它仍然不清楚(i)仔细制作的时空布局的方法如何识别人类行为,以及(ii)如何,以及何时,融合来自布局和外观的信息基于模型。本文的主要焦点是组成/几次射击动作识别,在那里我们倡导多主题的使用(已被证明是对空间推理的)在时空布局上,即对象边界框的配置。我们评估不同的方案,以将视频出现信息注入系统,并在背景混乱的动作识别上基准。在某种东西 - else和行动基因组数据集上,我们演示(i)如何扩展基于时空布局的动作识别的多针注意,(ii)如何通过与布局融合来提高基于外观的模型的性能 - 基于模型,(iii)即使在非成分背景 - 杂乱的视频数据集中,布局和基于外观的模型之间的融合也提高了性能。
translated by 谷歌翻译