深度学习视频动作识别(AR)的成功促使研究人员逐步将相关任务从粗糙级别促进到细粒度水平。与仅预测整个视频的动作标签的常规AR相比,已经研究了时间动作检测(TAD),以估算视频中每个动作的开始和结束时间。将TAD进一步迈进,已经研究了时空动作检测(SAD),用于在视频中在空间和时间上定位该动作。但是,执行动作的人通常在SAD中被忽略,同时识别演员也很重要。为此,我们提出了一项新的任务,即演员识别的时空动作检测(ASAD),以弥合SAD和Actor识别之间的差距。在ASAD中,我们不仅检测到实例级别的动作的时空边界,还为每个参与者分配了唯一的ID。要接近ASAD,多个对象跟踪(MOT)和动作分类(AC)是两个基本要素。通过使用MOT,获得了每个参与者的时空边界,并分配给独特的演员身份。通过使用AC,在相应的时空边界内估计了动作类别。由于ASAD是一项新任务,因此它提出了许多新的挑战,这些挑战无法通过现有方法解决:i)没有专门为ASAD创建数据集,ii)ii)ii)没有为ASAD设计评估指标,iii)当前的MOT性能是获得的瓶颈令人满意的ASAD结果。为了解决这些问题,我们为i)注释一个新的ASAD数据集,ii)提出ASAD评估指标,通过考虑多标签动作和参与者的识别,iii)提高数据关联策略以提高MOT性能,从而提高MOT性能更好的ASAD结果。该代码可在\ url {https://github.com/fandulu/asad}中获得。
translated by 谷歌翻译