智能论文笔记

Actor-identified Spatiotemporal Action Detection -- Detecting Who Is Doing What in Videos

Fan Yang , Norimichi Ukita , Sakriani Sakti , Satoshi Nakamura

分类：计算机视觉

2022-08-27

深度学习视频动作识别（AR）的成功促使研究人员逐步将相关任务从粗糙级别促进到细粒度水平。与仅预测整个视频的动作标签的常规AR相比，已经研究了时间动作检测（TAD），以估算视频中每个动作的开始和结束时间。将TAD进一步迈进，已经研究了时空动作检测（SAD），用于在视频中在空间和时间上定位该动作。但是，执行动作的人通常在SAD中被忽略，同时识别演员也很重要。为此，我们提出了一项新的任务，即演员识别的时空动作检测（ASAD），以弥合SAD和Actor识别之间的差距。在ASAD中，我们不仅检测到实例级别的动作的时空边界，还为每个参与者分配了唯一的ID。要接近ASAD，多个对象跟踪（MOT）和动作分类（AC）是两个基本要素。通过使用MOT，获得了每个参与者的时空边界，并分配给独特的演员身份。通过使用AC，在相应的时空边界内估计了动作类别。由于ASAD是一项新任务，因此它提出了许多新的挑战，这些挑战无法通过现有方法解决：i）没有专门为ASAD创建数据集，ii）ii）ii）没有为ASAD设计评估指标，iii）当前的MOT性能是获得的瓶颈令人满意的ASAD结果。为了解决这些问题，我们为i）注释一个新的ASAD数据集，ii）提出ASAD评估指标，通过考虑多标签动作和参与者的识别，iii）提高数据关联策略以提高MOT性能，从而提高MOT性能更好的ASAD结果。该代码可在\ url {https://github.com/fandulu/asad}中获得。

translated by 谷歌翻译