高质量的计算机视觉模型通常解决了解真实世界图像的一般分布的问题。然而,大多数相机只观察到这种分布的很小一部分。这提供了通过将紧凑的低成本模型专门用于由单面板观察到的特定分布框架来实现更有效推断的可能性。在本文中,我们采用模型蒸馏技术(使用高成本教师的输出监督低成本学生模型),将精确,低成本的语义分割模型专门化为目标视频流。我们不是从视频流中学习离线数据的专业学生模型,而是通过实时视频在线培训学生,间歇性地运行教师以提供学习目标。 Onlinemodel蒸馏产生语义分割模型,即使目标视频的分布是非静态的,它们也会使Mask R-CNN教师接近7到17倍的推理运行时成本(11到26x FLOP)。我们的方法不需要对目标视频流进行离线预训练,并且比基于流或视频对象分割的解决方案实现更高的准确性和更低的成本。我们还提供了一个新的视频数据集,用于评估长时间运行的视频流的推理效率。
translated by 谷歌翻译