智能论文笔记

Segmentation Enhanced Lameness Detection in Dairy Cows from RGB and Depth Video

Eric Arazo , Robin Aly , Kevin McGuinness

分类：计算机视觉

2022-06-09

牛la脚是一种严重的疾病，会影响奶牛的生命周期和生活质量，并导致巨大的经济损失。早期的la悔检测有助于农民尽早解决疾病，并避免牛的变性引起的负面影响。我们收集了一个简短的奶牛的数据集，穿过走廊，从走廊出发，并注释了牛的la行。本文探讨了结果数据集，并提供了数据收集过程的详细说明。此外，我们提出了一种la行检测方法，该方法利用预先训练的神经网络从视频中提取判别特征，并为每个母牛分配二进制分数，表明其状况：“健康”或“ la脚”。我们通过强迫模型专注于牛的结构来改善这种方法，我们通过用训练有素的分割模型预测的二进制分割掩码来代替RGB视频来实现。这项工作旨在鼓励研究并提供有关计算机视觉模型在农场上的牛lo脚检测的适用性的见解。

translated by 谷歌翻译

SOCRATES: A Stereo Camera Trap for Monitoring of Biodiversity

Timm Haucke , Hjalmar Kühl , Volker Steinhage

分类：计算机视觉 | 机器学习

2022-09-19

现代技术的开发和应用是对自然栖息地和景观中物种有效监测的重要基础，以追踪生态系统，物种社区和人群的发展，并分析变化的原因。为了使用诸如摄像头距离采样等方法估算动物丰度，根据3D（三维）测量的自然栖息地的空间信息至关重要。此外，3D信息可提高使用摄像头捕获的动物检测的准确性。这项研究为3D摄像头捕获提供了一种新颖的方法，该方法具有高度优化的硬件和软件。这种方法采用立体声愿景来推断自然栖息地的3D信息，并被指定为监测生物多样性（Socrates）的立体相机陷阱。对苏格拉底的全面评估不仅显示了$ 3.23 \％$的改善动物检测（边界盒$ \ text {map} _ {75} $），而且还可以使用相机陷阱距离采样来估算动物丰度。苏格拉底的软件和文档可在https://github.com/timmh/socrates上提供

translated by 谷歌翻译

SHREC 2022: pothole and crack detection in the road pavement using images and RGB-D data

Elia Moscoso Thompson , Andrea Ranieri , Silvia Biasotti , Miguel Chicchon , Ivan Sipiran , Minh-Khoi Pham , Thang-Long Nguyen-Ho , Hai-Dang Nguyen , Minh-Triet Tran

分类：计算机视觉

2022-05-26

本文介绍了提交给SHREC 2022坑道轨道和路面裂纹检测的方法。总共比较了道路表面的语义分割的7种不同的运行，参与者和基线方法的6个。所有方法都利用深度学习技术及其性能使用相同的环境（即：单个Jupyter笔记本）进行测试。由3836个语义细分图像/蒙版对组成的培训集和797个带有最新深度摄像机的RGB-D视频片段组成。然后，在验证集中的496个图像/掩码对上，测试集中的504对，最后在8个视频剪辑上评估该方法。结果的分析基于用于图像分割和视频剪辑定性分析的定量指标。参与和结果表明，该方案引起了人们的极大兴趣，在这种情况下，使用RGB-D数据仍然具有挑战性。

translated by 谷歌翻译

Video-based estimation of pain indicators in dogs

Hongyi Zhu , Yasemin Salgırlı , Pınar Can , Durmuş Atılgan , Albert Ali Salah

分类：计算机视觉

2022-09-27

狗主人通常能够识别出揭示其狗的主观状态的行为线索，例如疼痛。但是自动识别疼痛状态非常具有挑战性。本文提出了一种基于视频的新型，两流深的神经网络方法，以解决此问题。我们提取和预处理身体关键点，并在视频中计算关键点和RGB表示的功能。我们提出了一种处理自我十分和缺少关键点的方法。我们还提出了一个由兽医专业人员收集的独特基于视频的狗行为数据集，并注释以进行疼痛，并通过建议的方法报告良好的分类结果。这项研究是基于机器学习的狗疼痛状态估计的第一批作品之一。

translated by 谷歌翻译

Analysis of the hands in egocentric vision: A survey

Andrea Bandini , José Zariffa

分类：计算机视觉

2019-12-23

由于价格合理的可穿戴摄像头和大型注释数据集的可用性，在过去几年中，Egintric Vision（又名第一人称视觉-FPV）的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置（通常安装在头部上）允许准确记录摄像头佩戴者在其前面的摄像头，尤其是手和操纵物体。这种内在的优势可以从多个角度研究手：将手及其部分定位在图像中；了解双手涉及哪些行动和活动；并开发依靠手势的人类计算机界面。在这项调查中，我们回顾了使用以自我为中心的愿景专注于手的文献，将现有方法分类为：本地化（其中的手或部分在哪里？）；解释（手在做什么？）；和应用程序（例如，使用以上为中心的手提示解决特定问题的系统）。此外，还提供了带有手基注释的最突出的数据集的列表。

translated by 谷歌翻译

MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain

Francesco Ragusa , Antonino Furnari , Giovanni Maria Farinella

分类：计算机视觉

2022-09-19

可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究，但仍在以自我为中心的环境中，尤其是在工业场景中进行了研究。为了鼓励在该领域的研究，我们介绍了Meccano，这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号，深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务，例如识别和预测人类对象的相互作用。使用MECCANO数据集，我们探索了五个不同的任务，包括1）动作识别，2）活动对象检测和识别，3）以自我为中心的人类对象互动检测，4）动作预期和5）下一步活动对象检测。我们提出了一个旨在研究人类行为的基准，该基准在被考虑的类似工业的情况下，表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究，我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。

translated by 谷歌翻译

FetReg2021: A Challenge on Placental Vessel Segmentation and Registration in Fetoscopy

Sophia Bano , Alessandro Casella , Francisco Vasconcelos , Abdul Qayyum , Abdesslam Benzinou , Moona Mazher , Fabrice Meriaudeau , Chiara Lena , Ilaria Anita Cintorrino , Gaia Romana De Paolis

分类：人工智能 | 计算机视觉 | 机器学习

2022-06-24

胎儿镜检查激光光凝是一种广泛采用的方法，用于治疗双胞胎输血综合征（TTTS）。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限，胎儿镜的可操作性差，可见性差和照明的可变性，因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施（CAI）可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域，从而为外科医生提供决策支持和背景意识。由于缺乏设计，开发和测试CAI算法的高质量数据，该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册（FETREG2021）挑战，我们发布了第一个Largescale Multencentre TTTS数据集，用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战，我们发布了一个2060张图像的数据集，该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只，工具，胎儿和背景类别的像素通道。七个团队参与了这一挑战，他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中，我们介绍了FETREG2021挑战的发现，以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战，它的分析和多中心胎儿镜数据的发布，我们为该领域的未来研究提供了基准。

translated by 谷歌翻译

Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity Detection

Rui Dai , Srijan Das , Saurav Sharma , Luca Minciullo , Lorenzo Garattoni , Francois Bremond , Gianpiero Francesca

分类：计算机视觉

2020-10-28

设计可以成功部署在日常生活环境中的活动检测系统需要构成现实情况典型挑战的数据集。在本文中，我们介绍了一个新的未修剪日常生存数据集，该数据集具有几个现实世界中的挑战：Toyota Smarthome Untrimmed（TSU）。 TSU包含以自发方式进行的各种活动。数据集包含密集的注释，包括基本的，复合活动和涉及与对象相互作用的活动。我们提供了对数据集所需的现实世界挑战的分析，突出了检测算法的开放问题。我们表明，当前的最新方法无法在TSU数据集上实现令人满意的性能。因此，我们提出了一种新的基线方法，以应对数据集提供的新挑战。此方法利用一种模态（即视线流）生成注意力权重，以指导另一种模态（即RGB）以更好地检测活动边界。这对于检测以高时间差异为特征的活动特别有益。我们表明，我们建议在TSU和另一个受欢迎的挑战数据集Charades上优于最先进方法的方法。

translated by 谷歌翻译

A View Independent Classification Framework for Yoga Postures

Mustafa Chasmai , Nirjhar Das , Aman Bhardwaj , Rahul Garg

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-27

瑜伽是全球广受好评的，广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中，我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点，以训练一个随机的森林分类器，该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果，该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案，用于通过对1）看不见的帧，2）看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为，对于大多数应用程序，对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集，转移学习的优势以及目标泄漏的可能性。我们进一步证明，分类精度在很大程度上取决于所采用的交叉验证方法，并且通常会产生误导。为了促进进一步的研究，我们已公开提供关键点数据集和代码。

translated by 谷歌翻译

Fully Automated 2D and 3D Convolutional Neural Networks Pipeline for Video Segmentation and Myocardial Infarction Detection in Echocardiography

Oumaima Hamila , Sheela Ramanna , Christopher J. Henry , Serkan Kiranyaz , Ridha Hamila , Rashid Mazhar , Tahir Hamid

分类：计算机视觉 | 机器学习

2021-03-26

被称为超声心动图的心脏成像是一种非侵入性工具，用于生成包括图像和视频的数据，心脏病专家用来诊断心脏异常，尤其是心肌梗死（MI）。超声心动图机可以提供大量数据，需要由心脏病专家快速分析，以帮助他们做出诊断和治疗心脏病。但是，获得的数据质量取决于购置条件以及患者对设置说明的响应能力。这些限制对医生的挑战尤其是当患者面对MI并且他们的生命受到威胁时。在本文中，我们提出了一种基于卷积神经网络（CNN）的创新实时端到端全自动模型，以根据由左心室（LV）的区域壁运动异常（RWMA）检测到MI，该模型是由左心室（LV）的视频中的。超声心动图。我们的模型是由2D CNN组成的管道实现Mi。我们在由165个超声心动图视频组成的数据集上培训了两个CNN，每个CNN从一个独特的患者中获得。 2D CNN在数据分割方面达到了97.18％的精度，而3D CNN获得了90.9％的精度，100％的精度和95％的召回率。我们的结果表明，创建一个完全自动化的MI检测系统是可行且有利的。

translated by 谷歌翻译

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States

Sofia Broomé , Marcelo Feighelstein , Anna Zamansky , Gabriel Carreira Lencioni , Pia Haubro Andersen , Francisca Pessanha , Marwa Mahmoud , Hedvig Kjellström , Albert Ali Salah

分类：计算机视觉

2022-06-16

动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近，越来越多的作品比跟踪“更深”，并解决了对动物内部状态（例如情绪和痛苦）的自动认识，目的是改善动物福利，这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查，并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类，从不同的维度进行分类，突出挑战和研究差距，并提供最佳实践建议，以推进该领域以及一些未来的研究方向。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

Deep Learning meets Liveness Detection: Recent Advancements and Challenges

Arian Sabaghi , Marzieh Oghbaie , Kooshan Hashemifard , Mohammad Akbari

分类：计算机视觉

2021-12-29

最近，面部生物识别是对传统认证系统的方便替代的巨大关注。因此，检测恶意尝试已经发现具有重要意义，导致面部抗欺骗〜（FAS），即面部呈现攻击检测。与手工制作的功能相反，深度特色学习和技术已经承诺急剧增加FAS系统的准确性，解决了实现这种系统的真实应用的关键挑战。因此，处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中，我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明，基于各种特征和学习方法的语义分类。此外，我们以时间顺序排列，其进化进展和评估标准（数据集内集和数据集互联集合中集）覆盖了FAS的主要公共数据集。最后，我们讨论了开放的研究挑战和未来方向。

translated by 谷歌翻译

Towards Automatic Model Specialization for Edge Video Analytics

Daniel Rivas , Francesc Guim , Jordà Polo , Pubudu M. Silva , Josep Ll. Berral , David Carrera

分类：计算机视觉 | 机器学习

2021-04-14

通过流行和通用的计算机视觉挑战来判断，如想象成或帕斯卡VOC，神经网络已经证明是在识别任务中特别准确。然而，最先进的准确性通常以高计算价格出现，需要硬件加速来实现实时性能，而使用案例（例如智能城市）需要实时分析固定摄像机的图像。由于网络带宽的数量，这些流将生成，我们不能依赖于卸载计算到集中云。因此，预期分布式边缘云将在本地处理图像。但是，边缘是由性质资源约束的，这给了可以执行的计算复杂性限制。然而，需要边缘与准确的实时视频分析之间的会面点。专用轻量级型号在每相机基础上可能有所帮助，但由于相机的数量增长，除非该过程是自动的，否则它很快就会变得不可行。在本文中，我们展示并评估COVA（上下文优化的视频分析），这是一个框架，可以帮助在边缘相机中自动专用模型专业化。 COVA通过专业化自动提高轻质模型的准确性。此外，我们讨论和审查过程中涉及的每个步骤，以了解每个人所带来的不同权衡。此外，我们展示了静态相机的唯一假设如何使我们能够制定一系列考虑因素，这大大简化了问题的范围。最后，实验表明，最先进的模型，即能够概括到看不见的环境，可以有效地用作教师以以恒定的计算成本提高较小网络的教师，提高精度。结果表明，我们的COVA可以平均提高预先训练的型号的准确性，平均为21％。

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility

Mubashir Noman , Wafa Al Ghallabi , Daniya Najiha , Christoph Mayer , Akshay Dudhane , Martin Danelljan , Hisham Cholakkal , Salman Khan , Luc Van Gool , Fahad Shahbaz Khan

分类：计算机视觉

2022-08-14

最近在视觉跟踪中成功的关键因素之一是专用基准的可用性。尽管对跟踪研究有很大的受益，但现有的基准并没有与以前相同的难度，而最近的跟踪器的性能则主要是由于（i）引入了更复杂的基于变形金刚的方法，并且（ii）缺乏各种情况，因此缺乏各种情况。不良的可见性，例如恶劣的天气条件，伪装和成像效应。我们介绍了Avist，这是一个专门的基准，用于在具有不良可见性的不同情况下进行视觉跟踪。 Avist包括120个具有80k注释框架的具有挑战性的序列，涵盖了18种不同的方案，这些场景大致分为五个具有42个对象类别的属性。远景的主要贡献是涵盖恶劣天气条件的多样化和挑战性的情况，例如浓雾，大雨和沙尘暴；阻塞效应，包括火，阳光和溅水；不利成像效应，例如，低光；目标效应，包括小目标和干扰物对象以及伪装。我们进一步基准了17个关于Avist的流行和最新跟踪器，对它们跨属性的跟踪性能进行了详细分析，这表明了性能改善的巨大空间。我们认为，远景可以通过补充现有的基准，开发新的创意跟踪解决方案，以继续推动最先进的界限，从而极大地使跟踪社区受益。我们的数据集以及完整的跟踪性能评估可在以下网址提供：https：//github.com/visionml/pytracking

translated by 谷歌翻译

Livestock Monitoring with Transformer

Bhavesh Tangirala , Ishan Bhandari , Daniel Laszlo , Deepak K. Gupta , Rajat M. Thomas , Devanshu Arya

分类：计算机视觉 | 人工智能

2021-11-01

跟踪牲畜的行为能够早期发现，从而预防现代动物农场的传染病。除了经济增益之外，这将减少畜牧业养殖的抗生素量，否则进入人类饮食恼怒的抗生素抗性的流行病 - 死亡的主要原因。我们可以使用标准的摄像机，在大多数现代农场提供，以监控牲畜。然而，大多数计算机视觉算法在这项任务上表现不佳，主要是因为（i）农场繁殖的动物看起来相同，缺乏任何明显的空间签名，（ii）没有现有的跟踪器对于长期保持稳健，并且（iii）真实 - 改变照明，频繁遮挡，不同的相机角度和动物尺寸的诸如变化的条件使得模型概括为概括。鉴于这些挑战，我们开发了针对小组母猪的端到端行为监测系统，以执行同时实例级分段，跟踪，动作识别和重新识别（星）任务。我们呈现StarFormer，这是第一个端到端的多目标牲畜监测框架，通过使用变压器架构了解分组猪的实例级嵌入式。对于基准测试，我们展示了一种仔细的策划数据集，包括视频序列，其中具有实例级界限框，实际室内养殖环境中的猪的分段，跟踪和活动分类。在明星任务上使用同步优化，我们展示了星际器优于培训的流行基线模型，为个人任务培训。

translated by 谷歌翻译

Beyond SOT: It's Time to Track Multiple Generic Objects at Once

Christoph Mayer , Martin Danelljan , Ming-Hsuan Yang , Vittorio Ferrari , Luc Van Gool , Alina Kuznetsova

分类：计算机视觉

2022-12-22

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows researchers to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. Furthermore, we propose a Transformer-based GOT tracker TaMOS capable of joint processing of multiple objects through shared computation. TaMOs achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. Finally, TaMOs achieves highly competitive results on single-object GOT datasets, setting a new state-of-the-art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.

translated by 谷歌翻译

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions

Jennifer J. Sun , Tomomi Karigo , Dipam Chakraborty , Sharada P. Mohanty , Benjamin Wild , Quan Sun , Chen Chen , David J. Anderson , Pietro Perona , Yisong Yue

分类：机器学习 | 计算机视觉

2021-04-06

多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学，Caltech鼠标社交交互（CALMS21）数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成，从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究，CALMS21数据集提供基准，以评估三种设置中自动行为分类方法的性能：（1）用于培训由单个注释器的所有注释，（2）用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和（3）的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成，以及超过100万帧，具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类，以及能够概括新设置。

translated by 谷歌翻译

Video Instance Segmentation

Linjie Yang , Yuchen Fan , Ning Xu

分类：

2019-05-12

In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain. To facilitate research on this new task, we propose a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks.In addition, we propose a novel algorithm called Mask-Track R-CNN for this task. Our new method introduces a new tracking branch to Mask R-CNN to jointly perform the detection, segmentation and tracking tasks simultaneously. Finally, we evaluate the proposed method and several strong baselines on our new dataset. Experimental results clearly demonstrate the advantages of the proposed algorithm and reveal insight for future improvement. We believe the video instance segmentation task will motivate the community along the line of research for video understanding.

translated by 谷歌翻译