跟踪牲畜的行为能够早期发现,从而预防现代动物农场的传染病。除了经济增益之外,这将减少畜牧业养殖的抗生素量,否则进入人类饮食恼怒的抗生素抗性的流行病 - 死亡的主要原因。我们可以使用标准的摄像机,在大多数现代农场提供,以监控牲畜。然而,大多数计算机视觉算法在这项任务上表现不佳,主要是因为(i)农场繁殖的动物看起来相同,缺乏任何明显的空间签名,(ii)没有现有的跟踪器对于长期保持稳健,并且(iii)真实 - 改变照明,频繁遮挡,不同的相机角度和动物尺寸的诸如变化的条件使得模型概括为概括。鉴于这些挑战,我们开发了针对小组母猪的端到端行为监测系统,以执行同时实例级分段,跟踪,动作识别和重新识别(星)任务。我们呈现StarFormer,这是第一个端到端的多目标牲畜监测框架,通过使用变压器架构了解分组猪的实例级嵌入式。对于基准测试,我们展示了一种仔细的策划数据集,包括视频序列,其中具有实例级界限框,实际室内养殖环境中的猪的分段,跟踪和活动分类。在明星任务上使用同步优化,我们展示了星际器优于培训的流行基线模型,为个人任务培训。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
视频实例分割(VIS)在视频序列中共同处理多对象检测,跟踪和分割。过去,VIS方法反映了这些子任务在其建筑设计中的碎片化,因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而,现有基于变压器的方法的二次复杂性需要较长的训练时间,高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案,但尚未探索其对时间域或分段任务的应用。在这项工作中,我们提出了可变形的Vis(Devis),这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务,我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头,并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求,并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。
translated by 谷歌翻译
近年来,多个对象跟踪引起了研究人员的极大兴趣,它已成为计算机视觉中的趋势问题之一,尤其是随着自动驾驶的最新发展。 MOT是针对不同问题的关键视觉任务之一,例如拥挤的场景中的闭塞,相似的外观,小物体检测难度,ID切换等,以应对这些挑战,因为研究人员试图利用变压器的注意力机制,与田径的相互关系,与田径的相互关系,图形卷积神经网络,与暹罗网络不同帧中对象的外观相似性,他们还尝试了基于IOU匹配的CNN网络,使用LSTM的运动预测。为了将这些零散的技术在雨伞下采用,我们研究了过去三年发表的一百多篇论文,并试图提取近代研究人员更关注的技术来解决MOT的问题。我们已经征集了许多应用,可能性以及MOT如何与现实生活有关。我们的评论试图展示研究人员使用过时的技术的不同观点,并为潜在的研究人员提供了一些未来的方向。此外,我们在这篇评论中包括了流行的基准数据集和指标。
translated by 谷歌翻译
引用的视频对象分割任务(RVOS)涉及在给定视频的帧中分割文本引用的对象实例。由于这种多模式任务的复杂性,它结合了文本推理,视频理解,实例分割和跟踪,现有方法通常依赖于复杂的流水线以解决它。在本文中,我们提出了一种简单的基于变压器的RVO方法。我们的框架称为多模式跟踪变压器(MTTR),将RVOS任务模拟作为序列预测问题。在计算机视觉和自然语言处理的最新进步之后,MTTR基于实现视频和文本可以通过单个多峰变压器模型有效地处理视频和文本。 MTTR是端到端的培训,没有文本相关的电感偏置组件,不需要额外的面具细化后处理步骤。因此,与现有方法相比,它显着简化了RVOS管道。标准基准的评估表明,MTTR在多个度量标准中显着优于前面的艺术。特别是,MTTR分别显示A2D句子和JHMDB句子数据集的令人印象深刻的+5.7和+ 5.0映射增长,同时处理每秒76帧。此外,我们在公开验证集的推荐集上报告了强劲的结果,这是一个更具挑战性的RVOS数据集,该数据集尚未得到研究人员的注意。重现我们的实验的代码可在https://github.com/mttr2021/mttr中获得
translated by 谷歌翻译
Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows researchers to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. Furthermore, we propose a Transformer-based GOT tracker TaMOS capable of joint processing of multiple objects through shared computation. TaMOs achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. Finally, TaMOs achieves highly competitive results on single-object GOT datasets, setting a new state-of-the-art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.
translated by 谷歌翻译
动态场景图表形式的结构化视频表示是有关多个视频理解任务的有效工具。与场景图的任务相比,由于场景的时间动态和预测的固有时间波动,动态场景图生成是更具挑战性。我们表明捕获长期依赖性是有效生成动态场景图的关键。我们通过从视频中构造一致的长期对象轨迹来介绍检测跟踪 - 识别范例,然后是捕获对象和视觉关系的动态。实验结果表明,我们的动态场景图检测变压器(DSG-DETR)在基准数据集动作基因组上的显着余量优于最先进的方法。我们还进行消融研究并验证所提出的方法的每个组成部分的有效性。
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
我们提出了Minvis,这是一个最小的视频实例细分(VIS)框架,该框架既可以通过基于视频的体系结构也不是培训程序来实现最先进的VIS性能。通过仅培训基于查询的图像实例分割模型,MINVIS在具有挑战性的VIS数据集上优于先前的最佳结果,超过10%的AP。由于Minvis将培训视频中的框架视为独立图像,因此我们可以在培训视频中大量示例带有带有任何修改的培训视频框架。 MINVIS只有1%的标签框架优于表现,或与YouTube-VIS 2019/2021上的完全监督的最新方法相媲美。我们的主要观察结果是,受过训练以歧视框架内对象实例的查询在时间上是一致的,可以用于跟踪实例,而无需任何手动设计的启发式方法。因此,MINVIS具有以下推理管道:我们首先将基于查询的图像实例分割应用于视频帧。然后,通过相应查询的两部分匹配来跟踪分段的实例。此推论是以在线方式完成的,无需立即处理整个视频。因此,MINVI具有降低标签成本和记忆要求的实际优势,同时又不牺牲VIS性能。代码可在以下网址找到:https://github.com/nvlabs/minvis
translated by 谷歌翻译
In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain. To facilitate research on this new task, we propose a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks.In addition, we propose a novel algorithm called Mask-Track R-CNN for this task. Our new method introduces a new tracking branch to Mask R-CNN to jointly perform the detection, segmentation and tracking tasks simultaneously. Finally, we evaluate the proposed method and several strong baselines on our new dataset. Experimental results clearly demonstrate the advantages of the proposed algorithm and reveal insight for future improvement. We believe the video instance segmentation task will motivate the community along the line of research for video understanding.
translated by 谷歌翻译
最近的基于变压器的离线视频实例细分(VIS)方法取得了令人鼓舞的结果,并明显胜过在线方法。但是,它们对整个视频的依赖以及由全时空的注意力引起的巨大计算复杂性限制了它们在现实生活中的应用中,例如处理冗长的视频。在本文中,我们提出了一个基于单级变压器的高效在线VIS框架,名为InstanceFormer,该框架特别适合长期挑战性的视频。我们提出了三个新的组件来建模短期和长期依赖性和时间连贯性。首先,我们传播了对短期更改建模的先前实例的表示形式,位置和语义信息。其次,我们在解码器中提出了一种新颖的记忆交叉注意,该记忆使网络可以在某个时间窗口内研究早期实例。最后,我们采用时间对比度损失,在所有框架的实例表示中施加连贯性。记忆注意力和时间连贯性特别有益于远程依赖建模,包括诸如遮挡等挑战的情况。所提出的实例形式优于以前的在线基准方法在多个数据集上的较大边距。最重要的是,InstanceFormer超过了挑战和长数据集(例如YouTube-Vis-2021和OVIS)的离线方法。代码可从https://github.com/rajatkoner08/instanceformer获得。
translated by 谷歌翻译
视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
视频分割,即将视频帧分组到多个段或对象中,在广泛的实际应用中扮演关键作用,例如电影中的视觉效果辅助,自主驾驶中的现场理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系复兴,一直存在众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在这项调查中,通过引入各自的任务设置,背景概念,感知需要,开发历史,以及开发历史,综合审查这一领域的两种基本研究,即在视频和视频语义分割中,即视频和视频语义分割中的通用对象分段(未知类别)。主要挑战。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能机会。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
在统一框架中为检测和跟踪建模的时间信息已被证明是视频实例分割(VIS)的有希望的解决方案。但是,如何有效地将时间信息纳入在线模型仍然是一个空旷的问题。在这项工作中,我们提出了一个名为Inspeacity(IAI)的新的在线Vis范式,该范式以有效的方式对检测和跟踪进行建模。详细说明,IAI采用了一个新颖的识别模块来明确预测跟踪实例的标识号。为了传递时间信息跨框架,IAI使用了结合当前特征和过去嵌入的关联模块。值得注意的是,IAI可以与不同的图像模型集成。我们对三个VIS基准进行了广泛的实验。 IAI在YouTube-VIS-2019(Resnet-101 41.9地图)和YouTube-VIS-2021(Resnet-50 37.7地图)上胜过所有在线竞争对手。令人惊讶的是,在更具挑战性的OVI上,IAI实现了SOTA性能(20.3地图)。代码可从https://github.com/zfonemore/iai获得
translated by 谷歌翻译
Action recognition models have achieved impressive results by incorporating scene-level annotations, such as objects, their relations, 3D structure, and more. However, obtaining annotations of scene structure for videos requires a significant amount of effort to gather and annotate, making these methods expensive to train. In contrast, synthetic datasets generated by graphics engines provide powerful alternatives for generating scene-level annotations across multiple tasks. In this work, we propose an approach to leverage synthetic scene data for improving video understanding. We present a multi-task prompt learning approach for video transformers, where a shared video transformer backbone is enhanced by a small set of specialized parameters for each task. Specifically, we add a set of ``task prompts'', each corresponding to a different task, and let each prompt predict task-related annotations. This design allows the model to capture information shared among synthetic scene tasks as well as information shared between synthetic scene tasks and a real video downstream task throughout the entire network. We refer to this approach as ``Promptonomy'', since the prompts model a task-related structure. We propose the PromptonomyViT model (PViT), a video transformer that incorporates various types of scene-level information from synthetic data using the ``Promptonomy'' approach. PViT shows strong performance improvements on multiple video understanding tasks and datasets.
translated by 谷歌翻译
近年来,视频实例细分(VIS)在很大程度上是通过离线模型提出的,而在线模型由于其性能较低而逐渐吸引了关注。但是,在线方法在处理长期视频序列和正在进行的视频中具有固有的优势,而由于计算资源的限制,离线模型失败了。因此,如果在线模型可以比离线模型获得可比甚至更好的性能,那将是非常可取的。通过解剖当前的在线模型和离线模型,我们证明了性能差距的主要原因是由特征空间中不同实例之间相似外观引起的框架之间存在错误的关联。观察到这一点,我们提出了一个基于对比度学习的在线框架,该框架能够学习更多的歧视实例嵌入,以进行关联,并充分利用历史信息以达到稳定性。尽管它很简单,但我们的方法在三个基准测试上都优于在线和离线方法。具体来说,我们在YouTube-VIS 2019上实现了49.5 AP,比先前的在线和离线艺术分别取得了13.2 AP和2.1 AP的显着改善。此外,我们在OVIS上实现了30.2 AP,这是一个更具挑战性的数据集,具有大量的拥挤和遮挡,超过了14.8 AP的先前艺术。提出的方法在第四次大规模视频对象分割挑战(CVPR2022)的视频实例细分轨道中赢得了第一名。我们希望我们方法的简单性和有效性以及对当前方法的见解,可以阐明VIS模型的探索。
translated by 谷歌翻译
为视频中的每个像素分配语义类和跟踪身份的任务称为视频Panoptic分段。我们的工作是第一个在真实世界中瞄准这项任务,需要在空间和时间域中的密集解释。由于此任务的地面真理难以获得,但是,现有数据集是合成构造的或仅在短视频剪辑中稀疏地注释。为了克服这一点,我们介绍了一个包含两个数据集,Kitti-Step和Motchallenge步骤的新基准。数据集包含长视频序列,提供具有挑战性的示例和用于研究长期像素精确分割和在真实条件下跟踪的测试床。我们进一步提出了一种新的评估度量分割和跟踪质量(STQ),其相当余额平衡该任务的语义和跟踪方面,并且更适合评估任意长度的序列。最后,我们提供了几个基线来评估此新具有挑战性数据集的现有方法的状态。我们已将我们的数据集,公制,基准服务器和基准公开提供,并希望这将激发未来的研究。
translated by 谷歌翻译