我们将视频Swin Transformer作为基础体系结构实现,用于无返回时间定位和对象状态变更分类的任务。我们的方法在两个挑战上都取得了竞争性能。
translated by 谷歌翻译
作为视频的独特性,运动对于开发视频理解模型至关重要。现代深度学习模型通过执行时空3D卷积来利用运动,将3D卷积分别分为空间和时间卷积,或者沿时间维度计算自我注意力。这种成功背后的隐含假设是,可以很好地汇总连续帧的特征图。然而,该假设可能并不总是对具有较大变形的地区特别存在。在本文中,我们提出了一个新的框架间注意区块的食谱,即独立框架间注意力(SIFA),它在新颖的情况下深入研究了整个框架的变形,以估计每个空间位置上的局部自我注意力。从技术上讲,SIFA通过通过两个帧之间的差来重新缩放偏移预测来重新缩放可变形设计。将每个空间位置在当前帧中作为查询,下一帧中的本地可变形邻居被视为键/值。然后,SIFA衡量查询和键之间的相似性是对加权平均时间聚集值的独立关注。我们进一步将SIFA块分别插入Convnet和Vision Transformer,以设计SIFA-NET和SIFA-TransFormer。在四个视频数据集上进行的广泛实验表明,SIFA-NET和SIFA转换器的优越性是更强的骨架。更值得注意的是,SIFA转换器在动力学400数据集上的精度为83.1%。源代码可在\ url {https://github.com/fuchenustc/sifa}中获得。
translated by 谷歌翻译
手术视频中的活动识别是开发下一代设备和工作流程监测系统的关键研究领域。由于手术是具有高度变化长度的较长过程,因此用于手术视频的深度学习模型通常包括使用主链和时间序列模型的两阶段设置。在本文中,我们研究了许多最新的骨干和时间模型,以找到为手术活动识别提供最强性能的体系结构。我们首先在大规模活动识别数据集上进行模型性能,该数据集包含在多个临床手术室中捕获的800多个手术视频。我们进一步评估了两个较小的公共数据集(Cholec80和Cataract-101数据集)上的模型,分别包含80个视频和101个视频。我们从经验上发现,Swin-Transformer+BigRU时间模型在两个数据集上都产生了强劲的性能。最后,我们通过对新医院进行微调模型来研究模型对新领域的适应性,并试验最近无监督的域适应方法。
translated by 谷歌翻译
最近,视力变压器已被证明在多个视力任务中广泛使用基于卷积的方法(CNN)具有竞争力。与CNN相比,变压器的限制性偏差较小。但是,在图像分类设置中,这种灵活性在样本效率方面取决于变压器需要成像尺度训练。这个概念已转移到视频中,其中尚未在低标记或半监视设置中探索用于视频分类的变压器。我们的工作从经验上探讨了视频分类的低数据制度,发现与CNN相比,变形金刚在低标记的视频设置中表现出色。我们专门评估了两个对比的视频数据集(Kinetics-400和Somethingsomething-v2)的视频视觉变压器,并进行彻底的分析和消融研究,以使用视频变压器体系结构的主要特征来解释这一观察结果。我们甚至表明,仅使用标记的数据,变形金刚显着优于复杂的半监督CNN方法,这些方法也利用了大规模未标记的数据。我们的实验告知我们的建议,即半监督的学习视频工作应该考虑将来使用视频变压器。
translated by 谷歌翻译
本报告描述了我们的提交称为“ tarheels”的EGO4D:对象状态变更分类挑战。我们使用基于变压器的视频识别模型,并利用分隔的时空注意机制来对以中心视频的对象状态变化进行分类。我们的提交在挑战中取得了第二好的表现。此外,我们进行了一项消融研究,以表明识别以egipentric视频中的对象状态变化需要时间建模能力。最后,我们提出了几个积极和负面的例子,以可视化模型的预测。该代码可公开可用:https://github.com/md-mohaiminul/ObjectStateChange
translated by 谷歌翻译
与2020年相比,由于注意力和嗜睡的增加,汽车撞车事故增长了20%。昏昏欲睡和分心的驾驶是所有车祸的45%的原因。作为减少昏昏欲睡和分心的驾驶的一种手段,使用计算机视觉的检测方法可以设计为低成本,准确和微创。这项工作调查了视觉变压器以优于3D-CNN的最先进准确性。两个独立的变压器接受了嗜睡和分心。昏昏欲睡的视频变压器模型接受了全国Tsing-hua大学昏昏欲睡的驾驶数据集(NTHU-DDD)的培训,其中有一个视频Swin Transformer模型,可在两个类别上进行10个时代 - 昏昏欲睡和非der脚模拟10.5个小时。分散注意力的视频变压器在驾驶员监视数据集(DMD)上接受了带有视频SWIN变压器的50个时代的培训,该时期超过9个分心相关的类。嗜睡模型的准确性达到44%,测试集的损失值高,表明过度拟合和模型性能差。过度拟合表明有限的培训数据和应用模型体系结构缺乏可量化的参数。分散注意力的模型优于DMD上的最新模型,达到97.5%,表明有足够的数据和强大的体系结构,变压器适合不适合驾驶检测。未来的研究应使用较新的模型,例如Tokenlearner来实现更高的准确性和效率,合并现有数据集以扩展以检测酒后驾车和道路愤怒,以创建全面的解决方案,以防止交通崩溃,并部署功能性的原型,以革新自动安全安全性行业。
translated by 谷歌翻译
预计未来几十年的全球粮食不安全将加速气候变化率和人口迅速增加。在这种静脉中,重要的是在每种饮食生产水平上消除效率低下。最近深入学习的进步可以帮助降低这种效率低下,但他们的申请尚未成为整个行业的主流,以大规模的规模诱导经济成本。为此,已将现代技术(如CNNS(卷积神经网络)应用于RPQD(原始产生质量检测)任务。另一方面,变压器在其他方式中的视野中的成功首次亮相使我们能够在RPQD中预计这些基于变压器的模型更好的性能。在这项工作中,我们专门调查了最近的最先进的水流(移位的Windows)变压器,这些变压器可以在窗口和窗口间的方式中计算自我关注。我们将Swin变压器与CNN模型进行比较四个RPQD图像数据集,每个CNN模型都包含不同种类的生成:水果和蔬菜,鱼类,猪肉和牛肉。我们观察到Swin Transformer不仅实现了更好或更有竞争力的性能,而且还具有数据和计算效率,使其成为现实世界的实际部署的理想选择。据我们所知,这是第一个对RPQD任务的大规模实证研究,我们希望在未来的作品中更加关注。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
Correctly recognizing the behaviors of children with Autism Spectrum Disorder (ASD) is of vital importance for the diagnosis of Autism and timely early intervention. However, the observation and recording during the treatment from the parents of autistic children may not be accurate and objective. In such cases, automatic recognition systems based on computer vision and machine learning (in particular deep learning) technology can alleviate this issue to a large extent. Existing human action recognition models can now achieve persuasive performance on challenging activity datasets, e.g. daily activity, and sports activity. However, problem behaviors in children with ASD are very different from these general activities, and recognizing these problem behaviors via computer vision is less studied. In this paper, we first evaluate a strong baseline for action recognition, i.e. Video Swin Transformer, on two autism behaviors datasets (SSBD and ESBD) and show that it can achieve high accuracy and outperform the previous methods by a large margin, demonstrating the feasibility of vision-based problem behaviors recognition. Moreover, we propose language-assisted training to further enhance the action recognition performance. Specifically, we develop a two-branch multimodal deep learning framework by incorporating the "freely available" language description for each type of problem behavior. Experimental results demonstrate that incorporating additional language supervision can bring an obvious performance boost for the autism problem behaviors recognition task as compared to using the video information only (i.e. 3.49% improvement on ESBD and 1.46% on SSBD).
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
视频变压器在主要视频识别基准上取得了令人印象深刻的结果,但它们遭受了高计算成本。在本文中,我们呈现Stts,一个令牌选择框架,动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言,我们将令牌选择作为一个排名问题,估计每个令牌通过轻量级选择网络的重要性,并且只有顶级分数的人将用于下游评估。在时间维度中,我们将最相关的帧保持对识别作用类别的帧,而在空间维度中,我们确定特征映射中最辨别的区域,而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的,因此我们采用了一个扰动最大的可分辨率Top-K运算符,用于最终培训。我们对动力学-400进行广泛的实验,最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果,同时需要计算20%。我们还表明我们的方法与其他变压器架构兼容。
translated by 谷歌翻译
本文研究了视频变压器的BERT预借鉴。考虑到近期图像变形金刚的伯爵预借鉴成功,这是一个简单但值得学习的延伸。我们介绍了Decouples将视频表示学习学习的BEVT进入空间代表学习和时间动态学习。特别地,BEVT首先在图像数据上执行屏蔽图像建模,然后在视频数据上与屏蔽视频建模联合进行屏蔽图像建模。这种设计具有两个观察的动机:1)在图像数据集上学习的变压器提供了体面的空间前沿,可以缓解视频变压器的学习,这通常是从划痕训练的计算密集型的时间。 2)鉴别的线索,即空间和时间信息,需要在不同的视频中进行正确的预测,由于阶级的阶级和阶级际变化而不同。我们对三个具有挑战性的视频基准进行了广泛的实验,其中BEVT达到了非常有前途的结果。在动力学400上,哪些识别主要依赖于歧视性空间表示,BEVT达到了强大的监督基线的可比结果。在某种东西 - V2和潜水48上,其中包含依靠时间动态的视频,BEVT优于所有替代基准,分别实现了70.6%和86.7%的最新性能。
translated by 谷歌翻译
基于变压器的方法最近在基于2D图像的视力任务上取得了巨大进步。但是,对于基于3D视频的任务,例如动作识别,直接将时空变压器应用于视频数据将带来沉重的计算和记忆负担,因为斑块的数量大大增加以及自我注意计算的二次复杂性。如何对视频数据的3D自我注意力进行有效地建模,这对于变压器来说是一个巨大的挑战。在本文中,我们提出了一种时间贴片移动(TPS)方法,用于在变压器中有效的3D自发明建模,以进行基于视频的动作识别。 TPS在时间尺寸中以特定的镶嵌图模式移动斑块的一部分,从而将香草的空间自我发项操作转换为时空的一部分,几乎没有额外的成本。结果,我们可以使用几乎相同的计算和记忆成本来计算3D自我注意力。 TPS是一个插件模块,可以插入现有的2D变压器模型中,以增强时空特征学习。提出的方法可以通过最先进的V1和V1,潜水-48和Kinetics400实现竞争性能,同时在计算和内存成本方面效率更高。 TPS的源代码可在https://github.com/martinxm/tps上找到。
translated by 谷歌翻译
视频字幕的规范方法决定了用于从离线提取的密集视频特征学习的标题生成模型。这些特征提取器通常在以固定帧速率采样的视频帧上操作,并且通常在图像/视频理解任务上培训,而不适用于视频标题数据。在这项工作中,我们展示了Swinbert,一种用于视频字幕的基于端到端的变换器的模型,它将视频帧贴片直接作为输入,并输出自然语言描述。我们的方法代替利用多个2D / 3D特征提取器,该方法采用视频变压器来编码可适应可变长度的视频输入,而无需专用设计,可以针对不同的帧速率进行专用设计。基于该模型架构,我们表明视频标题可以从更密集地采样的视频帧中受益匪浅,而不是以前的成功,用于视频和语言理解任务的稀疏采样视频帧(例如,视频问题应答)。此外,为了避免连续视频帧中固有的冗余,我们建议通过更好的远程视频序列建模来自适应地学习稀疏的注意掩模并优化任务特定性能改进。通过对5个视频字幕数据集的广泛实验,我们展示了Swinbert通过较大的余量来实现对以前的方法的整体性能改进。此外,学习的稀疏注意力掩模将限制推向新的技术,可以在不同的视频长度和不同的数据集之间传输。
translated by 谷歌翻译
自2020年推出以来,Vision Transformers(VIT)一直在稳步打破许多视觉任务的记录,通常被描述为``全部'''替换Convnet。而且对于嵌入式设备不友好。此外,最近的研究表明,标准的转话如果经过重新设计和培训,可以在准确性和可伸缩性方面与VIT竞争。在本文中,我们采用Convnet的现代化结构来设计一种新的骨干,以采取行动,以采取行动特别是我们的主要目标是为工业产品部署服务,例如仅支持标准操作的FPGA董事会。因此,我们的网络仅由2D卷积组成,而无需使用任何3D卷积,远程注意插件或变压器块。在接受较少的时期(5x-10x)训练时,我们的骨干线超过了(2+1)D和3D卷积的方法,并获得可比的结果s在两个基准数据集上具有vit。
translated by 谷歌翻译
虽然变形金机对视频识别任务的巨大潜力具有较强的捕获远程依赖性的强大能力,但它们经常遭受通过对视频中大量3D令牌的自我关注操作引起的高计算成本。在本文中,我们提出了一种新的变压器架构,称为双重格式,可以有效且有效地对视频识别进行时空关注。具体而言,我们的Dualformer将完全时空注意力分层到双级级联级别,即首先在附近的3D令牌之间学习细粒度的本地时空交互,然后捕获查询令牌之间的粗粒度全局依赖关系。粗粒度全球金字塔背景。不同于在本地窗口内应用时空分解或限制关注计算以提高效率的现有方法,我们本地 - 全球分层策略可以很好地捕获短期和远程时空依赖项,同时大大减少了钥匙和值的数量在注意计算提高效率。实验结果表明,对抗现有方法的五个视频基准的经济优势。特别是,Dualformer在动态-400/600上设置了新的最先进的82.9%/ 85.2%,大约1000g推理拖鞋,比具有相似性能的现有方法至少3.2倍。
translated by 谷歌翻译
视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况,即它们并行恢复所有帧,或者以复发方式恢复视频框架,这将导致不同的优点和缺点。通常,前者具有时间信息融合的优势。但是,它遭受了较大的模型尺寸和密集的内存消耗;后者的模型大小相对较小,因为它在跨帧中共享参数。但是,它缺乏远程依赖建模能力和并行性。在本文中,我们试图通过提出经常性视频恢复变压器(即RVRT)来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架,该框架可以在模型大小,有效性和效率之间实现良好的权衡。具体而言,RVRT将视频分为多个剪辑,并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中,通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中,引导的变形注意力是为剪辑对齐对齐的,该剪辑对齐可预测整个推断的夹子中的多个相关位置,并通过注意机制汇总其特征。关于视频超分辨率,DeBlurring和DeNoising的广泛实验表明,所提出的RVRT在具有平衡模型大小,测试内存和运行时的基准数据集上实现了最先进的性能。
translated by 谷歌翻译
In this work, we present a new computer vision task named video object of interest segmentation (VOIS). Given a video and a target image of interest, our objective is to simultaneously segment and track all objects in the video that are relevant to the target image. This problem combines the traditional video object segmentation task with an additional image indicating the content that users are concerned with. Since no existing dataset is perfectly suitable for this new task, we specifically construct a large-scale dataset called LiveVideos, which contains 2418 pairs of target images and live videos with instance-level annotations. In addition, we propose a transformer-based method for this task. We revisit Swin Transformer and design a dual-path structure to fuse video and image features. Then, a transformer decoder is employed to generate object proposals for segmentation and tracking from the fused features. Extensive experiments on LiveVideos dataset show the superiority of our proposed method.
translated by 谷歌翻译
时间动作定位中的大多数现代方法将此问题分为两个部分:(i)短期特征提取和(ii)远程时间边界定位。由于处理长期未修剪的视频引起的GPU内存成本很高,因此许多方法通过冷冻骨干或使用小型空间视频分辨率来牺牲短期功能提取器的代表力。由于最近的视频变压器模型,其中许多具有二次记忆复杂性,这个问题变得更糟。为了解决这些问题,我们提出了TallFormer,这是一种具有长期内存的记忆效率和端到端的可训练时间动作定位变压器。我们的长期记忆机制消除了在每个训练迭代期间处理数百个冗余视频帧的需求,从而大大减少了GPU的记忆消耗和训练时间。这些效率节省使我们(i)可以使用功能强大的视频变压器提取器,而无需冷冻主链或减少空间视频分辨率,而(ii)也保持了远距离的时间边界定位能力。只有RGB框架作为输入,没有外部动作识别分类器,TallFormer的表现优于先前的最先前的边距,在Thumos14上获得了59.1%的平均地图,而ActivityNet-1.3的平均地图为35.6%。该代码可公开:https://github.com/klauscc/tallformer。
translated by 谷歌翻译
已经提出了各种模型来执行对象检测。但是,大多数人都需要许多手工设计的组件,例如锚和非最大抑制(NMS),以表现出良好的性能。为了减轻这些问题,建议了基于变压器的DETR及其变体可变形DETR。这些解决了为对象检测模型设计头部时的许多复杂问题。但是,当将基于变压器的模型视为其他模型的对象检测中的最新方法时,仍然存在对性能的疑问,这取决于锚定和NMS,揭示了更好的结果。此外,目前尚不清楚是否可以仅与注意模块结合使用端到端管道,因为Detr适应的变压器方法使用卷积神经网络(CNN)作为骨干身体。在这项研究中,我们建议将几个注意力模块与我们的新任务特异性分裂变压器(TSST)相结合是一种有力的方法,可以在没有传统手工设计的组件的情况下生成可可结果上最先进的性能。通过将通用注意模块分为两个分开的目标注意模块,该方法允许设计简单的对象检测模型。对可可基准的广泛实验证明了我们方法的有效性。代码可在https://github.com/navervision/tsst上获得
translated by 谷歌翻译