通常对视觉动作识别的机器学习模型进行了对与某些对象相关联的特定情况的数据训练和测试。这是一个悬而未决的问题,训练集中的行动对象关联如何影响模型超出受过训练情况的能力。我们着手确定培训数据的属性,这些训练数据可导致具有更大泛化能力的行动识别模型。为此,我们从一种称为跨态学习的认知机制中汲取灵感,该机制指出,人类学习者通过在不同情况下观察相同概念的实例来提取概念的含义。我们对各种类型的动作对象关联进行受控实验,并在训练数据中识别动作对象共发生的关键特性,从而导致更好的分类器。鉴于数据集中缺少这些属性,这些属性通常用于培训计算机视觉文献中的动作分类器,因此我们的工作提供了有关如何最好地构建数据集以有效培训以进行更好概括的有用见解。
translated by 谷歌翻译
具有注释的缺乏大规模的真实数据集使转移学习视频活动的必要性。我们的目标是为少数行动分类开发几次拍摄转移学习的有效方法。我们利用独立培训的本地视觉提示来学习可以从源域传输的表示,该源域只能使用少数示例来从源域传送到不同的目标域。我们使用的视觉提示包括对象 - 对象交互,手掌和地区内的动作,这些地区是手工位置的函数。我们采用了一个基于元学习的框架,以提取部署的视觉提示的独特和域不变组件。这使得能够在使用不同的场景和动作配置捕获的公共数据集中传输动作分类模型。我们呈现了我们转让学习方法的比较结果,并报告了阶级阶级和数据间数据间际传输的最先进的行动分类方法。
translated by 谷歌翻译
图像中的对象状态的检测(状态检测 - SD)是理论和实际重要性的问题,并且它与其他重要的计算机视觉问题紧密地交织,例如动作识别和承受性检测。它对任何需要有理由和在动态域名的实体的实体也非常相关,例如机器人系统和智能代理人。尽管重要的是,到目前为止,这一问题的研究已经有限。在本文中,我们尝试了对SD问题的系统研究。首先,我们介绍了对象状态检测数据集(OSDD),这是一个由19,000个注释为18个对象类别和9个州类的注释组成的新公共可用数据集。其次,使用用于对象检测(OD)的标准深度学习框架,我们进行多项适当设计的实验,深入研究SD问题的行为。本研究能够在各种场景中实现SD的性能的基准,以及与OD相比的相对性能。总的来说,实验结果证实,SD比OD更难,需要制定定制的SD方法来有效地解决这一重大问题。
translated by 谷歌翻译
直觉可能表明,运动和动态信息是基于视频的动作识别的关键。相比之下,有证据表明,最新的深入学习视频理解架构偏向单帧可用的静态信息。目前,缺少用于隔离视频中动态信息影响的方法和相应的数据集。他们的缺席使得很难理解当代体系结构如何利用动态和静态信息。我们以新颖的外观免费数据集(AFD)做出反应,以进行动作识别。 AFD缺乏与单个帧中的动作识别有关的静态信息。动力学的建模对于解决任务是必要的,因为仅通过考虑时间维度才能明显作用。我们评估了AFD上的11种当代行动识别体系结构及其相关的RGB视频。我们的结果表明,与RGB相比,AFD上所有体系结构的性能均显着下降。我们还对人类进行了免费研究,该研究表明他们在AFD和RGB上的识别准确性非常相似,并且比AFD评估的体系结构要好得多。我们的结果激发了一种新颖的体系结构,在当代设计中,在AFD和RGB上的最佳性能中恢复了光流的明确恢复。
translated by 谷歌翻译
This paper introduces a video dataset of spatiotemporally localized Atomic Visual Actions (AVA). The AVA dataset densely annotates 80 atomic visual actions in 430 15-minute video clips, where actions are localized in space and time, resulting in 1.58M action labels with multiple labels per person occurring frequently. The key characteristics of our dataset are: (1) the definition of atomic visual actions, rather than composite actions; (2) precise spatio-temporal annotations with possibly multiple annotations for each person; (3) exhaustive annotation of these atomic actions over 15-minute video clips; (4) people temporally linked across consecutive segments; and (5) using movies to gather a varied set of action representations. This departs from existing datasets for spatio-temporal action recognition, which typically provide sparse annotations for composite actions in short video clips.AVA, with its realistic scene and action complexity, exposes the intrinsic difficulty of action recognition. To benchmark this, we present a novel approach for action localization that builds upon the current state-of-the-art methods, and demonstrates better performance on JHMDB and UCF101-24 categories. While setting a new state of the art on existing datasets, the overall results on AVA are low at 15.6% mAP, underscoring the need for developing new approaches for video understanding.
translated by 谷歌翻译
我们解决了视频动作识别的数据增强问题。视频中的标准增强策略是手工设计的,并随机对可能的增强数据点的空间进行采样,而不知道哪个增强点会更好,或者是通过启发式方法会更好。我们建议学习是什么使良好的视频供行动识别,并仅选择高质量的样本进行增强。特别是,我们选择前景和背景视频的视频合成作为数据增强过程,从而导致各种新样本。我们了解了哪对视频要增加,而无需实际综合它们。这降低了可能的增强空间,这具有两个优势:它节省了计算成本并提高了最终训练的分类器的准确性,因为增强对的质量高于平均水平。我们在整个训练环境中介绍了实验结果:几乎没有射击,半监督和完全监督。我们观察到所有这些都对动力学,UCF101,HMDB51的基准进行了一致的改进,并在设置上实现了有限数据的新最新设置。在半监督环境中,我们看到高达8.6%的改善。
translated by 谷歌翻译
动作识别是提高物理康复设备自治的重要组成部分,例如可穿戴机器人外骨骼。现有的人类行动识别算法的重点是成人应用,而不是小儿应用。在本文中,我们介绍了BabyNet,这是一个轻量重量(就可训练的参数而言)的网络结构,以识别婴儿从外体固定摄像机中采取行动的婴儿。我们开发了一个带注释的数据集,其中包括在不受约束的环境中的不同婴儿(例如,在家庭设置等)中的坐姿中执行的各种范围。我们的方法使用带注释的边界框的空间和时间连接来解释和抵消到达的开始,并检测到完整的到达动作。我们评估了我们提出的方法的效率,并将其性能与其他基于学习的网络结构进行比较,以捕获时间相互依存的能力和触及发作和偏移的检测准确性。结果表明,我们的婴儿网络可以在超过其他较大网络的(平均)测试准确性方面达到稳定的性能,因此可以作为基于视频的婴儿获得动作识别的轻量重量数据驱动框架。
translated by 谷歌翻译
今天的大多数动作识别模型都是高度参数化的,并在具有主要空间不同类的数据集上进行评估。以前的单个图像的结果表明,2D卷积神经网络(CNNS)倾向于偏向纹理而不是各种计算机视觉任务的形状(Geirhos等,2019),减少了概括。总之,这提出了怀疑大型视频模型学习虚假相关性,而不是随着时间的推移跟踪相关形状并从运动中推断出可推断的语义。当随着时间的推移学习视觉模式时,一种自然的方法是在学习视觉模式时是在时间轴上使用复发。在本文中,我们经验分别研究了经常性,关注和卷积视频模型的跨域稳健性,以研究这种鲁棒性是否受帧依赖性建模的影响。我们的新型时间形状数据集被提出为轻量级数据集,以评估跨越不从单帧透露的时间形状概括的能力。我们发现,当控制性能和层结构时,复发模型比基于卷积和关注的模型在时间形状数据集上显示出更好的域泛化能力。此外,我们的实验表明,基于卷积和关注的模型比经常性模型在潜水48上表现出更多的质地偏差。
translated by 谷歌翻译
While large datasets have proven to be a key enabler for progress in computer vision, they can have biases that lead to erroneous conclusions. The notion of the representation bias of a dataset is proposed to combat this problem. It captures the fact that representations other than the ground-truth representation can achieve good performance on any given dataset. When this is the case, the dataset is said not to be well calibrated. Dataset calibration is shown to be a necessary condition for the standard state-of-the-art evaluation practice to converge to the ground-truth representation. A procedure, RESOUND, is proposed to quantify and minimize representation bias. Its application to the problem of action recognition shows that current datasets are biased towards static representations (objects, scenes and people). Two versions of RE-SOUND are studied. An Explicit RESOUND procedure is proposed to assemble new datasets by sampling existing datasets. An implicit RE-SOUND procedure is used to guide the creation of a new dataset, Div-ing48, of over 18,000 video clips of competitive diving actions, spanning 48 fine-grained dive classes. Experimental evaluation confirms the effectiveness of RESOUND to reduce the static biases of current datasets.
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是,当应用于稀有场景或物体的视频时,它们的性能很差,这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题:算法和数据集。从算法的角度来看,我们提出了空间感知的多种偏见(SMAD),它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合,从行动方面。为了消除内在的数据集偏差,我们建议OmnideBias有选择地利用Web数据进行联合培训,这可以通过更少的Web数据实现更高的性能。为了验证有效性,我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验,该数据集的重点是稀有场景。我们还表明,当转移到其他数据集和任务时,辩护形式可以更好地概括。
translated by 谷歌翻译
可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究,但仍在以自我为中心的环境中,尤其是在工业场景中进行了研究。为了鼓励在该领域的研究,我们介绍了Meccano,这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号,深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务,例如识别和预测人类对象的相互作用。使用MECCANO数据集,我们探索了五个不同的任务,包括1)动作识别,2)活动对象检测和识别,3)以自我为中心的人类对象互动检测,4)动作预期和5)下一步活动对象检测。我们提出了一个旨在研究人类行为的基准,该基准在被考虑的类似工业的情况下,表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究,我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
黑暗视频中的动作识别任务在各种情况下很有用,例如夜间夜间监视和自动驾驶。尽管在正常照明的视频的动作识别任务中取得了进展,但在黑暗中很少有人研究动作识别。这部分是由于缺乏足够的数据集来完成此类任务。在本文中,我们探讨了黑暗视频中动作识别的任务。我们通过收集一个新数据集:黑暗(ARID)数据集中的动作识别来弥合此任务缺乏数据的差距。它由3,780多个具有11个动作类别的视频剪辑组成。据我们所知,这是第一个针对黑暗视频中人类行为的数据集。为了进一步了解我们的干旱数据集,我们详细分析了干旱数据集,并在合成黑暗视频中表现出了必要性。此外,我们在数据集上基准了几种当前动作识别模型的性能,并探索了提高其性能的潜在方法。我们的结果表明,当前的动作识别模型和框架增强方法可能不是黑暗视频中动作识别任务的有效解决方案。
translated by 谷歌翻译
由于研究和应用意义,人类行动认可在近年来造成了很多关注。行动识别的大多数现有工程侧重于学习视频的有效空间特征,但忽视了前提,行动和效果之间的强烈因果关系。这种关系对动作识别的准确性来说也是至关重要的。在本文中,我们建议根据前提条件和效果模拟因果关系,以提高行动识别性能。具体地,提出了一种循环推理模型来捕获动作识别的因果关系。为此,我们向大规模动作数据集注释了前提条件和效果。实验结果表明,所提出的循环推理模型可以有效地推理前提和效果,可以提高行动识别性能。
translated by 谷歌翻译
To enable a safe and effective human-robot cooperation, it is crucial to develop models for the identification of human activities. Egocentric vision seems to be a viable solution to solve this problem, and therefore many works provide deep learning solutions to infer human actions from first person videos. However, although very promising, most of these do not consider the major challenges that comes with a realistic deployment, such as the portability of the model, the need for real-time inference, and the robustness with respect to the novel domains (i.e., new spaces, users, tasks). With this paper, we set the boundaries that egocentric vision models should consider for realistic applications, defining a novel setting of egocentric action recognition in the wild, which encourages researchers to develop novel, applications-aware solutions. We also present a new model-agnostic technique that enables the rapid repurposing of existing architectures in this new context, demonstrating the feasibility to deploy a model on a tiny device (Jetson Nano) and to perform the task directly on the edge with very low energy consumption (2.4W on average at 50 fps).
translated by 谷歌翻译
The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks (CNNs) with spatio-temporal three-dimensional (3D) kernels. Recently, the performance levels of 3D CNNs in the field of action recognition have improved significantly. However, to date, conventional research has only explored relatively shallow 3D architectures. We examine the architectures of various 3D CNNs from relatively shallow to very deep ones on current video datasets. Based on the results of those experiments, the following conclusions could be obtained: (i) training resulted in significant overfitting for UCF-101, HMDB-51, and Ac-tivityNet but not for Kinetics. (ii) The Kinetics dataset has sufficient data for training of deep 3D CNNs, and enables training of up to 152 ResNets layers, interestingly similar to 2D ResNets on ImageNet. ResNeXt-101 achieved 78.4% average accuracy on the Kinetics test set. (iii) Kinetics pretrained simple 3D architectures outperforms complex 2D architectures, and the pretrained ResNeXt-101 achieved 94.5% and 70.2% on respectively. The use of 2D CNNs trained on ImageNet has produced significant progress in various tasks in image. We believe that using deep 3D CNNs together with Kinetics will retrace the successful history of 2D CNNs and ImageNet, and stimulate advances in computer vision for videos. The codes and pretrained models used in this study are publicly available1.
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
尽管视频自我监督的学习模型最近取得了成功,但关于它们的概括能力仍然有很多了解。在本文中,我们研究了敏感的视频自我监督学习对当前常规基准的方式以及方法是否超出规范评估设置的概括。我们在敏感性的四个不同因素上做到这一点:域,样本,动作和任务。我们的研究包括7个视频数据集,9种自学方法和6种视频理解任务的500多个实验,揭示了视频自我监督学习中的当前基准测试不是沿这些敏感性因素的概括指标。此外,我们发现自我监督的方法在香草的监督前训练后落后,尤其是当域移动较大并且可用下游样品的量很低时。从我们的分析中,我们将严重的基准测试(实验的一个子集)提炼出来,并讨论其对评估现有和未来自我监督视频学习方法获得的表示的普遍性的意义。
translated by 谷歌翻译
我们介绍了在视频中发现时间精确,细粒度事件的任务(检测到时间事件的精确时刻)。精确的斑点需要模型在全球范围内对全日制动作规模进行推理,并在本地识别微妙的框架外观和运动差异,以识别这些动作过程中事件的识别。令人惊讶的是,我们发现,最高的绩效解决方案可用于先前的视频理解任务,例如操作检测和细分,不能同时满足这两个要求。作为响应,我们提出了E2E点,这是一种紧凑的端到端模型,在精确的发现任务上表现良好,可以在单个GPU上快速培训。我们证明,E2E点的表现明显优于最近根据视频动作检测,细分和将文献发现到精确的发现任务的基线。最后,我们为几个细粒度的运动动作数据集贡献了新的注释和分裂,以使这些数据集适用于未来的精确发现工作。
translated by 谷歌翻译