一些小组活动,例如团队运动和编排的舞蹈,涉及参与者之间的互动。在这里,我们研究了在这种情况下,根据运动路径和行动来推断和预测参与者行为的任务。我们将问题范围缩小到估计集合目标参与者对其他观察到的参与者的行为的反应。我们的关键思想是以一种在框架推断和预测期间对误差积累的稳健积累的方式建模参与者之间的时空关系。我们提出了一种新型的入门变压器(EF-Transformer),该变压器通过在空间和时间域上的注意机制来对参与者的关系进行建模。与典型的变压器不同,我们通过翻转查询,钥匙和价值条目的顺序来解决错误积累的问题,以提高当前框架中观察到的特征的重要性和保真度。比较实验表明,我们的EF转换器在新收集的网球双打数据集,一个CEILIDH舞蹈数据集和两个行人数据集上实现了最佳性能。此外,还证明我们的EF转换器更好地限制了累积错误并从错误的估计中恢复。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
Video prediction is a challenging computer vision task that has a wide range of applications. In this work, we present a new family of Transformer-based models for video prediction. Firstly, an efficient local spatial-temporal separation attention mechanism is proposed to reduce the complexity of standard Transformers. Then, a full autoregressive model, a partial autoregressive model and a non-autoregressive model are developed based on the new efficient Transformer. The partial autoregressive model has a similar performance with the full autoregressive model but a faster inference speed. The non-autoregressive model not only achieves a faster inference speed but also mitigates the quality degradation problem of the autoregressive counterparts, but it requires additional parameters and loss function for learning. Given the same attention mechanism, we conducted a comprehensive study to compare the proposed three video prediction variants. Experiments show that the proposed video prediction models are competitive with more complex state-of-the-art convolutional-LSTM based models. The source code is available at https://github.com/XiYe20/VPTR.
translated by 谷歌翻译
预测行人运动对于人类行为分析以及安全有效的人类代理相互作用至关重要。但是,尽管取得了重大进展,但对于捕捉人类导航决策的不确定性和多模式的现有方法仍然具有挑战性。在本文中,我们提出了SocialVae,这是一种新颖的人类轨迹预测方法。社会节的核心是一种时间上的变性自动编码器体系结构,它利用随机反复的神经网络进行预测,结合社会注意力机制和向后的后近似值,以更好地提取行人导航策略。我们表明,社交活动改善了几个步行轨迹预测基准的最新性能,包括ETH/UCY基准,Stanford Drone DataSet和Sportvu NBA运动数据集。代码可在以下网址获得:https://github.com/xupei0610/socialvae。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
作为自主驱动系统的核心技术,行人轨迹预测可以显着提高主动车辆安全性的功能,减少道路交通损伤。在交通场景中,当遇到迎面而来的人时,行人可能会立即转动或停止,这通常会导致复杂的轨迹。为了预测这种不可预测的轨迹,我们可以深入了解行人之间的互动。在本文中,我们提出了一种名为Spatial Interaction Transformer(SIT)的新型生成方法,其通过注意机制学习行人轨迹的时空相关性。此外,我们介绍了条件变形Autiachoder(CVAE)框架来模拟未来行人的潜在行动状态。特别是,基于大规模的TRAFC数据集NUSCENES [2]的实验显示,坐下的性能优于最先进的(SOTA)方法。对挑战性的Eth和UCY数据集的实验评估概述了我们提出的模型的稳健性
translated by 谷歌翻译
组活动识别(GAR)检测由短视频剪辑中的一组演员执行的活动。任务需要对场景实体的组成理解和它们之间的关系推理。我们通过将视频建模为一系列令牌来致电GAR,该令牌代表视频中的多尺度语义概念。我们提出了Composer,一种基于多尺度变压器的架构,其在每个规模上通过令牌进行关注的推理,并在合成方面学习群组活动。此外,我们只使用缩小场景偏差的关键点模态并提高模型的泛化能力。我们通过群集中间尺度表示来提高作曲家中的多尺度表示,同时在尺度之间保持一致的群集分配。最后,我们使用辅助预测和新型数据增强(例如,演员丢弃)等技术来帮助模型培训。我们展示了挑战排球数据集的模型的实力和可解释性。作曲家通过Keypoint的模型实现新的最先进的94.5%的准确性。作曲家优于依赖RGB信号的最新GAR方法,并对利用多种方式的方法进行比较。我们的代码将可用。
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
本文介绍了社会团体活动识别的新框架。作为集团活动识别的一项扩展任务,社会群体活动识别需要识别多个子组活动并识别小组成员。大多数现有方法通过完善区域功能来解决这两个任务,然后将它们汇总到活动特征中。这样的启发式功能设计使特征的有效性易于不完整的人本地化,并无视场景上下文的重要性。此外,区域特征是识别小组成员的次优最佳选择,因为这些特征可能由该地区的人群主导并具有不同的语义。为了克服这些缺点,我们建议利用变形金刚中的注意力模块来产生有效的社会群体特征。我们的方法的设计方式使注意力模块识别,然后汇总与社会团体活动相关的特征,从而为每个社会群体产生一个有效的功能。小组成员信息嵌入到功能中,从而通过馈电网络访问。馈送网络的输出代表组,因此可以通过组和个人之间的简单匈牙利匹配来识别小组成员。实验结果表明,我们的方法优于排球和集体活动数据集的最先进方法。
translated by 谷歌翻译
本文研究了体育视频上自动化机器描述的建模,最近取得了很多进展。尽管如此,最新的方法还没有捕捉人类专家如何分析体育场景。有几个主要原因:(1)使用的数据集是从非官方提供商那里收集的,该数据集自然会在这些数据集和现实世界应用程序训练的模型之间造成差距; (2)先前提出的方法需要广泛的注释工作(即,像素级别的玩家和球分割)在本地化有用的视觉特征上以产生可接受的结果; (3)很少有公共数据集可用。在本文中,我们提出了一个新颖的大型NBA数据集,用于体育视频分析(NSVA),重点是字幕,以应对上述挑战。我们还设计了一种统一的方法,将原始视频处理成一堆有意义的功能,并以最小的标签工作进行了处理,这表明使用变压器体系结构对此类功能进行交叉建模会导致强大的性能。此外,我们通过解决了另外两个任务,即精细的运动动作识别和显着的球员识别,证明了NSVA的广泛应用。代码和数据集可在https://github.com/jackwu502/nsva上找到。
translated by 谷歌翻译
像许多团队运动一样,篮球涉及两组球员,他们从事合作和对抗性活动以赢得比赛。球员和团队正在执行各种复杂的策略,以比对手获得优势。定义,识别和分析不同类型的活动是体育分析中的一项重要任务,因为它可以导致球员和教练人员更好地策略和决策。本文的目的是自动识别篮球小组的活动,从跟踪代表玩家和球的位置的数据。我们在团队运动中提出了一种新颖的深度学习方法,以称为NETS。为了有效地对团队运动中的玩家关系进行建模,我们将基于变压器的体系结构与LSTM嵌入结合在一起,以及一个团队合并层以识别小组活动。培训这样的神经网络通常需要大量注释数据,这会产生高标签成本。为了解决手动标签的稀缺性,我们在自我监督的轨迹预测任务上生成弱标签并预处理神经网络。我们使用了从632个NBA游戏中的大型跟踪数据集来评估我们的方法。结果表明,NET能够以高准确性学习小组活动,并且网络中的自我监督训练对GAR的准确性产生了积极影响。
translated by 谷歌翻译
本文提出了一种用于在视频中的手和对象之间建模时空关系的交互推理网络。所提出的相互作用单元利用变压器模块来推理每个作用手,以及与另一方面的时空关系以及与之相互作用的物体。我们表明,建模双手交互对于在EGENTRIC视频中的动作识别至关重要,并证明通过使用定位编码的轨迹,网络可以更好地识别观察到的相互作用。我们在史诗厨房和别的东西上评估我们的建议,并进行消融研究。
translated by 谷歌翻译
我们解决了人类反应生成的挑战性任务,该任务旨在基于输入动作产生相应的反应。大多数现有作品并不集中于产生和预测反应,并且在仅给出动作作为输入时就无法产生运动。为了解决这一限制,我们提出了一种新型的相互作用变压器(Interformer),该变压器由具有时间和空间浓度的变压器网络组成。具体而言,时间的注意力捕获了字符及其相互作用的运动的时间依赖性,而空间注意力则了解每个字符的不同身体部位与相互作用的一部分之间的依赖关系。此外,我们建议使用图形通过相互作用距离模块提高空间注意力的性能,以帮助关注两个字符的附近关节。关于SBU相互作用,K3HI和Duetdance数据集的广泛实验证明了Interformer的有效性。我们的方法是一般的,可用于产生更复杂和长期的相互作用。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译
揭开多个代理之间的相互作用与过去的轨迹之间的相互作用至关重要。但是,以前的作品主要考虑与有限的关系推理的静态,成对的相互作用。为了促进更全面的互动建模和关系推理,我们提出了Dyngroupnet,这是一个动态群体感知的网络,i)可以在高度动态的场景中建模时间变化的交互; ii)捕获配对和小组互动; iii)理由互动强度和类别没有直接监督。基于Dyngroupnet,我们进一步设计了一个预测系统,以预测具有动态关系推理的社会合理轨迹。提出的预测系统利用高斯混合模型,多个抽样和预测细化,分别促进预测多样性,训练稳定性和轨迹平滑度。广泛的实验表明:1)dyngroupnet可以捕获随时间变化的群体行为,在轨迹预测过程中推断时间变化的交互类别和相互作用强度,而无需在物理模拟数据集上进行任何关系监督; 2)dyngroupnet优于最先进的轨迹预测方法,其显着改善22.6%/28.0%,26.9%/34.9%,5.1%/13.0%的ADE/FDE在NBA,NFL足球和SDD Datasets上的ADE/FDE并在ETH-COY数据集上实现最先进的性能。
translated by 谷歌翻译
对行人行为的预测对于完全自主车辆安全有效地在繁忙的城市街道上驾驶至关重要。未来的自治车需要适应混合条件,不仅具有技术还是社会能力。随着更多算法和数据集已经开发出预测行人行为,这些努力缺乏基准标签和估计行人的时间动态意图变化的能力,提供了对交互场景的解释,以及具有社会智能的支持算法。本文提出并分享另一个代表数据集,称为Iupui-CSRC行人位于意图(PSI)数据,除了综合计算机视觉标签之外,具有两种创新标签。第一部小说标签是在自助式车辆前面交叉的行人的动态意图变化,从24个司机中实现了不同的背景。第二个是在估计行人意图并在交互期间预测其行为时对驾驶员推理过程的基于文本的解释。这些创新标签可以启用几个计算机视觉任务,包括行人意图/行为预测,车辆行人互动分割和用于可解释算法的视频到语言映射。发布的数据集可以从根本上从根本上改善行人行为预测模型的发展,并开发社会智能自治车,以有效地与行人进行互动。 DataSet已被不同的任务进行评估,并已释放到公众访问。
translated by 谷歌翻译
轨迹预测旨在预测代理商可能的未来位置,考虑到他们的观察以及视频背景。这是许多自主平台所要求的,如跟踪,检测,机器人导航,自动驾驶汽车和许多其他电脑视觉应用。无论是代理人的内部人格因素,与社区的互动行为,还是周围环境的影响,所有这些都可能代表对代理商的未来计划的影响。然而,许多以前的方法模型和预测具有相同策略或“单曲”特征分布的代理商的行为,使其具有挑战性地给出足够的风格差异的预测。该稿件提出了利用风格假设和程式化预测的两个子网的多种式网络(MSN),以共同地以新颖的分类方式提供代理多种准式预测。我们使用代理人的终点计划及其交互上下文作为行为分类的基础,以便通过网络中的一系列样式通道自适应地学习多种不同的行为样式。然后,我们假设目标代理将根据这些分类样式中的每一个规划他们未来的行为,从而利用不同的风格频道,以便并行地提供具有重要风格差异的一系列预测。实验表明,所提出的MSN在两个广泛使用的数据集上以最新的最先进的方法优于10 \%-20 \%,并且定性地提出了更好的多样式特性。
translated by 谷歌翻译
对于各种现实生活中的应用,例如自动驾驶和机器人运动计划,行人轨迹预测是一项重要且具有挑战性的任务。除了生成一条未来的路径外,预测多个合理的未来路径在最近的一些轨迹预测方面变得流行。但是,现有方法通常强调行人与周边地区之间的空间相互作用,但忽略了预测的平稳性和时间一致性。我们的模型旨在通过建模基于历史轨迹的多路径来预测多个基于图形的空间变压器与使用内存图的轨迹平滑算法相结合的轨迹平滑算法。我们的方法可以全面利用空间信息,并纠正时间上不一致的轨迹(例如,尖锐的转弯)。我们还提出了一个名为“轨迹使用百分比”的新评估度量,以评估各种多未实现预测的全面性。我们的广泛实验表明,所提出的模型在多未来的预测和单一预测的竞争结果上实现了最先进的表现。在https://github.com/jacobieee/st-mr上发布的代码。
translated by 谷歌翻译
In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
translated by 谷歌翻译
GPS trajectories are the essential foundations for many trajectory-based applications, such as travel time estimation, traffic prediction and trajectory similarity measurement. Most applications require a large amount of high sample rate trajectories to achieve a good performance. However, many real-life trajectories are collected with low sample rate due to energy concern or other constraints.We study the task of trajectory recovery in this paper as a means for increasing the sample rate of low sample trajectories. Currently, most existing works on trajectory recovery follow a sequence-to-sequence diagram, with an encoder to encode a trajectory and a decoder to recover real GPS points in the trajectory. However, these works ignore the topology of road network and only use grid information or raw GPS points as input. Therefore, the encoder model is not able to capture rich spatial information of the GPS points along the trajectory, making the prediction less accurate and lack spatial consistency. In this paper, we propose a road network enhanced transformer-based framework, namely RNTrajRec, for trajectory recovery. RNTrajRec first uses a graph model, namely GridGNN, to learn the embedding features of each road segment. It next develops a spatial-temporal transformer model, namely GPSFormer, to learn rich spatial and temporal features along with a Sub-Graph Generation module to capture the spatial features for each GPS point in the trajectory. It finally forwards the outputs of encoder model into a multi-task decoder model to recover the missing GPS points. Extensive experiments based on three large-scale real-life trajectory datasets confirm the effectiveness of our approach.
translated by 谷歌翻译