社交媒体上的未经监测视频或由机器人和监控摄像机捕获的视频具有各种宽高比。然而,3D CNN需要一个方形视频,其空间尺寸小于原始视频。使用中随机或中心裁剪技术可以完全泄露视频的主题。为了解决这个问题,我们通过将其作为一个重新凝集和视频到视频合成问题塑造这一点来提出无监督的视频裁剪方法。合成视频维持1:1宽高比,尺寸小,并且在整个持续时间内瞄准视频主体。首先,通过用均匀运动模式识别贴片来执行各个帧上的​​动作定位,并且单个凸片被引脚指向。为避免抖动和闪烁的伪影,曲线逐渐逐渐执行任何帧间比例或斑块之间的帧间比例。在3D空间中通过一些选择的枢轴时间戳来解决该问题,其形状受到在控制时间戳之间的影响。为了证实所提出的方法的有效性,我们通过将我们的动态裁剪与三个基准数据集中的静态随机进行比较来评估视频分类任务:UCF-101,HMDB-51和ActivityNet V1.3。我们裁剪后视频分类的剪辑精度和前1个精度,始乎多3D CNN性能,对于随机作物的同类输入;有时甚至超过随机作物尺寸较大。
translated by 谷歌翻译
本章旨在帮助开发网络 - 物理系统(CPS)在视频监控的各种应用中自动理解事件和活动。这些事件主要由无人机,中央电视台或新手和低端设备上的非熟板捕获。由于许多质量因素,这些视频是不受约束的,这些视频是非常挑战性的。我们在多年来提出了为解决问题的各种方法提供了广泛的陈述。这根据来自基于运动(SFM)的结构的方法,涉及涉及深神经网络的最近解决方案框架的方法。我们表明,长期运动模式在识别事件的任务中,单独发挥枢轴作用。因此,每个视频由使用基于图形的方法的固定数量的键帧显着表示。仅使用混合卷积神经网络(CNN)+经常性神经网络(RNN)架构利用时间特征。我们获得的结果是令人鼓舞的,因为它们优于标准的时间CNN,并且与使用空间信息以及运动提示的人员相提并论。进一步探索多际型号,我们构思了网络的空间和时间翼的多层融合策略。使用偏置的混合技术获得对视频和帧级别的各个预测载体的整合表示。与最先进的方法相比,融合策略在每个阶段的精度赋予我们更高的精度,因此在分类中实现了强大的共识。结果记录在动作识别域,即CCV,HMDB,UCF-101和KCV中广泛使用的四个基准数据集。可推动的是,专注于视频序列的更好分类肯定会导致强大的致动设计用于事件监视和对象暨活动跟踪的系统。
translated by 谷歌翻译
Reliable forecasting of traffic flow requires efficient modeling of traffic data. Different correlations and influences arise in a dynamic traffic network, making modeling a complicated task. Existing literature has proposed many different methods to capture the complex underlying spatial-temporal relations of traffic networks. However, methods still struggle to capture different local and global dependencies of long-range nature. Also, as more and more sophisticated methods are being proposed, models are increasingly becoming memory-heavy and, thus, unsuitable for low-powered devices. In this paper, we focus on solving these problems by proposing a novel deep learning framework - STLGRU. Specifically, our proposed STLGRU can effectively capture both local and global spatial-temporal relations of a traffic network using memory-augmented attention and gating mechanism. Instead of employing separate temporal and spatial components, we show that our memory module and gated unit can learn the spatial-temporal dependencies successfully, allowing for reduced memory usage with fewer parameters. We extensively experiment on several real-world traffic prediction datasets to show that our model performs better than existing methods while the memory footprint remains lower. Code is available at \url{https://github.com/Kishor-Bhaumik/STLGRU}.
translated by 谷歌翻译
我们研究了如何根据PlayTraces有效预测游戏角色。可以通过计算玩家与游戏行为的生成模型(所谓的程序角色)之间的动作协议比率来计算游戏角色。但这在计算上很昂贵,并假设很容易获得适当的程序性格。我们提出了两种用于估计玩家角色的方法,一种是使用定期监督的学习和启动游戏机制的汇总度量的方法,另一种是基于序列学习的序列学习的另一种方法。尽管这两种方法在预测与程序角色一致定义的游戏角色时都具有很高的精度,但它们完全无法预测玩家使用问卷的玩家本身定义的游戏风格。这个有趣的结果突出了使用计算方法定义游戏角色的价值。
translated by 谷歌翻译
在描述自然语言中的时空事件时,视频标题模型主要依赖于编码器的潜在视觉表示。 Encoder-Decoder模型的最新进展主要参加编码器特征,主要是与解码器的线性交互。然而,对视觉数据的日益增长的模型复杂性鼓励更明确的特征交互,用于微粒信息,目前在视频标题域中不存在。此外,特征聚合方法已经用于通过连接或使用线性层来揭示更丰富的视觉表示。虽然在某种程度上为视频进行了语义重叠的功能集,但这些方法导致客观不匹配和功能冗余。此外,字幕中的多样性是从几种有意义的角度表达一个事件的基本组成部分,目前缺少时间,即视频标题域。为此,我们提出了变化堆叠的本地注意网络(VSLAN),该网络(VSLAN)利用低级别的双线性汇集进行自我细分功能交互,并以折扣方式堆叠多个视频特征流。每个特征堆栈的学习属性都有助于我们所提出的多样性编码模块,然后是解码查询阶段,以便于结束到最终的不同和自然标题,而没有任何明确的属性监督。我们在语法和多样性方面评估MSVD和MSR-VTT数据集的VSLAN。 VSLAN的苹果酒得分优于当前的现成方法,分别在MSVD和MSR-VTT上的$ 4.5 \%$ 4.8 \%$。在同一数据集上,VSLAN在标题分集度量中实现了竞争力。
translated by 谷歌翻译