我们可以通过观看数月或数年来了解一个场景?在长时间播放中录制的视频将在多个时间范围内描绘有趣的现象,但识别和观看它们带来了挑战。该视频太长了,无法完整观看,并且某些事件的实时体验太慢,例如冰川静修。及时视频是总结长视频和可视化慢时尺度的常见方法。但是,时间段仅限于单个选择的时间频率,并且由于框架之间的混叠和时间不连续性,通常会出现闪烁。在本文中,我们提出了视频时间金字塔,该技术可以解决这些局限性并扩大可视化时间流逝的可能性。受到计算机视觉的空间图像金字塔的启发,我们开发了一种在时间域中构建视频金字塔的算法。视频时间金字塔的每个级别都可以看到不同的时间表。例如,每月时间表的视频通常非常适合可视化季节性变化,而一分钟时间尺度的视频最适合可视化日出或云层在天空中的运动。为了帮助探索不同的金字塔水平,我们还提出了一个视频频谱图,以可视化整个金字塔的活动量,从而提供了场景动力学的整体概述,并能够在时间和时间表上探索和发现现象。为了展示我们的方法,我们已经从十个户外场景中构建了视频时间金字塔,每个户外场景都包含数月或数年的数据。我们将视频颞金字塔层与天真的时间解体进行了比较,并发现我们的金字塔可以无视长期变化的别名观看。我们还证明,视频谱图通过实现概述和以细节为中心的观点来促进跨金字塔水平的现象的探索和发现。
translated by 谷歌翻译
多媒体异常数据集在自动监视中发挥着至关重要的作用。它们具有广泛的应用程序,从异常对象/情况检测到检测危及生命事件的检测。该字段正在接收大量的1.5多年的巨大研究兴趣,因此,已经创建了越来越多地专用于异常动作和对象检测的数据集。点击这些公共异常数据集使研究人员能够生成和比较具有相同输入数据的各种异常检测框架。本文介绍了各种视频,音频以及基于异常检测的应用的综合调查。该调查旨在解决基于异常检测的多媒体公共数据集缺乏全面的比较和分析。此外,它可以帮助研究人员选择最佳可用数据集,用于标记框架。此外,我们讨论了现有数据集和未来方向洞察中开发多峰异常检测数据集的差距。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
本章旨在帮助开发网络 - 物理系统(CPS)在视频监控的各种应用中自动理解事件和活动。这些事件主要由无人机,中央电视台或新手和低端设备上的非熟板捕获。由于许多质量因素,这些视频是不受约束的,这些视频是非常挑战性的。我们在多年来提出了为解决问题的各种方法提供了广泛的陈述。这根据来自基于运动(SFM)的结构的方法,涉及涉及深神经网络的最近解决方案框架的方法。我们表明,长期运动模式在识别事件的任务中,单独发挥枢轴作用。因此,每个视频由使用基于图形的方法的固定数量的键帧显着表示。仅使用混合卷积神经网络(CNN)+经常性神经网络(RNN)架构利用时间特征。我们获得的结果是令人鼓舞的,因为它们优于标准的时间CNN,并且与使用空间信息以及运动提示的人员相提并论。进一步探索多际型号,我们构思了网络的空间和时间翼的多层融合策略。使用偏置的混合技术获得对视频和帧级别的各个预测载体的整合表示。与最先进的方法相比,融合策略在每个阶段的精度赋予我们更高的精度,因此在分类中实现了强大的共识。结果记录在动作识别域,即CCV,HMDB,UCF-101和KCV中广泛使用的四个基准数据集。可推动的是,专注于视频序列的更好分类肯定会导致强大的致动设计用于事件监视和对象暨活动跟踪的系统。
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
近年来,Imbersive显示器(例如VR耳机,AR眼镜,多视图显示器,自由点电视)已成为一种新的展示技术,与传统显示相比,提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展,高动态范围(HDR)摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样,足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈,从而限制了观众的体验质量(QOE)。在本文中,我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集,该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获,并提供户外位置的复杂场景,例如花园,路边景观,节日场地,建筑物和室内地区,例如学术和居住区。提出的数据集可容纳宽深度范围,复杂的深度结构,使物体运动复杂化,照明变化,丰富的色彩动态,纹理差异,除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外,详细描述了捕获,对齐和校准多曝光立体视频和图像的过程。最后,我们讨论了有关HDR成像,深度估计,一致的音调映射和3D HDR编码的进度,挑战,潜在用例和未来研究机会。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
Visual object analysis researchers are increasingly experimenting with video, because it is expected that motion cues should help with detection, recognition, and other analysis tasks. This paper presents the Cambridge-driving Labeled Video Database (CamVid) as the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes. The database addresses the need for experimental data to quantitatively evaluate emerging algorithms. While most videos are filmed with fixed-position CCTV-style cameras, our data was captured from the perspective of a driving automobile. The driving scenario increases the number and heterogeneity of the observed object classes. Over 10 min of high quality 30 Hz footage is being provided, with corresponding semantically labeled images at 1 Hz and in part, 15 Hz. The CamVid Database offers four contributions that are relevant to object analysis researchers. First, the per-pixel semantic segmentation of over 700 images was specified manually, and was then inspected and confirmed by a second person for accuracy. Second, the high-quality and large resolution color video images in the database represent valuable extended duration digitized footage to those interested in driving scenarios or ego-motion. Third, we filmed calibration sequences for the camera color response and intrinsics, and computed a 3D camera pose for each frame in the sequences. Finally, in support of expanding this or other databases, we present custom-made labeling software for assisting users who wish to paint precise class-labels for other images and videos. We evaluate the relevance of the database by measuring the performance of an algorithm from each of three distinct domains: multi-class object recognition, pedestrian detection, and label propagation.
translated by 谷歌翻译
The quantitative evaluation of optical flow algorithms by Barron et al. (1994) led to significant advances in performance. The challenges for optical flow algorithms today go beyond the datasets and evaluation methods proposed in that paper. Instead, they center on problems associated with complex natural scenes, including nonrigid motion, real sensor noise, and motion discontinuities. We propose a new set of benchmarks and evaluation methods for the next generation of optical flow algorithms. To that end, we contribute four types of data to test different aspects of optical flow algorithms: (1) sequences with nonrigid motion where the ground-truth flow is determined by A preliminary version of this paper appeared in the IEEE International Conference on Computer Vision (Baker et al. 2007).
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
延时图像序列提供了对动态过程的视觉吸引人的见解,这些过程太慢,无法实时观察。但是,由于天气(例如天气)以及循环效应(例如昼夜周期),播放长时间的序列通常会导致分散注意力的闪烁。我们以一种允许单独的,事后控制整体趋势,环状效应和图像中随机效应的方式介绍了解散延时序列的问题,并描述了基于数据驱动的生成模型的技术这个目标。这使我们能够以仅输入图像不可能的方式“重新渲染”序列。例如,在可选的,一致的天气下,我们可以稳定长序列,以重点关注植物的生长。我们的方法基于生成对抗网络(GAN),这些网络(GAN)以延时序列的时间坐标为条件。我们设计了我们的体系结构和培训程序,以便网络学会为随机变化(例如天气,使用GAN的潜在空间)建模,并通过使用特定频率的傅立叶功能将调理时间标签馈送到模型中,从而消除整体趋势和周期性变化。 。我们表明,我们的模型对于训练数据中的缺陷是可靠的,使我们能够修改捕获长时间序列的一些实际困难,例如临时遮挡,不均匀的框架间距和缺失框架。
translated by 谷歌翻译
在这项工作中,我们呈现了DCC(更深层兼容的压缩),用于实时无人机的辅助边缘辅助视频分析的一个启用技术,内置于现有编解码器之上。DCC解决了一个重要的技术问题,以将流动的视频从无人机压缩到边缘,而不会严格地在边缘执行的视频分析任务的准确性和及时性。DCC通过流式视频中的每一位对视频分析同样有价值,这是对视频分析的同样有价值,这在传统的分析透视技术编解码器技术上打开了新的压缩室。我们利用特定的无人机的上下文和中级提示,从物体检测中追求保留分析质量所需的自适应保真度。我们在一个展示车辆检测应用中有原型DCC,并验证了其代表方案的效率。DCC通过基线方法减少9.5倍,在最先进的检测精度上,19-683%的速度减少了9.5倍。
translated by 谷歌翻译
虚拟现实(VR)视频(通常以360美元$^\ Circ $视频形式)由于VR技术的快速开发以及消费级360 $^\ Circ $摄像机和显示器的显着普及而引起了人们的关注。因此,了解人们如何看待用户生成的VR视频,这些视频可能会受到混乱的真实扭曲,通常是在时空和时间上局部的。在本文中,我们建立了最大的360美元$^\ Circ $视频数据库之一,其中包含502个用户生成的视频,内容丰富和失真多样性。我们捕获了139位用户的观看行为(即扫描路径),并在四个不同的观看条件下(两个起点$ \ times $ $ $ $ $两个探索时间)收集了他们的意见分数。我们对记录的数据提供了详尽的统计分析,从而产生了一些有趣的观察结果,例如观看条件对观看行为和感知质量的重大影响。此外,我们还探讨了我们的数据和分析的其他用法,包括评估360 $^\ CIRC $视频的质量评估和显着性检测的计算模型。我们已经在https://github.com/yao-yiru/vr-video-database上提供了数据集和代码。
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译