行人安全是运输系统管理人员和运营商的优先事项,以及德克萨斯州奥斯汀市雇用的愿景零策略的主要重点。虽然有许多治疗和技术能够有效地提高行人安全性,但识别这些治疗最需要的位置仍然是一个挑战。当前的实践需要手动观察候选位置进行有限的时间段,导致识别过程是耗时的,随着时间的推移,交通模式的滞后,缺乏可扩展性。中间块位置,通常需要安全对策,特别是难以识别和监控。该研究的目标是了解公交车站位置和中块交叉路口之间的相关性,以帮助交通工程师实施视觉零策略以提高行人安全性。在事先工作中,我们开发了一种使用深度神经网络模型来检测交通摄像机视频的行人交叉事件,以识别交叉事件。在本文中,我们扩展了使用在附近的交叉口的货架上的CCTV PAN- TILT-ZOOM(PTZ)流量监控摄像机中使用交通摄像机视频识别总线停止使用的方法。我们将视频检测结果与巴士站附近的中间块交叉相关联,在中间块交叉的每一侧的公共汽车上的行人活动。我们还通过自动创建仅显示交叉事件的视频剪辑自动化创建来促进人工活动检测的网络门户,从而大大提高人类审查过程的效率来促进人工活动检测。
translated by 谷歌翻译
多媒体异常数据集在自动监视中发挥着至关重要的作用。它们具有广泛的应用程序,从异常对象/情况检测到检测危及生命事件的检测。该字段正在接收大量的1.5多年的巨大研究兴趣,因此,已经创建了越来越多地专用于异常动作和对象检测的数据集。点击这些公共异常数据集使研究人员能够生成和比较具有相同输入数据的各种异常检测框架。本文介绍了各种视频,音频以及基于异常检测的应用的综合调查。该调查旨在解决基于异常检测的多媒体公共数据集缺乏全面的比较和分析。此外,它可以帮助研究人员选择最佳可用数据集,用于标记框架。此外,我们讨论了现有数据集和未来方向洞察中开发多峰异常检测数据集的差距。
translated by 谷歌翻译
在19日期大流行期间,大伦敦政府机构的政策制定者,英国伦敦地区治理机构,依赖于迅速而准确的数据来源。有时很难获得整个城市的大量明确定义的异质活动组成,但是为了学习“忙碌”并因此做出安全的政策决定是必要的。在这个领域,我们项目的一个组成部分是利用现有的基础架构来估计公众的社会距离依从性。我们的方法可以通过现场交通摄像头饲料即可立即采样和伦敦街道上的活动和物理距离的背景化。我们介绍了一个检查和改进现有方法的框架,同时还描述了其在900多个实时提要上的主动部署。
translated by 谷歌翻译
Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of edge computing multi-point video recording, offline automated multispecies insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within polytunnels, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.
translated by 谷歌翻译
从多个相机角度捕获事件可以为观众提供该事件最完整,最有趣的图片。为了适合广播,人类导演需要决定在每个时间点显示什么。随着摄像头的数量,这可能会变得笨拙。全向或广角摄像机的引入使事件更加完整地捕获,这使导演更加困难。在本文中,提出了一个系统,即鉴于事件的多个超高分辨率视频流,可以生成视觉上令人愉悦的镜头序列,以遵循事件的相关动作。由于算法是通用的,因此可以应用于以人类为特征的大多数情况。当需要实时广播时,提出的方法允许在线处理,以及当优先级的相机操作质量时,离线处理。对象检测用于检测输入流中人类和其他感兴趣的对象。检测到的感兴趣的人以及基于电影惯例的一组规则,用于确定要显示哪个视频流以及该流的哪一部分实际上是构造的。用户可以提供许多确定这些规则如何解释的设置。该系统能够通过消除镜头扭曲来处理不同广角视频流的输入。对于多种不同的情况,使用用户研究表明,提议的自动导演能够以美学上令人愉悦的视频构图和类似人类的镜头切换行为来捕获事件。
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译
我们可以通过观看数月或数年来了解一个场景?在长时间播放中录制的视频将在多个时间范围内描绘有趣的现象,但识别和观看它们带来了挑战。该视频太长了,无法完整观看,并且某些事件的实时体验太慢,例如冰川静修。及时视频是总结长视频和可视化慢时尺度的常见方法。但是,时间段仅限于单个选择的时间频率,并且由于框架之间的混叠和时间不连续性,通常会出现闪烁。在本文中,我们提出了视频时间金字塔,该技术可以解决这些局限性并扩大可视化时间流逝的可能性。受到计算机视觉的空间图像金字塔的启发,我们开发了一种在时间域中构建视频金字塔的算法。视频时间金字塔的每个级别都可以看到不同的时间表。例如,每月时间表的视频通常非常适合可视化季节性变化,而一分钟时间尺度的视频最适合可视化日出或云层在天空中的运动。为了帮助探索不同的金字塔水平,我们还提出了一个视频频谱图,以可视化整个金字塔的活动量,从而提供了场景动力学的整体概述,并能够在时间和时间表上探索和发现现象。为了展示我们的方法,我们已经从十个户外场景中构建了视频时间金字塔,每个户外场景都包含数月或数年的数据。我们将视频颞金字塔层与天真的时间解体进行了比较,并发现我们的金字塔可以无视长期变化的别名观看。我们还证明,视频谱图通过实现概述和以细节为中心的观点来促进跨金字塔水平的现象的探索和发现。
translated by 谷歌翻译
社会偏差可以减少Covid-19等呼吸流行病中的感染率。交通交叉路口特别适用于在大都市中监测和评估社会疏散行为。我们提出并评估了一个隐私保留的社会疏散分析系统(B-SDA),它使用鸟瞰观看跨越交通交叉口的行人的录像。我们设计用于视频预处理,对象检测和跟踪的算法,这些算法源于已知的计算机视觉和深度学习技术,而是修改以解决检测由高度升高的相机捕获的非常小的物体/行人的问题。我们提出了一种纳入行人分组以检测社会疏散侵权行为的方法。 B-SDA用于比较基于大都会区域前大流行和大流行视频的行人行为。完成的行人检测性能为63.0美元$ $ $ ap_ {50} $,跟踪性能为47.6美元\%$ mota。大流行期间的社会疏散违规率为15.6 \%$ 31.4 \%$ Pandemic基线,表明行人遵循CDC规定的社会休闲建议。建议的系统适用于现实世界应用中的部署。
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
这项研究开发了一个无人驾驶系统(UASS)的框架,以监测高层建筑项目中未受保护的边缘和开口附近的跌落危险系统。开发并测试了一个三步基于机器学习的框架,以检测UAS捕获的图像的护栏柱。首先,对护栏探测器进行了培训,以定位支撑护栏的职位的候选位置。由于从实际的工作现场收集的此过程中使用了图像,因此确定了几个错误检测。因此,在以下步骤中引入了其他约束,以滤除错误检测。其次,研究团队将水平线检测器应用于图像,以正确检测地板并删除离地板不近的检测。最后,由于每个帖子之间安装了护栏柱,它们之间的分布差异大致,因此它们之间的空间被估算并用于找到两个帖子之间最有可能的距离。研究团队使用了开发方法的各种组合来监视高层建筑项目的捕获图像中的护栏系统。比较精度和召回指标表明,级联分类器通过落地检测和护栏间距估计来取得更好的性能。研究结果表明,拟议的护栏识别系统可以改善护栏的评估,并促进安全工程师确定高层建筑项目中跌落危害的任务。
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译
自动检测交通事故是交通监控系统中重要的新兴主题。如今,许多城市交叉路口都配备了与交通管理系统相关的监视摄像机。因此,计算机视觉技术可以是自动事故检测的可行工具。本文提出了一个新的高效框架,用于在交通监视应用的交叉点上进行事故检测。所提出的框架由三个层次步骤组成,包括基于最先进的Yolov4方法的有效和准确的对象检测,基于Kalman滤波器与匈牙利算法进行关联的对象跟踪以及通过轨迹冲突分析进行的事故检测。对象关联应用了新的成本函数,以适应对象跟踪步骤中的遮挡,重叠对象和形状变化。为了检测不同类型的轨迹冲突,包括车辆到车辆,车辆对乘车和车辆对自行车,对物体轨迹进行了分析。使用真实交通视频数据的实验结果显示,该方法在交通监视的实时应用中的可行性。尤其是,轨迹冲突,包括在城市十字路口发生的近乎事故和事故,以低的错误警报率和高检测率检测到。使用从YouTube收集的具有不同照明条件的视频序列评估所提出框架的鲁棒性。该数据集可在以下网址公开获取:http://github.com/hadi-ghnd/accidentdetection。
translated by 谷歌翻译
在本文中,我们使用两个无监督的学习算法的组合介绍了路边激光雷达物体检测的解决方案。 3D点云数据首先将球形坐标转换成球形坐标并使用散列函数填充到方位角网格矩阵中。之后,RAW LIDAR数据被重新排列成空间 - 时间数据结构,以存储范围,方位角和强度的信息。基于强度信道模式识别,应用动态模式分解方法将点云数据分解成低级背景和稀疏前景。三角算法根据范围信息,自动发现分割值以将移动目标与静态背景分开。在强度和范围背景减法之后,将使用基于密度的检测器检测到前景移动物体,并编码到状态空间模型中以进行跟踪。所提出的模型的输出包括车辆轨迹,可以实现许多移动性和安全应用。该方法针对商业流量数据收集平台进行了验证,并证明了对基础设施激光雷达对象检测的高效可靠的解决方案。与之前的方法相比,该方法直接处理散射和离散点云,所提出的方法可以建立3D测量数据的复杂线性关系较小,这捕获了我们经常需要的空间时间结构。
translated by 谷歌翻译
在驾驶的背景下进行警觉性监控可改善安全性并挽救生命。基于计算机视觉的警报监视是一个活跃的研究领域。但是,存在警觉性监控的算法和数据集主要针对年轻人(18-50岁)。我们提出了一个针对老年人进行车辆警报监控的系统。通过设计研究,我们确定了适合在5级车辆中独立旅行的老年人的变量和参数。我们实施了一个原型旅行者监测系统,并评估了十个老年人(70岁及以上)的警报检测算法。我们以适合初学者或从业者的详细级别报告系统设计和实施。我们的研究表明,数据集的开发是开发针对老年人的警觉性监测系统的首要挑战。这项研究是迄今为止研究不足的人群中的第一项研究,并通过参与方法对未来的算法开发和系统设计具有影响。
translated by 谷歌翻译
The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
translated by 谷歌翻译
视频分析系统批判性地依赖于摄像机,捕获高质量的视频帧,以实现高分辨率的精度。虽然现代视频摄像机经常暴露数十个可配置的参数设置,但是可以通过最终用户设置的,但今天监控摄像机的部署通常使用固定的一组参数设置,因为最终用户缺少能够重新配置这些参数的技能或理解。在本文中,我们首先表明,在典型的监视摄像机部署中,环境条件变化可能会显着影响人员检测,面部检测和面部识别等分析单元的准确性,以及如何通过动态调整相机设置来减轻这种不利影响。然后我们提出了Camtuner,这是一个可以轻松应用于现有视频分析管道(VAP)的框架,以实现复杂相机设置的自动和动态调整,以改变环境条件,并自主优化VAP中分析单元(AU)的准确性。 Camtuner基于Sarsa加固学习(RL),它包含两种新型组件:轻量级分析质量估算器和虚拟相机。 Camtuner在一个具有轴监控摄像头的系统中实现,几个VAP(具有各种AUS),在机场入口处加工了日常客户视频。我们的评估表明Camtuner可以快速适应更改环境。我们将Camtuner与使用静态相机设置的两种替代方法进行比较,或者每小时手动更改摄像机设置的草兵方法(基于人类对质量)。我们观察到,对于面部检测和人检测AU,与两种方法中最好的相比,Camtuner分别可以获得高达13.8%和9.2%的更高的准确性(两个AUS的8%的平均提高)。
translated by 谷歌翻译
由于精确定位传感器,人工智能(AI)的安全功能,自动驾驶系统,连接的车辆,高通量计算和边缘计算服务器的技术进步,驾驶安全分析最近经历了前所未有的改进。特别是,深度学习(DL)方法授权音量视频处理,从路边单元(RSU)捕获的大型视频中提取与安全相关的功能。安全指标是调查崩溃和几乎冲突事件的常用措施。但是,这些指标提供了对整个网络级流量管理的有限见解。另一方面,一些安全评估工作致力于处理崩溃报告,并确定与道路几何形状,交通量和天气状况相关的崩溃的空间和时间模式。这种方法仅依靠崩溃报告,而忽略了交通视频的丰富信息,这些信息可以帮助确定违规行为在崩溃中的作用。为了弥合这两个观点,我们定义了一组新的网络级安全指标(NSM),以通过处理RSU摄像机拍摄的图像来评估交通流的总体安全性。我们的分析表明,NSM显示出与崩溃率的显着统计关联。这种方法与简单地概括单个崩溃分析的结果不同,因为所有车辆都有助于计算NSM,而不仅仅是碰撞事件所涉及的NSM。该视角将交通流量视为一个复杂的动态系统,其中某些节点的动作可以通过网络传播并影响其他节点的崩溃风险。我们还提供了附录A中的代孕安全指标(SSM)的全面审查。
translated by 谷歌翻译
先进的可穿戴设备越来越多地利用高分辨率多摄像头系统。作为用于处理所得到的图像数据的最先进的神经网络是计算要求的,对于利用第五代(5G)无线连接和移动边缘计算,已经越来越感兴趣,以将该处理卸载到云。为了评估这种可能性,本文提出了一个详细的仿真和评估,用于5G无线卸载,用于对象检测,在一个名为Vis4ion的强大新型智能可穿戴物中,用于盲目损害(BVI)。目前的Vis4ion系统是一种具有高分辨率摄像机,视觉处理和触觉和音频反馈的仪表簿。本文认为将相机数据上载到移动边缘云以执行实时对象检测并将检测结果传输回可穿戴。为了确定视频要求,纸张评估视频比特率和分辨率对物体检测精度和范围的影响。利用与BVI导航相关的标记对象的新街道场景数据集进行分析。视觉评估与详细的全堆栈无线网络仿真结合,以确定吞吐量的分布和延迟,具有来自城市环境中的新高分辨率3D模型的实际导航路径和射线跟踪。为了比较,无线仿真考虑了标准的4G长期演进(LTE)载波和高速度5G毫米波(MMWAVE)载波。因此,该工作提供了对具有高带宽和低延迟要求的应用中的MMWAVE连接的边缘计算的彻底和现实评估。
translated by 谷歌翻译
Visual object analysis researchers are increasingly experimenting with video, because it is expected that motion cues should help with detection, recognition, and other analysis tasks. This paper presents the Cambridge-driving Labeled Video Database (CamVid) as the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes. The database addresses the need for experimental data to quantitatively evaluate emerging algorithms. While most videos are filmed with fixed-position CCTV-style cameras, our data was captured from the perspective of a driving automobile. The driving scenario increases the number and heterogeneity of the observed object classes. Over 10 min of high quality 30 Hz footage is being provided, with corresponding semantically labeled images at 1 Hz and in part, 15 Hz. The CamVid Database offers four contributions that are relevant to object analysis researchers. First, the per-pixel semantic segmentation of over 700 images was specified manually, and was then inspected and confirmed by a second person for accuracy. Second, the high-quality and large resolution color video images in the database represent valuable extended duration digitized footage to those interested in driving scenarios or ego-motion. Third, we filmed calibration sequences for the camera color response and intrinsics, and computed a 3D camera pose for each frame in the sequences. Finally, in support of expanding this or other databases, we present custom-made labeling software for assisting users who wish to paint precise class-labels for other images and videos. We evaluate the relevance of the database by measuring the performance of an algorithm from each of three distinct domains: multi-class object recognition, pedestrian detection, and label propagation.
translated by 谷歌翻译