在本文中,我们提出了挖掘机活动分析和安全监测系统,利用了深度学习和计算机视觉的最新进步。我们所提出的系统在估计挖掘机的姿势和动作时检测周围环境和挖掘机。与以前的系统相比,我们的方法在对象检测,姿势估计和动作识别任务中实现了更高的准确性。此外,我们使用自动挖掘机系统(AES)构建挖掘机数据集,废物处理回收场景以展示我们系统的有效性。我们还在基准建设数据集上评估我们的方法。实验结果表明,该拟议的动作识别方法优于最先进的方法,最先进的方法约为5.18%。
translated by 谷歌翻译
近年来,在基于视觉的施工站点安全系统的背景下,特别是关于个人保护设备,对深度学习方法引起了很多关注。但是,尽管有很多关注,但仍然没有可靠的方法来建立工人与硬帽之间的关系。为了回答此问题,本文提出了深入学习,对象检测和头部关键点本地化的结合以及简单的基于规则的推理。在测试中,该解决方案基于不同实例的相对边界框位置以及直接检测硬帽佩戴者和非磨损者的方法超过了先前的方法。结果表明,新颖的深度学习方法与基于人性化的规则系统的结合可能会导致一种既可靠又可以成功模仿现场监督的解决方案。这项工作是开发完全自主建筑工地安全系统的下一步,表明该领域仍有改进的余地。
translated by 谷歌翻译
我们提出了一条多阶段管道,用于简单的手势识别。我们方法的新颖性是不同技术的关联,截至目前,第一个实时系统可以共同提取骨骼并在胡椒机器人上识别手势。为此,Pepper用嵌入式GPU进行了增强,用于运行Deep CNN和鱼眼相机,以捕捉整个场景的互动。我们在本文中表明,实际场景具有挑战性,而最先进的方法几乎不涉及未知的人类手势。我们在这里提出一种处理此类案件的方法。
translated by 谷歌翻译
这项研究开发了一个无人驾驶系统(UASS)的框架,以监测高层建筑项目中未受保护的边缘和开口附近的跌落危险系统。开发并测试了一个三步基于机器学习的框架,以检测UAS捕获的图像的护栏柱。首先,对护栏探测器进行了培训,以定位支撑护栏的职位的候选位置。由于从实际的工作现场收集的此过程中使用了图像,因此确定了几个错误检测。因此,在以下步骤中引入了其他约束,以滤除错误检测。其次,研究团队将水平线检测器应用于图像,以正确检测地板并删除离地板不近的检测。最后,由于每个帖子之间安装了护栏柱,它们之间的分布差异大致,因此它们之间的空间被估算并用于找到两个帖子之间最有可能的距离。研究团队使用了开发方法的各种组合来监视高层建筑项目的捕获图像中的护栏系统。比较精度和召回指标表明,级联分类器通过落地检测和护栏间距估计来取得更好的性能。研究结果表明,拟议的护栏识别系统可以改善护栏的评估,并促进安全工程师确定高层建筑项目中跌落危害的任务。
translated by 谷歌翻译
由于价格合理的可穿戴摄像头和大型注释数据集的可用性,在过去几年中,Egintric Vision(又名第一人称视觉-FPV)的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置(通常安装在头部上)允许准确记录摄像头佩戴者在其前面的摄像头,尤其是手和操纵物体。这种内在的优势可以从多个角度研究手:将手及其部分定位在图像中;了解双手涉及哪些行动和活动;并开发依靠手势的人类计算机界面。在这项调查中,我们回顾了使用以自我为中心的愿景专注于手的文献,将现有方法分类为:本地化(其中的手或部分在哪里?);解释(手在做什么?);和应用程序(例如,使用以上为中心的手提示解决特定问题的系统)。此外,还提供了带有手基注释的最突出的数据集的列表。
translated by 谷歌翻译
本文介绍了Houghnet,这是一种单阶段,无锚,基于投票的,自下而上的对象检测方法。受到广义的霍夫变换的启发,霍尼特通过在该位置投票的总和确定了某个位置的物体的存在。投票是根据对数极极投票领域的近距离和长距离地点收集的。由于这种投票机制,Houghnet能够整合近距离和远程的班级条件证据以进行视觉识别,从而概括和增强当前的对象检测方法,这通常仅依赖于本地证据。在可可数据集中,Houghnet的最佳型号达到$ 46.4 $ $ $ ap $(和$ 65.1 $ $ $ ap_ {50} $),与自下而上的对象检测中的最先进的作品相同,超越了最重要的一项 - 阶段和两阶段方法。我们进一步验证了提案在其他视觉检测任务中的有效性,即视频对象检测,实例分割,3D对象检测和人为姿势估计的关键点检测以及其他“图像”图像生成任务的附加“标签”,其中集成的集成在所有情况下,我们的投票模块始终提高性能。代码可在https://github.com/nerminsamet/houghnet上找到。
translated by 谷歌翻译
视频的行动识别,即将视频分类为预定义的动作类型之一,一直是人工智能,多媒体和信号处理社区中的一个流行话题。但是,现有方法通常考虑一个整体上的输入视频并学习模型,例如卷积神经网络(CNNS),并带有粗糙的视频级别类标签。这些方法只能为视频输出一个动作类,但不能提供可解释的线索来回答为什么视频显示特定的动作。因此,研究人员开始专注于一项新任务,部分级别的动作解析(PAP),该作用不仅旨在预测视频级别的动作,而且还要认识到每个人的框架级别的细粒度的动作或身体部位的相互作用在视频中。为此,我们为这项具有挑战性的任务提出了一个粗到精细的框架。特别是,我们的框架首先预测输入视频的视频级别类别,然后将身体部位定位并预测零件级别的动作。此外,为了平衡部分级别的动作解析的准确性和计算,我们建议通过段级特征识别零件级的操作。此外,为了克服身体部位的歧义,我们提出了一种姿势引导的位置嵌入方法来准确地定位身体部位。通过在大规模数据集(即动力学TPS)上进行的全面实验,我们的框架可以实现最先进的性能,并且超过31.10%的ROC得分的现有方法。
translated by 谷歌翻译
Workplace injuries are common in today's society due to a lack of adequately worn safety equipment. A system that only admits appropriately equipped personnel can be created to improve working conditions. The goal is thus to develop a system that will improve workers' safety using a camera that will detect the usage of Personal Protective Equipment (PPE). To this end, we collected and labeled appropriate data from several public sources, which have been used to train and evaluate several models based on the popular YOLOv4 object detector. Our focus, driven by a collaborating industrial partner, is to implement our system into an entry control point where workers must present themselves to obtain access to a restricted area. Combined with facial identity recognition, the system would ensure that only authorized people wearing appropriate equipment are granted access. A novelty of this work is that we increase the number of classes to five objects (hardhat, safety vest, safety gloves, safety glasses, and hearing protection), whereas most existing works only focus on one or two classes, usually hardhats or vests. The AI model developed provides good detection accuracy at a distance of 3 and 5 meters in the collaborative environment where we aim at operating (mAP of 99/89%, respectively). The small size of some objects or the potential occlusion by body parts have been identified as potential factors that are detrimental to accuracy, which we have counteracted via data augmentation and cropping of the body before applying PPE detection.
translated by 谷歌翻译
未来的机场变得越来越复杂,并且随着旅行者数量的增加而拥挤。尽管机场更有可能成为潜在冲突的热点,这可能会导致航班和几个安全问题的严重延误。一种使安全监视更有效地检测冲突的智能算法将在其安全,财务和旅行效率方面为乘客带来许多好处。本文详细介绍了机器学习模型的开发,以对人群中的冲突行为进行分类。 HRNET用于分割图像,然后采用两种方法通过多个分类器对框架中的人的姿势进行分类。其中,发现支持向量机(SVM)达到了最出色的精度为94.37%。该模型不足的地方是反对模棱两可的行为,例如拥抱或失去框架中主题的轨道。如果进行改进以应对大量潜在的乘客,以及针对在机场环境中会出现的进一步歧义行为的培训,则最终的模型具有在机场内部署的潜力。反过来,将提供提高安全监视并提高机场安全的能力。
translated by 谷歌翻译
The topic of multi-person pose estimation has been largely improved recently, especially with the development of convolutional neural network. However, there still exist a lot of challenging cases, such as occluded keypoints, invisible keypoints and complex background, which cannot be well addressed. In this paper, we present a novel network structure called Cascaded Pyramid Network (CPN) which targets to relieve the problem from these "hard" keypoints. More specifically, our algorithm includes two stages: Glob-alNet and RefineNet. GlobalNet is a feature pyramid network which can successfully localize the "simple" keypoints like eyes and hands but may fail to precisely recognize the occluded or invisible keypoints. Our RefineNet tries explicitly handling the "hard" keypoints by integrating all levels of feature representations from the Global-Net together with an online hard keypoint mining loss. In general, to address the multi-person pose estimation problem, a top-down pipeline is adopted to first generate a set of human bounding boxes based on a detector, followed by our CPN for keypoint localization in each human bounding box. Based on the proposed algorithm, we achieve stateof-art results on the COCO keypoint benchmark, with average precision at 73.0 on the COCO test-dev dataset and 72.1 on the COCO test-challenge dataset, which is a 19% relative improvement compared with 60.5 from the COCO 2016 keypoint challenge. Code 1 and the detection results are publicly available for further research.
translated by 谷歌翻译
该技术报告介绍了我们在ICCV DeeperAction研讨会上进行零件级动作解析的动力学-TPS轨道的第二名解决方案。2021年。我们的条目主要基于yolof,例如,零件检测,HRNET用于人体姿势估计,以及用于视频级别的CSN行动识别和框架级别的部分状态解析。我们描述了动力学-TPS数据集的技术细节,以及一些实验结果。在比赛中,我们在动力学TPS的测试集上获得了61.37%的地图。
translated by 谷歌翻译
我们研究了在紧邻人类机器人相互作用的背景下,最先进的人关键点探测器的性能。在这种情况下的检测是具体的,因为只有手和躯干等身体部位的子集在视野中。特别是(i)我们从近距离图像的角度调查了具有人类姿势注释的现有数据集,并准备并使公开可用的新人(HICP)数据集; (ii)我们在此数据集上进行定量和定性比较人类全身2D关键点检测方法(openpose,mmpose,onphapose,detectron2); (iii)由于对手指的准确检测对于使用交接的应用至关重要,因此我们评估了介质手工检测器的性能; (iv)我们在头部上带有RGB-D摄像头的人形机器人上部署算法,并在3D Human KeyPoint检测中评估性能。运动捕获系统用作参考。在紧邻近端的最佳性能全身关键点探测器是mmpose和字母,但两者都难以检测手指。因此,我们提出了在单个框架中为人体和手介载体的mmpose或字母组合的组合,提供了最准确,最强大的检测。我们还分析了单个探测器的故障模式 - 例如,图像中人的头部缺失在多大程度上降低了性能。最后,我们在一个场景中演示了框架,其中类人类机器人与人相互作用的人类机器人使用检测到的3D关键点进行全身避免动作。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究,但仍在以自我为中心的环境中,尤其是在工业场景中进行了研究。为了鼓励在该领域的研究,我们介绍了Meccano,这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号,深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务,例如识别和预测人类对象的相互作用。使用MECCANO数据集,我们探索了五个不同的任务,包括1)动作识别,2)活动对象检测和识别,3)以自我为中心的人类对象互动检测,4)动作预期和5)下一步活动对象检测。我们提出了一个旨在研究人类行为的基准,该基准在被考虑的类似工业的情况下,表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究,我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。
translated by 谷歌翻译
行动检测和公共交通安全是安全社区和更好社会的关键方面。使用不同的监视摄像机监视智能城市中的交通流量可以在识别事故和提醒急救人员中发挥重要作用。计算机视觉任务中的动作识别(AR)的利用为视频监视,医学成像和数字信号处理中的高精度应用做出了贡献。本文提出了一项密集的审查,重点是智能城市的事故检测和自动运输系统中的行动识别。在本文中,我们专注于使用各种交通视频捕获来源的AR系统,例如交通交叉点上的静态监视摄像头,高速公路监控摄像头,无人机摄像头和仪表板。通过这篇综述,我们确定了AR中用于自动运输和事故检测的主要技术,分类法和算法。我们还检查了AR任务中使用的数据集,并识别数据集的数据集和功能的主要来源。本文提供了潜在的研究方向,以开发和整合为自动驾驶汽车和公共交通安全系统的事故检测系统,通过警告紧急人员和执法部门,如果道路事故发生道路事故,以最大程度地减少事故报告中的人为错误,并对受害者提供自发的反应。
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
There has been significant progress on pose estimation and increasing interests on pose tracking in recent years. At the same time, the overall algorithm and system complexity increases as well, making the algorithm analysis and comparison more difficult. This work provides simple and effective baseline methods. They are helpful for inspiring and evaluating new ideas for the field. State-of-the-art results are achieved on challenging benchmarks. The code will be available at https://github. com/leoxiaobin/pose.pytorch.
translated by 谷歌翻译
在诸如人类姿态估计的关键点估计任务中,尽管具有显着缺点,但基于热线的回归是主要的方法:Heatmaps本质上遭受量化误差,并且需要过多的计算来产生和后处理。有动力寻找更有效的解决方案,我们提出了一种新的热映射无关声点估计方法,其中各个关键点和空间相关的关键点(即,姿势)被建模为基于密集的单级锚的检测框架内的对象。因此,我们将我们的方法Kapao(发音为“KA-Pow!”)对于关键点并作为对象构成。我们通过同时检测人姿势对象和关键点对象并融合检测来利用两个对象表示的强度来将Kapao应用于单阶段多人人类姿势估算问题。在实验中,我们观察到Kapao明显比以前的方法更快,更准确,这极大地来自热爱处理后处理。此外,在不使用测试时间增强时,精度速度折衷特别有利。我们的大型型号Kapao-L在Microsoft Coco Keypoints验证集上实现了70.6的AP,而无需测试时增强,其比下一个最佳单级模型更准确,4.0 AP更准确。此外,Kapao在重闭塞的存在下擅长。在繁荣试验套上,Kapao-L为一个单级方法实现新的最先进的准确性,AP为68.9。
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
动作识别是提高物理康复设备自治的重要组成部分,例如可穿戴机器人外骨骼。现有的人类行动识别算法的重点是成人应用,而不是小儿应用。在本文中,我们介绍了BabyNet,这是一个轻量重量(就可训练的参数而言)的网络结构,以识别婴儿从外体固定摄像机中采取行动的婴儿。我们开发了一个带注释的数据集,其中包括在不受约束的环境中的不同婴儿(例如,在家庭设置等)中的坐姿中执行的各种范围。我们的方法使用带注释的边界框的空间和时间连接来解释和抵消到达的开始,并检测到完整的到达动作。我们评估了我们提出的方法的效率,并将其性能与其他基于学习的网络结构进行比较,以捕获时间相互依存的能力和触及发作和偏移的检测准确性。结果表明,我们的婴儿网络可以在超过其他较大网络的(平均)测试准确性方面达到稳定的性能,因此可以作为基于视频的婴儿获得动作识别的轻量重量数据驱动框架。
translated by 谷歌翻译