头部姿势估计是一个具有挑战性的任务,旨在解决与预测三维向量相关的问题,这为人机互动或客户行为中的许多应用程序提供服务。以前的研究提出了一些用于收集头部姿势数据的精确方法。但这些方法需要昂贵的设备,如深度摄像机或复杂的实验室环境设置。在这项研究中,我们引入了一种新的方法,以有效的成本和易于设置,以收集头部姿势图像,即UET-HEADBETS数据集,具有顶视图头姿势数据。该方法使用绝对方向传感器而不是深度摄像机快速设置,但仍然可以确保良好的效果。通过实验,我们的数据集已显示其分发和可用数据集之间的差异,如CMU Panoptic DataSet \ Cite {CMU}。除了使用UET符号数据集和其他头部姿势数据集外,我们还介绍了称为FSANET的全范围模型,这显着优于UET-HEALPETS数据集的头部姿势估计结果,尤其是在顶视图上。此外,该模型非常重量轻,占用小尺寸图像。
translated by 谷歌翻译
随着人类生活中的许多实际应用,包括制造监控摄像机,分析和加工客户行为,许多研究人员都注明了对数字图像的面部检测和头部姿势估计。大量提出的深度学习模型具有最先进的准确性,如YOLO,SSD,MTCNN,解决了面部检测或HOPENET的问题,FSA-NET,用于头部姿势估计问题的速度。根据许多最先进的方法,该任务的管道由两部分组成,从面部检测到头部姿势估计。这两个步骤完全独立,不共享信息。这使得模型在设置中清除但不利用每个模型中提取的大部分特色资源。在本文中,我们提出了多任务净模型,具有利用从面部检测模型提取的特征的动机,将它们与头部姿势估计分支共享以提高精度。此外,随着各种数据,表示面部的欧拉角域大,我们的模型可以预测360欧拉角域的结果。应用多任务学习方法,多任务净模型可以同时预测人头的位置和方向。为了提高预测模型的头部方向的能力,我们将人脸从欧拉角呈现到旋转矩阵的载体。
translated by 谷歌翻译
In this paper, we present a method for unconstrained end-to-end head pose estimation. We address the problem of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This way, our method can learn the full rotation appearance which is contrary to previous approaches that restrict the pose prediction to a narrow-angle for satisfactory results. In addition, we propose a geodesic distance-based loss to penalize our network with respect to the SO(3) manifold geometry. Experiments on the public AFLW2000 and BIWI datasets demonstrate that our proposed method significantly outperforms other state-of-the-art methods by up to 20\%. We open-source our training and testing code along with our pre-trained models: https://github.com/thohemp/6DRepNet.
translated by 谷歌翻译
面姿势估计是指通过单个RGB图像预测面部取向的任务。这是一个重要的研究主题,在计算机视觉中具有广泛的应用。最近已经提出了基于标签的分布学习(LDL)方法进行面部姿势估计,从而实现了有希望的结果。但是,现有的LDL方法有两个主要问题。首先,标签分布的期望是偏见的,导致姿势估计。其次,将固定的分布参数用于所有学习样本,严重限制了模型能力。在本文中,我们提出了一种各向异性球形高斯(ASG)的LDL方法进行面部姿势估计。特别是,我们的方法在单位球体上采用了球形高斯分布,该分布不断产生公正的期望。同时,我们引入了一个新的损失功能,该功能使网络可以灵活地学习每个学习样本的分布参数。广泛的实验结果表明,我们的方法在AFLW2000和BIWI数据集上设置了新的最新记录。
translated by 谷歌翻译
在本文中,我们介绍了一种新的方法来估计从一小组头关键点开始的单个图像中的人们的头部姿势。为此目的,我们提出了一种回归模型,其利用2D姿势估计算法自动计算的关键点,并输出由偏航,间距和滚动表示的头部姿势。我们的模型很容易实现和更高效地相对于最先进的最新技术 - 在记忆占用方面的推动和更小的速度更快 - 具有可比的准确性。我们的方法还通过适当设计的损耗功能提供与三个角度相关的异源间不确定性的量度;我们在误差和不确定值之间显示了相关性,因此可以在后续计算步骤中使用这种额外的信息来源。作为示例申请,我们解决了图像中的社交交互分析:我们提出了一种算法,以定量估计人们之间的互动水平,从他们的头部姿势和推理在其相互阵地上。代码可在https://github.com/cantarinigiorgio/hhp-net中获得。
translated by 谷歌翻译
Most recent head pose estimation (HPE) methods are dominated by the Euler angle representation. To avoid its inherent ambiguity problem of rotation labels, alternative quaternion-based and vector-based representations are introduced. However, they both are not visually intuitive, and often derived from equivocal Euler angle labels. In this paper, we present a novel single-stage keypoint-based method via an {\it intuitive} and {\it unconstrained} 2D cube representation for joint head detection and pose estimation. The 2D cube is an orthogonal projection of the 3D regular hexahedron label roughly surrounding one head, and itself contains the head location. It can reflect the head orientation straightforwardly and unambiguously in any rotation angle. Unlike the general 6-DoF object pose estimation, our 2D cube ignores the 3-DoF of head size but retains the 3-DoF of head pose. Based on the prior of equal side length, we can effortlessly obtain the closed-form solution of Euler angles from predicted 2D head cube instead of applying the error-prone PnP algorithm. In experiments, our proposed method achieves comparable results with other representative methods on the public AFLW2000 and BIWI datasets. Besides, a novel test on the CMU panoptic dataset shows that our method can be seamlessly adapted to the unconstrained full-view HPE task without modification.
translated by 谷歌翻译
在本文中,提出了一种模拟人脸和眼睛的方法,其可以被视为计算机视觉技术和神经网络概念的组合。从机械角度来看,使用3-DOF球形并联机器人,其模仿人头运动。在涉及眼球运动的顾虑中,将2-DOF机构连接到3-DOF球形平行机构的端部执行器。为了对模仿具有稳健和可靠的结果,应从面啮合物中提取有意义的信息,以获得面部的姿势,即卷,偏航和俯仰角。为此,提出了两种方法,其中每个方法都有自己的利弊。第一种方法在于借助Google引入的所谓的MediaPipe库,该库是用于高保真身体姿势跟踪的机器学习解决方案。作为第二种方法,模型是由不同姿势的面部图像的聚集数据集进行线性回归模型训练。另外,利用了三维敏捷眼睛并联机器人来示出该机器人用作类似于用于执行3-DOF旋转运动模式的人头的系统的能力。此外,制造3D印刷面和2-DOF眼睛机构以显示整个系统的方式更时尚。基于ROS平台完成的实验测试,证明了追踪人体头部运动的提出方法的有效性。
translated by 谷歌翻译
单光子敏感的深度传感器正在越来越多地用于人类姿势和手势识别的下一代电子。但是,具有成本效益的传感器通常具有低空间分辨率,从而将其用于基本运动识别和简单的对象检测。在这里,我们执行一个时间到空间映射,从而大大增加了简单飞行时间传感器的分辨率,即〜初始分辨率为4 $ \ times $ 4像素到分辨率32 $ \ times $ 32像素的深度图像。然后,可以将输出深度图用于准确的三维人姿势估计多人。我们开发了一个新的可解释框架,该框架为我们的网络如何利用其输入数据提供了直觉,并提供了有关相关参数的关键信息。我们的工作大大扩展了简单的飞机飞行时间传感器的用例,并为将来应用于具有相似数据类型的其他类型的传感器(即雷达和声纳)开辟了有希望的可能性。
translated by 谷歌翻译
头视点标签的成本是改善细粒度头姿势估计算法的主要障碍。缺乏大量标签的一种解决方案正在使用自我监督的学习(SSL)。 SSL可以从未标记的数据中提取良好的功能,用于下游任务。因此,本文试图显示头部姿势估计的SSL方法之间的差异。通常,使用SSL的两个主要方法:(1)使用它以预先培训权重,(2)在一个训练期间除了监督学习(SL)之外的SSL作为辅助任务。在本文中,我们通过设计混合多任务学习(HMTL)架构并使用两个SSL预先文本任务,旋转和令人困惑来评估两种方法。结果表明,两种方法的组合在其中使用旋转进行预训练和使用令人难以用于辅助头的令人费示。与基线相比,误差率降低了23.1%,这与电流的SOTA方法相当。最后,我们比较了初始权重对HMTL和SL的影响。随后,通过HMTL,使用各种初始权重减少错误:随机,想象成和SSL。
translated by 谷歌翻译
摄影平台已广泛用于摄影测量和机器人感知模块,以稳定相机姿势,从而提高捕获的视频质量。通常,阳性主要由传感器和执行器部件组成。可以将传感器的方向测量直接输入到执行器以转向适当的姿势。但是,现成的定制产品要么非常昂贵,要么取决于高度精确的IMU和带有霍尔传感器的无刷直流电动机以估计角度,这很容易在长期操作中累积漂移。在本文中,提出了一种基于简历的新跟踪和融合算法,专门针对自然界运行的无人机上的gimbal系统,主要贡献如下:部署到Jetson Nano平台上,将图像分为二进制零件(地面和天空)。 b)在3D中以3D为提示跟踪天际线和接地平面的几何原始图,以及IMU的方向估计可以为方向提供多种猜测。 c)基于球形表面的自适应颗粒采样可以有效地从上述传感器来源融合。最终的原型算法在实时嵌入式系统上进行了测试,并且在空气中进行了模拟和实际功能测试。
translated by 谷歌翻译
智能城市应用程序(例如智能交通路由或事故预防)依赖计算机视觉方法来确切的车辆定位和跟踪。由于精确标记的数据缺乏,从多个摄像机中检测和跟踪3D的车辆被证明是探索挑战的。我们提出了一个庞大的合成数据集,用于多个重叠和非重叠摄像头视图中的多个车辆跟踪和分割。与现有的数据集不同,该数据集仅为2D边界框提供跟踪地面真实,我们的数据集还包含适用于相机和世界坐标中的3D边界框的完美标签,深度估计以及实例,语义和泛型细分。该数据集由17个小时的标记视频材料组成,从64个不同的一天,雨,黎明和夜幕播放的340张摄像机录制,使其成为迄今为止多目标多型多相机跟踪的最广泛数据集。我们提供用于检测,车辆重新识别以及单摄像机跟踪的基准。代码和数据公开可用。
translated by 谷歌翻译
Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
translated by 谷歌翻译
随着服务机器人和监控摄像头的出现,近年来野外的动态面部识别(DFR)受到了很多关注。面部检测和头部姿势估计是DFR的两个重要步骤。经常,在面部检测后估计姿势。然而,这种顺序计算导致更高的延迟。在本文中,我们提出了一种低延迟和轻量级网络,用于同时脸部检测,地标定位和头部姿势估计。灵感来自观察,以大角度定位面部的面部地标更具挑战性,提出了一个姿势损失来限制学习。此外,我们还提出了不确定性的多任务损失,以便自动学习各个任务的权重。另一个挑战是,机器人通常使用武器基的计算核心等低计算单元,我们经常需要使用轻量级网络而不是沉重的网络,这导致性能下降,特别是对于小型和硬面。在本文中,我们提出了在线反馈采样来增加不同尺度的培训样本,这会自动增加培训数据的多样性。通过验证常用的更广泛的脸,AFLW和AFLW2000数据集,结果表明,该方法在低计算资源中实现了最先进的性能。代码和数据将在https://github.com/lyp-deeplearning/mos-multi-task-face-detect上使用。
translated by 谷歌翻译
未来的机场变得越来越复杂,并且随着旅行者数量的增加而拥挤。尽管机场更有可能成为潜在冲突的热点,这可能会导致航班和几个安全问题的严重延误。一种使安全监视更有效地检测冲突的智能算法将在其安全,财务和旅行效率方面为乘客带来许多好处。本文详细介绍了机器学习模型的开发,以对人群中的冲突行为进行分类。 HRNET用于分割图像,然后采用两种方法通过多个分类器对框架中的人的姿势进行分类。其中,发现支持向量机(SVM)达到了最出色的精度为94.37%。该模型不足的地方是反对模棱两可的行为,例如拥抱或失去框架中主题的轨道。如果进行改进以应对大量潜在的乘客,以及针对在机场环境中会出现的进一步歧义行为的培训,则最终的模型具有在机场内部署的潜力。反过来,将提供提高安全监视并提高机场安全的能力。
translated by 谷歌翻译
In this work, we propose a method that combines a single hand-held camera and a set of Inertial Measurement Units (IMUs) attached at the body limbs to estimate accurate 3D poses in the wild. This poses many new challenges: the moving camera, heading drift, cluttered background, occlusions and many people visible in the video. We associate 2D pose detections in each image to the corresponding IMUequipped persons by solving a novel graph based optimization problem that forces 3D to 2D coherency within a frame and across long range frames. Given associations, we jointly optimize the pose of a statistical body model, the camera pose and heading drift using a continuous optimization framework. We validated our method on the TotalCapture dataset, which provides video and IMU synchronized with ground truth. We obtain an accuracy of 26mm, which makes it accurate enough to serve as a benchmark for image-based 3D pose estimation in the wild. Using our method, we recorded 3D Poses in the Wild (3DPW ), a new dataset consisting of more than 51, 000 frames with accurate 3D pose in challenging sequences, including walking in the city, going up-stairs, having coffee or taking the bus. We make the reconstructed 3D poses, video, IMU and 3D models available for research purposes at http://virtualhumans.mpi-inf.mpg.de/3DPW.
translated by 谷歌翻译
3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.
translated by 谷歌翻译
瑜伽是全球广受好评的,广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中,我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点,以训练一个随机的森林分类器,该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果,该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案,用于通过对1)看不见的帧,2)看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为,对于大多数应用程序,对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集,转移学习的优势以及目标泄漏的可能性。我们进一步证明,分类精度在很大程度上取决于所采用的交叉验证方法,并且通常会产生误导。为了促进进一步的研究,我们已公开提供关键点数据集和代码。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
We propose a multisensor fusion framework for onboard real-time navigation of a quadrotor in an indoor environment, by integrating sensor readings from an Inertial Measurement Unit (IMU), a camera-based object detection algorithm, and an Ultra-WideBand (UWB) localization system. The sensor readings from the camera-based object detection algorithm and the UWB localization system arrive intermittently, since the measurements are not readily available. We design a Kalman filter that manages intermittent observations in order to handle and fuse the readings and estimate the pose of the quadrotor for tracking a predefined trajectory. The system is implemented via a Hardware-in-the-loop (HIL) simulation technique, in which the dynamic model of the quadrotor is simulated in an open-source 3D robotics simulator tool, and the whole navigation system is implemented on Artificial Intelligence (AI) enabled edge GPU. The simulation results show that our proposed framework offers low positioning and trajectory errors, while handling intermittent sensor measurements.
translated by 谷歌翻译
自动检测飞行无人机是一个关键问题,其存在(特别是未经授权)可以造成风险的情况或损害安全性。在这里,我们设计和评估了多传感器无人机检测系统。结合常见的摄像机和麦克风传感器,我们探索了热红外摄像机的使用,指出是一种可行且有希望的解决方案,在相关文献中几乎没有解决。我们的解决方案还集成了鱼眼相机,以监视天空的更大部分,并将其他摄像机转向感兴趣的对象。传感溶液与ADS-B接收器,GPS接收器和雷达模块相辅相成,尽管由于其有限的检测范围,后者未包含在我们的最终部署中。即使此处使用的摄像机的分辨率较低,热摄像机也被证明是与摄像机一样好的可行解决方案。我们作品的另外两个新颖性是创建一个新的公共数据集的多传感器注释数据,该数据与现有的类别相比扩大了类的数量,以及对探测器性能的研究作为传感器到传感器的函数的研究目标距离。还探索了传感器融合,表明可以以这种方式使系统更强大,从而减轻对单个传感器的虚假检测
translated by 谷歌翻译