在培训滑雪板大空气期间,最受欢迎的冬季运动,运动员和教练广泛拍摄并使用单个摄像头或智能手机检查他们的跳跃尝试。然而,通过顺序观看视频,难以比较两项试验之间的性能的精确差异。因此,双侧显示或两个视频的叠加可能有助于训练。为实现这一点,必须确保多个性能的空间和时间对准。在这项研究中,我们使用现有的滑雪板大型空气训练提出了一种传统但合理的解决方案。我们与专家滑雪板进行了采访,他们表示时尚对齐的视频使他们能够精确地识别身体运动的轻微差异。结果表明,在滑雪板大空气训练期间可以使用该方法。
translated by 谷歌翻译
婴儿对一般运动(GM)的评估是早期诊断神经发育障碍的有用工具。但是,其在临床实践中的评估依赖于专家的视觉检查,并且热切期待自动解决方案。最近,基于视频的GMS分类引起了人们的注意,但是这种方法将受到无关信息的强烈影响,例如视频中的背景混乱。此外,为了可靠性,有必要在GMS期间正确提取婴儿的时空特征。在这项研究中,我们提出了一种自动GMS分类方法,该方法由预处理网络组成,该网络从GMS视频中删除不必要的背景信息并调整婴儿的身体位置以及基于两流结构的后续运动分类网络。提出的方法可以有效地提取GMS分类的基本时空特征,同时防止过度拟合与不同记录环境无关的信息。我们使用从100名婴儿获得的视频验证了提出的方法。实验结果表明,所提出的方法的表现优于几个基线模型和现有方法。
translated by 谷歌翻译
本文介绍了多传感器用户界面的开发,以促进电弧焊接任务的指导。获得手眼协调能力的传统方法通常是通过一对一的指导来进行的,学员必须戴着保护头盔并进行多项测试。这种方法效率低下,因为电弧从电弧发出的有害光阻止了对过程的密切监测。从业者只能观察到一个小的亮点。为了解决这些问题,最近的培训方法利用虚拟现实来安全地模拟该过程并可视化工件的几何形状。但是,这些类型的仿真平台的合成性质降低了它们的有效性,因为它们无法构成与环境的实际焊接相互作用,从而阻碍了受训者的学习过程。为了为用户提供真正的焊接体验,我们开发了一个新的多传感器扩展现实平台,用于弧焊接训练。我们的系统由:(1)HDR摄像头,实时监视真实的焊接位; (2)深度传感器,捕获场景的3D几何形状; (3)头部安装的VR显示屏,可以安全地可视化过程。我们的创新平台为用户提供了“机器人培训师”,接缝几何形状的虚拟提示,自动点跟踪和性能得分。为了验证平台的可行性,我们通过几项焊接培训任务进行了广泛的实验。我们表明,与传统的培训实践和最近的虚拟现实方法相比,我们的自动多传感器方法在准确性,学习曲线和有效性方面取得了更好的性能。
translated by 谷歌翻译
Human pose estimation, particularly in athletes, can help improve their performance. However, this estimation is difficult using existing methods, such as human annotation, if the subjects wear loose-fitting clothes such as ski/snowboard wears. This study developed a method for obtaining the ground truth data on two-dimensional (2D) poses of a human wearing loose-fitting clothes. This method uses fast-flushing light-emitting diodes (LEDs). The subjects were required to wear loose-fitting clothes and place the LED on the target joints. The LEDs were observed directly using a camera by selecting thin filmy loose-fitting clothes. The proposed method captures the scene at 240 fps by using a high-frame-rate camera and renders two 30 fps image sequences by extracting LED-on and -off frames. The temporal differences between the two video sequences can be ignored, considering the speed of human motion. The LED-on video was used to manually annotate the joints and thus obtain the ground truth data. Additionally, the LED-off video, equivalent to a standard video at 30 fps, confirmed the accuracy of existing machine learning-based methods and manual annotations. Experiments demonstrated that the proposed method can obtain ground truth data for standard RGB videos. Further, it was revealed that neither manual annotation nor the state-of-the-art pose estimator obtains the correct position of target joints.
translated by 谷歌翻译
自动故障检测是许多运动的主要挑战。在比赛中,裁判根据规则在视觉上判断缺点。因此,在判断时确保客观性和公平性很重要。为了解决这个问题,一些研究试图使用传感器和机器学习来自动检测故障。但是,与传感器的附件和设备(例如高速摄像头)相关的问题,这些问题与裁判的视觉判断以及故障检测模型的可解释性相抵触。在这项研究中,我们提出了一个用于非接触测量的断层检测系统。我们使用了根据多个合格裁判的判断进行训练的姿势估计和机器学习模型,以实现公平的错误判断。我们使用智能手机视频在包括东京奥运会的奖牌获得者中,使用了正常比赛的智能手机视频,并有意地走路。验证结果表明,所提出的系统的平均准确度超过90%。我们还透露,机器学习模型根据种族步行规则检测到故障。此外,奖牌获得者的故意故障步行运动与大学步行者不同。这一发现符合更通用的故障检测模型的实现。该代码和数据可在https://github.com/szucchini/racewalk-aijudge上获得。
translated by 谷歌翻译
该技术报告描述了在Robocup SPL(Mario)中计算视觉统计的模块化且可扩展的体系结构,该结构在Robocup 2022的SPL Open Research Challenge期间提出,该挑战在曼谷(泰国)举行。马里奥(Mario)是一个开源的,可用的软件应用程序,其最终目标是为Robocup SPL社区的发展做出贡献。Mario带有一个GUI,该GUI集成了多个机器学习和基于计算机视觉的功能,包括自动摄像机校准,背景减法,同型计算,玩家 +球跟踪和本地化,NAO机器人姿势估计和跌落检测。马里奥(Mario)被排名第一。1在开放研究挑战中。
translated by 谷歌翻译
Image view synthesis has seen great success in reconstructing photorealistic visuals, thanks to deep learning and various novel representations. The next key step in immersive virtual experiences is view synthesis of dynamic scenes. However, several challenges exist due to the lack of high-quality training datasets, and the additional time dimension for videos of dynamic scenes. To address this issue, we introduce a multi-view video dataset, captured with a custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes showing various visual effects and human interactions in outdoor scenes. We develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable view extrapolation from binocular videos of dynamic scenes, captured by static cameras. Our algorithm addresses the temporal inconsistency of disocclusions by identifying the error-prone areas with a 3D mask volume, and replaces them with static background observed throughout the video. Our method enables manipulation in 3D space as opposed to simple 2D masks, We demonstrate better temporal stability than frame-by-frame static view synthesis methods, or those that use 2D masks. The resulting view synthesis videos show minimal flickering artifacts and allow for larger translational movements.
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
本研究的目标是开发新的可靠开放式手术缝合培训医学院的仿真系统,以便在资源有限或国内设置。即,我们开发了一种工具和手本地化的算法,以及根据简单的网络摄像头视频数据,计算出用于评估外科技能的运动指标。二十五位参与者使用我们的模拟器执行多个缝合任务。 yolo网络已被修改为多任务网络,以便工具本地化和工具手动交互检测。这是通过分割YOLO检测头来实现的,使得它们支持两项任务,以对计算机运行时间最小的添加。此外,基于系统的结果,计算了运动指标。这些指标包括传统的指标,如时间和路径长度以及评估技术参与者使用的新度量来控制工具。双重任务网络性能与两个网络的性能类似,而计算负载仅略大于一个网络。此外,运动指标显示专家和新手之间的显着差异。虽然视频捕获是微创手术的重要组成部分,但它不是开放手术的整体组成部分。因此,需要新的算法,重点关注当前的独特挑战,是开放的手术视频存在。在本研究中,开发了一种双任务网络来解决本地化任务和手动工具交互任务。双网络可以很容易地扩展到多任务网络,这可能对具有多个层的图像有用,并且用于评估这些不同层之间的交互。
translated by 谷歌翻译
在本文中,我们介绍了一条神经渲染管道,用于将一个人在源视频中的面部表情,头部姿势和身体运动转移到目标视频中的另一个人。我们将方法应用于手语视频的具有挑战性的案例:给定手语用户的源视频,我们可以忠实地传输执行的手册(例如握手,棕榈方向,运动,位置)和非手术(例如,眼睛凝视,凝视,面部表情,头部移动)以照片真实的方式标志着目标视频。为了有效捕获上述提示,这些线索对于手语交流至关重要,我们以最近引入的最健壮和最可靠的深度学习方法的有效组合来建立。使用3D感知表示,将身体部位的估计运动组合并重新定位到目标签名者。然后将它们作为我们的视频渲染网络的条件输入,从而生成时间一致和照片现实的视频。我们进行了详细的定性和定量评估和比较,这些评估和比较证明了我们的方法的有效性及其对现有方法的优势。我们的方法产生了前所未有的现实主义的有希望的结果,可用于手语匿名。此外,它很容易适用于重新制定其他类型的全身活动(舞蹈,表演,锻炼等)以及手语生产系统的合成模块。
translated by 谷歌翻译
Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of edge computing multi-point video recording, offline automated multispecies insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within polytunnels, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.
translated by 谷歌翻译
这项研究旨在实现两个目标:第一个目标是策划一个大型且信息丰富的数据集,其中包含有关球员的行动和位置的关键和简洁的摘要,以及在专业和NCAA中排球的来回旅行模式Div-i室内排球游戏。尽管几项先前的研究旨在为其他运动创建类似的数据集(例如羽毛球和足球),但尚未实现为室内排球创建这样的数据集。第二个目标是引入排球描述性语言,以充分描述游戏中的集会过程并将语言应用于我们的数据集。基于精选的数据集和我们的描述性运动语言,我们使用我们的数据集介绍了三项用于自动化排球行动和战术分析的任务:(1)排球拉力赛预测,旨在预测集会的结果,并帮助球员和教练改善决策制定决策在实践中,(2)设置类型和命中类型预测,以帮助教练和球员更有效地为游戏做准备,以及(3)排球策略和进攻区统计,以提供高级排球统计数据,并帮助教练了解游戏和对手的策略更好的。我们进行了案例研究,以展示实验结果如何为排球分析社区提供见解。此外,基于现实世界数据的实验评估为我们的数据集和语言的未来研究和应用建立了基准。这项研究弥合了室内排球场与计算机科学之间的差距。
translated by 谷歌翻译
我们可以通过观看数月或数年来了解一个场景?在长时间播放中录制的视频将在多个时间范围内描绘有趣的现象,但识别和观看它们带来了挑战。该视频太长了,无法完整观看,并且某些事件的实时体验太慢,例如冰川静修。及时视频是总结长视频和可视化慢时尺度的常见方法。但是,时间段仅限于单个选择的时间频率,并且由于框架之间的混叠和时间不连续性,通常会出现闪烁。在本文中,我们提出了视频时间金字塔,该技术可以解决这些局限性并扩大可视化时间流逝的可能性。受到计算机视觉的空间图像金字塔的启发,我们开发了一种在时间域中构建视频金字塔的算法。视频时间金字塔的每个级别都可以看到不同的时间表。例如,每月时间表的视频通常非常适合可视化季节性变化,而一分钟时间尺度的视频最适合可视化日出或云层在天空中的运动。为了帮助探索不同的金字塔水平,我们还提出了一个视频频谱图,以可视化整个金字塔的活动量,从而提供了场景动力学的整体概述,并能够在时间和时间表上探索和发现现象。为了展示我们的方法,我们已经从十个户外场景中构建了视频时间金字塔,每个户外场景都包含数月或数年的数据。我们将视频颞金字塔层与天真的时间解体进行了比较,并发现我们的金字塔可以无视长期变化的别名观看。我们还证明,视频谱图通过实现概述和以细节为中心的观点来促进跨金字塔水平的现象的探索和发现。
translated by 谷歌翻译
Figure 1: "Do as I Do" motion transfer: given a YouTube clip of a ballerina (top), and a video of a graduate student performing various motions, our method transfers the ballerina's performance onto the student (bottom).
translated by 谷歌翻译
Human pose estimation has been widely applied in various industries. While recent decades have witnessed the introduction of many advanced two-dimensional (2D) human pose estimation solutions, three-dimensional (3D) human pose estimation is still an active research field in computer vision. Generally speaking, 3D human pose estimation methods can be divided into two categories: single-stage and two-stage. In this paper, we focused on the 2D-to-3D lifting process in the two-stage methods and proposed a more advanced baseline model for 3D human pose estimation, based on the existing solutions. Our improvements include optimization of machine learning models and multiple parameters, as well as introduction of a weighted loss to the training model. Finally, we used the Human3.6M benchmark to test the final performance and it did produce satisfactory results.
translated by 谷歌翻译
当今的计算机不仅限于笔记本电脑和台式机。手机和笔记本电脑等移动小工具也可以利用它。但是,在过去50年中没有更改的一个输入设备是QWERTY键盘。通过传感器技术和人工智能,虚拟键盘用户可以在任何表面上输入任何表面。在这项研究中,我们使用图像处理的想法来创建一个应用程序,以使用新颖的框架来查看计算机键盘,该框架可以精确地检测手势,同时也具有可持续性且在财务上可行。相机用于捕获键盘图像和手指动作,后来充当虚拟键盘。此外,本研究还描述了一种接受手指坐标为输入的可见虚拟小鼠。该系统具有降低外围成本的直接好处,减少由于外部设备而产生的电子废物,并为无法使用传统键盘和鼠标的人们提供可访问性。
translated by 谷歌翻译
开放程序代表全球手术的主要形式。人工智能(AI)有可能优化手术实践并改善患者结果,但努力主要集中在微创技术上。我们的工作通过策划,从YouTube,从YouTube,Open Surgical视频的最大数据集克服了培训AI模型的现有数据限制:1997年从50个国家上传的23个外科手术的视频。使用此数据集,我们开发了一种能够实时了解外科行为,手和工具的多任务AI模型 - 程序流程和外科医生技能的构建块。我们表明我们的模型推广了各种外科类型和环境。说明这种普遍性,我们直接应用了YouTube培训的模型,分析了在学术医疗中心前瞻性收集的开放式手术,并确定了与手动效率相关的外科技能的运动学描述符。我们的开放外科(AVOS)数据集和培训模式的注释视频将可用于进一步发展外科艾。
translated by 谷歌翻译
折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
轨迹是不同的滑雪学科的基础。启用此类曲线的工具可以增强培训活动并丰富广播内容。但是,目前可用的解决方案基于地理局部传感器和表面型号。在这篇简短的论文中,我们提出了一种基于视频的方法来重建运动员在其性能期间遍历运动员的点序列。我们的原型由基于深度学习的算法的管道构成,以重建运动员的运动并根据相机的角度来可视化它。这是在没有任何相机校准的情况下为野外的不同滑雪学科实现。我们测试了我们在广播和智能手机捕获的高山滑雪和滑雪跳跃专业竞赛的视频解决方案。实现的定性结果显示了我们解决方案的潜力。
translated by 谷歌翻译
机器人辅助的微创手术(RMI)缺乏触觉反馈是在手术过程中安全组织处理的潜在障碍。贝叶斯建模理论表明,与没有经验的外科医生相比,在RMIS期间,具有开放或腹腔镜手术经验的外科医生可以发展为组织刚度的先验。为了测试先前的触觉经验是否导致远程操作的力估计能力提高,将33名参与者分配到三个训练条件之一:手动操纵,用力反馈的远程操作或无力反馈的远程操作,并学会了将硅胶样品张紧到一套力值。然后,他们被要求执行张力任务,以及先前未经触觉的任务,而无需反馈而在远程操作下进行不同的力量值。与远程操作组相比,手动组在训练的力量范围之外的张力任务中具有较高的力误差,但在低力水平下,在触诊任务中显示出更好的速度准确性功能。这表明训练方式的动力学会影响远程操作过程中的力估计能力,如果在与任务相同的动态下形成,则可以访问先前的触觉体验。
translated by 谷歌翻译