简介:手功能是中风后独立性的中心决定因素。在家庭环境中测量手用途是为了评估新干预措施的影响,并需要新颖的可穿戴技术。以自我为中心的视频可以在上下文中捕获手动相互作用,并显示在双边任务(用于稳定或操纵)过程中如何使用受影响的手。需要自动化方法来提取此信息。目的:使用基于人工智能的计算机视觉来对中风后在家中记录的以自我为中心的视频进行手工使用和手工角色进行分类。方法:21个中风幸存者参加了这项研究。使用随机的森林分类器,慢速神经网络和手对象检测器神经网络来识别在家中的手用和手工作用。剩余的受试者 - 划线验证(LOSOCV)用于评估三种模型的性能。根据Mathews相关系数(MCC)计算模型的组间差异。结果:对于手用检测,手对象检测器的性能明显高于其他模型。使用该模型在LOSOCV中使用该模型的宏平均MCC为受影响更大的手的0.50 +-0.23,而受影响较小的手的宏观MCC为0.58 +-0.18。手部角色分类在LOSOCV中的宏平均MCC对于所有模型而言接近零。结论:使用以自我为中心的视频来捕获家里的中风幸存者的手用途。姿势估计以跟踪手指运动可能有益于将来的手部角色分类。
translated by 谷歌翻译
背景:以自我为中心的视频已成为监测社区中四肢瘫痪者的手部功能的潜在解决方案,尤其是因为它在家庭环境中检测功能使用的能力。目的:开发和验证一个基于可穿戴视力的系统,以测量四肢植物患者的家庭使用。方法:开发并比较了几种用于检测功能手动相互作用的深度学习算法。最精确的算法用于从20名参与者在家庭中记录的65小时的无脚本视频中提取手部功能的度量。这些措施是:总记录时间(PERC)的交互时间百分比;单个相互作用的平均持续时间(DUR);每小时互动数(NUM)。为了证明技术的临床有效性,以验证的措施与经过验证的手部功能和独立性的临床评估相关(逐渐定义了强度,敏感性和预性的评估 - GRASSP,上肢运动评分 - UEM和脊髓独立措施 - SICIM- SICIM- SICIM) 。结果:手动相互作用以0.80(0.67-0.87)的中位数得分自动检测到手动相互作用。我们的结果表明,较高的UEM和更好的预性与花费更长的时间相互作用有关,而较高的cim和更好的手动感觉会导致在以eg中心的视频记录期间进行的更多相互作用。结论:第一次,在四肢瘫痪者中,在不受约束的环境中自动估计的手部功能的度量已得到了国际接受的手部功能量度的验证。未来的工作将需要对基于以自我为中心的手工使用的绩效指标的可靠性和响应能力进行正式评估。
translated by 谷歌翻译
由于价格合理的可穿戴摄像头和大型注释数据集的可用性,在过去几年中,Egintric Vision(又名第一人称视觉-FPV)的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置(通常安装在头部上)允许准确记录摄像头佩戴者在其前面的摄像头,尤其是手和操纵物体。这种内在的优势可以从多个角度研究手:将手及其部分定位在图像中;了解双手涉及哪些行动和活动;并开发依靠手势的人类计算机界面。在这项调查中,我们回顾了使用以自我为中心的愿景专注于手的文献,将现有方法分类为:本地化(其中的手或部分在哪里?);解释(手在做什么?);和应用程序(例如,使用以上为中心的手提示解决特定问题的系统)。此外,还提供了带有手基注释的最突出的数据集的列表。
translated by 谷歌翻译
可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究,但仍在以自我为中心的环境中,尤其是在工业场景中进行了研究。为了鼓励在该领域的研究,我们介绍了Meccano,这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号,深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务,例如识别和预测人类对象的相互作用。使用MECCANO数据集,我们探索了五个不同的任务,包括1)动作识别,2)活动对象检测和识别,3)以自我为中心的人类对象互动检测,4)动作预期和5)下一步活动对象检测。我们提出了一个旨在研究人类行为的基准,该基准在被考虑的类似工业的情况下,表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究,我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。
translated by 谷歌翻译
动作识别是提高物理康复设备自治的重要组成部分,例如可穿戴机器人外骨骼。现有的人类行动识别算法的重点是成人应用,而不是小儿应用。在本文中,我们介绍了BabyNet,这是一个轻量重量(就可训练的参数而言)的网络结构,以识别婴儿从外体固定摄像机中采取行动的婴儿。我们开发了一个带注释的数据集,其中包括在不受约束的环境中的不同婴儿(例如,在家庭设置等)中的坐姿中执行的各种范围。我们的方法使用带注释的边界框的空间和时间连接来解释和抵消到达的开始,并检测到完整的到达动作。我们评估了我们提出的方法的效率,并将其性能与其他基于学习的网络结构进行比较,以捕获时间相互依存的能力和触及发作和偏移的检测准确性。结果表明,我们的婴儿网络可以在超过其他较大网络的(平均)测试准确性方面达到稳定的性能,因此可以作为基于视频的婴儿获得动作识别的轻量重量数据驱动框架。
translated by 谷歌翻译
瑜伽是全球广受好评的,广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中,我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点,以训练一个随机的森林分类器,该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果,该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案,用于通过对1)看不见的帧,2)看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为,对于大多数应用程序,对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集,转移学习的优势以及目标泄漏的可能性。我们进一步证明,分类精度在很大程度上取决于所采用的交叉验证方法,并且通常会产生误导。为了促进进一步的研究,我们已公开提供关键点数据集和代码。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
肢体语言是一种引人注目的社交信号,其自动分析可以大大提高人工智能系统,以理解和积极参与社交互动。尽管计算机视觉在诸如头部和身体姿势估计之类的低级任务中取得了令人印象深刻的进步,但探索诸如示意,修饰或摸索之类的更微妙行为的发现尚未得到很好的探索。在本文中,我们介绍了BBSI,这是复杂的身体行为的第一组注释,嵌入了小组环境中的连续社交互动中。根据心理学的先前工作,我们在MpiigroupContraction数据集中手动注释了26个小时的自发人类行为,并具有15种不同的肢体语言类别。我们介绍了所得数据集的全面描述性统计数据以及注释质量评估的结果。为了自动检测这些行为,我们适应了金字塔扩张的注意网络(PDAN),这是一种最新的人类动作检测方法。我们使用四个空间特征的四种变体作为PDAN的输入进行实验:两流膨胀的3D CNN,颞段网络,时间移位模块和SWIN变压器。结果是有希望的,这表明了这项艰巨的任务改进的好空间。 BBSI代表了自动理解社会行为的难题中的关键作品,研究界完全可以使用。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
未来的机场变得越来越复杂,并且随着旅行者数量的增加而拥挤。尽管机场更有可能成为潜在冲突的热点,这可能会导致航班和几个安全问题的严重延误。一种使安全监视更有效地检测冲突的智能算法将在其安全,财务和旅行效率方面为乘客带来许多好处。本文详细介绍了机器学习模型的开发,以对人群中的冲突行为进行分类。 HRNET用于分割图像,然后采用两种方法通过多个分类器对框架中的人的姿势进行分类。其中,发现支持向量机(SVM)达到了最出色的精度为94.37%。该模型不足的地方是反对模棱两可的行为,例如拥抱或失去框架中主题的轨道。如果进行改进以应对大量潜在的乘客,以及针对在机场环境中会出现的进一步歧义行为的培训,则最终的模型具有在机场内部署的潜力。反过来,将提供提高安全监视并提高机场安全的能力。
translated by 谷歌翻译
瀑布是全世界老年人死亡的主要原因之一。有效检测跌倒可以减少并发症和伤害的风险。可以使用可穿戴设备或环境传感器进行秋季检测;这些方法可能会在用户合规性问题或错误警报方面困难。摄像机提供了一种被动的选择;但是,定期的RGB摄像机受到改变的照明条件和隐私问题的影响。从机器学习的角度来看,由于跌倒的稀有性和可变性,开发有效的跌落检测系统是具有挑战性的。许多现有的秋季检测数据集缺乏重要的现实考虑因素,例如不同的照明,日常生活的连续活动(ADL)和相机放置。缺乏这些考虑使得很难开发可以在现实世界中有效运行的预测模型。为了解决这些局限性,我们引入了一个新型的多模式数据集(MUVIM),其中包含四种视觉方式:红外,深度,RGB和热摄像机。这些模式提供了诸如混淆的面部特征和在弱光条件下的性能改善的好处。我们将秋季检测作为异常检测问题提出,其中仅在ADL上对定制的时空卷积自动编码器进行了训练,因此跌落会增加重建误差。我们的结果表明,红外摄像机提供了最高水平的性能(AUC ROC = 0.94),其次是热摄像机(AUC ROC = 0.87),深度(AUC ROC = 0.86)和RGB(AUC ROC = 0.83)。这项研究提供了一个独特的机会,可以分析摄像头模式在检测家庭环境中跌落的效用,同时平衡性能,被动性和隐私。
translated by 谷歌翻译
First-person vision is gaining interest as it offers a unique viewpoint on people's interaction with objects, their attention, and even intention. However, progress in this challenging domain has been relatively slow due to the lack of sufficiently large datasets. In this paper, we introduce EPIC-KITCHENS, a large-scale egocentric video benchmark recorded by 32 participants in their native kitchen environments. Our videos depict non-scripted daily activities: we simply asked each participant to start recording every time they entered their kitchen. Recording took place in 4 cities (in North America and Europe) by participants belonging to 10 different nationalities, resulting in highly diverse cooking styles. Our dataset features 55 hours of video consisting of 11.5M frames, which we densely labelled for a total of 39.6K action segments and 454.3K object bounding boxes. Our annotation is unique in that we had the participants narrate their own videos (after recording), thus reflecting true intention, and we crowd-sourced ground-truths based on these. We describe our object, action and anticipation challenges, and evaluate several baselines over two test splits, seen and unseen kitchens.
translated by 谷歌翻译
本研究的目标是开发新的可靠开放式手术缝合培训医学院的仿真系统,以便在资源有限或国内设置。即,我们开发了一种工具和手本地化的算法,以及根据简单的网络摄像头视频数据,计算出用于评估外科技能的运动指标。二十五位参与者使用我们的模拟器执行多个缝合任务。 yolo网络已被修改为多任务网络,以便工具本地化和工具手动交互检测。这是通过分割YOLO检测头来实现的,使得它们支持两项任务,以对计算机运行时间最小的添加。此外,基于系统的结果,计算了运动指标。这些指标包括传统的指标,如时间和路径长度以及评估技术参与者使用的新度量来控制工具。双重任务网络性能与两个网络的性能类似,而计算负载仅略大于一个网络。此外,运动指标显示专家和新手之间的显着差异。虽然视频捕获是微创手术的重要组成部分,但它不是开放手术的整体组成部分。因此,需要新的算法,重点关注当前的独特挑战,是开放的手术视频存在。在本研究中,开发了一种双任务网络来解决本地化任务和手动工具交互任务。双网络可以很容易地扩展到多任务网络,这可能对具有多个层的图像有用,并且用于评估这些不同层之间的交互。
translated by 谷歌翻译
Timely and effective feedback within surgical training plays a critical role in developing the skills required to perform safe and efficient surgery. Feedback from expert surgeons, while especially valuable in this regard, is challenging to acquire due to their typically busy schedules, and may be subject to biases. Formal assessment procedures like OSATS and GEARS attempt to provide objective measures of skill, but remain time-consuming. With advances in machine learning there is an opportunity for fast and objective automated feedback on technical skills. The SimSurgSkill 2021 challenge (hosted as a sub-challenge of EndoVis at MICCAI 2021) aimed to promote and foster work in this endeavor. Using virtual reality (VR) surgical tasks, competitors were tasked with localizing instruments and predicting surgical skill. Here we summarize the winning approaches and how they performed. Using this publicly available dataset and results as a springboard, future work may enable more efficient training of surgeons with advances in surgical data science. The dataset can be accessed from https://console.cloud.google.com/storage/browser/isi-simsurgskill-2021.
translated by 谷歌翻译
荧光吞咽研究(VFSS)是一种用于评估吞咽的金标成像技术,但VFSS录音的分析和评级是耗时,需要专门的培训和专业知识。研究人员已经证明,可以通过计算机视觉方法自动检测吞咽的咽部阶段,并通过计算机视觉方法本地化推注中的推注,促进新颖的自动VFSS分析技术的开发。但是,培训算法以执行这些任务需要很少可用的大量注释数据。我们证明,可以使用单一方法在一起解决咽期检测和推注定位的挑战。我们提出了一个深入学习的框架,以弱监督的方式共同解决咽期检测和推注定位,只需要临时阶段的初始和最终框架作为培训的地面真理注释。我们的方法源于观察结果,即咽部中的推注存在是最突出的视觉特征,在其上推断单个VFSS帧是否属于咽部阶段。我们在来自59个健康受试者的1245 VFS剪辑的数据集中进行了大量卷积神经网络(CNNS)进行了广泛的实验。我们证明,可以检测咽部阶段,其F1分数高于0.9。此外,通过处理CNN的类激活图,我们能够通过有前途的结果本地化推注,从未获得高于0.9的地面真理轨迹的相关性,而无需用于训练目的的推注定位的任何手动注释。一旦验证了吞咽障碍的更大的参与者样本,我们的框架将为VFSS分析开发智能工具的开发,以支持临床医生吞咽评估。
translated by 谷歌翻译
互动对象理解,或者我们可以对对象做些什么以及计算机愿景的长期目标。在本文中,我们通过观察野外的自我高端视频的人类手来解决这个问题。我们展示了观察人类的手与之交互以及如何提供相关数据和必要的监督。参加双手,容易定位并稳定积极的物体以进行学习,并揭示发生与对象的交互的地方。分析手显示我们可以对物体做些什么以及如何做些。我们在史诗厨房数据集上应用这些基本原则,并成功地学习了国家敏感的特征,以及互动区域和提供了麦克拉斯的地区),纯粹是通过观察在EGoCentric视频中的手。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
骨科疾病在马匹中常见,通常导致安乐死,这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的,因为所产生的疼痛行为也是微妙的,稀疏出现,变得不同,使得甚至是专家兰德尔的挑战,为数据提供准确的地面真实性。我们表明,一款专业培训的模型,仅涉及急性实验疼痛的马匹(标签不那么暧昧)可以帮助识别更微妙的骨科疼痛显示。此外,我们提出了一个问题的人类专家基线,以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后,这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。
translated by 谷歌翻译