目的:我们提出了一个正式的框架,用于使用统一的运动原始图(MPS)作为基本手术动作来建模手术任务,以实现不同数据集的更客观的标记和聚集,并培训通用模型,以实现手术动作识别。方法:我们使用我们的框架来创建上下文和运动原始骨料外科手术集(指南针),包括来自三个公共可用数据集(拼图,桌子,桌子和Rosma)的六个干燥LAB手术任务标签。提出了标记手术环境和自动转换为MPS的方法。我们提出了一项任务(Loto)交叉验证方法,以评估模型概括为看不见的任务的能力。结果:我们的上下文标签方法达到了众包的共识标签与专家外科医生之间的几乎完美的一致性。对MPS的任务进行分割,可以生成单独的左右笔录,并显着改善Loto的性能。我们发现,如果对具有相同上下文的任务和/或来自同一数据集的任务进行了培训,则MP细分模型的性能最佳。结论:所提出的框架可以基于上下文和细粒度的MPS对外科数据进行高质量的标记。使用MPS对外科手术任务进行建模可以使不同数据集的汇总用于训练动作识别模型,这些模型可以比在手势级别训练的模型更好地概括地看不见的任务。意义:我们的正式框架和汇总数据集可以支持用于手术过程分析,技能评估,错误检测和自治的模型和算法的开发。
translated by 谷歌翻译
背景技术分析运动和视频数据可以帮助识别可能的错误动作,导致机器人辅助手术中的次优外科医生性能和安全关键事件。方法开发针对识别任务和手势的刽子手和程序错误的标题,并评估从拼图数据集中缝合和针传递任务的干燥实验室演示。我们通过标记视频数据来表征示范的错误部分,以及在运动数据上使用分发相似性分析和轨迹平均来识别区分错误手势的参数。结果刽子手误差频率因任务和手势而异,与技能水平相关。每个手势中的一些主要误差模式通过分析特定误差的运动参数来区分。程序错误可能导致性能分数降低,并增加了演示时间,但也取决于手术方式。结论本研究提供了对依赖于上下文错误的见解,这些错误可用于设计自动化错误检测机制并改善培训和技能评估。
translated by 谷歌翻译
从视频和动态数据自动活动识别是一种重要的机器学习问题,其应用范围从机器人到智能健康。大多数现有的作品集中在确定粗动作,如跑步,登山,或切割植物,其具有相对长的持续时间。这对于那些需要细微动作中的高时间分辨率识别应用的一个重要限制。例如,在中风恢复,定量康复剂量需要区分具有亚秒持续时间的运动。我们的目标是弥合这一差距。为此,我们引入了一个大规模,多数据集,StrokeRehab,为包括标记高时间分辨率微妙的短期操作的新动作识别基准。这些短期的行为被称为功能性原语和由河段,运输,重新定位,稳定作用,和空转的。所述数据集由高品质的惯性测量单元的传感器和执行的日常生活像馈送,刷牙等的活动41中风影响的病人的视频数据的,我们表明,基于分割产生嘈杂状态的最先进的现有机型预测时,对这些数据,这往往会导致行动超量。为了解决这个问题,我们提出了高分辨率的活动识别,通过语音识别技术的启发,它是基于一个序列到序列模型,直接预测的动作序列的新方法。这种方法优于国家的最先进的电流在StrokeRehab数据集的方法,以及对标准的基准数据集50Salads,早餐,和拼图。
translated by 谷歌翻译
从示范中学习(LFD)提供了一种方便的手段,可以在机器人固有坐标中获得示范时为机器人提供灵巧的技能。但是,长期和复杂技能中复杂错误的问题减少了其广泛的部署。由于大多数此类复杂的技能由组合的较小运动组成,因此将目标技能作为一系列紧凑的运动原语似乎是合理的。在这里,需要解决的问题是确保电动机以允许成功执行后续原始的状态结束。在这项研究中,我们通过提议学习明确的校正政策来关注这个问题,当时未达到原始人之间的预期过渡状态。校正策略本身是通过使用最先进的运动原始学习结构,条件神经运动原语(CNMP)来学习的。然后,学识渊博的校正政策能够以背景方式产生各种运动轨迹。拟议系统比学习完整任务的优点在模拟中显示了一个台式设置,其中必须以两个步骤将对象通过走廊推动。然后,通过为上身类人生物机器人配备具有在3D空间中的条上打结的技巧,显示了所提出的方法在现实世界中进行双重打结的适用性。实验表明,即使面对校正案例不属于人类示范集的一部分,机器人也可以执行成功的打结。
translated by 谷歌翻译
由于在特定情况下可以采取的许多可能采取的行动,大规模环境中的强化学习是具有挑战性的。我们以前开发了一种限制的方法,因此通过使用运动原语来加速搜索过程;运动原语是跨国系列采取的预先指定行动的序列。作为这项工作的副产品,我们发现,如果标记运动基元的动作和动作,则可以进一步加速搜索。由于运动原语最初可能缺乏这些细节,因此理论上提出了一种自动注释潜在动作和动作的观点出不敏感和速度不敏感的手段。我们通过差分几何时空运动学描述符进行这一点,这分析了两个运动序列中的实体的姿势如何随时间而变化。我们将此描述符与加权最近邻邻分类器一起使用,以使用有限的培训示例标记基元。在我们的实验中,我们为人类动作衍生的原语进行了高运动和动作注释率,只有一个训练样本。我们还证明,使用精确标记的轨迹的强化学习比标准加固学习技术更快地导致高性能的政策。这部分是因为运动原语编码了现有域知识并抢先在培训期间重新发现该知识的需要。这也是因为代理可以利用标签来系统地忽略不促进任务目标的动作类,从而减少动作空间。
translated by 谷歌翻译
本研究的目标是开发新的可靠开放式手术缝合培训医学院的仿真系统,以便在资源有限或国内设置。即,我们开发了一种工具和手本地化的算法,以及根据简单的网络摄像头视频数据,计算出用于评估外科技能的运动指标。二十五位参与者使用我们的模拟器执行多个缝合任务。 yolo网络已被修改为多任务网络,以便工具本地化和工具手动交互检测。这是通过分割YOLO检测头来实现的,使得它们支持两项任务,以对计算机运行时间最小的添加。此外,基于系统的结果,计算了运动指标。这些指标包括传统的指标,如时间和路径长度以及评估技术参与者使用的新度量来控制工具。双重任务网络性能与两个网络的性能类似,而计算负载仅略大于一个网络。此外,运动指标显示专家和新手之间的显着差异。虽然视频捕获是微创手术的重要组成部分,但它不是开放手术的整体组成部分。因此,需要新的算法,重点关注当前的独特挑战,是开放的手术视频存在。在本研究中,开发了一种双任务网络来解决本地化任务和手动工具交互任务。双网络可以很容易地扩展到多任务网络,这可能对具有多个层的图像有用,并且用于评估这些不同层之间的交互。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
掌握进行手术所需的技术技能是一项极具挑战性的任务。基于视频的评估使外科医生可以收到有关其技术技能的反馈,以促进学习和发展。目前,此反馈主要来自手动视频评论,该视频审查是耗时的,限制了在许多情况下跟踪外科医生进展的可行性。在这项工作中,我们引入了一种基于运动的方法,以自动评估手术病例视频饲料的手术技能。拟议的管道首先可靠地轨道轨迹,以创建运动轨迹,然后使用这些轨迹来预测外科医生的技术技能水平。跟踪算法采用了一个简单而有效的重新识别模块,与其他最新方法相比,它可以改善ID-开关。这对于创建可靠的工具轨迹至关重要,当仪器定期在屏幕上和屏幕外移动或定期遮盖。基于运动的分类模型采用最先进的自我发明变压器网络来捕获对技能评估至关重要的短期和长期运动模式。在体内(Cholec80)数据集上评估了所提出的方法,其中专家评级的目标技能评估对Calot三角解剖的评估被用作定量技能度量。我们将基于变压器的技能评估与传统的机器学习方法进行比较,并使用拟议的和最新的跟踪方法进行比较。我们的结果表明,使用可靠跟踪方法的运动轨迹对仅根据视频流进行评估的外科医生技能是有益的。
translated by 谷歌翻译
中风康复旨在通过功能运动的重复实践来增加神经塑性,但由于重复不足,对恢复可能具有最小的影响。最佳培训内容和数量目前未知,因为不存在测量它们的实用工具。在这里,我们呈现Primseq,一个管道来分类和计算在笔划康复中培训的功能动作。我们的方法集成了可穿戴传感器来捕获上体运动,深度学习模型来预测运动序列,以及对Tally Motions的算法。训练有素的模型将康复活动分解成组件功能运动,优于竞争性机器学习方法。 Primseq进一步在人类专家的时间和劳动力成本的一小部分中量化了这些动作。我们展示了以前看不见的中风患者的Primseq的能力,这是一系列上肢电机损伤。我们预计这些进步将支持在中风康复中定量给药试验所需的严格测量。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
我们介绍了程序化运动概念,这是人类行为的层次运动表示形式,可捕获低级运动和高级描述作为运动概念。这种表示可以使人类运动描述,交互式编辑以及单个框架中新型视频序列的受控合成。我们介绍了一个体系结构,该体系结构以半监督的方式从配对的视频和动作序列中学习此概念表示。我们代表的紧凑性还使我们能够提出一个低资源的培训配方,以进行数据效率学习。通过超越建立的基线,尤其是在小型数据制度中,我们证明了我们框架对多个应用程序的效率和有效性。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
机器人辅助的手术辅助外科医生和患者,但外科医生经常需要调整内窥镜摄像头以实现良好的观点。同时控制相机和外科手术器械是不可能的,因此,这些相机调整反复中断手术。自主摄像机控制可以帮助克服这一挑战,但大多数现有系统都是反应性的,例如,通过使相机遵循外科手术器械。当使用人工神经网络发生相机运动时,我们提出了一种预测的方法,以期待相机运动。我们使用了手术器械的运动学数据,这些数据在猪模型的机器人辅助手术训练中记录。我们将数据拆分为段,并将其标记为立即在相机移动之前的段,或者段。由于阶级的不平衡庞大,我们培训了一个网络的集合,每个网络都在训练数据的平衡子集上。我们发现仪器的运动学数据可用于预测当发生相机运动时,并在不同段持续时间和合奏尺寸上进行评估。我们还研究了预测即将到来的相机运动的提前多少,并且发现预测相机运动0.25,0.5和1秒,在它们发生的情况下实现98%,94%和84%的精度相对于迫在眉睫的预测相机运动。这表明可以早期预测相机运动事件以留出计算和执行自主摄像机运动的时间,并表明可以有一天可以是可行的RAMIS的自主摄像机控制器。
translated by 谷歌翻译
我们介绍了遮阳板,一个新的像素注释的新数据集和一个基准套件,用于在以自我为中心的视频中分割手和活动对象。遮阳板注释Epic-kitchens的视频,其中带有当前视频分割数据集中未遇到的新挑战。具体而言,我们需要确保像素级注释作为对象经历变革性相互作用的短期和长期一致性,例如洋葱被剥皮,切成丁和煮熟 - 我们旨在获得果皮,洋葱块,斩波板,刀,锅以及表演手的准确像素级注释。遮阳板引入了一条注释管道,以零件为ai驱动,以进行可伸缩性和质量。总共,我们公开发布257个对象类的272K手册语义面具,990万个插值密集口罩,67K手动关系,涵盖36小时的179个未修剪视频。除了注释外,我们还引入了视频对象细分,互动理解和长期推理方面的三个挑战。有关数据,代码和排行榜:http://epic-kitchens.github.io/visor
translated by 谷歌翻译
开放程序代表全球手术的主要形式。人工智能(AI)有可能优化手术实践并改善患者结果,但努力主要集中在微创技术上。我们的工作通过策划,从YouTube,从YouTube,Open Surgical视频的最大数据集克服了培训AI模型的现有数据限制:1997年从50个国家上传的23个外科手术的视频。使用此数据集,我们开发了一种能够实时了解外科行为,手和工具的多任务AI模型 - 程序流程和外科医生技能的构建块。我们表明我们的模型推广了各种外科类型和环境。说明这种普遍性,我们直接应用了YouTube培训的模型,分析了在学术医疗中心前瞻性收集的开放式手术,并确定了与手动效率相关的外科技能的运动学描述符。我们的开放外科(AVOS)数据集和培训模式的注释视频将可用于进一步发展外科艾。
translated by 谷歌翻译
基于标记的光运动捕获(OMC)系统和相关的肌肉骨骼(MSK)建模预测提供了能够洞悉体内关节和肌肉载荷的能力,并有助于临床决策。但是,OMC系统基于实验室,昂贵,需要视线。一种广泛使用的替代方案是惯性运动捕获(IMC)系统,该系统具有便携式,用户友好且相对较低的成本,尽管它不如OMC系统准确。不管选择运动捕获技术的选择,都需要使用MSK模型来获取运动学和动力学输出,这是一种计算昂贵的工具,越来越多地通过机器学习(ML)方法近似。在这里,我们提出了一种ML方法,将IMC数据映射到从OMC输入数据计算出的人类上限MSK输出。从本质上讲,我们试图从相对易于获取的IMC数据中预测高质量的MSK输出。我们使用同一受试者同时收集的OMC和IMC数据来训练ML(前馈多层感知器)模型,该模型可预测IMC测量值的基于OMC的MSK输出。我们证明我们的ML预测与所需的基于OMC的MSK估计值具有很高的一致性。因此,这种方法将有助于将基于OMC的系统不可行的“实验室到现场”的技术发挥作用。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
人类和许多动物都表现出稳健的能力来操纵不同的物体,通常与他们的身体直接和有时与工具间接地进行操作。这种灵活性可能是由物理处理的基本一致性,例如接触和力闭合。通过将工具视为我们的机构的扩展来启发,我们提出了工具 - 作为实施例(TAE),用于处理同一表示空间中的手动对象和工具对象交互的基于工具的操作策略的参数化。结果是单一策略,可以在机器人上递归地应用于使用结束效果来操纵对象,并使用对象作为工具,即新的最终效果,以操纵其他对象。通过对不同实施例的共享经验进行掌握或推动,我们的政策表现出比训练单独的政策更高的性能。我们的框架可以利用将对启用工具的实施例的不同分辨率的所有经验用于每个操纵技能的单个通用策略。 https://sites.google.com/view/recursivemanipulation的视频
translated by 谷歌翻译
骨科疾病在马匹中常见,通常导致安乐死,这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的,因为所产生的疼痛行为也是微妙的,稀疏出现,变得不同,使得甚至是专家兰德尔的挑战,为数据提供准确的地面真实性。我们表明,一款专业培训的模型,仅涉及急性实验疼痛的马匹(标签不那么暧昧)可以帮助识别更微妙的骨科疼痛显示。此外,我们提出了一个问题的人类专家基线,以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后,这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。
translated by 谷歌翻译