Surgical robot automation has attracted increasing research interest over the past decade, expecting its huge potential to benefit surgeons, nurses and patients. Recently, the learning paradigm of embodied AI has demonstrated promising ability to learn good control policies for various complex tasks, where embodied AI simulators play an essential role to facilitate relevant researchers. However, existing open-sourced simulators for surgical robot are still not sufficiently supporting human interactions through physical input devices, which further limits effective investigations on how human demonstrations would affect policy learning. In this paper, we study human-in-the-loop embodied intelligence with a new interactive simulation platform for surgical robot learning. Specifically, we establish our platform based on our previously released SurRoL simulator with several new features co-developed to allow high-quality human interaction via an input device. With these, we further propose to collect human demonstrations and imitate the action patterns to achieve more effective policy learning. We showcase the improvement of our simulation environment with the designed new features and tasks, and validate state-of-the-art reinforcement learning algorithms using the interactive environment. Promising results are obtained, with which we hope to pave the way for future research on surgical embodied intelligence. Our platform is released and will be continuously updated in the website: https://med-air.github.io/SurRoL/
translated by 谷歌翻译
Brain midline shift (MLS) is one of the most critical factors to be considered for clinical diagnosis and treatment decision-making for intracranial hemorrhage. Existing computational methods on MLS quantification not only require intensive labeling in millimeter-level measurement but also suffer from poor performance due to their dependence on specific landmarks or simplified anatomical assumptions. In this paper, we propose a novel semi-supervised framework to accurately measure the scale of MLS from head CT scans. We formulate the MLS measurement task as a deformation estimation problem and solve it using a few MLS slices with sparse labels. Meanwhile, with the help of diffusion models, we are able to use a great number of unlabeled MLS data and 2793 non-MLS cases for representation learning and regularization. The extracted representation reflects how the image is different from a non-MLS image and regularization serves an important role in the sparse-to-dense refinement of the deformation field. Our experiment on a real clinical brain hemorrhage dataset has achieved state-of-the-art performance and can generate interpretable deformation fields.
translated by 谷歌翻译
在本文中,我们提出了一种新颖的,通用的数据驱动方法,用于伺服控制连续机器人的3-D形状,并嵌入了纤维bragg光栅(FBG)传感器。 3D形状感知和控制技术的发展对于连续机器人在手术干预中自主执行任务至关重要。但是,由于连续机器人的非线性特性,主要难度在于它们的建模,尤其是对于具有可变刚度的软机器人。为了解决这个问题,我们通过利用FBG形状反馈和神经网络(NNS)提出了一个新的健壮自适应控制器,该反馈和神经网络(NNS)可以在线估算连续机器人的未知模型,并说明了意外的干扰以及NN近似错误,该错误表现出适应性行为对适应性行为呈现没有先验数据探索的未建模系统。基于新的复合适应算法,Lyapunov理论证明了具有NNS学习参数的闭环系统的渐近收敛。为了验证所提出的方法,我们通过使用两个连续机器人进行了一项全面的实验研究,这些连续机器人都与多核FBG集成,包括机器人辅助结肠镜和多部分可扩展的软操纵剂。结果表明,在各种非结构化环境以及幻影实验中,我们的控制器的可行性,适应性和优越性。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
计算机辅助的微创手术在使现代经营剧院受益方面具有巨大的潜力。从内窥镜流传输的视频数据提供了丰富的信息,以支持下一代智能手术系统的上下文意识。为了在手术过程中获得准确的感知和自动操纵,基于学习的技术是一种有希望的方法,近年来可以实现先进的图像分析和场景理解。但是,学习此类模型高度依赖于大规模,高质量和多任务标签的数据。目前,这是该主题的瓶颈,因为可用的公共数据集在CAI领域仍然非常有限。在本文中,我们介绍并发布了第一个具有多个基于图像的感知任务的集成数据集(称为Autolaparo),以促进子宫切除术手术中的基于学习的自动化。我们的Autolaparo数据集是根据整个子宫切除术程序的全长视频开发的。具体而言,数据集中制定了三个不同但高度相关的任务,包括手术工作流识别,腹腔镜运动预测以及仪器和关键解剖学细分。此外,我们还提供了最先进模型的实验结果,作为参考基准,用于该数据集的进一步模型开发和评估。该数据集可从https://autolaparo.github.io获得。
translated by 谷歌翻译
当1)培训数据集的类别分布P(Y)时,机器学习模型无法在现实世界应用程序上表现良好。现有方法无法处理存在两个问题的方案,但是对于现实世界应用程序来说,这很常见。在这项研究中,我们向前迈出了一步,研究了域转移下的长尾分类问题。我们设计了三个新颖的核心功能块,包括分布校准的分类损失,视觉语义映射和语义相似性引导性增强。此外,我们采用了一个元学习框架,该框架集成了这三个区块,以改善对看不见的目标域的域概括。为此问题提出了两个新的数据集,称为AWA2-LTS和Imagenet-LTS。我们在两个数据集上评估了我们的方法,并且广泛的实验结果表明,我们提出的方法可以比最新的长尾/域概括方法和组合实现优越的性能。源代码和数据集可以在我们的项目页面https://xiaogu.site/ltds上找到。
translated by 谷歌翻译
手术场景细分对于促使机器人手术的认知援助至关重要。但是,以逐帧方式以像素为单位的注释视频是昂贵且耗时的。为了大大减轻标签负担,在这项工作中,我们从机器人手术视频中研究了半监督的场景细分,这实际上是必不可少的,但以前很少探索。我们考虑在等距采样下的临床上适当的注释情况。然后,我们提出了PGV-CL,这是一种新型的伪标签引导的跨视频对比学习方法,以增强场景分割。它有效地利用了未标记的数据来实现可信赖和全球模型的正则化,从而产生更具歧视性的特征表示。具体来说,对于可信赖的表示学习,我们建议合并伪标签以指导对选择,从而获得更可靠的代表对像素对比度。此外,我们将代表学习空间从以前的图像级扩展到交叉视频,该图像可以捕获全球语义以使学习过程受益。我们广泛评估了公共机器人手术数据集Edovis18和公共白内障数据集Cadis的方法。实验结果证明了我们方法的有效性,在不同的标签比下始终超过了最先进的半监督方法,甚至超过了10.1%标签的destovis18上的全面监督培训。
translated by 谷歌翻译
课堂分配在学习深分类器中起着重要的作用。当测试集中每个类的比例与训练集不同时,分类网的性能通常会降低。由于疾病的患病率在位置和时间上有所不同,因此这种标签分布转移问题在医学诊断中很常见。在本文中,我们提出了第一种解决医疗图像分类标签转移的方法,该方法有效地适应了从单个培训标签分布中学到的模型,以使其成为任意未知的测试标签分布。我们的方法创新了分配校准以学习多个代表性分类器,这些分类器能够处理不同的一级分布。当给出测试图像时,不同的分类器通过一致性驱动的测试时间适应动态聚合,以处理未知的测试标签分布。我们在两个重要的医学图像分类任务上验证方法,包括肝纤维化分期和COVID-19的严重性预测。我们的实验清楚地表明了标签移位下的模型性能下降。通过我们的方法,模型性能可显着改善所有测试数据集,这些数据集具有不同的标签变化,用于两项医学图像诊断任务。
translated by 谷歌翻译
内窥镜立体视频的机器人手术中软组织的重建对于许多应用非常重要,例如术中导航和图像引导的机器人手术自动化。此任务的先前工作主要依赖于基于SLAM的方法,这些方法难以处理复杂的手术场景。受神经渲染的最新进展的启发,我们提出了一个新颖的框架,用于在单视图设置下从机器人手术中的双眼捕获中进行可变形的组织重建。我们的框架采用动态神经辐射场,以表示MLP中的可变形外科手术场景,并以基于学习的方式优化形状和变形。除了非刚性变形外,从单个角度来看,工具阻塞和差的3D线索也是软组织重建的特殊挑战。为了克服这些困难,我们提出了一系列工具掩模引导的射线铸造,立体声深度提示射线行进和立体声深度避免优化的策略。通过关于Davinci机器人手术视频的实验,我们的方法显着优于处理各种复杂非刚性变形的当前最新重建方法。据我们所知,这是利用神经渲染的第一批作品,用于手术场景3D重建,具有显着的潜力。代码可在以下网址获得:https://github.com/med-air/endonerf。
translated by 谷歌翻译
域的概括通常需要来自多个源域的数据才能进行模型学习。但是,这种强大的假设可能并不总是在实践中成立,尤其是在数据共享高度关注,有时由于隐私问题而高度刺激的医学领域。本文研究了重要但具有挑战性的单个领域概括问题,其中在最坏情况下仅具有一个源域,可以直接概括到不同看不见的目标域。我们提出了一种在医学图像分割中解决此问题的新方法,该方法可以提取并集成了跨域不变的分割的语义形状的先验信息,即使是从单个域数据中也可以很好地捕捉,以促进分布偏移下的分割。此外,进一步设计了具有双偶然性正则化的测试时间适应策略,以促进每个看不见的域下这些形状先验的动态融合,以提高模型的通用性。对两个医学图像分割任务进行的广泛实验证明了我们在各种看不见的领域中的方法的一致改进,以及在最坏情况下,它比最先进的方法相比,它优于最先进的方法。
translated by 谷歌翻译