The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Real-time monocular 3D reconstruction is a challenging problem that remains unsolved. Although recent end-to-end methods have demonstrated promising results, tiny structures and geometric boundaries are hardly captured due to their insufficient supervision neglecting spatial details and oversimplified feature fusion ignoring temporal cues. To address the problems, we propose an end-to-end 3D reconstruction network SST, which utilizes Sparse estimated points from visual SLAM system as additional Spatial guidance and fuses Temporal features via a novel cross-modal attention mechanism, achieving more detailed reconstruction results. We propose a Local Spatial-Temporal Fusion module to exploit more informative spatial-temporal cues from multi-view color information and sparse priors, as well a Global Spatial-Temporal Fusion module to refine the local TSDF volumes with the world-frame model from coarse to fine. Extensive experiments on ScanNet and 7-Scenes demonstrate that SST outperforms all state-of-the-art competitors, whilst keeping a high inference speed at 59 FPS, enabling real-world applications with real-time requirements.
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
类别级别的姿势估计是由于类内形状变化而导致的一个具有挑战性的问题。最近的方法变形了预计的形状先验,将观察到的点云映射到归一化对象坐标空间中,然后通过后处理(即Umeyama的算法)检索姿势。这种两阶段策略的缺点在于两个方面:1)中间结果的替代监督无法直接指导姿势的学习,从而导致后期处理后造成了较大的姿势错误。 2)推理速度受后处理步骤的限制。在本文中,为了处理这些缺点,我们为类别级别的姿势估计提出了一个可端到端的可训练网络SSP置换,该网络将Shape Priors整合到直接的姿势回归网络中。 SSP置位堆栈在共享特征提取器上的四个单独分支,其中两个分支旨在变形和匹配先前的模型与观察到的实例,并应用了其他两个分支,以直接回归完全9度的自由度姿势和分别执行对称性重建和点对上的掩码预测。然后,自然利用一致性损失项,以对齐不同分支的产出并促进性能。在推断期间,仅需要直接姿势回归分支。通过这种方式,SSP置态不仅学习类别级别的姿势敏感特征以提高性能,而且还可以保持实时推理速度。此外,我们利用每个类别的对称信息来指导形状事先变形,并提出一种新颖的对称性损失来减轻匹配的歧义。公共数据集的广泛实验表明,与竞争对手相比,SSP置孔在约25Hz的实时推理速度中产生了出色的性能。
translated by 谷歌翻译
类别级的对象姿势估计旨在预测已知类别集的任意对象的6D姿势以及3D度量大小。最近的方法利用了先验改编的形状,以将观察到的点云映射到规范空间中,并应用Umeyama算法以恢复姿势和大小。然而,它们的形状先验整合策略间接增强了姿势估计,从而导致姿势敏感的特征提取和推理速度缓慢。为了解决这个问题,在本文中,我们提出了一个新颖的几何形状引导的残留对象边界框投影网络RBP置rbp置置,该框架共同预测对象的姿势和残留的矢量,描述了从形状优先指示的对象表面投影中的位移迈向真实的表面投影。残留矢量的这种定义本质上是零均值且相对较小,并且明确封装了3D对象的空间提示,以进行稳健和准确的姿势回归。我们强制执行几何学意识的一致性项,以使预测的姿势和残留向量对齐以进一步提高性能。
translated by 谷歌翻译
关节2D心脏分割和3D体积重建是建立统计心脏解剖模型的基础,并了解运动模式的功能机制。但是,由于CINE MR和高主体间方差的平面分辨率低,精确分割心脏图像并重建3D体积是具有挑战性的。在这项研究中,我们提出了一个基于潜在空间的端到端框架DeepRecon,该框架会产生多个临床上基本的结果,包括准确的图像分割,合成高分辨率3D图像和3D重建体积。我们的方法确定了Cine图像的最佳潜在表示,其中包含心脏结构的准确语义信息。特别是,我们的模型共同生成具有准确的语义信息的合成图像,并使用最佳潜在表示对心脏结构进行分割。我们进一步探索了3D形状重建和4D运动模式通过不同的潜在空间操纵策略进行适应的下游应用。同时生成的高分辨率图像具有评估心脏形状和运动的高可解释价值。实验性结果证明了我们的有效性在多个方面的方法,包括2D分割,3D重建,下游4D运动模式适应性。
translated by 谷歌翻译
无监督域自适应对象检测的自我训练是一项艰巨的任务,其性能在很大程度上取决于伪盒的质量。尽管结果有令人鼓舞,但先前的工作在很大程度上忽略了自训练期间伪箱的不确定性。在本文中,我们提出了一个简单而有效的框架,称为概率教师(PT),该框架旨在从逐渐发展的教师中捕获未标记的目标数据的不确定性,并以互惠互利的方式指导学生学习学生。具体而言,我们建议利用不确定性引导的一致性训练来促进分类适应和本地化适应,而不是通过精心设计的置信度阈值过滤伪盒。此外,我们与定位适应同时进行锚定适应性,因为锚被视为可学习的参数。与此框架一起,我们还提出了一种新颖的熵局灶性损失(EFL),以进一步促进不确定性引导的自我训练。配备了EFL,PT的表现优于所有以前的基线,并实现了新的最先进。
translated by 谷歌翻译
组合来自多视图图像的信息对于提高自动化方法的疾病诊断方法的性能和鲁棒性至关重要。但是,由于多视图图像的非对齐特性,跨视图的构建相关性和数据融合在很大程度上仍然是一个开放的问题。在这项研究中,我们提出了输血,这是一种基于变压器的体系结构,可使用卷积层和强大的注意机制合并不同的多视图成像信息。特别是,针对丰富的跨视图上下文建模和语义依赖性挖掘,提出了发散的融合注意(DIFA)模块,以解决从不同图像视图中捕获未对齐数据之间的长期相关性的关键问题。我们进一步提出了多尺度注意(MSA),以收集多尺度特征表示的全局对应关系。我们评估了心脏MRI(M \&MS-2)挑战队列中多疾病,多视图\&多中心右心室分段的输血。输血表明了针对最先进方法的领先绩效,并为多视图成像集成的新观点打开了稳健的医学图像分割。
translated by 谷歌翻译
在不同观点之间找到准确的对应关系是无监督的多视图立体声(MVS)的跟腱。现有方法是基于以下假设:相应的像素具有相似的光度特征。但是,在实际场景中,多视图图像观察到非斜面的表面和经验遮挡。在这项工作中,我们提出了一种新颖的方法,即神经渲染(RC-MVSNET),以解决观点之间对应关系的歧义问题。具体而言,我们施加了一个深度渲染一致性损失,以限制靠近对象表面的几何特征以减轻遮挡。同时,我们引入了参考视图综合损失,以产生一致的监督,即使是针对非兰伯特表面。关于DTU和TANKS \&Temples基准测试的广泛实验表明,我们的RC-MVSNET方法在无监督的MVS框架上实现了最先进的性能,并对许多有监督的方法进行了竞争性能。该代码在https://github.com/上发布。 BOESE0601/RC-MVSNET
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译