The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
本文报告了Chalearn的Autodl挑战系列的结果和后攻击分析,这有助于对自动学习(DL)进行分类,以便在各种环境中引入的深度学习(DL),但缺乏公平的比较。格式化所有输入数据模型(时间序列,图像,视频,文本,表格)作为张量,所有任务都是多标签分类问题。代码提交已在隐藏的任务上执行,具有限制时间和计算资源,推动快速获取结果的解决方案。在此设置中,DL方法占主导地位,但流行的神经结构搜索(NAS)是不切实际的。解决方案依赖于微调预培训的网络,架构匹配数据模块。挑战后测试没有透露超出强加时间限制的改进。虽然没有组件尤其原始或新颖,但是一个高级模块化组织出现了“Meta-Learner”,“数据摄入”,“模型选择器”,“模型/学习者”和“评估员”。这种模块化使得消融研究,揭示了(离坡)元学习,合奏和高效数据管理的重要性。异构模块组合的实验进一步证实了获胜解决方案的(本地)最优性。我们的挑战队遗产包括一个持久的基准(http://utodl.chalearn.org),获胜者的开放源代码,以及免费的“autodl自助服务”。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
本文提出了第二版的头部和颈部肿瘤(Hecktor)挑战的概述,作为第24届医学图像计算和计算机辅助干预(Miccai)2021的卫星活动。挑战由三个任务组成与患有头颈癌(H&N)的患者的PET / CT图像的自动分析有关,专注于oropharynx地区。任务1是FDG-PET / CT图像中H&N主肿瘤肿瘤体积(GTVT)的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存(PFS)的自动预测。最后,任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集,总共325个图像,分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与,突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数(DSC),分别在任务2和3中的0.7196和0.6978的一致性指数(C-Index)。在所有任务中,发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明,提供GTVT轮廓对于实现最佳结果,这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求,用于可重复和大规模的辐射瘤研究的开头途径,包括千元潜在的受试者。
translated by 谷歌翻译
数据对于机器学习(ML)模型的开发和评估至关重要。但是,在部署所得模型时,使用有问题或不适当的数据集可能会造成危害。为了通过对数据集进行更故意的反思和创建过程的透明度来鼓励负责任的练习,研究人员和从业人员已开始倡导增加数据文档,并提出了几个数据文档框架。但是,几乎没有研究这些数据文档框架是否满足创建和消费数据集的ML从业者的需求。为了解决这一差距,我们着手了解ML从业人员的数据文档感知,需求,挑战和Desiderata,目的是推导设计要求,以便为将来的数据文档框架提供信息。我们对一家大型国际技术公司的14名ML从业者进行了一系列半结构化访谈。我们让他们回答从数据集的数据表中提取的问题列表(Gebru,2021)。我们的发现表明,目前的数据文档方法在很大程度上是临时的,而且本质上是近视的。参与者表达了对数据文档框架的需求,可以适应其上下文,并将其集成到现有的工具和工作流程中,并尽可能自动化。尽管事实上,数据文档框架通常是从负责人的AI的角度出发的,但参与者并未在他们被要求回答的问题与负责的AI含义之间建立联系。此外,参与者通常会在数据集消费者的需求中优先考虑,并提供了不熟悉其数据集可能需要知道的信息。基于这些发现,我们为将来的数据文档框架得出了七个设计要求。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
Datathon是一项涉及应用于特定问题的数据科学的时间限制的竞争。在过去的十年中,DATATHON已被证明是领域和专业知识之间的宝贵桥梁。生物医学数据分析是一个具有挑战性的领域,需要工程师,生物学家和医生之间的合作,以更好地了解患者生理学以及指导诊断,预后和治疗干预措施以改善护理实践的指导决策过程。在这里,我们反思了我们在2022年3月底在MIT关键数据组,Rambam Health Care Campus(Rambam)和Haifa技术以色列技术研究所(Technion Institute of Haifa)在以色列组织的活动的结果。要求参与者完成有关他们的技能和兴趣的调查,这使我们能够确定机器学习培训对医疗问题应用的最新需求。这项工作描述了以色列背景下医学数据科学的机会和局限性。
translated by 谷歌翻译
乳腺癌是女性最常见的恶性肿瘤,每年负责超过50万人死亡。因此,早期和准确的诊断至关重要。人类专业知识是诊断和正确分类乳腺癌并定义适当的治疗,这取决于评价不同生物标志物如跨膜蛋白受体HER2的表达。该评估需要几个步骤,包括免疫组织化学或原位杂交等特殊技术,以评估HER2状态。通过降低诊断中的步骤和人类偏差的次数的目标,赫洛挑战是组织的,作为第16届欧洲数字病理大会的并行事件,旨在自动化仅基于苏木精和曙红染色的HER2地位的评估侵袭性乳腺癌的组织样本。评估HER2状态的方法是在全球21个团队中提出的,并通过一些提议的方法实现了潜在的观点,以推进最先进的。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
生物医学图像分析算法验证取决于参考数据集的高质量注释,标记指令是关键。尽管它们的重要性,但他们的优化仍然没有得到探索。在这里,我们介绍了对标签指令及其对该领域注释质量的影响的首次系统研究。通过对Miccai协会注册的专业实践和国际比赛的全面检查,我们发现了注释者对标签说明的标签需求及其当前质量和可用性之间的差异。基于对156家专业公司的156个注释者和708个亚马逊机械土耳其人(MTURK)人群的注释者的14040张图像的分析,使用具有不同信息密度级别的说明,我们进一步发现,包括示例性图像与文本描述,唯一的描述,示例性图像显着增强了注释性能,虽然仅扩展文本说明并非如此。最后,专业注释者不断优于mturk人群。我们的研究提高了对生物医学图像分析标签指令中质量标准的需求的认识。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译
机器学习和计算机视觉技术近年来由于其自动化,适合性和产生惊人结果的能力而迅速发展。因此,在本文中,我们调查了2014年至2022年之间发表的关键研究,展示了不同的机器学习算法研究人员用来分割肝脏,肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织(肝果,肝肿瘤或肝毒剂)对被调查的研究进行了划分,强调了同时解决多个任务的研究。此外,机器学习算法被归类为受监督或无监督的,如果属于某个方案的工作量很大,则将进一步分区。此外,对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论,强调了组织者的原始贡献和其他研究人员的贡献。同样,在我们的评论中提到了文献中过度使用的指标,这强调了它们与手头的任务的相关性。最后,强调创新研究人员应对需要解决的差距的关键挑战和未来的方向,例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。
translated by 谷歌翻译
Timely and effective feedback within surgical training plays a critical role in developing the skills required to perform safe and efficient surgery. Feedback from expert surgeons, while especially valuable in this regard, is challenging to acquire due to their typically busy schedules, and may be subject to biases. Formal assessment procedures like OSATS and GEARS attempt to provide objective measures of skill, but remain time-consuming. With advances in machine learning there is an opportunity for fast and objective automated feedback on technical skills. The SimSurgSkill 2021 challenge (hosted as a sub-challenge of EndoVis at MICCAI 2021) aimed to promote and foster work in this endeavor. Using virtual reality (VR) surgical tasks, competitors were tasked with localizing instruments and predicting surgical skill. Here we summarize the winning approaches and how they performed. Using this publicly available dataset and results as a springboard, future work may enable more efficient training of surgeons with advances in surgical data science. The dataset can be accessed from https://console.cloud.google.com/storage/browser/isi-simsurgskill-2021.
translated by 谷歌翻译
尽管深度神经网络能够在各种任务上实现优于人类的表现,但他们臭名昭著,因为他们需要大量的数据和计算资源,将其成功限制在可用的这些资源的领域。金属学习方法可以通过从相关任务中转移知识来解决此问题,从而减少学习新任务所需的数据和计算资源的数量。我们组织了元数据竞赛系列,该系列为世界各地的研究小组提供了创建和实验评估实际问题的新元学习解决方案的机会。在本文中,我们在竞争组织者和排名最高的参与者之间进行了合作,我们描述了竞争的设计,数据集,最佳实验结果以及Neurips 2021挑战中最高的方法,这些方法吸引了15进入最后阶段的活跃团队(通过表现优于基线),在反馈阶段进行了100多次代码提交。顶级参与者的解决方案是开源的。汲取的经验教训包括学习良好的表示对于有效的转移学习至关重要。
translated by 谷歌翻译
State-of-the-art brain tumor segmentation is based on deep learning models applied to multi-modal MRIs. Currently, these models are trained on images after a preprocessing stage that involves registration, interpolation, brain extraction (BE, also known as skull-stripping) and manual correction by an expert. However, for clinical practice, this last step is tedious and time-consuming and, therefore, not always feasible, resulting in skull-stripping faults that can negatively impact the tumor segmentation quality. Still, the extent of this impact has never been measured for any of the many different BE methods available. In this work, we propose an automatic brain tumor segmentation pipeline and evaluate its performance with multiple BE methods. Our experiments show that the choice of a BE method can compromise up to 15.7% of the tumor segmentation performance. Moreover, we propose training and testing tumor segmentation models on non-skull-stripped images, effectively discarding the BE step from the pipeline. Our results show that this approach leads to a competitive performance at a fraction of the time. We conclude that, in contrast to the current paradigm, training tumor segmentation models on non-skull-stripped images can be the best option when high performance in clinical practice is desired.
translated by 谷歌翻译
学习曲线的元学习是机器学习社区中一个重要但经常被忽视的研究领域。我们介绍了一系列基于学习的基于学习的元学习挑战,其中代理商根据来自环境的学习曲线的反馈来寻找适合给定数据集的最佳算法。第一轮吸引了学术界和工业的参与者。本文分析了第一轮的结果(被WCCI 2022的竞争计划接受),以了解使元学习者成功从学习曲线学习的东西。通过从第一轮中学到的教训以及参与者的反馈,我们通过新的协议和新的元数据设计设计了第二轮挑战。我们的第二轮挑战在2022年Automl-Conf中被接受,目前正在进行中。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译