The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在强化学习中,蒙特卡洛算法通过平均偶发回报来更新Q功能。在Monte Carlo UCB(MC-UCB)算法中,在每个状态下采取的动作是最大化Q函数加上UCB勘探项的动作,该术语偏向于选择频率较低的动作的选择。尽管在为MC-UCB建立遗憾界限方面已经进行了重要的工作,但大多数工作都集中在该问题的有限培训版本上,每个情节都在不断数量的步骤后终止。对于此类有限的Horizo​​n问题,最佳策略既取决于当前状态和情节中的时间。但是,对于许多自然的情节问题,例如GO,CHESS和机器人任务等游戏,该情节是随机的,最佳政策是静止的。对于此类环境,MC-UCB中的Q功能是否会收敛到最佳Q函数,这是一个空旷的问题。我们猜想,与Q学习不同,它并不是所有MDP的收敛。尽管如此,我们表明,对于大型MDP,其中包括二十一点和确定性MDP等随机MDP,例如GO,MC-UCB中的Q功能几乎可以肯定地收敛到最佳Q函数。该结果的直接推论是,它几乎肯定会为所有有限的Horizo​​n MDP收敛。我们还提供了数值实验,为MC-UCB提供了进一步的见解。
translated by 谷歌翻译
由于它们在现实世界中的广泛采用,提高深神经网络(DNN)的运行时性能至关重要。现有的优化DNN的张量代数表达的方法仅考虑由固定的预定义运算符表示的表达式,在一般表达式之间缺少可能的优化机会。我们提出了Ollie,这是第一个基于衍生的张量程序优化器。 Ollie通过利用一般张量代数表达式之间的转换来优化张量程序,从而实现了一个更大的表达搜索空间,其中包括由先前工作作为特殊情况支持的搜索空间。 Ollie使用基于混合衍生的优化器,该优化器有效地结合了探索性和指导性推导,以快速发现高度优化的表达式。对七个DNN的评估表明,Ollie可以在A100 GPU上胜过2.73 $ \ times $(平均为1.46美元$ \ times $),在V100上最多可超过2.68 $ \ times $(1.51 $ \ times $) GPU分别。
translated by 谷歌翻译
最近的发现(例如ARXIV:2103.00065)表明,通过全批梯度下降训练的现代神经网络通常进入一个称为稳定边缘(EOS)的政权。在此制度中,清晰度(即最大的Hessian特征值)首先增加到值2/(步长尺寸)(渐进锐化阶段),然后在该值(EOS相)周围振荡。本文旨在分析沿优化轨迹的GD动力学和清晰度。我们的分析自然将GD轨迹分为四个阶段,具体取决于清晰度的变化。从经验上,我们将输出层重量的规范视为清晰动力学的有趣指标。基于这一经验观察,我们尝试从理论和经验上解释导致EOS每个阶段清晰度变化的各种关键量的动力学。此外,基于某些假设,我们提供了两层完全连接的线性神经网络中EOS制度的清晰度行为的理论证明。我们还讨论了其他一些经验发现以及我们的理论结果的局限性。
translated by 谷歌翻译
由于其效率,一声神经架构搜索(NAS)已被广泛用于发现架构。但是,先前的研究表明,由于架构之间的操作参数过度共享(即大共享范围),架构的一声绩效估计可能与他们在独立培训中的表现没有很好的相关性。因此,最近的方法构建了更高参数化的超级链,以降低共享程度。但是这些改进的方法引入了大量额外的参数,因此在培训成本和排名质量之间导致不良的权衡。为了减轻上述问题,我们建议将课程学习应用于共享范围(接近),以有效地训练超级网。具体而言,我们在一开始就以很大的共享范围(简单的课程)训练超网,并逐渐降低了超级网的共享程度(更难的课程)。为了支持这种培训策略,我们设计了一个新颖的超级网(闭合性),该超级网(CLESENET)将参数从操作中解耦,以实现灵活的共享方案和可调节的共享范围。广泛的实验表明,与其他一击的超级网络相比,Close可以在不同的计算预算限制中获得更好的排名质量,并且在与各种搜索策略结合使用时能够发现出色的体系结构。代码可从https://github.com/walkerning/aw_nas获得。
translated by 谷歌翻译
我们提出了一个使用脑MRI的阿尔茨海默氏病(AD)检测的新型框架。该框架从称为脑感知替代品(BAR)的数据增强方法开始,该方法利用标准的脑部分割来替代与随机挑选的MRI锚固MRI中的医学相关的3D脑区域,以创建合成样品。地面真相“硬”标签也根据替换比的不同,以创建“软”标签。与其他基于混合的方法(例如CutMix)相比,BAR可产生各种各样的逼真的合成MRI,具有较高局部变异性。在酒吧之上,我们建议使用具有软标签能力的监督对比损失,旨在了解表示形式的相对相似性,这些相似性反映了使用我们的软标签的合成MRI的混合方式。这样,我们就不会充分耗尽硬标签的熵能力,因为我们只使用它们来通过bar创建软标签和合成MRI。我们表明,使用用于创建合成样品的硬质标签的跨凝结损失,可以通过跨凝性损失进行预训练的模型。我们在二进制广告检测任务中验证了框架的性能,以与从划伤的监督培训和最先进的自我监督培训以及微调方法进行验证。然后,我们通过将BAR的个人性能与另一个基于混合的方法CutMix进行了整合,从而评估了BAR的个人性能。我们表明,我们的框架在AD检测任务的精确度和回忆中都产生了卓越的结果。
translated by 谷歌翻译
作为多模式图像对,红外和可见图像在同一场景的表达中显示出显着差异。图像融合任务面临两个问题:一个是保持不同方式之间的独特功能,而另一个是将功能保持在本地和全局功能等各个层面。本文讨论了图像融合中深度学习模型的局限性和相应的优化策略。基于人为设计的结构和约束,我们将模型分为明确的模型,并将模型自适应地学习高级功能或可以建立全局像素关联。筛选了21个测试组的十种比较实验模型。定性和定量结果表明,隐式模型具有更全面的学习图像特征的能力。同时,需要提高它们的稳定性。针对现有算法要解决的优势和局限性,我们讨论了多模式图像融合和未来研究方向的主要问题。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
本文研究了情绪分类(SC)的持续学习(CL)。在此设置中,CL系统在神经网络中逐步了解一系列SC任务,其中每个任务构建分类器以对特定产品类别或域的评论的情绪进行分类。两个自然问题是:系统可以将过去的知识从以前的任务转移到新任务中,帮助它为新任务学习更好的模型吗?而且,先前任务的旧模型也在过程中得到改善?本文提出了一种称为KAN的新技术来实现这些目标。KAN可以通过前向和向后知识转移来显着提高新任务和旧任务的SC准确性。通过广泛的实验证明了KAN的有效性。
translated by 谷歌翻译
肝癌是世界上最常见的恶性疾病之一。 CT图像中肝脏肿瘤和血管的分割和标记可以为肝脏肿瘤诊断和手术干预中的医生提供便利。在过去的几十年中,基于深度学习的自动CT分段方法在医学领域得到了广泛的关注。在此期间出现了许多最先进的分段算法。然而,大多数现有的分割方法只关心局部特征背景,并在医学图像的全局相关性中具有感知缺陷,这显着影响了肝脏肿瘤和血管的分割效果。我们引入了一种基于变压器和SebottLenet的多尺度特征上下文融合网络,称为TransFusionNet。该网络可以准确地检测和识别肝脏容器的兴趣区域的细节,同时它可以通过利用CT图像的全球信息来改善肝肿瘤的形态边缘的识别。实验表明,TransFusionNet优于公共数据集LITS和3DIRCADB以及我们的临床数据集的最先进方法。最后,我们提出了一种基于训练模型的自动三维重建算法。该算法可以在1秒内快速准确地完成重建。
translated by 谷歌翻译