由于物体形状和图案(例如器官或肿瘤)的高可变性,3D医学图像的语义分割是一个具有挑战性的任务。鉴于最近在医学图像分割中深入学习的成功,已经引入了神经结构搜索(NAS)以查找高性能3D分段网络架构。但是,由于3D数据的大量计算要求和架构搜索的离散优化性质,之前的NAS方法需要很长的搜索时间或必要的连续放松,并且通常导致次优网络架构。虽然单次NAS可能会解决这些缺点,但其在分段域中的应用尚未在膨胀的多尺度多路径搜索空间中进行很好地研究。为了为医学图像分割启用一次性NAS,我们的方法名为Hypersegnas,介绍了通过结合建筑拓扑信息来帮助超级培训培训。在培训超级网络培训并在架构搜索期间引入开销时,可以删除这种超空头。我们表明,与以前的最先进的(SOTA)分割网络相比,Hypersegnas产生更好的表现和更直观的架构;此外,它可以在不同的计算限制下快速准确地找到良好的体系结构候选者。我们的方法是在医疗细分Decovaton(MSD)挑战的公共数据集上评估,并实现了SOTA表演。
translated by 谷歌翻译
医学成像的病变分割是临床研究中的一个重要课题。研究人员提出了各种检测和分段算法来解决这项任务。最近,基于深度学习的方法显着提高了传统方法的性能。然而,大多数最先进的深度学习方法需要手动设计多个网络组件和培训策略。在本文中,我们提出了一种新的自动化机器学习算法T-Automl,不仅搜索最佳神经结构,而且还可以同时找到超参数和数据增强策略的最佳组合。该方法采用现代变压器模型,引入了适应搜索空间嵌入的动态长度,并且可以显着提高搜索能力。我们在几个大型公共病变分割数据集上验证T-Automl并实现最先进的性能。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
可变形图像注册在医学图像分析的各种任务中起着至关重要的作用。从常规能源优化或深层网络中得出的成功的注册算法需要从计算机专家那里进行巨大努力来井设计注册能源,或者仔细调整特定类型的医疗数据类型的网络架构。为了解决上述问题,本文提出了一种自动学习注册算法(Autoreg),该算法(Autoreg)合作优化了建筑及其相应的培训目标,使非计算机专家,例如医疗/临床用户,以方便地查找现有的注册各种情况的算法。具体而言,我们建立了一个三级框架,以自动搜索机制和合作优化来推导注册网络体系结构和目标。我们对多站点卷数据集和各种注册任务进行图像注册实验。广泛的结果表明,我们的自动化可能会自动学习给定量的最佳深度注册网络并实现最先进的性能,也比主流UNET体系结构显着提高了计算效率(从0.558到0.558至0.270秒,对于3D图像对相同的配置)。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
对于3D医学图像(例如CT和MRI)分割,在临床情况下分割每个切片的难度差异很大。先前以逐片方式进行体积医学图像分割的研究通常使用相同的2D深神经网络来细分同一情况的所有切片,从而忽略了图像切片之间的数据异质性。在本文中,我们专注于多模式3D MRI脑肿瘤分割,并根据自适应模型选择提出了一个名为MED-DANET的动态体系结构网络,以实现有效的准确性和效率折衷。对于输入3D MRI量的每个切片,我们提出的方法学习了决策网络的特定于切片的决策,以动态从预定义的模型库中选择合适的模型,以完成后续的2D分割任务。 Brats 2019和2020年数据集的广泛实验结果表明,我们提出的方法比以前的3D MRI脑肿瘤分割的最先进方法获得了可比或更好的结果,模型的复杂性要少得多。与最新的3D方法TransBT相比,提出的框架提高了模型效率高达3.5倍,而无需牺牲准确性。我们的代码将很快公开可用。
translated by 谷歌翻译
We revisit the one-shot Neural Architecture Search (NAS) paradigm and analyze its advantages over existing NAS approaches. Existing one-shot method, however, is hard to train and not yet effective on large scale datasets like ImageNet. This work propose a Single Path One-Shot model to address the challenge in the training. Our central idea is to construct a simplified supernet, where all architectures are single paths so that weight co-adaption problem is alleviated. Training is performed by uniform path sampling. All architectures (and their weights) are trained fully and equally. Comprehensive experiments verify that our approach is flexible and effective. It is easy to train and fast to search. It effortlessly supports complex search spaces (e.g., building blocks, channel, mixed-precision quantization) and different search constraints (e.g., FLOPs, latency). It is thus convenient to use for various needs. It achieves start-of-the-art performance on the large dataset ImageNet.Equal contribution. This work is done when Haoyuan Mu and Zechun Liu are interns at MEGVII Technology.
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
UNET [27]由于其简单性和有效性而被广泛用于语义分割。但是,其手动设计的体系结构应用于没有架构优化的大量问题设置,或者使用手动调整,这很耗时,可以是最佳的。在这项工作中,首先,我们提出了Markov随机场神经体系结构搜索(MRF-NAS),该搜索扩展并改善了最新的自适应和最佳网络宽度搜索(AOWS)方法[4] [4](i)更一般的MRF框架(II)(II)不同的M最佳循环推断(III)可区分参数学习。这提供了必要的NAS框架,以有效探索诱导Loopopy推理图的网络体系结构,包括由跳过连接引起的循环。以UNET为骨干,我们发现了一个建筑MRF-UNET,它显示了几个有趣的特征。其次,通过这些特征的镜头,我们确定了原始UNET架构的亚典型性,并通过MRF-UNETV2进一步改善了我们的结果。实验表明,我们的MRF-UNET在三个航空图像数据集和两个医疗图像数据集上的表现明显优于几个基准,同时保持低计算成本。该代码可在以下网址获得:https://github.com/zifuwanggg/mrf-unets。
translated by 谷歌翻译
功能提取器在文本识别(TR)中起着至关重要的作用,但是由于昂贵的手动调整,自定义其体系结构的探索相对较少。在这项工作中,受神经体系结构搜索(NAS)的成功启发,我们建议搜索合适的功能提取器。我们通过探索具有良好功能提取器的原理来设计特定于域的搜索空间。该空间包括用于空间模型的3D结构空间和顺序模型的基于转换的空间。由于该空间是巨大且结构复杂的,因此无法应用现有的NAS算法。我们提出了一种两阶段算法,以有效地在空间中进行搜索。在第一阶段,我们将空间切成几个块,并借助辅助头逐步训练每个块。我们将延迟约束引入第二阶段,并通过自然梯度下降从受过训练的超级网络搜索子网络。在实验中,进行了一系列消融研究,以更好地了解设计的空间,搜索算法和搜索架构。我们还将所提出的方法与手写和场景TR任务上的各种最新方法进行了比较。广泛的结果表明,我们的方法可以以较小的延迟获得更好的识别性能。
translated by 谷歌翻译
U-NET一直是医疗图像分割任务的首选架构,但是将U-NET体系结构扩展到3D图像时会出现计算挑战。我们提出了隐式U-NET体系结构,该体系结构将有效的隐式表示范式适应监督的图像分割任务。通过将卷积特征提取器与隐式定位网络相结合,我们隐式U-NET的参数比等效的U-NET少40%。此外,我们提出了培训和推理程序,以利用稀疏的预测。与等效的完全卷积U-NET相比,隐式U-NET减少了约30%的推理和训练时间以及训练记忆足迹,同时在我们的两个不同的腹部CT扫描数据集中取得了可比的结果。
translated by 谷歌翻译
脑肿瘤分割是医学图像分析中最具挑战性问题之一。脑肿瘤细分的目标是产生准确描绘脑肿瘤区域。近年来,深入学习方法在解决各种计算机视觉问题时表现出了有希望的性能,例如图像分类,对象检测和语义分割。基于深度学习的方法已经应用于脑肿瘤细分并取得了有希望的结果。考虑到最先进技术所制作的显着突破,我们使用本调查来提供最近开发的深层学习脑肿瘤分割技术的全面研究。在本次调查中选择并讨论了100多篇科学论文,广泛地涵盖了网络架构设计,在不平衡条件下的细分等技术方面,以及多种方式流程。我们还为未来的发展方向提供了富有洞察力的讨论。
translated by 谷歌翻译
医学成像深度学习模型通常是大而复杂的,需要专门的硬件来训练和评估这些模型。为了解决此类问题,我们提出了PocketNet范式,以减少深度学习模型的规模,通过促进卷积神经网络中的渠道数量的增长。我们证明,对于一系列的分割和分类任务,PocketNet架构产生的结果与常规神经网络相当,同时将参数数量减少多个数量级,最多使用90%的GPU记忆,并加快训练时间的加快。高达40%,从而允许在资源约束设置中培训和部署此类模型。
translated by 谷歌翻译
语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
随着深度学习方法的进步,如深度卷积神经网络,残余神经网络,对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割,以解决目标区域或子区域的识别和检测的自动化。在最近的研究中,基于U-Net的方法在不同应用中显示了最先进的性能,以便在脑肿瘤,肺癌,阿尔茨海默,乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等,使用各种方式。本文通过描述U-Net框架来提出这些方法的成功,然后通过执行1)型号的U-Net变体进行综合分析,2)模特内分类,建立更好的见解相关的挑战和解决方案。此外,本文还强调了基于U-Net框架在持续的大流行病,严重急性呼吸综合征冠状病毒2(SARS-COV-2)中的贡献也称为Covid-19。最后,分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战,以发现该领域的未来未来的研究方向。
translated by 谷歌翻译
现有的光流估计器通常采用通常用于图像分类的网络体系结构作为提取人均功能的编码器。但是,由于任务之间的自然差异,用于图像分类的架构可能是最佳的流量估计。为了解决此问题,我们建议一种名为Falownas的神经体系结构搜索方法,以自动找到用于流估计任务的更好的编码器体系结构。我们首先设计一个合适的搜索空间,包括各种卷积运算符,并构建一个体重共享的超级网络,以有效评估候选体系结构。然后,为了更好地训练超级网络,我们提出了特征对齐蒸馏,该蒸馏利用训练有素的流量估计器来指导超级网络的训练。最后,利用资源约束的进化算法找到最佳体系结构(即子网络)。实验结果表明,从超级网络继承的权重的发现的结构达到了4.67 \%f1-able kitti上的误差,这是RAFT基线的8.4 \%降低,超过了先进的手工制作的型号GMA和AGFlow,同时降低模型的复杂性和延迟。源代码和训练有素的模型将在https://github.com/vdigpku/flownas中发布。
translated by 谷歌翻译
Medical image segmentation is an actively studied task in medical imaging, where the precision of the annotations is of utter importance towards accurate diagnosis and treatment. In recent years, the task has been approached with various deep learning systems, among the most popular models being U-Net. In this work, we propose a novel strategy to generate ensembles of different architectures for medical image segmentation, by leveraging the diversity (decorrelation) of the models forming the ensemble. More specifically, we utilize the Dice score among model pairs to estimate the correlation between the outputs of the two models forming each pair. To promote diversity, we select models with low Dice scores among each other. We carry out gastro-intestinal tract image segmentation experiments to compare our diversity-promoting ensemble (DiPE) with another strategy to create ensembles based on selecting the top scoring U-Net models. Our empirical results show that DiPE surpasses both individual models as well as the ensemble creation strategy based on selecting the top scoring models.
translated by 谷歌翻译
现有的神经结构搜索算法主要在具有短距离连接的搜索空间上。我们争辩说,这种设计虽然安全稳定,障碍搜索算法从探索更复杂的情景。在本文中,我们在具有长距离连接的复杂搜索空间上构建搜索算法,并显示现有的权重共享搜索算法由于存在\ TextBF {交织连接}而大部分失败。基于观察,我们介绍了一个名为\ textbf {if-nas}的简单且有效的算法,在那里我们在搜索过程中执行定期采样策略来构建不同的子网,避免在任何中的交织连接出现。在所提出的搜索空间中,IF-NAS优于随机采样和先前的重量共享搜索算法,通过显着的余量。 IF-NAS还推广到微单元的空间,这些空间更容易。我们的研究强调了宏观结构的重要性,我们期待沿着这个方向进一步努力。
translated by 谷歌翻译
Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr
translated by 谷歌翻译
Designing accurate and efficient ConvNets for mobile devices is challenging because the design space is combinatorially large. Due to this, previous neural architecture search (NAS) methods are computationally expensive. ConvNet architecture optimality depends on factors such as input resolution and target devices. However, existing approaches are too resource demanding for case-by-case redesigns. Also, previous work focuses primarily on reducing FLOPs, but FLOP count does not always reflect actual latency. To address these, we propose a differentiable neural architecture search (DNAS) framework that uses gradient-based methods to optimize Con-vNet architectures, avoiding enumerating and training individual architectures separately as in previous methods. FBNets (Facebook-Berkeley-Nets), a family of models discovered by DNAS surpass state-of-the-art models both designed manually and generated automatically. FBNet-B achieves 74.1% top-1 accuracy on ImageNet with 295M FLOPs and 23.1 ms latency on a Samsung S8 phone, 2.4x smaller and 1.5x faster than MobileNetV2-1.3[17] with similar accuracy. Despite higher accuracy and lower latency than MnasNet[20], we estimate FBNet-B's search cost is 420x smaller than MnasNet's, at only 216 GPUhours. Searched for different resolutions and channel sizes, FBNets achieve 1.5% to 6.4% higher accuracy than Mo-bileNetV2. The smallest FBNet achieves 50.2% accuracy and 2.9 ms latency (345 frames per second) on a Samsung S8. Over a Samsung-optimized FBNet, the iPhone-Xoptimized model achieves a 1.4x speedup on an iPhone X. FBNet models are open-sourced at https://github. com/facebookresearch/mobile-vision. * Work done while interning at Facebook.… Figure 1. Differentiable neural architecture search (DNAS) for ConvNet design. DNAS explores a layer-wise space that each layer of a ConvNet can choose a different block. The search space is represented by a stochastic super net. The search process trains the stochastic super net using SGD to optimize the architecture distribution. Optimal architectures are sampled from the trained distribution. The latency of each operator is measured on target devices and used to compute the loss for the super net.
translated by 谷歌翻译