将机器学习算法转换为临床应用需要解决与解释性有关的挑战,例如考虑混杂变量(或元数据)的影响。混杂变量会影响输入训练数据和目标输出之间的关系。当我们在此类数据上训练模型时,混杂的变量会偏向于学习功能的分布。最近有前途的解决方案元数据归一化(MDN)估计了基于不可训练的封闭形式解决方案的元数据与每个特征之间的线性关系。但是,该估计受到迷你批量的样本量的限制,因此可能导致该方法在训练过程中不稳定。在本文中,我们通过应用罚款方法(称为PDMN)扩展了MDN方法。我们将问题投入到双层嵌套的优化问题中。然后,我们使用惩罚方法近似此优化问题,以便MDN层中的线性参数可以训练并在所有样本上学习。这使PMDN可以插入任何架构,甚至可以运行批处理级操作,例如变形金刚和经常性模型。我们在合成实验中使用PMDN和MDN的混杂因素和更大的独立性表现出了更大的独立性,并且在合成实验中和多标签的多站点的磁共振图像数据集(MRIS)。
translated by 谷歌翻译
域移位,训练与测试数据特征之间的不匹配,导致多源成像方案中的预测性能显着降低。在医学成像中,不同网站的人口,扫描仪和采集协议的异质性提出了一个重要的领域移位挑战,并限制了机器学习模型的广泛临床采用。统一方法旨在学习数据不变的表示这些差异是解决域移位的普遍工具,但它们通常会导致预测精度的劣化。本文对问题进行了不同的视角:我们拥抱这种不和谐的数据并设计一个简单但有效的解决域名框架。根据我们的理论参数,关键的想法是在源数据上构建备用分类器并将此模型调整为新数据。可以为站点内域适应微调分类器。我们还可以在目标数据上处理我们无法访问地面真理标签的情况;我们展示如何使用辅助任务来适应;这些任务雇用协变量,如年龄,性别和种族,这很容易获得,但仍然与主要任务相关联。我们在大规模现实世界3D脑MRI数据集上展示了站点内部域适应和站点间域推广的大量改进,用于分类阿尔茨海默病和精神分裂症。
translated by 谷歌翻译
因果关系的概念在人类认知中起着重要作用。在过去的几十年中,在许多领域(例如计算机科学,医学,经济学和教育)中,因果推论已经得到很好的发展。随着深度学习技术的发展,它越来越多地用于针对反事实数据的因果推断。通常,深层因果模型将协变量的特征映射到表示空间,然后设计各种客观优化函数,以根据不同的优化方法公正地估算反事实数据。本文重点介绍了深层因果模型的调查,其核心贡献如下:1)我们在多种疗法和连续剂量治疗下提供相关指标; 2)我们从时间开发和方法分类的角度综合了深层因果模型的全面概述; 3)我们协助有关相关数据集和源代码的详细且全面的分类和分析。
translated by 谷歌翻译
Computational cost of training state-of-the-art deep models in many learning problems is rapidly increasing due to more sophisticated models and larger datasets. A recent promising direction for reducing training cost is dataset condensation that aims to replace the original large training set with a significantly smaller learned synthetic set while preserving the original information. While training deep models on the small set of condensed images can be extremely fast, their synthesis remains computationally expensive due to the complex bi-level optimization and second-order derivative computation. In this work, we propose a simple yet effective method that synthesizes condensed images by matching feature distributions of the synthetic and original training images in many sampled embedding spaces. Our method significantly reduces the synthesis cost while achieving comparable or better performance. Thanks to its efficiency, we apply our method to more realistic and larger datasets with sophisticated neural architectures and obtain a significant performance boost. We also show promising practical benefits of our method in continual learning and neural architecture search.
translated by 谷歌翻译
神经架构的创新促进了语言建模和计算机视觉中的重大突破。不幸的是,如果网络参数未正确初始化,新颖的架构通常会导致挑战超参数选择和培训不稳定。已经提出了许多架构特定的初始化方案,但这些方案并不总是可移植到新体系结构。本文介绍了毕业,一种用于初始化神经网络的自动化和架构不可知论由方法。毕业基础是一个简单的启发式;调整每个网络层的规范,使得具有规定的超参数的SGD或ADAM的单个步骤导致可能的损耗值最小。通过在每个参数块前面引入标量乘数变量,然后使用简单的数字方案优化这些变量来完成此调整。 GradInit加速了许多卷积架构的收敛性和测试性能,无论是否有跳过连接,甚至没有归一化层。它还提高了机器翻译的原始变压器架构的稳定性,使得在广泛的学习速率和动量系数下使用ADAM或SGD来训练它而无需学习速率预热。代码可在https://github.com/zhuchen03/gradinit上获得。
translated by 谷歌翻译
我们描述了Countersynth,一种诱导标签驱动的扩散变形的条件生成模型,体积脑图像中的标签驱动的生物合理的变化。该模型旨在综合用于下游判别判断性建模任务的反事实训练数据,其中保真度受数据不平衡,分布不稳定性,混淆或缺点的限制,并且在不同的群体中表现出不公平的性能。专注于人口统计属性,我们评估了具有基于体素的形态学,分类和回归条件属性的合成反事实的质量,以及FR \'{e} CHET开始距离。在设计的人口统计不平衡和混淆背景下检查下游歧视性能,我们使用英国Biobank磁共振成像数据来基准测试对这些问题的当前解决方案的增强。我们实现了最先进的改进,无论是整体忠诚和股权。 CounterSynth的源代码可在线获取。
translated by 谷歌翻译
在初级诊断的日常诊断中采用卷积神经网络(CNN)不仅需要接近完美的精度,而且还需要对数据采集变化和透明度的足够概括。现有的CNN模型充当黑匣子,不确保医生认为模型使用重要的诊断功能。本文以成功现有的技术(例如多任务学习,域对抗性培训和基于概念的解释性)为基础,该论文解决了在培训目标中引入诊断因素的挑战。在这里,我们表明,通过学习端到端学习多任务和对抗性损失的基于不确定性的加权组合,鼓励将重点放在病理学特征上,例如核的密度和多态性,例如。大小和外观的变化,同时丢弃诸如染色差异之类的误导性特征。我们在乳腺淋巴结组织上的结果显示,在肿瘤组织的检测中的概括显着改善,最佳平均AUC为0.89(0.01),针对基线AUC 0.86(0.005)。通过应用线性探测中间表示的可解释性技术,我们还证明了可解释的病理特征(例如核密度)是通过提出的CNN结构来学习的,从而证实了该模型的透明度的提高。该结果是构建可解释的多任务体系结构的起点,这些架构对数据异质性具有鲁棒性。我们的代码可在https://bit.ly/356yq2u上找到。
translated by 谷歌翻译
我们介绍Softmax梯度篡改,一种用于修改神经网络后向通过的梯度的技术,以提高其准确性。我们的方法使用基于功率的概率变换来改变预测的概率值,然后将梯度重新计算在后向通过。这种修改导致更平滑的渐变简介,我们在经验和理论上展示。我们对剩余网络进行了转换参数进行了网格搜索。我们证明修改CUMMNET中的软MAX梯度可能导致培训准确性提高,从而增加训练数据的适合,并最大限度地利用神经网络的学习能力。当与标签平滑等正则化技术相结合时,我们获得更好的测试度量和更低的泛化间隙。 Softmax渐变篡改在ImageNet DataSet上的基线上以0.52 \%$ 0.52 \%$ 0.52 \%$ 0.52 \%。我们的方法非常通用,可以跨各种不同的网络架构和数据集使用。
translated by 谷歌翻译
我们研究复杂的缩放作为一种自然的对称性和复杂的测量和表示独特的对称性。深度复杂网络(DCN)将实值的代数扩展到复杂域,而不会解决复杂值缩放。超现实占据复杂数字的限制性歧管视图,采用距离度量来实现复杂的缩放不变性,同时丢失丰富的复合值。我们分析了复杂的缩放,作为共同领域的转换和设计新颖的具有这种特殊转换的不变神经网络层。我们还提出了RGB图像的新型复合值表示,其中复值缩放表示色调偏移或跨色通道的相关变化。在MSTAR,CIFAR10,CIFAR100和SVHN上基准测试,我们的共同域对称(CDS)分类器提供更高的准确性,更好的泛化,对共同域变换的鲁棒性,以及比DCN和超现实的更低模型偏差和方差,具有较少的参数。
translated by 谷歌翻译
In this paper, we empirically analyze a simple, non-learnable, and nonparametric Nadaraya-Watson (NW) prediction head that can be used with any neural network architecture. In the NW head, the prediction is a weighted average of labels from a support set. The weights are computed from distances between the query feature and support features. This is in contrast to the dominant approach of using a learnable classification head (e.g., a fully-connected layer) on the features, which can be challenging to interpret and can yield poorly calibrated predictions. Our empirical results on an array of computer vision tasks demonstrate that the NW head can yield better calibration than its parametric counterpart, while having comparable accuracy and with minimal computational overhead. To further increase inference-time efficiency, we propose a simple approach that involves a clustering step run on the training set to create a relatively small distilled support set. In addition to using the weights as a means of interpreting model predictions, we further present an easy-to-compute "support influence function," which quantifies the influence of a support element on the prediction for a given query. As we demonstrate in our experiments, the influence function can allow the user to debug a trained model. We believe that the NW head is a flexible, interpretable, and highly useful building block that can be used in a range of applications.
translated by 谷歌翻译
Over the years, Machine Learning models have been successfully employed on neuroimaging data for accurately predicting brain age. Deviations from the healthy brain aging pattern are associated to the accelerated brain aging and brain abnormalities. Hence, efficient and accurate diagnosis techniques are required for eliciting accurate brain age estimations. Several contributions have been reported in the past for this purpose, resorting to different data-driven modeling methods. Recently, deep neural networks (also referred to as deep learning) have become prevalent in manifold neuroimaging studies, including brain age estimation. In this review, we offer a comprehensive analysis of the literature related to the adoption of deep learning for brain age estimation with neuroimaging data. We detail and analyze different deep learning architectures used for this application, pausing at research works published to date quantitatively exploring their application. We also examine different brain age estimation frameworks, comparatively exposing their advantages and weaknesses. Finally, the review concludes with an outlook towards future directions that should be followed by prospective studies. The ultimate goal of this paper is to establish a common and informed reference for newcomers and experienced researchers willing to approach brain age estimation by using deep learning models
translated by 谷歌翻译
物理驱动的深度学习方法已成为计算磁共振成像(MRI)问题的强大工具,将重建性能推向新限制。本文概述了将物理信息纳入基于学习的MRI重建中的最新发展。我们考虑了用于计算MRI的线性和非线性正向模型的逆问题,并回顾了解决这些方法的经典方法。然后,我们专注于物理驱动的深度学习方法,涵盖了物理驱动的损失功能,插件方法,生成模型和展开的网络。我们重点介绍了特定于领域的挑战,例如神经网络的实现和复杂值的构建基块,以及具有线性和非线性正向模型的MRI转换应用。最后,我们讨论常见问题和开放挑战,并与物理驱动的学习与医学成像管道中的其他下游任务相结合时,与物理驱动的学习的重要性联系在一起。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
比较神经网络模型的功能行为,无论是在培训期间还是在培训期间或培训期间它是一个单个网络(或者是一个网络),这是理解他们正在学习的内容(以及他们不是什么)的重要步骤确定正规化或提高效率的策略。尽管最近的进展,例如,将视觉变压器与CNN进行比较,但功能的系统比较,尤其是在不同的网络中,仍然很困难,并且通常是按一层进行的。诸如规范相关分析(CCA)之类的方法原则上适用,但到目前为止已很少使用。在本文中,我们从统计数据(及其部分变体)中重新审视A(鲜为人知的),旨在评估不同维度的特征空间之间的相关性。我们描述了进行大规模模型进行部署所需的步骤 - 这为令人惊讶的应用程序打开了大门,从调理一个深层模型W.R.T.另一个,学习分解了表示形式,并优化了直接对对抗性攻击更强大的不同模型。我们的实验表明,具有许多优势的多功能正规化程序(或约束),避免了此类分析中人们面临的一些常见困难。代码在https://github.com/zhenxingjian/partial_distance_correlation。
translated by 谷歌翻译
在神经影像分析中,功能磁共振成像(fMRI)可以很好地评估没有明显结构病变的脑疾病的大脑功能变化。到目前为止,大多数基于研究的FMRI研究将功能连接性作为疾病分类的基本特征。但是,功能连接通常是根据感兴趣的预定义区域的时间序列计算的,并忽略了每个体素中包含的详细信息,这可能会导致诊断模型的性能恶化。另一个方法论上的缺点是训练深模型的样本量有限。在这项研究中,我们提出了Brainformer,这是一种用于单个FMRI体积的脑疾病分类的一般混合变压器架构,以充分利用素食细节,并具有足够的数据尺寸和尺寸。脑形形式是通过对每个体素内的局部提示进行建模的3D卷积,并捕获两个全球注意力障碍的遥远地区之间的全球关系。局部和全局线索通过单流模型在脑形中汇总。为了处理多站点数据,我们提出了一个归一化层,以将数据标准化为相同的分布。最后,利用一种基于梯度的定位图可视化方法来定位可能的疾病相关生物标志物。我们在五个独立获取的数据集上评估了脑形形成器,包括Abide,ADNI,MPILMBB,ADHD-200和ECHO,以及自闭症疾病,阿尔茨海默氏病,抑郁症,注意力缺陷多动障碍和头痛疾病。结果证明了脑形对多种脑疾病的诊断的有效性和普遍性。脑形物可以在临床实践中促进基于神经成像的精确诊断,并激励FMRI分析中的未来研究。代码可在以下网址获得:https://github.com/ziyaozhangforpcl/brainformer。
translated by 谷歌翻译
Causal learning has attracted much attention in recent years because causality reveals the essential relationship between things and indicates how the world progresses. However, there are many problems and bottlenecks in traditional causal learning methods, such as high-dimensional unstructured variables, combinatorial optimization problems, unknown intervention, unobserved confounders, selection bias and estimation bias. Deep causal learning, that is, causal learning based on deep neural networks, brings new insights for addressing these problems. While many deep learning-based causal discovery and causal inference methods have been proposed, there is a lack of reviews exploring the internal mechanism of deep learning to improve causal learning. In this article, we comprehensively review how deep learning can contribute to causal learning by addressing conventional challenges from three aspects: representation, discovery, and inference. We point out that deep causal learning is important for the theoretical extension and application expansion of causal science and is also an indispensable part of general artificial intelligence. We conclude the article with a summary of open issues and potential directions for future work.
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
静息状态脑功能活性对非成像表型的单个主体映射是神经影像学的主要目标。当今应用的绝大多数学习方法都取决于静态表示或短期时间相关性。这与动态性的大脑活动性质不符,并且表现出短期和长期依赖性。此外,在单个任务/数据集上已经开发并验证了新的复杂的深度学习方法。这些模型在研究不同目标的研究中的应用通常需要详尽的超参数搜索,模型工程以及反复试验,以通过更简单的线性模型获得竞争结果。反过来,这限制了他们在快速发展的研究领域中的采用和阻碍公平的基准测试。为此,我们提出了fMRI-S4;一种用于分类表型和精神疾病的多功能深度学习模型,该模型来自静止状态功能磁共振成像扫描时间的时间。 fMRI-S4使用1D卷积和最近引入的状态空间模型S4捕获信号中的短距离和长范围时间依赖性。所提出的体系结构在任务/数据集中具有轻巧,样本效率且健壮。我们在三个多站点RS-FMRI数据集上验证了fMRI-S4诊断重大抑郁症(MDD),自闭症谱系障碍(ASD)和性别分类的任务。我们证明fMRI-S4可以在所有三个任务上均优于现有方法,并且可以作为插件和游戏模型进行培训,而无需针对每种设置进行特殊的超散件调整
translated by 谷歌翻译
我们提出了一种多移民通道(MGIC)方法,该方法可以解决参数数量相对于标准卷积神经网络(CNN)中的通道数的二次增长。因此,我们的方法解决了CNN中的冗余,这也被轻量级CNN的成功所揭示。轻巧的CNN可以达到与参数较少的标准CNN的可比精度。但是,权重的数量仍然随CNN的宽度四倍地缩放。我们的MGIC体系结构用MGIC对应物代替了每个CNN块,该块利用了小组大小的嵌套分组卷积的层次结构来解决此问题。因此,我们提出的架构相对于网络的宽度线性扩展,同时保留了通道的完整耦合,如标准CNN中。我们对图像分类,分割和点云分类进行的广泛实验表明,将此策略应用于Resnet和MobilenetV3等不同体系结构,可以减少参数的数量,同时获得相似或更好的准确性。
translated by 谷歌翻译