Linear classifier probes are frequently utilized to better understand how neural networks function. Researchers have approached the problem of determining unit importance in neural networks by probing their learned, internal representations. Linear classifier probes identify highly selective units as the most important for network function. Whether or not a network actually relies on high selectivity units can be tested by removing them from the network using ablation. Surprisingly, when highly selective units are ablated they only produce small performance deficits, and even then only in some cases. In spite of the absence of ablation effects for selective neurons, linear decoding methods can be effectively used to interpret network function, leaving their effectiveness a mystery. To falsify the exclusive role of selectivity in network function and resolve this contradiction, we systematically ablate groups of units in subregions of activation space. Here, we find a weak relationship between neurons identified by probes and those identified by ablation. More specifically, we find that an interaction between selectivity and the average activity of the unit better predicts ablation performance deficits for groups of units in AlexNet, VGG16, MobileNetV2, and ResNet101. Linear decoders are likely somewhat effective because they overlap with those units that are causally important for network function. Interpretability methods could be improved by focusing on causally important units.
translated by 谷歌翻译
深层神经网络在各个领域的增殖已经增加了对这些模型的解释性的需求。沿着这条线进行的初步工作,调查了这种调查的论文集中在高级表示分析上。然而,最近的工作分支集中在这些模型中分析神经元的更详细水平上的可解释性。在本文中,我们调查了神经元分析所做的工作,包括:i)在网络中发现和理解神经元的方法,ii)评估方法,iii)主要发现,包括神经元分析已解散的跨架构比较,iv)神经元的应用。探索:控制模型,域适应等,v)关于开放问题和未来研究方向的讨论。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
尽管许多研究表明,语言信息是在隐藏的单词表示中编码的,但很少有人研究了单个神经元,以表明其编码的神经元是如何和哪个神经元。其中,常见的方法是使用外部探针根据其与某些语言属性的相关性对神经元进行排名,并使用产生的相同探针评估所获得的排名。我们在这种方法中显示了两个陷阱:1。它混淆了不同的因素:探针质量和排名质量。我们将它们分开,并得出每个结论。2.它专注于编码的信息,而不是模型使用的信息。我们表明这些不一样。我们比较了两种最新的排名方法和一种简单的方法,并就这两个方面进行了评估。
translated by 谷歌翻译
在本文中,我们在卷积神经网络(CNNS)的不断扩大性文献中介绍了一个新问题。虽然以前的工作侧重于如何在视觉解释CNNS的问题上,但我们问我们关心解释的是什么,即哪些层和神经元值得我们关注?由于巨大的现代深度学习网络架构,自动化,定量方法需要对神经元的相对重要性进行排名,以便为此问题提供答案。我们提出了一种新的统计方法,用于在网络的任何卷积层中排名隐藏的神经元。我们将重要性定义为激活映射与类分数之间的最大相关性。我们提供了不同的方式,其中该方法可用于可视化与Mnist和Imagenet的目的,并显示我们对街道级图像的空气污染预测方法的真实应用。
translated by 谷歌翻译
在过去的几年中,人类视力与卷积神经网络(CNN)之间越来越多的相似之处。然而,香草CNN通常在推广到对抗性或分布(OOD)示例的概括方面表现出卓越的性能。对抗训练是一种领先的学习算法,用于提高CNN在对抗和OOD数据上的鲁棒性;但是,对这些属性,特别是形状偏差和内部特征知之甚少,在对抗性CNN中学到的内部特征。在本文中,我们进行了一项彻底的系统研究,以了解形状偏差和一些内部机制,以使Alexnet,Googlenet和Resnet-50模型的普遍性通过对抗训练进行了训练。我们发现,尽管标准成像网分类器具有较强的纹理偏见,但它们的R对应物很大程度上依赖形状。值得注意的是,对抗性训练在“鲁棒性” CNN的过程中诱导了隐藏的神经元的三个简单偏见。也就是说,R网络中的每个卷积神经元经常会更改以检测(1)像素的平滑模式,即一种机制,该机制可以阻止高频噪声通过网络; (2)更多较低级别的功能,即纹理和颜色(而不是对象);(3)输入类型较少。我们的发现揭示了有趣的机制,这些机制使网络更具对抗性,并解释了一些最新发现,例如,为什么R网络从更大的容量中受益(Xie等,2020),并且可以在图像合成中充当强大的图像(Santurkar et eT) Al。2019)。
translated by 谷歌翻译
We propose a general framework called Network Dissection for quantifying the interpretability of latent representations of CNNs by evaluating the alignment between individual hidden units and a set of semantic concepts. Given any CNN model, the proposed method draws on a broad data set of visual concepts to score the semantics of hidden units at each intermediate convolutional layer. The units with semantics are given labels across a range of objects, parts, scenes, textures, materials, and colors. We use the proposed method to test the hypothesis that interpretability of units is equivalent to random linear combinations of units, then we apply our method to compare the latent representations of various networks when trained to solve different supervised and self-supervised training tasks. We further analyze the effect of training iterations, compare networks trained with different initializations, examine the impact of network depth and width, and measure the effect of dropout and batch normalization on the interpretability of deep visual representations. We demonstrate that the proposed method can shed light on characteristics of CNN models and training methods that go beyond measurements of their discriminative power.
translated by 谷歌翻译
机器学习的最后十年的规模和能力大幅增加,深层神经网络(DNN)越来越多地在各种领域中部署。但是,DNN的内部运作通常很难理解,这引起了人们对使用这些系统的安全性的担忧,而无需严格了解它们的功能。在这项调查中,我们回顾了有关解释DNN内部组成部分的技术的文献,我们称之为“内部”可解释性方法。具体而言,我们审查了解释权重,神经元,子网和潜在表示的方法,重点是这些技术如何与设计更安全,更值得信赖的AI系统的目标相关联。我们还强调了可解释性与工作之间的联系,对抗性鲁棒性,持续学习,网络压缩以及研究人类视觉系统。最后,我们讨论了关键的挑战,并争辩说未来的工作,以解释性为AI安全性,重点放在诊断,基准测试和鲁棒性上。
translated by 谷歌翻译
在本文中,我们提出了一种剪辑 - 拆卸,这是一种新技术,可以自动描述视觉网络中单个隐藏神经元的功能。剪辑 - 拆线器利用多模式视觉/语言模型的最新进展将内部神经元标记具有开放式概念的内部神经元,而无需任何标记的数据或人类示例,这是现有工具成功所必需的。我们表明,剪贴板与现有的神经元的现有方法提供了更准确的描述,这些神经元可用,以及对隐藏层神经元的定性描述。此外,我们的方法非常灵活:它是模型的不可知论,可以轻松处理新概念,并且可以扩展以利用将来更好的多模型模型。最终,剪辑截止值是计算上的高效,并在数十分钟内将层的所有神经元标记为层的所有神经元。在本文中,我们提出了一种剪辑 - 拆卸,这是一种新技术,可以自动描述视觉网络中单个隐藏神经元的功能。剪辑 - 拆线器利用多模式视觉/语言模型的最新进展将内部神经元标记具有开放式概念的内部神经元,而无需任何标记的数据或人类示例,这是现有工具成功所必需的。我们表明,剪贴板与现有的方法相比,对于最后一层神经元的现有方法提供了更准确的描述,这些方法可用于地面真相以及隐藏层神经元的定性描述。此外,我们的方法非常灵活:它是模型的不可知论,可以轻松处理新概念,并且可以扩展以利用将来更好的多模型模型。最终,剪辑截止值在计算上是有效的,可以在短短四分钟内将所有神经元标记为所有神经元。
translated by 谷歌翻译
图神经网络(GNN)在各种与图形相关的任务上非常有效。但是,它们缺乏解释性和透明度。当前的解释性方法通常是局部的,将GNN视为黑盒。他们不在模型内部看,抑制了人类对模型和解释的信任。由神经元在视觉模型中检测高级语义概念的能力的动机,我们对单个GNN神经元的行为回答有关GNN可解释性的问题进行了新的分析,并提出了新的指标来评估GNN神经元的可解释性。我们提出了一种新颖的方法,用于使用神经元级概念为GNN产生全球解释,以使从业者能够对模型具有高级的看法。具体而言,(i)据我们所知,这是第一部作品,表明GNN神经元充当概念探测器,并且与表述为节点学位和邻居属性的逻辑组成的概念具有很强的一致性; (ii)我们定量评估检测概念的重要性,并确定训练持续时间和神经元水平的解释性之间的权衡; (iii)我们证明,我们的全球解释性方法比当前的最新方法具有优势 - 我们可以将解释解释为以逻辑描述为支持的单个可解释概念,从而降低了偏见的潜力并提高用户友好性。
translated by 谷歌翻译
自我监督的视觉表示学习最近引起了重大的研究兴趣。虽然一种评估自我监督表示的常见方法是通过转移到各种下游任务,但我们研究了衡量其可解释性的问题,即了解原始表示中编码的语义。我们将后者提出为估计表示和手动标记概念空间之间的相互信息。为了量化这一点,我们介绍了一个解码瓶颈:必须通过简单的预测变量捕获信息,将概念映射到表示空间中的簇。我们称之为反向线性探测的方法为表示表示的语义敏感。该措施还能够检测出表示何时包含概念的组合(例如“红色苹果”),而不仅仅是单个属性(独立的“红色”和“苹果”)。最后,我们建议使用监督分类器自动标记大型数据集,以丰富用于探测的概念的空间。我们使用我们的方法来评估大量的自我监督表示形式,通过解释性对它们进行排名,并通过线性探针与标准评估相比出现的差异,并讨论了一些定性的见解。代码为:{\ Scriptsize {\ url {https://github.com/iro-cp/ssl-qrp}}}}}。
translated by 谷歌翻译
破译神经网络内部运作的关键是了解模型学到了什么。发现学习特征的有前途的方法基于分析激活值,当前技术重点是分析高激活值,以在神经元水平上揭示有趣的特征。但是,分析高激活值限制了图层级概念发现。我们提出了一种方法,该方法将考虑整个激活分布。通过在神经网络层的高维活化空间内提取相似的激活曲线,我们发现了类似处理的输入组。这些输入组代表神经激活模式(午睡),可用于可视化和解释学习的层概念。我们释放一个框架,可以从预训练的模型中提取小睡,并提供可视觉内省工具,可用于分析午睡。我们通过各种网络测试了我们的方法,并展示了它如何补充现有的分析神经网络激活值的方法。
translated by 谷歌翻译
尽管在理解深度NLP模型中学到的表示形式以及他们所捕获的知识方面已经做了很多工作,但对单个神经元的关注很少。我们提出了一种称为语言相关性分析的技术,可在任何外部特性中提取模型中的显着神经元 - 目的是了解如何保留这种知识在神经元中。我们进行了细粒度的分析以回答以下问题:(i)我们可以识别网络中捕获特定语言特性的神经元子集吗? (ii)整个网络中的局部或分布式神经元如何? iii)信息保留了多么冗余? iv)针对下游NLP任务的微调预训练模型如何影响学习的语言知识? iv)架构在学习不同的语言特性方面有何不同?我们的数据驱动的定量分析阐明了有趣的发现:(i)我们发现了可以预测不同语言任务的神经元的小亚集,ii)捕获基本的词汇信息(例如后缀),而这些神经元位于较低的大多数层中,iii,iii),而这些神经元,而那些神经元,而那些神经元则可以预测。学习复杂的概念(例如句法角色)主要是在中间和更高层中,iii),在转移学习过程中,显着的语言神经元从较高到较低的层移至较低的层,因为网络保留了较高的层以特定于任务信息,iv)我们发现很有趣在培训预训练模型之间的差异,关于如何保留语言信息,V)我们发现概念在多语言变压器模型中跨不同语言表现出相似的神经元分布。我们的代码作为Neurox工具包的一部分公开可用。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
将早期视觉信号转换为v4中的曲率表示的机制是未知的。我们提出了一种分层模型,揭示了V1 / V2编码,该编码是对v4中报告的曲率表示的这种转换的基本组件。然后,通过放松单个高斯之前的经常施加的,在从猕猴V4响应的层次结构的最后一层中学习V4形选择性。我们发现V4电池与具有相似兴奋性和抑制贡献的接收领域的完整空间范围集成多个形状部分。我们的成果在V4神经元中发现了关于形状选择性的现有数据的新细节,通过进一步的实验可以提高我们对该领域的处理的理解。因此,我们提出了一种刺激装置的设计,该刺激装置允许在不干扰曲率信号的情况下消除形状部分以隔离部分贡献至V4响应。
translated by 谷歌翻译
Convolutional neural networks (CNNs) are one of the most successful computer vision systems to solve object recognition. Furthermore, CNNs have major applications in understanding the nature of visual representations in the human brain. Yet it remains poorly understood how CNNs actually make their decisions, what the nature of their internal representations is, and how their recognition strategies differ from humans. Specifically, there is a major debate about the question of whether CNNs primarily rely on surface regularities of objects, or whether they are capable of exploiting the spatial arrangement of features, similar to humans. Here, we develop a novel feature-scrambling approach to explicitly test whether CNNs use the spatial arrangement of features (i.e. object parts) to classify objects. We combine this approach with a systematic manipulation of effective receptive field sizes of CNNs as well as minimal recognizable configurations (MIRCs) analysis. In contrast to much previous literature, we provide evidence that CNNs are in fact capable of using relatively long-range spatial relationships for object classification. Moreover, the extent to which CNNs use spatial relationships depends heavily on the dataset, e.g. texture vs. sketch. In fact, CNNs even use different strategies for different classes within heterogeneous datasets (ImageNet), suggesting CNNs have a continuous spectrum of classification strategies. Finally, we show that CNNs learn the spatial arrangement of features only up to an intermediate level of granularity, which suggests that intermediate rather than global shape features provide the optimal trade-off between sensitivity and specificity in object classification. These results provide novel insights into the nature of CNN representations and the extent to which they rely on the spatial arrangement of features for object classification.
translated by 谷歌翻译
大脑中的类别选择性描述了脑皮质的某些空间局部区域区域倾向于从特定有限类别鲁棒地和选择性地响应刺激。类别选择性的最熟知的示例之一是梭形面积区域(FFA),其在与物体或其他通用刺激相比时优先对面部的图像响应于面部的较低时间皮层的面积。在这项工作中,我们利用新引进的地形变形式自动拓码以无监督方式模拟此类局部类别选择性的出现。通过实验,我们展示了我们的模型产生的空间密集的神经集群,通过COHEN的D度量的可视化图选择性地面临面部,身体和地点。我们将模型与相关的监督方法进行比较,即Lee等人的地形深层人工神经网络(TDANN),并讨论理论和经验相似之处。最后,我们展示了初步结果,表明我们的模型产生了越来越抽象的类别的嵌套空间层次,类似于人类腹侧颞型皮质的观察。
translated by 谷歌翻译
各种工作表明,图像的令人难忘性在人们中一致,因此可以被视为图像的内在特性。使用计算机视觉模型,我们可以对人们记住或忘记做出具体的预测。虽然老工作已经使用了现在过时的深度学习架构来预测图像令人难忘,但该领域的创新使我们的新技术适用于这个问题。在这里,我们提出并评估了五个替代的深度学习模型,在过去五年中利用现场开发的替代深度学习模型,这主要是引入残余神经网络,这旨在允许模型在令人难忘的估计过程中使用语义信息。通过构建的组合数据集进行了本领域的先前状态测试这些新模型,以优化类别内和跨类别预测。我们的研究结果表明,关键的令人难忘网络夸大了其概括性,并在其培训集上被过度了。我们的新模型优于此前的模型,导致我们得出结论,残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们使新的最先进的模型容易获得研究界,允许内存研究人员对更广泛的图像上的难忘性进行预测。
translated by 谷歌翻译
识别各个网络单元的状态对于了解卷积神经网络(CNNS)的机制至关重要。但是,它仍然有挑战性,可以可靠地指示单位状态,特别是对于不同网络模型中的单位。为此,我们提出了一种使用代数拓扑工具定量阐明CNN中单位状态的新方法。单位状态通过计算定义的拓扑熵来指示称为特征熵,该特征熵,测量隐藏在单位的全局空间模式的混沌程度。通过这种方式,特征熵可以提供不同网络中单位的准确指示,具有不同的情况,如权重操作。此外,我们表明特征熵随着层次更深,并且在训练期间几乎同时同时趋于趋势而分享。我们表明,通过调查仅在培训数据上的单位的特征熵,它可以从特征表示的有效性看出具有不同泛化能力的网络之间的歧视。
translated by 谷歌翻译
现代单细胞流量和质量细胞仪技术测量血液或组织样品中单个细胞的几种蛋白质的表达。因此,每个分析的生物样品都由数十万个多维细胞特征向量表示,这会产生高计算成本,以预测每个生物样品与机器学习模型的相关表型。如此大的固定基础性也限制了机器学习模型的可解释性,因为难以跟踪每个单个单个细胞如何影响最终预测。我们建议使用内核平均嵌入来编码每个分类生物样品的细胞景观。尽管我们最重要的目标是制作一个更透明的模型,但我们发现我们的方法与通过简单的线性分类器相比,您的方法获得了可比性或更好的精度。结果,我们的模型包含很少的参数,但仍与具有数百万参数的深度学习模型相似。与深度学习方法相反,我们模型的线性和子选择步骤使解释分类结果变得容易。分析进一步表明,我们的方法可以接受丰富的生物学解释性,以将细胞异质性与临床表型联系起来。
translated by 谷歌翻译