视觉反事实解释用来自干扰器图像的区域代替了查询图像中的图像区域,以使系统对转换图像的决策变为干扰器类。在这项工作中,我们提出了一个新颖的框架,用于根据两个关键思想计算视觉反事实说明。首先,我们强制执行替换和替换区域包含相同的语义部分,从而产生了更加一致的解释。其次,我们以计算上有效的方式使用多个干扰器图像,并获得更少的区域替代方法的更多歧视性解释。我们的方法在语义上一致性高27%,并且比三个细粒图像识别数据集的竞争方法要快27%。我们通过机器教学实验来强调反事实对现有作品的实用性,在这些实验中,我们教人类对不同的鸟类进行分类。我们还用零件和属性的词汇来补充我们的解释,这些零件和属性对系统的决定有所帮助。在此任务中,当使用相对于现有作品的反事实解释时,我们将获得最新的结果,从而增强了语义一致的解释的重要性。源代码可从https://github.com/facebookresearch/visual-counterfactuals获得。
translated by 谷歌翻译
In this work, we develop a technique to produce counterfactual visual explanations. Given a 'query' image I for which a vision system predicts class c, a counterfactual visual explanation identifies how I could change such that the system would output a different specified class c . To do this, we select a 'distractor' image I that the system predicts as class c and identify spatial regions in I and I such that replacing the identified region in I with the identified region in I would push the system towards classifying I as c . We apply our approach to multiple image classification datasets generating qualitative results showcasing the interpretability and discriminativeness of our counterfactual explanations. To explore the effectiveness of our explanations in teaching humans, we present machine teaching experiments for the task of fine-grained bird classification. We find that users trained to distinguish bird species fare better when given access to counterfactual explanations in addition to training examples.
translated by 谷歌翻译
我们通过无监督学习的角度探索语义对应估计。我们使用标准化的评估协议彻底评估了最近提出的几种跨多个挑战数据集的无监督方法,在该协议中,我们会改变诸如骨干架构,预训练策略以及预训练和填充数据集等因素。为了更好地了解这些方法的故障模式,并为了提供更清晰的改进途径,我们提供了一个新的诊断框架以及一个新的性能指标,该指标更适合于语义匹配任务。最后,我们引入了一种新的无监督的对应方法,该方法利用了预训练的功能的强度,同时鼓励在训练过程中进行更好的比赛。与当前的最新方法相比,这会导致匹配性能明显更好。
translated by 谷歌翻译
自我监督的视觉表现学习的目标是学习强大,可转让的图像表示,其中大多数研究专注于物体或场景水平。另一方面,在部分级别的代表学习得到了显着的关注。在本文中,我们向对象部分发现和分割提出了一个无人监督的方法,并进行三个贡献。首先,我们通过一系列目标构建一个代理任务,鼓励模型将图像的有意义分解成其部件。其次,先前的工作争辩地用于重建或聚类预先计算的功能作为代理的代理;我们凭经验展示了这一点,这种情况不太可能找到有意义的部分;主要是因为它们的低分辨率和分类网络到空间涂抹信息的趋势。我们建议像素水平的图像重建可以缓解这个问题,充当互补的提示。最后,我们表明基于Keypoint回归的标准评估与分割质量不符合良好,因此引入不同的指标,NMI和ARI,更好地表征对象的分解成零件。我们的方法产生了一致的细粒度但视觉上不同的类别的语义部分,优于三个基准数据集的现有技术。代码可在项目页面上找到:https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/
translated by 谷歌翻译
在许多高风险应用中,人工智能(AI)的预测越来越重要,甚至是必要的,而人类是最终的决策者。在这项工作中,我们提出了两种自我解剖图像分类器的新型架构,这些架构首先解释,然后通过利用查询图像和示例之间的视觉对应关系来预测(与事后解释)。我们的模型始终在分布(OOD)数据集上始终改进(提高1-4分),同时在分布测试中略差(比Resnet-50)和$ k $ near的邻居分类器更差(1至2分)。 (KNN)。通过大规模的人类对成像网和幼崽的研究,我们基于对应的解释对用户的解释比KNN解释更有用。我们的解释可帮助用户更准确地拒绝AI的错误决策,而不是所有其他测试方法。有趣的是,我们首次表明,在ImageNet和Cub图像分类任务中,有可能实现互补的人类团队的准确性(即比Ai-Olone或单词更高)。
translated by 谷歌翻译
零拍分类问题的大多数现有算法通常依赖于类别之间基于属性的语义关系,以实现新型类别的分类而不观察其任何实例。但是,训练零拍分类模型仍然需要训练数据集中的每个类(甚至是实例)的属性标记,这也是昂贵的。为此,在本文中,我们提出了一个新的问题场景:“我们是否能够为新颖的属性探测器/分类器获得零射击学习,并使用它们自动注释数据集以进行标记效率?”基本上,仅给予一小组探测器,这些探测器都学会了识别一些手动注释的属性(即,所见属性),我们的目标是以零射学学习方式综合新颖属性的探测器。我们所提出的方法,零拍摄的属性(ZSLA),这是我们最好的知识中的第一个,通过应用SET操作首先将所看到的属性分解为基本属性,然后重新组合地解决这一新的研究问题。这些基本属性进入了新颖的属性。进行广泛的实验以验证我们合成探测器的能力,以便准确地捕获新颖性的语义,并与其他基线方法相比,在检测和定位方面表现出优越的性能。此外,在CALTECH-UCSD鸟类-200-2011 DataSet上使用仅32个属性,我们所提出的方法能够合成其他207个新颖的属性,而在由我们合成重新注释的数据集上培训的各种广义零拍分类算法属性探测器能够提供可比性的性能与手动地理注释有关的那些。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
无监督语义分割的任务旨在将像素聚集到语义上有意义的群体中。具体而言,分配给同一群集的像素应共享高级语义属性,例如其对象或零件类别。本文介绍了MaskDistill:基于三个关键想法的无监督语义细分的新颖框架。首先,我们提倡一种数据驱动的策略,以生成对象掩模作为语义分割事先的像素分组。这种方法省略了手工制作的先验,这些先验通常是为特定场景组成而设计的,并限制了竞争框架的适用性。其次,MaskDistill将对象掩盖簇簇以获取伪地真相,以训练初始对象分割模型。第三,我们利用此模型过滤出低质量的对象掩模。这种策略减轻了我们像素分组中的噪声,并导致了我们用来训练最终分割模型的干净掩模集合。通过组合这些组件,我们可以大大优于以前的作品,用于对Pascal(+11%MIOU)和COCO(+4%Mask AP50)进行无监督的语义分割。有趣的是,与现有方法相反,我们的框架不在低级图像提示上,也不限于以对象为中心的数据集。代码和型号将提供。
translated by 谷歌翻译
We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-
translated by 谷歌翻译
Can we automatically group images into semantically meaningful clusters when ground-truth annotations are absent? The task of unsupervised image classification remains an important, and open challenge in computer vision. Several recent approaches have tried to tackle this problem in an end-to-end fashion. In this paper, we deviate from recent works, and advocate a two-step approach where feature learning and clustering are decoupled. First, a self-supervised task from representation learning is employed to obtain semantically meaningful features. Second, we use the obtained features as a prior in a learnable clustering approach. In doing so, we remove the ability for cluster learning to depend on low-level features, which is present in current end-to-end learning approaches. Experimental evaluation shows that we outperform state-of-the-art methods by large margins, in particular +26.6% on CI-FAR10, +25.0% on CIFAR100-20 and +21.3% on STL10 in terms of classification accuracy. Furthermore, our method is the first to perform well on a large-scale dataset for image classification. In particular, we obtain promising results on ImageNet, and outperform several semi-supervised learning methods in the low-data regime without the use of any groundtruth annotations. The code is made publicly available here.
translated by 谷歌翻译
由于深度学习模型越来越多地用于安全关键应用,可解释性和可信度成为主要问题。对于简单的图像,例如低分辨率面部肖像,最近已经提出了综合视觉反事实解释作为揭示训练分类模型的决策机制的一种方法。在这项工作中,我们解决了为高质量图像和复杂场景产生了反事实解释的问题。利用最近的语义到图像模型,我们提出了一种新的生成反事实解释框架,可以产生卓越的稀疏修改,该框架可以保护整体场景结构。此外,我们介绍了“区域目标反事实解释”的概念和相应的框架,其中用户可以通过指定查询图像的一组语义区域来指导反事实的生成说明必须是关于的。在具有挑战性的数据集中进行了广泛的实验,包括高质量的肖像(Celebamask-HQ)和驾驶场景(BDD100K)。
translated by 谷歌翻译
在本文中,我们提出了Primatul,这是一种用于从细粒识别中使用的数据集的零件检测器无监督学习的新型算法。它利用了训练集中所有图像的宏观相似性,以便在预先训练的卷积神经网络的特征空间中进行重复的模式。我们提出了实施检测部件的局部性和统一性的新目标功能。此外,我们根据相关评分将检测器嵌入置信度度量,从而允许系统估计每个部分的可见性。我们将我们的方法应用于两个公共细粒数据集(Caltech-UCSD Bird 200和Stanford Cars),并表明我们的探测器可以一致地突出物体的一部分,同时很好地衡量了对其预测的信心。我们还证明,这些探测器可直接用于构建基于零件的细粒分类器,这些分类器在基于原型的方法的透明度与非解剖方法的性能之间提供了良好的折衷。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
人类参加,过程和分类给定图像的方式有可能使深层学习模型的性能大大效益。利用人类聚焦的地方可以在偏离基本特征时纠正模型以获得正确的决策。为了验证人类注意力包含诸如细粒度分类等决策过程的有价值的信息,我们可以比较人类注意和模型解释在发现重要特征方面。为了实现这一目标,我们为细粒度分类数据集幼崽收集人的凝视数据,并建立一个名为CUB-GHA的数据集(基于凝视的人类注意)。此外,我们提出了凝视增强培训(GAT)和知识融合网络(KFN),将人类凝视知识整合到分类模型中。我们在Cub-Gha和最近发布的医疗数据集CXR眼中实施了我们的胸部X射线图像的建议,包括从放射科医师收集的凝视数据。我们的结果表明,整合人类注意知识有效效益,有效地进行分类,例如,在CXR上改善基线4.38%。因此,我们的工作不仅提供了在细粒度分类中了解人类注意的有价值的见解,而且还有助于将人类凝视与计算机视觉任务集成的未来研究。 CUB-GHA和代码可在https://github.com/yaorong0921/cub -gha获得。
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
鉴于部署更可靠的机器学习系统的重要性,研究界内的机器学习模型的解释性得到了相当大的关注。在计算机视觉应用中,生成反事实方法表示如何扰乱模型的输入来改变其预测,提供有关模型决策的详细信息。目前的方法倾向于产生关于模型决策的琐碎的反事实,因为它们通常建议夸大或消除所分类的属性的存在。对于机器学习从业者,这些类型的反事件提供了很少的价值,因为它们没有提供有关不期望的模型或数据偏差的新信息。在这项工作中,我们确定了琐碎的反事实生成问题,我们建议潜水以缓解它。潜水在使用多样性强制损失限制的解除印章潜在空间中学习扰动,以发现关于模型预测的多个有价值的解释。此外,我们介绍一种机制,以防止模型产生微不足道的解释。 Celeba和Synbols的实验表明,与先前的最先进的方法相比,我们的模型提高了生产高质量有价值解释的成功率。代码可在https://github.com/elementai/beyond- trial-explanations获得。
translated by 谷歌翻译
很少有细粒度的分类和人搜索作为独特的任务和文学作品,已经分别对待了它们。但是,仔细观察揭示了重要的相似之处:这两个任务的目标类别只能由特定的对象细节歧视;相关模型应概括为新类别,而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络(QGN)。QGN由一个查询引导的暹罗引文和兴奋子网组成,该子网还重新进行了所有网络层的查询和画廊功能,一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善,在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行,我们在其中进行了深入的分析。
translated by 谷歌翻译
图像分类模型可以取决于图像的多个不同语义属性。对分类器的决定的说明需要对这些属性进行发现和可视化这些属性。在这里,我们通过训练生成模型来具体解释基于分类器决策的多个属性来实现这一点的样式x。此类属性的自然来源是样式语的风格,已知在图像中生成语义有意义的维度。但是,由于标准GaN训练不依赖于分类器,所以它可能不代表对分类器决定很重要的这些属性,并且风格的尺寸可以表示无关属性。为了克服这一点,我们提出了一种培训程序,该培训程序包括分类器模型,以便学习特定于分类器的风格。然后从该空间中选择解释性属性。这些可用于可视化每个图像改变多个属性的效果,从而提供特定于图像的解释。我们将风格x应用于多个域,包括动物,叶子,面和视网膜图像。为此,我们展示了如何以不同方式修改图像以改变其分类器输出。我们的结果表明,该方法发现与语义上保持良好的属性,生成有意义的图像特定的解释,并且是在用户研究中测量的人为解释。
translated by 谷歌翻译
自解释深层模型旨在在训练期间隐含地学习基于潜在的概念的解释,从而消除了任何HOC后期解释生成技术的要求。在这项工作中,我们提出了一种这样的模型,该模型将解释生成模块附加在任何基本网络的顶部,并共同列举显示出高预测性能的整个模块,并在概念方面产生有意义的解释。与基线方法相比,我们的培训策略适用于无监督的概念学习,与基线方法相比具有更大的参数空间要求。我们拟议的模式还规定了利用自我监督对概念来提取更好的解释。然而,通过完整的概念监督,与最近提出的基于概念的可解释模型相比,我们实现了最佳预测性能。我们通过我们的方法报告了定性和定量结果,这表明了比最近提出的基于概念的解释方法更好的性能。我们报告了一个没有地面真理概念的两个数据集,即CiFar10,ImageNet和两个具有地面真理概念的数据集,即AWA2,Cub-200,以显示我们两种情况的方法。据我们所知,我们是第一批展示诸如ImageNet的大规模数据集的结果。
translated by 谷歌翻译