Many visualization techniques have been created to help explain the behavior of convolutional neural networks (CNNs), but they largely consist of static diagrams that convey limited information. Interactive visualizations can provide more rich insights and allow users to more easily explore a model's behavior; however, they are typically not easily reusable and are specific to a particular model. We introduce Visual Feature Search, a novel interactive visualization that is generalizable to any CNN and can easily be incorporated into a researcher's workflow. Our tool allows a user to highlight an image region and search for images from a given dataset with the most similar CNN features. It supports searching through large image datasets with an efficient cache-based search implementation. We demonstrate how our tool elucidates different aspects of model behavior by performing experiments on supervised, self-supervised, and human-edited CNNs. We also release a portable Python library and several IPython notebooks to enable researchers to easily use our tool in their own experiments. Our code can be found at https://github.com/lookingglasslab/VisualFeatureSearch.
translated by 谷歌翻译
基于概念的解释性方法旨在使用一组预定义的语义概念来解释深度神经网络模型的预测。这些方法在新的“探针”数据集上评估了训练有素的模型,并将模型预测与该数据集中标记的视觉概念相关联。尽管他们受欢迎,但他们的局限性并未被文献所理解和阐明。在这项工作中,我们分析了基于概念的解释中的三个常见因素。首先,选择探针数据集对生成的解释有深远的影响。我们的分析表明,不同的探针数据集可能会导致非常不同的解释,并表明这些解释在探针数据集之外不可概括。其次,我们发现探针数据集中的概念通常比他们声称要解释的课程更不太明显,更难学习,这使解释的正确性提出了质疑。我们认为,仅在基于概念的解释中才能使用视觉上的显着概念。最后,尽管现有方法使用了数百甚至数千个概念,但我们的人类研究揭示了32个或更少的概念更严格的上限,除此之外,这些解释实际上不太有用。我们对基于概念的解释性方法的未来发展和分析提出建议。可以在\ url {https://github.com/princetonvisualai/overlookedfactors}找到我们的分析和用户界面的代码。
translated by 谷歌翻译
已知性别偏见存在于大规模的视觉数据集中,并且可以在下游模型中反映甚至扩大。许多先前的作品通常通过尝试从图像中删除性别表达信息来减轻性别偏见。为了理解这些方法的可行性和实用性,我们研究了大规模视觉数据集中存在的$ \ textit {gengender伪像} $。我们将$ \ textit {性别伪像} $定义为与性别相关的视觉提示,专门针对那些由现代图像分类器学习并具有可解释的人类推论的线索。通过我们的分析,我们发现性别伪像在可可和开放型数据集中无处不在,从低级信息(例如,颜色通道的平均值)到图像的高级组成(例如姿势和姿势和姿势,,,,,,,,,地和图像的平均值),无处不在(例如,姿势和姿势,姿势和姿势,,,姿势和姿势,是姿势和姿势,是姿势和姿势,是姿势和姿势的平均值)。人的位置)。鉴于性别文物的流行,我们声称试图从此类数据集中删除性别文物的尝试是不可行的。取而代之的是,责任在于研究人员和从业人员意识到数据集中图像的分布是高度性别的,因此开发了对各组之间这些分配变化的强大方法。
translated by 谷歌翻译
在过去的十年中,深度学习模型在机器学习的不同领域取得了巨大的成功。但是,这些模型的大小和复杂性使它们难以理解。为了使它们更容易解释,最近的一些作品着重于通过人类解剖的语义属性来解释深神网络的部分。但是,仅使用语义属性完全解释复杂的模型可能是不可能的。在这项工作中,我们建议使用一小部分无法解释的功能来增强这些属性。具体而言,我们开发了一个新颖的解释框架(通过标记和未标记分解的解释),将模型的预测分解为两个部分:一个可以通过语义属性的线性组合来解释,而另一部分则取决于未解释的功能。 。通过识别后者,我们能够分析模型的“无法解释的”部分,从而了解模型使用的信息。我们表明,一组未标记的功能可以推广到具有相同功能空间的多种型号,并将我们的作品与两种流行的面向属性的方法,可解释的基础分解和概念瓶颈进行比较,并讨论Elude提供的其他见解。
translated by 谷歌翻译
由于机器学习越来越多地应用于高冲击,高风险域,因此有许多新方法旨在使AI模型更具人类解释。尽管最近的可解释性工作增长,但缺乏对所提出的技术的系统评价。在这项工作中,我们提出了一种新的人类评估框架蜂巢(可视化解释的人类可解释性),用于计算机愿景中的不同解释性方法;据我们所知,这是它的第一个工作。我们认为,人类研究应该是正确评估方法对人类用户的可解释方式的金标。虽然由于与成本,研究设计和跨方法比较相关的挑战,我们常常避免人类研究,但我们描述了我们的框架如何减轻这些问题并进行IRB批准的四种方法,这些方法是代表解释性的多样性:GradCam,Bagnet ,protopnet和prodotree。我们的结果表明,解释(无论它们是否实际正确)发芽人类信任,但用户对用户不够明确,以区分正确和不正确的预测。最后,我们还开展框架以实现未来的研究,并鼓励更多以人以人为本的解释方法。
translated by 谷歌翻译
由于机器学习算法越来越多地应用于高影响的高风险任务,例如医学诊断或自主驾驶,研究人员可以解释这些算法如何到达他们的预测是至关重要的。近年来,已经开发了许多图像显着性方法,总结了在图像中高度复杂的神经网络“看”以获得其预测的证据。然而,这些技术受到他们启发式性质和建筑限制的限制。在本文中,我们提出了两个主要贡献:首先,我们提出了一般框架,用于学习任何黑盒算法的不同类型的解释。其次,我们专注于框架,找到最负责分类器决定的图像的一部分。与以前的作品不同,我们的方法是模型 - 不可知和可测试的,因为它是在明确和可解释的图像扰动中的基础。
translated by 谷歌翻译
Bayesian Optimization is a useful tool for experiment design. Unfortunately, the classical, sequential setting of Bayesian Optimization does not translate well into laboratory experiments, for instance battery design, where measurements may come from different sources and their evaluations may require significant waiting times. Multi-fidelity Bayesian Optimization addresses the setting with measurements from different sources. Asynchronous batch Bayesian Optimization provides a framework to select new experiments before the results of the prior experiments are revealed. This paper proposes an algorithm combining multi-fidelity and asynchronous batch methods. We empirically study the algorithm behavior, and show it can outperform single-fidelity batch methods and multi-fidelity sequential methods. As an application, we consider designing electrode materials for optimal performance in pouch cells using experiments with coin cells to approximate battery performance.
translated by 谷歌翻译
Classification on smartphone-captured chest X-ray (CXR) photos to detect pathologies is challenging due to the projective transformation caused by the non-ideal camera position. Recently, various rectification methods have been proposed for different photo rectification tasks such as document photos, license plate photos, etc. Unfortunately, we found that none of them is suitable for CXR photos, due to their specific transformation type, image appearance, annotation type, etc. In this paper, we propose an innovative deep learning-based Projective Transformation Rectification Network (PTRN) to automatically rectify CXR photos by predicting the projective transformation matrix. To the best of our knowledge, it is the first work to predict the projective transformation matrix as the learning goal for photo rectification. Additionally, to avoid the expensive collection of natural data, synthetic CXR photos are generated under the consideration of natural perturbations, extra screens, etc. We evaluate the proposed approach in the CheXphoto smartphone-captured CXR photos classification competition hosted by the Stanford University Machine Learning Group, our approach won first place with a huge performance improvement (ours 0.850, second-best 0.762, in AUC). A deeper study demonstrates that the use of PTRN successfully achieves the classification performance on the spatially transformed CXR photos to the same level as on the high-quality digital CXR images, indicating PTRN can eliminate all negative impacts of projective transformation on the CXR photos.
translated by 谷歌翻译
我们研究了从类别理论的数学字段中的英语文本中提取数学实体的不同系统,作为构建数学知识图的第一步。我们考虑四个不同的术语提取器,并比较它们的结果。这个小实验展示了从嘈杂域文本中提取的术语的构建和评估的一些问题。我们还提供了研究数学的两个开放语料库,尤其是类别理论:一小部分来自TAC期刊(3188个句子)的摘要,以及来自NLAB社区Wiki(15,000个句子)的较大语料库。
translated by 谷歌翻译
使用计算机视觉对间接费用的分析是一个问题,在学术文献中受到了很大的关注。在这个领域运行的大多数技术都非常专业,需要大型数据集的昂贵手动注释。这些问题通过开发更通用的框架来解决这些问题,并结合了表示学习的进步,该框架可以更灵活地分析具有有限标记数据的新图像类别。首先,根据动量对比机制创建了未标记的空中图像数据集的强大表示。随后,通过构建5个标记图像的准确分类器来专门用于不同的任务。从6000万个未标记的图像中,成功的低水平检测城市基础设施进化,体现了我们推进定量城市研究的巨大潜力。
translated by 谷歌翻译