在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
随着机器学习(ML)系统变得越来越普遍,有必要在部署之前审核这些系统的偏见。最近的研究开发了算法,以有效地以可解释的,表现不佳的数据(或切片)的形式有效地识别相互偏见。但是,这些解决方案及其见解是有限的,而没有用于视觉理解和与这些算法结果相互作用的工具。我们提出了Visual Auditor,这是一种交互式可视化工具,用于审核和汇总模型偏差。视觉审核员通过提供可解释的交叉偏差概述(检查由多个功能定义的人群,有问题的数据切片之间的关系以及在模型中表现不佳和表现表现不佳之间的比较之间存在的详细信息)来协助模型验证。我们的开源工具直接在计算笔记本和Web浏览器中运行,使模型审核可访问并易于集成到当前的ML开发工作流中。一项与Fiddler AI的域专家合作的观察用户研究强调,我们的工具可以帮助ML实践者识别和理解模型偏见。
translated by 谷歌翻译
生成对抗网络(GAN)在许多应用领域中广泛采用,例如数据预处理,图像编辑和创造力支持。但是,GAN的“黑匣子”性质可防止非专家用户控制模型生成的数据,并产生大量的先前工作,该工作集中在算法驱动的方法上,以提取编辑说明以控制GAN。补充,我们提出了一个Ganzilla:用户驱动的工具,该工具使用户能够使用经典的散点/收集技术来迭代地发现指示,以实现其编辑目标。在与12名参与者的一项研究中,Ganzilla用户能够发现(i)编辑图像匹配提供的示例(封闭任务)的说明,并且(ii)遇到了一个高级目标,例如使脸更加快乐,而同时又实现了。显示个人之间的多样性(开放式任务)。
translated by 谷歌翻译
多实例学习(MIL)是一种机器学习的范例,旨在对物体(实例)的集合(袋子)进行分类,仅将标签分配给袋子。通过选择要代表每个袋子的实例来解决这个问题,以转换为标准监督学习的MIL问题。可视化可以是通过将用户的知识纳入分类过程来评估学习方案的有用工具。考虑到多个实例学习是无法通过当前可视化技术无法处理的范例,我们提出了一种名为Miltree的基于树的可视化,以支持MIL问题。树的第一级代表袋子,第二级代表属于每个袋的实例,允许用户以直观的方式理解MIL数据集。此外,我们为MIL提出了两个新的实例选择方法,帮助用户进一步提高模型。我们的方法可以处理二进制和多字样。在我们的实验中,SVM用于构建分类器。通过支持Miltree布局,通过更改由原型实例组成的训练集来更新初始分类模型。实验结果验证了我们的方法的有效性,显示Miltree的视觉挖掘可以支持MIL场景中的探索和改进模型,并且我们的实例选择方法在大多数情况下优于当前可用的替代方案。
translated by 谷歌翻译
神经语言模型被广泛使用;但是,它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此,最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成,这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战,例如保持适配器属性的概述,并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战,我们提供了双重贡献。首先,在与NLP研究人员的密切合作中,我们对支持适配器评估的方法进行了需求分析,并检测到了对固有的(即基于相似性的嵌入相似性)和外部(即基于预测的)解释方法的需求。 。其次,在收集的要求的激励下,我们设计了一个灵活的视觉分析工作空间,可以比较适配器属性。在本文中,我们讨论了几次设计迭代和替代方案,以进行交互式,比较视觉解释方法。我们的比较可视化表明,适应性嵌入媒介的差异和对​​各种人性化概念(例如,人的名字,人类素质)的预测结果。我们通过案例研究评估我们的工作空间,并表明,例如,根据Context-0(deNsTextualized)嵌入对语言偏见任务进行培训的适配器,引入了一种新型的偏见,其中单词(甚至与性别独立的单词)一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。
translated by 谷歌翻译
基准数据集在评估自然语言理解(NLU)模型中起重要作用。但是,快捷方式(基准数据集中的不需要的偏差)可能会损害基准数据集在揭示模型的实际功能中的有效性。由于快捷方式在覆盖范围,生产率和语义含义上有所不同,因此NLU专家在创建基准数据集时系统地理解和避免它们是一项挑战。在本文中,我们开发了一个视觉分析系统,即短路,以帮助NLU专家探索NLU基准数据集中的快捷方式。该系统允许用户对快捷方式进行多层次探索。具体而言,统计信息视图可帮助用户掌握统计数据,例如基准数据集中快捷方式的覆盖范围和生产率。模板视图采用层次和可解释的模板来汇总不同类型的快捷方式。实例视图允许用户检查快捷方式涵盖的相应实例。我们进行案例研究和专家访谈,以评估系统的有效性和可用性。结果表明,饭店支持用户通过快捷方式更好地了解基准数据集问题,从而激发他们创建具有挑战性和相关的基准数据集。
translated by 谷歌翻译
尽管机器学习取得了巨大进步(ML),但数据不平衡的培训仍然在许多现实世界中构成挑战。在解决此问题的一系列不同技术中,采样算法被视为有效的解决方案。但是,问题更为根本,许多作品强调了实例硬度的重要性。这个问题是指管理不安全或可能嘈杂的实例的重要性,这些实例更可能被错误分类并作为分类绩效不佳的根本原因。本文介绍了Hardvis,这是一种视觉分析系统,旨在处理实例硬度,主要在分类场景中。我们提出的系统协助用户在视觉上比较数据类型的不同分布,根据局部特征选择实例类型,这些实例后来将受主动采样方法的影响,并验证来自底漆或过采样技术的建议对ML模型有益。此外,我们允许用户找到和采样轻松且难以对所有课程的培训实例进行分类,而不是统一地采样/过采样。用户可以从不同角度探索数据子集以决定所有这些参数,而HardVis则跟踪其步骤并评估模型在测试集中分别评估模型的预测性能。最终结果是一个均衡的数据集,可增强ML模型的预测能力。通过假设使用情况和用例证明了Hardvis的功效和有效性。最后,我们还研究了系统的有用,基于我们从ML专家那里收到的反馈。
translated by 谷歌翻译
The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object category classification and detection on hundreds of object categories and millions of images. The challenge has been run annually from 2010 to present, attracting participation from more than fifty institutions. This paper describes the creation of this benchmark dataset and the advances in object recognition that have been possible as a result. We discuss the chal-
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
在解决问题的过程中,通往解决方案的道路可以看作是一系列决策。人类或计算机做出的决定通过问题的高维表示空间来描述轨迹。通过降低维度,可以在较低维空间中可视化这些轨迹。此类嵌入式轨迹先前已应用于各种数据,但是分析几乎完全集中在单轨迹的自相似性上。相比之下,我们描述了在相同的嵌入空间中绘制许多轨迹(对于不同初始条件,终端状态和解决方案策略)而出现的模式。我们认为,可以通过解释这些模式来制定有关解决问题的任务和解决策略的一般性陈述。我们探索并描述了由人类和机器制定的各种应用领域中的决策产生的轨迹中的这种模式:逻辑难题(魔术片),策略游戏(国际象棋)和优化问题(神经网络培训)。 We also discuss the importance of suitably chosen representation spaces and similarity metrics for the embedding.
translated by 谷歌翻译
A computational graph in a deep neural network (DNN) denotes a specific data flow diagram (DFD) composed of many tensors and operators. Existing toolkits for visualizing computational graphs are not applicable when the structure is highly complicated and large-scale (e.g., BERT [1]). To address this problem, we propose leveraging a suite of visual simplification techniques, including a cycle-removing method, a module-based edge-pruning algorithm, and an isomorphic subgraph stacking strategy. We design and implement an interactive visualization system that is suitable for computational graphs with up to 10 thousand elements. Experimental results and usage scenarios demonstrate that our tool reduces 60% elements on average and hence enhances the performance for recognizing and diagnosing DNN models. Our contributions are integrated into an open-source DNN visualization toolkit, namely, MindInsight [2].
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
维数减少(DR)技术有助于分析师理解高维空间的模式。这些技术通常由散点图表示,在不同的科学域中使用,并促进集群和数据样本之间的相似性分析。对于包含许多粒度的数据集或者当分析遵循信息可视化Mantra时,分层DR技术是最合适的方法,因为它们预先呈现了主要结构和需求的详细信息。然而,当前的分层DR技术并不完全能够解决文献问题,因为它们不保留跨分层级别的投影心理映射,或者不适合大多数数据类型。这项工作提出了Humap,一种新颖的等级维度减少技术,旨在灵活地保护本地和全球结构,并在整个分层勘探中保留心理贴图。我们提供了与现有的等级方法相比我们技术优势的经验证据,并显示了两种案例研究以证明其优势。
translated by 谷歌翻译