图像分类模型通常会学会根据输入功能与培训数据中输出类之间的无关共发生进行预测类。我们称不需要的相关性为“数据偏见”,视觉特征导致数据偏见为“偏见因素”。在没有人类干预的情况下自动识别和减轻偏见是一个挑战。因此,我们进行了一项设计研究,以找到人类的循环解决方案。首先,我们确定了用三个专家捕获图像分类模型的偏差缓解过程的用户任务。然后,为了支持任务,我们开发了一个名为DASH的视觉分析系统,该系统允许用户在视觉上识别偏见因素,使用最先进的图像到图像到图像转换模型迭代生成合成图像,并监督改善分类精度的模型培训过程。我们对十名参与者的定量评估和定性研究证明了破折号的实用性,并为将来的工作提供了教训。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
已经提出了多种解释性方法和理论评价分数。然而,尚不清楚:(1)这些方法有多有用的现实情景和(2)理论措施如何预测人类实际使用方法的有用性。为了填补这一差距,我们在规模中进行了人类的心理物理学实验,以评估人类参与者(n = 1,150)以利用代表性归因方法学习预测不同图像分类器的决定的能力。我们的结果表明,用于得分的理论措施可解释方法的反映在现实世界方案中的个人归因方法的实际实用性不佳。此外,个人归因方法帮助人类参与者预测分类器的决策的程度在分类任务和数据集中广泛变化。总体而言,我们的结果突出了该领域的根本挑战 - 建议致力于开发更好的解释方法和部署人以人为本的评估方法。我们将制定框架的代码可用于缓解新颖解释性方法的系统评估。
translated by 谷歌翻译
生成对抗网络(GAN)在许多应用领域中广泛采用,例如数据预处理,图像编辑和创造力支持。但是,GAN的“黑匣子”性质可防止非专家用户控制模型生成的数据,并产生大量的先前工作,该工作集中在算法驱动的方法上,以提取编辑说明以控制GAN。补充,我们提出了一个Ganzilla:用户驱动的工具,该工具使用户能够使用经典的散点/收集技术来迭代地发现指示,以实现其编辑目标。在与12名参与者的一项研究中,Ganzilla用户能够发现(i)编辑图像匹配提供的示例(封闭任务)的说明,并且(ii)遇到了一个高级目标,例如使脸更加快乐,而同时又实现了。显示个人之间的多样性(开放式任务)。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
深层自然语言处理(NLP)模型的快速发展导致迫切需要对这些模型单独提出的统一理解。由于缺乏解释低级(例如单词)和高级(例如,短语)特征的统一措施,现有方法无法满足一个框架中不同模型的需求。我们已经开发了一个视觉分析工具DeepNLPVI,以使对文本分类的NLP模型有统一的理解。关键思想是一种基于信息的度量,它提供了有关模型的每一层如何维护样本中输入单词信息的定量解释。我们在每个层的内部和界面信息中对单词对最终预测的重要性以及单词之间的关系(例如短语的形成)进行建模。多层可视化由语料库级,样本级别和单词级可视化组成,支持从整体训练集到单个样本的分析。关于分类任务和模型比较的两个案例研究表明,DeepNLPVI可以帮助用户有效地确定样本和模型架构引起的潜在问题,然后进行明智的改进。
translated by 谷歌翻译
尽管机器学习取得了巨大进步(ML),但数据不平衡的培训仍然在许多现实世界中构成挑战。在解决此问题的一系列不同技术中,采样算法被视为有效的解决方案。但是,问题更为根本,许多作品强调了实例硬度的重要性。这个问题是指管理不安全或可能嘈杂的实例的重要性,这些实例更可能被错误分类并作为分类绩效不佳的根本原因。本文介绍了Hardvis,这是一种视觉分析系统,旨在处理实例硬度,主要在分类场景中。我们提出的系统协助用户在视觉上比较数据类型的不同分布,根据局部特征选择实例类型,这些实例后来将受主动采样方法的影响,并验证来自底漆或过采样技术的建议对ML模型有益。此外,我们允许用户找到和采样轻松且难以对所有课程的培训实例进行分类,而不是统一地采样/过采样。用户可以从不同角度探索数据子集以决定所有这些参数,而HardVis则跟踪其步骤并评估模型在测试集中分别评估模型的预测性能。最终结果是一个均衡的数据集,可增强ML模型的预测能力。通过假设使用情况和用例证明了Hardvis的功效和有效性。最后,我们还研究了系统的有用,基于我们从ML专家那里收到的反馈。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
一种区分照片逼真的计算机生成的问题的问题,可以解决自然图像与计算机图形或自然图像相比,而是一次。但在真实的图像取证方案中,考虑所有类别的图像生成是非常重要的,因为在大多数情况下,图像生成是未知的。我们首次致力于我们的最佳知识,接近将自然图像与照片逼真的计算机生成的图像区分自然图像作为三类分类任务分类,分类自然,计算机图形学和GaN图像。对于任务,我们通过并行融合三个有效的网络来提出多色空间融合效率型号,该网络遵循传输学习方法,其中每个网络在不同的颜色空间,RGB,LCH和HSV中运行,在分析各种颜色空间转换的功效之后选择图像取证问题。我们的模型在准确性,对后处理的鲁棒性方面优于基线,以及对其他数据集的概括。我们开展心理物理实验,了解人类可以如何分辨自然,计算机图形和GaN图像,我们可以观察到人类在分类这些图像,特别是计算机生成的图像中,表明任务计算算法的必要性。我们还通过视觉解释分析我们模型的行为,以了解促销区域,该区域有助于模型的决策,并与人类参与者以地区标记的形式提供的手动解释进行比较,在那里我们可以观察指示强大的解释中的相似之处我们模型的性质,以便有意义地采取决定。
translated by 谷歌翻译
尽管能够与过度能力网络概括,但深神经网络通常会学会滥用数据中的虚假偏见而不是使用实际的任务相关信息。由于此类快捷方式仅在收集的数据集中有效,因此由此产生的偏置模型在现实世界的投入上表现不佳,或导致意外的社交影响,例如性别歧视。为了抵消偏差的影响,现有方法可以利用辅助信息,这在实践中很少可获得,或者在训练数据中的无偏见样本中筛选,希望能够充分存在清洁样品。但是,这些关于数据的推定并不总是保证。在本文中,我们提出了通过生成偏差变换〜(CDVG)对比下展,该〜(CDVG)能够在现有的方法中经营,其中现有方法由于未偏置的偏差样品而不足的预设而下降。通过我们的观察,不仅如前所述的鉴别模型,而且生成模型倾向于关注偏差,CDVG使用翻译模型来将样本中的偏置转换为另一种偏差模式,同时保留任务相关信息。 。通过对比学习,我们将转化的偏见视图与另一个学习偏见,学习偏见不变的表示。综合和现实世界数据集的实验结果表明,我们的框架优于目前的最先进,并且有效地阻止模型即使在无偏差样本极为稀缺时也会被偏置。
translated by 谷歌翻译
We propose an interactive editing method that allows humans to help deep neural networks (DNNs) learn a latent space more consistent with human knowledge, thereby improving classification accuracy on indistinguishable ambiguous data. Firstly, we visualize high-dimensional data features through dimensionality reduction methods and design an interactive system \textit{SpaceEditing} to display the visualized data. \textit{SpaceEditing} provides a 2D workspace based on the idea of spatial layout. In this workspace, the user can move the projection data in it according to the system guidance. Then, \textit{SpaceEditing} will find the corresponding high-dimensional features according to the projection data moved by the user, and feed the high-dimensional features back to the network for retraining, therefore achieving the purpose of interactively modifying the high-dimensional latent space for the user. Secondly, to more rationally incorporate human knowledge into the training process of neural networks, we design a new loss function that enables the network to learn user-modified information. Finally, We demonstrate how \textit{SpaceEditing} meets user needs through three case studies while evaluating our proposed new method, and the results confirm the effectiveness of our method.
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
在许多现实世界中的高级应用程序中,解释人工智能(AI)模型的决策(AI)模型越来越重要。数以百计的论文提出了新功能归因方法,在其工作中讨论或利用这些工具。然而,尽管人类是目标最终用户,但大多数归因方法仅在代理自动评估指标上进行评估(Zhang等人,2018年; Zhou等人,2016年; Petsiuk等人,2018年)。在本文中,我们进行了首个用户研究,以衡量归因地图的有效性,以帮助人类进行成像网分类和斯坦福犬细粒分类,以及图像是自然或对抗性的(即包含对抗性扰动)。总体而言,特征归因比显示最近的训练集示例的人更有效。在一项艰巨的狗分类的艰巨任务中,向人类提供归因地图无济于事,而是与仅AI相比会损害人类团队的性能。重要的是,我们发现自动归因地图评估措施与实际人类AI团队的绩效较差。我们的发现鼓励社区严格测试其在下游人类应用应用程序上的方法,并重新考虑现有的评估指标。
translated by 谷歌翻译
人类参加,过程和分类给定图像的方式有可能使深层学习模型的性能大大效益。利用人类聚焦的地方可以在偏离基本特征时纠正模型以获得正确的决策。为了验证人类注意力包含诸如细粒度分类等决策过程的有价值的信息,我们可以比较人类注意和模型解释在发现重要特征方面。为了实现这一目标,我们为细粒度分类数据集幼崽收集人的凝视数据,并建立一个名为CUB-GHA的数据集(基于凝视的人类注意)。此外,我们提出了凝视增强培训(GAT)和知识融合网络(KFN),将人类凝视知识整合到分类模型中。我们在Cub-Gha和最近发布的医疗数据集CXR眼中实施了我们的胸部X射线图像的建议,包括从放射科医师收集的凝视数据。我们的结果表明,整合人类注意知识有效效益,有效地进行分类,例如,在CXR上改善基线4.38%。因此,我们的工作不仅提供了在细粒度分类中了解人类注意的有价值的见解,而且还有助于将人类凝视与计算机视觉任务集成的未来研究。 CUB-GHA和代码可在https://github.com/yaorong0921/cub -gha获得。
translated by 谷歌翻译
多实例学习(MIL)是一种机器学习的范例,旨在对物体(实例)的集合(袋子)进行分类,仅将标签分配给袋子。通过选择要代表每个袋子的实例来解决这个问题,以转换为标准监督学习的MIL问题。可视化可以是通过将用户的知识纳入分类过程来评估学习方案的有用工具。考虑到多个实例学习是无法通过当前可视化技术无法处理的范例,我们提出了一种名为Miltree的基于树的可视化,以支持MIL问题。树的第一级代表袋子,第二级代表属于每个袋的实例,允许用户以直观的方式理解MIL数据集。此外,我们为MIL提出了两个新的实例选择方法,帮助用户进一步提高模型。我们的方法可以处理二进制和多字样。在我们的实验中,SVM用于构建分类器。通过支持Miltree布局,通过更改由原型实例组成的训练集来更新初始分类模型。实验结果验证了我们的方法的有效性,显示Miltree的视觉挖掘可以支持MIL场景中的探索和改进模型,并且我们的实例选择方法在大多数情况下优于当前可用的替代方案。
translated by 谷歌翻译
注意力指导是一种解决深度学习中数据集偏见的方法,该模型依赖于错误的功能来做出决策。为了关注图像分类任务,我们提出了一个有效的人类在环境系统中,以交互性地将分类器的注意力引向用户指定的区域,从而降低了共发生偏见的影响,并提高了DNN的可传递性和可解释性。以前的注意力指导需要准备像素级注释,而不是被设计为交互式系统。我们提出了一种新的交互式方法,可让用户简单地点击注释图像,并研究一种新颖的主动学习策略,以显着减少注释的数量。我们既进行了数值评估,又进行了用户研究,以评估多个数据集上提出的系统。与现有的非活性学习方法相比,通常依靠大量基于多边形的分割口罩来微调或训练DNNS,我们的系统可以节省大量的劳动力和金钱,并获得一个效用更好的网络即使数据集有偏见。实验结果表明,所提出的系统是有效,合理且可靠的。
translated by 谷歌翻译
机器人社区已经开始严重依赖越来越逼真的3D模拟器,以便在大量数据上进行大规模培训机器人。但是,一旦机器人部署在现实世界中,仿真差距以及现实世界的变化(例如,灯,物体位移)导致错误。在本文中,我们介绍了SIM2Realviz,这是一种视觉分析工具,可以帮助专家了解并减少机器人EGO-POSE估计任务的这种差距,即使用训练型模型估计机器人的位置。 Sim2Realviz显示了给定模型的详细信息以及在模拟和现实世界中的实例的性能。专家可以识别在给定位置影响模型预测的环境差异,并通过与模型假设的直接交互来探索来解决它。我们详细介绍了工具的设计,以及与对平均偏差的回归利用以及如何解决的案例研究以及如何解决,以及模型如何被诸如自行车等地标的消失的扰动。
translated by 谷歌翻译
Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption.Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives. CCS Concepts: • Software and its engineering → Software defect analysis; • Computing methodologies → Machine learning.
translated by 谷歌翻译
由于机器学习越来越多地应用于高冲击,高风险域,因此有许多新方法旨在使AI模型更具人类解释。尽管最近的可解释性工作增长,但缺乏对所提出的技术的系统评价。在这项工作中,我们提出了一种新的人类评估框架蜂巢(可视化解释的人类可解释性),用于计算机愿景中的不同解释性方法;据我们所知,这是它的第一个工作。我们认为,人类研究应该是正确评估方法对人类用户的可解释方式的金标。虽然由于与成本,研究设计和跨方法比较相关的挑战,我们常常避免人类研究,但我们描述了我们的框架如何减轻这些问题并进行IRB批准的四种方法,这些方法是代表解释性的多样性:GradCam,Bagnet ,protopnet和prodotree。我们的结果表明,解释(无论它们是否实际正确)发芽人类信任,但用户对用户不够明确,以区分正确和不正确的预测。最后,我们还开展框架以实现未来的研究,并鼓励更多以人以人为本的解释方法。
translated by 谷歌翻译