开发用于异质/混合数据的机器学习(ML)算法是一个长期存在的问题。许多ML算法不适用于混合数据,其中包括数字和非数字数据,文本,图形等以生成可解释的模型。另一个长期存在的问题是开发用于多维混合数据无损可视化的算法。 ML的进一步进展在很大程度上取决于可解释的ML算法的混合数据和多维数据的无损解释可视化。后来允许使用最终用户的视觉知识发现开发可解释的ML模型,他们可以带来培训数据中没有的宝贵领域知识。混合数据的挑战包括:(1)生成数字编码方案,用于数字ML算法的非数字属性,以提供准确且可解释的ML模型,(2)生成用于对N-D非数字数据和视觉规则发现的无损可视化的方法这些可视化。本文介绍了混合数据类型的分类,分析了它们对ML的重要性,并提出了开发的实验工具包以处理混合数据。它结合了GitHub上可用的数据类型编辑器,Viscanvas数据可视化和规则发现系统。
translated by 谷歌翻译
与其他一些分类问题(例如,流派,作曲家或期间)相比,音乐情绪分类是一个具有挑战性的问题。解决这一具有挑战性的一个解决方案是使用集合机器学习模型。在本文中,我们表明可视化技术可以有效地传送沿时间轴的不同音乐部分的流行预测以及不确定性,同时能够与其应用于不同的音乐数据的应用程序分析单个ML模型。除了传统的视觉设计之外,例如堆叠线图,专题和基于像素的可视化,我们还推出了一个名为“双通信题材”的专题方案的新变种,这允许观众观察和测量最流行的预测比堆叠的线条图和主机轻松。测试表明,可视化集合预测在模型开发工作流程中有用,并使用模型预测注释音乐。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
Traditional approaches for data anonymization consider relational data and textual data independently. We propose rx-anon, an anonymization approach for heterogeneous semi-structured documents composed of relational and textual attributes. We map sensitive terms extracted from the text to the structured data. This allows us to use concepts like k-anonymity to generate a joined, privacy-preserved version of the heterogeneous data input. We introduce the concept of redundant sensitive information to consistently anonymize the heterogeneous data. To control the influence of anonymization over unstructured textual data versus structured data attributes, we introduce a modified, parameterized Mondrian algorithm. The parameter $\lambda$ allows to give different weight on the relational and textual attributes during the anonymization process. We evaluate our approach with two real-world datasets using a Normalized Certainty Penalty score, adapted to the problem of jointly anonymizing relational and textual data. The results show that our approach is capable of reducing information loss by using the tuning parameter to control the Mondrian partitioning while guaranteeing k-anonymity for relational attributes as well as for sensitive terms. As rx-anon is a framework approach, it can be reused and extended by other anonymization algorithms, privacy models, and textual similarity metrics.
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
考虑一个结构化的特征数据集,例如$ \ {\ textrm {sex},\ textrm {compy},\ textrm {race},\ textrm {shore} \} $。用户可能希望在特征空间观测中集中在哪里,并且它稀疏或空的位置。大稀疏或空区域的存在可以提供软或硬特征约束的域知识(例如,典型的收入范围是什么,或者在几年的工作经验中可能不太可能拥有高收入)。此外,这些可以建议用户对稀疏或空区域中的数据输入的机器学习(ML)模型预测可能是不可靠的。可解释的区域是一个超矩形,例如$ \ {\ textrm {rame} \ in \ {\ textrm {black},\ textrm {white} \} \} \} \&$ $ \ {10 \ leq \ :\ textrm {体验} \:\ leq 13 \} $,包含满足约束的所有观察;通常,这些区域由少量特征定义。我们的方法构造了在数据集中观察到的特征空间的基于观察密度的分区。它与其他人具有许多优点,因为它适用于原始域中的混合类型(数字或分类)的特征,也可以分开空区域。从可视化可以看出,所产生的分区符合人眼可能识别的空间分组;因此,结果应延伸到更高的尺寸。我们还向其他数据分析任务展示了一些应用程序,例如推断M1模型误差,测量高尺寸密度可变性以及治疗效果的因果推理。通过分区区域的超矩形形式可以实现许多这些应用。
translated by 谷歌翻译
随着人工智能的兴起,算法已经变得更好地从培训数据中学习基本模式,包括基于性别,种族等基于性别的社会偏见。部署此类算法对招聘,医疗保健,执法等领域的部署已经提高了严重的领域。对机器学习算法中的公平,问责制,信任和解释性的关注。为了减轻这个问题,我们提出了D-Bias,这是一种视觉交互式工具,它体现了人类在循环AI方法,以审核和减轻表格数据集的社交偏见。它使用图形因果模型来表示数据集中不同特征之间的因果关系,并作为注入域知识的媒介。用户可以通过识别因果网络中的不公平因果关系并使用一系列公平指标来检测对群体(例如女性或亚组)的偏见。此后,用户可以通过在不公平的因果边缘作用来减轻偏见。对于每种相互作用,例如弱化/删除有偏见的因果边缘,系统使用一种新方法来模拟基于当前因果模型的新(cla依)数据集。用户可以在视觉上评估其相互作用对不同公平指标,公用事业指标,数据失真和基础数据分布的影响。一旦满足,他们就可以下载依据的数据集并将其用于任何下游应用程序以进行更公正的预测。我们通过对3个数据集进行实验以及一项正式的用户研究来评估D偏差。我们发现,与不同公平指标的基线偏差方法相比,D偏差有助于显着降低偏差,同时几乎没有数据失真和效用较小的损失。此外,我们基于人类的方法极大地超过了关于信任,解释性和问责制的自动方法。
translated by 谷歌翻译
保护私人信息是数据驱动的研究和业务环境中的关键问题。通常,引入匿名或(选择性)删除之类的技术,以允许数据共享,e。 G。在协作研究的情况下。为了与匿名技术一起使用,$ k $ - 匿名标准是最受欢迎的标准之一,具有许多有关不同算法和指标的科学出版物。匿名技术通常需要更改数据,因此必然会影响在基础数据上训练的机器学习模型的结果。在这项工作中,我们对不同的$ k $ - 匿名算法对机器学习模型结果的影响进行了系统的比较和详细研究。我们研究了与不同分类器的一组流行的$ K $匿名算法,并在不同的现实数据集上对其进行评估。我们的系统评估表明,凭借越来越强的$ K $匿名性约束,分类性能通常会降低,但在不同程度上,并且强烈取决于数据集和匿名方法。此外,蒙德里安可以被视为具有最具吸引力的后续分类属性的方法。
translated by 谷歌翻译
Visual Analytics(VA)工具和技术已经有助于支持用户构建更好的分类模型,解释模型的整体逻辑和审计结果。在不同的方向上,最近将VA应用于将分类模型转换为描述性机制而不是预测性。该想法是使用这些模型作为数据模式的代理,可视化模型以了解数据所代表的现象。虽然非常有用和鼓舞人心,但少数提出的方法选择使用低复杂的分类模型来促进直接的解释,呈现捕获复杂数据模式的限制。在本文中,我们呈现VAX(多变量数据说明),一种新的VA方法,以支持多变量数据集中模式的识别和视觉解释。与现有的类似方法不同,VAX使用跳跃新兴模式的概念来识别和聚合几种多样化模式,通过数据变量的逻辑组合产生解释。通过使用两个现实世界数据集覆盖不同方案的使用情况,通过使用案例来证明VAX来解释复杂多变量数据集的潜力。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
如果它适合其预期用途,则数据具有高质量。数据质量受底层数据模型的影响及其质量。一个主要质量问题是数据的异质性,因为诸如可理解性和互操作性的质量方面受到损害。这种异质性可能是由数据模型中的质量问题引起的。当给出的信息不够结构并且刚刚在数据值中捕获时,尤其可以发生数据异质性,这些信息通常是由于底层数据模型中的缺失或非合适的结构。我们提出了一种自下而上的方法来检测在异构数据值中显示的数据模型中的质量问题。它支持对现有数据的探索性分析,可以根据域名专家根据其域知识进行配置。所选数据字段的所有值都是通过语法相似群集的。从而提供了数据值在语法中的分集的概述。它应该帮助域专家了解如何在实践中使用数据模型并导出数据模型的潜在质量问题。我们概述了概念验证实施,并使用文化遗产数据进行评估。
translated by 谷歌翻译
神经网络(NNS)和决策树(DTS)都是机器学习的流行模型,但具有相互排斥的优势和局限性。为了带来两个世界中的最好,提出了各种方法来明确或隐式地集成NN和DTS。在这项调查中,这些方法是在我们称为神经树(NTS)的学校中组织的。这项调查旨在对NTS进行全面审查,并尝试确定它们如何增强模型的解释性。我们首先提出了NTS的彻底分类学,该分类法表达了NNS和DTS的逐步整合和共同进化。之后,我们根据NTS的解释性和绩效分析,并建议解决其余挑战的可能解决方案。最后,这项调查以讨论有条件计算和向该领域的有希望的方向进行讨论结束。该调查中审查的论文列表及其相应的代码可在以下网址获得:https://github.com/zju-vipa/awesome-neural-trees
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译