确定复杂系统背后的因果关系在不同领域(例如决策,政策实施和管理建议)中起着重要作用。但是,关于时间事件序列数据的现有因果关系研究主要集中于单个因果发现,这是无法利用合并因果关系的。为了填补在时间事件序列数据上发现发现的合并原因,消除和募集原则被定义以平衡因果组合的有效性和可控性。我们还基于反应点过程来利用Granger因果关系算法来描述实体之间的燃料或抑制行为模式。此外,我们设计了“电动电路”的信息性和美学视觉隐喻,以编码汇总因果关系,以确保我们的因果关系可视化是非重叠和不相互作用的。各种排序策略和聚合布局也嵌入了我们基于平行的,定向和加权的超图中,以说明合并因果关系。我们开发的合并因果关系视觉分析系统可以帮助用户有效地探索合并的原因以及个人原因。这种交互式系统支持多样化的订购策略以及重点和上下文技术,以帮助用户获得不同级别的信息抽象。通过进行试验用户研究和事件序列数据的两项案例研究,进一步评估了系统的有用性和有效性。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
A computational graph in a deep neural network (DNN) denotes a specific data flow diagram (DFD) composed of many tensors and operators. Existing toolkits for visualizing computational graphs are not applicable when the structure is highly complicated and large-scale (e.g., BERT [1]). To address this problem, we propose leveraging a suite of visual simplification techniques, including a cycle-removing method, a module-based edge-pruning algorithm, and an isomorphic subgraph stacking strategy. We design and implement an interactive visualization system that is suitable for computational graphs with up to 10 thousand elements. Experimental results and usage scenarios demonstrate that our tool reduces 60% elements on average and hence enhances the performance for recognizing and diagnosing DNN models. Our contributions are integrated into an open-source DNN visualization toolkit, namely, MindInsight [2].
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
了解因果关系有助于构建干预措施,以实现特定的目标并在干预下实现预测。随着学习因果关系的越来越重要,因果发现任务已经从使用传统方法推断出潜在的因果结构从观察数据到深度学习涉及的模式识别领域。大量数据的快速积累促进了具有出色可扩展性的因果搜索方法的出现。因果发现方法的现有摘要主要集中在基于约束,分数和FCM的传统方法上,缺乏针对基于深度学习的方法的完美分类和阐述,还缺乏一些考虑和探索因果关系的角度来探索因果发现方法范式。因此,我们根据变量范式将可能的因果发现任务分为三种类型,并分别给出三个任务的定义,定义和实例化每个任务的相关数据集以及同时构建的最终因果模型,然后审查不同任务的主要因果发现方法。最后,我们从不同角度提出了一些路线图,以解决因果发现领域的当前研究差距,并指出未来的研究方向。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
随着人工智能的兴起,算法已经变得更好地从培训数据中学习基本模式,包括基于性别,种族等基于性别的社会偏见。部署此类算法对招聘,医疗保健,执法等领域的部署已经提高了严重的领域。对机器学习算法中的公平,问责制,信任和解释性的关注。为了减轻这个问题,我们提出了D-Bias,这是一种视觉交互式工具,它体现了人类在循环AI方法,以审核和减轻表格数据集的社交偏见。它使用图形因果模型来表示数据集中不同特征之间的因果关系,并作为注入域知识的媒介。用户可以通过识别因果网络中的不公平因果关系并使用一系列公平指标来检测对群体(例如女性或亚组)的偏见。此后,用户可以通过在不公平的因果边缘作用来减轻偏见。对于每种相互作用,例如弱化/删除有偏见的因果边缘,系统使用一种新方法来模拟基于当前因果模型的新(cla依)数据集。用户可以在视觉上评估其相互作用对不同公平指标,公用事业指标,数据失真和基础数据分布的影响。一旦满足,他们就可以下载依据的数据集并将其用于任何下游应用程序以进行更公正的预测。我们通过对3个数据集进行实验以及一项正式的用户研究来评估D偏差。我们发现,与不同公平指标的基线偏差方法相比,D偏差有助于显着降低偏差,同时几乎没有数据失真和效用较小的损失。此外,我们基于人类的方法极大地超过了关于信任,解释性和问责制的自动方法。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
人工智能的最新进展在很大程度上受益于更好的神经网络体系结构。这些体系结构是昂贵的反复试验过程的产物。为了简化此过程,我们开发了Archexplorer,这是一种视觉分析方法,用于了解神经体系结构空间并汇总设计原理。我们方法背后的关键思想是通过利用体系结构之间的结构距离来解释建筑空间。我们将成对距离的计算提出解决,以解决全对最短路径问题。为了提高效率,我们将此问题分解为一组最短的路径问题。时间复杂性从O(KN^2n)降低到O(KNN)。根据它们之间的距离,构造在层次上聚集。已经开发了基于圆圈的架构可视化,以传达群集和每个集群中架构的本地社区之间的全球关系。提出了两项​​案例研究和一项分析后,以证明Argsplorer在总结设计原理和选择表现更好的架构方面的有效性。
translated by 谷歌翻译
通过深度学习(DL)优于不同任务的常规方法,已经努力利用DL在各个领域中使用。交通域中的研究人员和开发人员还为预测任务(例如交通速度估算和到达时间)设计和改进了DL模型。但是,由于DL模型的黑盒属性和流量数据的复杂性(即时空依赖性),在分析DL模型方面存在许多挑战。我们与域专家合作,我们设计了一个视觉分析系统Attnanalyzer,该系统使用户能够探索DL模型如何通过允许有效的时空依赖性分析来进行预测。该系统结合了动态时间扭曲(DTW)和Granger因果关系测试,用于计算时空依赖性分析,同时提供映射,表格,线图和像素视图,以帮助用户执行依赖性和模型行为分析。为了进行评估,我们提出了三个案例研究,表明Attnanalyzer如何有效地探索模型行为并改善两个不同的道路网络中的模型性能。我们还提供域专家反馈。
translated by 谷歌翻译
动态图可视化吸引了研究人员的集中度,因为它代表了多个领域的实体之间的时变关系(例如,社交媒体分析,学术合作分析,团队运动分析)。集成视觉分析方法对于呈现,比较和审查动态图是结果的。即使开发了多年的动态图可视化,但是如何有效地可视化具有微妙变化的大规模和时间密集型动态图数据对研究人员仍然具有挑战性。为了为此类动态图数据提供有效的分析方法,我们提出了一种快照生成算法,该算法涉及人类中的人类,以帮助用户将动态图分为多粒性和分层快照,以进一步分析。此外,我们设计了视觉分析原型系统(DGSVI),以帮助用户有效访问动态图见解。 DGSVI集成了图形操作接口,以帮助用户在视觉上和交互式上生成快照。它配备了可视化动态图数据的层次快照的概述和详细信息。为了说明我们提出的此类动态图数据的建议方法的可用性和效率,我们在竞争中介绍了基于篮球运动员网络的两个案例研究。此外,我们进行了评估,并收到经验丰富的可视化专家的激动人心的反馈。
translated by 谷歌翻译
船上自治技术,如规划和调度,识别科学目标和基于内容的数据摘要,将导致令人兴奋的新空间科学任务。然而,尚未研究具有此类船上自治能力的经营任务的挑战,这是足以在使命概念中考虑的细节水平。这些自主功能需要更改当前的操作流程,实践和工具。我们制定了一个案例研究,以评估使运营商和科学家通过促进地面人员和车载算法之间的共同模型来运营自主航天器所需的变化。我们评估使运营商和科学家能够向航天器传达所需的新的操作工具和工作流程,并能够重建和解释船上和航天器状态的决定。这些工具的模型用于用户学习,了解过程和工具在实现共享理解框架方面的有效性,以及在运营商和科学家有效实现特派团科学目标的能力。
translated by 谷歌翻译
通过整合人类的知识和经验,人在循环旨在以最低成本培训准确的预测模型。人类可以为机器学习应用提供培训数据,并直接完成在基于机器的方法中对管道中计算机中的难以实现的任务。在本文中,我们从数据的角度调查了人类循环的现有工作,并将它们分为三类具有渐进关系:(1)从数据处理中提高模型性能的工作,(2)通过介入模型培训提高模型性能,(3)系统的设计独立于循环的设计。使用上述分类,我们总结了该领域的主要方法;随着他们的技术优势/弱点以及自然语言处理,计算机愿景等的简单分类和讨论。此外,我们提供了一些开放的挑战和机遇。本调查打算为人类循环提供高级别的摘要,并激励有兴趣的读者,以考虑设计有效的循环解决方案的方法。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
Graph mining tasks arise from many different application domains, ranging from social networks, transportation to E-commerce, etc., which have been receiving great attention from the theoretical and algorithmic design communities in recent years, and there has been some pioneering work employing the research-rich Reinforcement Learning (RL) techniques to address graph data mining tasks. However, these graph mining methods and RL models are dispersed in different research areas, which makes it hard to compare them. In this survey, we provide a comprehensive overview of RL and graph mining methods and generalize these methods to Graph Reinforcement Learning (GRL) as a unified formulation. We further discuss the applications of GRL methods across various domains and summarize the method descriptions, open-source codes, and benchmark datasets of GRL methods. Furthermore, we propose important directions and challenges to be solved in the future. As far as we know, this is the latest work on a comprehensive survey of GRL, this work provides a global view and a learning resource for scholars. In addition, we create an online open-source for both interested scholars who want to enter this rapidly developing domain and experts who would like to compare GRL methods.
translated by 谷歌翻译
深层自然语言处理(NLP)模型的快速发展导致迫切需要对这些模型单独提出的统一理解。由于缺乏解释低级(例如单词)和高级(例如,短语)特征的统一措施,现有方法无法满足一个框架中不同模型的需求。我们已经开发了一个视觉分析工具DeepNLPVI,以使对文本分类的NLP模型有统一的理解。关键思想是一种基于信息的度量,它提供了有关模型的每一层如何维护样本中输入单词信息的定量解释。我们在每个层的内部和界面信息中对单词对最终预测的重要性以及单词之间的关系(例如短语的形成)进行建模。多层可视化由语料库级,样本级别和单词级可视化组成,支持从整体训练集到单个样本的分析。关于分类任务和模型比较的两个案例研究表明,DeepNLPVI可以帮助用户有效地确定样本和模型架构引起的潜在问题,然后进行明智的改进。
translated by 谷歌翻译