降低(DR)在高维数据的视觉分析中起着至关重要的作用。 DR的主要目的是揭示隐藏的模式,这些模式位于固有的低维歧管上。但是,当歧管被某些有影响力的数据属性严重扭曲或隐藏时,DR通常会忽略重要模式。本文介绍了一个功能学习框架FEALM,旨在为非线性DR生成优化的数据投影集,以便在隐藏的歧管中捕获重要模式。这些投影产生了最大不同的最近邻居图,因此由此产生的DR结果显着差异。为了获得这种功能,我们设计了一种优化算法,并引入了一种新的图形差异度量,称为邻居形状差异。此外,我们开发交互式可视化,以帮助比较获得的DR结果和每个DR结果的解释。我们通过使用合成数据集和对现实世界数据集的多个案例研究进行实验来证明FEALM的有效性。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
维数减少(DR)技术有助于分析师理解高维空间的模式。这些技术通常由散点图表示,在不同的科学域中使用,并促进集群和数据样本之间的相似性分析。对于包含许多粒度的数据集或者当分析遵循信息可视化Mantra时,分层DR技术是最合适的方法,因为它们预先呈现了主要结构和需求的详细信息。然而,当前的分层DR技术并不完全能够解决文献问题,因为它们不保留跨分层级别的投影心理映射,或者不适合大多数数据类型。这项工作提出了Humap,一种新颖的等级维度减少技术,旨在灵活地保护本地和全球结构,并在整个分层勘探中保留心理贴图。我们提供了与现有的等级方法相比我们技术优势的经验证据,并显示了两种案例研究以证明其优势。
translated by 谷歌翻译
在解决问题的过程中,通往解决方案的道路可以看作是一系列决策。人类或计算机做出的决定通过问题的高维表示空间来描述轨迹。通过降低维度,可以在较低维空间中可视化这些轨迹。此类嵌入式轨迹先前已应用于各种数据,但是分析几乎完全集中在单轨迹的自相似性上。相比之下,我们描述了在相同的嵌入空间中绘制许多轨迹(对于不同初始条件,终端状态和解决方案策略)而出现的模式。我们认为,可以通过解释这些模式来制定有关解决问题的任务和解决策略的一般性陈述。我们探索并描述了由人类和机器制定的各种应用领域中的决策产生的轨迹中的这种模式:逻辑难题(魔术片),策略游戏(国际象棋)和优化问题(神经网络培训)。 We also discuss the importance of suitably chosen representation spaces and similarity metrics for the embedding.
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
在本文中,我们提出了DendroMap,这是一种新颖的方法,用于互动地探索用于机器学习的大规模图像数据集(ML)。 ML从业人员通常通过使用降低降低技术(例如T-SNE)生成图像的网格或将图像的高维表示分为2-D来探索图像数据集。但是,两种方法都没有有效地扩展到大型数据集,因为图像是无效组织的,并且相互作用不足。为了应对这些挑战,我们通过适应Treemaps(一种众所周知的可视化技术)来开发树突。树突图通过从图像的高维表示中提取层次群集结构来有效地组织图像。它使用户能够理解数据集的整体分布,并在多个抽象级别上进行交互放大到特定的兴趣领域。我们使用广泛使用的图像数据集进行深度学习的案例研究表明,用户可以通过检查图像的多样性,确定表现不佳的子组并分析分类错误,从而发现有关数据集和训练模型的见解。我们进行了一项用户研究,该研究通过将其与T-SNE的网状版本进行比较,评估了树突图在分组和搜索任务中的有效性,并发现参与者更喜欢DendroMap。 DendroMap可在https://div-lab.github.io/dendromap/上获得。
translated by 谷歌翻译
通常用于分析复杂数据集的维度减少和聚类技术,但它们的结果通常不容易解释。我们考虑如何支持用户在散点图上解释视表位结构,其中轴不直接解释,例如使用维度减少方法将数据投射到二维空间上。具体地,我们提出了一种新方法来自动计算可解释的聚类,其中说明在原始的高维空间中,并且群集在低维投影中相干。它通过使用信息理论提供复杂性和所提供信息量之间的可调平衡。我们研究了这个问题的计算复杂性,并对解决方案的搜索空间引入了高效,可调,贪婪优化算法的限制。此外,该算法还在称为excus的交互式工具中实现。几个数据集的实验突出显示,excrus可以提供信息丰富的和易于理解的模式,并且他们公开了算法有效的地方,并且考虑到可调性和可扩展性的余地有改进的空间。
translated by 谷歌翻译
可视化非常大的矩阵涉及许多强大的问题。这些问题的各种流行的解决方案涉及采样,群集,投影或特征选择,以降低原始任务的大小和复杂性。这些方法的一个重要方面是如何在减少行和列以便在较低尺寸空间中保持高维空间中的点之间的相对距离。这方面很重要,因为基于错误的视觉推理的结论可能是有害的。在可视化的基础上判断与相似或类似的点相似或类似的点可以导致错误的结论。为了改善这种偏差并使非常大的数据集的可视化可行,我们介绍了两个新的算法,分别选择矩形矩阵的行和列的子集。这种选择旨在尽可能地保持相对距离。我们将矩阵素描与各种人工和真实数据集的更传统的替代品进行比较。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
维数减少方法发现了巨大的应用程序作为不同科学领域的可视化工具。虽然存在许多不同的方法,但它们的性能通常不足以提供对许多当代数据集的快速深入了解,并且无监督的使用方式可防止用户利用数据集探​​索和微调可视化质量的细节方法。我们呈现开花,一种高性能半监督维度减少软件,用于具有数百万个单独的数据点的高维数据集的交互式用户可信可视化。 Blossom在GPU加速实施的EMBEDSOM算法的实现上,由几个基于地标的算法补充,用于将无监督模型学习算法与用户监督联系起来。我们展示了开花在现实数据集上的应用,在那里它有助于产生高质量的可视化,该可视化包含用户指定的布局并专注于某些功能。我们认为,半监督的维度减少将改善单细胞细胞谱系等科学领域的数据可视化可能性,并为数据集勘探和注释提供了新的方向的快速有效的基础方法。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
尺寸还原〜(DR)将高维数据映射到较低的尺寸潜在空间,并最小化定义的优化目标。 DR方法通常属于特征选择〜(FS)和特征投影〜(FP)。 FS专注于选择尺寸的关键子集,但有风险破坏数据分布(结构)。另一方面,FP将所有输入特征结合到较低的维度空间中,旨在维护数据结构。但是缺乏解释性和稀疏性。 FS和FP传统上是不兼容的类别;因此,它们尚未统一为友好的框架。我们建议理想的DR方法将FS和FP同时结合到统一的端到端多种学习框架中,同时执行基本特征发现,同时保持潜在空间中数据样本之间的内在关系。在这项工作中,我们开发了一个统一的框架,统一的尺寸还原神经网络〜(UDRN),该框架以兼容的端到端方式将FS和FP整合在一起。我们通过使用两个堆叠子网络分别实施FS和FP任务来改善神经网络结构。此外,我们设计了DR流程的数据增强,以提高方法处理广泛的功能数据集和设计的损失功能时,可以与数据增强合作。关于四个图像和四个生物数据集的广泛实验结果,包括非常高维数据,证明了DRN的优势比现有方法〜(FS,FP和FS \&FP管道),尤其是在分类和可视化等下游任务中。
translated by 谷歌翻译
扩散张量成像(DTI)已被用于研究神经退行性疾病对神经途径的影响,这可能导致这些疾病的更可靠和早期诊断,以及更好地了解它们如何影响大脑。我们介绍了一种基于标记为DTI光纤数据和相应统计数据的智能视觉分析系统,用于研究患者组。系统的AI增强界面通过组织和整体分析空间引导用户,包括统计特征空间,物理空间和不同组的患者的空间。我们使用自定义机器学习管道来帮助缩小此大型分析空间,然后通过一系列链接可视化务实拨动它。我们使用来自Parkinson进展标记倡议的研究数据库的实际数据进行多种案例研究。
translated by 谷歌翻译