dadapy是用于分析和表征高维数据歧管的Python软件包。它提供了估计固有维度和概率密度的方法,用于执行基于密度的聚类和比较不同的距离指标。我们回顾包装的主要功能,并在玩具案例和现实世界中的使用中举例说明其使用情况。dadapy可在开源Apache 2.0许可下自由使用。
translated by 谷歌翻译
以离散特征为特征的现实世界数据集无处不在:从分类调查到临床问卷,从未加权网络到DNA序列。然而,最常见的无监督尺寸还原方法是为连续空间设计的,它们用于离散空间可能会导致错误和偏见。在这封信中,我们介绍了一种算法来推断离散空间中嵌入数据集的固有维度(ID)。我们证明了它在基准数据集上的准确性,并将其应用于分析物种指纹识别的宏基因组数据集,发现了一个令人惊讶的小ID,这表明尽管序列具有高度的序列性,但进化的压力在低维歧管上行动。' 空间。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
估计数据分布的局部内在维度的大多数现有方法不能很好地扩展到高维数据。他们中的许多人依靠非参数最近的邻居方法,该方法受到维度的诅咒。我们试图通过提出一种新的问题来解决这一挑战:使用近似可能性(LIDL)的局部固有维度估计。我们的方法依赖于任意密度估计方法作为其子例程,因此通过利用最新的参数神经方法的进展来避免维度挑战,以进行可能性估计。我们仔细研究了所提出方法的经验特性,将其与我们的理论预测进行了比较,并表明LIDL在此问题的标准基准上产生竞争结果,并将其扩展到数千个维度。更重要的是,我们预计通过密度估计文献的持续进展,这种方法可以进一步改善。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
降低降低和聚类通常被用作许多复杂机器学习任务的初步步骤。噪声和离群值的存在可能会恶化此类预处理的性能,从而极大地损害了后续分析。在流形学习中,几项研究表明,当密度大大高于噪声所示时,可以消除接近结构的背景噪声或接近结构的解决方案。但是,在包括天文数据集在内的许多应用中,密度随埋在嘈杂背景的流形而变化。我们提出了一种基于蚂蚁菌落优化的思想,在存在噪声的情况下提取歧管的新方法。与现有的随机步行解决方案相反,我们的技术捕获了与歧管的主要方向局部对齐的点。此外,我们从经验上表明,蚂蚁信息素的生物学启发的配方增强了这种行为,使其能够恢复嵌入极其嘈杂的数据云中的多个歧管。与在几个合成和真实数据集上(包括宇宙学量的N体模拟)相比,证明了与最新的降噪方法的最新方法相比,算法性能。
translated by 谷歌翻译
时间序列数据的生成和分析与许多从经济学到流体力学的定量字段相关。在物理科学中,诸如亚稳态和连贯的组的结构,慢松弛过程,集体变量显性过渡途径或歧管流动流动的概率流动可能非常重视理解和表征系统的动力动力学和机械性质。 Deeptime是一种通用Python库,提供各种工具来估计基于时间序列数据的动态模型,包括传统的线性学习方法,例如马尔可夫状态模型(MSM),隐藏的马尔可夫模型和Koopman模型,以及内核和深度学习方法如vampnets和深msms。该库主要兼容Scikit-Searn,为这些不同的模型提供一系列估计器类,但与Scikit-Ge劳说相比,还提供了深度模型类,例如,在MSM的情况下,提供了多种分析方法来计算有趣的热力学,动力学和动态量,例如自由能,松弛时间和过渡路径。图书馆专为易于使用而设计,而且易于维护和可扩展的代码。在本文中,我们介绍了Deeptime软件的主要特征和结构。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
在计算物理和化学中,增强的采样方法是必不可少的,由于采样问题,原子模拟无法详尽地对动态系统的高维配置空间进行采样。一类增强的抽样方法通过识别一些缓慢的自由度,称为集体变量(CVS)并增强沿这些CVS的采样来起作用。选择CVS来分析和驱动采样并不是微不足道的,并且通常依赖于物理和化学直觉。尽管使用流形学习通常会从标准模拟中直接估算CVS,但这种方法无法通过增强的采样模拟为低维流形提供映射,因为学到的歧管的几何形状和密度是有偏见的。在这里,我们解决了这个关键问题,并根据各向异性扩散图提供了一个普遍的重新加权框架,以考虑到流形学习,该框架考虑了学习数据集是从偏见的概率分布中采样的。我们考虑基于构建马尔可夫链的流形学习方法,描述了高维样品之间的过渡概率。我们表明,我们的框架恢复了偏置效应,从而产生了正确描述平衡密度的CV。这种进步可以直接从增强的采样模拟生成的数据中直接使用流形学习来构建低维CV。我们称我们的框架重新持续的流形学习。我们表明,它可以在来自标准和增强采样模拟的数据上的许多流形学习技术中使用。
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
了解生物分子的动力学和热力学概况是为了了解其在机制驱动药物发现中具有重大影响的功能作用。分子动力学模拟已经常规地用于了解生物分子的构象动态和分子识别。来自分子动力学模拟产生的高维时空数据的统计分析需要识别几个低维变量,这可以描述系统的基本动态,而无需显着损失信息。在物理化学中,这些低维变量通常称为集体变量。集体变量用于产生可减少的自由能表面的表示,并计算不同亚稳态盆地之间的过渡概率。然而,复杂系统的集体变量的选择并不琐碎。集体变量范围从几何标准等距离,Dihedral角度到抽象的标准,例如诸如多个几何变量的加权线性组合的抽象线性组合。机器学习算法的出现导致越来越多地利用抽象集体变量来代表生物分子动态。在本次审查中,我将突出几个常用的集体变量的几个细微差别,范围从几何到抽象的变量。此外,我将提出一些情况,其中基于机器学习的集体变量来描述原则上的简单系统可以由几何可以描述。最后,我将提出我对人工综合情报的思考以及如何用于发现和预测来自分子动力学模拟产生的时空数据的集体变量。
translated by 谷歌翻译