随着持续的Covid-19大流行,了解病毒的特征已成为科学界的重要挑战性。虽然Covid-19存在测试确实存在,但我们的研究目标是探索识别受感染者的其他方法。我们的小组应用了无监督的聚类技术,以探索Covid-19感染,病毒肺炎感染和健康个体的肺杆菌数据集。这是Covid-19是目前正在进行的新型疾病的重要领域。我们的方法探讨了无监督的聚类算法必须揭示Covid-19和其他呼吸疾病之间的重要隐患差异。我们的实验用途:主成分分析(PCA),K-Means ++(KM ++)和最近开发的强大的连续聚类算法(RCC)。我们使用调整后的互信息(AMI)得分评估KM ++和RCC在聚类Covid-19肺扫描中的性能。
translated by 谷歌翻译
基于拓扑的维度减少方法,如T-SNE和UMAP,已经看到了高维数据的成功和普及。这些方法具有强大的数学基础,基于直觉,即低维度的拓扑应接近高维度。鉴于初始拓扑结构是算法成功的前兆,这自然提出了问题:是什么使得维数减少的“良好”拓扑结构?深入了解这将使我们能够设计更好的算法,该算法考虑到本地和全局结构。在专注于UMAP的本文中,我们研究节点连接(k最近邻居与互相k离邻居)和相对邻域(相邻通孔邻居)的影响对维数减少。我们通过关于4标准图像和文本数据集的广泛消融研究探索这些概念; Mnist,Fmnist,20ng,Ag,减少2和64个尺寸。我们的研究结果表明,连接局部邻域(PATH邻居)的灵活方法更加精致的连接(相互K最近邻居)的概念,可以实现比下游测量的默认UMAP更好的表示聚类性能。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
由于SARS-COV-2(COVID-19)病毒的快速发展,许多突变发生了许多变体,例如Alpha,Gamma,Delta和Omicron,对世界经济产生了巨大影响。无监督的机器学习方法具有压缩,表征和可视化数据的能力。在本文中,我们提出了一个框架,该框架利用了无监督的机器学习方法,其中包括选定的尺寸还原和聚类方法的组合,以区分和可视化基于基于基因组序列的主要COVID-19变体的关联。该框架利用K-MER分析来处理基因组(RNA)序列,并比较包括主成分分析(PCA)和T-分布的随机邻居嵌入(T-SNE)和统一歧管近似投影( UMAP)。此外,该框架采用了团聚层次聚类方法,并使用树状图提供了可视化。我们发现所提出的框架可以有效地区分主要变体,因此可以在将来区分新兴变体。
translated by 谷歌翻译
通过快速搜索并发现密度峰(DPC)(自2014年以来)的聚类已被证明是一种有希望的聚类方法,可以通过找到密度峰来有效地发现簇中心。 DPC的准确性取决于截止距离($ d_c $),群集号($ K $)和簇中心的选择。此外,最终分配策略是敏感的,容错的容量差。上面的缺点使该算法对参数敏感,仅适用于某些特定数据集。为了克服DPC的局限性,本文提出了基于天然最近邻域(DPC-PPPNNN)的密度峰值聚类的概率传播算法的提高。通过引入自然邻域和概率传播的想法,DPC-PPNNN实现了非参数聚类过程,并使该算法适用于更复杂的数据集。在几个数据集的实验中,DPC-PPNNN显示出优于DPC,K-均值和DBSCAN的表现。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
基于非线性吸引力 - 抑制力的方法(包括T-SNE,UMAP,FORCEATLAS2,grounvis等)主导了维度降低的现代方法。本文的目的是证明所有此类方法,通过设计,都带有一个沿途自动计算的附加功能,即与这些力相关的向量场。我们展示了该向量领域如何提供其他高质量信息,并根据莫尔斯理论的思想提出了一般的完善策略。这些想法的效率是使用T-SNE在合成和现实生活数据集上专门说明的。
translated by 谷歌翻译
广泛应用的密度峰聚类(DPC)算法使得直观的群集形成假设假设集群中心通常被具有较低局部密度的数据点包围,远离具有较高局部密度的其他数据点。然而,这种假设遭受一个限制,即在识别具有较低密度的簇时通常有问题,因为它们可以容易地合并到具有更高密度的其他簇中。结果,DPC可能无法识别具有变分密度的簇。为了解决这个问题,我们提出了一种变分浓度峰值聚类(VDPC)算法,该算法旨在系统地和自主地在具有各种类型的密度分布的数据集上执行聚类任务。具体而言,我们首先提出了一种新的方法,以确定所有数据点中的代表,并根据所确定的代表构建初始集群,以进一步分析集群财产。此外,我们根据其本地密度将所有数据点划分为不同的级别,并通过组合DPC和DBSCAN的优点来提出统一的聚类框架。因此,系统地处理跨越不同密度水平跨越不同密度水平的所有识别的初始簇以形成最终簇。为了评估所提出的VDPC算法的有效性,我们使用20个数据集进行广泛的实验,包括八个合成,六个现实世界和六个图像数据集。实验结果表明,VDPC优于两个经典算法(即,DPC和DBSCAN)和四种最先进的扩展DPC算法。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the further use of image processing methods to select a partition. Qualitative and quantitative analyses show that the algorithm obtains high accuracy (measured with an adjusted one-sided Rand-Index) and requires low runtime and RAM. We compare the results to 6 state-of-the-art algorithms, confirming the quality of visClust by outperforming in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub.
translated by 谷歌翻译
Understanding geometric properties of natural language processing models' latent spaces allows the manipulation of these properties for improved performance on downstream tasks. One such property is the amount of data spread in a model's latent space, or how fully the available latent space is being used. In this work, we define data spread and demonstrate that the commonly used measures of data spread, Average Cosine Similarity and a partition function min/max ratio I(V), do not provide reliable metrics to compare the use of latent space across models. We propose and examine eight alternative measures of data spread, all but one of which improve over these current metrics when applied to seven synthetic data distributions. Of our proposed measures, we recommend one principal component-based measure and one entropy-based measure that provide reliable, relative measures of spread and can be used to compare models of different sizes and dimensionalities.
translated by 谷歌翻译
癌症亚型对于理解肿瘤的性质和提供合适的治疗至关重要。但是,现有的标签方法在医学上是有争议的,并驱动了从教学信号中取代的过程。此外,癌症遗传表达谱是高维,稀缺且具有复杂依赖性的,从而对现有的亚型模型构成了严重的挑战,以输出明智的聚类。在这项研究中,我们提出了一种新型的聚类方法,用于以无监督的方式利用遗传表达谱并区分亚型。所提出的方法自适应地学习了从表达概况的潜在表示对应的分类对应,该对应是通过模型输出的子类型输出。通过最大化问题 - 输入表达曲线和输出亚型之间的不可知论信息,我们的方法可以自动确定合适数量的亚型。通过实验,我们证明了我们提出的方法可以完善现有的有争议的标签,并且通过进一步的医学分析,这种改进被证明与癌症存活率有很高的相关性。
translated by 谷歌翻译
域适应性是现代机器学习中的一种流行范式,旨在解决培训或验证数据集之间具有用于学习和测试分类器(源域)和潜在的大型未标记数据集的培训或验证数据集之间的分歧问题,其中利用了模型(目标域)(目标域)(目标域) 。任务是找到源数据集的源和目标数据集的这种常见表示,其中源数据集提供了培训的信息,因此可以最大程度地减少来源和目标之间的差异。目前,最流行的领域适应性解决方案是基于训练神经网络,这些神经网络结合了分类和对抗性学习模块,这些模块是饥饿的,通常很难训练。我们提出了一种称为域适应性主成分分析(DAPCA)的方法,该方法发现线性减少的数据表示有助于解决域适应任务。 DAPCA基于数据点对之间引入正权重,并概括了主成分分析的监督扩展。 DAPCA代表一种迭代算法,因此在每次迭代中都解决了一个简单的二次优化问题。保证算法的收敛性,并且在实践中的迭代次数很少。我们验证了先前提出的用于解决域适应任务的基准的建议算法,还显示了在生物医学应用中对单细胞法数据集进行分析中使用DAPCA的好处。总体而言,考虑到源域和目标域之间可能的差异,DAPCA可以作为许多机器学习应用程序中有用的预处理步骤。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
与高维数据集的探索性分析(例如主成分分析(PCA))相反,邻居嵌入(NE)技术倾向于更好地保留高维数据的局部结构/拓扑。然而,保留局部结构的能力是以解释性为代价的:诸如T-分布的随机邻居嵌入(T-SNE)或统一的歧管近似和投影(UMAP)等技术没有提供拓扑结构的介绍(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)。在相应的嵌入中看到的群集)结构。在这里,我们提出了基于PCA,Q-残基和Hotelling的T2贡献的化学计量学领域的不同“技巧”,并结合了新型可视化方法,从而得出了邻居嵌入的局部和全局解释。我们展示了我们的方法如何使用标准的单变量或多变量方法来识别数据点组之间的歧视性特征。
translated by 谷歌翻译
与许多机器学习模型类似,群集加权模型(CWM)的准确性和速度都可以受到高维数据的阻碍,从而导致以前的作品对一种简约的技术,以减少“尺寸诅咒”对混合模型的影响。在这项工作中,我们回顾了集群加权模型(CWM)的背景研究。我们进一步表明,在庞大的高维数据的情况下,简约的技术不足以使混合模型蓬勃发展。我们通过使用“ FlexCWM” R软件包中的默认值选择位置参数的初始值来讨论一种用于检测隐藏组件的启发式。我们引入了一种称为T-分布的随机邻居嵌入(TSNE)的维度降低技术,以增强高维空间中的简约CWM。最初,CWM适用于回归,但出于分类目的,所有多级变量都会用一些噪声进行对数转换。模型的参数是通过预期最大化算法获得的。使用来自不同字段的实际数据集证明了讨论技术的有效性。
translated by 谷歌翻译