In the field of psychopathology, Ecological Momentary Assessment (EMA) methodological advancements have offered new opportunities to collect time-intensive, repeated and intra-individual measurements. This way, a large amount of data has become available, providing the means for further exploring mental disorders. Consequently, advanced machine learning (ML) methods are needed to understand data characteristics and uncover hidden and meaningful relationships regarding the underlying complex psychological processes. Among other uses, ML facilitates the identification of similar patterns in data of different individuals through clustering. This paper focuses on clustering multivariate time-series (MTS) data of individuals into several groups. Since clustering is an unsupervised problem, it is challenging to assess whether the resulting grouping is successful. Thus, we investigate different clustering methods based on different distance measures and assess them for the stability and quality of the derived clusters. These clustering steps are illustrated on a real-world EMA dataset, including 33 individuals and 15 variables. Through evaluation, the results of kernel-based clustering methods appear promising to identify meaningful groups in the data. So, efficient representations of EMA data play an important role in clustering.
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
在这项工作中,对于不确定和结构化数据的聚类计划被认为依赖于Wasserstein Barycenters的概念,并伴随着基于Wasserstein空间的内在几何形状的适当聚类指数,在该几何形状上执行了群集任务。这种类型的聚类方法在许多领域都高度赞赏,在观察/实验误差很大(例如,天文学,生物学,遥感等)或数据性质更为复杂,并且传统学习算法不适用或有效治疗,因此高度赞赏。它们(例如网络数据,间隔数据,高频记录,矩阵数据等)。从这个角度来看,每个观察结果都是通过适当的概率度量来确定的,并且提出的聚类方案依赖于歧视标准,这些标准通过最佳运输理论从概率测量方面利用了概率测量空间的几何结构。通过模拟研究和两个现实世界应用中的实施来说明拟议方法和地球标准性能的优势和能力:(a)根据其观察到的政府债券收益率曲线和(b)对欧元区国家的群集进行分类,并(b)对到某些土地的卫星图像使用类别,这是遥感中的标准任务。
translated by 谷歌翻译
社会经济特征正在影响水需求的时间和空间变异 - 水分配系统建模中的最大不确定性源。可以利用改善对这些影响的知识来减少需求的不确定性。本文旨在通过应用新的聚类算法将智能水表数据链接到社会经济用户特征,该算法使用每日需求模式的动态时间翘曲度量。该方法在模拟和测量的单户家庭数据集上进行了测试。我们表明,与常用的聚类方法,两者相比,该算法与普遍使用的聚类方法相比,在找到正确的群集数量以及正确分配模式时,可以更好地执行更好。此外,该方法可用于识别需求模式集群内的异常值。此外,本研究调查了在单簇内普遍存在的社会经济特征(例如就业状况,居民人数),因此可以与群集的重心的形状相关联。将来,建议的方法与随机需求模型结合使用,可用于填补液压模型中的数据间隙。
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
智能流量系统的进步(其)通过自动数据收集提供了大量的交通数据。该数据的大部分存储为移动车辆和道路用户的轨迹。通过最小的人类监督对该数据的自动分析将降低成本并消除分析的主观性。轨迹群集是一个无人监督的任务。在本文中,我们使用来自七个交叉点的轨迹数据进行相似度测量,聚类算法和评估措施的全面比较。我们还提出了一种基于其原点和目的地自动生成轨迹参考集群的方法,以用于基于标签的评估措施。因此,整个过程在聚类和评估水平中仍然无监督。最后,我们使用评估措施的组合来找到每个交叉点的最高执行相似度测量和聚类算法。结果表明,没有单一的距离和聚类算法组合,始终是前十个聚类设置中的距离和聚类算法。
translated by 谷歌翻译
能够捕获与特征向量的时间序列的特征是具有多种应用的非常重要的任务,例如分类,聚类或预测。通常,该特征是从线性和非线性时间序列测量获得的特征,其可能存在若干数据相关的缺点。在这项工作中,我们将NetF介绍作为替代特征,包括时间序列的不同复杂网络映射的几种代表性拓扑测量。我们的方法不需要数据预处理,并且无论任何数据特征如何,都适用。探索我们的新颖特征向量,我们能够将映射的网络功能连接到多样化的时间序列模型中固有的属性,显示NetF可以有用的时间数据。此外,我们还展示了我们在聚类合成和基准时间序列组中的方法的适用性,比较其具有更多传统功能的性能,展示了Netf如何实现高精度集群。我们的结果非常有前途,具有来自不同映射方法的网络特征,捕获时间序列的不同属性,将不同且丰富的功能设置为文献。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
Both clustering and outlier detection play an important role for meteorological measurements. We present the AWT algorithm, a clustering algorithm for time series data that also performs implicit outlier detection during the clustering. AWT integrates ideas of several well-known K-Means clustering algorithms. It chooses the number of clusters automatically based on a user-defined threshold parameter, and it can be used for heterogeneous meteorological input data as well as for data sets that exceed the available memory size. We apply AWT to crowd sourced 2-m temperature data with an hourly resolution from the city of Vienna to detect outliers and to investigate if the final clusters show general similarities and similarities with urban land-use characteristics. It is shown that both the outlier detection and the implicit mapping to land-use characteristic is possible with AWT which opens new possible fields of application, specifically in the rapidly evolving field of urban climate and urban weather.
translated by 谷歌翻译
本文介绍了一种用于检测变更点的算法,并鉴定了瞬态多元时间序列数据(MTSD)中相应的子序列。由于许多工业领域的可用性增加,对此类数据的分析变得越来越重要。用于基于训练条件的维护(CBM)模型的标签,排序或过滤高度瞬态测量数据很麻烦且容易出错。对于某些应用程序,可以通过简单阈值或基于平均值和变化的变化找到更改点来过滤测量值。但是,例如,组件组中组件的强大诊断,该组件在多个传感器值之间具有复杂的非线性相关性,简单的方法是不可行的。可以将CBM模型出现的有意义且相干的测量数据。因此,我们介绍了一种使用基于复发的神经网络(RNN)自动编码器(AE)的算法,该算法对传入数据进行了迭代训练。评分函数使用重建误差和潜在空间信息。保存了确定的子序列的模型,并用于识别重复子序列以及快速离线聚类。为了进行评估,我们提出了一种基于曲率的新相似性度量,以实现更直观的时间序列子序列聚类指标。与其他七种最先进的算法和八个数据集进行了比较,显示了我们算法对在线群集MTSD和与机电系统结合的群集MTSD的功能和性能的提高。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
肥胖是一个重大的健康问题,增加了各种主要慢性病的风险,如糖尿病,癌症和中风。虽然通过横断面BMI录音识别的肥胖作用已经过分研究,但BMI轨迹的作用远远不大。在这项研究中,我们利用从大型和地理位置的EHR数据集中提取的BMI轨迹捕获大约200万个人的健康状况为期六年的健康状况。我们根据BMI轨迹定义九个新的可解释和基于证据的变量,以使用K-Means聚类方法将患者聚类为子组。我们在人口统计学,社会经济和生理测量变量方面彻底审查了每个集群特征,以指定簇中患者的不同性质。在我们的实验中,已被重新建立肥胖,高血压,阿尔茨海默和痴呆症的肥胖,高血压,阿尔茨海默氏症和痴呆症的直接关系,并且已经发现有几种慢性疾病的特异性特征的不同簇符合或与现有的知识体系互补。
translated by 谷歌翻译
Spatiotemporal data is readily available due to emerging sensor and data acquisition technologies that track the positions of moving objects of interest. Spatiotemporal clustering addresses the need to efficiently discover patterns and trends in moving object behavior without human supervision. One application of interest is the discovery of moving clusters, where clusters have a static identity, but their location and content can change over time. We propose a two phase spatiotemporal clustering method called spatiotemporal k-means (STKM) that is able to analyze the multi-scale relationships within spatiotemporal data. Phase 1 of STKM frames the moving cluster problem as the minimization of an objective function unified over space and time. It outputs the short-term associations between objects and is uniquely able to track dynamic cluster centers with minimal parameter tuning and without post-processing. Phase 2 outputs the long-term associations and can be applied to any method that provides a cluster label for each object at every point in time. We evaluate STKM against baseline methods on a recently developed benchmark dataset and show that STKM outperforms existing methods, particularly in the low-data domain, with significant performance improvements demonstrated for common evaluation metrics on the moving cluster problem.
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
随着Covid-19大流行的爆发,急迫有效地识别可能与已经感染Covid-19感染的人密切接触的人。该识别个人的过程,也称为“联系跟踪”,对该病毒传播的遏制和控制具有重大影响。但是,手动跟踪已被证明是无效的呼叫自动接触跟踪方法。因此,本研究提出了一种自动化机器学习系统,用于使用通过手持设备传输的传感器数据来识别可能已经与Covid-19感染的其他人接触的个人。本文介绍了到达最佳解决方案模型的不同方法,其有效地预测使用梯度升压算法和时间序列特征提取的人是否已经密切接近受感染的个体。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译