提出了一个新的框架,用于处理纵向,多元,异质临床数据的建模和分析的复杂任务。该方法使用时间抽象将数据转换为更合适的形式,用于建模,时间模式挖掘,以发现复杂,纵向数据和生存分析的机器学习模型中的模式,以选择发现的模式。该方法应用于阿尔茨海默氏病(AD)的现实世界研究,这是一种无法治愈的进行性神经退行性疾病。在生存分析模型中,发现的模式可预测AD的一致性指数高达0.8。这是使用AD的时间数据收集对AD数据进行生存分析的第一项工作。可视化模块还清楚地描绘了发现的模式,以易于解释。
translated by 谷歌翻译
医疗保健数据集对机器学习和统计数据都带来了许多挑战,因为它们的数据通常是异质的,审查的,高维的,并且缺少信息。特征选择通常用于识别重要功能,但是当应用于高维数据时,可以产生不稳定的结果,从而在每次迭代中选择一组不同的功能。通过使用特征选择合奏,可以改善特征选择的稳定性,该合奏汇总了多个基本特征选择器的结果。必须将阈值应用于最终的聚合功能集,以将相关功能与冗余功能分开。通常应用的固定阈值不保证最终选定功能仅包含相关功能。这项工作开发了几个数据驱动的阈值,以自动识别集合功能选择器中的相关特征,并评估其预测精度和稳定性。为了证明这些方法对临床数据的适用性,它们被应用于来自两个现实世界中阿尔茨海默氏病(AD)研究的数据。 AD是一种没有已知治愈方法的进行性神经退行性疾病,至少在明显症状出现之前的2-3年开始,为研究人员提供了一个机会,可以鉴定出可能识别有患AD风险的患者的早期生物标志物。通过将这些方法应用于两个数据集来标识的功能反映了广告文献中的当前发现。
translated by 谷歌翻译
医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译
对比模式挖掘(CPM)是数据挖掘的重要且流行的子场。传统的顺序模式无法描述不同类别数据之间的对比度信息,而涉及对比概念的对比模式可以描述不同对比条件下数据集之间的显着差异。根据该领域发表的论文数量,我们发现研究人员对CPM的兴趣仍然活跃。由于CPM有许多研究问题和研究方法。该领域的新研究人员很难在短时间内了解该领域的一般状况。因此,本文的目的是为对比模式挖掘的研究方向提供最新的全面概述。首先,我们对CPM提出了深入的理解,包括评估歧视能力的基本概念,类型,采矿策略和指标。然后,我们根据CPM方法根据其特征分类为基于边界的算法,基于树的算法,基于进化模糊的系统算法,基于决策树的算法和其他算法。此外,我们列出了这些方法的经典算法,并讨论它们的优势和缺点。提出了CPM中的高级主题。最后,我们通过讨论该领域的挑战和机遇来结束调查。
translated by 谷歌翻译
分析序列数据通常导致有趣模式的发现,然后是异常检测。近年来,已经提出了许多框架和方法来发现序列数据中有趣的模式以及检测异常行为。然而,现有的算法主要专注于频率驱动的分析,并且它们是在现实世界的环境中应用的具有挑战性。在这项工作中,我们展示了一个名为Duos的新的异常检测框架,可以从一组序列中发现实用程序感知异常顺序规则。在基于模式的异常检测算法中,我们纳入了一个组的异常度和实用程序,然后介绍了实用程序感知异常序列规则(UOSR)的概念。我们表明这是一种检测异常的更有意义的方式。此外,我们提出了一些有效的修剪策略w.r.t.用于挖掘UOSR的上限,以及异常检测。在若干现实世界数据集上进行了广泛的实验研究表明,所提出的Duos算法具有更好的有效性和效率。最后,DUOS优于基线算法,具有合适的可扩展性。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
高效用顺序模式采矿(HUSPM)是具有许多真实世界应用的知识发现和数据分析中的重要活动。在某些情况下,HUSPM无法提供出色的措施来预测会发生什么。高效用顺序规则挖掘(HUSRM)发现了高实用性和高置信顺序规则,从而使其可以解决HUSPM中的问题。所有现有的HUSRM算法旨在找到与现实不一致的,可能会产生假的HUSRS的高级序列顺序规则(HUSRS)。因此,在本文中,我们制定了高公用事业完全订购的顺序规则挖掘的问题,并提出了两种称为petalsr和totalsr+的新型算法,旨在识别所有高实用性完全订购的顺序规则(HTSRS)。 TotalSR创建了一个实用表,该表可以有效地计算前提支持和一个效用前缀总和列表,该列表可以计算序列中O(1)时间中的剩余实用程序。我们还引入了左侧的扩展策略,该策略可以利用反单调性属性来使用信心修剪策略。 TotalSr还可以在实用程序上限的修剪策略的帮助下大大减少搜索空间,从而避免更加有意义的计算。此外,TotalSr+使用辅助前期记录表来更有效地发现HTSR。最后,在真实和合成数据集上都有许多实验结果,表明topalsR比较少的修剪策略的算法要高得多,并且在运行时间和可伸缩性方面,topalsr+效率更高。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
对于应用智能,公用事业驱动的模式发现算法可以识别数据库中有见地和有用的模式。但是,在这些用于模式发现的技术中,模式的数量可能很大,并且用户通常只对其中一些模式感兴趣。因此,有针对性的高实数项目集挖掘已成为一个关键的研究主题,其目的是找到符合目标模式约束而不是所有模式的模式的子集。这是一项具有挑战性的任务,因为在非常大的搜索空间中有效找到量身定制的模式需要有针对性的采矿算法。已经提出了一种称为Targetum的第一种算法,该算法采用了类似于使用树结构进行后处理的方法,但是在许多情况下,运行时间和内存消耗都不令人满意。在本文中,我们通过提出一种带有模式匹配机制的新型基于列表的算法(名为Thuim(有针对性的高实用项目集挖掘))来解决此问题,该机制可以在挖掘过程中迅速匹配高实用项,以选择目标模式。在不同的数据集上进行了广泛的实验,以将所提出算法的性能与最新算法进行比较。结果表明,THUIM在运行时和内存消耗方面表现良好,并且与Targetum相比具有良好的可扩展性。
translated by 谷歌翻译
在过程挖掘中,发现技术使从事件日志自动构建业务流程模型成为可能。但是,结果通常无法达到模型复杂性及其拟合精度之间的平衡,因此需要进行手动模型调整。该论文提出了一种方法开采的方法,该方法基于模型复杂性和适应性的组合评估为模型优化提供半自动支持。为了在两种成分之间取得平衡,提出了一种模型简化方法,该方法基本上在所需的粒度下抽象了原始模型。此外,我们介绍了一个元态的概念,该元素的周期崩溃了,该循环可以潜在地简化模型并解释模型。我们旨在使用来自医疗保健领域不同应用程序的三个数据集证明技术解决方案的功能。它们是针对COVID-19大流行期间动脉高血压和医疗保健工作人员工作流动的患者的远程监测过程。案例研究还调查了各种复杂性度量和解决方案应用方式的使用,从而提供了有关改善过程模型中改善可解释性和复杂性/适应性平衡的更好实践的见解。
translated by 谷歌翻译
现成的实用工具采矿(OSUM)是数据挖掘的新兴研究方向。它的目的是发现在销售时间内具有相对效用的物品集。与传统的公用事业开采相比,Osum可以在现实生活中找到更多实用和有意义的模式。但是,传统Osum有一个主要的缺点。对于普通用户而言,很难定义最低阈值细节,以挖掘适量的货架上的高实用物品集。一方面,如果设置阈值太高,则图案的数量将不够。另一方面,如果设定阈值太低,则会发现太多模式,并导致不必要的时间和记忆消耗。为了解决此问题,用户通常直接指定一个参数k,其中仅考虑顶级相对实用项目集。因此,在本文中,我们提出了一种通用算法TOIT,用于挖掘Top-K On-Shelf高耗时模式来解决此问题。 TOIT采用了一种新颖的策略来根据架子上的数据集提高细节。此外,还采用了两种名为Subtree实用程序的新型上限策略,并应用了本地实用程序来修剪搜索空间。通过采用上述策略,TOIT算法可以尽早缩小搜索空间,提高采矿效率并降低记忆消耗,从而比其他算法获得更好的性能。在具有不同样式的真实数据集上进行了一系列实验,以将效果与最新的Koshu算法进行比较。实验结果表明,TOIT在运行时间和内存消耗中都优于Koshu。
translated by 谷歌翻译
如今,用于行业4.0和物联网(IoT)的智能系统的环境正在经历快速的工业升级。开发了设计制造,事件检测和分类等大数据技术,以帮助制造组织实现智能系统。通过应用数据分析,可以最大化富数据的潜在值,从而帮助制造组织完成另一轮升级。在本文中,我们针对大数据分析提出了两种新算法,即UFC $ _ {gen} $和UFC $ _ {fast} $。两种算法旨在收集三种类型的模式,以帮助人们确定不同产品组合的市场位置。我们将这些算法在各种类型的数据集上进行比较,包括真实和合成。实验结果表明,这两种算法都可以通过基于用户指定的实用程序和频率阈值来利用所有候选模式的三种不同类型的有趣模式来成功实现模式分类。此外,就执行时间和内存消耗而言,基于列表的UFC $ _ {fast} $算法优于基于级别的UFC $ _ {gen} $算法。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
High-utility sequential pattern mining (HUSPM) has emerged as an important topic due to its wide application and considerable popularity. However, due to the combinatorial explosion of the search space when the HUSPM problem encounters a low utility threshold or large-scale data, it may be time-consuming and memory-costly to address the HUSPM problem. Several algorithms have been proposed for addressing this problem, but they still cost a lot in terms of running time and memory usage. In this paper, to further solve this problem efficiently, we design a compact structure called sequence projection (seqPro) and propose an efficient algorithm, namely discovering high-utility sequential patterns with the seqPro structure (HUSP-SP). HUSP-SP utilizes the compact seq-array to store the necessary information in a sequence database. The seqPro structure is designed to efficiently calculate candidate patterns' utilities and upper bound values. Furthermore, a new upper bound on utility, namely tighter reduced sequence utility (TRSU) and two pruning strategies in search space, are utilized to improve the mining performance of HUSP-SP. Experimental results on both synthetic and real-life datasets show that HUSP-SP can significantly outperform the state-of-the-art algorithms in terms of running time, memory usage, search space pruning efficiency, and scalability.
translated by 谷歌翻译
基于有效干预措施的早期疾病检测和预防方法正在引起人们的注意。机器学习技术通过捕获多元数据中的个体差异来实现精确的疾病预测。精确医学的进展表明,在个人层面的健康数据中存在实质性异质性,并且复杂的健康因素与慢性疾病的发展有关。但是,由于多种生物标志物之间的复杂关系,确定跨疾病发作过程中的个体生理状态变化仍然是一个挑战。在这里,我们介绍了健康疾病阶段图(HDPD),它通过可视化在疾病进展过程早期波动的多种生物标志物的边界值来代表个人健康状态。在HDPD中,未来的发作预测是通过扰动多个生物标志物值的情况来表示的,同时考虑变量之间的依赖性。我们从3,238个个体的纵向健康检查队列中构建了11种非传染性疾病(NCD)的HDPD,其中包括3,215个测量项目和遗传数据。 HDPD中非发病区域的生物标志物值的改善显着阻止了11个NCD中的7个未来的疾病发作。我们的结果表明,HDPD可以在发作过程中代表单个生理状态,并用作预防疾病的干预目标。
translated by 谷歌翻译
本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统(CDSS)的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序,该程序将被纳入临床业务流程,具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段,监管策略,数据驱动模式和解释程序被集成,以实现与决策者的自然域特定的互动,具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化,可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的,并在T2DM预测中进行了测试,使我们能够改善已知的临床尺度(例如FindRisk),同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性,并导致数据驱动的解决方案在现实案件中的信任,有效和解释应用。
translated by 谷歌翻译
医院住宿时间(LOS)是最重要的医疗保健度量之一,反映了医院的服务质量,有助于改善医院调度和管理。LOS预测有助于成本管理,因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中,我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明,作者达成了相应的结论。例如,患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子,而其他研究则认为年龄不是一个重要因素。因此,在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。
translated by 谷歌翻译
超重和肥胖仍然是一个主要的全球性公共健康问题,并确定增加未来体重增加风险的个性化模式在预防肥胖症和许多与肥胖症相关的次螯症方面具有至关重要的作用。在这项工作中,我们使用规则发现方法来研究这个问题,通过呈现提供真正的解释性和同时优化所识别模式的准确性(经常正确)的准确性(适用于许多样本)的方法来研究这个问题。具体而言,我们扩展了一个已建立的子组 - 发现方法以生成类型X-> Y的所需规则,并显示如何从X侧提取最高特征,作为Y的最佳预测因子。在我们的肥胖问题中,X是指来自非常大的和多站点EHR数据的提取功能,y表示大量的重量。使用我们的方法,我们还广泛地比较了由个人性别,年龄,种族,保险类型,邻里类型和收入水平决定的22层模式中的模式中的差异和不平等。通过广泛的实验,我们对未来危险体重增加的预测变量显示出新的和互补结果。
translated by 谷歌翻译
The discovery of utility-driven patterns is a useful and difficult research topic. It can extract significant and interesting information from specific and varied databases, increasing the value of the services provided. In practice, the measure of utility is often used to demonstrate the importance, profit, or risk of an object or a pattern. In the database, although utility is a flexible criterion for each pattern, it is a more absolute criterion due to the neglect of utility sharing. This leads to the derived patterns only exploring partial and local knowledge from a database. Utility occupancy is a recently proposed model that considers the problem of mining with high utility but low occupancy. However, existing studies are concentrated on itemsets that do not reveal the temporal relationship of object occurrences. Therefore, this paper towards sequence utility maximization. We first define utility occupancy on sequence data and raise the problem of High Utility-Occupancy Sequential Pattern Mining (HUOSPM). Three dimensions, including frequency, utility, and occupancy, are comprehensively evaluated in HUOSPM. An algorithm called Sequence Utility Maximization with Utility occupancy measure (SUMU) is proposed. Furthermore, two data structures for storing related information about a pattern, Utility-Occupancy-List-Chain (UOL-Chain) and Utility-Occupancy-Table (UO-Table) with six associated upper bounds, are designed to improve efficiency. Empirical experiments are carried out to evaluate the novel algorithm's efficiency and effectiveness. The influence of different upper bounds and pruning strategies is analyzed and discussed. The comprehensive results suggest that the work of our algorithm is intelligent and effective.
translated by 谷歌翻译
全球越来越多的大学将各种形式的在线学习和混合学习作为其学术课程的一部分。此外,由于199年大流行而造成的最新变化导致在线教育的重要性和无处不在。电子学习的主要优点之一不仅是改善学生的学习经验并扩大教育前景,而且还可以通过学习分析来洞悉学生的学习过程。这项研究有助于通过以下方式改善和理解电子学习过程的主题。首先,我们证明可以根据从学生的行为数据中得出的顺序模式来构建准确的预测模型,这些模式能够在课程的早期识别出表现不佳的学生。其次,我们通过研究是否应根据特定于课程的顺序模式或基于更一般的行为模式的几个课程来构建每个课程的预测模型,从而调查了建立此类预测模型的特异性征用性权衡。最后,我们提出了一种捕获行为数据中时间方面的方法,并分析了其对模型预测性能的影响。我们改进的序列分类技术的结果能够以高度准确性来预测学生的表现,而对于课程特异性模型的结果达到了90%。
translated by 谷歌翻译