吞咽困难是帕金森氏病(PD)的早期症状之一。大多数现有方法使用特征选择方法为所有PD患者找到最佳语音特征子集以提高预测性能。很少有人考虑患者之间的异质性,这意味着需要为不同患者提供特定的预测模型。但是,为每个患者建立这个预测模型都面临着小样本量的挑战,这使其缺乏普遍的能力。实例转移是弥补这种缺陷的有效方法。因此,本文提出了针对PD严重性预测的基于患者的特定于游戏转移(PSGT)方法。首先,选择机制用于从源域中选择与目标患者相似的疾病趋势的PD患者,这大大降低了实例转移的范围并降低了负转移的风险。然后,通过Shapley值对转移的受试者的贡献及其实例对目标受试者的疾病估计进行了公平评估,从而提高了该方法的解释性。接下来,根据转移受试者的贡献确定有效实例的比例,并且根据此比例进行更高贡献的实例,以进一步降低转移的实例子集和目标对象之间的差异。最后,将选定的实例子集添加到目标主体的训练集中,并将扩展数据馈入随机森林中,以提高PD严重性预测方法的性能。帕金森的远程监控数据集用于评估可行性和有效性。实验结果表明,所提出的PSGT方法在预测误差和稳定性中具有更好的性能,而不是比较方法。
translated by 谷歌翻译
基于可解释的机器学习,提出了一种名为InterOPT优化操作参数的算法,并通过优化页岩气体开发来证明。InterOpt由三个部分组成:神经网络用于构建矢量空间中实际钻孔和液压压裂过程的模拟器(即虚拟环境);可解释的机器学习中的Sharpley价值方法用于分析每个井中地质和操作参数的影响(即单个井功能影响分析);并进行集合随机最大似然(ENRML)以优化操作参数,以全面提高页岩气发展的效率并降低平均成本。在实验中,InterOPT根据其特定地质条件为每个井提供了不同的钻孔和破裂计划,并最终在104井的案例研究中获得了9.7%的平均成本降低9.7%。
translated by 谷歌翻译
As data becomes the fuel driving technological and economic growth, a fundamental challenge is how to quantify the value of data in algorithmic predictions and decisions. For example, in healthcare and consumer markets, it has been suggested that individuals should be compensated for the data that they generate, but it is not clear what is an equitable valuation for individual data. In this work, we develop a principled framework to address data valuation in the context of supervised machine learning. Given a learning algorithm trained on n data points to produce a predictor, we propose data Shapley as a metric to quantify the value of each training datum to the predictor performance. Data shapley value uniquely satisfies several natural properties of equitable data valuation. We develop Monte Carlo and gradient-based methods to efficiently estimate data Shapley values in practical settings where complex learning algorithms, including neural networks, are trained on large datasets. In addition to being equitable, extensive experiments across biomedical, image and synthetic data demonstrate that data Shapley has several other benefits: 1) it is more powerful than the popular leave-one-out or leverage score in providing insight on what data is more valuable for a given learning task; 2) low Shapley value data effectively capture outliers and corruptions; 3) high Shapley value data inform what type of new data to acquire to improve the predictor.
translated by 谷歌翻译
The issue of left before treatment complete (LBTC) patients is common in emergency departments (EDs). This issue represents a medico-legal risk and may cause a revenue loss. Thus, understanding the factors that cause patients to leave before treatment is complete is vital to mitigate and potentially eliminate these adverse effects. This paper proposes a framework for studying the factors that affect LBTC outcomes in EDs. The framework integrates machine learning, metaheuristic optimization, and model interpretation techniques. Metaheuristic optimization is used for hyperparameter optimization--one of the main challenges of machine learning model development. Three metaheuristic optimization algorithms are employed for optimizing the parameters of extreme gradient boosting (XGB), which are simulated annealing (SA), adaptive simulated annealing (ASA), and adaptive tabu simulated annealing (ATSA). The optimized XGB models are used to predict the LBTC outcomes for the patients under treatment in ED. The designed algorithms are trained and tested using four data groups resulting from the feature selection phase. The model with the best predictive performance is interpreted using SHaply Additive exPlanations (SHAP) method. The findings show that ATSA-XGB outperformed other mode configurations with an accuracy, area under the curve (AUC), sensitivity, specificity, and F1-score of 86.61%, 87.50%, 85.71%, 87.51%, and 86.60%, respectively. The degree and the direction of effects of each feature were determined and explained using the SHAP method.
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
作为自然现象的地震,历史上不断造成伤害和人类生活的损失。地震预测是任何社会计划的重要方面,可以增加公共准备,并在很大程度上减少损坏。然而,由于地震的随机特征以及实现了地震预测的有效和可靠模型的挑战,迄今为止努力一直不足,需要新的方法来解决这个问题。本文意识到​​这些问题,提出了一种基于注意机制(AM),卷积神经网络(CNN)和双向长短期存储器(BILSTM)模型的新型预测方法,其可以预测数量和最大幅度中国大陆各地区的地震为基于该地区的地震目录。该模型利用LSTM和CNN具有注意机制,以更好地关注有效的地震特性并产生更准确的预测。首先,将零阶保持技术应用于地震数据上的预处理,使得模型的输入数据更适当。其次,为了有效地使用空间信息并减少输入数据的维度,CNN用于捕获地震数据之间的空间依赖性。第三,使用Bi-LSTM层来捕获时间依赖性。第四,引入了AM层以突出其重要的特征来实现更好的预测性能。结果表明,该方法具有比其他预测方法更好的性能和概括能力。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
帕金森病(PD)的语音识别是其诊断的有效途径,近年来已成为一个炎热和困难的研究区。众所周知,一个主题中有大型语料库(段)。但是,太大的段会增加分类模型的复杂性。此外,临床医生有兴趣找到反映整个主题病理的诊断语音标记。由于每个语音样本段的最佳相关特征是不同的,因此难以找到均匀的诊断标记。因此,有必要将一个受试者内的现有的大段重构为几个段中的几个段,其可以促进相关语音特征的提取,以表征整个主题的诊断标记。为了解决这个问题,本文提出了一种基于多层模糊C均值(MLFCM)聚类和层间一致性保存的帕金森科目的封闭深音样本学习算法。该算法可用于实现帕金森病(PD)的对象内部样品重建,以获得少量的高质量原型样品段。在纸张结束时,分别选择了几个代表性的PD语音数据集,并将其与最先进的相关方法进行比较。实验结果表明,该算法有效地意识到。
translated by 谷歌翻译
尽管有无数的同伴审查的论文,证明了新颖的人工智能(AI)基于大流行期间的Covid-19挑战的解决方案,但很少有临床影响。人工智能在Covid-19大流行期间的影响因缺乏模型透明度而受到极大的限制。这种系统审查考察了在大流行期间使用可解释的人工智能(Xai)以及如何使用它可以克服现实世界成功的障碍。我们发现,Xai的成功使用可以提高模型性能,灌输信任在最终用户,并提供影响用户决策所需的值。我们将读者介绍给常见的XAI技术,其实用程序以及其应用程序的具体例子。 XAI结果的评估还讨论了最大化AI的临床决策支持系统的价值的重要步骤。我们说明了Xai的古典,现代和潜在的未来趋势,以阐明新颖的XAI技术的演变。最后,我们在最近出版物支持的实验设计过程中提供了建议的清单。潜在解决方案的具体示例也解决了AI解决方案期间的共同挑战。我们希望本次审查可以作为提高未来基于AI的解决方案的临床影响的指导。
translated by 谷歌翻译
个性化的纵向疾病评估对于快速诊断,适当管理和最佳调整多发性硬化症(MS)的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里,我们设计了一种新型的纵向模型,以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先,我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来,我们通过插补对待缺失的数据。然后,我们通过使用广义估计方程来发现MS的潜在标记。随后,从多个培训数据集中学到的参数被结合起来形成一个简单的,统一的纵向预测模型,以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估,最终模型结合了第一天的数据。结果表明,所提出的模型有望实现个性化的纵向MS评估。他们还表明,与步态和平衡以及上肢功能有关的功能(从基于传感器的评估中远程收集)可能是预测MS随时间推移的有用数字标记。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译
客观的。深度神经网络(DNNS)在各种脑机界面应用中表现出了前所未有的成功,例如癫痫发作预测。但是,由于癫痫信号的高度个性化特征,现有方法通常会以特定于患者的方式训练模型。因此,只能将每个受试者的标记录音数量有限用于培训。结果,由于训练数据的不足,目前基于DNN的方法在一定程度上表现出较差的泛化能力。另一方面,与患者无关的模型试图利用更多的患者数据通过将患者数据汇总在一起为所有患者培训通用模型。尽管采用了不同的技术,但结果表明,由于患者的个体差异很高,与患者独立的模型相比性能要比患者特异性模型差。因此,在患者特异性和与患者无关的模型之间存在很大的差距。方法。在本文中,我们提出了一种基于知识蒸馏的新型培训计划,该方案利用了来自多个受试者的大量数据。首先,它从具有预训练的通用模型的所有可用受试者的信号中提取信息。然后可以借助蒸馏知识和其他个性化数据获得患者特异性的模型。主要结果。通过我们建议的计划,对波士顿-MIT儿童医院的Seeg数据库进行了四种最先进的癫痫发作预测方法。由此产生的准确性,敏感性和错误的预测率表明,我们提出的培训方案一致地提高了最先进方法的预测性能。意义。拟议的训练方案显着改善了患者特异性癫痫发作预测因子的性能,并弥合了患者特异性和与患者无关的预测因子之间的差距。
translated by 谷歌翻译
即使有效,模型的使用也必须伴随着转换数据的各个级别的理解(上游和下游)。因此,需求增加以定义单个数据与算法可以根据其分析可以做出的选择(例如,一种产品或一种促销报价的建议,或代表风险的保险费率)。模型用户必须确保模型不会区分,并且也可以解释其结果。本文介绍了模型解释的重要性,并解决了模型透明度的概念。在保险环境中,它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中,我们展示了一些解释性方法的兴趣,以适应目标受众的解释。
translated by 谷歌翻译
背景:几项研究突出了考虑急性冠状动脉综合征(ACS)诊断和治疗性差异的重要性。然而,几乎已经研究了ACS子群中的性别特异性风险标志物。本研究旨在探索机器学习(ML)模型,以识别从电子健康记录(EHR)的公共数据库中的ACS子群体中的妇女和男性的住院死亡率标志。方法:从医疗信息MART中提取1,299名患有的ST升高的心肌梗死(Stemi)和2,820名非St-Expation心肌梗死患者进行重症监护(MIMIC)-III数据库。我们培训和验证了死亡率预测模型,并使用了可解释性技术来识别每个子群体的性别特异性标记。结果:基于极端梯度升压的模型(XGBoost)实现了最高性能:STEMI和AUC = 0.94(95 \%CI:0.80- 0.90)为nstemi。对于STEMI,女性的顶部标记是慢性肾功能衰竭,心率高,年龄超过70岁。对于男性来说,顶部标记是急性肾功能衰竭,高肌钙蛋白T水平,年龄超过75岁。然而,对于NStemi,女性的顶部标记较低,肌钙蛋白水平低,尿素水平高,80多年。对于男性来说,顶部标记是高心率,肌酐水平,年龄超过70岁。结论:我们的结果表明,通过解释ehrs培训的ML死亡率模型,通过解释ML死亡率模型显示不同ACS子群的可能的显着和相干的性别特异性风险标记。在妇女与男性的确定风险标志中观察到差异,突出了考虑性别特异性标记在实施更适当的治疗策略和更好的临床结果方面的重要性。
translated by 谷歌翻译
Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
最近,深度学习方法在交通预测方面取得了长足的进步,但它们的性能取决于大量的历史数据。实际上,我们可能会面临数据稀缺问题。在这种情况下,深度学习模型无法获得令人满意的性能。转移学习是解决数据稀缺问题的一种有前途的方法。但是,流量预测中现有的转移学习方法主要基于常规网格数据,这不适用于流量网络中固有的图形数据。此外,现有的基于图的模型只能在道路网络中捕获共享的流量模式,以及如何学习节点特定模式也是一个挑战。在本文中,我们提出了一种新颖的传输学习方法来解决流量预测,几乎可以将知识从数据富的源域转移到数据范围的目标域。首先,提出了一个空间图形神经网络,该网络可以捕获不同道路网络的节点特异性时空交通模式。然后,为了提高转移的鲁棒性,我们设计了一种基于模式的转移策略,我们利用基于聚类的机制来提炼源域中的常见时空模式,并使用这些知识进一步提高了预测性能目标域。现实世界数据集的实验验证了我们方法的有效性。
translated by 谷歌翻译
基于深度学习的路面裂缝检测方法通常需要大规模标签,具有详细的裂缝位置信息来学习准确的预测。然而,在实践中,由于路面裂缝的各种视觉模式,裂缝位置很难被手动注释。在本文中,我们提出了一种基于深域适应的裂缝检测网络(DDACDN),其学会利用源域知识来预测目标域中的多类别裂缝位置信息,其中仅是图像级标签可用的。具体地,DDACDN首先通过双分支权重共享骨干网络从源和目标域中提取裂缝特征。并且在实现跨域自适应的努力中,通过从每个域的特征空间聚合三尺度特征来构建中间域,以使来自源域的裂缝特征适应目标域。最后,该网络涉及两个域的知识,并接受识别和本地化路面裂缝的培训。为了便于准确的培训和验证域适应,我们使用两个具有挑战性的路面裂缝数据集CQu-BPDD和RDD2020。此外,我们构建了一个名为CQu-BPMDD的新型大型沥青路面多标签疾病数据集,其中包含38994个高分辨率路面疾病图像,以进一步评估模型的稳健性。广泛的实验表明,DDACDN优于最先进的路面裂纹检测方法,以预测目标结构域的裂缝位置。
translated by 谷歌翻译