智能论文笔记

Personalized Longitudinal Assessment of Multiple Sclerosis Using Smartphones

Oliver Y. Chén , Florian Lipsmeier , Huy Phan , Frank Dondelinger , Andrew Creagh , Christian Gossens , Michael Lindemann , Maarten de Vos

分类： (统计)机器学习

2022-09-20

个性化的纵向疾病评估对于快速诊断，适当管理和最佳调整多发性硬化症（MS）的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里，我们设计了一种新型的纵向模型，以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先，我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来，我们通过插补对待缺失的数据。然后，我们通过使用广义估计方程来发现MS的潜在标记。随后，从多个培训数据集中学到的参数被结合起来形成一个简单的，统一的纵向预测模型，以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估，最终模型结合了第一天的数据。结果表明，所提出的模型有望实现个性化的纵向MS评估。他们还表明，与步态和平衡以及上肢功能有关的功能（从基于传感器的评估中远程收集）可能是预测MS随时间推移的有用数字标记。

translated by 谷歌翻译

Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score

Alejandro Schuler , David Walsh , Diana Hall , Jon Walsh , Charles Fisher

分类： (统计)机器学习 | 机器学习

2020-12-17

估算随机实验的因果效应是临床研究的核心。降低这些分析中的统计不确定性是统计学家的重要目标。注册管理机构，事先审判和健康记录构成了对患者的历史数据汇编，其在可能是可利用至此的患者下的历史数据。但是，大多数历史借贷方法通过牺牲严格的I型错误率控制来达到方差的减少。在这里，我们建议使用利用线性协变调整的历史数据来提高试验分析的效率而不会产生偏见。具体而言，我们在历史数据上培训预后模型，然后使用线性回归估计治疗效果，同时调整试验受试者预测结果（其预后分数）。我们证明，在某些条件下，这种预后调整程序在大类估算仪中获得了最低差异。当不符合这些条件时，预后的协变量调整仍然比原始协变量调整更有效，并且效率的增益与上述预后模型的预测准确性的衡量标准成正比，与原始协变量的线性关系的预测准确性。我们展示了使用模拟的方法和阿尔茨海默病的临床试验的再分析，并观察平均平均误差的有意义减少和估计方差。最后，我们提供了一种简化的渐近方差公式，使得能够计算这些收益的功率计算。在使用预后模型的预后模型中，可以实现10％和30％的样品尺寸减少。

translated by 谷歌翻译

A Methodological Framework for the Comparative Evaluation of Multiple Imputation Methods: Multiple Imputation of Race, Ethnicity and Body Mass Index in the U.S. National COVID Cohort Collaborative

Elena Casiraghi , Rachel Wong , Margaret Hall , Ben Coleman , Marco Notaro , Michael D. Evans , Jena S. Tronieri , Hannah Blau , Bryan Laraway , Tiffany J. Callahan

分类：人工智能

2022-06-13

尽管电子健康记录是生物医学研究的丰富数据来源，但这些系统并未在医疗环境中统一地实施，并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性，可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见，因此，一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是，尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果，但尚无共识，MI算法效果最好。除了选择MI策略之外，归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中，受鲁宾和范布伦的开创性作品的启发，我们提出了一个方法学框架，可以应用于评估和比较多种多个插补技术，旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列，这是我们在先前的文献研究中提出的结果，我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响，其数据为2型糖尿病，其数据为2型糖尿病由国家共同队列合作飞地提供。

translated by 谷歌翻译

Ten years of image analysis and machine learning competitions in dementia

Esther E. Bron , Stefan Klein , Annika Reinke , Janne M. Papma , Lena Maier-Hein , Daniel C. Alexander , Neil P. Oxtoby

分类：机器学习

2021-12-15

机器学习方法利用多参数生物标志物，特别是基于神经影像动物，具有改善痴呆早期诊断的巨大潜力，并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症，并评估他们在临床实践中使用的潜力和临床试验，七年的大挑战已经在过去十年中组织：Miriad，Alzheimer的疾病大数据梦，Caddementia，机器学习挑战，MCI神经影像动物，蝌蚪和预测分析竞争。基于两个挑战评估框架，我们分析了这些大挑战如何互相补充研究问题，数据集，验证方法，结果和影响。七个大挑战解决了与（临床前）痴呆症（临床）痴呆症的筛查，诊断，预测和监测有关的问题。临床问题，任务和性能指标几乎没有重叠。然而，这具有提供对广泛问题的洞察力的优势，它也会限制对挑战的结果的验证。通常，获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演，但临床上没有挑战评估的大部分方法。为了增加影响，未来的挑战可以更加关注统计分析，对其与高于阿尔茨海默病的临床问题，以及使用超越阿尔茨海默病神经影像疾病的临床问题，以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训，我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。

translated by 谷歌翻译

Care for the Mind Amid Chronic Diseases: An Interpretable AI Approach Using IoT

Jiaheng Xie , Xiaohang Zhao , Xiang Liu , Xiao Fang

分类：人工智能 | 机器学习

2022-11-08

Health sensing for chronic disease management creates immense benefits for social welfare. Existing health sensing studies primarily focus on the prediction of physical chronic diseases. Depression, a widespread complication of chronic diseases, is however understudied. We draw on the medical literature to support depression prediction using motion sensor data. To connect human expertise in the decision-making, safeguard trust for this high-stake prediction, and ensure algorithm transparency, we develop an interpretable deep learning model: Temporal Prototype Network (TempPNet). TempPNet is built upon the emergent prototype learning models. To accommodate the temporal characteristic of sensor data and the progressive property of depression, TempPNet differs from existing prototype learning models in its capability of capturing the temporal progression of depression. Extensive empirical analyses using real-world motion sensor data show that TempPNet outperforms state-of-the-art benchmarks in depression prediction. Moreover, TempPNet interprets its predictions by visualizing the temporal progression of depression and its corresponding symptoms detected from sensor data. We further conduct a user study to demonstrate its superiority over the benchmarks in interpretability. This study offers an algorithmic solution for impactful social good - collaborative care of chronic diseases and depression in health sensing. Methodologically, it contributes to extant literature with a novel interpretable deep learning model for depression prediction from sensor data. Patients, doctors, and caregivers can deploy our model on mobile devices to monitor patients' depression risks in real-time. Our model's interpretability also allows human experts to participate in the decision-making by reviewing the interpretation of prediction outcomes and making informed interventions.

translated by 谷歌翻译

Ensemble feature selection with data-driven thresholding for Alzheimer's disease biomarker discovery

Annette Spooner , Gelareh Mohammadi , Perminder S. Sachdev , Henry Brodaty , Arcot Sowmya

分类：机器学习

2022-07-05

医疗保健数据集对机器学习和统计数据都带来了许多挑战，因为它们的数据通常是异质的，审查的，高维的，并且缺少信息。特征选择通常用于识别重要功能，但是当应用于高维数据时，可以产生不稳定的结果，从而在每次迭代中选择一组不同的功能。通过使用特征选择合奏，可以改善特征选择的稳定性，该合奏汇总了多个基本特征选择器的结果。必须将阈值应用于最终的聚合功能集，以将相关功能与冗余功能分开。通常应用的固定阈值不保证最终选定功能仅包含相关功能。这项工作开发了几个数据驱动的阈值，以自动识别集合功能选择器中的相关特征，并评估其预测精度和稳定性。为了证明这些方法对临床数据的适用性，它们被应用于来自两个现实世界中阿尔茨海默氏病（AD）研究的数据。 AD是一种没有已知治愈方法的进行性神经退行性疾病，至少在明显症状出现之前的2-3年开始，为研究人员提供了一个机会，可以鉴定出可能识别有患AD风险的患者的早期生物标志物。通过将这些方法应用于两个数据集来标识的功能反映了广告文献中的当前发现。

translated by 谷歌翻译

Evaluating Treatment Prioritization Rules via Rank-Weighted Average Treatment Effects

Steve Yadlowsky , Scott Fleming , Nigam Shah , Emma Brunskill , Stefan Wager

分类： (统计)机器学习

2021-11-15

有许多可用于选择优先考虑治疗的可用方法，包括基于治疗效果估计，风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应（RATY）指标作为一种简单常见的指标系列，用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则，率是不可知的，并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器，并证明了一个中央限位定理，可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由，以及用于测试关于治疗效果中的异质性的假设的框架，与优先级规则相关。我们对速率的定义嵌套了许多现有度量，包括QINI系数，以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中，使用来自Sprint和Accor-BP随机对照试验的数据，我们发现没有明显的证据证明异质治疗效果。另一方面，在大量的营销审判中，我们在一些数字广告活动的治疗效果中发现了具有的强大证据，并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。

translated by 谷歌翻译

A review on longitudinal data analysis with random forest in precision medicine

Jianchang Hu , Silke Szymczak

分类： (统计)机器学习 | 机器学习

2022-08-08

Precision Medicine根据患者的特征为患者提供定制的治疗方法，是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用，但是它们的测量经常会随着时间而变化，从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一，并且可以在精密医学中发挥关键作用。在本文中，我们回顾了标准随机森林方法的扩展，以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应，并根据时间效应是否相关，进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后，我们讨论了我们审查的局限性和一些未来的研究指示。

translated by 谷歌翻译

Heterogeneous Treatment Effect Estimation using machine learning for Healthcare application: tutorial and benchmark

Yaobin Ling , Pulakesh Upadhyaya , Luyao Chen , Xiaoqian Jiang , Yejin Kim

分类：机器学习

2021-09-27

为目标疾病开发新药物是一项耗时且昂贵的任务，药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用，已经对数据进行了许多研究。现实世界的数据嘈杂，稀疏，并且具有许多混杂因素。此外，许多研究表明，药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果（HTE）（HTE）的高级机器学习模型，并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域，但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域，并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外，我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者，我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。

translated by 谷歌翻译

SNPs Filtered by Allele Frequency Improve the Prediction of Hypertension Subtypes

Yiming Li , Sanjiv J. Shah , Donna Arnett , Ryan Irvin , Yuan Luo

分类：机器学习

2021-11-19

高血压是心血管疾病的主要原因和过早死亡。不同的高血压亚型可能在其预后变化，并且需要不同的治疗方法。个人的高血压风险由遗传和环境因素以及它们的相互作用决定。在这项工作中，我们研究了911名非洲裔美国人和1171名欧洲美国人在高血压遗传流行病学网络（Hypergen）Cohort中。我们使用环境变量和基于不同标准选择的遗传功能组建造的高血压子类型分类模型。拟合模型提供了洞察高血压亚型的遗传景观，这可能有助于未来的个性化诊断和治疗高血压。

translated by 谷歌翻译

Interpretable machine learning for high-dimensional trajectories of aging health

Spencer Farrell , Arnold Mitnitski , Kenneth Rockwood , Andrew Rutenberg

分类：机器学习

2021-05-07

我们为身体和生存期的个体老化轨迹建立了一个计算模型，其中包含物理，功能和生物变量，并在人口统计学，生活方式和医学背景信息上进行调节。我们将现代机器学习技术与可解释的交互网络相结合，其中健康变量通过随机动力系统内的显式配对交互来耦合。我们的动态联合可解释网络（DJIN）模型可扩展到大型纵向数据集，是从基线健康状态的个体高维氏体健康轨迹和生存的预测性，并且在卫生变量之间的可解释网络的可解释网络。该网络识别健康变量之间的合理生理连接以及强烈连接的健康变量的集群。我们使用对老化（ELSA）数据的英语纵向研究培训我们的模型，并表明它比多个专用线性模型更好地进行健康结果和生存。我们将模型与灵活的低维潜空间模型进行比较，探讨准确模拟老化健康结果所需的维度。我们的Djin模型可用于生成易于历史的合成人员，以赋予缺失数据，并模拟未来的老化结果给出任意初始健康状态。

translated by 谷歌翻译

Graph-aware Modeling of Brain Connectivity Networks

Yura Kim , Daniel Kessler , Elizaveta Levina

分类： (统计)机器学习

2019-03-06

大脑中的功能连接通常由加权网络表示，其中节点表示大脑中的位置，并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而，汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性，这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战，该挑战涉及功能区域和边缘依赖性，同时仍然建模各个边缘权重，以避免丢失信息。该模型允许将两种群体（例如患者和健康对照）进行比较，无论是在功能区水平和各个边缘水平，都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据，获得与精神分裂症文献一致的可解释结果。

translated by 谷歌翻译

Designing Compact Features for Remote Stroke Rehabilitation Monitoring using Wearable Accelerometers

Xi Chen , Yu Guan , Jian Qing Shi , Xiu-Li Du , Janet Eyre

分类：机器学习

2020-09-17

Stroke is known as a major global health problem, and for stroke survivors it is key to monitor the recovery levels. However, traditional stroke rehabilitation assessment methods (such as the popular clinical assessment) can be subjective and expensive, and it is also less convenient for patients to visit clinics in a high frequency. To address this issue, in this work based on wearable sensing and machine learning techniques, we develop an automated system that can predict the assessment score in an objective manner. With wrist-worn sensors, accelerometer data is collected from 59 stroke survivors in free-living environments for a duration of 8 weeks, and we map the week-wise accelerometer data(3 days per week) to the assessment score by developing signal processing and predictive model pipeline. To achieve this, we propose two types of new features, which can encode the rehabilitation information from both paralysed and non-paralysed sides while suppressing the high level noises such as irrelevant daily activities. Based on the proposed features, we further develop the longitudinal mixed-effects model with Gaussian process prior (LMGP), which can model the random effects caused by different subjects and time slots (during the 8 weeks). Comprehensive experiments are conducted to evaluate our system on both acute and chronic patients, and the promising results suggest its effectiveness.

translated by 谷歌翻译

Signature Methods in Machine Learning

Terry Lyons , Andrew D. McLeod

分类： (统计)机器学习 | 机器学习

2022-06-29

基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法，也许是由于它们的数学精度，已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的：$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声，但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中，可伸缩性问题是一个重要的挑战，但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性，并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距，并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰（Ilya Chevryev）和安德烈·科米利津（Andrey Kormilitzin）的早期论文，它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的，这种方式在很大程度上对数据类型不可知。

translated by 谷歌翻译

Clustering of longitudinal data: A tutorial on a variety of approaches

Niek Den Teuling , Steffen Pauws , Edwin van den Heuvel

分类：机器学习 | (统计)机器学习

2021-11-10

在过去二十年中，识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员，我们总结了文献关于纵向聚类的指导。此外，我们提供了一种纵向聚类方法，包括基于基团的轨迹建模（GBTM），生长混合模拟（GMM）和纵向K平均值（KML）。该方法在基本级别引入，并列出了强度，限制和模型扩展。在最近数据收集的发展之后，将注意这些方法的适用性赋予密集的纵向数据（ILD）。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。

translated by 谷歌翻译

Ensemble feature selection with clustering for analysis of high-dimensional, correlated clinical data in the search for Alzheimer's disease biomarkers

Annette Spooner , Gelareh Mohammadi , Perminder S. Sachdev , Henry Brodaty , Arcot Sowmya

分类：机器学习

2022-07-06

医疗保健数据集通常包含一组高度相关的特征，例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时，由于相关功能，由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征，并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏，该合奏汇总了多个单个基础特征选择器的结果，已被研究为稳定特征选择结果的一种手段，但不能解决相关特征的问题。我们提出了一个新颖的框架，可以从多元特征选择器中创建特征选择集合，同时考虑了相关特征组产生的偏差，并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病（AD）的研究中应用于两个现实世界数据集，这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明，在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善，并且这些模型选择的功能与广告文献中的发现保持一致。

translated by 谷歌翻译

Face Identification Proficiency Test Designed Using Item Response Theory

Géraldine Jeckeln , Ying Hu , Jacqueline G. Cavazos , Amy N. Yates , Carina A. Hahn , Larry Tang , P. Jonathon Phillips , Alice J. O'Toole

分类：计算机视觉

2021-06-22

面部识别水平的度量对于确保专业法医面部考官和其他在应用方案中执行面部识别任务的其他人的准确和一致的表现至关重要。当前的熟练度测试依赖于静态刺激项目的集合，因此不能多次有效地对同一个人进行有效管理。要创建熟练度测试，必须组装大量“已知”难度的项目。可以构建多个相等难度的测试，然后使用项目子集。我们介绍了三合会身份匹配（TIM）测试，并使用项目响应理论（IRT）对其进行评估。参与者查看面部图像“三合会”（n = 225）（一个身份的两个图像，一个不同身份的一个图像），然后选择不同的身份。在实验1中，大学生（n = 197）在TIM测试中显示出广泛的准确性，IRT建模表明TIM项目涵盖了各种难度水平。在实验2中，我们使用基于IRT的项目指标将测试分配为特定困难的子集。模拟显示，TIM项目的子集产生了对受试者能力的可靠估计。在实验3A和3B中，我们发现学生衍生的IRT模型可靠地评估了非学生参与者的能力以及在不同的测试课程中推广的能力。在实验3C中，我们显示TIM测试性能与其他常见的面部识别测试相关。总而言之，TIM测试为开发一个灵活和校准的框架提供了一个起点，以衡量各种能力水平（例如，具有面部处理缺陷的专业人员或人群）的能力。

translated by 谷歌翻译

Reinforcement Learning Assisted Oxygen Therapy for COVID-19 Patients Under Intensive Care

Hua Zheng , Jiahao Zhu , Wei Xie , Judy Zhong

分类：机器学习 | 人工智能

2021-05-19

严重冠状病毒疾病19（Covid-19）的患者通常需要补充氧作为必要的治疗方法。我们开发了一种基于深度加强学习（RL）的机器学习算法，用于持续管理缺氧率为重症监护下的关键病患者，这可以识别最佳的个性化氧气流速，具有强大的潜力，以降低相对于死亡率目前的临床实践。基本上，我们为Covid-19患者的氧气流动轨迹建模，并作为马尔可夫决策过程。基于个体患者特征和健康状况，基于加强学习的氧气控制政策，实时推荐氧气流速降低死亡率。我们通过使用从纽约大学Langone Health的Covid-19的叙述队员使用纽约大学Langone Healthation Mearchatory Maculation Mearchatory Chare，从2020年4月20日至1月2021年使用电子健康记录，通过交叉验证评估了拟议方法的表现。算法低于护理标准的2.57％（95％CI：2.08-3.06）减少（P <0.001）在我们的算法下的护理标准下的7.94％，平均推荐的氧气流量为1.28 L /分钟（95％CI：1.14-1.42）低于实际递送给患者的速率。因此，RL算法可能导致更好的重症监护治疗，可以降低死亡率，同时节省氧气稀缺资源。它可以减少氧气短缺问题，在Covid-19大流行期间改善公共卫生。

translated by 谷歌翻译

Privacy in pharmacogenetics: An {End-to-End} case study of personalized warfarin dosing

分类：

We initiate the study of privacy in pharmacogenetics, wherein machine learning models are used to guide medical treatments based on a patient's genotype and background. Performing an in-depth case study on privacy in personalized warfarin dosing, we show that suggested models carry privacy risks, in particular because attackers can perform what we call model inversion: an attacker, given the model and some demographic information about a patient, can predict the patient's genetic markers.As differential privacy (DP) is an oft-proposed solution for medical settings such as this, we evaluate its effectiveness for building private versions of pharmacogenetic models. We show that DP mechanisms prevent our model inversion attacks when the privacy budget is carefully selected. We go on to analyze the impact on utility by performing simulated clinical trials with DP dosing models. We find that for privacy budgets effective at preventing attacks, patients would be exposed to increased risk of stroke, bleeding events, and mortality. We conclude that current DP mechanisms do not simultaneously improve genomic privacy while retaining desirable clinical efficacy, highlighting the need for new mechanisms that should be evaluated in situ using the general methodology introduced by our work.

translated by 谷歌翻译

Sharing pattern submodels for prediction with missing values

Lena Stempfle , Fredrik Johansson

分类：机器学习 | (统计)机器学习

2022-06-22

在机器学习的许多应用中，不可避免的值是不可避免的，并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时，已经提出了单独的图案子模型作为解决方案。但是，独立模型并不能有效利用所有可用数据。相反，将共享模型拟合到完整数据集通常取决于插补，而当丢失度取决于未观察到的因素时，这可能是次优的。我们提出了一种替代方法，称为共享模式子模型，该方法做出了a）在测试时对缺失值的强大预测，b）维持或提高模式子模型的预测能力，c）有一个简短的描述，可改善可解释性。我们确定共享是最佳的情况，即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明，我们的模型在模式专业化和信息共享之间实现了良好的权衡。

translated by 谷歌翻译