智能论文笔记

Classifying Unstructured Clinical Notes via Automatic Weak Supervision

Chufan Gao , Mononito Goswami , Jieshi Chen , Artur Dubrawski

分类：自然语言处理 | 机器学习

2022-06-24

医疗保健提供者通常会记录给每位患者提供临床，研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质，提供者使用专门的员工使用国际疾病（ICD）编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时，而且昂贵且容易出错。先前的工作证明了机器学习（ML）方法在自动化此过程中的潜在效用，但它依靠大量手动标记数据来训练模型。此外，诊断编码系统随着时间的流逝而演变，这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中，我们引入了一个普遍的弱监督文本分类框架，该框架仅从类标签描述中学习，而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较，除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外，我们证明了我们的方法的功效和灵活性。

translated by 谷歌翻译

The Digital Twin Landscape at the Crossroads of Predictive Maintenance, Machine Learning and Physics Based Modeling

Brian Kunzer , Mario Berges , Artur Dubrawski

分类：机器学习

2022-06-21

在过去的十年中，数字双胞胎的概念在受欢迎程度上爆发了，但围绕其多个定义，其新颖性作为新技术的新颖性以及其实际适用性仍然存在，尽管进行了许多评论，调查和新闻稿，但其实际适用性仍然存在。探索了数字双胞胎一词的历史，以及其在产品生命周期管理，资产维护和设备车队管理，运营和计划领域的初始背景。还基于七个基本要素提供了一个最小可行的框架来利用数字双胞胎的定义。还概述了采用DT方法的DT应用程序和行业的简短旅行。预测维护领域突出了数字双胞胎框架的应用，并使用基于机器学习和基于物理的建模的扩展。采用机器学习和基于物理的建模的组合形成混合数字双胞胎框架，可以协同减轻隔离使用时每种方法的缺点。还讨论了实践实施数字双胞胎模型的关键挑战。随着数字双技术的快速增长及其成熟，预计将实现实质性增强工具和解决方案的巨大希望，以实现智能设备的智能维护。

translated by 谷歌翻译

Weakly Supervised Classification of Vital Sign Alerts as Real or Artifact

Arnab Dey , Mononito Goswami , Joo Heung Yoon , Gilles Clermont , Michael Pinsky , Marilyn Hravnak , Artur Dubrawski

分类：机器学习

2022-06-18

很大一部分临床生理监测警报是错误的。这通常会导致临床人员的警报疲劳，不可避免地会损害患者的安全。为了解决这个问题，研究人员试图构建机器学习（ML）模型，能够准确裁定生命体征（VS）警报在血液动力学监测的患者的床边提出的警报，为真实或人工制品。先前的研究利用了需要大量手工标记数据的监督ML技术。但是，手动收集此类数据可能是昂贵的，耗时的和平凡的，并且是限制医疗保健中ML广泛采用（HC）的关键因素。取而代之的是，我们探索使用多个单独的启发式方法来自动将概率标签分配给使用弱监督的未标记培训数据。我们的弱监督模型在传统的监督技术方面具有竞争力，并且需要较少的领域专家参与，这证明了它们用作ML HC应用中监督学习的高效和实用替代方案。

translated by 谷歌翻译

auton-survival: an Open-Source Package for Regression, Counterfactual Estimation, Evaluation and Phenotyping with Censored Time-to-Event Data

Chirag Nagpal , Willa Potosnak , Artur Dubrawski

分类：机器学习 | (统计)机器学习

2022-04-15

机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务，包括不良事件的预测，重新住院或死亡。由于失去随访，此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中，我们提出了Auton-Survival，这是一个开源存储库，用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具，存在域移位，反事实估计，风险分层的表型，评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究，我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。

translated by 谷歌翻译

Counterfactual Phenotyping with Censored Time-to-Events

Chirag Nagpal , Mononito Goswami , Keith Dufendach , Artur Dubrawski

分类：机器学习 | (统计)机器学习

2022-02-22

现实世界中临床干预措施的治疗功效的估计涉及处理诸如死亡时间，重新住院或可能受到检查的复合事件之类的连续结果。在这种情况下，反事实推理需要将混杂的生理特征的影响与正在评估的干预措施的影响中影响基线存活率的影响。在本文中，我们提出了一种潜在变量方法来模拟异质治疗效果，该方法通过提出一个人可以属于具有不同响应特征的潜在簇之一。我们表明，这种潜在结构可以介导基本的生存率，并有助于确定干预的影响。我们证明了我们的方法根据个人对最初进行的多个大型随机临床试验的治疗反应来发现可行的表型的能力，该试验最初是为了评估适当的治疗方法以降低心血管风险。

translated by 谷歌翻译

N-HiTS: Neural Hierarchical Interpolation for Time Series Forecasting

Cristian Challu , Kin G. Olivares , Boris N. Oreshkin , Federico Garza , Max Mergenthaler-Canseco , Artur Dubrawski

分类：机器学习 | 人工智能

2022-01-30

神经预测的最新进展加速了大规模预测系统的性能。然而，长途预测仍然是一项非常艰巨的任务。困扰任务的两个常见挑战是预测的波动及其计算复杂性。我们介绍了N-HITS，该模型通过结合新的分层插值和多率数据采样技术来解决挑战。这些技术使提出的方法能够顺序组装其预测，并在分解输入信号并合成预测的同时强调不同频率和尺度的组件。我们证明，在平稳性的情况下，层次结构插值技术可以有效地近似于任意长的视野。此外，我们从长远的预测文献中进行了广泛的大规模数据集实验，证明了我们方法比最新方法的优势，在该方法中，N-HITS可提供比最新的16％的平均准确性提高。变压器体系结构在减少计算时间的同时（50次）。我们的代码可在https://bit.ly/3jlibp8上找到。

translated by 谷歌翻译

Weak Supervision for Affordable Modeling of Electrocardiogram Data

Mononito Goswami , Benedikt Boecking , Artur Dubrawski

分类：人工智能 | 机器学习

2022-01-09

分析心电图（ECG）是一种廉价而非侵入性，但诊断心脏病的廉价而强大的方式。ECG研究使用机器学习自动检测到到目前为止的异常心跳依赖于大型手动注释的数据集。在收集大量的未标记数据时可以简单地，异常心跳的点点注释是乏味且昂贵的。我们探讨了多种弱监理来源，通过人类设计的启发式学习异常心跳的诊断模型，而无需在各个数据点上使用地面真理标签。我们的作品是第一个直接在时间序列数据上定义薄弱的监督来源。结果表明，随着六个直观的时间序列启发式，我们能够推断出高质量的概率标签估计超过100,000多个心跳，具有很少的人力努力，并使用估计的标签培训对所持测试数据进行评估的竞争分类器。

translated by 谷歌翻译

Discovery of Crime Event Sequences with Constricted Spatio-Temporal Sequential Patterns

Piotr S. Maciąg , Robert Bembenik , Artur Dubrawski

分类：机器学习 | 人工智能

2021-12-03

在本文中，我们介绍了一种新颖的时空连续模式，称为收缩的时空顺序（CSTS）模式，并彻底分析了它们的性质。我们证明了CSTS模式的集合是可以在给定数据集中发现的所有时空连续模式的简明表示。为了测量发现的CSTS模式的重要性，我们适应参与指标措施。我们还提供CSTS-Miner：一种在事件数据中发现所有参与索引强的CST模式的算法。我们通过两种犯罪相关的数据集进行了实验评估了所提出的算法：匹兹堡警察局博客数据集和波士顿犯罪事件报告数据集。在实验中，CSTS-Miner算法与其他四种最先进的算法进行比较：STS-Miner，CSTPM，STBFM和CST-Spminer。随着实验结果表明，所提出的算法发现比其他所选择的算法更少的模式。最后，我们提供了所提出的CSTS-Miner算法发现的有趣犯罪相关模式的例子。

translated by 谷歌翻译

End-to-End Weak Supervision

Salva Rühling Cachay , Benedikt Boecking , Artur Dubrawski

分类：机器学习 | 人工智能 | (统计)机器学习

2021-07-05

通过更换繁琐的手动收集地面真理标签，聚合多个弱监管源（WS）可以缓解多种机器学习应用中的数据标记瓶颈。然而，当前的现有技术不使用任何标记的训练数据的方法需要两个单独的建模步骤：基于WS源的基于WS源的概率潜在变量模型 - 使得在实践中很少 - 之后是下游模型训练。重要的是，建模的第一步不考虑下游模型的性能。为了解决这些警告，我们提出了一种直接学习下游模型的端到端方法，通过将其与先前概率后海报的概率标签最大化来直接学习下游模型。我们的结果表明，在下游测试集的最终模型性能方面，以及改善弱势监督源之间的依赖性的鲁棒性方面，对先前的工作进行了改进的性能。

translated by 谷歌翻译

Leveraging Expert Consistency to Improve Algorithmic Decision Support

Maria De-Arteaga , Vincent Jeanselme , Artur Dubrawski , Alexandra Chouldechova

分类：机器学习

2021-01-24

机器学习（ML）越来越多地用于支持高风险的决策，这是由于其相对于人类评估的优势预测能力的承诺而欠的趋势。但是，决策目标与观察到的作为训练ML模型的标签的结果中捕获的内容之间经常存在差距。结果，机器学习模型可能无法捕获决策标准的重要维度，从而阻碍了他们的决策支持。在这项工作中，我们探讨了历史专家决策作为组织信息系统中通常可用的丰富（但不完美）的信息来源，并表明它可以利用它来弥合决策目标与算法目标之间的差距。当数据中的每个案例都由单个专家评估并提出基于影响函数的方法作为解决此问题的解决方案时，我们会间接考虑估计专家一致性的问题。然后，我们将估计的专家一致性通过培训时间标签合并方法纳入预测模型。这种方法使ML模型可以在有推断的专家一致性和观察标签的情况下向专家学习。我们还提出了通过混合和延期模型来利用推断一致性的替代方法。在我们的经验评估中，专注于儿童虐待热线筛查的背景下，我们表明（1）有一些高风险案例，其风险是专家考虑的，但在目标标签中没有完全捕获用于培训已部署模型和培训的目标标签（2）提出的方法可显着提高这些情况的精度。

translated by 谷歌翻译