不利的童年经历(ACE)定义为在整个儿童期和/或青春期中发生的高度压力和可能创伤的事件或情况的集合。它们已被证明与后来生活中心理健康疾病或其他异常行为的风险增加有关。但是,通过自然语言处理(NLP)从文本数据中识别ACE是具有挑战性的,因为(a)没有NLP准备就绪的本体论; (b)几乎没有用于机器学习的资源,因此需要临床专家的数据注释; (c)域专家和大量文档以支持大型机器学习模型的昂贵注释。在本文中,我们提出了一种本体驱动的自我监督方法(使用基线NLP结果的自动编码器衍生概念嵌入),以产生一种公开可用的资源,该资源将支持大规模的机器学习(例如,培训基于培训变形金刚的大语言,模型)在社交媒体语料库上。该资源以及拟议的方法旨在促进社区培训可转移的NLP模型,以在电子健康记录中的临床注释中在诸如NLP之类的低资源场景中有效地浮出水面。该资源包括ACE本体术语,ACE概念嵌入和NLP注释语料库的列表,请访问https://github.com/knowlab/ace-nlp。
translated by 谷歌翻译
不利的童年经历(ACE)定义为在整个儿童期和/或青春期中发生的高度压力和可能创伤的事件或情况的集合。已显示它们与后来生活中心理健康疾病或其他异常行为的风险增加有关。但是,通过自然语言处理(NLP)从自由文本电子健康记录(EHR)中识别ACE是具有挑战性的,因为(a)没有NLP准备就绪的ACE本体论;(b)有限的机器学习案例,需要从临床专家那里进行数据注释。我们目前正在开发一种工具,该工具将使用NLP技术来帮助我们从临床笔记中浮出水面。这将使我们能够进一步研究确定ACE与随后在大规模和纵向自由文本EHR中的精神疾病(例如成瘾)之间关系之间的关系的证据,以前是不可能的。
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
临床编码是将患者健康记录中的医疗信息转换为结构化代码的任务,以便它们可用于统计分析。这是一项认知且耗时的任务,遵循标准过程,以达到高水平的一致性。自动化系统可以支持临床编码,以提高该过程的效率和准确性。我们介绍了自动临床编码的想法,并从人工智能(AI)和自然语言处理(NLP)(NLP)的角度总结了挑战,该文献是根据文献,我们在过去两年半(2019年末 - 2022年初)的项目经验),以及与苏格兰和英国的临床编码专家的讨论。我们的研究揭示了应用于临床编码的当前基于深度学习的方法与现实世界实践中的解释性和一致性之间的差距。基于知识的方法代表和推理了标准,可以解释的任务过程,可能需要将其纳入基于深度学习的临床编码方法中。尽管面临技术和组织的挑战,但自动化的临床编码是AI的一项有前途的任务。编码人员需要参与开发过程。在未来五年及以后,开发和部署基于AI的自动化系统需要实现很多目标。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
虽然我们注意临床自然语言处理(NLP)的最新进展,但我们可以注意到临床和翻译研究界的一些抵抗,因为透明度,可解释性和可用性有限,采用NLP模型。在这项研究中,我们提出了一种开放的自然语言处理开发框架。我们通过实施NLP算法为国家Covid队列协作(N3C)进行了评估。基于Covid-19相关临床笔记的信息提取的利益,我们的工作包括1)使用Covid-19标志和症状作为用例的开放数据注释过程,2)一个社区驱动的规则集合平台,3)合成文本数据生成工作流程,用于生成信息提取任务的文本而不涉及人为受试者。 Corpora来自来自三个不同机构的文本(Mayo Clinic,肯塔基州大学,明尼苏达大学)。用单个机构(Mayo)规则集进行了金标准注释。这导致了0.876,0.706和0.694的F-Scors分别用于Mayo,Minnesota和肯塔基测试数据集。作为N3C NLP子群体的联盟努力的研究表明,创建联邦NLP算法开发和基准测试平台的可行性,以增强多机构临床NLP研究和采用。虽然我们在这项工作中使用Covid-19作为用例,但我们的框架足以适用于临床NLP的其他兴趣领域。
translated by 谷歌翻译
在锁定时期,由于第三名封闭,越来越多的人对社交媒体平台表达了自己的感受,学术研究人员目睹了心理保健和社交媒体帖子之间的密切联系。短时间内的压力可能会导致临床凹陷,而普遍抑郁症的长期特征可能会以自杀念头作为可能的结果来威胁生命。对自杀案件数量增加的越来越关注是因为它是过早但可预防死亡的主要原因之一。最近的研究表明,采矿社交媒体数据有助于量化有风险的用户的自杀趋势。这种潜在的手稿阐明了心理保健的分类法,并强调了最近的一些尝试,以研究量化社交媒体数据上的自杀趋势的潜力。该手稿介绍了社交媒体数据和处理功能向量表示的异质特征的分类。旨在确定机器学习开发(ML)和基于深度学习(DL)模型的新研究方向和进步,对与压力,抑郁症相关的77多个潜在的研究文章进行了定量合成和定性审查从2013年到2021年的自杀风险。
translated by 谷歌翻译
背景:在信息提取和自然语言处理域中,可访问的数据集对于复制和比较结果至关重要。公开可用的实施和工具可以用作基准,并促进更复杂的应用程序的开发。但是,在临床文本处理的背景下,可访问数据集的数量很少 - 现有工具的数量也很少。主要原因之一是数据的敏感性。对于非英语语言,这个问题更为明显。方法:为了解决这种情况,我们介绍了一个工作台:德国临床文本处理模型的集合。这些模型接受了德国肾脏病报告的识别语料库的培训。结果:提出的模型为内域数据提供了有希望的结果。此外,我们表明我们的模型也可以成功应用于德语的其他生物医学文本。我们的工作台公开可用,因此可以开箱即用,或转移到相关问题上。
translated by 谷歌翻译
近年来,人们对使用电子病历(EMR)进行次要目的特别感兴趣,以增强医疗保健提供的质量和安全性。 EMR倾向于包含大量有价值的临床笔记。学习嵌入是一种将笔记转换为使其可比性的格式的方法。基于变压器的表示模型最近取得了巨大的飞跃。这些模型在大型在线数据集上进行了预训练,以有效地了解自然语言文本。学习嵌入的质量受临床注释如何用作表示模型的输入的影响。临床注释有几个部分具有不同水平的信息价值。医疗保健提供者通常使用不同的表达方式来实现同一概念也很常见。现有方法直接使用临床注释或初始预处理作为表示模型的输入。但是,要学习良好的嵌入,我们确定了最重要的临床笔记部分。然后,我们将提取的概念从选定部分映射到统一医学语言系统(UMLS)中的标准名称。我们使用与唯一概念相对应的标准短语作为临床模型的输入。我们进行了实验,以测量在公共可用的医疗信息集市(MIMIC-III)数据集的子集中,在医院死亡率预测的任务中,学到的嵌入向量的实用性。根据实验,与其他输入格式相比,基于临床变压器的表示模型通过提取的独特概念的标准名称产生的输入产生了更好的结果。表现最好的模型分别是Biobert,PubMedbert和Umlsbert。
translated by 谷歌翻译
In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.
translated by 谷歌翻译
目的:验证自然语言处理(NLP)技术的适用性,透露和量化,通过慢性疼痛(RRCP)数据集的新型Reddit报告,致力于慢性疼痛(RRCP)DataSet的报告,旨在成为未来研究的标准在这个欠发达地区。方法:定义和验证与慢性疼痛有关的一组病理学的RRCP数据集。对于每种病理学,确定慢性疼痛经历的主要品质。比较每种病理学的确定质量并验证临床研究。结果:RRCP数据集包含来自与慢性疼痛相关的12个底板的136,573 reddit提交。宏观分析表明,影响相同或相似的身体部位的病理结果导致语义上的疼痛描述。详细的分析表明,在给定的病理学中,存在慢性疼痛的素质,这些病理学的慢性疼痛是从另一个病理学中经历它,以及一些慢性疼痛的各种经验都是共同的。这些使我们能够比较慢性疼痛的主观经验(例如,对于RRCP人群,体验关节炎与在各种质量或疑虑中经历紧张的脊柱炎,同时经历纤维肌痛而包括相同的品质和其他两个病态的特质)。结论:我们对慢性疼痛描述的无监督语义分析反映了关于不同病理在慢性疼痛体验方面如何显现的临床知识。我们的结果验证了使用NLP技术从慢性疼痛经验的描述中自动提取和量化临床相关信息。
translated by 谷歌翻译
医疗领域通常会受到信息超负荷的约束。医疗保健的数字化,在线医疗存储库的不断更新以及生物医学数据集的可用性增加使得有效分析数据变得具有挑战性。这为严重依赖医疗数据的医疗专业人员创造了其他工作,以完成研究并咨询患者。本文旨在展示不同的文本突出显示技术如何捕获相关的医疗环境。这将通过促进更快的决定,从而改善在线医疗服务的整体质量,从而减少医生对患者的认知负担和反应时间。实施和评估了三个不同的单词级文本突出显示方法。第一个方法使用TF-IDF分数直接突出文本的重要部分。第二种方法是TF-IDF分数的组合以及将局部可解释的模型 - 静态解释应用于分类模型。第三种方法直接使用神经网络来预测是否应突出显示单词。我们的实验结果表明,神经网络方法成功地突出了医学上的术语,并且随着输入段的大小的增加,其性能得到了提高。
translated by 谷歌翻译
由于对高效有效的大数据分析解决方案的需求,医疗保健行业中数据分析的合并已取得了重大进展。知识图(KGS)已在该领域证明了效用,并且植根于许多医疗保健应用程序,以提供更好的数据表示和知识推断。但是,由于缺乏代表性的kg施工分类法,该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外,还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法,知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后,报道和讨论了文献中的一些研究发现和现有问题,为这个充满活力的地区开放了未来研究的视野。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
在线用户的精神障碍使用社交媒体帖子确定。该域名的主要挑战是利用在社交媒体平台上使用用户生成文本的道德许可。学术RE搜索者确定了心理健康分类的不足和未标记数据的问题。要处理此问题,我们已经研究了数据增强技术对域特定用户生成的心理健康分类文本的影响。在现有的良好建立的数据增强技术中,我们已经识别了简单的数据增强(EDA),条件BERT和后退转换(BT)作为生成额外文本以提高分类器性能的潜在技术。此外,采用了三种不同分类器随机林(RF),支持向量机(SVM)和逻辑回归(LR)来分析数据增强对两个公共可用的社交媒体数据集的影响。实验心理结果显示在增强数据上培训时对分类器性能的显着改进。
translated by 谷歌翻译
Electronic Health Records (EHRs) hold detailed longitudinal information about each patient's health status and general clinical history, a large portion of which is stored within the unstructured text. Temporal modelling of this medical history, which considers the sequence of events, can be used to forecast and simulate future events, estimate risk, suggest alternative diagnoses or forecast complications. While most prediction approaches use mainly structured data or a subset of single-domain forecasts and outcomes, we processed the entire free-text portion of EHRs for longitudinal modelling. We present Foresight, a novel GPT3-based pipeline that uses NER+L tools (i.e. MedCAT) to convert document text into structured, coded concepts, followed by providing probabilistic forecasts for future medical events such as disorders, medications, symptoms and interventions. Since large portions of EHR data are in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. On tests in two large UK hospitals (King's College Hospital, South London and Maudsley) and the US MIMIC-III dataset precision@10 of 0.80, 0.81 and 0.91 was achieved for forecasting the next biomedical concept. Foresight was also validated on 34 synthetic patient timelines by 5 clinicians and achieved relevancy of 97% for the top forecasted candidate disorder. Foresight can be easily trained and deployed locally as it only requires free-text data (as a minimum). As a generative model, it can simulate follow-on disorders, medications and interventions for as many steps as required. Foresight is a general-purpose model for biomedical concept modelling that can be used for real-world risk estimation, virtual trials and clinical research to study the progression of diseases, simulate interventions and counterfactuals, and for educational purposes.
translated by 谷歌翻译
Raredis Corpus含有超过5,000个罕见疾病,近6,000个临床表现都是注释。此外,跨候注释协议评估表明,相对高的协议(F1措施等于实体的完全匹配标准,与关系的81.3%等于83.5%)。基于这些结果,该毒品具有高质量,假设该领域的重要步骤由于稀缺具有稀有疾病的可用语料库。这可以将门打开到进一步的NLP应用,这将促进这些罕见疾病的诊断和治疗,因此将大大提高这些患者的生活质量。
translated by 谷歌翻译
Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.
translated by 谷歌翻译