Covid-19幸存者中很大一部分经历了经常影响日常生活的持续多系统症状,这种疾病被称为SARS-COV-2感染的长期或急性后静脉曲张。但是,识别长期的卷文章是具有挑战性的,因为文章是指使用各种较少常见的术语或根本不使用命名的条件。我们开发了一个迭代的人类机器学习框架,旨在有效利用可用的数据并最有效地利用人类标签。具体而言,我们的方法将数据编程与主动学习结合到了强大的集合模型中。在保留集上评估我们的模型表明了其他方法的灵敏度的三倍。我们将模型应用于PubMed来创建长期的共同集合,并证明(1)最长的卷vid文章在命名该条件时并不是用任何名称(2)来指代长的covid,在生物医学文献中最常使用的名称是长的,并且(3)长互联物与各种身体系统中的疾病有关。长期COVID系列每周更新,可在Litcovid门户网站上进行在线搜索:https://www.ncbi.nlm.nih.gov/research/coronavirus/docsum/docsum?filters=e_condition.longcondition.longcovid.longcovid
translated by 谷歌翻译
Raredis Corpus含有超过5,000个罕见疾病,近6,000个临床表现都是注释。此外,跨候注释协议评估表明,相对高的协议(F1措施等于实体的完全匹配标准,与关系的81.3%等于83.5%)。基于这些结果,该毒品具有高质量,假设该领域的重要步骤由于稀缺具有稀有疾病的可用语料库。这可以将门打开到进一步的NLP应用,这将促进这些罕见疾病的诊断和治疗,因此将大大提高这些患者的生活质量。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译
医疗保健提供者通常会记录给每位患者提供临床,研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质,提供者使用专门的员工使用国际疾病(ICD)编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时,而且昂贵且容易出错。先前的工作证明了机器学习(ML)方法在自动化此过程中的潜在效用,但它依靠大量手动标记数据来训练模型。此外,诊断编码系统随着时间的流逝而演变,这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中,我们引入了一个普遍的弱监督文本分类框架,该框架仅从类标签描述中学习,而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较,除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外,我们证明了我们的方法的功效和灵活性。
translated by 谷歌翻译
构建用于仇恨语音检测的基准数据集具有各种挑战。首先,因为仇恨的言论相对少见,随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题,先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而,将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意,而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索(IR)中的相关性。此连接表明,可以有效地应用创建IR测试集合的良好方法,以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文,我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值,我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集,其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时,我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明,而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。
translated by 谷歌翻译
自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释,这是过去十年来大多数心理健康语言计算研究背后的结论。但是,精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康,无论是由于治疗还是其他缓解因素。我们问:随着时间的推移,心理健康诊断的自我诊断的自我限制在多大程度上?我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动,反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据,证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议,用于改善使用自lif诊诊断策划的心理健康数据集:1)注释诊断日期和精神病合并症; 2)使用倾向得分匹配的样本对照组; 3)识别和删除选择偏差引入的虚假相关性。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
作为在线话语的一部分,科学主题,主张和资源越来越多地辩论,其中的重要例子包括与19岁或气候变化有关的话语。这既导致了重大的社会影响,又增加了对来自各个学科的科学在线话语的兴趣。例如,沟通研究旨在更深入地了解科学信息的偏见,质量或传播模式,而计算方法已提出使用NLP和IR技术提取,分类或验证科学主张。但是,目前跨学科的研究既缺乏对科学相关性的各种形式的强大定义,也缺乏适当的基础真理数据来区分它们。在这项工作中,我们为(a)贡献了一个注释框架和针对推文中在线话语不同形式的科学相关性的相应定义,(b)通过我们的标签框架获得的1261个推文的专家注释的数据集,达到了平均的fleiss kappa $ \ \ \\ Kappa $为0.63,(c)对我们的数据进行培训的多标签分类器,能够以89%的F1检测与科学相关性,并且还能够检测出不同形式的科学知识(主张,参考文献)。通过这项工作,我们旨在为开发和评估可靠的方法以分析科学作为大规模在线话语的一部分而奠定基础。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
We present a human-in-the-loop evaluation framework for fact-checking novel misinformation claims and identifying social media messages that violate relevant policies. Our approach extracts structured representations of check-worthy claims, which are aggregated and ranked for review. Stance classifiers are then used to identify tweets supporting novel misinformation claims, which are further reviewed to determine whether they violate relevant policies. To demonstrate the feasibility of our approach, we develop a baseline system based on modern NLP methods for human-in-the-loop fact-checking in the domain of COVID-19 treatments. Using our baseline system, we show that human fact-checkers can identify 124 tweets per hour that violate Twitter's policies on COVID-19 misinformation. We will make our code, data, and detailed annotation guidelines available to support the evaluation of human-in-the-loop systems that identify novel misinformation directly from raw user-generated content.
translated by 谷歌翻译
在临床研究和临床决策中,重要的是要知道学习是否发生或仅支持目前的特定疾病管理的护理标准。我们将这种变化定义为变换性和作为增量研究的支持。它通常需要大量的人类专业知识和时间来完成这些任务。教师意见为我们提供了一个关于研究挑战或仅确认建立研究的良好注释的语料库。在本研究中,提出了一种机器学习方法,以区分从增量临床证据的变化。摘要和2年窗口的文本被收集了培训临床研究的培训,由教师观察专家标记。我们通过随机林为分类器,达到0.755(0.705-0.875)的平均AUC的最佳性能,并引用句子作为该功能。结果表明,与抽象句不同,转型研究具有引用句子的典型语言模式。我们提供了一个有效的工具,用于识别这些临床证据挑战或仅确认临床医生和研究人员的索赔。
translated by 谷歌翻译
背景:机器学习(ML)可以实现有效的自动测试生成。目的:我们表征了新兴研究,检查测试实践,研究人员目标,应用的ML技术,评估和挑战。方法:我们对97个出版物的样本进行系统文献综述。结果:ML生成系统,GUI,单位,性能和组合测试的输入或改善现有生成方法的性能。 ML还用于生成测试判决,基于属性的和预期的输出序列。经常基于神经网络和强化学习的监督学习通常是基于Q学习的 - 很普遍,并且某些出版物还采用了无监督或半监督的学习。使用传统的测试指标和与ML相关的指标(例如准确性)评估(半/非 - )监督方法,而经常使用与奖励功能相关的测试指标来评估强化学习。结论:工作到尽头表现出巨大的希望,但是在培训数据,再探术,可伸缩性,评估复杂性,所采用的ML算法以及如何应用 - 基准和可复制性方面存在公开挑战。我们的发现可以作为该领域研究人员的路线图和灵感。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
关于社交媒体的虚假医疗信息对人们的健康构成伤害。尽管近年来已经认识到对生物医学事实检查的需求,但用户生成的医疗内容受到了相当少的关注。同时,其他文本类型的模型可能不可重复使用,因为他们接受过培训的说法大不相同。例如,Scifact数据集中的主张是简短而专注的:“与抗抑郁药相关的副作用会增加中风的风险”。相比之下,社交媒体持有自然存在的主张,经常嵌入其他背景下:``如果您服用像SSRI这样的抗抑郁药,您可能会有一种称为5-羟色胺综合征'5-羟色胺'5-羟色胺'的风险。2010年几乎杀死了我。和癫痫发作。”这展示了现实世界中医学主张与现有事实检查系统所期望的输入之间的不匹配。为了使用户生成的内容可通过现有模型来检查,我们建议以这样的方式对社交媒体的输入进行重新重新制定,以使所产生的索赔模仿已建立的数据集中的索赔特征。为此,我们的方法借助关系实体信息将主张凝结,并将索赔从实体关联 - 实体三重汇编中汇编,或者提取包含这些元素的最短短语。我们表明,重新计算的输入改善了各种事实检查模型的性能,而不是整体检查推文文本。
translated by 谷歌翻译
现在,越来越多的人依靠在线平台来满足其健康信息需求。因此,确定不一致或矛盾的文本健康信息已成为一项关键的任务。健康建议数据提出了一个独特的挑战,在一个诊断的背景下,在另一个诊断的背景下是准确的信息。例如,患有糖尿病和高血压的人通常会在饮食方面得到矛盾的健康建议。这激发了对可以提供上下文化的,特定于用户的健康建议的技术的需求。朝着情境化建议迈出的关键一步是能够比较健康建议陈述并检测它们是否以及如何冲突的能力。这是健康冲突检测(HCD)的任务。鉴于两个健康建议,HCD的目标是检测和分类冲突的类型。这是一项具有挑战性的任务,因为(i)自动识别和分类冲突需要更深入地了解文本的语义,并且(ii)可用数据的数量非常有限。在这项研究中,我们是第一个在预先训练的语言模型的背景下探索HCD的人。我们发现,Deberta-V3在所有实验中的平均F1得分为0.68。我们还研究了不同冲突类型所带来的挑战,以及合成数据如何改善模型对冲突特定语义的理解。最后,我们强调了收集实际健康冲突的困难,并提出了一种人类的合成数据增强方法来扩展现有的HCD数据集。我们的HCD培训数据集比现有的HCD数据集大2倍以上,并在GitHub上公开可用。
translated by 谷歌翻译
Large, labeled datasets have driven deep learning methods to achieve expert-level performance on a variety of medical imaging tasks. We present CheXpert, a large dataset that contains 224,316 chest radiographs of 65,240 patients. We design a labeler to automatically detect the presence of 14 observations in radiology reports, capturing uncertainties inherent in radiograph interpretation. We investigate different approaches to using the uncertainty labels for training convolutional neural networks that output the probability of these observations given the available frontal and lateral radiographs. On a validation set of 200 chest radiographic studies which were manually annotated by 3 board-certified radiologists, we find that different uncertainty approaches are useful for different pathologies. We then evaluate our best model on a test set composed of 500 chest radiographic studies annotated by a consensus of 5 board-certified radiologists, and compare the performance of our model to that of 3 additional radiologists in the detection of 5 selected pathologies. On Cardiomegaly, Edema, and Pleural Effusion, the model ROC and PR curves lie above all 3 radiologist operating points. We release the dataset to the public as a standard benchmark to evaluate performance of chest radiograph interpretation models. 1
translated by 谷歌翻译
大数据具有巨大的量,高速度,多样性,价值符合性和不确定性的特征,这些特征带领知识从他们那里学习充满了挑战。随着众包的出现,可以按需获得多功能信息,以便易于参与人群的智慧,以促进知识学习过程。在过去的十三年中,AI社区的研究人员竭尽全力消除人群学习领域的障碍。这份集中的调查论文全面回顾了从系统的角度来研究众包学习的技术进步,其中包括数据,模型和学习过程的三个维度。除了审查现有的重要工作外,本文还特别强调在每个维度上提供一些有希望的蓝图,并讨论从我们过去的研究工作中学到的经验教训,这将为新的研究人员提供道路,并鼓励他们追求新的研究。贡献。
translated by 谷歌翻译
尽管人工智能(AI)有望支持医疗保健提供者并提高医疗诊断的准确性,但数据集组成的缺乏透明度会使AI模型暴露于无意识和可避免的错误的可能性。特别是,皮肤病学条件的公共图像数据集很少包含有关肤色的信息。作为提高透明度的开始,AI研究人员已经从患者光敏性的度量到估算计算机视觉应用算法审核的肤色估算肤色(包括面部识别和皮肤病学诊断)的肤色估算肤色的度量来使用Fitzpatrick皮肤类型(FST)。为了了解图像上估计的FST注释的可变性,我们比较了来自教科书和在线皮肤病学试图的460张皮肤条件图像的多种FST注释方法。我们发现,三位经过董事会认证的皮肤科医生之间的评估者间可靠性与经过董事会认证的皮肤科医生和两种众包方法之间的评估者间可靠性相媲美。相比之下,我们发现转换为FST(ITA-FST)方法的单个类型学角度与专家注释相比,与专家的注释相关的注释相关的注释明显少于彼此相关。这些结果表明,基于ITA-FST的算法对于注释大规模图像数据集并不可靠,但是以人为本的,基于人群的协议可以可靠地将皮肤类型透明度添加到皮肤病学数据集中。此外,我们介绍了具有可调参数的动态共识协议的概念,包括专家审查,以提高人群的可见性并为未来的大型图像数据集的众包注释提供指导。
translated by 谷歌翻译