慢性疼痛被认为是一个重大的健康问题,不仅受到经济,而且在社会和个人层面的影响。作为私人和主观的经验,它不可能从外部和公正地体验,描述和解释慢性疼痛,作为纯粹的有害刺激,直接指向因果症,并促进其缓解,与急性疼痛相反,对其进行评估通常是直截了当的。因此,口头沟通是将相关信息传达给卫生专业人员的关键,否则外部实体无法访问,即关于痛苦经验和患者的内在质量。我们提出并讨论了一个主题建模方法,以识别慢性疼痛的口头描述中的模式,并使用这些模式量化和限定疼痛的经验。我们的方法允许提取关于所获得的主题模型和潜在空间的慢性疼痛经验的新洞察。我们认为我们的结果在临床上与慢性疼痛的评估和管理有关。
translated by 谷歌翻译
目的:验证自然语言处理(NLP)技术的适用性,透露和量化,通过慢性疼痛(RRCP)数据集的新型Reddit报告,致力于慢性疼痛(RRCP)DataSet的报告,旨在成为未来研究的标准在这个欠发达地区。方法:定义和验证与慢性疼痛有关的一组病理学的RRCP数据集。对于每种病理学,确定慢性疼痛经历的主要品质。比较每种病理学的确定质量并验证临床研究。结果:RRCP数据集包含来自与慢性疼痛相关的12个底板的136,573 reddit提交。宏观分析表明,影响相同或相似的身体部位的病理结果导致语义上的疼痛描述。详细的分析表明,在给定的病理学中,存在慢性疼痛的素质,这些病理学的慢性疼痛是从另一个病理学中经历它,以及一些慢性疼痛的各种经验都是共同的。这些使我们能够比较慢性疼痛的主观经验(例如,对于RRCP人群,体验关节炎与在各种质量或疑虑中经历紧张的脊柱炎,同时经历纤维肌痛而包括相同的品质和其他两个病态的特质)。结论:我们对慢性疼痛描述的无监督语义分析反映了关于不同病理在慢性疼痛体验方面如何显现的临床知识。我们的结果验证了使用NLP技术从慢性疼痛经验的描述中自动提取和量化临床相关信息。
translated by 谷歌翻译
Most research studying social determinants of health (SDoH) has focused on physician notes or structured elements of the electronic medical record (EMR). We hypothesize that clinical notes from social workers, whose role is to ameliorate social and economic factors, might provide a richer source of data on SDoH. We sought to perform topic modeling to identify robust topics of discussion within a large cohort of social work notes. We retrieved a diverse, deidentified corpus of 0.95 million clinical social work notes from 181,644 patients at the University of California, San Francisco. We used word frequency analysis and Latent Dirichlet Allocation (LDA) topic modeling analysis to characterize this corpus and identify potential topics of discussion. Word frequency analysis identified both medical and non-medical terms associated with specific ICD10 chapters. The LDA topic modeling analysis extracted 11 topics related to social determinants of health risk factors including financial status, abuse history, social support, risk of death, and mental health. In addition, the topic modeling approach captured the variation between different types of social work notes and across patients with different types of diseases or conditions. We demonstrated that social work notes contain rich, unique, and otherwise unobtainable information on an individual's SDoH.
translated by 谷歌翻译
Chronic pain is a multi-dimensional experience, and pain intensity plays an important part, impacting the patients emotional balance, psychology, and behaviour. Standard self-reporting tools, such as the Visual Analogue Scale for pain, fail to capture this burden. Moreover, this type of tools is susceptible to a degree of subjectivity, dependent on the patients clear understanding of how to use it, social biases, and their ability to translate a complex experience to a scale. To overcome these and other self-reporting challenges, pain intensity estimation has been previously studied based on facial expressions, electroencephalograms, brain imaging, and autonomic features. However, to the best of our knowledge, it has never been attempted to base this estimation on the patient narratives of the personal experience of chronic pain, which is what we propose in this work. Indeed, in the clinical assessment and management of chronic pain, verbal communication is essential to convey information to physicians that would otherwise not be easily accessible through standard reporting tools, since language, sociocultural, and psychosocial variables are intertwined. We show that language features from patient narratives indeed convey information relevant for pain intensity estimation, and that our computational models can take advantage of that. Specifically, our results show that patients with mild pain focus more on the use of verbs, whilst moderate and severe pain patients focus on adverbs, and nouns and adjectives, respectively, and that these differences allow for the distinction between these three pain classes.
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译
在矿业行业中,在项目管理过程中产生了许多报告。这些过去的文件是未来成功的知识资源。但是,如果文件未经组织和非结构化,则可以是一个繁琐而挑战的任务是检索必要的信息。文档聚类是一种强大的方法来应对问题,并且在过去的研究中介绍了许多方法。尽管如此,没有银弹可以对任何类型的文件表现最佳。因此,需要探索性研究来应用新数据集的聚类方法。在本研究中,我们将研究多个主题建模(TM)方法。目标是使用昆士兰,资源部,昆士兰州政府部的地质调查的数据集找到采矿项目报告的适当方法,并了解内容,以了解如何组织它们。三种TM方法,潜在的Dirichlet分配(LDA),非负矩阵分解(NMF)和非负张量分解(NTF)在统计和定性地比较。评估后,我们得出结论,LDA对数据集执行最佳;然而,可以通过一些改进来采用其他方法的可能性仍然存在。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
在过去几年中,学术数据的数量一直在急剧增加。对于特定科学领域的新人(例如,IR,物理学,NLP)往往难以解决更大的趋势,并在先前科学成就和突破的背景下定位最新研究。同样,科学史上的研究人员对允许他们分析和可视化特定科学域中的变化的工具感兴趣。时间摘要和相关方法应该是有用的,以使大量的科学话语数据随时间汇总。我们展示了一种新颖的分析研究论文收集的方法,在较长的时间内发布,以提供在时间进展情况上发生的重要语义变革的高级概述。我们的方法是基于比较单词语义表示随着​​时间的推移,并旨在支持用户更好地理解学术出版物的大型域名档案。作为一个示例数据集,我们使用从1979年到2015年的ACL原点参考语料库,并包含22,878篇学术文章。
translated by 谷歌翻译
播客已经出现在大量消耗的在线内容中,特别是由于生产手段的可访问性和通过大型流平台进行缩放分布。分类系统和信息访问技术通常使用主题作为组织或导航播客集合的主要方式。然而,用主题注释播客仍然是非常有问题的,因为分配的编辑类型是广泛的,异构或误导性的,或者因为数据挑战(例如,MetaData文本短,嘈杂的成绩单)。在这里,我们使用主题建模技术来评估从播客元数据,标题和描述中发现相关主题的可行性。我们还提出了一种新的策略来利用命名实体(NES),通常存在于播客元数据中,以非负矩阵分解(NMF)主题建模框架。我们在Spotify和iTunes和Deezer中的两个现有数据集的实验,该数据来自提供播客目录的新数据集,显示我们所提出的文档表示Neice,导致基于基线的主题连贯性。我们释放了结果的实验​​性再现性的代码。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
众所周知,歌曲和诗歌的翻译不仅破坏节奏和押韵模式,而且导致语义信息丢失。 Bhagavad Gita是一个古老的印度教哲学文本,最初是梵语,在Mahabharata战争之前,克里希纳和阿尔纳之间的谈话具有谈话。 Bhagavad Gita也是印度教的关键神圣文本之一,被称为印度教的吠陀语料库的最前沿。在过去的两个世纪里,西方学者对印度教哲学有很多兴趣,因此Bhagavad Gita已经翻译了多种语言。但是,没有多少工作验证了英语翻译的质量。最近由深度学习提供的语言模型的进展,不仅能够翻译,而是更好地了解语言和语义和情感分析。我们的作品受到深入学习方法供电的语言模型的最新进展。在本文中,我们使用语义和情绪分析比较Bhagavad Gita的选定翻译(主要来自梵语到英语)。我们使用手工标记的情绪数据集进行调整,用于调整已知为\ Textit的最先进的基于深度学习的语言模型{来自变压器的双向编码器表示}(BERT)。我们使用小说嵌入模型来为跨翻译的选定章节和经文提供语义分析。最后,我们使用上述模型进行情绪和语义分析,并提供结果可视化。我们的结果表明,虽然各自的Bhagavad Gita翻译中的风格和词汇量广泛变化,但情绪分析和语义相似性表明,传达的消息在整个翻译中大多相似。
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
背景:在信息提取和自然语言处理域中,可访问的数据集对于复制和比较结果至关重要。公开可用的实施和工具可以用作基准,并促进更复杂的应用程序的开发。但是,在临床文本处理的背景下,可访问数据集的数量很少 - 现有工具的数量也很少。主要原因之一是数据的敏感性。对于非英语语言,这个问题更为明显。方法:为了解决这种情况,我们介绍了一个工作台:德国临床文本处理模型的集合。这些模型接受了德国肾脏病报告的识别语料库的培训。结果:提出的模型为内域数据提供了有希望的结果。此外,我们表明我们的模型也可以成功应用于德语的其他生物医学文本。我们的工作台公开可用,因此可以开箱即用,或转移到相关问题上。
translated by 谷歌翻译
In this work, we compare different neural topic modeling methods in learning the topical propensities of different psychiatric conditions from the psychotherapy session transcripts parsed from speech recordings. We also incorporate temporal modeling to put this additional interpretability to action by parsing out topic similarities as a time series in a turn-level resolution. We believe this topic modeling framework can offer interpretable insights for the therapist to optimally decide his or her strategy and improve psychotherapy effectiveness.
translated by 谷歌翻译
本研究审查了使用自然语言处理(NLP)模型来评估物品编写者在医疗许可考试中使用的语言模式是否可能包含偏见或陈规定型语言的证据。项目语言选择中的这种类型的偏差对于医疗许可评估中的物品可能对物品特别有影响,因为它可能对内容有效性构成威胁和测试分数有效性证据的可靠性。据我们所知,这是使用机器学习(ML)和NLP的第一次尝试探索大型物品银行的语言偏见。使用培训的预测算法在类似物品茎的集群上,我们证明我们的方法可用于审查大型物品银行,用于临床科学患者中的潜在偏见语言或陈规定型患者特征。该发现可以指导开发用于解决测试项目中发现的陈规定型语言模式的方法,并在需要时能够有效地更新这些项目,以反映当代规范,从而提高了支持测试评分的有效性的证据。
translated by 谷歌翻译
潜在的Dirichlet分配(LDA)如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式,其成分文件共享单个主题分布。然而,对于类似的小型公司而言,这种假设是强大的,这些数据在基本上类似的文件,即又是最常见的或易于获得的。在本文中,我们通过提出配对的文档来具有分开的,但绑定的主题分布来放松此假设。 %与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性,我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制:LDA的双语适应,该LDA假定单词袋输入和模型,该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现,我们对五种双语,英语文件的同类实验进行了内在和外在的实验,用法语,德语,意大利语,西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率,以及通过困惑测量的泛化性能,并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。
translated by 谷歌翻译