智能论文笔记

Neural Topic Modeling of Psychotherapy Sessions

Baihan Lin , Djallel Bouneffouf , Guillermo Cecchi , Ravi Tejwani

分类：自然语言处理 | 人工智能 | 机器学习

2022-04-13

In this work, we compare different neural topic modeling methods in learning the topical propensities of different psychiatric conditions from the psychotherapy session transcripts parsed from speech recordings. We also incorporate temporal modeling to put this additional interpretability to action by parsing out topic similarities as a time series in a turn-level resolution. We believe this topic modeling framework can offer interpretable insights for the therapist to optimally decide his or her strategy and improve psychotherapy effectiveness.

translated by 谷歌翻译

SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy Treatment Strategies with Deep Reinforcement Learning

Baihan Lin

分类：自然语言处理 | 人工智能 | 机器学习

2022-08-27

我们提出了一个建议系统，该系统在心理治疗课程中实时向治疗师建议治疗策略。我们的系统使用转交级评级机制，该机制通过计算评分清单的深层嵌入与患者所说的当前句子之间的相似性得分来预测治疗结果。该系统会自动转录连续的音频流，并使用无在线注册的诊断方法将其分为患者和治疗师的转弯。然后，对话对及其计算评级将被馈入深入的强化学习建议，其中会话被视为用户，主题被视为项目。除了评估现有数据集上核心组件的经验优势之外，我们还证明了该系统在Web应用程序中的有效性。

translated by 谷歌翻译

HTML版本

Topic Modeling on Clinical Social Work Notes for Exploring Social Determinants of Health Factors

Shenghuan Sun , Travis Zack , Madhumita Sushil , Atul J. Butte

分类：自然语言处理

2022-12-02

Most research studying social determinants of health (SDoH) has focused on physician notes or structured elements of the electronic medical record (EMR). We hypothesize that clinical notes from social workers, whose role is to ameliorate social and economic factors, might provide a richer source of data on SDoH. We sought to perform topic modeling to identify robust topics of discussion within a large cohort of social work notes. We retrieved a diverse, deidentified corpus of 0.95 million clinical social work notes from 181,644 patients at the University of California, San Francisco. We used word frequency analysis and Latent Dirichlet Allocation (LDA) topic modeling analysis to characterize this corpus and identify potential topics of discussion. Word frequency analysis identified both medical and non-medical terms associated with specific ICD10 chapters. The LDA topic modeling analysis extracted 11 topics related to social determinants of health risk factors including financial status, abuse history, social support, risk of death, and mental health. In addition, the topic modeling approach captured the variation between different types of social work notes and across patients with different types of diseases or conditions. We demonstrated that social work notes contain rich, unique, and otherwise unobtainable information on an individual's SDoH.

translated by 谷歌翻译

Chronic Pain and Language: A Topic Modelling Approach to Personal Pain Descriptions

Diogo A. P. Nunes , David Martins de Matos , Joana Ferreira Gomes , Fani Neto

分类：自然语言处理

2021-09-01

慢性疼痛被认为是一个重大的健康问题，不仅受到经济，而且在社会和个人层面的影响。作为私人和主观的经验，它不可能从外部和公正地体验，描述和解释慢性疼痛，作为纯粹的有害刺激，直接指向因果症，并促进其缓解，与急性疼痛相反，对其进行评估通常是直截了当的。因此，口头沟通是将相关信息传达给卫生专业人员的关键，否则外部实体无法访问，即关于痛苦经验和患者的内在质量。我们提出并讨论了一个主题建模方法，以识别慢性疼痛的口头描述中的模式，并使用这些模式量化和限定疼痛的经验。我们的方法允许提取关于所获得的主题模型和潜在空间的慢性疼痛经验的新洞察。我们认为我们的结果在临床上与慢性疼痛的评估和管理有关。

translated by 谷歌翻译

Towards Better Understanding with Uniformity and Explicit Regularization of Embeddings in Embedding-based Neural Topic Models

Wei Shao , Lei Huang , Shuqi Liu , Shihua Ma , Linqi Song

分类：自然语言处理

2022-06-16

基于嵌入的神经主题模型可以通过将它们嵌入均匀的特征空间来明确表示单词和主题，从而显示出更高的解释性。但是，嵌入训练没有明确的限制，从而导致更大的优化空间。此外，仍然缺乏对嵌入的变化以及对模型性能的影响的清晰描述。在本文中，我们提出了一个嵌入式化的神经主题模型，该模型应用于单词嵌入和主题嵌入的特殊设计的训练约束，以减少参数的优化空间。为了揭示嵌入的变化和角色，我们将\ textbf {均匀性}引入基于嵌入的神经主题模型中，作为嵌入空间的评估度量。在此基础上，我们描述了嵌入在训练过程中如何通过嵌入均匀性的变化而变化。此外，我们通过消融研究证明了基于嵌入的神经主题模型中嵌入的变化的影响。在两个主流数据集上实验的结果表明，我们的模型在主题质量和文档建模之间的和谐方面显着优于基线模型。这项工作是利用统一性来探索基于嵌入的神经主题模型嵌入的变化及其对模型性能的影响，从而获得了我们的最佳知识。

translated by 谷歌翻译

Knowledge Management System with NLP-Assisted Annotations: A Brief Survey and Outlook

Baihan Lin

分类：人工智能 | 自然语言处理 | 机器学习

2022-06-15

知识管理系统对工业研究人员，化学或研究企业或循证决策的需求很高。但是，现有系统在分类和组织纸质见解或关系方面存在局限性。传统数据库通常与记录系统不相交，这限制了其在简明的概述中的实用性。在这项工作中，我们简要调查了该问题空间的现有方法，并提出了一个统一的框架，该框架利用关系数据库记录层次结构信息以促进研究和写作过程，或从连接概念中从参考文献或见解中产生有用的知识。知识管理系统的这种框架使新功能涵盖了改进的层次结构记录，AI辅助头脑风暴和多向关系。潜在的应用包括管理库存和制造或研究企业的变更，或通过基于证据的决策生成分析报告。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

ALBU: An approximate Loopy Belief message passing algorithm for LDA to improve performance on small data sets

Rebecca M. C. Taylor , Johan A. du Preez

分类：机器学习 | 自然语言处理 | (统计)机器学习

2021-10-01

应用于潜在的Dirichlet分配（LDA）的变异贝叶斯（VB）已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功，但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配（LDA）的新型变分信息，并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下，我们使用采样的想法来得出近似更新方程。如果存在共轭，则使用Loopy信念更新（LBU）（也称为Lauritzen-Spiegelhalter）。我们的算法Albu（近似LBU）与变异消息传递（VMP）具有很强的相似性（这是VB的消息传递变体）。为了比较在有限数据的存在下算法的性能，我们使用由推文和新闻组组成的数据集。此外，为了执行更多细性的评估和比较，我们使用模拟通过Kullback-Leibler Divergence（KLD）进行比较，以进行比较。使用文本语料库和KLD的相干度量与我们显示的模拟相比，Albu比VB更准确地学习潜在分布，尤其是对于较小的数据集。

translated by 谷歌翻译

Analyzing Scientific Publications using Domain-Specific Word Embedding and Topic Modelling

Trisha Singhal , Junhua Liu , Lucienne T. M. Blessing , Kwan Hui Lim

分类：自然语言处理 | 人工智能

2021-12-24

科学世界正在快速改变，新技术正在开发，新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架，这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术，例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入，即PUB-G和PUB-W，其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后，主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集，由两条会议组成，并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明，与其他基线嵌入式的基于主题连贯性，我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。

translated by 谷歌翻译

Counseling Summarization using Mental Health Knowledge Guided Utterance Filtering

Aseem Srivastava , Tharun Suresh , Sarah Peregrine , Lord , Md. Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2022-06-08

心理治疗干预技术是治疗师和患者之间的多方面对话。与一般的临床讨论不同，心理治疗的核心成分（即症状）很难区分，因此成为以后要总结的复杂问题。结构化的咨询对话可能包含有关症状，心理健康问题病史或发现患者行为的讨论。它还可能包含与临床摘要无关的讨论填充单词。我们将结构化心理治疗的这些要素称为咨询组成部分。在本文中，目的是心理健康咨询的摘要，以基于领域知识并帮助临床医生快速收集意义。在注释咨询组件的12.9k话语和每次对话的参考摘要之后，我们创建了一个新的数据集。此外，我们建议消费是一种新颖的咨询组件指导摘要模型。消费经历三个独立模块。首先，为了评估抑郁症状的存在，它使用患者健康问卷（PHQ-9）过滤了话语，而第二和第三模块旨在对咨询组件进行分类。最后，我们提出了针对特定问题的心理健康信息捕获（MHIC）评估指标，用于咨询摘要。我们的比较研究表明，我们改善了性能并产生凝聚力，语义和连贯的摘要。我们全面分析了生成的摘要，以研究心理治疗元素的捕获。摘要的人类和临床评估表明，消费会产生质量摘要。此外，心理健康专家验证了消费的临床可接受性。最后，我们讨论了现实世界中心理健康咨询摘要的独特性，并在Mathic.ai的支持下显示了其在线应用程序上的部署的证据

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Author Clustering and Topic Estimation for Short Texts

Graham Tierney , Christopher Bail , Alexander Volfovsky

分类：机器学习 | (统计)机器学习

2021-06-15

分析短文（例如社交媒体帖子）由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外，一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型，该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户，消除了对事后集群估计的需求，并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能（或更好），我们在美国参议员的推文数据集中证明了它的有用性，恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产，从而在这些政治家中开发了一种新的回声室衡量标准。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

On the evolution of research in hypersonics: application of natural language processing and machine learning

Ashkan Ebadi , Alain Auger , Yvan Gauthier

分类：人工智能

2022-08-17

近年来，超级人性药物的研究与发展取得了显着发展，各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员，旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言，能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据，提取隐藏的模式并为决策者提供新的见解。在这项研究中，我们专注于2000 - 2020年期间有关高人物的科学出版物，并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析，以及研究主题是算法提取的事实，可以从练习中删除主观性，并可以在主题和时间间隔之间进行一致的比较。

translated by 谷歌翻译

Bilingual Topic Models for Comparable Corpora

Georgios Balikas , Massih-Reza Amini , Marianne Clausel

分类：自然语言处理

2021-11-30

潜在的Dirichlet分配（LDA）如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式，其成分文件共享单个主题分布。然而，对于类似的小型公司而言，这种假设是强大的，这些数据在基本上类似的文件，即又是最常见的或易于获得的。在本文中，我们通过提出配对的文档来具有分开的，但绑定的主题分布来放松此假设。％与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性，我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制：LDA的双语适应，该LDA假定单词袋输入和模型，该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现，我们对五种双语，英语文件的同类实验进行了内在和外在的实验，用法语，德语，意大利语，西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率，以及通过困惑测量的泛化性能，并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。

translated by 谷歌翻译

Analysis of Chronic Pain Experiences Based on Online Reports: the RRCP Dataset for quality-of-life assessment

Diogo A. P. Nunes , David Martins de Matos , Fani Neto , Joana Ferreira Gomes

分类：自然语言处理

2021-08-23

目的：验证自然语言处理（NLP）技术的适用性，透露和量化，通过慢性疼痛（RRCP）数据集的新型Reddit报告，致力于慢性疼痛（RRCP）DataSet的报告，旨在成为未来研究的标准在这个欠发达地区。方法：定义和验证与慢性疼痛有关的一组病理学的RRCP数据集。对于每种病理学，确定慢性疼痛经历的主要品质。比较每种病理学的确定质量并验证临床研究。结果：RRCP数据集包含来自与慢性疼痛相关的12个底板的136,573 reddit提交。宏观分析表明，影响相同或相似的身体部位的病理结果导致语义上的疼痛描述。详细的分析表明，在给定的病理学中，存在慢性疼痛的素质，这些病理学的慢性疼痛是从另一个病理学中经历它，以及一些慢性疼痛的各种经验都是共同的。这些使我们能够比较慢性疼痛的主观经验（例如，对于RRCP人群，体验关节炎与在各种质量或疑虑中经历紧张的脊柱炎，同时经历纤维肌痛而包括相同的品质和其他两个病态的特质）。结论：我们对慢性疼痛描述的无监督语义分析反映了关于不同病理在慢性疼痛体验方面如何显现的临床知识。我们的结果验证了使用NLP技术从慢性疼痛经验的描述中自动提取和量化临床相关信息。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

Topic Modeling on Podcast Short-Text Metadata

Francisco B. Valero , Marion Baranes , Elena V. Epure

分类：自然语言处理

2022-01-12

播客已经出现在大量消耗的在线内容中，特别是由于生产手段的可访问性和通过大型流平台进行缩放分布。分类系统和信息访问技术通常使用主题作为组织或导航播客集合的主要方式。然而，用主题注释播客仍然是非常有问题的，因为分配的编辑类型是广泛的，异构或误导性的，或者因为数据挑战（例如，MetaData文本短，嘈杂的成绩单）。在这里，我们使用主题建模技术来评估从播客元数据，标题和描述中发现相关主题的可行性。我们还提出了一种新的策略来利用命名实体（NES），通常存在于播客元数据中，以非负矩阵分解（NMF）主题建模框架。我们在Spotify和iTunes和Deezer中的两个现有数据集的实验，该数据来自提供播客目录的新数据集，显示我们所提出的文档表示Neice，导致基于基线的主题连贯性。我们释放了结果的实验性再现性的代码。

translated by 谷歌翻译