智能论文笔记

Explainable Causal Analysis of Mental Health on Social Media Data

Chandni Saxena , Muskan Garg , Gunjan Ansari

分类：自然语言处理 | 人工智能

2022-10-16

With recent developments in Social Computing, Natural Language Processing and Clinical Psychology, the social NLP research community addresses the challenge of automation in mental illness on social media. A recent extension to the problem of multi-class classification of mental health issues is to identify the cause behind the user's intention. However, multi-class causal categorization for mental health issues on social media has a major challenge of wrong prediction due to the overlapping problem of causal explanations. There are two possible mitigation techniques to solve this problem: (i) Inconsistency among causal explanations/ inappropriate human-annotated inferences in the dataset, (ii) in-depth analysis of arguments and stances in self-reported text using discourse analysis. In this research work, we hypothesise that if there exists the inconsistency among F1 scores of different classes, there must be inconsistency among corresponding causal explanations as well. In this task, we fine tune the classifiers and find explanations for multi-class causal categorization of mental illness on social media with LIME and Integrated Gradient (IG) methods. We test our methods with CAMS dataset and validate with annotated interpretations. A key contribution of this research work is to find the reason behind inconsistency in accuracy of multi-class causal categorization. The effectiveness of our methods is evident with the results obtained having category-wise average scores of $81.29 \%$ and $0.906$ using cosine similarity and word mover's distance, respectively.

translated by 谷歌翻译

CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media Posts

Muskan Garg , Chandni Saxena , Veena Krishnan , Ruchi Joshi , Sriparna Saha , Vijay Mago , Bonnie J Dorr

分类：自然语言处理

2022-07-11

研究界在发现心理健康问题及其与社交媒体分析的相关原因方面见证了大幅增长。我们介绍了一个新的数据集，用于在社交媒体帖子（CAM）中对心理健康问题的因果分析。我们对因果分析的贡献是两方面：因果解释和因果分类。我们为这项因果分析任务引入了注释模式。我们证明了模式在两个不同数据集上的功效：（i）爬行和注释3155个Reddit帖子和（ii）重新通知了1896年实例的公开可用的SDCNL数据集，以进行可解释的因果分析。我们进一步将它们组合到CAMS数据集中，并将此资源与关联的源代码公开可用：https：//github.com/drmuskangarg/cams。我们提出了从CAMS数据集中学到的模型的实验结果，并证明了经典的逻辑回归模型以4.9 \％的精度优于下一个最佳（CNN-LSTM）模型。

translated by 谷歌翻译

Exploring Hybrid and Ensemble Models for Multiclass Prediction of Mental Health Status on Social Media

Sourabh Zanwar , Daniel Wiechmann , Yu Qiao , Elma Kerz

分类：自然语言处理

2022-12-19

In recent years, there has been a surge of interest in research on automatic mental health detection (MHD) from social media data leveraging advances in natural language processing and machine learning techniques. While significant progress has been achieved in this interdisciplinary research area, the vast majority of work has treated MHD as a binary classification task. The multiclass classification setup is, however, essential if we are to uncover the subtle differences among the statistical patterns of language use associated with particular mental health conditions. Here, we report on experiments aimed at predicting six conditions (anxiety, attention deficit hyperactivity disorder, bipolar disorder, post-traumatic stress disorder, depression, and psychological stress) from Reddit social media posts. We explore and compare the performance of hybrid and ensemble models leveraging transformer-based architectures (BERT and RoBERTa) and BiLSTM neural networks trained on within-text distributions of a diverse set of linguistic features. This set encompasses measures of syntactic complexity, lexical sophistication and diversity, readability, and register-specific ngram frequencies, as well as sentiment and emotion lexicons. In addition, we conduct feature ablation experiments to investigate which types of features are most indicative of particular mental health conditions.

translated by 谷歌翻译

Mental Illness Classification on Social Media Texts using Deep Learning and Transfer Learning

Iqra Ameer , Muhammad Arif , Grigori Sidorov , Helena Gòmez-Adorno , Alexander Gelbukh

分类：机器学习 | 自然语言处理

2022-07-03

鉴于当前全球的社交距离限制，大多数人现在使用社交媒体作为其主要交流媒介。因此，数百万患有精神疾病的人被孤立了，他们无法亲自获得帮助。他们越来越依赖在线场地，以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织（WHO）的说法，大约有4.5亿人受到影响。精神疾病（例如抑郁，焦虑等）非常普遍，并影响了个体的身体健康。最近提出了人工智能（AI）方法，以帮助基于患者的真实信息（例如，医疗记录，行为数据，社交媒体利用等），包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明，在从计算机视觉到医疗保健的众多现实应用应用程序中，主要执行。这项研究分析了REDDIT平台上的非结构化用户数据，并分类了五种常见的精神疾病：抑郁，焦虑，双相情感障碍，ADHD和PTSD。我们培训了传统的机器学习，深度学习和转移学习多级模型，以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。

translated by 谷歌翻译

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms

Shini Renjith , Annie Abraham , Surya B. Jyothi , Lekshmi Chandran , Jincy Thomson

分类：自然语言处理 | 机器学习

2021-12-17

社交媒体的自杀意图检测是一种不断发展的研究，挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分，观察到社交媒体的公开职位包含有价值的标准，以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征，这些功能可以传递给特殊设计的框架，以检测人类交互中的异常，这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的，我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性，一些方法可以使用更多数据进行培训，使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型，用于分析社交媒体提交，以检测任何潜在的自杀意图。在评估期间，所提出的模型的准确性为90.3％，F1分数为92.6％，其大于基线模型。

translated by 谷歌翻译

Data Augmentation for Mental Health Classification on Social Media

Gunjan Ansari , Muskan Garg , Chandni Saxena

分类：自然语言处理

2021-12-19

在线用户的精神障碍使用社交媒体帖子确定。该域名的主要挑战是利用在社交媒体平台上使用用户生成文本的道德许可。学术RE搜索者确定了心理健康分类的不足和未标记数据的问题。要处理此问题，我们已经研究了数据增强技术对域特定用户生成的心理健康分类文本的影响。在现有的良好建立的数据增强技术中，我们已经识别了简单的数据增强（EDA），条件BERT和后退转换（BT）作为生成额外文本以提高分类器性能的潜在技术。此外，采用了三种不同分类器随机林（RF），支持向量机（SVM）和逻辑回归（LR）来分析数据增强对两个公共可用的社交媒体数据集的影响。实验心理结果显示在增强数据上培训时对分类器性能的显着改进。

translated by 谷歌翻译

Quantifying the Suicidal Tendency on Social Media: A Survey

Muskan Garg

分类：自然语言处理

2021-10-04

在锁定时期，由于第三名封闭，越来越多的人对社交媒体平台表达了自己的感受，学术研究人员目睹了心理保健和社交媒体帖子之间的密切联系。短时间内的压力可能会导致临床凹陷，而普遍抑郁症的长期特征可能会以自杀念头作为可能的结果来威胁生命。对自杀案件数量增加的越来越关注是因为它是过早但可预防死亡的主要原因之一。最近的研究表明，采矿社交媒体数据有助于量化有风险的用户的自杀趋势。这种潜在的手稿阐明了心理保健的分类法，并强调了最近的一些尝试，以研究量化社交媒体数据上的自杀趋势的潜力。该手稿介绍了社交媒体数据和处理功能向量表示的异质特征的分类。旨在确定机器学习开发（ML）和基于深度学习（DL）模型的新研究方向和进步，对与压力，抑郁症相关的77多个潜在的研究文章进行了定量合成和定性审查从2013年到2021年的自杀风险。

translated by 谷歌翻译

Explainable Misinformation Detection Across Multiple Social Media Platforms

Gargi Joshi , Ananya Srivastava , Bhargav Yagnik , Mohammed Hasan , Zainuddin Saiyed , Lubna A Gabralla , Ajith Abraham , Rahee Walambe , Ketan Kotecha

分类：机器学习 | 人工智能

2022-03-20

在这项工作中，提出了两种机器学习方法的整合，即适应和可解释的AI，以解决这两个广义检测和解释性的问题。首先，域名对抗神经网络（DANN）在多个社交媒体平台上开发了广义的错误信息检测器，DANN用于为具有相关但看不见的数据的测试域生成分类结果。基于DANN的模型是一种传统的黑盒模型，无法证明其结果合理，即目标域的标签。因此，应用了可解释的局部模型 - 反应解释（LIME）可解释的AI模型来解释DANN模式的结果。为了证明这两种方法及其进行有效解释的广义检测的整合，Covid-19的错误信息被认为是案例研究。我们尝试了两个数据集，分别是CoAid和Misovac，并比较了有或没有DANN实施的结果。 Dann显着提高了精度测量F1分类评分，并提高了准确性和AUC性能。获得的结果表明，所提出的框架在域移动的情况下表现良好，可以学习域名特征，同时使用石灰实现解释目标标签，从而实现可信赖的信息处理和提取，从而有效地打击错误信息。

translated by 谷歌翻译

Word-level Text Highlighting of Medical Texts for Telehealth Services

Ozan Ozyegen , Devika Kabe , Mucahit Cevik

分类：机器学习

2021-05-21

医疗领域通常会受到信息超负荷的约束。医疗保健的数字化，在线医疗存储库的不断更新以及生物医学数据集的可用性增加使得有效分析数据变得具有挑战性。这为严重依赖医疗数据的医疗专业人员创造了其他工作，以完成研究并咨询患者。本文旨在展示不同的文本突出显示技术如何捕获相关的医疗环境。这将通过促进更快的决定，从而改善在线医疗服务的整体质量，从而减少医生对患者的认知负担和反应时间。实施和评估了三个不同的单词级文本突出显示方法。第一个方法使用TF-IDF分数直接突出文本的重要部分。第二种方法是TF-IDF分数的组合以及将局部可解释的模型 - 静态解释应用于分类模型。第三种方法直接使用神经网络来预测是否应突出显示单词。我们的实验结果表明，神经网络方法成功地突出了医学上的术语，并且随着输入段的大小的增加，其性能得到了提高。

translated by 谷歌翻译

Explainability of Text Processing and Retrieval Methods: A Critical Survey

Sourav Saha , Debapriyo Majumdar , Mandar Mitra

分类：人工智能 | 自然语言处理

2022-12-14

Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.

translated by 谷歌翻译

A Quantitative and Qualitative Analysis of Suicide Ideation Detection using Deep Learning

Siqu Long , Rina Cabral , Josiah Poon , Soyeon Caren Han

分类：自然语言处理

2022-06-17

为了防止青年自杀，社交媒体平台受到了研究人员的广泛关注。一些研究应用机器学习或基于深度学习的文本分类方法来对包含自杀风险的社交媒体帖子进行分类。本文复制了基于社交媒体的自杀性检测/预测模型。我们评估了使用多个数据集和不同最先进的深度学习模型（RNN-，CNN-和基于注意力的模型）检测自杀构想的可行性。使用两个自杀性评估数据集，我们通过定量和定性方式评估了28种输入嵌入的组合和4种常用的深度学习模型和5种预处理的语言模型。我们的复制研究证实，深度学习总体上可以很好地适用于基于社交媒体的自杀性检测，但这在很大程度上取决于数据集的质量。

translated by 谷歌翻译

ReDDIT: Regret Detection and Domain Identification from Text

Fazlourrahman Balouchzahi , Sabur Butt , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-14

In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.

translated by 谷歌翻译

SOLD: Sinhala Offensive Language Dataset

Tharindu Ranasinghe , Isuri Anuradha , Damith Premasiri , Kanishka Silva , Hansi Hettiarachchi , Lasitha Uyangodage , Marcos Zampieri

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-01

The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.

translated by 谷歌翻译

Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model

Hind Saleh , Areej Alhothali , Kawthar Moria

分类：自然语言处理

2021-11-02

在网络和社交媒体上生成的大量数据增加了检测在线仇恨言论的需求。检测仇恨言论将减少它们对他人的负面影响和影响。在自然语言处理（NLP）域中的许多努力旨在宣传仇恨言论或检测特定的仇恨言论，如宗教，种族，性别或性取向。讨厌的社区倾向于使用缩写，故意拼写错误和他们的沟通中的编码词来逃避检测，增加了讨厌语音检测任务的更多挑战。因此，词表示将在检测仇恨言论中发挥越来越关的作用。本文研究了利用基于双向LSTM的深度模型中嵌入的域特定词语的可行性，以自动检测/分类仇恨语音。此外，我们调查转移学习语言模型（BERT）对仇恨语音问题作为二进制分类任务。实验表明，与双向LSTM基于LSTM的深层模型嵌入的域特异性词嵌入了93％的F1分数，而BERT在可用仇恨语音数据集中的组合平衡数据集上达到了高达96％的F1分数。

translated by 谷歌翻译

Explainable Deep Learning Methods in Medical Imaging Diagnosis: A Survey

Cristiano Patrício , João C. Neves , Luís F. Teixeira

分类：人工智能 | 计算机视觉 | 机器学习

2022-05-10

深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性，但这些模型在临床工作流程中几乎不采用，这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性，从而导致了可解释的人工智能（XAI）主题的创建。在这种情况下，我们对应用于医学成像诊断的XAI进行了详尽的调查，包括视觉，基于示例和基于概念的解释方法。此外，这项工作回顾了现有的医学成像数据集和现有的指标，以评估解释的质量。此外，我们还包括一组基于报告生成的方法的性能比较。最后，还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。

translated by 谷歌翻译

Explainable and High-Performance Hate and Offensive Speech Detection

Marzieh Babaeianjelodar , Gurram Poorna Prudhvi , Stephen Lorenz , Keyu Chen , Sumona Mondal , Soumyabrata Dey , Navin Kumar

分类：自然语言处理 | 机器学习

2022-06-26

信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况，已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外，从而减少信任，因此有必要创建可解释和可解释的模型。因此，我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据，XGBoost在仇恨言语检测上的表现优于LSTM，Autogluon和ULMFIT模型，F1得分为0.75，而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时，XGBoost的性能优于LSTM，Autogluon和Ulmfit；仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79，XGBOOST的表现也比LSTM，Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明（SHAP），以使其与Black-Box模型相比，与LSTM，Autogluon和Ulmfit相比，它可以解释和解释。

translated by 谷歌翻译

Explainable AI for clinical and remote health applications: a survey on tabular and time series data

Flavio Di Martino , Franca Delmastro

分类：机器学习 | 人工智能

2022-09-14

如今，人工智能（AI）已成为临床和远程医疗保健应用程序的基本组成部分，但是最佳性能的AI系统通常太复杂了，无法自我解释。可解释的AI（XAI）技术被定义为揭示系统的预测和决策背后的推理，并且在处理敏感和个人健康数据时，它们变得更加至关重要。值得注意的是，XAI并未在不同的研究领域和数据类型中引起相同的关注，尤其是在医疗保健领域。特别是，许多临床和远程健康应用程序分别基于表格和时间序列数据，而XAI并未在这些数据类型上进行分析，而计算机视觉和自然语言处理（NLP）是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述，本文提供了过去5年中文献的审查，说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言，我们确定临床验证，一致性评估，客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后，我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Transgender Community Sentiment Analysis from Social Media Data: A Natural Language Processing Approach

Yuqiao Liu , Yudan Wang , Ying Zhao , Zhixiang Li

分类：自然语言处理

2020-10-25

与普通人群相比，跨性别社区在心理健康状况中遇到巨大差异。解释跨性别者发布的社会中间数据可能会帮助我们更好地了解这些性少数群体的情感并采用早期干预措施。在这项研究中，我们将跨性别者发表的300个社交媒体评论分类为负面，积极和中立的情绪。使用5个机器学习算法和2种深神经网络，以基于带注释的数据来构建情感分析分类器。结果表明，我们的注释是可靠的，在所有三个类别中，Cohen的Kappa得分高0.8。LSTM模型的准确性超过0.85，AUC的最佳性能为0.876。我们的下一步将重点介绍在较大的注释数据集上使用高级自然语言处理算法。

translated by 谷歌翻译

SERCNN: Stacked Embedding Recurrent Convolutional Neural Network in Detecting Depression on Twitter

Heng Ee Tay , Mei Kuan Lim , Chun Yong Chong

分类：人工智能 | 自然语言处理

2022-07-29

常规的识别抑郁症的方法无法扩展，公众对心理健康的认识有限，尤其是在发展中国家。从最近的研究中可以明显看出，社交媒体有可能更涉及心理健康筛查。按时间顺序排列的大量第一人称叙事帖子可以在一段时间内为人们的思想，感觉，行为或情绪提供见解，从而更好地理解在线空间中反映的抑郁症状。在本文中，我们提出了SERCNN，该文章通过（1）从不同域中堆叠两个预处理的嵌入方式以及（2）将嵌入环境重新引入MLP分类器来改善用户表示。我们的Sercnn在最先进的基线和其他基线方面表现出色，在5倍的交叉验证设置中达到93.7％的精度。由于并非所有用户都共享相同级别的在线活动，因此我们介绍了固定观察窗口的概念，该窗口量化了预定义的帖子中的观察期。 Sercnn的精度非常出色，其精度与BERT模型相当，而参数数量却少98％，Sercnn的表现出色，其精度非常出色。我们的发现为在社交媒体上检测抑郁症的方向开辟了一个有希望的方向，并较少的推断帖子，以为具有成本效益和及时干预的解决方案。我们希望我们的工作能够使该研究领域在现有临床实践中更接近现实世界的采用。

translated by 谷歌翻译