研究界在发现心理健康问题及其与社交媒体分析的相关原因方面见证了大幅增长。我们介绍了一个新的数据集,用于在社交媒体帖子(CAM)中对心理健康问题的因果分析。我们对因果分析的贡献是两方面:因果解释和因果分类。我们为这项因果分析任务引入了注释模式。我们证明了模式在两个不同数据集上的功效:(i)爬行和注释3155个Reddit帖子和(ii)重新通知了1896年实例的公开可用的SDCNL数据集,以进行可解释的因果分析。我们进一步将它们组合到CAMS数据集中,并将此资源与关联的源代码公开可用:https://github.com/drmuskangarg/cams。我们提出了从CAMS数据集中学到的模型的实验结果,并证明了经典的逻辑回归模型以4.9 \%的精度优于下一个最佳(CNN-LSTM)模型。
translated by 谷歌翻译
With recent developments in Social Computing, Natural Language Processing and Clinical Psychology, the social NLP research community addresses the challenge of automation in mental illness on social media. A recent extension to the problem of multi-class classification of mental health issues is to identify the cause behind the user's intention. However, multi-class causal categorization for mental health issues on social media has a major challenge of wrong prediction due to the overlapping problem of causal explanations. There are two possible mitigation techniques to solve this problem: (i) Inconsistency among causal explanations/ inappropriate human-annotated inferences in the dataset, (ii) in-depth analysis of arguments and stances in self-reported text using discourse analysis. In this research work, we hypothesise that if there exists the inconsistency among F1 scores of different classes, there must be inconsistency among corresponding causal explanations as well. In this task, we fine tune the classifiers and find explanations for multi-class causal categorization of mental illness on social media with LIME and Integrated Gradient (IG) methods. We test our methods with CAMS dataset and validate with annotated interpretations. A key contribution of this research work is to find the reason behind inconsistency in accuracy of multi-class causal categorization. The effectiveness of our methods is evident with the results obtained having category-wise average scores of $81.29 \%$ and $0.906$ using cosine similarity and word mover's distance, respectively.
translated by 谷歌翻译
在锁定时期,由于第三名封闭,越来越多的人对社交媒体平台表达了自己的感受,学术研究人员目睹了心理保健和社交媒体帖子之间的密切联系。短时间内的压力可能会导致临床凹陷,而普遍抑郁症的长期特征可能会以自杀念头作为可能的结果来威胁生命。对自杀案件数量增加的越来越关注是因为它是过早但可预防死亡的主要原因之一。最近的研究表明,采矿社交媒体数据有助于量化有风险的用户的自杀趋势。这种潜在的手稿阐明了心理保健的分类法,并强调了最近的一些尝试,以研究量化社交媒体数据上的自杀趋势的潜力。该手稿介绍了社交媒体数据和处理功能向量表示的异质特征的分类。旨在确定机器学习开发(ML)和基于深度学习(DL)模型的新研究方向和进步,对与压力,抑郁症相关的77多个潜在的研究文章进行了定量合成和定性审查从2013年到2021年的自杀风险。
translated by 谷歌翻译
人们经常利用在线媒体(例如Facebook,reddit)作为表达心理困扰并寻求支持的平台。最先进的NLP技术表现出强大的潜力,可以自动从文本中检测到心理健康问题。研究表明,心理健康问题反映在人类选择中所表明的情绪(例如悲伤)中。因此,我们开发了一种新颖的情绪注释的心理健康语料库(Emoment),由2802个Facebook帖子(14845个句子)组成,该帖子从两个南亚国家(斯里兰卡和印度)提取。三名临床心理学研究生参与了将这些职位注释分为八​​类,包括“精神疾病”(例如抑郁症)和情绪(例如,“悲伤”,“愤怒”)。 Emoment语料库达到了98.3%的“非常好”的跨通道协议(即有两个或更多协议),而Fleiss的Kappa为0.82。我们基于罗伯塔的模型的F1得分为0.76,第一个任务的宏观平均F1得分为0.77(即,从职位预测心理健康状况)和第二任务(即相关帖子与定义的类别的关联程度在我们的分类法中)。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面,并研究这些方面如何随时间变化。首先,我们使用主题分析在R/covid19 \ _support的Reddit帖子样本($ n $ = 86)中确定了九个焦虑(SOA)。然后,我们通过在手动注释的样本($ n $ = 793)上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中($ n $ = 6,535)。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到,在大流行的前八个月,Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生,但这些担忧却大大减少了。通常,随着大流行的进展,用户的语言披露了SOA的强烈强度。但是,在本研究涵盖的整个期间,人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题,而不是健康风险或死亡问题。我们的结果表明,尽管Covid-19逐渐削弱,但由于适当的对策而逐渐削弱了作为健康威胁,但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础,以及时检查引起大流行焦虑的方面。
translated by 谷歌翻译
In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.
translated by 谷歌翻译
鉴于当前全球的社交距离限制,大多数人现在使用社交媒体作为其主要交流媒介。因此,数百万患有精神疾病的人被孤立了,他们无法亲自获得帮助。他们越来越依赖在线场地,以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织(WHO)的说法,大约有4.5亿人受到影响。精神疾病(例如抑郁,焦虑等)非常普遍,并影响了个体的身体健康。最近提出了人工智能(AI)方法,以帮助基于患者的真实信息(例如,医疗记录,行为数据,社交媒体利用等),包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明,在从计算机视觉到医疗保健的众多现实应用应用程序中,主要执行。这项研究分析了REDDIT平台上的非结构化用户数据,并分类了五种常见的精神疾病:抑郁,焦虑,双相情感障碍,ADHD和PTSD。我们培训了传统的机器学习,深度学习和转移学习多级模型,以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。
translated by 谷歌翻译
自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释,这是过去十年来大多数心理健康语言计算研究背后的结论。但是,精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康,无论是由于治疗还是其他缓解因素。我们问:随着时间的推移,心理健康诊断的自我诊断的自我限制在多大程度上?我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动,反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据,证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议,用于改善使用自lif诊诊断策划的心理健康数据集:1)注释诊断日期和精神病合并症; 2)使用倾向得分匹配的样本对照组; 3)识别和删除选择偏差引入的虚假相关性。
translated by 谷歌翻译
构建用于仇恨语音检测的基准数据集具有各种挑战。首先,因为仇恨的言论相对少见,随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题,先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而,将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意,而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索(IR)中的相关性。此连接表明,可以有效地应用创建IR测试集合的良好方法,以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文,我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值,我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集,其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时,我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明,而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
自杀是主要的公共卫生危机。每年有超过20,000,000多次自杀企图,对自杀意图的早期发现有可能挽救数十万生命。传统的心理健康筛查方法是耗时的,昂贵的,而且弱势群体通常无法获得;使用机器学习对自杀意图的在线检测提供了可行的替代方法。在这里,我们介绍了迄今为止最大的非关键字生成的自杀语料库Robin,包括超过110万个在线论坛发布。除了其前所未有的规模外,罗宾还专门构建了各种自杀文本,例如自杀丧亲和轻率的参考文献,更好地促进了对罗宾进行培训的模型,以学习表达自杀构思的文本细微差别。实验结果通过传统方法(例如逻辑回归(F1 = 0.85))以及大规模的预训练的语言模型(例如BERT)(F1 = 0.92),实现了自杀文本分类的最新性能。 。最后,我们公开发布Robin数据集作为机器学习资源,有可能推动下一代自杀情绪研究。
translated by 谷歌翻译
Hope is characterized as openness of spirit toward the future, a desire, expectation, and wish for something to happen or to be true that remarkably affects human's state of mind, emotions, behaviors, and decisions. Hope is usually associated with concepts of desired expectations and possibility/probability concerning the future. Despite its importance, hope has rarely been studied as a social media analysis task. This paper presents a hope speech dataset that classifies each tweet first into "Hope" and "Not Hope", then into three fine-grained hope categories: "Generalized Hope", "Realistic Hope", and "Unrealistic Hope" (along with "Not Hope"). English tweets in the first half of 2022 were collected to build this dataset. Furthermore, we describe our annotation process and guidelines in detail and discuss the challenges of classifying hope and the limitations of the existing hope speech detection corpora. In addition, we reported several baselines based on different learning approaches, such as traditional machine learning, deep learning, and transformers, to benchmark our dataset. We evaluated our baselines using weighted-averaged and macro-averaged F1-scores. Observations show that a strict process for annotator selection and detailed annotation guidelines enhanced the dataset's quality. This strict annotation process resulted in promising performance for simple machine learning classifiers with only bi-grams; however, binary and multiclass hope speech detection results reveal that contextual embedding models have higher performance in this dataset.
translated by 谷歌翻译
为了防止青年自杀,社交媒体平台受到了研究人员的广泛关注。一些研究应用机器学习或基于深度学习的文本分类方法来对包含自杀风险的社交媒体帖子进行分类。本文复制了基于社交媒体的自杀性检测/预测模型。我们评估了使用多个数据集和不同最先进的深度学习模型(RNN-,CNN-和基于注意力的模型)检测自杀构想的可行性。使用两个自杀性评估数据集,我们通过定量和定性方式评估了28种输入嵌入的组合和4种常用的深度学习模型和5种预处理的语言模型。我们的复制研究证实,深度学习总体上可以很好地适用于基于社交媒体的自杀性检测,但这在很大程度上取决于数据集的质量。
translated by 谷歌翻译
基于社交媒体语言的临床抑郁模型的基本组成部分是抑郁症状检测(DSD)。不幸的是,没有任何DSD数据集都反映出自lif污抑郁症的样本中抑郁症状的临床见解和分布。在我们的工作中,我们描述了一个主动学习框架(AL)框架,该框架使用了最初的监督学习模型1)1)最先进的大型心理健康论坛文本文本预训练的语言模型在临床医生注释的临床医生上进行了微调DSD数据集,2)DSD的零拍学习模型,并将它们融合在一起,从我们大型自我策划的抑郁症推文存储库(DTR)中收获抑郁症状相关的样本。我们的临床医生注释的数据集是同类数据集中最大的数据集。此外,DTR是由自披露的抑郁用户在两个数据集中的Twitter时间轴中创建的,其中包括从Twitter中检测到用户级抑郁症的最大基准数据集之一。这进一步有助于保留自张开的Twitter用户推文的抑郁症状分布。随后,我们使用收获的数据迭代地重新训练我们的初始DSD模型。我们讨论了该过程的停止标准和局限性,并阐述了在整个AL过程中起着至关重要的作用的基础构造。我们证明我们可以生产最终的数据集,这是同类产品中最大的数据集。此外,对其进行训练的DSD和抑郁症检测(DPD)模型的精度明显优于初始版本。
translated by 谷歌翻译
Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
近年来,我们看到了处理敏感个人信息的应用程序(包括对话系统)的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先,性能模型应该能够区分敏感内容与中性句子的句子。其次,它应该能够识别其中包含的个人数据类别的类型。这样,可以考虑每个类别的不同隐私处理。在文献中,如果有关于自动敏感数据识别的作品,则通常在没有共同基准的不同域或语言上进行。为了填补这一空白,在这项工作中,我们介绍了SPEDAC,这是一个新的注释基准,用于识别敏感的个人数据类别。此外,我们提供了对数据集的广泛评估,该数据集使用不同的基准和基于Roberta的分类器进行的,这是一种神经体系结构,在检测敏感句子和个人数据类别的分类方面实现了强大的性能。
translated by 谷歌翻译
In recent years, there has been a surge of interest in research on automatic mental health detection (MHD) from social media data leveraging advances in natural language processing and machine learning techniques. While significant progress has been achieved in this interdisciplinary research area, the vast majority of work has treated MHD as a binary classification task. The multiclass classification setup is, however, essential if we are to uncover the subtle differences among the statistical patterns of language use associated with particular mental health conditions. Here, we report on experiments aimed at predicting six conditions (anxiety, attention deficit hyperactivity disorder, bipolar disorder, post-traumatic stress disorder, depression, and psychological stress) from Reddit social media posts. We explore and compare the performance of hybrid and ensemble models leveraging transformer-based architectures (BERT and RoBERTa) and BiLSTM neural networks trained on within-text distributions of a diverse set of linguistic features. This set encompasses measures of syntactic complexity, lexical sophistication and diversity, readability, and register-specific ngram frequencies, as well as sentiment and emotion lexicons. In addition, we conduct feature ablation experiments to investigate which types of features are most indicative of particular mental health conditions.
translated by 谷歌翻译
在线用户的精神障碍使用社交媒体帖子确定。该域名的主要挑战是利用在社交媒体平台上使用用户生成文本的道德许可。学术RE搜索者确定了心理健康分类的不足和未标记数据的问题。要处理此问题,我们已经研究了数据增强技术对域特定用户生成的心理健康分类文本的影响。在现有的良好建立的数据增强技术中,我们已经识别了简单的数据增强(EDA),条件BERT和后退转换(BT)作为生成额外文本以提高分类器性能的潜在技术。此外,采用了三种不同分类器随机林(RF),支持向量机(SVM)和逻辑回归(LR)来分析数据增强对两个公共可用的社交媒体数据集的影响。实验心理结果显示在增强数据上培训时对分类器性能的显着改进。
translated by 谷歌翻译