这项工作提出了一种用于赌博成瘾和抑郁症的用户级分类的变压器体系结构,可训练。与在邮政级别运行的其他方法相反,我们处理了来自特定个人的一组社交媒体帖子,以利用帖子之间的交互并消除邮政级别的标签噪声。我们利用这样一个事实,即,通过不注入位置编码,多头注意是置换不变的,并且我们在编码现代预告片编码器(Roberta / Minilm)后,从用户中随机处理了从用户中的文本集。此外,我们的体系结构可以使用现代功能归因方法来解释,并通过识别用户文本集中的区分帖子来自动创建自动数据集。我们对超参数进行消融研究,并评估我们的ERISK 2022 LAB的方法,以早期发现病理赌博的迹象和抑郁症的早期风险检测。我们团队Blue提出的方法获得了最佳的ERDE5分数为0.015,而病理赌博检测的第二好的ERDE50分数为0.009。为了早期检测到抑郁症,我们获得了0.027的第二好的ERDE50。
translated by 谷歌翻译
In recent years, there has been a surge of interest in research on automatic mental health detection (MHD) from social media data leveraging advances in natural language processing and machine learning techniques. While significant progress has been achieved in this interdisciplinary research area, the vast majority of work has treated MHD as a binary classification task. The multiclass classification setup is, however, essential if we are to uncover the subtle differences among the statistical patterns of language use associated with particular mental health conditions. Here, we report on experiments aimed at predicting six conditions (anxiety, attention deficit hyperactivity disorder, bipolar disorder, post-traumatic stress disorder, depression, and psychological stress) from Reddit social media posts. We explore and compare the performance of hybrid and ensemble models leveraging transformer-based architectures (BERT and RoBERTa) and BiLSTM neural networks trained on within-text distributions of a diverse set of linguistic features. This set encompasses measures of syntactic complexity, lexical sophistication and diversity, readability, and register-specific ngram frequencies, as well as sentiment and emotion lexicons. In addition, we conduct feature ablation experiments to investigate which types of features are most indicative of particular mental health conditions.
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
鉴于当前全球的社交距离限制,大多数人现在使用社交媒体作为其主要交流媒介。因此,数百万患有精神疾病的人被孤立了,他们无法亲自获得帮助。他们越来越依赖在线场地,以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织(WHO)的说法,大约有4.5亿人受到影响。精神疾病(例如抑郁,焦虑等)非常普遍,并影响了个体的身体健康。最近提出了人工智能(AI)方法,以帮助基于患者的真实信息(例如,医疗记录,行为数据,社交媒体利用等),包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明,在从计算机视觉到医疗保健的众多现实应用应用程序中,主要执行。这项研究分析了REDDIT平台上的非结构化用户数据,并分类了五种常见的精神疾病:抑郁,焦虑,双相情感障碍,ADHD和PTSD。我们培训了传统的机器学习,深度学习和转移学习多级模型,以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
技术的最新进步导致了社交媒体使用的提高,这最终导致了大量的用户生成的数据,这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度,印地语主要用于使用英语,并经常用英语进行代码开关,从而产生了hinglish(印地语+英语)语言。过去,已经采用了各种方法,以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是,这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理,使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法,不仅与这些复杂的网络相当,而且还超出了子词令牌化算法(如BPE和Umigram)以及基于多头的注意技术的性能,准确性为87.41%,而F1得分为87.41%和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇,从而使我们的技术简单,高效且可持续,可在现实世界中使用。
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
Twitter上的自动抑郁症检测可以帮助个人在早期阶段私下方便地了解其心理健康状况,然后再见心理健康专业人员。大多数现有的黑盒样深度学习方法用于抑郁症检测主要集中在改善分类性能上。但是,在健康研究中解释模型决策至关重要,因为决策通常可以是高风险和死亡。可靠的自动诊断精神健康问题在内的抑郁症应得到可靠的解释,以证明模型的预测是合理的。在这项工作中,我们提出了一个新颖的可解释模型,用于在Twitter上检测抑郁症。它包括一个新颖的编码器,结合了分层注意机制和前馈神经网络。为了支持心理语言学研究,我们的模型利用隐喻概念映射作为输入。因此,它不仅检测到沮丧的人,还可以确定此类用户推文和相关隐喻概念映射的功能。
translated by 谷歌翻译
随着社交媒体平台影响的增长,滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是,大多数现有的研究和最先进的方法都以英语为目标语言,对低资产品语言的工作有限。在本文中,我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务,该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务,其中需要参与系统将乌尔都语中的推文分类为两个类别,即:(i)第一个任务的滥用和不滥用,以及(ii)第二次威胁和不威胁。我们提供两个手动注释的数据集,其中包含标有(i)滥用和非虐待的推文,以及(ii)威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文,测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文,测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中,来自六个国家的21个团队注册参加了参与(印度,巴基斯坦,中国,马来西亚,阿拉伯联合酋长国和台湾),有10个团队提交了子任务A的奔跑,这是虐待语言检测,9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B,七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880,子任务为0.545。对于两个子任务,基于M-Bert的变压器模型都表现出最佳性能。
translated by 谷歌翻译
为了防止青年自杀,社交媒体平台受到了研究人员的广泛关注。一些研究应用机器学习或基于深度学习的文本分类方法来对包含自杀风险的社交媒体帖子进行分类。本文复制了基于社交媒体的自杀性检测/预测模型。我们评估了使用多个数据集和不同最先进的深度学习模型(RNN-,CNN-和基于注意力的模型)检测自杀构想的可行性。使用两个自杀性评估数据集,我们通过定量和定性方式评估了28种输入嵌入的组合和4种常用的深度学习模型和5种预处理的语言模型。我们的复制研究证实,深度学习总体上可以很好地适用于基于社交媒体的自杀性检测,但这在很大程度上取决于数据集的质量。
translated by 谷歌翻译
社交媒体在时装行业中的作用在较少年的情况下一直在盛开。在这项工作中,我们调查了社交媒体平台中时尚相关员额的情绪分析。这项任务有两个主要挑战。首先,必须共同考虑不同方式的信息以进行最终预测。在第二个地方,应考虑一些独特的时尚相关的属性。虽然大多数现有的作品侧重于传统的多模式情绪分析,但它们始终未能利用此任务中的时尚相关的属性。我们提出了一种新颖的框架,共同利用图像视觉,文本,文本以及时尚属性模态来确定情绪类别。我们的模型的一个特征是它提取了时尚属性并将它们与图像视觉信息集成了有效表示。此外,它通过相互关注机制利用时尚属性和邮政文本之间的相互关系。由于没有适合此任务的现有数据集,因此我们准备了超过12K时尚相关的社交媒体帖子的大规模情感分析数据集。进行广泛的实验以证明我们模型的有效性。
translated by 谷歌翻译
人们经常利用在线媒体(例如Facebook,reddit)作为表达心理困扰并寻求支持的平台。最先进的NLP技术表现出强大的潜力,可以自动从文本中检测到心理健康问题。研究表明,心理健康问题反映在人类选择中所表明的情绪(例如悲伤)中。因此,我们开发了一种新颖的情绪注释的心理健康语料库(Emoment),由2802个Facebook帖子(14845个句子)组成,该帖子从两个南亚国家(斯里兰卡和印度)提取。三名临床心理学研究生参与了将这些职位注释分为八​​类,包括“精神疾病”(例如抑郁症)和情绪(例如,“悲伤”,“愤怒”)。 Emoment语料库达到了98.3%的“非常好”的跨通道协议(即有两个或更多协议),而Fleiss的Kappa为0.82。我们基于罗伯塔的模型的F1得分为0.76,第一个任务的宏观平均F1得分为0.77(即,从职位预测心理健康状况)和第二任务(即相关帖子与定义的类别的关联程度在我们的分类法中)。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.
translated by 谷歌翻译
在锁定时期,由于第三名封闭,越来越多的人对社交媒体平台表达了自己的感受,学术研究人员目睹了心理保健和社交媒体帖子之间的密切联系。短时间内的压力可能会导致临床凹陷,而普遍抑郁症的长期特征可能会以自杀念头作为可能的结果来威胁生命。对自杀案件数量增加的越来越关注是因为它是过早但可预防死亡的主要原因之一。最近的研究表明,采矿社交媒体数据有助于量化有风险的用户的自杀趋势。这种潜在的手稿阐明了心理保健的分类法,并强调了最近的一些尝试,以研究量化社交媒体数据上的自杀趋势的潜力。该手稿介绍了社交媒体数据和处理功能向量表示的异质特征的分类。旨在确定机器学习开发(ML)和基于深度学习(DL)模型的新研究方向和进步,对与压力,抑郁症相关的77多个潜在的研究文章进行了定量合成和定性审查从2013年到2021年的自杀风险。
translated by 谷歌翻译
仇恨言论等攻击性内容的广泛构成了越来越多的社会问题。 AI工具是支持在线平台的审核过程所必需的。为了评估这些识别工具,需要与不同语言的数据集进行连续实验。 HASOC轨道(仇恨语音和冒犯性内容识别)专用于为此目的开发基准数据。本文介绍了英语,印地语和马拉地赛的Hasoc Subtrack。数据集由Twitter组装。此子系统有两个子任务。任务A是为所有三种语言提供的二进制分类问题(仇恨而非冒犯)。任务B是三个课程(仇恨)仇恨言论,令人攻击和亵渎为英语和印地语提供的细粒度分类问题。总体而言,652名队伍提交了652次。任务A最佳分类算法的性能分别为Marathi,印地语和英语的0.91,0.78和0.83尺寸。此概述介绍了任务和数据开发以及详细结果。提交竞争的系统应用了各种技术。最好的表演算法主要是变压器架构的变种。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
我们介绍了泰国抑郁症的第一个公开的有用的语料库。我们的语料库由几个在线博客中的抑郁症的专家验证案例编制。我们试验两种不同的基于LSTM的模型和两种不同的基于伯特模型。我们在检测抑郁症时达到77.53 \%的准确性。这为同一语料库的未来研究人员建立了一个很好的基准。此外,我们确定需要在比维基百科更多种多样的语料库培训的泰国嵌入。我们的语料库,代码和培训的型号在Zenodo上公开发布。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
常规的识别抑郁症的方法无法扩展,公众对心理健康的认识有限,尤其是在发展中国家。从最近的研究中可以明显看出,社交媒体有可能更涉及心理健康筛查。按时间顺序排列的大量第一人称叙事帖子可以在一段时间内为人们的思想,感觉,行为或情绪提供见解,从而更好地理解在线空间中反映的抑郁症状。在本文中,我们提出了SERCNN,该文章通过(1)从不同域中堆叠两个预处理的嵌入方式以及(2)将嵌入环境重新引入MLP分类器来改善用户表示。我们的Sercnn在最先进的基线和其他基线方面表现出色,在5倍的交叉验证设置中达到93.7%的精度。由于并非所有用户都共享相同级别的在线活动,因此我们介绍了固定观察窗口的概念,该窗口量化了预定义的帖子中的观察期。 Sercnn的精度非常出色,其精度与BERT模型相当,而参数数量却少98%,Sercnn的表现出色,其精度非常出色。我们的发现为在社交媒体上检测抑郁症的方向开辟了一个有希望的方向,并较少的推断帖子,以为具有成本效益和及时干预的解决方案。我们希望我们的工作能够使该研究领域在现有临床实践中更接近现实世界的采用。
translated by 谷歌翻译