社交媒体平台上有毒内容的普遍性,例如仇恨言论,冒犯性语言和厌女症,给我们的相互联系的社会带来了严重的挑战。这些具有挑战性的问题引起了自然语言处理(NLP)社区的广泛关注。在本文中,我们将提交的系统介绍给第一个阿拉伯语厌女症识别共享任务。我们研究了三个多任务学习模型及其单任务。为了编码输入文本,我们的模型依赖于预先训练的Marbert语言模型。总体获得的结果表明,我们所有提交的模型均在厌女症识别和分类任务中取得了最佳性能(排名前三的提交)。
translated by 谷歌翻译
讽刺是一种形式的形式,其中句子的预期含义与其字面意义不同。这对几种自然语言处理(NLP)应用(例如情感分析,意见挖掘和作者概况)提出了严重的挑战。在本文中,我们将参与系统介绍给英语和阿拉伯语的预期讽刺检测任务。我们的系统\ footNote {我们系统的源代码可在\ url {https://github.com/abdelkadermh/isarcasmeval}}}}}}}}}组成,该模型由三个基于深度学习的模型,利用两种现有的预培养的语言用于阿拉伯语和英语。我们参加了所有子任务。我们的官方意见在阿拉伯语的子任务A上取得了最佳性能,并在子任务B中排名第二。对于子任务C,我们的系统分别在阿拉伯语和英语数据集上排名第七和第11位。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
Facebook和Twitter等社交媒体平台上的在线形象已成为互联网用户的日常习惯。尽管平台为用户提供了大量服务,但用户仍遭受网络欺凌的困扰,这进一步导致了精神虐待,并可能升级以对个人或目标群体造成身体伤害。在本文中,我们使用相关的阿拉伯语Twitter数据集将其提交给阿拉伯仇恨言论2022共享任务研讨会(OSACT5 2022)。共享任务由3个子任务组成,子任务A的重点是检测该推文是否令人反感。然后,对于进攻性推文,子任务B专注于检测该推文是否是仇恨言论。最后,对于仇恨言论推文,子任务C的重点是检测六个不同类别中的细粒度仇恨言论。变压器模型证明了它们在分类任务方面的效率,但是在小型或不平衡数据集中进行微调时的合适问题。我们通过研究多个培训范式(例如对比学习和多任务学习以及分类微调)以及我们前5名表演者的合奏来克服这一限制。我们提出的解决方案分别在子任务A,B和C中分别实现了0.841、0.817和0.476宏F1平均。
translated by 谷歌翻译
在本文中,我们展示了我们参与生物重建VII轨道3的工作 - 在推文中自动提取药物名称,在那里我们实施了一个多任务学习模型,这些模型是在文本分类和序列标记上进行的联合培训的多任务学习模型。我们最好的系统运行达到了80.4的严格F1,比所有参与者的平均分数排名第一,排名超过10点。我们的分析表明,集合技术,多任务学习和数据增强都是有益于推文中的药物检测。
translated by 谷歌翻译
在大量人员中,在线社交媒体(OSMS)消费的广泛上升构成了遏制这些平台上仇恨内容的传播的关键问题。随着多种语言的效果越来越多,检测和表征仇恨的任务变得更加复杂。代码混合文本的微妙变化以及切换脚本仅增加了复杂性。本文介绍了哈索克2021多语种推特仇恨语音检测挑战的解决方案,由Team Precog IIIT Hyderabad。我们采用基于多语言变压器的方法,并为所有6个子任务描述了我们的架构作为挑战的一部分。在参加所有子特设券的6支球队中,我们的提交总体排名第3。
translated by 谷歌翻译
最近在灾害信息学的研究证明了人工智能的实用而重要的用例,以拯救人类生命和基于社交媒体内容(文本和图像)的自然灾害期间的痛苦。虽然使用文本的显着进度,但利用图像的研究仍然相对较低。要提前基于图像的方法,我们提出了Medic(可用于:https://crisisnlp.qcri.org/medic/index.html),这是人道主义响应的最大社交媒体图像分类数据集,由71,198个图像组成在多任务学习设置中的四个不同任务。这是它的第一个数据集:社交媒体图像,灾难响应和多任务学习研究。该数据集的一个重要属性是它的高潜力,可以为多任务学习进行贡献,该研究最近从机器学习界获得了很多兴趣,并在内存,推理速度,性能和泛化能力方面显示出显着的结果。因此,所提出的数据集是用于推进基于图像的灾害管理和多任务机器学习研究的重要资源。
translated by 谷歌翻译
Detecting personal health mentions on social media is essential to complement existing health surveillance systems. However, annotating data for detecting health mentions at a large scale is a challenging task. This research employs a multitask learning framework to leverage available annotated data from a related task to improve the performance on the main task to detect personal health experiences mentioned in social media texts. Specifically, we focus on incorporating emotional information into our target task by using emotion detection as an auxiliary task. Our approach significantly improves a wide range of personal health mention detection tasks compared to a strong state-of-the-art baseline.
translated by 谷歌翻译
Automated offensive language detection is essential in combating the spread of hate speech, particularly in social media. This paper describes our work on Offensive Language Identification in low resource Indic language Marathi. The problem is formulated as a text classification task to identify a tweet as offensive or non-offensive. We evaluate different mono-lingual and multi-lingual BERT models on this classification task, focusing on BERT models pre-trained with social media datasets. We compare the performance of MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, and MahaBERT on the HASOC 2022 test set. We also explore external data augmentation from other existing Marathi hate speech corpus HASOC 2021 and L3Cube-MahaHate. The MahaTweetBERT, a BERT model, pre-trained on Marathi tweets when fine-tuned on the combined dataset (HASOC 2021 + HASOC 2022 + MahaHate), outperforms all models with an F1 score of 98.43 on the HASOC 2022 test set. With this, we also provide a new state-of-the-art result on HASOC 2022 / MOLD v2 test set.
translated by 谷歌翻译
为了解决检测到令人反感的评论/帖子的难题,这些评论/帖子具有很多非正式的,非结构化,错误的和码混合,我们在本研究论文中介绍了两种发明方法。社交媒体平台上的攻击性评论/帖子,可以影响个人,团体或未成年人。为了对两个受欢迎的Dravidian语言,泰米尔和马拉雅拉姆分类,作为哈索克的一部分 - Dravidiancodemix Fire 2021共享任务,我们采用了两个基于变压器的原型,该原型成功地站在前8名以获得所有任务。可以查看和使用我们方法的代码。
translated by 谷歌翻译
在过去的十年中,我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式(图像,语言等),代码混合语言等,通过使用识别冒犯内容的复杂性加剧了。此外,即使我们仔细采样和注释令人反感的内容,也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中,我们介绍了一种基于新的Code-Mixing指数(CMI)的焦点损失,其避免了两个挑战(1)代码混合语言(2)类别不平衡问题,用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器,这导致性能提升。此外,我们使用多语言模型,帮助传输特征在跨语言中学到的,以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例(例如,说拉丁和Dravidian - 泰米尔脚本脚本的使用)也是如此。我们的模型可以在低资源,类别不平衡,多语言和代码混合设置中处理令人反感的语言检测。
translated by 谷歌翻译
在线仇恨是许多社交媒体平台的日益关注。为解决此问题,不同的社交媒体平台为此类内容引入了审核策略。他们还聘请了可以检查职位违反审议政策的职位并采取适当行动。辱骂语言研究领域的院士也进行各种研究以更好地检测此类内容。虽然在英语中有广泛的辱骂语言检测,但在这场火灾中,在印度,乌尔都语等低资源语言中有一个滥用语言检测的空格。在URDU中提出滥用语言检测数据集以及威胁性语言检测。在本文中,我们探索了XGBoost,LGBM,基于M-BERT的M-BERT模型的多种机器学习模型,用于基于共享任务的URDU滥用和威胁的内容检测。我们观察了在阿拉伯语中滥用语言数据集的变压器模型有助于获得最佳性能。我们的模型首先是滥用和威胁性的内容检测,分别使用0.88和0.54的F1Scoreof。
translated by 谷歌翻译
预先训练的上下文化文本表示模型学习自然语言的有效表示,以使IT机器可以理解。在注意机制的突破之后,已经提出了新一代预磨模的模型,以便自变压器引入以来实现了良好的性能。来自变压器(BERT)的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功,但大多数可用的型号已经在印度欧洲语言中培训,但是对代表性的语言和方言的类似研究仍然稀疏。在本文中,我们调查了培训基于单语言变换器的语言模型的可行性,以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务,方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据(维基百科,文章等)更方便这些非标准化语言。此外,结果表明,相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后,我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。
translated by 谷歌翻译
自动识别仇恨和虐待内容对于打击有害在线内容及其破坏性影响的传播至关重要。大多数现有作品通过检查仇恨语音数据集中的火车测试拆分上的概括错误来评估模型。这些数据集通常在其定义和标记标准上有所不同,从而在预测新的域和数据集时会导致模型性能差。在这项工作中,我们提出了一种新的多任务学习(MTL)管道,该管道利用MTL在多个仇恨语音数据集中同时训练,以构建一个更包含的分类模型。我们通过采用保留的方案来模拟对新的未见数据集的评估,在该方案中,我们从培训中省略了目标数据集并在其他数据集中共同培训。我们的结果始终优于现有工作的大量样本。当在预测以前看不见的数据集时,在检查火车测试拆分中的概括误差和实质性改进时,我们会表现出强烈的结果。此外,我们组装了一个新颖的数据集,称为Pubfigs,重点是美国公共政治人物的问题。我们在PubFigs的305,235美元推文中自动发现有问题的语音,并发现了对公众人物的发布行为的见解。
translated by 谷歌翻译
随着社交媒体平台影响的增长,滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是,大多数现有的研究和最先进的方法都以英语为目标语言,对低资产品语言的工作有限。在本文中,我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务,该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务,其中需要参与系统将乌尔都语中的推文分类为两个类别,即:(i)第一个任务的滥用和不滥用,以及(ii)第二次威胁和不威胁。我们提供两个手动注释的数据集,其中包含标有(i)滥用和非虐待的推文,以及(ii)威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文,测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文,测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中,来自六个国家的21个团队注册参加了参与(印度,巴基斯坦,中国,马来西亚,阿拉伯联合酋长国和台湾),有10个团队提交了子任务A的奔跑,这是虐待语言检测,9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B,七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880,子任务为0.545。对于两个子任务,基于M-Bert的变压器模型都表现出最佳性能。
translated by 谷歌翻译
社交媒体的普及创造了仇恨言论和性别歧视等问题。社交媒体中性别歧视的识别和分类是非常相关的任务,因为它们允许建立更健康的社会环境。尽管如此,这些任务很挑战。这项工作提出了一种使用多语种和单晶的BERT和数据点转换和与英语和西班牙语分类的策略的系统来使用多语种和单语的BERT和数据点转换和集合策略。它在社交网络中的性别歧视的背景下进行了2021年(存在2021年)任务,由Iberian语言评估论坛(Iberlef)提出。描述了所提出的系统及其主要组件,并进行深入的超公数分析。观察到的主要结果是:(i)该系统比基线模型获得了更好的结果(多语种伯爵); (ii)集合模型比单声道模型获得了更好的结果; (iii)考虑所有单独模型和最佳标准化值的集合模型获得了两个任务的最佳精度和F1分数。这项工作在两个任务中获得的第一名,最高的精度(任务1和任务2的0.658.780)和F1分数(对于任务1的任务1和F1-宏为0.780的F1二进制)。
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
Pre-trained transformers are now the de facto models in Natural Language Processing given their state-of-the-art results in many tasks and languages. However, most of the current models have been trained on languages for which large text resources are already available (such as English, French, Arabic, etc.). Therefore, there are still a number of low-resource languages that need more attention from the community. In this paper, we study the Algerian dialect which has several specificities that make the use of Arabic or multilingual models inappropriate. To address this issue, we collected more than one million Algerian tweets, and pre-trained the first Algerian language model: DziriBERT. When compared with existing models, DziriBERT achieves better results, especially when dealing with the Roman script. The obtained results show that pre-training a dedicated model on a small dataset (150 MB) can outperform existing models that have been trained on much more data (hundreds of GB). Finally, our model is publicly available to the community.
translated by 谷歌翻译
Twitter上的自动抑郁症检测可以帮助个人在早期阶段私下方便地了解其心理健康状况,然后再见心理健康专业人员。大多数现有的黑盒样深度学习方法用于抑郁症检测主要集中在改善分类性能上。但是,在健康研究中解释模型决策至关重要,因为决策通常可以是高风险和死亡。可靠的自动诊断精神健康问题在内的抑郁症应得到可靠的解释,以证明模型的预测是合理的。在这项工作中,我们提出了一个新颖的可解释模型,用于在Twitter上检测抑郁症。它包括一个新颖的编码器,结合了分层注意机制和前馈神经网络。为了支持心理语言学研究,我们的模型利用隐喻概念映射作为输入。因此,它不仅检测到沮丧的人,还可以确定此类用户推文和相关隐喻概念映射的功能。
translated by 谷歌翻译
近年来,在危机期间从社交媒体职位挖掘重要信息的任务已成为辅助应急响应的目的研究的重点。 TREC事件流(IS)曲目是为此目的而组织的研究挑战。该曲目要求参与系统将与危机相关的推文进行分类为人道主义援助相关信息类型,并估算其关键性的重要性。前者是指多标签信息类型分类任务,后者是指优先级估计任务。在本文中,我们报告了TREC中的大学学院计算机科学(UCD-CS)的参与 - 是2021年。我们探讨了各种方法,包括简单的机器学习算法,多任务学习技术,文本增强和集合方法。官方评估结果表明,我们的运行达到了许多指标中的最高分数。为了援助再现性,我们的代码在HTTPS://github.com/wangcongcong123/crisis-mtl上公开提供。
translated by 谷歌翻译