在大量人员中,在线社交媒体(OSMS)消费的广泛上升构成了遏制这些平台上仇恨内容的传播的关键问题。随着多种语言的效果越来越多,检测和表征仇恨的任务变得更加复杂。代码混合文本的微妙变化以及切换脚本仅增加了复杂性。本文介绍了哈索克2021多语种推特仇恨语音检测挑战的解决方案,由Team Precog IIIT Hyderabad。我们采用基于多语言变压器的方法,并为所有6个子任务描述了我们的架构作为挑战的一部分。在参加所有子特设券的6支球队中,我们的提交总体排名第3。
translated by 谷歌翻译
为了解决检测到令人反感的评论/帖子的难题,这些评论/帖子具有很多非正式的,非结构化,错误的和码混合,我们在本研究论文中介绍了两种发明方法。社交媒体平台上的攻击性评论/帖子,可以影响个人,团体或未成年人。为了对两个受欢迎的Dravidian语言,泰米尔和马拉雅拉姆分类,作为哈索克的一部分 - Dravidiancodemix Fire 2021共享任务,我们采用了两个基于变压器的原型,该原型成功地站在前8名以获得所有任务。可以查看和使用我们方法的代码。
translated by 谷歌翻译
在目前的互联网时代,社交媒体平台容易抵达每个人,由于与演员,信条,性别,宗教甚至接受,人们往往必须应对威胁,身份攻击,仇恨和欺凌或拒绝概念。仇恨语音检测中的现有工作主要关注各个评论分类作为序列标签任务,并且经常无法考虑对话的上下文。在确定作者的意图和发布后的情绪时,谈话的上下文通常在促进推文背后的情绪时发挥着重要作用。本文介绍了哈索克 - IIITD团队 - IIITD的系统提出的系统,该系统是第一个共享任务,专注于检测来自推特上的HINDI英语代码混合对话的仇恨语音。我们使用神经网络接近此问题,利用变压器的交叉逻辑嵌入,并进一步向他们提供低资源仇恨语音分类,以便在音译后的印度文本中进行低资源仇恨语音分类。我们最好的表演系统,一项艰难的投票集合,XLM-Roberta和多语言伯特,实现了0.7253的宏F1得分,首先在整个排行榜榜上放置我们。
translated by 谷歌翻译
在最近的过去,社交媒体平台帮助人们连接和沟通到更广泛的受众。但这也导致了网络欺凌的激烈增加。要检测和遏制仇恨言论,以保持社交媒体平台的理智。此外,在这些平台上经常使用包含多种语言的代码混合文本。因此,我们提出了从刮擦Twitter的代码混合文本中的仇恨语音检测自动化技术。我们专注于代码混合英语 - 印地文文本和基于变压器的方法。虽然常规方法独立分析了文本,但我们还以父推文的形式使用内容文本。我们尝试在单编码器和双编码器设置中评估多语言BERT和ANDIP-BERT的性能。第一种方法是使用分隔符令牌连接目标文本和上下文文本,并从BERT模型获取单个表示。第二种方法独立地使用双BERT编码器独立地编码两个文本,并且对应的表示平均。我们表明使用独立表示的双编码器方法产生更好的性能。我们还采用了简单的集合方法来进一步提高性能。使用这些方法,我们在HASOC 2021CCL代码混合数据集上报告了最佳F1分数为73.07%。
translated by 谷歌翻译
仇恨言论被认为是目前轰炸在线社交媒体的主要问题之一。已经显示重复和重复的仇恨言论,为目标用户创造生理效应。因此,应在这些平台上解决其所有形式的仇恨言论,以保持健康。在本文中,我们探讨了在火灾2021的英语和印度 - 雅典语言中检测仇恨语音和冒犯内容的几个基于变压器的机器学习模型。我们探索了MBBERT,XLMR-LARG,XLMR-Base等多种型号“超级马里奥”。我们的型号在Code-Mixed数据集(宏F1:0.7107)中进行了第二个位置,在印地语两班分类(宏F1:0.7797)中,英语四类四级别(宏F1:0.8006)和英语中的第4位两级类别(宏F1:0.6447)。
translated by 谷歌翻译
文本分类是具有各种有趣应用程序的典型自然语言处理或计算语言学任务。随着社交媒体平台上的用户数量的增加,数据加速促进了有关社交媒体文本分类(SMTC)或社交媒体文本挖掘的新兴研究。与英语相比,越南人是低资源语言之一,仍然没有集中精力并彻底利用。受胶水成功的启发,我们介绍了社交媒体文本分类评估(SMTCE)基准,作为各种SMTC任务的数据集和模型的集合。借助拟议的基准,我们实施和分析了各种基于BERT的模型(Mbert,XLM-R和Distilmbert)和基于单语的BERT模型(Phobert,Vibert,Vibert,Velectra和Vibert4news)的有效性SMTCE基准。单语模型优于多语言模型,并实现所有文本分类任务的最新结果。它提供了基于基准的多语言和单语言模型的客观评估,该模型将使越南语言中有关贝尔特兰的未来研究有利。
translated by 谷歌翻译
已经开发了许多方法,以通过消除社交媒体平台的庸俗,令人反感和激烈的评论来监测现代岁月中的消极性传播。然而,存在相对较少的研究,这些研究会收敛于拥抱积极性,加强在线论坛中的支持性和放心内容。因此,我们建议创建英国kannada希望语音数据集,Kanhope并比较几个实验来基准数据集。 DataSet由6,176个用户生成的评论组成,代码混合kannada从YouTube刮擦并手动注释为轴承希望语音或不希望的演讲。此外,我们介绍了DC-BERT4HOPE,一种使用Kanhope的英语翻译进行额外培训的双通道模型,以促进希望语音检测。该方法实现了0.756的加权F1分数,更好的其他模型。从此,卡霍普旨在促进坎卡达的研究,同时促进研究人员,以鼓励,积极和支持的在线内容中务实的方法。
translated by 谷歌翻译
情绪分析是最基本的NLP任务,用于确定文本数据的极性。在多语言文本领域也有很多工作。仍然讨厌和令人反感的语音检测面临着挑战,这是由于数据的可用性不足,特别是印度和马拉地赛等印度语言。在这项工作中,我们考虑了印地语和马拉地养文本的仇恨和令人反感的语音检测。使用艺术的深度学习方法的状态制定了该问题作为文本分类任务。我们探讨了CNN,LSTM等不同的深度学习架构,以及多语言伯爵,烟草和单晶罗伯塔等伯特的变化。基于CNN和LSTM的基本模型将使用快文文本嵌入式增强。我们使用HASOC 2021 HINDI和MARATHI讨论语音数据集来比较这些算法。 Marathi DataSet由二进制标签和后印度数据集组成,包括二进制和更精细的粗糙标签。我们表明,基于变压器的模型表现了最佳甚至基本型号以及FastText Embeddings的基本模型具有竞争性能。此外,通过普通的超参数调谐,基本模型比细粒度的Hindi数据集上的基于BERT的模型更好。
translated by 谷歌翻译
Automated offensive language detection is essential in combating the spread of hate speech, particularly in social media. This paper describes our work on Offensive Language Identification in low resource Indic language Marathi. The problem is formulated as a text classification task to identify a tweet as offensive or non-offensive. We evaluate different mono-lingual and multi-lingual BERT models on this classification task, focusing on BERT models pre-trained with social media datasets. We compare the performance of MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, and MahaBERT on the HASOC 2022 test set. We also explore external data augmentation from other existing Marathi hate speech corpus HASOC 2021 and L3Cube-MahaHate. The MahaTweetBERT, a BERT model, pre-trained on Marathi tweets when fine-tuned on the combined dataset (HASOC 2021 + HASOC 2022 + MahaHate), outperforms all models with an F1 score of 98.43 on the HASOC 2022 test set. With this, we also provide a new state-of-the-art result on HASOC 2022 / MOLD v2 test set.
translated by 谷歌翻译
Pre-training large neural language models, such as BERT, has led to impressive gains on many natural language processing (NLP) tasks. Although this method has proven to be effective for many domains, it might not always provide desirable benefits. In this paper, we study the effects of hateful pre-training on low-resource hate speech classification tasks. While previous studies on the English language have emphasized its importance, we aim to augment their observations with some non-obvious insights. We evaluate different variations of tweet-based BERT models pre-trained on hateful, non-hateful, and mixed subsets of a 40M tweet dataset. This evaluation is carried out for the Indian languages Hindi and Marathi. This paper is empirical evidence that hateful pre-training is not the best pre-training option for hate speech detection. We show that pre-training on non-hateful text from the target domain provides similar or better results. Further, we introduce HindTweetBERT and MahaTweetBERT, the first publicly available BERT models pre-trained on Hindi and Marathi tweets, respectively. We show that they provide state-of-the-art performance on hate speech classification tasks. We also release hateful BERT for the two languages and a gold hate speech evaluation benchmark HateEval-Hi and HateEval-Mr consisting of manually labeled 2000 tweets each. The models and data are available at https://github.com/l3cube-pune/MarathiNLP .
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
社交媒体职位的情感分析和各种营销和情感目的的评论正在获得认可。随着各种母语中的代码混合含量的增加,需要康复研究来产生有前途的结果。这篇研究论文以广泛的Dravidian语言kannada,泰米尔和马拉雅拉姆的语义混合社交媒体评论的情感分析,对这项研究赋予了这项研究。它描述了Dravidian-Codemix在Fire 2021通过使用预先训练的模型如Ulmfit和Multi语言BERT在代码混合数据集,音译(TRAAI)上的训练型模型,英文翻译(TRAA)的培训模型来描述TRAI数据和所有三个的结合。结果记录在本研究论文中,最佳型号分别在泰米尔,克南纳和马拉雅拉姆任务中站在4号,第5和第10位。
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
在过去的十年中,我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式(图像,语言等),代码混合语言等,通过使用识别冒犯内容的复杂性加剧了。此外,即使我们仔细采样和注释令人反感的内容,也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中,我们介绍了一种基于新的Code-Mixing指数(CMI)的焦点损失,其避免了两个挑战(1)代码混合语言(2)类别不平衡问题,用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器,这导致性能提升。此外,我们使用多语言模型,帮助传输特征在跨语言中学到的,以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例(例如,说拉丁和Dravidian - 泰米尔脚本脚本的使用)也是如此。我们的模型可以在低资源,类别不平衡,多语言和代码混合设置中处理令人反感的语言检测。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
情感分析是NLP中研究最广泛的应用程序之一,但大多数工作都集中在具有大量数据的语言上。我们介绍了尼日利亚的四种口语最广泛的语言(Hausa,Igbo,Nigerian-Pidgin和Yor \'ub \'a)的第一个大规模的人类通知的Twitter情感数据集,该数据集由大约30,000个注释的推文组成(以及每种语言的大约30,000个)(以及14,000尼日利亚猎人),其中包括大量的代码混合推文。我们提出了文本收集,过滤,处理和标记方法,使我们能够为这些低资源语言创建数据集。我们评估了数据集上的预训练模型和转移策略。我们发现特定于语言的模型和语言适应性芬通常表现最好。我们将数据集,训练的模型,情感词典和代码释放到激励措施中,以代表性不足的语言进行情感分析。
translated by 谷歌翻译
我们介绍了Twhin-Bert,这是一种多语言语言模型,该模型在流行的社交网络Twitter上训练了内域数据。Twhin-bert与先前的预训练的语言模型有所不同,因为它不仅接受了基于文本的自学训练,而且还具有基于Twitter异质信息网络(TWHIN)中丰富社交活动的社会目标。我们的模型接受了70亿条推文的培训,涵盖了100多种不同的语言,为简短,嘈杂,用户生成的文本提供了有价值的表示形式。我们对各种多语言社会建议和语义理解任务进行评估,并证明了对既定的预训练的语言模型的大幅改进。我们将自由开放源代码Twhin-Bert和我们为研究社区提供的精心策划标签预测和社会参与基准数据集。
translated by 谷歌翻译
Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.
translated by 谷歌翻译
在线仇恨是许多社交媒体平台的日益关注。为解决此问题,不同的社交媒体平台为此类内容引入了审核策略。他们还聘请了可以检查职位违反审议政策的职位并采取适当行动。辱骂语言研究领域的院士也进行各种研究以更好地检测此类内容。虽然在英语中有广泛的辱骂语言检测,但在这场火灾中,在印度,乌尔都语等低资源语言中有一个滥用语言检测的空格。在URDU中提出滥用语言检测数据集以及威胁性语言检测。在本文中,我们探索了XGBoost,LGBM,基于M-BERT的M-BERT模型的多种机器学习模型,用于基于共享任务的URDU滥用和威胁的内容检测。我们观察了在阿拉伯语中滥用语言数据集的变压器模型有助于获得最佳性能。我们的模型首先是滥用和威胁性的内容检测,分别使用0.88和0.54的F1Scoreof。
translated by 谷歌翻译
技术的最新进步导致了社交媒体使用的提高,这最终导致了大量的用户生成的数据,这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度,印地语主要用于使用英语,并经常用英语进行代码开关,从而产生了hinglish(印地语+英语)语言。过去,已经采用了各种方法,以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是,这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理,使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法,不仅与这些复杂的网络相当,而且还超出了子词令牌化算法(如BPE和Umigram)以及基于多头的注意技术的性能,准确性为87.41%,而F1得分为87.41%和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇,从而使我们的技术简单,高效且可持续,可在现实世界中使用。
translated by 谷歌翻译