社交媒体职位的情感分析和各种营销和情感目的的评论正在获得认可。随着各种母语中的代码混合含量的增加,需要康复研究来产生有前途的结果。这篇研究论文以广泛的Dravidian语言kannada,泰米尔和马拉雅拉姆的语义混合社交媒体评论的情感分析,对这项研究赋予了这项研究。它描述了Dravidian-Codemix在Fire 2021通过使用预先训练的模型如Ulmfit和Multi语言BERT在代码混合数据集,音译(TRAAI)上的训练型模型,英文翻译(TRAA)的培训模型来描述TRAI数据和所有三个的结合。结果记录在本研究论文中,最佳型号分别在泰米尔,克南纳和马拉雅拉姆任务中站在4号,第5和第10位。
translated by 谷歌翻译
为了解决检测到令人反感的评论/帖子的难题,这些评论/帖子具有很多非正式的,非结构化,错误的和码混合,我们在本研究论文中介绍了两种发明方法。社交媒体平台上的攻击性评论/帖子,可以影响个人,团体或未成年人。为了对两个受欢迎的Dravidian语言,泰米尔和马拉雅拉姆分类,作为哈索克的一部分 - Dravidiancodemix Fire 2021共享任务,我们采用了两个基于变压器的原型,该原型成功地站在前8名以获得所有任务。可以查看和使用我们方法的代码。
translated by 谷歌翻译
已经开发了许多方法,以通过消除社交媒体平台的庸俗,令人反感和激烈的评论来监测现代岁月中的消极性传播。然而,存在相对较少的研究,这些研究会收敛于拥抱积极性,加强在线论坛中的支持性和放心内容。因此,我们建议创建英国kannada希望语音数据集,Kanhope并比较几个实验来基准数据集。 DataSet由6,176个用户生成的评论组成,代码混合kannada从YouTube刮擦并手动注释为轴承希望语音或不希望的演讲。此外,我们介绍了DC-BERT4HOPE,一种使用Kanhope的英语翻译进行额外培训的双通道模型,以促进希望语音检测。该方法实现了0.756的加权F1分数,更好的其他模型。从此,卡霍普旨在促进坎卡达的研究,同时促进研究人员,以鼓励,积极和支持的在线内容中务实的方法。
translated by 谷歌翻译
我们介绍了在Fire 2021举行的Dravidian-Codemix共享任务的结果,是代码混合文本中的Dravidian语言的情绪分析轨道。我们描述了任务,其组织和提交的系统。这种共享任务是去年的Dravidian-Codemix共享任务的延续,在火灾2020举行。今年的任务包括在令牌内部和令互相互补级别的代码混合。此外,除了泰米尔和马拉雅拉姆,还介绍。我们收到了22种Tamil-English,15个用于Malayalam-English系统的系统和15个用于Kannada-English。Tamil-English,Malayalam-English和Kannada-English的顶级系统分别获得加权平均F1分,分别为0.711,0.804和0.630分。总之,提交的质量和数量表明,在这种域中的代码混合设置和最先进状态下对Dravidian语言有很大的兴趣仍然需要更多的改进。
translated by 谷歌翻译
文本分类是具有各种有趣应用程序的典型自然语言处理或计算语言学任务。随着社交媒体平台上的用户数量的增加,数据加速促进了有关社交媒体文本分类(SMTC)或社交媒体文本挖掘的新兴研究。与英语相比,越南人是低资源语言之一,仍然没有集中精力并彻底利用。受胶水成功的启发,我们介绍了社交媒体文本分类评估(SMTCE)基准,作为各种SMTC任务的数据集和模型的集合。借助拟议的基准,我们实施和分析了各种基于BERT的模型(Mbert,XLM-R和Distilmbert)和基于单语的BERT模型(Phobert,Vibert,Vibert,Velectra和Vibert4news)的有效性SMTCE基准。单语模型优于多语言模型,并实现所有文本分类任务的最新结果。它提供了基于基准的多语言和单语言模型的客观评估,该模型将使越南语言中有关贝尔特兰的未来研究有利。
translated by 谷歌翻译
本文介绍了Dravidian-Codemix-Hasoc2021的系统:Dravidian语言中的仇恨语音和攻击性语言识别(泰米尔英语和Malayalam-English)。此任务旨在识别从社交媒体收集的Dravidian语言中的代码混合评论/帖子中的冒犯内容。我们的方法利用汇集了最后一层普雷克雷雷变换器多语言BERT为这项任务,帮助我们在排行榜上获得排名九个在Subtask B中的泰米尔英语数据集的加权平均得分为0.61。在任务截止日期之后,我们采样了数据集统一并使用Muril净化模型,这帮助我们实现了0.67的加权平均分数,排行榜的顶部得分。此外,我们利用预磨料模型的方法有助于将模型重用与不同的数据集相同的任务。我们的代码和模型可在https://github.com/seanhenhur/tanglish-offience-language- identification
translated by 谷歌翻译
预先训练的上下文化文本表示模型学习自然语言的有效表示,以使IT机器可以理解。在注意机制的突破之后,已经提出了新一代预磨模的模型,以便自变压器引入以来实现了良好的性能。来自变压器(BERT)的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功,但大多数可用的型号已经在印度欧洲语言中培训,但是对代表性的语言和方言的类似研究仍然稀疏。在本文中,我们调查了培训基于单语言变换器的语言模型的可行性,以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务,方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据(维基百科,文章等)更方便这些非标准化语言。此外,结果表明,相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后,我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。
translated by 谷歌翻译
在大量人员中,在线社交媒体(OSMS)消费的广泛上升构成了遏制这些平台上仇恨内容的传播的关键问题。随着多种语言的效果越来越多,检测和表征仇恨的任务变得更加复杂。代码混合文本的微妙变化以及切换脚本仅增加了复杂性。本文介绍了哈索克2021多语种推特仇恨语音检测挑战的解决方案,由Team Precog IIIT Hyderabad。我们采用基于多语言变压器的方法,并为所有6个子任务描述了我们的架构作为挑战的一部分。在参加所有子特设券的6支球队中,我们的提交总体排名第3。
translated by 谷歌翻译
随着移动计算和网络技术的快速增长,令人反感的语言在社交网络平台上变得更加普遍。由于本地语言的令人反感语言识别对于中等社交媒体内容至关重要,因此在本文中,我们使用三种Dravidian语言,即Malayalam,Tamil和Kannada,这些语言遭到资源。我们在EACL 2021的Fire 2020- Hasoc-DravidiancodeMix和Dravidianlangtech提供了一个评估任务,旨在提供一个比较不同方法对此问题的框架。本文介绍了数据创建,定义任务,列出参与系统,并讨论各种方法。
translated by 谷歌翻译
我们介绍了泰国抑郁症的第一个公开的有用的语料库。我们的语料库由几个在线博客中的抑郁症的专家验证案例编制。我们试验两种不同的基于LSTM的模型和两种不同的基于伯特模型。我们在检测抑郁症时达到77.53 \%的准确性。这为同一语料库的未来研究人员建立了一个很好的基准。此外,我们确定需要在比维基百科更多种多样的语料库培训的泰国嵌入。我们的语料库,代码和培训的型号在Zenodo上公开发布。
translated by 谷歌翻译
Pre-trained transformers are now the de facto models in Natural Language Processing given their state-of-the-art results in many tasks and languages. However, most of the current models have been trained on languages for which large text resources are already available (such as English, French, Arabic, etc.). Therefore, there are still a number of low-resource languages that need more attention from the community. In this paper, we study the Algerian dialect which has several specificities that make the use of Arabic or multilingual models inappropriate. To address this issue, we collected more than one million Algerian tweets, and pre-trained the first Algerian language model: DziriBERT. When compared with existing models, DziriBERT achieves better results, especially when dealing with the Roman script. The obtained results show that pre-training a dedicated model on a small dataset (150 MB) can outperform existing models that have been trained on much more data (hundreds of GB). Finally, our model is publicly available to the community.
translated by 谷歌翻译
Automated offensive language detection is essential in combating the spread of hate speech, particularly in social media. This paper describes our work on Offensive Language Identification in low resource Indic language Marathi. The problem is formulated as a text classification task to identify a tweet as offensive or non-offensive. We evaluate different mono-lingual and multi-lingual BERT models on this classification task, focusing on BERT models pre-trained with social media datasets. We compare the performance of MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, and MahaBERT on the HASOC 2022 test set. We also explore external data augmentation from other existing Marathi hate speech corpus HASOC 2021 and L3Cube-MahaHate. The MahaTweetBERT, a BERT model, pre-trained on Marathi tweets when fine-tuned on the combined dataset (HASOC 2021 + HASOC 2022 + MahaHate), outperforms all models with an F1 score of 98.43 on the HASOC 2022 test set. With this, we also provide a new state-of-the-art result on HASOC 2022 / MOLD v2 test set.
translated by 谷歌翻译
这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务,我们的分析表明,在包括Sinhala(XLM-R,Labse和Laser)的预训练的多语言模型中,XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型,它们远远优于僧伽罗的现有预训练的语言模型。我们表明,在微调时,这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线,并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议,用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集,可用于僧伽罗文本分类的未来研究,并公开发布我们的预培训模型。
translated by 谷歌翻译
Covid-19已遍布全球,已经开发了几种疫苗来应对其激增。为了确定与社交媒体帖子中与疫苗相关的正确情感,我们在与Covid-19疫苗相关的推文上微调了各种最新的预训练的变压器模型。具体而言,我们使用最近引入的最先进的预训练的变压器模型Roberta,XLNet和Bert,以及在CoVID-19的推文中预先训练的域特异性变压器模型CT-Bert和Bertweet。我们通过使用基于语言模型的过采样技术(LMOTE)过采样来进一步探索文本扩展的选项,以改善这些模型的准确性,特别是对于小样本数据集,在正面,负面和中性情感类别之间存在不平衡的类别分布。我们的结果总结了我们关于用于微调最先进的预训练的变压器模型的不平衡小样本数据集的文本过采样的适用性,以及针对分类任务的域特异性变压器模型的实用性。
translated by 谷歌翻译
在交叉语言设置中讨厌语音检测代表所有中型和大型在线平台的最重要的感兴趣区域。未能在全球范围内妥善解决这个问题已经过时地导致了道德上可疑的现实生活事件,人类死亡和仇恨本身的永久。本文说明了微调改变的多语言变压器模型(Mbert,XLM-Roberta)关于这一重要的社会数据科学任务,与英语到法语,反之亦然和每种语言的交叉思考,包括关于迭代改进和比较误差分析的部分。
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
在过去的十年中,我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式(图像,语言等),代码混合语言等,通过使用识别冒犯内容的复杂性加剧了。此外,即使我们仔细采样和注释令人反感的内容,也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中,我们介绍了一种基于新的Code-Mixing指数(CMI)的焦点损失,其避免了两个挑战(1)代码混合语言(2)类别不平衡问题,用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器,这导致性能提升。此外,我们使用多语言模型,帮助传输特征在跨语言中学到的,以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例(例如,说拉丁和Dravidian - 泰米尔脚本脚本的使用)也是如此。我们的模型可以在低资源,类别不平衡,多语言和代码混合设置中处理令人反感的语言检测。
translated by 谷歌翻译
由于社交媒体的指数增加,重要的是关注其消极方面,因为它可能会划分社会,并将人们煽动暴力。在本文中,我们展示了我们在共享任务逗号@图标上的工作的描述,在那里我们必须对句子进行分类,如果句子是性别偏见或公共偏见的话。这三个可能是在社会中造成重大问题的主要原因。作为团队巨大,我们提出了一种用不同的预磨模的方法,具有注意力和均值的汇集方法。我们能够在孟加拉的0.223实例F1分数获得等级3,在多语言集中排名2,在多语言集中进行0.322个实例F1分数,在MEITEI上排名4,在MEITEI上进行0.129个实例F1分数,并在印地语中进行0.336实例F1分数。这里可以在此处找到源代码和预磨损的模型。
translated by 谷歌翻译
在最近的过去,社交媒体平台帮助人们连接和沟通到更广泛的受众。但这也导致了网络欺凌的激烈增加。要检测和遏制仇恨言论,以保持社交媒体平台的理智。此外,在这些平台上经常使用包含多种语言的代码混合文本。因此,我们提出了从刮擦Twitter的代码混合文本中的仇恨语音检测自动化技术。我们专注于代码混合英语 - 印地文文本和基于变压器的方法。虽然常规方法独立分析了文本,但我们还以父推文的形式使用内容文本。我们尝试在单编码器和双编码器设置中评估多语言BERT和ANDIP-BERT的性能。第一种方法是使用分隔符令牌连接目标文本和上下文文本,并从BERT模型获取单个表示。第二种方法独立地使用双BERT编码器独立地编码两个文本,并且对应的表示平均。我们表明使用独立表示的双编码器方法产生更好的性能。我们还采用了简单的集合方法来进一步提高性能。使用这些方法,我们在HASOC 2021CCL代码混合数据集上报告了最佳F1分数为73.07%。
translated by 谷歌翻译
在线仇恨是许多社交媒体平台的日益关注。为解决此问题,不同的社交媒体平台为此类内容引入了审核策略。他们还聘请了可以检查职位违反审议政策的职位并采取适当行动。辱骂语言研究领域的院士也进行各种研究以更好地检测此类内容。虽然在英语中有广泛的辱骂语言检测,但在这场火灾中,在印度,乌尔都语等低资源语言中有一个滥用语言检测的空格。在URDU中提出滥用语言检测数据集以及威胁性语言检测。在本文中,我们探索了XGBoost,LGBM,基于M-BERT的M-BERT模型的多种机器学习模型,用于基于共享任务的URDU滥用和威胁的内容检测。我们观察了在阿拉伯语中滥用语言数据集的变压器模型有助于获得最佳性能。我们的模型首先是滥用和威胁性的内容检测,分别使用0.88和0.54的F1Scoreof。
translated by 谷歌翻译