智能论文笔记

muBoost: An Effective Method for Solving Indic Multilingual Text Classification Problem

Manish Pathak , Aditya Jain

分类：自然语言处理 | 机器学习

2022-06-21

文本分类是许多自然语言处理任务的组成部分，例如讽刺检测，情感分析和更多此类应用。许多电子商务网站，社交媒体/娱乐平台都使用此类模型来增强用户体验以产生流量，从而在其平台上获得收入。在本文中，我们将在Sharechat提供的印度视频共享社交网络服务MOJ上介绍了多语言滥用评论标识问题。该问题涉及在MOJ平台上的视频上使用13种区域性指示语言（例如印地语，泰卢固语，卡纳达语等）中检测滥用评论的问题。我们的解决方案利用了新颖的Muboost，这是印度语言模型（Muril）模型的Catboost分类器模型和多语言表示的合奏，以在指示文本分类任务上产生SOTA性能。我们能够在测试数据上达到平均F1分数为89.286，这比基线Muril模型的改进，F1分数为87.48。

translated by 谷歌翻译

Toxicity Detection for Indic Multilingual Social Media Content

Manan Jhaveri , Devanshu Ramaiya , Harveen Singh Chadha

分类：自然语言处理

2022-01-03

有毒内容是今天社交媒体平台最关键的问题之一。仅在2020年的印度拥有51800万社交媒体用户。为了为内容创造者及其观众提供良好的体验，这对销售毒性评论和发布的用户至关重要。但由于存在多个相同文本的多个表示，大挑战是识别低资源目录语言中的毒性。此外，社交媒体的职位/评论不遵守特定格式，语法或句子结构;这使得滥用检测的任务更具挑战性的多语种社交媒体平台。本文介绍了使用ShareChat / MoJ提供的数据提出的Team'Moj Masti'提出的系统，以\ emph {iiit-d多语言滥用评论识别}挑战。我们专注于我们如何利用基于多语言变压器的预训练和微调模型来接近代码混合/代码切换的分类任务。我们最好的表演系统是XLM-Roberta和Muril的集合，在测试数据/排行榜上实现了0.9的平均f-1分数。我们还通过添加音译数据观察到性能的增加。此外，使用弱元数据，合奏和一些后处理技术提升了我们的系统的性能，从而将我们1在排行榜上放置。

translated by 谷歌翻译

Contextual Hate Speech Detection in Code Mixed Text using Transformer Based Approaches

Ravindra Nayak , Raviraj Joshi

分类：自然语言处理 | 机器学习

2021-10-18

在最近的过去，社交媒体平台帮助人们连接和沟通到更广泛的受众。但这也导致了网络欺凌的激烈增加。要检测和遏制仇恨言论，以保持社交媒体平台的理智。此外，在这些平台上经常使用包含多种语言的代码混合文本。因此，我们提出了从刮擦Twitter的代码混合文本中的仇恨语音检测自动化技术。我们专注于代码混合英语 - 印地文文本和基于变压器的方法。虽然常规方法独立分析了文本，但我们还以父推文的形式使用内容文本。我们尝试在单编码器和双编码器设置中评估多语言BERT和ANDIP-BERT的性能。第一种方法是使用分隔符令牌连接目标文本和上下文文本，并从BERT模型获取单个表示。第二种方法独立地使用双BERT编码器独立地编码两个文本，并且对应的表示平均。我们表明使用独立表示的双编码器方法产生更好的性能。我们还采用了简单的集合方法来进一步提高性能。使用这些方法，我们在HASOC 2021CCL代码混合数据集上报告了最佳F1分数为73.07％。

translated by 谷歌翻译

SMTCE: A Social Media Text Classification Evaluation Benchmark and BERTology Models for Vietnamese

Luan Thanh Nguyen , Kiet Van Nguyen , Ngan Luu-Thuy Nguyen

分类：自然语言处理

2022-09-21

文本分类是具有各种有趣应用程序的典型自然语言处理或计算语言学任务。随着社交媒体平台上的用户数量的增加，数据加速促进了有关社交媒体文本分类（SMTC）或社交媒体文本挖掘的新兴研究。与英语相比，越南人是低资源语言之一，仍然没有集中精力并彻底利用。受胶水成功的启发，我们介绍了社交媒体文本分类评估（SMTCE）基准，作为各种SMTC任务的数据集和模型的集合。借助拟议的基准，我们实施和分析了各种基于BERT的模型（Mbert，XLM-R和Distilmbert）和基于单语的BERT模型（Phobert，Vibert，Vibert，Velectra和Vibert4news）的有效性SMTCE基准。单语模型优于多语言模型，并实现所有文本分类任务的最新结果。它提供了基于基准的多语言和单语言模型的客观评估，该模型将使越南语言中有关贝尔特兰的未来研究有利。

translated by 谷歌翻译

Leveraging Transformers for Hate Speech Detection in Conversational Code-Mixed Tweets

Zaki Mustafa Farooqi , Sreyan Ghosh , Rajiv Ratn Shah

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-18

在目前的互联网时代，社交媒体平台容易抵达每个人，由于与演员，信条，性别，宗教甚至接受，人们往往必须应对威胁，身份攻击，仇恨和欺凌或拒绝概念。仇恨语音检测中的现有工作主要关注各个评论分类作为序列标签任务，并且经常无法考虑对话的上下文。在确定作者的意图和发布后的情绪时，谈话的上下文通常在促进推文背后的情绪时发挥着重要作用。本文介绍了哈索克 - IIITD团队 - IIITD的系统提出的系统，该系统是第一个共享任务，专注于检测来自推特上的HINDI英语代码混合对话的仇恨语音。我们使用神经网络接近此问题，利用变压器的交叉逻辑嵌入，并进一步向他们提供低资源仇恨语音分类，以便在音译后的印度文本中进行低资源仇恨语音分类。我们最好的表演系统，一项艰难的投票集合，XLM-Roberta和多语言伯特，实现了0.7253的宏F1得分，首先在整个排行榜榜上放置我们。

translated by 谷歌翻译

Developing Successful Shared Tasks on Offensive Language Identification for Dravidian Languages

Bharathi Raja Chakravarthi , Dhivya Chinnappa , Ruba Priyadharshini , Anand Kumar Madasamy , Sangeetha Sivanesan , Subalalitha Chinnaudayar Navaneethakrishnan , Sajeetha Thavareesan , Dhanalakshmi Vadivel , Rahul Ponnusamy , Prasanna Kumar Kumaresan

分类：自然语言处理

2021-11-05

随着移动计算和网络技术的快速增长，令人反感的语言在社交网络平台上变得更加普遍。由于本地语言的令人反感语言识别对于中等社交媒体内容至关重要，因此在本文中，我们使用三种Dravidian语言，即Malayalam，Tamil和Kannada，这些语言遭到资源。我们在EACL 2021的Fire 2020- Hasoc-DravidiancodeMix和Dravidianlangtech提供了一个评估任务，旨在提供一个比较不同方法对此问题的框架。本文介绍了数据创建，定义任务，列出参与系统，并讨论各种方法。

translated by 谷歌翻译

Pretrained Transformers for Offensive Language Identification in Tanglish

Sean Benhur , Kanchana Sivanraju

分类：自然语言处理

2021-10-06

本文介绍了Dravidian-Codemix-Hasoc2021的系统：Dravidian语言中的仇恨语音和攻击性语言识别（泰米尔英语和Malayalam-English）。此任务旨在识别从社交媒体收集的Dravidian语言中的代码混合评论/帖子中的冒犯内容。我们的方法利用汇集了最后一层普雷克雷雷变换器多语言BERT为这项任务，帮助我们在排行榜上获得排名九个在Subtask B中的泰米尔英语数据集的加权平均得分为0.61。在任务截止日期之后，我们采样了数据集统一并使用Muril净化模型，这帮助我们实现了0.67的加权平均分数，排行榜的顶部得分。此外，我们利用预磨料模型的方法有助于将模型重用与不同的数据集相同的任务。我们的代码和模型可在https://github.com/seanhenhur/tanglish-offience-language- identification

translated by 谷歌翻译

Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021

Maaz Amjad , Alisa Zhila , Grigori Sidorov , Andrey Labunets , Sabur Butta , Hamza Imam Amjad , Oxana Vitman , Alexander Gelbukh

分类：自然语言处理

2022-07-14

随着社交媒体平台影响的增长，滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是，大多数现有的研究和最先进的方法都以英语为目标语言，对低资产品语言的工作有限。在本文中，我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务，该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务，其中需要参与系统将乌尔都语中的推文分类为两个类别，即：（i）第一个任务的滥用和不滥用，以及（ii）第二次威胁和不威胁。我们提供两个手动注释的数据集，其中包含标有（i）滥用和非虐待的推文，以及（ii）威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文，测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文，测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中，来自六个国家的21个团队注册参加了参与（印度，巴基斯坦，中国，马来西亚，阿拉伯联合酋长国和台湾），有10个团队提交了子任务A的奔跑，这是虐待语言检测，9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B，七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880，子任务为0.545。对于两个子任务，基于M-Bert的变压器模型都表现出最佳性能。

translated by 谷歌翻译

AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in Immigration-Related Web News Comments Using Transformers and Statistical Models

Angel Felipe Magnossão de Paula , Ipek Baris Schlicht

分类：自然语言处理 | 机器学习

2021-11-08

本文介绍了我们参与西班牙语（戒毒）共享任务2021的评论中毒性的检测，在伊比利亚语语言评估论坛的第三次研讨会上。共享任务分为两个相关的分类任务：（i）任务1：毒性检测和; （ii）任务2：毒性水平检测。他们专注于毒性评论的传播加剧了仇外问题，在与移民有关的不同在线新闻文章中发布。减轻这个问题的必要努力之一是检测评论中的毒性。我们的主要目标是在竞赛的官方指标基于竞争的官方指标：任务1的F1分数和任务2的亲密评估度量（CEM）的F1分数以及任务2的CO-Score 。要解决任务，我们使用两种类型的机器学习模型：（i）统计模型和（ii）用于语言理解（BERT）模型的深双双向变压器。我们在使用BETO的两个任务中获得了最佳结果，这是一款位于大型西班牙语法上的BERT模型。我们在任务1中获得了第三名官方排名，F1分数为0.5996，我们在任务2官方排名的第6位与0.7142的CEM达成了第6位。我们的结果表明：（i）伯特模型获得比文本评论中毒性检测的统计模型更好的结果; （ii）单语伯特模型在其预先训练的语言中的文本评论中具有多语言伯特模型的优势。

translated by 谷歌翻译

Improved Target-specific Stance Detection on Social Media Platforms by Delving into Conversation Threads

Yupeng Li , Haorui He , Shaonan Wang , Francis C. M. Lau , Yunya Song

分类：自然语言处理

2022-11-06

Target-specific stance detection on social media, which aims at classifying a textual data instance such as a post or a comment into a stance class of a target issue, has become an emerging opinion mining paradigm of importance. An example application would be to overcome vaccine hesitancy in combating the coronavirus pandemic. However, existing stance detection strategies rely merely on the individual instances which cannot always capture the expressed stance of a given target. In response, we address a new task called conversational stance detection which is to infer the stance towards a given target (e.g., COVID-19 vaccination) when given a data instance and its corresponding conversation thread. To tackle the task, we first propose a benchmarking conversational stance detection (CSD) dataset with annotations of stances and the structures of conversation threads among the instances based on six major social media platforms in Hong Kong. To infer the desired stances from both data instances and conversation threads, we propose a model called Branch-BERT that incorporates contextual information in conversation threads. Extensive experiments on our CSD dataset show that our proposed model outperforms all the baseline models that do not make use of contextual information. Specifically, it improves the F1 score by 10.3% compared with the state-of-the-art method in the SemEval-2016 Task 6 competition. This shows the potential of incorporating rich contextual information on detecting target-specific stances on social media platforms and implies a more practical way to construct future stance detection tasks.

translated by 谷歌翻译

Pegasus@Dravidian-CodeMix-HASOC2021: Analyzing Social Media Content for Detection of Offensive Text

Pawan Kalyan Jada , Konthala Yasaswini , Karthik Puranik , Anbukkarasi Sampath , Sathiyaraj Thangasamy , Kingston Pal Thamburaj

分类：自然语言处理

2021-11-18

为了解决检测到令人反感的评论/帖子的难题，这些评论/帖子具有很多非正式的，非结构化，错误的和码混合，我们在本研究论文中介绍了两种发明方法。社交媒体平台上的攻击性评论/帖子，可以影响个人，团体或未成年人。为了对两个受欢迎的Dravidian语言，泰米尔和马拉雅拉姆分类，作为哈索克的一部分 - Dravidiancodemix Fire 2021共享任务，我们采用了两个基于变压器的原型，该原型成功地站在前8名以获得所有任务。可以查看和使用我们方法的代码。

translated by 谷歌翻译

Sexism Identification in Tweets and Gabs using Deep Neural Networks

Amikul Kalra , Arkaitz Zubiaga

分类：自然语言处理 | 机器学习

2021-11-05

通过匿名和可访问性，社交媒体平台促进了仇恨言论的扩散，提示在开发自动方法以识别这些文本时提高研究。本文探讨了使用各种深度神经网络模型架构（如长短期内存（LSTM）和卷积神经网络（CNN）的文本中性别歧视分类。这些网络与来自变压器（BERT）和Distilbert模型的双向编码器表示形式的传输学习一起使用，以及数据增强，以在社交中的性别歧视识别中对推文和GAB的数据集进行二进制和多种性别歧视分类Iberlef 2021中的网络（存在）任务。看到模型与竞争对手的比较，使用BERT和多滤波器CNN模型进行了最佳性能。数据增强进一步提高了多级分类任务的结果。本文还探讨了模型所做的错误，并讨论了由于标签的主观性和社交媒体中使用的自然语言的复杂性而自动对性别歧视的难度。

translated by 谷歌翻译

An exploratory experiment on Hindi, Bengali hate-speech detection and transfer learning using neural networks

Tung Minh Phung , Jan Cloos

分类：自然语言处理 | 机器学习

2022-01-06

这项工作介绍了我们培训神经网络的方法，以检测印地语和孟加利的仇恨语篇文本。我们还探讨了如何将转移学习应用于学习这些语言，因为它们具有相同的原点，因此类似于某些延伸。尽管整个实验以低计算能力进行，但所获得的结果也与其他，更昂贵，模型的结果相当。此外，由于使用中的培训数据相对较小，而这两种语言几乎完全不为人知，这项工作可以是概括的，以努力恶化而使没有人能够理解的丢失或外星语语言。

translated by 谷歌翻译

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Human-in-the-Loop Hate Speech Classification in a Multilingual Context

Ana Kotarcic , Dominik Hangartner , Fabrizio Gilardi , Selina Kurer , Karsten Donnay

分类：自然语言处理 | 机器学习

2022-12-05

The shift of public debate to the digital sphere has been accompanied by a rise in online hate speech. While many promising approaches for hate speech classification have been proposed, studies often focus only on a single language, usually English, and do not address three key concerns: post-deployment performance, classifier maintenance and infrastructural limitations. In this paper, we introduce a new human-in-the-loop BERT-based hate speech classification pipeline and trace its development from initial data collection and annotation all the way to post-deployment. Our classifier, trained using data from our original corpus of over 422k examples, is specifically developed for the inherently multilingual setting of Switzerland and outperforms with its F1 score of 80.5 the currently best-performing BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points in French. Our systematic evaluations over a 12-month period further highlight the vital importance of continuous, human-in-the-loop classifier maintenance to ensure robust hate speech classification post-deployment.

translated by 谷歌翻译

Findings of the Sentiment Analysis of Dravidian Languages in Code-Mixed Text

Bharathi Raja Chakravarthi , Ruba Priyadharshini , Sajeetha Thavareesan , Dhivya Chinnappa , Durairaj Thenmozhi , Elizabeth Sherly , John P. McCrae , Adeep Hande , Rahul Ponnusamy , Shubhanker Banerjee

分类：自然语言处理

2021-11-18

我们介绍了在Fire 2021举行的Dravidian-Codemix共享任务的结果，是代码混合文本中的Dravidian语言的情绪分析轨道。我们描述了任务，其组织和提交的系统。这种共享任务是去年的Dravidian-Codemix共享任务的延续，在火灾2020举行。今年的任务包括在令牌内部和令互相互补级别的代码混合。此外，除了泰米尔和马拉雅拉姆，还介绍。我们收到了22种Tamil-English，15个用于Malayalam-English系统的系统和15个用于Kannada-English。Tamil-English，Malayalam-English和Kannada-English的顶级系统分别获得加权平均F1分，分别为0.711,0.804和0.630分。总之，提交的质量和数量表明，在这种域中的代码混合设置和最先进状态下对Dravidian语言有很大的兴趣仍然需要更多的改进。

translated by 谷歌翻译

Hope Speech detection in under-resourced Kannada language

Adeep Hande , Ruba Priyadharshini , Anbukkarasi Sampath , Kingston Pal Thamburaj , Prabakaran Chandran , Bharathi Raja Chakravarthi

分类：自然语言处理

2021-08-10

已经开发了许多方法，以通过消除社交媒体平台的庸俗，令人反感和激烈的评论来监测现代岁月中的消极性传播。然而，存在相对较少的研究，这些研究会收敛于拥抱积极性，加强在线论坛中的支持性和放心内容。因此，我们建议创建英国kannada希望语音数据集，Kanhope并比较几个实验来基准数据集。 DataSet由6,176个用户生成的评论组成，代码混合kannada从YouTube刮擦并手动注释为轴承希望语音或不希望的演讲。此外，我们介绍了DC-BERT4HOPE，一种使用Kanhope的英语翻译进行额外培训的双通道模型，以促进希望语音检测。该方法实现了0.756的加权F1分数，更好的其他模型。从此，卡霍普旨在促进坎卡达的研究，同时促进研究人员，以鼓励，积极和支持的在线内容中务实的方法。

translated by 谷歌翻译

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms

Shini Renjith , Annie Abraham , Surya B. Jyothi , Lekshmi Chandran , Jincy Thomson

分类：自然语言处理 | 机器学习

2021-12-17

社交媒体的自杀意图检测是一种不断发展的研究，挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分，观察到社交媒体的公开职位包含有价值的标准，以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征，这些功能可以传递给特殊设计的框架，以检测人类交互中的异常，这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的，我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性，一些方法可以使用更多数据进行培训，使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型，用于分析社交媒体提交，以检测任何潜在的自杀意图。在评估期间，所提出的模型的准确性为90.3％，F1分数为92.6％，其大于基线模型。

translated by 谷歌翻译

Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments

Bharathi Raja Chakravarthi , Ruba Priyadharshini , Rahul Ponnusamy , Prasanna Kumar Kumaresan , Kayalvizhi Sampath , Durairaj Thenmozhi , Sathiyaraj Thangasamy , Rajendran Nallathambi , John Phillip McCrae

分类：自然语言处理

2021-09-01

社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋，同性恋者，跨性别或双性恋者的恐惧，不喜欢，不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言，可以总结为针对LGBT +人的仇恨语音，近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题，可以使网上平台与LGBT +人有毒和不受欢迎，同时还试图消除平等，多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类，这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供，因为这是一个敏感的问题，我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集，数据的定性分析和注册间协议的过程。此外，我们为数据集创建基线模型。据我们所知，我们的数据集是第一个已创建的数据集。警告：本文含有明确的同性恋，转基因症，刻板印象的明确陈述，这可能对某些读者令人痛苦。

translated by 谷歌翻译

Automatically Detecting Cyberbullying Comments on Online Game Forums

Hanh Hong-Phuc Vo , Hieu Trung Tran , Son T. Luu

分类：自然语言处理

2021-06-03

在线游戏论坛对大多数游戏玩家都很受欢迎。他们用它来沟通和讨论游戏的策略，甚至结交朋友。然而，游戏论坛还包含滥用和骚扰演讲，令人不安和威胁的球员。因此，有必要自动检测和删除网络欺凌评论，以保持游戏论坛清洁和友好。我们使用从魔兽世界（WOW）和联盟（LOL）论坛（LOL）论坛和火车分类模型中收集的网络欺凌数据集，以自动检测玩家的评论是否是滥用的。结果获得了LOL论坛的82.69％的宏F1分数，并通过网络伯文数据集的毒性BERT模型为哇论坛的83.86％的宏F1分数。

translated by 谷歌翻译