Abusive language is a concerning problem in online social media. Past research on detecting abusive language covers different platforms, languages, demographies, etc. However, models trained using these datasets do not perform well in cross-domain evaluation settings. To overcome this, a common strategy is to use a few samples from the target domain to train models to get better performance in that domain (cross-domain few-shot training). However, this might cause the models to overfit the artefacts of those samples. A compelling solution could be to guide the models toward rationales, i.e., spans of text that justify the text's label. This method has been found to improve model performance in the in-domain setting across various NLP tasks. In this paper, we propose RAFT (Rationale Adaptor for Few-shoT classification) for abusive language detection. We first build a multitask learning setup to jointly learn rationales, targets, and labels, and find a significant improvement of 6% macro F1 on the rationale detection task over training solely rationale classifiers. We introduce two rationale-integrated BERT-based architectures (the RAFT models) and evaluate our systems over five different abusive language datasets, finding that in the few-shot classification setting, RAFT-based models outperform baseline models by about 7% in macro F1 scores and perform competitively to models finetuned on other source domains. Furthermore, RAFT-based models outperform LIME/SHAP-based approaches in terms of plausibility and are close in performance in terms of faithfulness.
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
仇恨言语检测模型的性能取决于对模型的训练数据集。现有的数据集大部分是由有限数量的实例或定义仇恨主题的仇恨域准备的。这阻碍了关于仇恨领域的大规模分析和转移学习。在这项研究中,我们构建了大规模的推文数据集,以用英语和低资源语言(土耳其语)进行仇恨言论检测,每个人都由每个标签的100k推文组成。我们的数据集设计为在五个域上分布的推文数量相等。统计测试支持的实验结果表明,基于变压器的语言模型的表现优于传统词袋和神经模型的英语至少5%,而土耳其语则优于大规模仇恨言语检测。该性能也可扩展到不同的训练规模,在使用20%的培训实例时,将回收98%的英语表现和土耳其语的97%。我们进一步研究了仇恨领域之间跨域转移的概括能力。我们表明,其他英语域平均有96%的目标域性能恢复,而土耳其语为92%。性别和宗教更成功地概括到其他领域,而体育运动最大。
translated by 谷歌翻译
仇恨言论以贬义的评论以多种形式针对社区,并使人类退后一步。 Hatexplain是最近出版的第一个数据集,用于以理由的形式使用带注释的跨度,以及语音分类类别和有针对性的社区,以使分类更具人性化,可解释,准确和偏见。我们调整BERT以理由和阶级预测的形式执行此任务,并比较我们对跨精度,解释性和偏见的不同指标的性能。我们的新颖性是三倍。首先,我们尝试具有不同重要性值的合并理由类损失。其次,我们对理由的地面真相注意值进行了广泛的实验。随着保守和宽大的关注,我们比较了hatexplain模型的性能并检验我们的假设。第三,为了改善模型中的意外偏见,我们使用目标社区单词的掩盖,并注意偏见和解释性指标的改善。总体而言,我们成功地实现了模型的解释性,偏差删除和对原始BERT实施的几个增量改进。
translated by 谷歌翻译
在这项工作中,提出了两种机器学习方法的整合,即适应和可解释的AI,以解决这两个广义检测和解释性的问题。首先,域名对抗神经网络(DANN)在多个社交媒体平台上开发了广义的错误信息检测器,DANN用于为具有相关但看不见的数据的测试域生成分类结果。基于DANN的模型是一种传统的黑盒模型,无法证明其结果合理,即目标域的标签。因此,应用了可解释的局部模型 - 反应解释(LIME)可解释的AI模型来解释DANN模式的结果。为了证明这两种方法及其进行有效解释的广义检测的整合,Covid-19的错误信息被认为是案例研究。我们尝试了两个数据集,分别是CoAid和Misovac,并比较了有或没有DANN实施的结果。 Dann显着提高了精度测量F1分类评分,并提高了准确性和AUC性能。获得的结果表明,所提出的框架在域移动的情况下表现良好,可以学习域名特征,同时使用石灰实现解释目标标签,从而实现可信赖的信息处理和提取,从而有效地打击错误信息。
translated by 谷歌翻译
变形金刚在NLP中广泛使用,它们始终如一地实现最先进的性能。这是由于他们基于注意力的架构,这使他们能够对单词之间的丰富语言关系进行建模。但是,变压器很难解释。能够为其决策提供推理是人类生命受影响的领域(例如仇恨言论检测和生物医学)的模型的重要特性。随着变压器在这些领域中发现广泛使用,因此需要为其量身定制的可解释性技术。在这项工作中研究了基于注意力的可解释性技术对文本分类中的有效性。尽管担心文献中的基于注意力的解释,但我们表明,通过适当的设置,可以将注意力用于此类任务,结果与最先进的技术相当,同时也更快,更友好。我们通过采用新功能重要性指标的一系列实验来验证我们的主张。
translated by 谷歌翻译
Convincing people to get vaccinated against COVID-19 is a key societal challenge in the present times. As a first step towards this goal, many prior works have relied on social media analysis to understand the specific concerns that people have towards these vaccines, such as potential side-effects, ineffectiveness, political factors, and so on. Though there are datasets that broadly classify social media posts into Anti-vax and Pro-Vax labels, there is no dataset (to our knowledge) that labels social media posts according to the specific anti-vaccine concerns mentioned in the posts. In this paper, we have curated CAVES, the first large-scale dataset containing about 10k COVID-19 anti-vaccine tweets labelled into various specific anti-vaccine concerns in a multi-label setting. This is also the first multi-label classification dataset that provides explanations for each of the labels. Additionally, the dataset also provides class-wise summaries of all the tweets. We also perform preliminary experiments on the dataset and show that this is a very challenging dataset for multi-label explainable classification and tweet summarization, as is evident by the moderate scores achieved by some state-of-the-art models. Our dataset and codes are available at: https://github.com/sohampoddar26/caves-data
translated by 谷歌翻译
自动识别仇恨和虐待内容对于打击有害在线内容及其破坏性影响的传播至关重要。大多数现有作品通过检查仇恨语音数据集中的火车测试拆分上的概括错误来评估模型。这些数据集通常在其定义和标记标准上有所不同,从而在预测新的域和数据集时会导致模型性能差。在这项工作中,我们提出了一种新的多任务学习(MTL)管道,该管道利用MTL在多个仇恨语音数据集中同时训练,以构建一个更包含的分类模型。我们通过采用保留的方案来模拟对新的未见数据集的评估,在该方案中,我们从培训中省略了目标数据集并在其他数据集中共同培训。我们的结果始终优于现有工作的大量样本。当在预测以前看不见的数据集时,在检查火车测试拆分中的概括误差和实质性改进时,我们会表现出强烈的结果。此外,我们组装了一个新颖的数据集,称为Pubfigs,重点是美国公共政治人物的问题。我们在PubFigs的305,235美元推文中自动发现有问题的语音,并发现了对公众人物的发布行为的见解。
translated by 谷歌翻译
Recent directions for offensive language detection are hierarchical modeling, identifying the type and the target of offensive language, and interpretability with offensive span annotation and prediction. These improvements are focused on English and do not transfer well to other languages because of cultural and linguistic differences. In this paper, we present the Korean Offensive Language Dataset (KOLD) comprising 40,429 comments, which are annotated hierarchically with the type and the target of offensive language, accompanied by annotations of the corresponding text spans. We collect the comments from NAVER news and YouTube platform and provide the titles of the articles and videos as the context information for the annotation process. We use these annotated comments as training data for Korean BERT and RoBERTa models and find that they are effective at offensiveness detection, target classification, and target span detection while having room for improvement for target group classification and offensive span detection. We discover that the target group distribution differs drastically from the existing English datasets, and observe that providing the context information improves the model performance in offensiveness detection (+0.3), target classification (+1.5), and target group classification (+13.1). We publicly release the dataset and baseline models.
translated by 谷歌翻译
在线仇恨言论已成为小时的需求。但是,由于几种地缘政治和文化原因,对此类活动的禁令是不可行的。为了减少问题的严重性,在本文中,我们介绍了一项新颖的任务,仇恨言语归一化,旨在削弱在线帖子表现出的仇恨强度。仇恨言语归一化的意图不是支持仇恨,而是为用户提供对非讨厌的垫脚石,同时为在线平台提供更多时间来监视用户行为的任何改进。为此,我们手动策划了平行语料库 - 仇恨文本及其标准化的同行(标准化文本较不憎恨,更良性)。我们介绍了NACL,这是一个简单而有效的仇恨言语归一化模型,该模型在三个阶段运行 - 首先,它测量了原始样本的仇恨强度;其次,它标识了其中的仇恨跨度;最后,它通过解释仇恨跨度来降低仇恨强度。我们进行了广泛的实验,以通过三向评估(内在,外部和人类研究)来衡量NaCl的功效。我们观察到,NaCl优于六个基准-NACL的强度预测得分为0.1365 RMSE,在SPAN识别中获得0.622 F1分数,而82.27 BLEU和80.05的差异和80.05的困惑为归一化​​文本生成。我们进一步显示了NACL在其他平台上的普遍性(Reddit,Facebook,GAB)。将NaCl的交互式原型放在一起进行用户研究。此外,该工具正在WIPRO AI的真实环境中部署,这是其在线平台上处理有害内容的任务的一部分。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
Supervised approaches generally rely on majority-based labels. However, it is hard to achieve high agreement among annotators in subjective tasks such as hate speech detection. Existing neural network models principally regard labels as categorical variables, while ignoring the semantic information in diverse label texts. In this paper, we propose AnnoBERT, a first-of-its-kind architecture integrating annotator characteristics and label text with a transformer-based model to detect hate speech, with unique representations based on each annotator's characteristics via Collaborative Topic Regression (CTR) and integrate label text to enrich textual representations. During training, the model associates annotators with their label choices given a piece of text; during evaluation, when label information is not available, the model predicts the aggregated label given by the participating annotators by utilising the learnt association. The proposed approach displayed an advantage in detecting hate speech, especially in the minority class and edge cases with annotator disagreement. Improvement in the overall performance is the largest when the dataset is more label-imbalanced, suggesting its practical value in identifying real-world hate speech, as the volume of hate speech in-the-wild is extremely small on social media, when compared with normal (non-hate) speech. Through ablation studies, we show the relative contributions of annotator embeddings and label text to the model performance, and tested a range of alternative annotator embeddings and label text combinations.
translated by 谷歌翻译
信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况,已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外,从而减少信任,因此有必要创建可解释和可解释的模型。因此,我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据,XGBoost在仇恨言语检测上的表现优于LSTM,Autogluon和ULMFIT模型,F1得分为0.75,而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时,XGBoost的性能优于LSTM,Autogluon和Ulmfit;仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79,XGBOOST的表现也比LSTM,Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明(SHAP),以使其与Black-Box模型相比,与LSTM,Autogluon和Ulmfit相比,它可以解释和解释。
translated by 谷歌翻译
姿态检测的目标是确定以目标朝向目标的文本中表达的视点。这些观点或上下文通常以许多不同的语言表达,这取决于用户和平台,这可以是本地新闻插座,社交媒体平台,新闻论坛等。然而,姿态检测的大多数研究已经限于使用单一语言和几个有限的目标,在交叉舌姿态检测很少有效。此外,标记数据的非英语来源通常稀缺,并具有额外的挑战。最近,大型多语言语言模型在许多非英语任务上大大提高了性能,尤其是具有有限数量的示例。这突出了模型预培训的重要性及其从少数例子中学习的能力。在本文中,我们展示了对日期交叉姿态检测的最全面的研究:我们在6名语言系列中使用12种语言的12种不同的数据集进行实验,每个都有6个低资源评估设置。对于我们的实验,我们构建了模式开发培训,提出了添加一种新颖的标签编码器来简化言语程序。我们进一步提出了基于情绪的姿态数据进行预培训,这在与几个强的基线相比,在低拍摄环境中显示了大量的6%F1绝对的增长。
translated by 谷歌翻译
我们提出了一种可解释的关系提取方法,通过共同训练这两个目标来减轻概括和解释性之间的张力。我们的方法使用多任务学习体系结构,该体系结构共同训练分类器以进行关系提取,并在解释关系分类器的决策的关系中标记单词的序列模型。我们还将模型输出转换为规则,以将全局解释带入这种方法。使用混合策略对此序列模型进行训练:有监督,当可获得预先存在的模式的监督时,另外还要半监督。在后一种情况下,我们将序列模型的标签视为潜在变量,并学习最大化关系分类器性能的最佳分配。我们评估了两个数据集中的提议方法,并表明序列模型提供了标签,可作为关系分类器决策的准确解释,并且重要的是,联合培训通常可以改善关系分类器的性能。我们还评估了生成的规则的性能,并表明新规则是手动规则的重要附加功能,并使基于规则的系统更接近神经模型。
translated by 谷歌翻译
许多可解释性工具使从业人员和研究人员可以解释自然语言处理系统。但是,每个工具都需要不同的配置,并提供不同形式的解释,从而阻碍了评估和比较它们的可能性。原则上的统一评估基准将指导用户解决中心问题:哪种解释方法对我的用例更可靠?我们介绍了雪貂,这是一个易于使用的,可扩展的Python库,以解释与拥抱面枢纽集成的基于变形金刚的模型。它提供了一个统一的基准测试套件来测试和比较任何文本或可解释性语料库的广泛最先进的解释器。此外,雪貂提供方便的编程摘要,以促进新的解释方法,数据集或评估指标的引入。
translated by 谷歌翻译
构建用于仇恨语音检测的基准数据集具有各种挑战。首先,因为仇恨的言论相对少见,随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题,先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而,将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意,而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索(IR)中的相关性。此连接表明,可以有效地应用创建IR测试集合的良好方法,以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文,我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值,我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集,其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时,我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明,而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。
translated by 谷歌翻译
最先进的文本分类器的大尺寸和复杂的决策机制使人类难以理解他们的预测,导致用户缺乏信任。这些问题导致采用Shail和集成梯度等方法来解释分类决策,通过为输入令牌分配重要性分数。然而,使用不同的随机化测试之前的工作表明,通过这些方法产生的解释可能不具有稳健性。例如,对测试集的相同预测的模型可能仍然导致不同的特征重要性排名。为了解决基于令牌的可解释性缺乏稳健性,我们探讨了句子等更高语义层面的解释。我们使用计算指标和人类主题研究来比较基于令牌的句子的解释的质量。我们的实验表明,更高级别的特征属性提供了几个优点:1)由于随机化测试测量,2)当使用近似的基于方法等诸如Shav等的方法来说,它们更加强大,并且3)它们更容易理解在语言相干性在更高的粒度水平上存在的情况下的人类。基于这些调查结果,我们表明,令牌的可解释性,同时是鉴于ML模型的输入接口的方便的首选,不是所有情况中最有效的选择。
translated by 谷歌翻译
我们提出了一种具有有限目标语言数据的交叉语言内容标记的新颖框架,这在预测性能方面显着优于现有的工作。该框架基于最近的邻居架构。它是Vanilla K-最近邻模型的现代实例化,因为我们在所有组件中使用变压器表示。我们的框架可以适应新的源语言实例,而无需从头开始侦察。与基于邻域的方法的事先工作不同,我们基于查询邻的交互对邻居信息进行编码。我们提出了两个编码方案,并使用定性和定量分析显示其有效性。我们的评估结果是来自两个不同数据集的八种语言,用于滥用语言检测,在强大的基线上,可以在F1中显示最多9.5(对于意大利语)的大量改进。平均水平,我们在拼图式多语言数据集中的三种语言中实现了3.6的F1改进,2.14在WUL数据集的F1中的改进。
translated by 谷歌翻译
由于细微偏见,主观性和难以在规模上获得良好质量的数据集,尤其考虑到社会偏见和社会的不断变化本质,检测文本中的社会偏见是挑战。为了解决这些挑战,我们提出了一些基于指令的基于指令的方法,以提示预先接受预先接受的语言模型(LMS)。我们从最接近查询的小型支持存储库中选择一些标签平衡的示例,以便在嵌入空间中标记。然后,我们向LM提供由标记示例的此子集的指令,查询文本被分类,偏差定义,并提示它做出决定。我们证明了几次上下文中使用的大型LMS可以检测不同类型的细粒度偏差,具有与微调模型的相似且有时卓越的精度。我们观察到,与较小模型相比,最大的530B参数模型在检测社会偏差方面明显更有效(与其他模型相比,在AUC度量上实现至少20%)。它还在几张拍摄设置中保持高AUC(掉落小于5%),其中标记的存储库减少到100个样本的少量。因此,大型预制语言模型使得更容易且更快地建立新的偏置探测器。
translated by 谷歌翻译