标记数据是大多数自然语言处理任务的基础。但是,标记数据很困难,并且通常对正确的数据标签应该是什么不同的有效信念。到目前为止,数据集创建者已承认注释主观性,但在注释过程中没有主动管理它。这导致部分主观的数据集未能提供明确的下游使用。要解决此问题,我们提出了两个对比的数据注释范式。描述性范式鼓励注释主观性,而规定的范式则劝阻。描述性注释允许对不同信念进行测量和建模,而规定的注释使得能够培训持续应用一个信仰的模型。我们讨论实施宗旨的福利和挑战,并争辩说,数据集创建者应该明确瞄准一个或另一个,以促进其数据集的预期使用。最后,我们设计了一个注释实验,以说明两种范例之间的对比。
translated by 谷歌翻译
构建用于仇恨语音检测的基准数据集具有各种挑战。首先,因为仇恨的言论相对少见,随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题,先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而,将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意,而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索(IR)中的相关性。此连接表明,可以有效地应用创建IR测试集合的良好方法,以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文,我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值,我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集,其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时,我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明,而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。
translated by 谷歌翻译
Supervised approaches generally rely on majority-based labels. However, it is hard to achieve high agreement among annotators in subjective tasks such as hate speech detection. Existing neural network models principally regard labels as categorical variables, while ignoring the semantic information in diverse label texts. In this paper, we propose AnnoBERT, a first-of-its-kind architecture integrating annotator characteristics and label text with a transformer-based model to detect hate speech, with unique representations based on each annotator's characteristics via Collaborative Topic Regression (CTR) and integrate label text to enrich textual representations. During training, the model associates annotators with their label choices given a piece of text; during evaluation, when label information is not available, the model predicts the aggregated label given by the participating annotators by utilising the learnt association. The proposed approach displayed an advantage in detecting hate speech, especially in the minority class and edge cases with annotator disagreement. Improvement in the overall performance is the largest when the dataset is more label-imbalanced, suggesting its practical value in identifying real-world hate speech, as the volume of hate speech in-the-wild is extremely small on social media, when compared with normal (non-hate) speech. Through ablation studies, we show the relative contributions of annotator embeddings and label text to the model performance, and tested a range of alternative annotator embeddings and label text combinations.
translated by 谷歌翻译
人类注释在机器学习(ML)研究和开发中发挥着至关重要的作用。然而,正在建立ML数据集的过程和决策周围的道德考虑并没有接近足够的重视。在本文中,我们调查了一系列文献,这些文献提供了对众群数据集注释的道德考虑的洞察。我们综合这些见解,并沿着两层奠定了这个空间中的挑战:(1)注释者是谁,并且注释者的生活经验如何影响他们的注释,以及注释器与众群平台之间的关系那么这种关系都为他们提供了什么。最后,我们在ML数据流水线的各个阶段提出了一个具体的建议和考虑因素,以ML数据流水线的各个阶段:任务制定,选择注释,平台和基础架构选择,数据集分析和评估以及数据集文档和发布。
translated by 谷歌翻译
使用机器学习(ML)语言模型(LMS)来监视内容在线上升。对于有毒文本识别,使用由注释器标记的数据集来执行任务特定的微调,这些模型是在努力区分攻击性和正常内容之间的基础标签的数据集。这些项目随着时间的推移,大型数据集的开发,改进和扩展,并对自然语言进行了贡献。尽管取得了成就,但现有的证据表明,在这些数据集上建立的ML模型并不总是导致理想的结果。因此,使用设计科学研究(DSR)方法,该研究审查了选定的有毒文本数据集,其目标是在一些内在的问题上脱落,并有助于讨论导航现有和未来项目的这些挑战。为了实现该研究的目标,我们重新注释了来自三个有毒文本数据集的样本,并发现一个用于注释有毒文本样本的多标签方法可以有助于提高数据集质量。虽然这种方法可能不会改善互联网间协议的传统指标,但它可能更好地捕获对注释器中的上下文和多样性的依赖。我们讨论了这些结果对理论和实践的影响。
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译
\ textbf {攻击性内容警告}:本文仅包含进攻性语言,仅用于提供阐明这项研究的示例,并且不反映作者的意见。请注意,这些例子是令人反感的,可能会导致您困扰。识别\ textit {仇恨言语}的主观性使其成为一项复杂的任务。 NLP中的不同和不完整的定义也反映了这一点。我们提出\ textit {仇恨言论}标准,以法律和社会科学的观点开发,目的是帮助研究人员创建有关五个方面的更精确的定义和注释指南:(1)目标群体,(2)优势,(3)(3)肇事者特征,(4)否定组参考的类型和(5)潜在后果/效果的类型。可以对定义进行构建,从而涵盖更广泛或更狭窄的现象。因此,可以在指定标准或使其打开的情况下做出有意识的选择。我们认为,目标开发人员的目标和确切的任务应确定\ textit {仇恨言语}的范围的定义。我们从\ url {hatespeechdata.com}概述了英语数据集的属性,该属性可能有助于为特定方案选择最合适的数据集。
translated by 谷歌翻译
语言的感知毒性可能会因某人的身份和信仰而有所不同,但是在收集有毒语言数据集时往往忽略这种变化,从而导致数据集和模型偏差。我们寻求理解谁,为什么,以及毒性注释的偏见背后。在两个在线研究中具有人口统计地和政治上的参与者,我们调查了注释者身份(世卫组织)和信仰的影响(为什么),从社会心理学研究中汲取仇恨言语,自由言论,种族主义信念,政治倾向等。我们解除了通过考虑三个特征的帖子作为毒性的毒性:反黑色语言,非洲裔美国英语(AAE)方言和粗俗。我们的结果显示了注释者身份和信仰之间的强有力的协会及其毒性评级。值得注意的是,更保守的注释者和那些对我们的种族信仰规模的评分的人不太可能对毒黑语言归因于毒性,但更有可能将AAE归因于毒性。我们还提供了一个案例研究,说明了流行的毒性检测系统的评级如何自然地反映特定的信念和观点。我们的调查结果要求社会变量中的毒性标签,这提高了对有毒语言注释和检测的巨大影响。
translated by 谷歌翻译
可解释的NLP(EXNLP)越来越关注收集人类注释的文本解释。这些解释在三种方面使用下游:作为数据增强,以提高预测任务的性能,因为对培训模型的监督,为他们的预测产生解释,以及评估模型生成的解释的理论。在本次审查中,我们识别65个具有三个主要类别的文本解释的数据集(突出显示,自由文本和结构),组织关于注释每种类型的文献,识别现有收集方法的优势和缺点,并为收集EXNLP数据集提供建议在将来。
translated by 谷歌翻译
仇恨言语检测模型通常在持有的测试集上评估。但是,这有可能因为仇恨言语数据集中越来越有据可查的系统差距和偏见,因此绘制模型性能的不完整且潜在的误导性图片。为了实现更多针对性的诊断见解,最近的研究引入了仇恨言语检测模型的功能测试。但是,这些测试目前仅针对英语内容,这意味着它们无法支持全球数十亿语言所说的其他语言中更有效模型的开发。为了帮助解决这个问题,我们介绍了多语言Hatecheck(MHC),这是一套用于多语言仇恨言语检测模型的功能测试。 MHC涵盖了跨十种语言的34个功能,这比任何其他仇恨语音数据集更多。为了说明MHC的效用,我们训练和测试了高性能的多语言仇恨语音检测模型,并揭示了单语和跨语性应用的关键模型弱点。
translated by 谷歌翻译
Human variation in labeling is often considered noise. Annotation projects for machine learning (ML) aim at minimizing human label variation, with the assumption to maximize data quality and in turn optimize and maximize machine learning metrics. However, this conventional practice assumes that there exists a ground truth, and neglects that there exists genuine human variation in labeling due to disagreement, subjectivity in annotation or multiple plausible answers. In this position paper, we argue that this big open problem of human label variation persists and critically needs more attention to move our field forward. This is because human label variation impacts all stages of the ML pipeline: data, modeling and evaluation. However, few works consider all of these dimensions jointly; and existing research is fragmented. We reconcile different previously proposed notions of human label variation, provide a repository of publicly-available datasets with un-aggregated labels, depict approaches proposed so far, identify gaps and suggest ways forward. As datasets are becoming increasingly available, we hope that this synthesized view on the 'problem' will lead to an open discussion on possible strategies to devise fundamentally new directions.
translated by 谷歌翻译
道德是人类最长的智力努力之一。近年来,AI和NLP的领域试图撰写与学习系统的与人类相互作用的学习系统,应该被限制为行为道德。该静脉中的一个提议是建立道德模型,可以采取任意文本,并输出关于所描述的情况的道德判断。在这项工作中,我们专注于对最近提出的Delphi模型的单一案例研究,并为该项目的建议自动化道德判决提供了批评。通过对Delphi的审计,我们检查更广泛的问题,适用于任何类似的尝试。我们讨论了机器道德如何通过专注于技术的当前和近期使用技术的方式来讨论机器伦理,以透明度,民主价值观,并允许直接的责任。
translated by 谷歌翻译
Due to the severity of the social media offensive and hateful comments in Brazil, and the lack of research in Portuguese, this paper provides the first large-scale expert annotated corpus of Brazilian Instagram comments for hate speech and offensive language detection. The HateBR corpus was collected from the comment section of Brazilian politicians' accounts on Instagram and manually annotated by specialists, reaching a high inter-annotator agreement. The corpus consists of 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), offensiveness-level classification (highly, moderately, and slightly offensive), and nine hate speech groups (xenophobia, racism, homophobia, sexism, religious intolerance, partyism, apology for the dictatorship, antisemitism, and fatphobia). We also implemented baseline experiments for offensive language and hate speech detection and compared them with a literature baseline. Results show that the baseline experiments on our corpus outperform the current state-of-the-art for the Portuguese language.
translated by 谷歌翻译
在这项工作中,我们探讨了叙事分析中通道间分歧的来源,鉴于文本中是否存在叙事情节的问题。为此,我们提出了一种将现有注释概念分解为两个单独级别的方法:(1)\ textbf {是否存在叙事图,以及(2)\ textbf {prot存在于文本中。我们将此方法应用于带有三个不同叙事绘图元素注释的句子的现有数据集:\ textit {homesisions},\ textit {nesolution {nosolution}和\ textit {success}。然后,我们采用统计分析,以量化两个级别中的每个级别可以解释多少通道分歧。我们进一步对每个级别的分歧案例进行定性分析,观察几种分歧来源,例如文本歧义,方案定义和注释者之间的个人差异。在数据集上收集的见解可能有助于减少未来注释努力中的通道间分歧。最后,我们在研究和评估其他环境中研究和评估通知者分歧方面的潜在含义进行了更广泛的讨论。
translated by 谷歌翻译
有毒语言检测系统通常会错误地将包含少数群体群体提及的毒性的错误标记文本,因为这些群体通常是在线仇恨的目标。这种对虚假相关性的过度依赖也导致系统在检测隐式有毒语言方面挣扎。为了帮助缓解这些问题,我们创建了Toxigen,这是一个新的大规模和机器生成的数据集,该数据集是274K有毒和良性陈述,约有13个少数群体。我们开发了一个基于示范的提示框架和一种对抗性分类器的解码方法,以使用大量预处理的语言模型生成微妙的有毒和良性文本。以这种方式控制机器的生成使毒素可以比以前的人写文本的资源更大的规模和大约人口组覆盖隐式有毒文本。我们对毒素的一个充满挑战的子集进行人体评估,发现注释者难以区分机器生成的文本和人类写的语言。我们还发现,94.5%的有毒例子被人类注释者标记为仇恨言论。我们使用三个公开可用的数据集,我们表明,对我们的数据进行毒性分类器的填充可以大大提高其在人体编写数据上的性能。我们还证明,毒素可用于抵抗机器生成的毒性,因为鉴定在我们的评估子集中大大改善了分类器。我们的代码和数据可以在https://github.com/microsoft/toxigen上找到。
translated by 谷歌翻译
我们介绍了仇恨言论推文的Hateval语料库(Basile等,2019年)的丰富,旨在促进自动化的反叙事一代。与以前的工作相比(Chung etal。2019),手动书面反叙事与推文有关。但是,仅此信息似乎不足以获得反叙事生成的令人满意的语言模型。这就是为什么我们还根据Wagemanns(2016)提供了带有争论性信息的注释推文,我们认为可以帮助建立令人信服和有效的反叙事,以针对特定群体进行仇恨言论。我们讨论了这种注释过程的充分和困难,并提出了几个基线以自动检测带注释的元素。初步结果表明,自动注释者会靠近人类注释者来检测论证的某些方面,而其他人仅达到低或中等水平的通知者一致性。
translated by 谷歌翻译
适当的评估和实验设计对于经验科学是基础,尤其是在数据驱动领域。例如,由于语言的计算建模成功,研究成果对最终用户产生了越来越直接的影响。随着最终用户采用差距的减少,需求增加了,以确保研究社区和从业者开发的工具和模型可靠,可信赖,并且支持用户的目标。在该立场论文中,我们专注于评估视觉文本分析方法的问题。我们从可视化和自然语言处理社区中采用跨学科的角度,因为我们认为,视觉文本分析的设计和验证包括超越计算或视觉/交互方法的问题。我们确定了四个关键的挑战群,用于评估视觉文本分析方法(数据歧义,实验设计,用户信任和“大局”问题),并从跨学科的角度为研究机会提供建议。
translated by 谷歌翻译
我们提出了一种新颖的三阶段查找解析标签工作流程,用于众包注释,以减少任务指令中的模糊性,从而提高注释质量。第1阶段(查找)询问人群找到其正确标签似乎暧昧的任务指令的示例。还要求工人提供一个简短的标签,它描述了所发现的特定实例体现的模糊概念。我们比较这个阶段的合作与非协作设计。在第2阶段(解析)中,请求者选择一个或多个这些模糊的例子到标签(解析歧义)。新标签将自动注入任务说明,以提高清晰度。最后,在第3阶段(标签)中,工人使用经修订的指南进行实际注释,澄清示例。我们比较三个使用这些示例的设计:仅限示例,仅标记或两者。我们通过亚马逊机械土耳其报告六个任务设计中的图像标记实验。结果显示了有关众包注释任务的有效设计的提高的注释准确性和进一步的见解。
translated by 谷歌翻译
自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释,这是过去十年来大多数心理健康语言计算研究背后的结论。但是,精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康,无论是由于治疗还是其他缓解因素。我们问:随着时间的推移,心理健康诊断的自我诊断的自我限制在多大程度上?我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动,反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据,证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议,用于改善使用自lif诊诊断策划的心理健康数据集:1)注释诊断日期和精神病合并症; 2)使用倾向得分匹配的样本对照组; 3)识别和删除选择偏差引入的虚假相关性。
translated by 谷歌翻译
我们提出了一种整体方法,用于构建一个可实现的自然语言分类系统,以实现现实世界中的内容适度。这样一个系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法和标签说明的设计,数据质量控制,主动学习管道以捕获罕见事件以及使模型可靠的各种方法并避免过度拟合。我们的审核系统经过培训,可以检测一系列不希望的内容,包括性内容,可恨的内容,暴力,自我伤害和骚扰。这种方法概括为各种不同的内容分类法,可用于创建优于现成模型的高质量内容分类器。
translated by 谷歌翻译