使用机器学习(ML)语言模型(LMS)来监视内容在线上升。对于有毒文本识别,使用由注释器标记的数据集来执行任务特定的微调,这些模型是在努力区分攻击性和正常内容之间的基础标签的数据集。这些项目随着时间的推移,大型数据集的开发,改进和扩展,并对自然语言进行了贡献。尽管取得了成就,但现有的证据表明,在这些数据集上建立的ML模型并不总是导致理想的结果。因此,使用设计科学研究(DSR)方法,该研究审查了选定的有毒文本数据集,其目标是在一些内在的问题上脱落,并有助于讨论导航现有和未来项目的这些挑战。为了实现该研究的目标,我们重新注释了来自三个有毒文本数据集的样本,并发现一个用于注释有毒文本样本的多标签方法可以有助于提高数据集质量。虽然这种方法可能不会改善互联网间协议的传统指标,但它可能更好地捕获对注释器中的上下文和多样性的依赖。我们讨论了这些结果对理论和实践的影响。
translated by 谷歌翻译
适当的评估和实验设计对于经验科学是基础,尤其是在数据驱动领域。例如,由于语言的计算建模成功,研究成果对最终用户产生了越来越直接的影响。随着最终用户采用差距的减少,需求增加了,以确保研究社区和从业者开发的工具和模型可靠,可信赖,并且支持用户的目标。在该立场论文中,我们专注于评估视觉文本分析方法的问题。我们从可视化和自然语言处理社区中采用跨学科的角度,因为我们认为,视觉文本分析的设计和验证包括超越计算或视觉/交互方法的问题。我们确定了四个关键的挑战群,用于评估视觉文本分析方法(数据歧义,实验设计,用户信任和“大局”问题),并从跨学科的角度为研究机会提供建议。
translated by 谷歌翻译
构建用于仇恨语音检测的基准数据集具有各种挑战。首先,因为仇恨的言论相对少见,随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题,先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而,将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意,而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索(IR)中的相关性。此连接表明,可以有效地应用创建IR测试集合的良好方法,以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文,我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值,我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集,其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时,我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明,而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。
translated by 谷歌翻译
我们提出了一种整体方法,用于构建一个可实现的自然语言分类系统,以实现现实世界中的内容适度。这样一个系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法和标签说明的设计,数据质量控制,主动学习管道以捕获罕见事件以及使模型可靠的各种方法并避免过度拟合。我们的审核系统经过培训,可以检测一系列不希望的内容,包括性内容,可恨的内容,暴力,自我伤害和骚扰。这种方法概括为各种不同的内容分类法,可用于创建优于现成模型的高质量内容分类器。
translated by 谷歌翻译
我们生活中情绪的重要性和普及性使得情感计算了一个非常重要和充满活力的工作。自动情感识别(AER)和情感分析的系统可以是巨大进展的促进者(例如,改善公共卫生和商业),而且还有巨大伤害的推动者(例如,用于抑制持不同政见者和操纵选民)。因此,情感计算社区必须积极地与其创作的道德后果搞。在本文中,我已经从AI伦理和情感认可文学中综合和组织信息,以提出与AER相关的五十个道德考虑因素。值得注意的是,纸张捏出了隐藏在如何框架的假设,并且在经常对数据,方法和评估的选择中的选择。特别关注在隐私和社会群体上的AER对AER的影响。沿途,关键建议是针对负责任的航空制作的。纸张的目标是促进和鼓励更加思考为什么自动化,如何自动化,以及如何在建立AER系统之前判断成功。此外,该纸张作为情感认可的有用介绍文件(补充调查文章)。
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
\ textbf {攻击性内容警告}:本文仅包含进攻性语言,仅用于提供阐明这项研究的示例,并且不反映作者的意见。请注意,这些例子是令人反感的,可能会导致您困扰。识别\ textit {仇恨言语}的主观性使其成为一项复杂的任务。 NLP中的不同和不完整的定义也反映了这一点。我们提出\ textit {仇恨言论}标准,以法律和社会科学的观点开发,目的是帮助研究人员创建有关五个方面的更精确的定义和注释指南:(1)目标群体,(2)优势,(3)(3)肇事者特征,(4)否定组参考的类型和(5)潜在后果/效果的类型。可以对定义进行构建,从而涵盖更广泛或更狭窄的现象。因此,可以在指定标准或使其打开的情况下做出有意识的选择。我们认为,目标开发人员的目标和确切的任务应确定\ textit {仇恨言语}的范围的定义。我们从\ url {hatespeechdata.com}概述了英语数据集的属性,该属性可能有助于为特定方案选择最合适的数据集。
translated by 谷歌翻译
标记数据是大多数自然语言处理任务的基础。但是,标记数据很困难,并且通常对正确的数据标签应该是什么不同的有效信念。到目前为止,数据集创建者已承认注释主观性,但在注释过程中没有主动管理它。这导致部分主观的数据集未能提供明确的下游使用。要解决此问题,我们提出了两个对比的数据注释范式。描述性范式鼓励注释主观性,而规定的范式则劝阻。描述性注释允许对不同信念进行测量和建模,而规定的注释使得能够培训持续应用一个信仰的模型。我们讨论实施宗旨的福利和挑战,并争辩说,数据集创建者应该明确瞄准一个或另一个,以促进其数据集的预期使用。最后,我们设计了一个注释实验,以说明两种范例之间的对比。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
可解释的NLP(EXNLP)越来越关注收集人类注释的文本解释。这些解释在三种方面使用下游:作为数据增强,以提高预测任务的性能,因为对培训模型的监督,为他们的预测产生解释,以及评估模型生成的解释的理论。在本次审查中,我们识别65个具有三个主要类别的文本解释的数据集(突出显示,自由文本和结构),组织关于注释每种类型的文献,识别现有收集方法的优势和缺点,并为收集EXNLP数据集提供建议在将来。
translated by 谷歌翻译
Modal verbs, such as "can", "may", and "must", are commonly used in daily communication to convey the speaker's perspective related to the likelihood and/or mode of the proposition. They can differ greatly in meaning depending on how they're used and the context of a sentence (e.g. "They 'must' help each other out." vs. "They 'must' have helped each other out.") Despite their practical importance in natural language understanding, linguists have yet to agree on a single, prominent framework for the categorization of modal verb senses. This lack of agreement stems from high degrees of flexibility and polysemy from the modal verbs, making it more difficult for researchers to incorporate insights from this family of words into their work. This work presents Moverb dataset, which consists of 27,240 annotations of modal verb senses over 4,540 utterances containing one or more sentences from social conversations. Each utterance is annotated by three annotators using two different theoretical frameworks (i.e., Quirk and Palmer) of modal verb senses. We observe that both frameworks have similar inter-annotator agreements, despite having different numbers of sense types (8 for Quirk and 3 for Palmer). With the RoBERTa-based classifiers fine-tuned on \dataset, we achieve F1 scores of 82.2 and 78.3 on Quirk and Palmer, respectively, showing that modal verb sense disambiguation is not a trivial task. Our dataset will be publicly available with our final version.
translated by 谷歌翻译
The shift of public debate to the digital sphere has been accompanied by a rise in online hate speech. While many promising approaches for hate speech classification have been proposed, studies often focus only on a single language, usually English, and do not address three key concerns: post-deployment performance, classifier maintenance and infrastructural limitations. In this paper, we introduce a new human-in-the-loop BERT-based hate speech classification pipeline and trace its development from initial data collection and annotation all the way to post-deployment. Our classifier, trained using data from our original corpus of over 422k examples, is specifically developed for the inherently multilingual setting of Switzerland and outperforms with its F1 score of 80.5 the currently best-performing BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points in French. Our systematic evaluations over a 12-month period further highlight the vital importance of continuous, human-in-the-loop classifier maintenance to ensure robust hate speech classification post-deployment.
translated by 谷歌翻译
Increasingly taking place in online spaces, modern political conversations are typically perceived to be unproductively affirming -- siloed in so called ``echo chambers'' of exclusively like-minded discussants. Yet, to date we lack sufficient means to measure viewpoint diversity in conversations. To this end, in this paper, we operationalize two viewpoint metrics proposed for recommender systems and adapt them to the context of social media conversations. This is the first study to apply these two metrics (Representation and Fragmentation) to real world data and to consider the implications for online conversations specifically. We apply these measures to two topics -- daylight savings time (DST), which serves as a control, and the more politically polarized topic of immigration. We find that the diversity scores for both Fragmentation and Representation are lower for immigration than for DST. Further, we find that while pro-immigrant views receive consistent pushback on the platform, anti-immigrant views largely operate within echo chambers. We observe less severe yet similar patterns for DST. Taken together, Representation and Fragmentation paint a meaningful and important new picture of viewpoint diversity.
translated by 谷歌翻译
我们研究了自然语言推断(NLI)注释的分歧。我们开发了一种分类来源的分类法,其中10个类别涵盖了3个高级类别。我们发现,某些分歧是由于句子含义的不确定性所致,而另一些分歧是对注释偏见和任务工件的,从而导致对标签分布的不同解释。我们探索了两种用于检测具有潜在分歧的项目的建模方法:除了三个标准NLI标签外,具有“复杂”标签的四向分类以及一种多标签分类方法。我们发现,多标签分类更具表现力,并更好地回忆了数据中可能的解释。
translated by 谷歌翻译
Human variation in labeling is often considered noise. Annotation projects for machine learning (ML) aim at minimizing human label variation, with the assumption to maximize data quality and in turn optimize and maximize machine learning metrics. However, this conventional practice assumes that there exists a ground truth, and neglects that there exists genuine human variation in labeling due to disagreement, subjectivity in annotation or multiple plausible answers. In this position paper, we argue that this big open problem of human label variation persists and critically needs more attention to move our field forward. This is because human label variation impacts all stages of the ML pipeline: data, modeling and evaluation. However, few works consider all of these dimensions jointly; and existing research is fragmented. We reconcile different previously proposed notions of human label variation, provide a repository of publicly-available datasets with un-aggregated labels, depict approaches proposed so far, identify gaps and suggest ways forward. As datasets are becoming increasingly available, we hope that this synthesized view on the 'problem' will lead to an open discussion on possible strategies to devise fundamentally new directions.
translated by 谷歌翻译
自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释,这是过去十年来大多数心理健康语言计算研究背后的结论。但是,精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康,无论是由于治疗还是其他缓解因素。我们问:随着时间的推移,心理健康诊断的自我诊断的自我限制在多大程度上?我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动,反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据,证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议,用于改善使用自lif诊诊断策划的心理健康数据集:1)注释诊断日期和精神病合并症; 2)使用倾向得分匹配的样本对照组; 3)识别和删除选择偏差引入的虚假相关性。
translated by 谷歌翻译
在这项工作中,我们探讨了叙事分析中通道间分歧的来源,鉴于文本中是否存在叙事情节的问题。为此,我们提出了一种将现有注释概念分解为两个单独级别的方法:(1)\ textbf {是否存在叙事图,以及(2)\ textbf {prot存在于文本中。我们将此方法应用于带有三个不同叙事绘图元素注释的句子的现有数据集:\ textit {homesisions},\ textit {nesolution {nosolution}和\ textit {success}。然后,我们采用统计分析,以量化两个级别中的每个级别可以解释多少通道分歧。我们进一步对每个级别的分歧案例进行定性分析,观察几种分歧来源,例如文本歧义,方案定义和注释者之间的个人差异。在数据集上收集的见解可能有助于减少未来注释努力中的通道间分歧。最后,我们在研究和评估其他环境中研究和评估通知者分歧方面的潜在含义进行了更广泛的讨论。
translated by 谷歌翻译
研究界在发现心理健康问题及其与社交媒体分析的相关原因方面见证了大幅增长。我们介绍了一个新的数据集,用于在社交媒体帖子(CAM)中对心理健康问题的因果分析。我们对因果分析的贡献是两方面:因果解释和因果分类。我们为这项因果分析任务引入了注释模式。我们证明了模式在两个不同数据集上的功效:(i)爬行和注释3155个Reddit帖子和(ii)重新通知了1896年实例的公开可用的SDCNL数据集,以进行可解释的因果分析。我们进一步将它们组合到CAMS数据集中,并将此资源与关联的源代码公开可用:https://github.com/drmuskangarg/cams。我们提出了从CAMS数据集中学到的模型的实验结果,并证明了经典的逻辑回归模型以4.9 \%的精度优于下一个最佳(CNN-LSTM)模型。
translated by 谷歌翻译
在本文中,我们讨论了用分层,细粒度标记标记不同类型的侵略和“上下文”的分层的多语言数据集的开发。这里,这里,这里由对话线程定义,其中发生特定的评论以及评论对先前注释执行的话语角色的“类型”。在此处讨论的初始数据集(并作为逗号@图标共享任务的一部分提供),包括四种语言的15,000名注释评论 - Meitei,Bangla,Hindi和印度英语 - 从各种社交媒体平台收集作为Youtube,Facebook,Twitter和电报。正如通常在社交媒体网站上,大量这些评论都是多语种的,主要是与英语混合的代码混合。本文给出了用于注释的标签的详细描述以及开发多标签的过程的过程,该方法可用于标记具有各种侵略和偏差的评论,包括性别偏见,宗教不宽容(称为标签中的公共偏见),类/种姓偏见和民族/种族偏见。我们还定义并讨论已用于标记通过评论执行的异常发挥作用的标记的标签,例如攻击,防御等。我们还对数据集的统计分析以及我们的基线实验的结果进行了发展使用DataSet开发的自动攻击识别系统。
translated by 谷歌翻译