在线仇恨言论已成为小时的需求。但是,由于几种地缘政治和文化原因,对此类活动的禁令是不可行的。为了减少问题的严重性,在本文中,我们介绍了一项新颖的任务,仇恨言语归一化,旨在削弱在线帖子表现出的仇恨强度。仇恨言语归一化的意图不是支持仇恨,而是为用户提供对非讨厌的垫脚石,同时为在线平台提供更多时间来监视用户行为的任何改进。为此,我们手动策划了平行语料库 - 仇恨文本及其标准化的同行(标准化文本较不憎恨,更良性)。我们介绍了NACL,这是一个简单而有效的仇恨言语归一化模型,该模型在三个阶段运行 - 首先,它测量了原始样本的仇恨强度;其次,它标识了其中的仇恨跨度;最后,它通过解释仇恨跨度来降低仇恨强度。我们进行了广泛的实验,以通过三向评估(内在,外部和人类研究)来衡量NaCl的功效。我们观察到,NaCl优于六个基准-NACL的强度预测得分为0.1365 RMSE,在SPAN识别中获得0.622 F1分数,而82.27 BLEU和80.05的差异和80.05的困惑为归一化文本生成。我们进一步显示了NACL在其他平台上的普遍性(Reddit,Facebook,GAB)。将NaCl的交互式原型放在一起进行用户研究。此外,该工具正在WIPRO AI的真实环境中部署,这是其在线平台上处理有害内容的任务的一部分。
translated by 谷歌翻译