自2016年成立以来,Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟,同时达到至少4.0/5.0的平均评分。但是,由于对话代理商试图帮助用户完成日益复杂的任务,因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上,通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求,同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求,识别和集成任务和域知识,并开发新的方式,不分散用户的注意力,而不必分散他们的任务,以及其他挑战。本文概述了Taskbot挑战赛,描述了使用Cobot Toolkit提供给团队提供的基础架构支持,并总结了参与团队以克服研究挑战所采取的方法。最后,它分析了比赛第一年的竞争任务机器人的性能。
translated by 谷歌翻译
在语言处理的神经方法上的最新进展引发了人们对建立智能开放域聊天机器人的兴趣的复兴。但是,即使是最先进的神经聊天机器人也无法在对话框中每个回合产生令人满意的响应。一个实用的解决方案是为相同上下文生成多个响应候选者,然后执行响应排名/选择以确定哪个候选者是最好的。先前的响应选择中的工作通常使用从现有对话框形成的合成数据来训练响应排名者,通过使用地面真理响应作为单个适当的响应并通过随机选择或使用对抗方法来构建不适当的响应。在这项工作中,我们策划了一个数据集,其中为适当的(正)和不适当(负)手动注释了为相同对话框上下文产生的多个响应发生器的响应。我们认为,这样的培训数据可以更好地匹配实际的用例示例,从而使模型能够有效地对响应进行排名。有了这个新数据集,我们对最先进的响应选择方法进行了系统的评估,并证明,使用多个积极候选者和使用手动验证的硬性负面候选者的两种策略都可以与使用相比,可以带来重大的绩效提高对抗性训练数据,例如,召回@1分别增加了3%和13%。
translated by 谷歌翻译
尽管基于大型神经模型的聊天机器人通常可以在开放域对话中产生流利的响应,但一种显着的错误类型是矛盾或与上述对话转弯的不一致性。以前的工作将机器人响应中的矛盾检测视为类似于自然语言推断的任务,例如检测一对机器人话语之间的矛盾。但是,对话中的话语可能包含共同引用或省略号,并且使用这些话语可能并不总是足以识别矛盾。这项工作旨在通过重写所有机器人话语来恢复前因和省略号来改善矛盾检测。我们策划了一个新的数据集来重写话语,并在其上构建了重写模型。我们从经验上证明,该模型可以产生令人满意的重写,以使机器人说话更加完整。此外,使用重写的话语可以显着提高矛盾的检测性能,例如AUPR和关节准确度得分(检测矛盾以及证据)分别增加6.5%和4.5%(绝对增加)。
translated by 谷歌翻译
虽然通常可以使用丰富的开放域文本数据,并且可能包括有趣的现象(幽默,讽刺,移情等),大多数是用于语言处理任务的设计,并且通常采用非交流格式。在这项工作中,我们朝着使用生成的对话网络自动生成对话数据迈出了一步,旨在从可用的语言和知识数据的广度中受益,并培训开放式域社交对话代理。我们使用自动指标和人类评估符在主题聊天数据集上有或没有知识的对话中评估我们的方法。我们的结果表明,对于没有知识基础的对话,GCN可以从种子数据中概括,产生新颖的对话,这些对话较小,但更具吸引力,并且对于知识的对话,它可以产生更多以知识为中心,流利和引人入胜的对话。具体而言,我们表明,对于使用10 \%种子数据的开放域对话,我们的方法靠近使用100%数据的基线,而对于知识接地的对话,它仅使用1%数据,关于人类参与性,流利性和相关性的评级。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译
已经证明,提供对话模型,可以使开放域的对话更加丰富和引人入胜。现有模型将知识选择视为单独处理每个句子的句子排名或分类问题,忽略了后台文档中句子之间的内部语义连接。在这项工作中,我们建议自动将背景知识文档转换为文档语义图,然后在此类图上执行知识选择。我们的文档语义图通过使用句子节点来保留句子级信息,并提供句子之间的概念连接。我们共同将多任务学习用于句子级别和概念级知识选择,并表明它改善了句子级别的选择。我们的实验表明,我们的基于语义图的知识选择改进了知识选择任务和Holle的端到端响应生成任务的句子选择基线,并改善了WOW中看不见的主题的概括。
translated by 谷歌翻译
利用自然语言任务描述提示输入已成为一种流行的机制,可以从大规模生成语言模型中引出合理准确的输出,几乎没有内心的监督。这也有助于深入了解语言模型如何纯粹捕获广泛的下游任务的语义,这些任务纯粹是在未标记文本的大规模集团上的自我监督的预训练中。这些模型自然也暴露于许多不良内容,如种族主义和性别歧视语言,并且有限地涉及沿着这些尺寸的模型的认识。在本文中,我们定义和全面评估了这种语言模型如何捕获四项任务的语义:诊断,识别,提取和重新展示。我们为这些任务定义了三个广泛的任务描述:语句,问题和完成,每个类内都有许多词汇变体。我们使用这些类和少量解码方法和少量示例的零任务描述来研究提示每项任务的功效。我们的分析表明,语言模型能够在不同偏差尺寸(例如性别和政治附属)上的不同程度上进行广泛变化的程度。我们相信我们的作品是通过量化当前自我监督目标的限制来实现这种社会学挑战性任务的局限性的重要阶段。
translated by 谷歌翻译
由于自我关注模块的二次空间和时间复杂性,基于变压器的模型在处理长序列中是不高的。为了解决此限制,建议通过分别通过低维投影和行选择来降低线性(模数对数因子)的二次复杂度。这两种型号本质上连接,并了解他们的连接,我们介绍了矩阵素描的理论框架。基于理论分析,我们提出了Skeinformer加速自我关注,进一步提高了三个精心设计的组件的自我关注的准确性:列采样,自适应行标准化和飞行员采样重新利用。关于长距离竞技场(LRA)基准的实验表明,我们的方法以始终如一的较小时间/空间占地面积优于替代方案。
translated by 谷歌翻译
自动评估对开放式对话系统开发有益。但是,标准的单词重叠度量(BLEU,Rouge)与开放式对话系统的人类判断不符合良好。在这项工作中,我们建议使用下一个用户话语的情绪转向或对话级别评估。具体来说,我们提出了三种方法:一种直接预测下一个情绪的方法,以及使用话语或反馈发生器模型预测下一个用户话语的另外两个,然后对其情绪进行分类。实验表明我们的模型在书面和口语开放域对话数据集上表现出现有的自动评估指标。
translated by 谷歌翻译
隐性知识,例如常识,是人类对话的关键。当前的神经反应生成(RG)模型经过训练以直接产生响应,省略了未阐明的隐式知识。在本文中,我们介绍了说话之前的思维(TBS),这是一种首先将隐式常识知识(思考)外部化的生成方法(思考),并使用这些知识来产生响应(speak)。我们期望外部化隐式知识可以更有效地学习,产生更多信息的响应,并实现了更多可解释的模型。我们分析了不同的选择,以收集知识一致的对话,代表隐式知识以及知识和对话之间的过渡。经验结果表明,TBS模型在大多数自动指标上优于端到端和知识增强的RG基准,并通过人类注释者评估,产生更有信息,具体和常识性遵循的响应。 TBS还产生了有意义的知识,并且与85 \%左右的对话有关。
translated by 谷歌翻译