智能论文笔记

Investigating Effect of Dialogue History in Multilingual Task Oriented Dialogue Systems

Michael Sun , Kaili Huang , Mehrad Moradshahi

分类：自然语言处理 | 人工智能

2021-12-23

虽然英语虚拟助手已经实现了令人兴奋的表现，但具有巨大的培训资源，但非英语扬声器的需求并没有满足。截至2021年12月，Alexa是世界上最受欢迎的智能扬声器之一，能够支持9种不同的语言[1]，而世界上有数千种语言，其中91人被超过1000万人所说根据2019年发布的统计数据[2]。但是，培训以其他语言的虚拟助手比英语更困难，特别是对于那些低资源语言而言。缺乏高质量的培训数据限制了模型的性能，导致用户满意度差。因此，我们使用与Bitod [5]相同的数据集生成管道和端到端对话系统体系结构设计了用于多语言任务的对话系统的高效且有效的培训解决方案，该系统为Bitod [5]采用了一些关键设计选择，以实现简约的自然语言使用正式对话状态的设计代替自然语言输入。这减少了较弱的自然语言模型所带来的错误的空间，并确保模型可以正确提取执行对话状态跟踪所需的基本槽值（DST）。我们的目标是减少每次转弯编码的自然语言量，以及我们调查的关键参数是将作为模型历史源的转弯（h）的数量。我们首先探索转折点，其中越来越多的H开始产生限制返回整体性能。然后，我们检查一个小型H错误是否错误的示例可以在模式下对模型进行分类，以便执行几次射门。最后，将探讨这种方法的局限性，以及是否存在这种方法无法解决的某种类型的例子。

translated by 谷歌翻译

针对任务导向的对话系统的强大状态跟踪目前仍然限于一些流行语言。本文显示，给定以一种语言设置的大规模对话数据，我们可以使用机器翻译自动为其他语言生成有效的语义解析器。我们提出了对话数据集的自动翻译，并进行对齐，以确保插槽值的忠实翻译，并消除以前的基准中使用的昂贵人类监督。我们还提出了一种新的上下文语义解析模型，它编码正式的插槽和值，只有最后一个代理和用户话语。我们表明，简洁的表示降低了翻译误差的复合效果，而不会损害实践中的准确性。我们评估我们对几个对话状态跟踪基准的方法。在Risawoz，Crosswoz，Crosswoz-Zh和Multiwoz-Zh Datasets，我们将最先进的技术提高11％，17％，20％和0.3％，以共同的目标准确度。我们为所有三个数据集提供了全面的错误分析，显示错误注释可以模糊模型质量的判断。最后，我们使用推荐方法创建了Risawoz英语和德语数据集。在这些数据集中，准确性在原始的11％以内，表示可能的高精度多语言对话数据集，而无需依赖昂贵的人类注释。

translated by 谷歌翻译

本文介绍了素描的现实，这种方法结合了AR素描和驱动的有形用户界面（TUI），用于双向素描交互。双向草图使虚拟草图和物理对象通过物理驱动和数字计算相互影响。在现有的AR素描中，虚拟世界和物理世界之间的关系只是一个方向 - 虽然物理互动会影响虚拟草图，但虚拟草图对物理对象或环境没有返回效果。相反，双向素描相互作用允许草图和驱动的tuis之间的无缝耦合。在本文中，我们采用桌面大小的小型机器人（Sony Toio）和基于iPad的AR素描工具来演示该概念。在我们的系统中，在iPad上绘制和模拟的虚拟草图（例如，线，墙壁，摆和弹簧）可以移动，动画，碰撞和约束物理Toio机器人，就像虚拟草图和物理对象存在于同一空间中一样通过AR和机器人运动之间的无缝耦合。本文贡献了一组新型的互动和双向AR素描的设计空间。我们展示了一系列潜在的应用，例如有形的物理教育，可探索的机制，儿童有形游戏以及通过素描的原位机器人编程。

translated by 谷歌翻译