了解乘客意图和提取相关位置是开发用于自动驾驶车辆(AV)中的自然交互的上下文对话系统的重要构建块。在这项工作中,我们探索了AMIE(自动车辆多模式舱内体验),即负责处理某些乘客车辆互动的舱内代理。当乘客向AMIE发出指令时,代理应该正确地解析这些命令并触发AV系统的适当功能。在我们目前的探索中,我们专注于描述围绕或改变目的地和路线的用途的AMIE场景,更新驾驶行为或完成行程以及其他用例以支持各种自然命令。我们收集了一个多模式的舱内数据集,乘客和AMIE之间通过一个真实的漫游狩猎游戏活动使用Wizard of of Oz方案进行多转对话。在探索了各种最近的基于递归神经网络(RNN)的技术之后,我们引入了我们自己的分级联合模型,以识别乘客意图以及与在AV场景中要执行的动作相关联的相关时隙。我们的实验结果优于某些竞争基线,并且对于话语级意图检测获得了0.91的总体评分,对于插槽填充任务获得了0.96。此外,我们通过比较在人类转录和噪声自动语音识别(ASR)输出上训练和测试的内容/时隙模型,进行了初步的语音到文本探索。最后,我们将单乘客乘坐的结果与多乘客乘坐的结果进行了比较。
translated by 谷歌翻译
随着人工智能的最新进展,智能虚拟助手(IVA)已经成为每个家庭中无处不在的一部分。展望未来,我们正在目睹视觉,语音和对话系统技术的影响,这些技术使IVA能够学习话语的视听基础,并与用户就周围的对象,活动和事件进行对话。作为第7对话系统技术挑战(DSTC7)的一部分,对于Audio VisualScene-Aware Dialog(AVSD)轨道,我们将对话的“主题”作为一个重要的上下文特征进入体系结构,同时探索多模态注意。我们还在我们的模型中加入了端到端的音频分类ConvNet,AclNet。我们提供了详细的实验分析,并表明我们的一些模型变体优于为此任务提供的基线系统。
translated by 谷歌翻译
了解视频片段的影响已将研究人员从语言,音频和视频领域汇集到一起。目前该领域的多模式研究大多涉及融合模态的各种技术,并且最独立地处理视频的片段。在(Zadeh等人,2017)和(Poria等人,2017)的工作的推动下,我们提出了我们的架构,关系张量网络,我们使用段内(段内)的模态间相互作用,并考虑视频模型中的片段序列是片段间模态间的相互作用。我们还通过利用更丰富的音频和语言环境以及融合来自文本的基于细粒度知识的极性分数来生成丰富的文本和音频模态。我们在CMU-MOSEI数据集上展示了我们的模型的结果,并且表明我们的模型优于许多基线和最先进的方法,用于分类和情感识别。
translated by 谷歌翻译
LAMA is a classical planning system based on heuristic forward search. Its core feature is the use of a pseudo-heuristic derived from landmarks, propositional formulas that must be true in every solution of a planning task. LAMA builds on the Fast Downward planning system, using finite-domain rather than binary state variables and multi-heuristic search. The latter is employed to combine the landmark heuristic with a variant of the well-known FF heuristic. Both heuristics are cost-sensitive, focusing on high-quality solutions in the case where actions have non-uniform cost. A weighted A * search is used with iteratively decreasing weights, so that the planner continues to search for plans of better quality until the search is terminated. LAMA showed best performance among all planners in the sequential satisficing track of the International Planning Competition 2008. In this paper we present the system in detail and investigate which features of LAMA are crucial for its performance. We present individual results for some of the domains used at the competition, demonstrating good and bad cases for the techniques implemented in LAMA. Overall, we find that using landmarks improves performance, whereas the incorporation of action costs into the heuristic estimators proves not to be beneficial. We show that in some domains a search that ignores cost solves far more problems, raising the question of how to deal with action costs more effectively in the future. The iterated weighted A * search greatly improves results, and shows synergy effects with the use of landmarks.
translated by 谷歌翻译