This paper investigates unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that we sholud add two huge caveat that selection of utterance embedding and clustering method in intent induction task should be very careful. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source code for reimplementation will be available at Github.
translated by 谷歌翻译
With the recent advance in neural machine translation demonstrating its importance, research on quality estimation (QE) has been steadily progressing. QE aims to automatically predict the quality of machine translation (MT) output without reference sentences. Despite its high utility in the real world, there remain several limitations concerning manual QE data creation: inevitably incurred non-trivial costs due to the need for translation experts, and issues with data scaling and language expansion. To tackle these limitations, we present QUAK, a Korean-English synthetic QE dataset generated in a fully automatic manner. This consists of three sub-QUAK datasets QUAK-M, QUAK-P, and QUAK-H, produced through three strategies that are relatively free from language constraints. Since each strategy requires no human effort, which facilitates scalability, we scale our data up to 1.58M for QUAK-P, H and 6.58M for QUAK-M. As an experiment, we quantitatively analyze word-level QE results in various ways while performing statistical analysis. Moreover, we show that datasets scaled in an efficient way also contribute to performance improvements by observing meaningful performance gains in QUAK-M, P when adding data up to 1.58M.
translated by 谷歌翻译
随着预培训的语言模型变得更加要求资源,因此资源丰富的语言(例如英语和资源筛选)语言之间的不平等正在恶化。这可以归因于以下事实:每种语言中的可用培训数据量都遵循幂律分布,并且大多数语言都属于分布的长尾巴。一些研究领域试图缓解这个问题。例如,在跨语言转移学习和多语言培训中,目标是通过从资源丰富的语言中获得的知识使长尾语言受益。尽管成功,但现有工作主要集中于尝试尽可能多的语言。结果,有针对性的深入分析主要不存在。在这项研究中,我们专注于单一的低资源语言,并使用跨语性培训(XPT)进行广泛的评估和探测实验。为了使转移方案具有挑战性,我们选择韩语作为目标语言,因为它是一种孤立的语言,因此与英语几乎没有类型的分类。结果表明,XPT不仅优于表现或与单语模型相当,该模型训练有大小的数据,而且在传输过程中也很高。
translated by 谷歌翻译
最近的预训练的语言模型(PLM)通过学习语言特征和上下文化的句子表示,在许多自然语言处理任务上取得了巨大成功。由于未清楚地识别出在PLM的堆叠层中捕获的属性,因此通常首选嵌入最后一层的直接方法,而不是从PLM中得出句子表示。本文介绍了基于注意力的合并策略,该策略使该模型能够保留每一层中捕获的图层信号,并学习下游任务的消化语言特征。对比度学习目标可以使层面上的注意力汇集到无监督和监督的举止。它导致预先训练嵌入的各向异性空间并更均匀。我们评估我们的模型关于标准语义文本相似性(STS)和语义搜索任务。结果,我们的方法改善了基础对比度的BERT_BASE和变体的性能。
translated by 谷歌翻译
随着数字化的传统文化遗产文件迅速增加,导致对保存和管理的需求增加,对实体的实际认可和阶级的典型认识已成为必不可少的。为了实现这一目标,我们提出了Kochet - 韩国文化遗产语料库,用于典型实体相关的任务,即指定的实体识别(NER),关系提取(RE)和实体键入(ET)。根据政府附属组织的数据构建指南的文化遗产专家的建议,科切特分别由NER,RE和ET任务的112,362、38,765、113,198个示例组成,涵盖了与韩国文化遗产有关的所有实体类型。此外,与现有的公共语料库不同,可以允许经过修改的重新分配。我们的实验结果使Kochet的实际可用性在文化遗产方面更有价值。我们还从统计和语言分析方面提供了Kochet的实际见解。我们的语料库可以在https://github.com/gyeeongmin47/kochet上免费获得。
translated by 谷歌翻译
基于对话的关系提取(对话)任务旨在预测对话中出现的论点对之间的关系。大多数先前的研究都使用微调预训练的语言模型(PLM),仅具有广泛的功能来补充多个扬声器对话的低信息密度。为了有效利用PLM的固有知识,没有额外的层次,并考虑有关参数之间关系的分散的语义提示,我们提出了一个使用PINGT(grasp)使用关系语义的指导模型。我们采用基于及时的微调方法,并捕获给定对话的关系语义线索,其中1)参数意识的提示标记策略和2)关系线索检测任务。在实验中,GRASP在对话框数据集上以F1和F1C得分来实现最先进的性能,即使我们的方法仅利用PLM,而无需添加任何额外的层。
translated by 谷歌翻译
由于近年来的视频内容数量已经涌动,因此,当我们只想窥视视频内容时,自动视频摘要就变得有用。但是,通用视频摘要任务中有两个基本限制。首先,大多数以前的方法仅以视觉功能为输入,将其他模态特征留在后面。其次,用于通用视频摘要的现有数据集相对不足以训练字幕生成器和多模式功能提取器。为了解决这两个问题,本文提出了多模式框架得分变压器(MFST)框架,利用视觉,文本和音频功能,并在帧方面对视频进行评分。我们的MFST框架首先使用验证的编码器提取每个模式特征(Visual-Text-Audio)。然后,MFST训练多模式框架得分变压器,该变压器使用视频文本审计表示作为输入并预测框架级别的得分。我们对先前模型和电视和汇总数据集的消融研究进行了广泛的实验,证明了我们提出的方法的有效性和优势。
translated by 谷歌翻译
BlenderBot 2.0是通过使用Internet搜索模块和多次会话来反映实时信息和记住用户信息来表示开放式聊天聊天的对话模型。尽管如此,模型仍然有改进的空间。为此,我们从三个角度检查了BlenderBot 2.0限制和错误:模型,数据和用户。从数据的角度来看,我们突出了在众包流程期间向工人提供的不明确指南,以及缺乏在收集的数据中炼制仇恨言论的过程,并验证基于互联网的信息的准确性。从用户的角度来看,我们确定了百分之九种类型的展示2.0问题,并彻底调查了它们的原因。此外,对于每个观点来说,提出了实际改进方法,我们讨论了几个潜在的未来研究方向。
translated by 谷歌翻译
人类通常通过利用关于他们正在交谈的人的主题和背景信息的先验知识来进行对话。然而,现有的会话代理和数据集不考虑此类综合信息,因此它们有一个限制生成知识和人格正确融合的话语。为解决此问题,我们介绍了一个呼叫进行定制对话(焦点)数据集,其中包括用户的角色和维基百科知识建立了自定义答案。为了评估预先训练的语言模型的信息和定制话语的能力,我们利用BART和GPT-2以及基于变压器的模型。我们评估了他们的生成能力,自动分数并对人类评估进行定性结果。我们仔细检查模型是否反映了我们提出的两个子任务,人物接地(PG)和知识接地(KG)的充分人物和知识。此外,我们表明我们的数据的话语通过接地质量评估来构建具有正确的知识和角色。
translated by 谷歌翻译
我们提出了一个基于深度学习的外语学习平台,命名为FreeLalky,因为使用人形机器人NAO和各种深入学习模型,他们会受到对外语言的焦虑的人。嵌入在NAO的基于角色的对话系统为用户提供了一个有趣和一致的多转对话。此外,语法纠错系统促进了用户语法技能的改进。因此,我们的系统支持基于角色对话的个性化学习,并使用语法错误反馈促进语法学习用户。此外,我们通过人类评估通过替换与NAO机器人的谈话来替换真正的人类,验证了FreeTalky是否提供了减轻卵杆菌的实际帮助。
translated by 谷歌翻译