濒危语言的用户努力在数字化介导的世界中蓬勃发展。我们开发了一种自动化方法,用于评估ISO 639认可的每种语言在数字语言支持方面的表现。该评估是基于从143个数字工具的网站上删除支持语言的名称,以代表数字技术可以支持语言的各种方式。该方法使用Mokken量表分析来生成可解释的模型,以量化数字语言支持并在全球范围内监视它。
translated by 谷歌翻译
选举演讲在交流候选人的愿景和使命中起着不可或缺的作用。从崇高的承诺到泥泞,选举候选人都对所有人说明了。但是,关于选民究竟赢得了什么胜利,仍然存在一个公开的问题。在这项工作中,我们使用最先进的自然语言处理方法来研究共和党候选人唐纳德·特朗普(Donald Trump)和民主党候选人乔·拜登(Joe Biden)的讲话和情感,他们争夺2020年美国总统大选。比较美国的种族二分法,我们分析了导致不同候选人的胜利和失败的原因。我们认为,这项工作将为选举竞选策略提供信息,并为与各种人群进行沟通提供基础。
translated by 谷歌翻译
最近,通过“向导”模拟游戏收集了一类以任务为导向的对话(TOD)数据集。但是,《巫师》数据实际上是模拟的数据,因此与现实生活中的对话根本不同,这些对话更加嘈杂和随意。最近,Seretod挑战赛是组织的,并发布了Mobilecs数据集,该数据集由来自中国移动的真实用户和客户服务人员之间的真实世界对话框组成。基于Mobilecs数据集,Seretod挑战具有两个任务,不仅评估了对话系统本身的构建,而且还检查了对话框成绩单中的信息提取,这对于建立TOD的知识库至关重要。本文主要介绍了Mobilecs数据集对这两项任务的基线研究。我们介绍了如何构建两个基线,遇到的问题以及结果。我们预计基线可以促进令人兴奋的未来研究,以建立针对现实生活任务的人类机器人对话系统。
translated by 谷歌翻译
作为世界上口语最广泛的语言之一,孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论,其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中,英语的讽刺检测有了显着改善,但是有关孟加拉讽刺检测的情况仍然没有改变。结果,仍然很难识别孟加拉国中的讽刺,缺乏高质量的数据是主要因素。本文提出了Banglasarc,该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台(例如Facebook,YouTube)以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限,因此该数据集将有助于确定讽刺的研究,认识到人们的情绪,检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。
translated by 谷歌翻译
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真。通常,由于教师和学生之间的不可忽略的差距,更好的教师模型通过蒸馏导致不良学生。为了弥合差距,我们提出了一种渐进式蒸馏方法,以进行致密检索。产品由教师渐进式蒸馏和数据进行渐进的蒸馏组成,以逐步改善学生。我们对五个广泛使用的基准,MARCO通道,TREC Passage 19,TREC文档19,MARCO文档和自然问题进行了广泛的实验,其中POD在蒸馏方法中实现了密集检索的最新方法。代码和模型将发布。
translated by 谷歌翻译
迄今为止对文本生成的评估主要集中在依次创建的内容上,而不是对文本的改进。但是,写作自然是一个迭代和增量过程,需要在不同的模块化技能上进行专业知识,例如修复过时的信息或使样式更加一致。即便如此,对模型执行这些技能和编辑能力的模型能力的全面评估仍然很少。这项工作介绍了EditeVal:基于指导的,基准和评估套件,该套件利用现有的现有和新数据集自动评估编辑功能,例如使文本更具凝聚力和释义。我们评估了几种预训练的模型,这表明指令和同伴表现最好,但是大多数基准都落在监督的SOTA以下,尤其是在中和和更新信息时。我们的分析还表明,用于编辑任务的常用指标并不总是很好地关联,并且对具有最高性能的提示的优化并不一定带来对不同模型的最强鲁棒性。通过发布此基准和公开可用的排行榜挑战,我们希望在开发能够迭代和更可控制的编辑模型中解锁未来的研究。
translated by 谷歌翻译
视频和文本之间的跨模式检索因网络上的视频迅速出现而越来越多。通常,视频包含丰富的实例和事件信息,查询文本仅描述了信息的一部分。因此,视频可以对应于多个不同的文本说明和查询。我们将此现象称为``视频文本对应歧义''问题。当前技术主要集中于挖掘视频和文本内容之间的本地或多级对齐(\ textit {e.g。},对实体和动词的动作对象)。这些方法很难通过仅使用一个单个功能来描述视频来减轻视频文本的歧义,这需要同时与多个不同的文本功能匹配。为了解决这个问题,我们提出了一个文本自适应多个视觉原型匹配模型,该模型会自动捕获多个原型,以通过自适应聚合视频令牌功能来描述视频。给定查询文本,相似性由最相似的原型确定,以在视频中找到对应关系,该视频称为文本自适应匹配。为了学习代表视频中丰富信息的多种原型,我们提出了差异损失,以鼓励不同的原型参与视频的不同内容。我们的方法在四个公共视频检索数据集上优于最先进的方法。
translated by 谷歌翻译
机器翻译系统(MTS)是通过将文本或语音从一种语言转换为另一种语言的有效工具。在像印度这样的大型多语言环境中,对有效的翻译系统的需求变得显而易见,英语和一套印度语言(ILS)正式使用。与英语相反,由于语料库的不可用,IL仍然被视为低资源语言。为了解决不对称性质,多语言神经机器翻译(MNMT)系统会发展为在这个方向上的理想方法。在本文中,我们提出了一个MNMT系统,以解决与低资源语言翻译有关的问题。我们的模型包括两个MNMT系统,即用于英语印度(一对多),另一个用于指示英语(多一对多),其中包含15个语言对(30个翻译说明)的共享编码器码头。由于大多数IL对具有很少的平行语料库,因此不足以训练任何机器翻译模型。我们探索各种增强策略,以通过建议的模型提高整体翻译质量。最先进的变压器体系结构用于实现所提出的模型。大量数据的试验揭示了其优越性比常规模型的优势。此外,本文解决了语言关系的使用(在方言,脚本等方面),尤其是关于同一家族的高资源语言在提高低资源语言表现方面的作用。此外,实验结果还表明了ILS的倒退和域适应性的优势,以提高源和目标语言的翻译质量。使用所有这些关键方法,我们提出的模型在评估指标方面比基线模型更有效,即一组ILS的BLEU(双语评估研究)得分。
translated by 谷歌翻译
本文分析了三种具有不同韵律系统的语言的违反语音数据集:英语,韩语和泰米尔语。我们检查39个声学测量值,反映了三个语音维度,包括语音质量,发音和韵律。作为多语言分析,通过可理解水平对声学测量的平均值进行检查。此外,执行自动清晰度分类以审查语言设置的最佳功能。分析表明发音特征,例如正确的辅音百分比,正确的元音百分比以及正确的音素比例为语言无关的测量。但是,语音质量和韵律特征通常通过语言呈现不同的方面。实验结果还表明,不同的语音维度对不同的语言起着更大的作用:英语的韵律,韩语的发音,韵律和泰米尔语的发音。本文有助于言语病理学,因为它在英语,韩语和泰米尔语构想中的可理解分类中区分了与语言无关和语言依赖性测量。
translated by 谷歌翻译
了解出版物思想的起源和影响对于进行科学研究至关重要。但是,科学出版物的扩散使研究人员难以弄清所有相关文献的演变。为此,我们介绍了Ideareader,这是一种机器阅读系统,发现哪些论文最有可能激发或受到目标出版物的影响,并以自然语言总结了这些论文的想法。具体而言,Ideareader首先将目标出版物的参考和引用(一阶或高阶)和所获得的集群视为激发或受到目标出版物影响的主题。然后,它从每个集群中挑选出重要的论文来提取想法流的骨骼。最后,Ideareader会自动生成对每个主题中重要论文的文献综述。我们的系统可以帮助研究人员深入了解科学思想如何通过自动生成的调查和想法流的可视化来从目标出版物的引用引用。
translated by 谷歌翻译