问题答案(QA)是自然语言处理中最具挑战性的最具挑战性的问题之一(NLP)。问答(QA)系统试图为给定问题产生答案。这些答案可以从非结构化或结构化文本生成。因此,QA被认为是可以用于评估文本了解系统的重要研究区域。大量的QA研究致力于英语语言,调查最先进的技术和实现最先进的结果。然而,由于阿拉伯QA中的研究努力和缺乏大型基准数据集,在阿拉伯语问答进展中的研究努力得到了很大速度的速度。最近许多预先接受的语言模型在许多阿拉伯语NLP问题中提供了高性能。在这项工作中,我们使用四个阅读理解数据集来评估阿拉伯QA的最先进的接种变压器模型,它是阿拉伯语 - 队,ArcD,AQAD和TYDIQA-GoldP数据集。我们微调并比较了Arabertv2基础模型,ArabertV0.2大型型号和ARAElectra模型的性能。在最后,我们提供了一个分析,了解和解释某些型号获得的低绩效结果。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
使用来自表格(TableQA)的信息回答自然语言问题是最近的兴趣。在许多应用程序中,表未孤立,但嵌入到非结构化文本中。通常,通过将其部分与表格单元格内容或非结构化文本跨度匹配,并从任一源中提取答案来最佳地回答问题。这导致了HybridQA数据集引入的TextableQA问题的新空间。现有的表格表示对基于变换器的阅读理解(RC)架构的适应性未通过单个系统解决两个表示的不同模式。培训此类系统因对遥远监督的需求而进一步挑战。为了降低认知负担,培训实例通常包括问题和答案,后者匹配多个表行和文本段。这导致嘈杂的多实例培训制度不仅涉及表的行,而且涵盖了链接文本的跨度。我们通过提出Mitqa来回应这些挑战,这是一个新的TextableQA系统,明确地模拟了表行选择和文本跨度选择的不同但密切相关的概率空间。与最近的基线相比,我们的实验表明了我们的方法的优越性。该方法目前在HybridQA排行榜的顶部,并进行了一个试验集,在以前公布的结果上实现了对em和f1的21%的绝对改善。
translated by 谷歌翻译
有关应答数据集和模型的研究在研究界中获得了很多关注。其中许多人释放了自己的问题应答数据集以及模型。我们在该研究领域看到了巨大的进展。本调查的目的是识别,总结和分析许多研究人员释放的现有数据集,尤其是在非英语数据集以及研究代码和评估指标等资源中。在本文中,我们审查了问题应答数据集,这些数据集可以以法语,德语,日语,中文,阿拉伯语,俄语以及多语言和交叉的问答数据集进行英语。
translated by 谷歌翻译
过去十年互联网上可用的信息和信息量增加。该数字化导致自动应答系统需要从冗余和过渡知识源中提取富有成效的信息。这些系统旨在利用自然语言理解(NLU)从此巨型知识源到用户查询中最突出的答案,从而取决于问题答案(QA)字段。问题答案涉及但不限于用户问题映射的步骤,以获取相关查询,检索相关信息,从检索到的信息等找到最佳合适的答案等。当前对深度学习模型的当前改进估计所有这些任务的令人信服的性能改进。在本综述工作中,根据问题的类型,答案类型,证据答案来源和建模方法进行分析QA场的研究方向。此细节随后是自动问题生成,相似性检测和语言的低资源可用性等领域的开放挑战。最后,提出了对可用数据集和评估措施的调查。
translated by 谷歌翻译
预先接受的语言模型实现了最先进的导致各种自然语言处理(NLP)任务。 GPT-3表明,缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架,以预先培训大型知识增强型号,并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现,我们培养了百卢比的3.0泰坦参数型号,在PaddlePaddle平台上有高达260亿参数的泰坦。此外,我们设计了一种自我监督的对抗性损失和可控语言建模损失,以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放,我们向Ernie 3.0泰坦提出了一个在线蒸馏框架,教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明,Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。
translated by 谷歌翻译
近年来,在挑战的多跳QA任务方面有令人印象深刻的进步。然而,当面对输入文本中的一些干扰时,这些QA模型可能会失败,并且它们进行多跳推理的可解释性仍然不确定。以前的逆势攻击作品通常编辑整个问题句,这对测试基于实体的多跳推理能力有限。在本文中,我们提出了一种基于多跳推理链的逆势攻击方法。我们将从查询实体开始的多跳推理链与构造的图表中的答案实体一起制定,这使我们能够将问题对齐到每个推理跳跃,从而攻击任何跃点。我们将问题分类为不同的推理类型和对应于所选推理跳的部分问题,以产生分散注意力的句子。我们在HotpotQA DataSet上的三个QA模型上测试我们的对抗方案。结果表明,对答案和支持事实预测的显着性能降低,验证了我们推理基于链条推理模型的攻击方法的有效性以及它们的脆弱性。我们的对抗重新培训进一步提高了这些模型的性能和鲁棒性。
translated by 谷歌翻译
在宣传,新闻和社交媒体中的虚假,不准确和误导信息中,现实世界的问题应答(QA)系统面临综合和推理相互矛盾的挑战,以获得正确答案的挑战。这种紧迫性导致需要使QA系统对错误信息的强大,这是一个先前未开发的主题。我们通过调查与实际和虚假信息混合的矛盾的情况下,通过调查QA模型的行为来研究对QA模型的错误信息的风险。我们为此问题创建了第一个大规模数据集,即对QA,其中包含超过10K的人写和模型生成的矛盾的上下文。实验表明,QA模型易受误导的背景下的攻击。为了防御这种威胁,我们建立一个错误信息感知的QA系统作为一个反措施,可以以联合方式整合问题应答和错误信息检测。
translated by 谷歌翻译
多跳质量有注释的支持事实,这是考虑到答案的可解释性的阅读理解(RC)的任务,已被广泛研究。在这项研究中,我们将可解释的阅读理解(IRC)模型定义为管道模型,其具有预测未签发的查询的能力。 IRC模型通过在预测的支持事实和可解释性的实际理由之间建立一致性来证明答案预测。 IRC模型检测不可批售的问题,而不是基于不足的信息强制输出答案,以确保答案的可靠性。我们还提出了一种管道RC模型的端到端培训方法。为了评估可解释性和可靠性,我们在给定段落中考虑了在多跳问题中考虑不答复性的实验。我们表明,我们的端到端培训管道模型在我们修改的热浦问题数据集中表现出不可解释的模型。实验结果还表明,尽管预测性能与解释性之间的权衡,IRC模型尽管有折衷,但IRC模型仍然可以对先前的不可解释模型实现了可比的结果。
translated by 谷歌翻译
临床问题应答(QA)旨在根据临床文本自动回答医疗专业人员的问题。研究表明,在一个语料库上培训的神经QA模型可能对来自不同研究所或不同患者组的新临床文本概括,其中大规模的QA对不容易获得模型再培训。为了解决这一挑战,我们提出了一个简单但有效的框架CliniQG4QA,它利用问题生成(QG)在新的临床环境中综合QA对,并在不需要手动注释的情况下提升QA模型。为了生成对训练QA模型至关重要的不同类型的问题,我们进一步引入了基于SEQ2SEQ的问题短语预测(QPP)模块,可以与大多数现有的QG模型一起使用以使生成多样化。我们的综合实验结果表明,我们的框架产生的QA​​语料库可以改善新上下文的QA模型(在完全匹配方面最高8%的绝对增益),QPP模块在实现增益方面发挥着至关重要的作用。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
变压器模型已经取得了有希望的自然语言处理(NLP)任务,包括提取问题应答(QA)。 NLP任务中使用的通用变压器编码器在所有层中处理上下文段落中所有输入令牌的隐藏状态。但是,与序列分类等其他任务不同,应答所提出的问题不一定需要上下文段落中的所有令牌。在此动机之后,我们提出了薄块撇子,这将在更高的隐藏层中略微浏览不必要的上下文,以改善和加速变压器性能。块撇屏的关键概念是识别必须进一步处理的上下文,并且可以在推理期间早期安全地丢弃的语言。批判性地,我们发现这些信息可以充分地从变压器模型内的自我注意重量得出。我们进一步将对应于下层的不必要位置对应的隐藏状态,实现了显着的推理时间加速。令我们惊讶的是,我们观察到这种方式修剪的模型优于他们的全尺寸对应物。 Block-Skim在不同数据集上提高了QA模型的准确性,并在BERT-Base模型上实现了3次加速。
translated by 谷歌翻译
阅读理解(RC)是从给定的段落或一组段落回答问题的任务。在多个段落的情况下,任务是找到问题的最佳答案。最近在自然语言处理领域(NLP)的试验和实验证明,机器可以提供不仅可以在文章中处理文本的能力,并了解其含义来回答该段落的问题,而且可以超越在许多数据集中的人类性能,例如Standford的问题应答数据集(班德)。本文在过去几十年中提出了对自然语言处理的阅读理解及其演变的研究。我们还应研究单一文件阅读理解的任务如何作为我们的多文件阅读理解系统的构建块。在本文的后半部分中,我们将研究最近提出的多文件阅读理解模型 - Re3Q,由读者,检索器和基于RA-Ranker的网络组成,以获取最佳答案给定的一组段落。
translated by 谷歌翻译
近年来,低资源机器阅读理解(MRC)取得了重大进展,模型在各种语言数据集中获得了显着性能。但是,这些模型都没有为URDU语言定制。这项工作探讨了通过将机器翻译的队伍与来自剑桥O级书籍的Wikipedia文章和Urdu RC工作表组合的人生成的样本组合了机器翻译的小队,探讨了乌尔通题的半自动创建了数据集(UQuad1.0)。 UQuad1.0是一个大型URDU数据集,用于提取机器阅读理解任务,由49K问题答案成对组成,段落和回答格式。在UQuad1.0中,通过众包的原始SquAd1.0和大约4000对的机器翻译产生45000对QA。在本研究中,我们使用了两种类型的MRC型号:基于规则的基线和基于先进的变换器的模型。但是,我们发现后者优于其他人;因此,我们已经决定专注于基于变压器的架构。使用XLMroberta和多语言伯特,我们分别获得0.66和0.63的F1得分。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
多文件摘要(MDS)是信息聚合的有效工具,它从与主题相关文档集群生成信息和简洁的摘要。我们的调查是,首先,系统地概述了最近的基于深度学习的MDS模型。我们提出了一种新的分类学,总结神经网络的设计策略,并进行全面的最先进的概要。我们突出了在现有文献中很少讨论的各种客观函数之间的差异。最后,我们提出了与这个新的和令人兴奋的领域有关的几个方向。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译
鉴于自然语言陈述,如何验证其对维基百科这样的大型文本知识来源的准确性吗?大多数现有的神经模型在不提供关于哪一部分错误的情况下出现问题的情况下会进行预测。在本文中,我们提出了Loren,一种可解释的事实验证的方法。我们分解了在短语级别的整个索赔的验证,其中短语的真实性用作解释,可以根据逻辑规则汇总到最终判决中。 Loren的关键洞察力是将索赔词如三值潜变量代表如下,由聚合逻辑规则规范化。最终索赔验证基于所有潜在的变量。因此,Loren享有可解释性的额外好处 - 很容易解释它如何通过索赔词来达到某些结果。关于公共事实验证基准的实验表明,Loren对以前的方法具有竞争力,同时享有忠实和准确的可解释性的优点。 Loren的资源可用于:https://github.com/jiangjiechen/loren。
translated by 谷歌翻译
社区问题应答(CQA)是一个明确的任务,可以在许多方案中使用,例如电子商务和在线用户社区以进行特殊兴趣。在这些社区中,用户可以发布文章,发表评论,提出一个问题并回答它。这些数据形成异构信息来源,其中每个信息源都有自己的特殊结构和背景(附加到文章或相关问题附加的评论)。大多数CQA方法仅包含文章或维基百科,以提取知识并回答用户的问题。然而,这些CQA方法并未完全探索社区中的各种信息源,并且这些多个信息源(MIS)可以向用户的问题提供更多相关知识。因此,我们提出了一个问题感知异构图形变换器,以将MIS纳入用户社区中的MIS,以自动生成答案。为了评估我们所提出的方法,我们在两个数据集中进行实验:$ \ text {msm} ^ {\ text {msm}} $ the benchmark dataset ms-marco和Antqa数据集的修改版本,它是第一个大规模CQA数据集有四种类型的错误。在两个数据集上进行广泛的实验表明,我们的模型在所有指标方面都优越所有基线。
translated by 谷歌翻译