我们提出了一种基于实例的最近的邻居方法与实体链接。与大多数先前的实体检索系统相反,它代表每个实体都用单个向量代表每个实体,我们构建了一个上下文化的提及编码器,该系统学会学会在向量空间中更接近同一实体的相似提及,而不是对不同实体的提及。这种方法使一个实体的所有提及都可以用作“类原型”,因为推理涉及从训练集中的完整标记实体提及并应用最近提及的邻居的实体标签中检索。我们的模型经过了来自Wikipedia超链接的大型多语种对,并在7亿个提及的指数上执行最近的邻居推断。训练,提供更容易解释的预测,并在两个多语言实体上链接基准测试的所有其他系统都更简单。
translated by 谷歌翻译
我们介绍了精致的,这是一种有效的端到端实体链接模型,该模型使用精细的实体类型和实体描述来执行链接。该模型执行提及的检测,细粒实体键入以及单个向前传球中文档中所有提及的实体歧义,使其比现有方法快60倍以上。精制还超过了标准实体链接数据集的最先进性能,平均比3.7 F1。该模型能够将其推广到大规模的知识库,例如Wikidata(其实体是Wikipedia的15倍)和零拍的实体链接。速度,准确性和规模的结合使精制成为从网络规模数据集中提取实体的有效且具有成本效益的系统,该数据集已成功部署该模型。我们的代码和预培训模型可在https://github.com/alexa/refined上找到
translated by 谷歌翻译
我们提出了将事件链接到知识库的多语言链接的任务。我们会自动编译一个针对此任务的大型数据集,包括180万个涉及Wikidata超过10.9k事件的44种语言提及。我们提出了事件链接任务的两个变体:1)多语言,其中事件描述来自与提及的语言相同的语言,以及2)交叉语言,其中所有事件描述均以英语为单位。在提出的两个任务上,我们比较了包括BM25+(LV和Zhai,2011年)在内的多个事件链接系统以及Blink(Wu等,2020)的Biencoder和Crossencoder体系结构的多语言改编。在我们对两个任务变体的实验中,我们发现Biencoder和Crossencoder模型均显着优于BM25+基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试所提出的链接系统的室外概括,我们还创建了基于Wikinews的评估集。我们提出了定性分析,强调了拟议数据集捕获的各个方面,包括需要在上下文上进行时间推理并解决跨语言的各种事件描述。
translated by 谷歌翻译
现代实体链接(EL)系统构成了流行偏见,但是没有数据集以英语以外的其他语言上关注尾巴和新兴实体。我们向Hansel展示了中国人的新基准,它填补了非英国几乎没有射击和零击EL挑战的空缺。Hansel的测试集经过人工注释和审查,并采用了一种用于收集零照片EL数据集的新方法。它涵盖了新闻,社交媒体帖子和其他网络文章中的10k多种文档,Wikidata作为目标知识库。我们证明,现有的最新EL系统在Hansel上的表现不佳(R@1中的36.6%,几乎没有射击)。然后,我们建立了一个强大的基线,该基线在我们的数据集上的零射门上为46.2%的R@1分之1。我们还表明,我们的基线在TAC-KBP2015中国实体链接任务上取得了竞争成果。
translated by 谷歌翻译
Existing language models (LMs) predict tokens with a softmax over a finite vocabulary, which can make it difficult to predict rare tokens or phrases. We introduce NPM, the first nonparametric masked language model that replaces this softmax with a nonparametric distribution over every phrase in a reference corpus. We show that NPM can be efficiently trained with a contrastive objective and an in-batch approximation to full corpus retrieval. Zero-shot evaluation on 9 closed-set tasks and 7 open-set tasks demonstrates that NPM outperforms significantly larger parametric models, either with or without a retrieve-and-generate approach. It is particularly better on dealing with rare patterns (word senses or facts), and predicting rare or nearly unseen words (e.g., non-Latin script). We release the model and code at github.com/facebookresearch/NPM.
translated by 谷歌翻译
从学术文章中自动提取资金信息为行业和研究社区增添了重要价值,例如基于收到的资金进行资助组织,研究人员和大学的研究成果,并支持开放访问政策。识别和链接资金实体的两个主要挑战是:(i)知识库(KB)的稀疏图结构,这使得基于图的常用实体链接方法的资金域链接方法,(ii)KB中的缺失实体,这(与最近的零拍方法不同)需要标记实体提及没有KB条目为零。我们提出了一个可以执行零预测并克服数据稀缺问题的实体链接模型。我们的模型建立在基于变压器的提及检测和双重编码模型的基础上,以执行实体链接。我们表明,我们的模型表现优于现有基线。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
信息检索是自然语言处理中的重要组成部分,用于知识密集型任务,如问题应答和事实检查。最近,信息检索已经看到基于神经网络的密集检索器的出现,作为基于术语频率的典型稀疏方法的替代方案。这些模型在数据集和任务中获得了最先进的结果,其中提供了大型训练集。但是,它们不会很好地转移到没有培训数据的新域或应用程序,并且通常因未经监督的术语 - 频率方法(例如BM25)的术语频率方法而言。因此,自然问题是如果没有监督,是否有可能训练密集的索取。在这项工作中,我们探讨了对比学习的限制,作为培训无人监督的密集检索的一种方式,并表明它导致强烈的检索性能。更确切地说,我们在15个数据集中出现了我们的模型胜过BM25的Beir基准测试。此外,当有几千例的示例可用时,我们显示微调我们的模型,与BM25相比,这些模型导致强大的改进。最后,当在MS-Marco数据集上微调之前用作预训练时,我们的技术在Beir基准上获得最先进的结果。
translated by 谷歌翻译
MARCO排名数据集已广泛用于培训IR任务的深度学习模型,在不同的零射击方案上实现了相当大的效果。但是,这种类型的资源是英语以外的语言的稀缺。在这项工作中,我们呈现MMARCO,MS Marco段落的多语言版本,该数据集包括使用机器翻译创建的13种语言。我们通过微调单语和多语言重新排名模型以及此数据集的密集多语言模型进行了评估。实验结果表明,在我们翻译的数据集上微调微调的多语言模型可以单独对原始英文版的模型进行微调的卓越效果。我们蒸馏的多语言RE-RANKER与非蒸馏模型具有竞争力,而参数较少的5.4倍。最后,我们展现了翻译质量和检索效果之间的正相关性,提供了证据,即翻译方法的改进可能导致多语言信息检索的改进。翻译的数据集和微调模型可在https://github.com/unicamp-dl/mmarco.git上获得。
translated by 谷歌翻译
Multiconer共享的任务旨在检测在多种语言的简短和低文本设置中,在语义上模棱两可且复杂的命名实体。缺乏上下文使人们对歧义的命名实体的认识充满挑战。为了减轻此问题,我们的团队Damo-NLP提出了一个基于知识的系统,我们在其中建立了基于Wikipedia的多语言知识基础,以向指定的实体识别(NER)模型提供相关的上下文信息。给定输入句子,我们的系统有效地从知识库中检索了相关上下文。然后,将原始输入句子加强此类上下文信息,从而可以捕获明显更好的上下文化令牌表示。我们的系统在Multiconer共享任务中赢得了13个曲目中的10个。
translated by 谷歌翻译
实体歧义(ED)的最新工作通常忽略了结构性知识库(KB)事实,而是依靠有限的KB信息子集,例如实体描述或类型。这限制了实体可以消除歧义的环境范围。为了允许使用所有KB事实以及描述和类型,我们介绍了一个ED模型,该模型通过以完全可区分的方式通过符号知识基础来链接实体。我们的型号平均超过了六个良好的ED数据集的最新基线。通过允许访问所有KB信息,我们的模型较少依赖于基于流行的实体先验,并提高了具有挑战性的Shadowlink数据集(强调不频繁和模棱两可的实体)的性能12.7 F1。
translated by 谷歌翻译
实体联系面临着重大的挑战,例如多产的变化和普遍的歧义,特别是在具有无数实体的高价值领域。标准分类方法遭受注释瓶颈,无法有效处理看不见的实体。零拍实体链接已成为概括的方向,以概括新实体,但它仍然需要在所有实体的培训和规范描述期间提到示例,这两者都很少在维基百科外面可用。在本文中,我们通过利用易于提供的域知识来探索实体链接的知识丰富的自我监督($ \ tt kriss $)。在培训中,它会使用域本体进行未标记的文本生成自我监控的提到示例,并使用对比学习列举一个上下文编码器。出于推理,它将自我监督的提到作为每个实体的原型,并通过将测试提及映射到最相似的原型来进行链接。我们的方法归入零拍摄和少量拍摄方法,并且可以轻松地包含实体说明和黄金如果可用的标签。使用Biomedicine作为案例研究,我们对跨越生物医学文献和临床票据的七个标准数据集进行了广泛的实验。不使用任何标记信息,我们的方法为400万UMLS实体提供$ \ TT Krissbert $,这是一个Uncer Intity Linker,它可以获得新的艺术状态,优先于先前的自我监督方法,高度为20多个绝对点。
translated by 谷歌翻译
候选生成是实体链接中的重要模块。它在多个NLP任务中也起着关键作用,这些任务已被证明是有益地利用知识库的。然而,随着幼稚的方法获得很好的表现,它经常在单语的英语实体中被忽略。不幸的是,现有的英语方法不能成功地转移到资源不足的语言中。本文构成了对候选人生成问题的深入分析,即跨语性实体与关注低资源语言的关注。除其他贡献外,我们指出了先前工作中进行的评估的局限性。我们根据其难度将查询的特征介绍给类型,这提高了不同方法的性能的解释性。我们还提出了一个基于索引的构建,其设计是由基于更复杂的转移学习方法的动机,提出了一种轻巧而简单的解决方案。对2个评估设置下的9个现实世界数据集进行了彻底的经验分析表明,我们的简单解决方案在几乎所有数据集和查询类型的质量和效率方面都优于最先进的方法。
translated by 谷歌翻译
我们描述了关于多语言核心分辨率的CRAC 2022共享任务的获胜提交。我们的系统首先求解了提及检测,然后使用先进的最大化方法在检索到的跨度上链接,并且这两个任务均与共享变压器的权重进行微调。我们报告了微调各种预审预告额的结果。此贡献的中心是微调的多语言模型。我们发现了一个具有足够大的编码器的大型多语言模型,可以全面提高所有数据集的性能,因此不仅限于代表性不足的语言或类型上相对语言的群体。源代码可在https://github.com/ufal/crac2022-corpipe上获得。
translated by 谷歌翻译
我们提出了多语言数据集的Multiconer,用于命名实体识别,涵盖11种语言的3个域(Wiki句子,问题和搜索查询),以及多语言和代码混合子集。该数据集旨在代表NER中的当代挑战,包括低文字方案(简短和未添加的文本),句法复杂的实体(例如电影标题)和长尾实体分布。使用基于启发式的句子采样,模板提取和插槽以及机器翻译等技术,从公共资源中汇编了26M令牌数据集。我们在数据集上应用了两个NER模型:一个基线XLM-Roberta模型和一个最先进的Gemnet模型,该模型利用了Gazetteers。基线实现了中等的性能(Macro-F1 = 54%),突出了我们数据的难度。 Gemnet使用Gazetteers,显着改善(Macro-F1 =+30%的平均改善)。甚至对于大型预训练的语言模型,多功能人也会构成挑战,我们认为它可以帮助进一步研究建立强大的NER系统。 Multiconer可在https://registry.opendata.aws/multiconer/上公开获取,我们希望该资源将有助于推进NER各个方面的研究。
translated by 谷歌翻译
We present Hybrid Infused Reranking for Passages Retrieval (HYRR), a framework for training rerankers based on a hybrid of BM25 and neural retrieval models. Retrievers based on hybrid models have been shown to outperform both BM25 and neural models alone. Our approach exploits this improved performance when training a reranker, leading to a robust reranking model. The reranker, a cross-attention neural model, is shown to be robust to different first-stage retrieval systems, achieving better performance than rerankers simply trained upon the first-stage retrievers in the multi-stage systems. We present evaluations on a supervised passage retrieval task using MS MARCO and zero-shot retrieval tasks using BEIR. The empirical results show strong performance on both evaluations.
translated by 谷歌翻译
文本的结构化和接地表示通常是通过封闭信息提取形式化的,提取与从知识库模式的预定义实体集合和关系一致的穷举集(主题,关系,对象)三元组的问题。大多数现有的作品是管道容易出错的累积,所有方法都仅适用于不切实际的少数实体和关系。我们介绍了Genie(生成信息提取),第一端到最终的归属化闭合信息提取。 Genie自然地通过自动生成文本形式的关系和实体来利用预先训练的变压器的语言知识。由于新的双层约束生成策略,仅生产与预定义知识库模式一致的三胞胎。我们的实验表明,Genie在封闭信息提取时是最先进的,从较少的训练数据点广泛地推广到基线,并缩放到以前无管理数量的实体和关系。通过这项工作,封闭的信息提取在现实情景中变得实用,为下游任务提供了新的机会。最后,这项工作为信息提取的核心任务铺平了统一的端到端方法。在https://github.com/epfl-dlab/genie提供的代码和模型。
translated by 谷歌翻译
我们提出了Drboost,一个受升压启发的密集检索合奏。Drboost在阶段接受培训:通过仅关注当前合奏制作的检索错误来依次学习和专注于每个组件模型。最终的表示是所有组件模型的输出矢量的串联,使其成为测试时间标准密集检索器的替代品。与标准密集检索模型相比,Drboost享有几个优点。它产生的表示是4x更紧凑,同时提供可比的检索结果。它还在具有粗量化的近似搜索下进行令人惊讶的良好,从而减少另一个4x的延迟和带宽需求。在实践中,这可以在从内存中服务索引之间的服务指数之间的区别,为更便宜的部署铺平道路。
translated by 谷歌翻译
我们提出了一种以最小计算成本提高广泛检索模型的性能的框架。它利用由基本密度检索方法提取的预先提取的文档表示,并且涉及训练模型以共同评分每个查询的一组检索到的候选文档,同时在其他候选的上下文中暂时转换每个文档的表示。以及查询本身。当基于其与查询的相似性进行评分文档表示时,该模型因此意识到其“对等”文档的表示。我们表明,我们的方法导致基本方法的检索性能以及彼此隔离的评分候选文档进行了大量改善,如在一对培训环境中。至关重要的是,与基于伯特式编码器的术语交互重型器不同,它在运行时在任何第一阶段方法的顶部引发可忽略不计的计算开销,允许它与任何最先进的密集检索方法容易地结合。最后,同时考虑给定查询的一组候选文档,可以在检索中进行额外的有价值的功能,例如评分校准和减轻排名中的社会偏差。
translated by 谷歌翻译
交叉语言信息检索(CLIR)旨在将以与用户查询不同的语言编写的文档进行排序。不同语言之间的内在差距是CLIR的基本挑战。在本文中,由于多种语言的实体的足够信息,我们将多语言知识图(kg)引入CLIR任务。它被视为“银弹”,同时在查询和文档之间进行显式对齐,并扩大查询的表示。我们提出了一个名为CLIR的模型,为我们的任务提供了分层知识增强(加息)。所提出的模型用多语言BERT编码查询,文档和kg中的文本信息,并在具有分层信息融合机制中将kg信息包含在查询文件匹配过程中。特别是,徒步旅行首先将kg中的实体及其社区集成到具有知识级融合的查询表示中,然后将来自源语言的知识结合起来进一步减轻语言级融合的语言间隙。最后,实验结果表明,徒步旅行达到了最先进的竞争对手的大量改进。
translated by 谷歌翻译