在根据多个硬件和软件测试方案的原因评估IR模型时,通常会忽略潜伏期和效率问题。然而,效率是此类系统的重要组成部分,不应被忽视。在本文中,我们专注于提高SPLADE模型的效率,因为它已经在TREC收集方面取得了最新的零击性能和竞争成果。可以通过正则化因子来控制SPADE效率,但仅控制这种正则化的效率不够有效。为了减少Splade和传统检索系统之间的延迟差距,我们提出了几种技术,包括查询的L1正则化,文档/查询编码器的分离,由FLOPS进行了调节的中间训练以及使用更快的查询编码器的使用。我们的基准表明,我们可以大大提高这些模型的效率,同时增加对内域数据的性能指标。据我们所知,{我们提出了第一个神经模型,在相同的计算约束下,\ textit {实现与传统bm25}相似的延迟(小于4ms差异),而具有\ textit {相似的性能(小于10 \%MRR) @10减少)}作为最新的单阶段神经排名者在域中数据}。
translated by 谷歌翻译
最近已提出COLBert模型作为基于有效的伯特伯爵的排名。通过采用迟到的互动机制,COLBert的主要优势是文件表示可以预先预先计算。但是,该模型的大缺陷是索引大小,其与集合中的令牌数量线性缩放。在本文中,我们研究了COLBERT模型的各种设计,以攻击此问题。虽然已经探索了压缩技术以减少指数大小,但在本文中,我们研究了COLBERT的令牌修剪技术。我们比较简单的启发式机器,以及一层注意机制,选择令牌以保持索引时间。我们的实验表明,COLBert指标可以在MS Marco Conserfer集合上修剪高达30 \%,而无需显着下降。最后,我们在MS MARCO文件上实验,揭示了这种机制的几个挑战。
translated by 谷歌翻译
我们提出了一种以最小计算成本提高广泛检索模型的性能的框架。它利用由基本密度检索方法提取的预先提取的文档表示,并且涉及训练模型以共同评分每个查询的一组检索到的候选文档,同时在其他候选的上下文中暂时转换每个文档的表示。以及查询本身。当基于其与查询的相似性进行评分文档表示时,该模型因此意识到其“对等”文档的表示。我们表明,我们的方法导致基本方法的检索性能以及彼此隔离的评分候选文档进行了大量改善,如在一对培训环境中。至关重要的是,与基于伯特式编码器的术语交互重型器不同,它在运行时在任何第一阶段方法的顶部引发可忽略不计的计算开销,允许它与任何最先进的密集检索方法容易地结合。最后,同时考虑给定查询的一组候选文档,可以在检索中进行额外的有价值的功能,例如评分校准和减轻排名中的社会偏差。
translated by 谷歌翻译
稀疏的词汇表现学习已经证明了在近期模型中提高通道检索效果,例如Deepumact,Unicoil和Splade。本文介绍了一种简单而有效的方法,用于通过引入稀疏屏蔽方案来控制稀疏性和自学方法来控制诽谤和自学方法来模拟脱锁表示模拟缺陷表示来缩小通道检索的词汇表格的简单但有效的方法。我们模型的基本实施具有更精致的方法,实现了有效性和效率之间的良好平衡。我们的方法简单地为未来的词汇表达学习探索开辟了门,以便检索。
translated by 谷歌翻译
最近,几种密集的检索(DR)模型已经证明了在搜索系统中无处不在的基于术语的检索的竞争性能。与基于术语的匹配相反,DR将查询和文档投影到密集的矢量空间中,并通过(大约)最近的邻居搜索检索结果。部署新系统(例如DR)不可避免地涉及其性能方面的权衡。通常,建立的检索系统按照效率和成本(例如查询延迟,索引吞吐量或存储要求)对其进行了良好的理解。在这项工作中,我们提出了一个具有一组标准的框架,这些框架超出了简单的有效性措施,可以彻底比较两个检索系统,并明确目标是评估一个系统的准备就绪,以取代另一个系统。这包括有效性和各种成本因素之间的仔细权衡考虑。此外,我们描述了护栏标准,因为即使是平均而言更好的系统,也可能会对少数查询产生系统性故障。护栏检查某些查询特性和新型故障类型的故障,这些故障仅在密集检索系统中才有可能。我们在网络排名方案上演示了我们的决策框架。在这种情况下,最先进的DR模型的结果令人惊讶,不仅是平均表现,而且通过一系列广泛的护栏测试,表现出不同的查询特性,词汇匹配,概括和回归次数的稳健性。无法预测将来博士是否会变得无处不在,但是这是一种可能的方法是通过重复应用决策过程(例如此处介绍的过程)。
translated by 谷歌翻译
本文概述了了解信息检索和自然语言处理中最近的发展的概念框架,试图集成密集和稀疏检索方法。我提出了一种代表性方法,将核心文本检索问题与逻辑评分模型和物理检索模型中断。评分模型在编码器方面定义,将查询和文档映射到代表空间,以及计算查询文档分数的比较函数。物理检索模型定义了系统如何从关于查询的任意大语料库产生顶级k $ Scoring文档。分别沿两个维度进一步分析得分模型:密集与稀疏表示和监督(学习)与无监督的方法。我展示了许多最近提出的检索方法,包括多级排名设计,可以看作是本框架中的不同参数化,并且统一视图表明了许多开放的研究问题,为未来的工作提供了路线图。作为奖金,这种概念框架在计算时建立了与自然语言处理和信息访问“技术”中的句子相似任务的连接。
translated by 谷歌翻译
在本文中,我们提出了一个新的密集检索模型,该模型通过深度查询相互作用学习了各种文档表示。我们的模型使用一组生成的伪Queries编码每个文档,以获取查询信息的多视文档表示。它不仅具有较高的推理效率,例如《香草双编码模型》,而且还可以在文档编码中启用深度查询文档的交互,并提供多方面的表示形式,以更好地匹配不同的查询。几个基准的实验证明了所提出的方法的有效性,表现出色的双重编码基准。
translated by 谷歌翻译
Recent progress in Natural Language Understanding (NLU) is driving fast-paced advances in Information Retrieval (IR), largely owed to ne-tuning deep language models (LMs) for document ranking.While remarkably e ective, the ranking models based on these LMs increase computational cost by orders of magnitude over prior approaches, particularly as they must feed each query-document pair through a massive neural network to compute a single relevance score. To tackle this, we present ColBERT, a novel ranking model that adapts deep LMs (in particular, BERT) for e cient retrieval. ColBERT introduces a late interaction architecture that independently encodes the query and the document using BERT and then employs a cheap yet powerful interaction step that models their ne-grained similarity. By delaying and yet retaining this negranular interaction, ColBERT can leverage the expressiveness of deep LMs while simultaneously gaining the ability to pre-compute document representations o ine, considerably speeding up query processing. Beyond reducing the cost of re-ranking the documents retrieved by a traditional model, ColBERT's pruning-friendly interaction mechanism enables leveraging vector-similarity indexes for end-to-end retrieval directly from a large document collection. We extensively evaluate ColBERT using two recent passage search datasets. Results show that ColBERT's e ectiveness is competitive with existing BERT-based models (and outperforms every non-BERT baseline), while executing two orders-of-magnitude faster and requiring four orders-of-magnitude fewer FLOPs per query.
translated by 谷歌翻译
Deave Learning模型命名为变形金刚实现了最先进的导致绝大多数NLP任务,以增加计算复杂性和高记忆消耗。在实时推理中使用变压器模型成为在生产中实施时的重大挑战,因为它需要昂贵的计算资源。需要更频率的吞吐量执行变压器的执行越大,并且切换到较小的编码器导致精度降低。我们的论文致力于如何为信息检索管道排名步骤选择合适架构的问题,以便更改变压器编码器的所需呼叫的数量最小,最大可实现的排名质量。我们调查了多种延迟交互模型,如COLBert和Poly-Concoder架构以及它们的修改。此外,我们负责搜索索引的内存占用空间,并尝试应用学习 - 哈希方法,以二值从变压器编码器二值化。使用TREC 2019-2021和MARCO DEV数据集提供评估结果。
translated by 谷歌翻译
已经表明,在一个域上训练的双编码器经常概括到其他域以获取检索任务。一种广泛的信念是,一个双编码器的瓶颈层,其中最终得分仅仅是查询向量和通道向量之间的点产品,它过于局限,使得双编码器是用于域外概括的有效检索模型。在本文中,我们通过缩放双编码器模型的大小{\ em同时保持固定的瓶颈嵌入尺寸固定的瓶颈的大小来挑战这一信念。令人惊讶的是,令人惊讶的是,缩放模型尺寸会对各种缩放提高检索任务,特别是对于域外泛化。实验结果表明,我们的双编码器,\ textbf {g} enovalizable \ textbf {t} eTrievers(gtr),优先级%colbert〜\ cite {khattab2020colbertt}和现有的稀疏和密集的索取Beir DataSet〜\ Cite {Thakur2021Beir}显着显着。最令人惊讶的是,我们的消融研究发现,GTR是非常数据的高效,因为它只需要10 \%MARCO监督数据,以实现最佳域的性能。所有GTR模型都在https://tfhub.dev/google/collections/gtr/1发布。
translated by 谷歌翻译
Neural information retrieval (IR) systems have progressed rapidly in recent years, in large part due to the release of publicly available benchmarking tasks. Unfortunately, some dimensions of this progress are illusory: the majority of the popular IR benchmarks today focus exclusively on downstream task accuracy and thus conceal the costs incurred by systems that trade away efficiency for quality. Latency, hardware cost, and other efficiency considerations are paramount to the deployment of IR systems in user-facing settings. We propose that IR benchmarks structure their evaluation methodology to include not only metrics of accuracy, but also efficiency considerations such as a query latency and the corresponding cost budget for a reproducible hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show how the best choice of IR system varies according to how these efficiency considerations are chosen and weighed. We hope that future benchmarks will adopt these guidelines toward more holistic IR evaluation.
translated by 谷歌翻译
基于语义空间中密集表示的检索模型已成为第一阶段检索的必不可少的分支。这些检索员受益于代表学习朝着压缩全球序列级嵌入的进步。但是,它们很容易忽略本地的显着短语和实体在文本中提到的,这些短语通常在第一阶段的检索中扮演枢轴角色。为了减轻这种弱点,我们提议使一个密集的检索器对齐一个表现出色的词典意识代表模型。对齐方式是通过弱化的知识蒸馏来实现的,以通过两个方面来启发猎犬 - 1)词汇扬声的对比目标,以挑战密集编码器和2)一个配对的等级正规化,以使密集的模型的行为倾向于其他人的行为。我们在三个公共基准上评估了我们的模型,这表明,凭借可比的词典觉得回收犬作为老师,我们提议的密集人可以带来一致而重大的改进,甚至超过教师。此外,我们发现我们对密集猎犬的改进是与标准排名蒸馏的补充,这可以进一步提高最先进的性能。
translated by 谷歌翻译
神经信息检索(IR)具有极大的搜索和其他知识密集型语言任务。虽然许多神经IR方法将查询和文档编码为单载表示,但后期交互模型在每个令牌的粒度下产生多向量表示,并将相关性建模分解为可伸缩的令牌级计算。这种分解已被证明可以使迟到的交互更有效,但它以幅度的数量级膨胀这些模型的空间占地面积。在这项工作中,我们介绍了Colbertv2,这是一种猎犬,其与去噪的监督策略相结合的侵略性的残余压缩机制,同时提高晚期互动的质量和空间足迹。我们在各种基准中评估COLBertv2,在培训域内和外部建立最先进的质量,同时减少了晚期互动模型的空间足迹5-8 $ \ times $。
translated by 谷歌翻译
IR models using a pretrained language model significantly outperform lexical approaches like BM25. In particular, SPLADE, which encodes texts to sparse vectors, is an effective model for practical use because it shows robustness to out-of-domain datasets. However, SPLADE still struggles with exact matching of low-frequency words in training data. In addition, domain shifts in vocabulary and word frequencies deteriorate the IR performance of SPLADE. Because supervision data are scarce in the target domain, addressing the domain shifts without supervision data is necessary. This paper proposes an unsupervised domain adaptation method by filling vocabulary and word-frequency gaps. First, we expand a vocabulary and execute continual pretraining with a masked language model on a corpus of the target domain. Then, we multiply SPLADE-encoded sparse vectors by inverse document frequency weights to consider the importance of documents with lowfrequency words. We conducted experiments using our method on datasets with a large vocabulary gap from a source domain. We show that our method outperforms the present stateof-the-art domain adaptation method. In addition, our method achieves state-of-the-art results, combined with BM25.
translated by 谷歌翻译
我们介绍了Art,这是一种新的语料库级自动编码方法,用于培训密集检索模型,不需要任何标记的培训数据。密集的检索是开放域任务(例如Open QA)的核心挑战,在该任务中,最先进的方法通常需要大量的监督数据集,并具有自定义的硬性采矿和肯定式示例。相反,艺术品仅需要访问未配对的投入和输出(例如问题和潜在的答案文件)。它使用新的文档 - 重新定义自动编码方案,其中(1)输入问题用于检索一组证据文档,并且(2)随后使用文档来计算重建原始问题的概率。基于问题重建的检索培训可以有效地学习文档和问题编码器,以后可以将其纳入完整的QA系统中,而无需任何进一步的填充。广泛的实验表明,ART在多个QA检索基准测试基准上获得最先进的结果,并且仅来自预训练的语言模型的一般初始化,从而消除了对标记的数据和特定于任务的损失的需求。
translated by 谷歌翻译
我们提出了Drboost,一个受升压启发的密集检索合奏。Drboost在阶段接受培训:通过仅关注当前合奏制作的检索错误来依次学习和专注于每个组件模型。最终的表示是所有组件模型的输出矢量的串联,使其成为测试时间标准密集检索器的替代品。与标准密集检索模型相比,Drboost享有几个优点。它产生的表示是4x更紧凑,同时提供可比的检索结果。它还在具有粗量化的近似搜索下进行令人惊讶的良好,从而减少另一个4x的延迟和带宽需求。在实践中,这可以在从内存中服务索引之间的服务指数之间的区别,为更便宜的部署铺平道路。
translated by 谷歌翻译
Long document retrieval aims to fetch query-relevant documents from a large-scale collection, where knowledge distillation has become de facto to improve a retriever by mimicking a heterogeneous yet powerful cross-encoder. However, in contrast to passages or sentences, retrieval on long documents suffers from the scope hypothesis that a long document may cover multiple topics. This maximizes their structure heterogeneity and poses a granular-mismatch issue, leading to an inferior distillation efficacy. In this work, we propose a new learning framework, fine-grained distillation (FGD), for long-document retrievers. While preserving the conventional dense retrieval paradigm, it first produces global-consistent representations crossing different fine granularity and then applies multi-granular aligned distillation merely during training. In experiments, we evaluate our framework on two long-document retrieval benchmarks, which show state-of-the-art performance.
translated by 谷歌翻译
Bi-encoders and cross-encoders are widely used in many state-of-the-art retrieval pipelines. In this work we study the generalization ability of these two types of architectures on a wide range of parameter count on both in-domain and out-of-domain scenarios. We find that the number of parameters and early query-document interactions of cross-encoders play a significant role in the generalization ability of retrieval models. Our experiments show that increasing model size results in marginal gains on in-domain test sets, but much larger gains in new domains never seen during fine-tuning. Furthermore, we show that cross-encoders largely outperform bi-encoders of similar size in several tasks. In the BEIR benchmark, our largest cross-encoder surpasses a state-of-the-art bi-encoder by more than 4 average points. Finally, we show that using bi-encoders as first-stage retrievers provides no gains in comparison to a simpler retriever such as BM25 on out-of-domain tasks. The code is available at https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git
translated by 谷歌翻译
This paper presents a pre-training technique called query-as-context that uses query prediction to improve dense retrieval. Previous research has applied query prediction to document expansion in order to alleviate the problem of lexical mismatch in sparse retrieval. However, query prediction has not yet been studied in the context of dense retrieval. Query-as-context pre-training assumes that the predicted query is a special context for the document and uses contrastive learning or contextual masked auto-encoding learning to compress the document and query into dense vectors. The technique is evaluated on large-scale passage retrieval benchmarks and shows considerable improvements compared to existing strong baselines such as coCondenser and CoT-MAE, demonstrating its effectiveness. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
translated by 谷歌翻译
最近的工作表明,小型蒸馏语言模型是强大的竞争对手,这些模型是在广泛的信息检索任务中更大且较慢的数量级。由于潜伏期的限制,这使蒸馏而密集的模型是在现实世界检索应用程序中部署的首选选择。在这项工作中,我们通过证明参数和早期查询文档互动的数量在检索模型的概括能力中起着重要作用来质疑这种做法。我们的实验表明,增加模型大小会导致内域测试集的边际增长,但是在微调过程中从未见过的新领域的增长幅度更大。此外,我们表明,在几个任务中,Rerankers在很大程度上都超过了相似大小的密集。我们最大的重读者在基准-IR(BEIR)的18个数据集中的12个数据集中达到了最新技术,并超过了先前的最新水平。最后,我们确认内域的有效性不是零弹性有效性的良好指标。代码可从https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git获得。
translated by 谷歌翻译