Few-shot relation extraction (FSRE) aims at recognizing unseen relations by learning with merely a handful of annotated instances. To generalize to new relations more effectively, this paper proposes a novel pipeline for the FSRE task based on queRy-information guided Attention and adaptive Prototype fuSion, namely RAPS. Specifically, RAPS first derives the relation prototype by the query-information guided attention module, which exploits rich interactive information between the support instances and the query instances, in order to obtain more accurate initial prototype representations. Then RAPS elaborately combines the derived initial prototype with the relation information by the adaptive prototype fusion mechanism to get the integrated prototype for both train and prediction. Experiments on the benchmark dataset FewRel 1.0 show a significant improvement of our method against state-of-the-art methods.
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
几个名称的实体识别(NER)使我们能够使用很少的标记示例为新域构建一个NER系统。但是,该任务的现有原型网络具有大致估计的标签依赖性和紧密分布的原型,因此经常导致错误分类。为了解决上述问题,我们提出了EP-NET,这是一个实体级原型网络,通过分散分布的原型增强。EP-NET构建实体级原型,并认为文本跨度为候选实体,因此它不再需要标签依赖性。此外,EP-NET从头开始训练原型,以分散分配它们,并使用空间投影将跨度与嵌入空间中的原型对齐。两项评估任务和少量网络设置的实验结果表明,EP-NET在整体性能方面始终优于先前的强大模型。广泛的分析进一步验证了EP-NET的有效性。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
Cross-domain few-shot relation extraction poses a great challenge for the existing few-shot learning methods and domain adaptation methods when the source domain and target domain have large discrepancies. This paper proposes a method by combining the idea of few-shot learning and domain adaptation to deal with this problem. In the proposed method, an encoder, learned by optimizing a representation loss and an adversarial loss, is used to extract the relation of sentences in the source and target domain. The representation loss, including a cross-entropy loss and a contrastive loss, makes the encoder extract the relation of the source domain and keep the geometric structure of the classes in the source domain. And the adversarial loss is used to merge the source domain and target domain. The experimental results on the benchmark FewRel dataset demonstrate that the proposed method can outperform some state-of-the-art methods.
translated by 谷歌翻译
我们提出了一个零射门学习关系分类(ZSLRC)框架,通过其识别训练数据中不存在的新颖关系的能力来提高最先进的框架。零射击学习方法模仿人类学习和识别新概念的方式,没有先前的知识。为此,ZSLRC使用修改的高级原型网络来利用加权侧(辅助)信息。 ZSLRC的侧面信息是由关键字,名称实体的高度和标签及其同义词构建的。 ZSLRC还包括一个自动高义的提取框架,可直接从Web获取各种名称实体的高型。 ZSLRC提高了最先进的少量学习关系分类方法,依赖于标记的培训数据,因此即使在现实世界方案中也适用于某些关系对相应标记的培训示例。我们在两种公共数据集(NYT和NEREREL)上使用广泛的实验显示结果,并显示ZSLRC显着优于最先进的方法对监督学习,少量学习和零射击学习任务。我们的实验结果还展示了我们所提出的模型的有效性和稳健性。
translated by 谷歌翻译
如今,基于变压器的模型逐渐成为人工智能先驱的默认选择。即使在几个镜头的情况下,这些模型也会显示出优势。在本文中,我们重新审视了经典方法,并提出了一种新的几次替代方法。具体而言,我们研究了几个镜头的单级问题,该问题实际上以已知样本为参考来检测未知实例是否属于同一类。可以从序列匹配的角度研究此问题。结果表明,使用元学习,经典序列匹配方法,即比较聚集,显着优于变压器。经典方法所需的培训成本要少得多。此外,我们在简单的微调和元学习下进行两种序列匹配方法之间进行了经验比较。元学习导致变压器模型的特征具有高相关尺寸。原因与变压器模型的层和头数密切相关。实验代码和数据可从https://github.com/hmt2014/fewone获得
translated by 谷歌翻译
关系提取(RE)是指在输入文本中提取关系三元组。现有的基于神经工作的系统在很大程度上依赖于手动标记的培训数据,但是仍然有很多域中不存在足够的标记数据。受到基于距离的几弹性实体识别方法的启发,我们根据序列标记的关节提取方法提出了几个弹出任务的定义,并为任务提出了一些弹出框架。此外,我们将两个实际的序列标记模型应用于我们的框架(称为少数Tplinker和几杆Bitt),并在从公共数据集构建的两个少量RE任务上实现了可靠的结果。
translated by 谷歌翻译
图形神经网络(GNNS)已被用于解决几次拍摄学习(FSL)问题,并在转换设置下显示出很大的潜力。但是在归纳设置下,现有的基于GNN的方法竞争较差。这是因为它们使用实例GNN作为标签传播/分类模块,其与特征嵌入网络共同学习。这种设计是有问题的,因为分类器需要在嵌入而不快速地适应新任务。为了克服这个问题,本文提出了一种新的混合GNN(HGNN)模型,包括两个GNN,实例GNN和原型GNN。它们代替标签传播,它们用作嵌入适应模块的功能,以便快速适应嵌入到新任务的元学员的功能。重要的是,他们旨在处理FSL中的基本但经常被忽视的挑战,即只有每班少量镜头,任何几次拍摄的分类器都会对差异或可能导致阶层的严重采样镜头敏感分配重叠。 %我们的两个GNNS旨在分别解决这两种类型的差别少量射击,并且在混合GNN模型中利用它们的互补性。广泛的实验表明,我们的HGNN在三个FSL基准上获得了新的最先进。
translated by 谷歌翻译
少量学习(FSL)是一个具有挑战性的任务,\ emph {i.e.},如何用少数例子识别新颖的类?基于预先训练的方法通过预先训练特征提取器,然后通过具有基于均值的原型的余弦最近邻分类来预测新颖类来有效地解决问题。然而,由于数据稀缺,通常的平均原型通常偏置。在本文中,我们试图通过将原型偏差视为原型优化问题来减少原型偏差。为此,我们提出了一种新颖的基于元学习的原型优化框架来纠正原型,\ emph {i.},引入元优化器以优化原型。虽然现有的元优化器也可以适应我们的框架,但它们都忽略了一个关键的梯度偏置问题,\ emph {i.},均值的梯度估计也偏置在稀疏数据上。为了解决这个问题,我们将梯度及其流量视为元知识,然后提出一种新的神经常规差分方程(ODE)基础的元优化器,以抛光原型,称为Metanode。在此元优化器中,我们首先将基于平均原型的原型视图为初始原型,然后将原型优化的过程模拟为神经竞争指定的连续时间动态。仔细设计梯度流动推理网络,学习估计原型动态的连续梯度流。最后,通过求解神经焦点,可以获得最佳原型。对Miniimagenet,Tieredimagenet和Cub-200-2011的广泛实验显示了我们方法的有效性。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
It has been experimentally demonstrated that humans are able to learn in a manner that allows them to make predictions on categories for which they have not seen any examples (Malaviya et al., 2022). Sucholutsky and Schonlau (2020) have recently presented a machine learning approach that aims to do the same. They utilise synthetically generated data and demonstrate that it is possible to achieve sub-linear scaling and develop models that can learn to recognise N classes from M training samples where M is less than N - aka less-than-one shot learning. Their method was, however, defined for univariate or simple multivariate data (Sucholutsky et al., 2021). We extend it to work on large, high-dimensional and real-world datasets and empirically validate it in this new and challenging setting. We apply this method to learn previously unseen NLP tasks from very few examples (4, 8 or 16). We first generate compact, sophisticated less-than-one shot representations called soft-label prototypes which are fitted on training data, capturing the distribution of different classes across the input domain space. We then use a modified k-Nearest Neighbours classifier to demonstrate that soft-label prototypes can classify data competitively, even outperforming much more computationally complex few-shot learning methods.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
在元学习框架下设计了许多射门学习方法,这些方法从各种学习任务中学习并推广到新任务。这些元学习方法在从同一分布(I.I.D.观察)中绘制的所有样本中的情况下实现了预期的性能。然而,在现实世界应用中,很少拍摄的学习范式往往遭受数据转移,即,即使在相同的任务中,也可以从各种数据分布中汲取不同任务中的示例。大多数现有的几次拍摄方法不考虑数据班次,因此在数据分布换档时显示降级性能。然而,由于每个任务中的标记样本数量有限的标记样本,因此在几次拍摄学习中解决数据转换问题是不普遍的。针对解决此问题,我们提出了一种新的基于度量的元学习框架,以便在知识图表的帮助下提取任务特定的表示和任务共享表示。因此,任务内的数据偏移可以通过任务共享和特定于任务的表示的组合来组合。拟议的模型是对流行的基准测试和两个构造的新具有挑战性的数据集。评估结果表明了其显着性能。
translated by 谷歌翻译
几乎没有弹出的文本分类旨在在几个弹奏方案下对文本进行分类。以前的大多数方法都采用基于优化的元学习来获得任务分布。但是,由于少数样本和复杂模型之间的匹配以及有用的任务功能之间的区别,这些方法遭受了过度拟合问题的影响。为了解决这个问题,我们通过梯度相似性(AMGS)方法提出了一种新颖的自适应元学习器,以提高模型的泛化能力。具体而言,拟议的AMG基于两个方面缓解了过度拟合:(i)通过内部循环中的自我监督的辅助任务来获取样品的潜在语义表示并改善模型的概括,(ii)利用适应性元学习者通过适应性元学习者通过梯度通过相似性,可以在外环中基底学习者获得的梯度上增加约束。此外,我们对正则化对整个框架的影响进行系统分析。对几个基准测试的实验结果表明,与最先进的优化元学习方法相比,提出的AMG始终提高了很少的文本分类性能。
translated by 谷歌翻译
近年来,人们对少量知识图(FKGC)的兴趣日益增加,该图表旨在推断出关于该关系的一些参考三元组,从而推断出不见了的查询三倍。现有FKGC方法的主要重点在于学习关系表示,可以反映查询和参考三元组共享的共同信息。为此,这些方法从头部和尾部实体的直接邻居中学习实体对表示,然后汇总参考实体对的表示。但是,只有从直接邻居那里学到的实体对代表可能具有较低的表现力,当参与实体稀疏直接邻居或与其他实体共享一个共同的当地社区。此外,仅仅对头部和尾部实体的语义信息进行建模不足以准确推断其关系信息,尤其是当它们具有多个关系时。为了解决这些问题,我们提出了一个特定于关系的上下文学习(RSCL)框架,该框架利用了三元组的图形上下文,以学习全球和本地关系特定的表示形式,以使其几乎没有相关关系。具体而言,我们首先提取每个三倍的图形上下文,这可以提供长期实体关系依赖性。为了编码提取的图形上下文,我们提出了一个分层注意网络,以捕获三元组的上下文信息并突出显示实体的有价值的本地邻里信息。最后,我们设计了一个混合注意聚合器,以评估全球和本地级别的查询三元组的可能性。两个公共数据集的实验结果表明,RSCL的表现优于最先进的FKGC方法。
translated by 谷歌翻译
旨在从非结构化文本中提取结构信息的知识提取(KE)通常会遭受数据稀缺性和新出现的看不见类型,即低资源场景。许多低资源KE的神经方法已广泛研究并取得了令人印象深刻的表现。在本文中,我们在低资源场景中介绍了对KE的文献综述,并将现有作品分为三个范式:(1)利用更高的资源数据,(2)利用更强的模型,(3)利用数据和模型一起。此外,我们描述了有前途的应用,并概述了未来研究的一些潜在方向。我们希望我们的调查能够帮助学术和工业界更好地理解这一领域,激发更多的想法并提高更广泛的应用。
translated by 谷歌翻译
由顺序训练和元训练阶段组成的两阶段训练范式已广泛用于当前的几次学习(FSL)研究。这些方法中的许多方法都使用自我监督的学习和对比度学习来实现新的最新结果。但是,在FSL培训范式的两个阶段,对比度学习的潜力仍未得到充分利用。在本文中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习无缝地整合到两个阶段中,以提高少量分类的性能。在预训练阶段,我们提出了特征向量与特征映射和特征映射与特征映射的形式的自我监督对比损失,该图形与特征映射使用全局和本地信息来学习良好的初始表示形式。在元训练阶段,我们提出了一种跨视图的情节训练机制,以对同一情节的两个不同视图进行最近的质心分类,并采用基于它们的距离尺度对比度损失。这两种策略迫使模型克服观点之间的偏见并促进表示形式的可转让性。在三个基准数据集上进行的广泛实验表明,我们的方法可以实现竞争成果。
translated by 谷歌翻译
认识到没有培训实例的看不见的关系是现实世界中的一个具有挑战性的任务。在本文中,我们提出了一种基于提示的模型,具有语义知识增强(ZS-SKA),以识别零拍摄设置下的看不见的关系。在新的单词级别句子翻译规则之后,我们从带有所看到的关系的情况生成增强的实例。我们根据外部知识图设计提示,以将从所见关系中学到的语义知识信息集成。我们在提示模板中使用实际标签集,而是构造加权虚拟标签单词。通过生成与增强实例的看见和看不见的关系的表示,并通过原型网络提示,计算距离以预测看不见的关系。在三个公共数据集上进行的广泛实验表明,ZS-SKA优于零击方案下的最先进的方法。我们的实验结果还证明了ZS-SKA的有效性和鲁棒性。
translated by 谷歌翻译
Nearest-Neighbor (NN) classification has been proven as a simple and effective approach for few-shot learning. The query data can be classified efficiently by finding the nearest support class based on features extracted by pretrained deep models. However, NN-based methods are sensitive to the data distribution and may produce false prediction if the samples in the support set happen to lie around the distribution boundary of different classes. To solve this issue, we present P3DC-Shot, an improved nearest-neighbor based few-shot classification method empowered by prior-driven data calibration. Inspired by the distribution calibration technique which utilizes the distribution or statistics of the base classes to calibrate the data for few-shot tasks, we propose a novel discrete data calibration operation which is more suitable for NN-based few-shot classification. Specifically, we treat the prototypes representing each base class as priors and calibrate each support data based on its similarity to different base prototypes. Then, we perform NN classification using these discretely calibrated support data. Results from extensive experiments on various datasets show our efficient non-learning based method can outperform or at least comparable to SOTA methods which need additional learning steps.
translated by 谷歌翻译