Existing natural language understanding (NLU) models often rely on dataset biases rather than intended task-relevant features to achieve high performance on specific datasets. As a result, these models perform poorly on datasets outside the training distribution. Some recent studies address the above issue by reducing the weights of biased samples during the training process. However, these methods still encode biased latent features in representations and neglect the dynamic nature of bias, which hinders model prediction. We propose an NLU debiasing method, named debiasing contrastive learning (DCT), to simultaneously alleviate the above problems based on contrastive learning. We devise a debiasing positive sampling strategy to mitigate biased latent features by selecting the least similar biased positive samples. We also propose a dynamic negative sampling strategy to capture the dynamic influence of biases by employing a bias-only model to dynamically select the most similar biased negative samples. We conduct experiments on three NLU benchmark datasets. Experimental results show that DCT outperforms state-of-the-art baselines on out-of-distribution datasets while maintaining in-distribution performance. We also verify that DCT can reduce biased latent features from the model's representations.
translated by 谷歌翻译
自然语言理解(NLU)模型倾向于依靠虚假的相关性(即数据集偏见)来在分布数据集上实现高性能,但在分布外部的数据集中的性能差。大多数现有的偏见方法通常都以偏见的特征(即引起这种虚假相关性的表面特征)来识别和削弱这些样品。但是,下降加权这些样品阻碍了从这些样品的无偏见部分学习的模型。为了应对这一挑战,在本文中,我们建议从特征空间的角度以细粒度的方式消除虚假的相关性。具体而言,我们引入了随机傅立叶特征和加权重采样,以将功能之间的依赖关系解释以减轻虚假相关性。在获得非相关的功能后,我们进一步设计了一种基于相互信息的方法来净化它们,这迫使模型学习与任务更相关的功能。对两个经过良好研究的NLU任务进行的广泛实验表明,我们的方法优于其他比较方法。
translated by 谷歌翻译
具有大量偏见的数据集当前威胁要培训有关NLU任务的值得信赖的模型。尽管取得了巨大进展,但当前的偏见方法却过分依赖偏见属性的知识。但是,属性的​​定义是难以捉摸的,并且在不同的数据集上有所不同。此外,利用输入级别的这些属性到偏置缓解可能会留下内在属性与基本决策规则之间的差距。为了缩小这一差距并解放有关偏见的监督,我们建议将缓解偏见扩展到特征空间。因此,开发了一个新型模型,即恢复具有无知识(风险)的预期功能子空间。假设由各种偏见引起的快捷键特征是为了预测而无意的,则风险将其视为冗余特征。当研究较低的歧管以去除冗余时,风险表明,具有预期功能的极低维度子空间可以牢固地表示高度偏见的数据集。经验结果表明,我们的模型可以始终如一地提高模型的概括到分布式集合,并实现新的最新性能。
translated by 谷歌翻译
神经网络通常使预测依赖于数据集的虚假相关性,而不是感兴趣的任务的内在特性,面对分布外(OOD)测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差,它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置,但在训练和测试数据来自相同分布时,它们会降低。在本文中,我们提出了一般的贪婪去偏见学习框架(GGD),它贪婪地训练偏置模型和基础模型,如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例,从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力,但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程,并将课程正规化为由课程学习启发的GGD,这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验,对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型,其中具有现有知识和自组合偏置模型而无需先验知识。
translated by 谷歌翻译
对比度学习(CL)方法有效地学习数据表示,而无需标记监督,在该方法中,编码器通过单VS-MONY SOFTMAX跨透镜损失将每个正样本在多个负样本上对比。通过利用大量未标记的图像数据,在Imagenet上预先训练时,最近的CL方法获得了有希望的结果,这是一个具有均衡图像类的曲制曲线曲线集。但是,当对野外图像进行预训练时,它们往往会产生较差的性能。在本文中,为了进一步提高CL的性能并增强其对未经保育数据集的鲁棒性,我们提出了一种双重的CL策略,该策略将其内部查询的正(负)样本对比,然后才能决定多么强烈地拉动(推)。我们通过对比度吸引力和对比度排斥(CACR)意识到这一策略,这使得查询不仅发挥了更大的力量来吸引更遥远的正样本,而且可以驱除更接近的负面样本。理论分析表明,CACR通过考虑正/阴性样品的分布之间的差异来概括CL的行为,而正/负样品的分布通常与查询独立进行采样,并且它们的真实条件分布给出了查询。我们证明了这种独特的阳性吸引力和阴性排斥机制,这有助于消除在数据集的策划较低时尤其有益于数据及其潜在表示的统一先验分布的需求。对许多标准视觉任务进行的大规模大规模实验表明,CACR不仅在表示学习中的基准数据集上始终优于现有的CL方法,而且在对不平衡图像数据集进行预训练时,还表现出更好的鲁棒性。
translated by 谷歌翻译
Pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-distribution (OOD) generalization problem remains a challenge in many NLP tasks, limiting the real-world deployment of these methods. This paper presents the first attempt at creating a unified benchmark named GLUE-X for evaluating OOD robustness in NLP models, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. The benchmark includes 13 publicly available datasets for OOD testing, and evaluations are conducted on 8 classic NLP tasks over 19 popularly used PLMs. Our findings confirm the need for improved OOD accuracy in NLP tasks, as significant performance degradation was observed in all settings compared to in-distribution (ID) accuracy.
translated by 谷歌翻译
自动医疗问题摘要可以极大地帮助系统了解消费者健康问题并检索正确的答案。基于最大似然估计(MLE)的SEQ2SEQ模型已在此任务中应用,这面临两个一般问题:该模型无法捕获良好的问题,并且传统的MLE策略缺乏理解句子级语义的能力。为了减轻这些问题,我们提出了一个新颖的问题焦点驱动的对比学习框架(QFCL)。特别是,我们提出了一种简单有效的方法来基于问题的重点生成硬性样本,并利用编码器和解码器的对比度学习以获得更好的句子级别表示。在三个医疗基准数据集上,我们提出的模型可实现新的最新结果,并在三个数据集的基线BART模型上获得了5.33、12.85和3.81点的性能增益。进一步的人类判断和详细的分析证明,我们的QFCL模型可以学习更好的句子表示,具有区分不同句子含义的能力,并通过捕获问题重点来产生高质量的摘要。
translated by 谷歌翻译
Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
translated by 谷歌翻译
无监督的对比度学习(UCL)是一种自我监督的学习技术,旨在通过将正面样本彼此接近,同时将负面样本推到嵌入空间中远处,以学习有用的表示功能。为了提高UCL的性能,几项作品引入了旨在选择“硬”阴性样本与UCL中使用的随机采样策略相比,旨在选择“硬”阴性样本的硬性阴性对比度学习(H-UCL)。在另一种方法中,在假设标签信息可用的假设下,有监督的对比学习(SCL)最近通过将UCL扩展到完全监督的环境来开发。在本文中,由于硬性采样策略在H-UCL中的有效性以及标签信息在SCL中的有用性的启发性,我们提出了一个称为硬性负责监督的对比度学习(H-SCL)的对比学习框架。我们的数值结果证明了H-SCL在几个图像数据集上对SCL和H-UCL的有效性。另外,从理论上讲,在某些条件下,H-SCL的目标函数可以受H-UCL的目标函数的界定,而不是由UCL的目标函数界定。因此,将H-UCL损失最小化可以作为最小化H-SCL损失的代理,而最小化UCL损失不能。正如我们数值表明H-SCL优于其他对比学习方法时,我们的理论结果(通过H-UCL损失界限H-SCL损失)有助于解释为什么H-UCL在实践中优于UCL。
translated by 谷歌翻译
实例歧视对比学习(CL)在学习可转移表示方面取得了重大成功。与CL损失的温度$ \ tau $相关的硬度感知的属性被确定为在自动集中在硬性阴性样品上起着至关重要的作用。但是,先前的工作还证明了CL损失的均匀性困境(UTD)存在,这将导致意外的性能降解。具体而言,较小的温度有助于学习可分离的嵌入,但对语义相关样品的耐受性较小,这可能导致次优的嵌入空间,反之亦然。在本文中,我们提出了一种模型感的对比学习(MACL)策略来逃避UTD。对于训练不足的阶段,锚固的高相似性区域包含潜在的阳性样品的可能性较小。因此,在这些阶段采用较小的温度可以对硬性阴性样品施加更大的惩罚强度,以改善CL模型的歧视。相反,由于对潜在的阳性样品的耐受性,训练有素的相位较高的温度有助于探索语义结构。在实施过程中,MACL中的温度旨在适应反映CL模型置信度的对齐属性。此外,我们重新审查了为什么对比度学习需要在统一梯度降低的视角中大量负面样本。基于MACL和这些分析,在这项工作中提出了新的CL损失,以改善批量尺寸少量的学说和培训。
translated by 谷歌翻译
A recent popular approach to out-of-distribution (OOD) detection is based on a self-supervised learning technique referred to as contrastive learning. There are two main variants of contrastive learning, namely instance and class discrimination, targeting features that can discriminate between different instances for the former, and different classes for the latter. In this paper, we aim to understand the effectiveness and limitation of existing contrastive learning methods for OOD detection. We approach this in 3 ways. First, we systematically study the performance difference between the instance discrimination and supervised contrastive learning variants in different OOD detection settings. Second, we study which in-distribution (ID) classes OOD data tend to be classified into. Finally, we study the spectral decay property of the different contrastive learning approaches and examine how it correlates with OOD detection performance. In scenarios where the ID and OOD datasets are sufficiently different from one another, we see that instance discrimination, in the absence of fine-tuning, is competitive with supervised approaches in OOD detection. We see that OOD samples tend to be classified into classes that have a distribution similar to the distribution of the entire dataset. Furthermore, we show that contrastive learning learns a feature space that contains singular vectors containing several directions with a high variance which can be detrimental or beneficial to OOD detection depending on the inference approach used.
translated by 谷歌翻译
大型语言模型(LLM)已在一系列自然语言理解任务上实现了最先进的表现。但是,这些LLM可能依靠数据集偏差和文物作为预测的快捷方式。这极大地损害了他们的分布(OOD)概括和对抗性鲁棒性。在本文中,我们对最新发展的综述,这些发展解决了LLMS的鲁棒性挑战。我们首先介绍LLM的概念和鲁棒性挑战。然后,我们介绍了在LLM中识别快捷方式学习行为的方法,表征了快捷方式学习的原因以及引入缓解解决方案。最后,我们确定了关键挑战,并将这一研究线的联系引入其他方向。
translated by 谷歌翻译
It has been shown that NLI models are usually biased with respect to the word-overlap between premise and hypothesis; they take this feature as a primary cue for predicting the entailment label. In this paper, we focus on an overlooked aspect of the overlap bias in NLI models: the reverse word-overlap bias. Our experimental results demonstrate that current NLI models are highly biased towards the non-entailment label on instances with low overlap, and the existing debiasing methods, which are reportedly successful on existing challenge datasets, are generally ineffective in addressing this category of bias. We investigate the reasons for the emergence of the overlap bias and the role of minority examples in its mitigation. For the former, we find that the word-overlap bias does not stem from pre-training, and for the latter, we observe that in contrast to the accepted assumption, eliminating minority examples does not affect the generalizability of debiasing methods with respect to the overlap bias.
translated by 谷歌翻译
预先接受的语言模型(PLMS)在预训练和微调范式下,在各种自然语言处理(NLP)任务中取得了巨大成功。具有大量参数,PLMS是计算密集型和资源饥饿的。因此,已经引入了模型修剪来压缩大规模的PLM。然而,大多数先前的方法只考虑对下游任务的任务特定知识,但忽略了修剪期间的基本任务无关知识,这可能导致灾难性的遗忘问题并导致普遍性较差。为了在我们的修剪模型中维护任务不可行的特定知识,我们提出了在预训练和微调范式下的对比修剪(盖子)。它设计为一​​般框架,与结构化和非结构化修剪兼容。统一的对比学习,CAP使修剪模型能够从预训练的模型中学到任务无关的知识,以及特定于任务知识的微调模型。此外,为了更好地保留修剪模型的性能,快照(即,每个修剪迭代的中间模型)也是修剪的有效监督。我们广泛的实验表明,采用盖子一致地产生显着的改善,特别是在极高的稀疏性方案中。只有3%的型号参数保留(即97%的稀疏性),CAP成功达到了QQP和MNLI任务的原始BERT性能的99.2%和96.3%。此外,我们的探测实验表明,CAP修剪的模型趋于达到更好的泛化能力。
translated by 谷歌翻译
通过对比学习,自我监督学习最近在视觉任务中显示了巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种情况级别学习忽略了实例之间的语义关系,有时不希望地从语义上类似的样本中排斥锚,被称为“假否定”。在这项工作中,我们表明,对于具有更多语义概念的大规模数据集来说,虚假否定的不利影响更为重要。为了解决这个问题,我们提出了一种新颖的自我监督的对比学习框架,逐步地检测并明确地去除假阴性样本。具体地,在训练过程之后,考虑到编码器逐渐提高,嵌入空间变得更加语义结构,我们的方法动态地检测增加的高质量假否定。接下来,我们讨论两种策略,以明确地在对比学习期间明确地消除检测到的假阴性。广泛的实验表明,我们的框架在有限的资源设置中的多个基准上表现出其他自我监督的对比学习方法。
translated by 谷歌翻译
通用域的适应性(UNIDA)旨在将公共类的知识从源域转移到目标域,而无需对标签集的任何先验知识,这需要将未知样本与目标域中的已知样本区分开。就像传统的无监督域适应问题一样,由于偏见和歧视性较低的嵌入,两个域之间的错位也存在。最新方法提出了通过将目标样品与最近的邻居或原型聚类来完成域未对准的方法。但是,这样做是很危险的,因为我们对未知样本的分布没有任何先验知识,这些样本可以放大错位,尤其是当未知集很大的时候。同时,其他现有基于分类器的方法可以轻松地产生对未知样本的过度自信预测,因为在源域中有监督的目标导致整个模型偏向于目标域中的共同类别。因此,我们提出了一种新型的非参数未知样品检测方法,基于将原始特征空间中的样品映射到可靠的线性子空间中,这使数据点更稀疏,以减少未知样品和源样本之间的不对准。此外,与最近应用额外参数以改善未知样品分类的方法不同,本文通过未知的自适应保证金损失可以很好地平衡已知样品和未知样品的置信值,从而可以控制分类器学习的梯度在有监督的来源上的梯度更新样品取决于当前步骤中检测到的未知样品的置信度。最后,在四个公共数据集上的实验表明,我们的方法显着胜过现有的最新方法。
translated by 谷歌翻译
对比学习一直吸引着学习无监督的句子嵌入。当前的最新无监督方法是无监督的SIMCSE(UNSUP-SIMCSE)。 Unsup-Simcse将辍学作为最小数据增强方法,并将相同的输入句子传递给预训练的变压器编码器(带有掉落的掉落)两次,以获取两个相应的嵌入式以构建正对。由于句子的长度信息通常会由于使用嵌入变压器中的位置嵌入而编码到句子嵌入中,因此Unsup-Simcse中的每个正对实际上包含相同的长度信息。因此,接受这些正面对训练的Unsup-Simcse可能是有偏见的,这往往会考虑到语义上相同长度或相似长度的句子更相似。通过统计观察,我们发现Unsup-Simcse确实存在这样的问题。为了减轻它,我们应用了一个简单的重复操作来修改输入句子,然后分别将输入句子及其修改后的对应物传递给预训练的变压器编码器,以获取阳性对。此外,我们从计算机视觉社区中汲取灵感,并引入动量对比度,从而扩大了负面对的数量,而没有其他计算。提出的两种修改分别应用于正和负对,并构建一种新的句子嵌入方法,称为增强的Unsup-Simcse(ESIMCSE)。我们在几个基准数据集W.R.T上评估了所提出的ESIMCSE,语义文本相似性(STS)任务。实验结果表明,ESIMCSE的表现优于最先进的undup-Simcse,而Bert基碱的平均长矛相关性为2.02%。
translated by 谷歌翻译
问题答案(QA)模型是众所周知的,用于利用数据偏差,例如在Visual QA之前的语言和阅读理解中的位置偏差。最近的脱叠方法实现了良好的分配(OOD)概括性,具有相当大的牺牲,对分销(ID)性能。因此,它们仅适用于预先已知测试分配的域。在本文中,我们提出了一种称为内省蒸馏的新型脱达方法(介绍),以充分为QA的世界。我们的主要技术贡献是通过省略培训样本是否适合事实ID世界或反事实_一种策略来融合OOD和ID的归纳偏差。在Visual QA Datasets VQA V2,VQA-CP和阅读理解数据集小队的实验表明,与其他脱叠方法相比,我们的提议介绍了竞争性的ood性能,同时与非脱叠相比牺牲很少甚至实现更好的ID性能。
translated by 谷歌翻译
存在预训练模型在各种文本分类任务上取得了最先进的性能。这些模型已被证明可用于学习普遍语言表示。然而,通过先进的预训练模型无法有效地区分类似文本之间的语义差异,这对难以区分类的性能产生了很大的影响。为了解决这个问题,我们在这项工作中提出了一种与标签距离(CLLD)的新型对比学习。灵感来自最近对比学习的进步,我们专门设计了一种具有标签距离的分类方法,用于学习对比类。 CLLD可确保在导致不同标签分配的细微差别中的灵活性,并为同时具有相似性的每个类生成不同的表示。关于公共基准和内部数据集的广泛实验表明,我们的方法提高了预先训练模型在分类任务上的性能。重要的是,我们的实验表明,学习的标签距离减轻了细胞的对抗性质。
translated by 谷歌翻译
Existing pre-training methods for extractive Question Answering (QA) generate cloze-like queries different from natural questions in syntax structure, which could overfit pre-trained models to simple keyword matching. In order to address this problem, we propose a novel Momentum Contrastive pRe-training fOr queStion anSwering (MCROSS) method for extractive QA. Specifically, MCROSS introduces a momentum contrastive learning framework to align the answer probability between cloze-like and natural query-passage sample pairs. Hence, the pre-trained models can better transfer the knowledge learned in cloze-like samples to answering natural questions. Experimental results on three benchmarking QA datasets show that our method achieves noticeable improvement compared with all baselines in both supervised and zero-shot scenarios.
translated by 谷歌翻译