We present Pre-trained Machine Reader (PMR), a novel method to retrofit Pre-trained Language Models (PLMs) into Machine Reading Comprehension (MRC) models without acquiring labeled data. PMR is capable of resolving the discrepancy between model pre-training and downstream fine-tuning of existing PLMs, and provides a unified solver for tackling various extraction tasks. To achieve this, we construct a large volume of general-purpose and high-quality MRC-style training data with the help of Wikipedia hyperlinks and design a Wiki Anchor Extraction task to guide the MRC-style pre-training process. Although conceptually simple, PMR is particularly effective in solving extraction tasks including Extractive Question Answering and Named Entity Recognition, where it shows tremendous improvements over previous approaches especially under low-resource settings. Moreover, viewing sequence classification task as a special case of extraction task in our MRC formulation, PMR is even capable to extract high-quality rationales to explain the classification process, providing more explainability of the predictions.
translated by 谷歌翻译
流行的图神经网络模型在图表学习方面取得了重大进展。但是,在本文中,我们发现了一个不断被忽视的现象:用完整图测试的预训练的图表学习模型的表现不佳,该模型用良好的图表测试。该观察结果表明,图中存在混杂因素,这可能会干扰模型学习语义信息,而当前的图表表示方法并未消除其影响。为了解决这个问题,我们建议强大的因果图表示学习(RCGRL)学习可靠的图形表示,以防止混杂效应。 RCGRL引入了一种主动方法,可以在无条件的力矩限制下生成仪器变量,该方法使图表学习模型能够消除混杂因素,从而捕获与下游预测有因果关系的歧视性信息。我们提供定理和证明,以保证拟议方法的理论有效性。从经验上讲,我们对合成数据集和多个基准数据集进行了广泛的实验。结果表明,与最先进的方法相比,RCGRL实现了更好的预测性能和泛化能力。
translated by 谷歌翻译
在过去的几年中,基于卷积的神经网络(CNN)的人群计数方法已取得了有希望的结果。但是,对于准确的计数估计,量表变化问题仍然是一个巨大的挑战。在本文中,我们提出了一个多尺度特征聚合网络(MSFANET),可以在某种程度上减轻此问题。具体而言,我们的方法由两个特征聚合模块组成:短聚合(Shortagg)和Skip Contregation(Skipagg)。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是,Skipagg模块引入了Swin Transformer块中的本地自我注意力特征,以结合丰富的空间信息。此外,我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集(Shanghaitech数据集,UCF_CC_50数据集,UCF-QNRF数据集,WorldExpo'10数据集)上进行了广泛的实验,这表明与先前的先前的尚未实行的方法相比,提出的易于实现的MSFANET可以实现有希望的结果。
translated by 谷歌翻译
现代实体链接(EL)系统构成了流行偏见,但是没有数据集以英语以外的其他语言上关注尾巴和新兴实体。我们向Hansel展示了中国人的新基准,它填补了非英国几乎没有射击和零击EL挑战的空缺。Hansel的测试集经过人工注释和审查,并采用了一种用于收集零照片EL数据集的新方法。它涵盖了新闻,社交媒体帖子和其他网络文章中的10k多种文档,Wikidata作为目标知识库。我们证明,现有的最新EL系统在Hansel上的表现不佳(R@1中的36.6%,几乎没有射击)。然后,我们建立了一个强大的基线,该基线在我们的数据集上的零射门上为46.2%的R@1分之1。我们还表明,我们的基线在TAC-KBP2015中国实体链接任务上取得了竞争成果。
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译
与单峰数据相比,多模式数据可以提供更多功能来帮助模型分析数据的情感。先前的研究作品很少考虑令牌级的功能融合,很少有工作探索学习与多模式数据中情感相关的共同特征,以帮助模型融合多模式功能。在本文中,我们提出了一种对比度学习和多层融合(CLMLF)方法,用于多模式情感检测。具体来说,我们首先编码文本和图像以获取隐藏的表示形式,然后使用多层融合模块来对齐和融合文本和图像的令牌级特征。除了情感分析任务外,我们还设计了两个对比学习任务,基于标签的对比度学习和基于数据的对比学习任务,这将帮助该模型学习与多模式数据中情感相关的共同特征。与现有方法相比,对三个公开多模式数据集进行的广泛实验证明了我们对多模式情感检测的有效性。这些代码可在https://github.com/link-li/clmlf上使用
translated by 谷歌翻译
本文研究了一系列方面情绪分类(ASC)任务的持续学习(CL)。虽然已经提出了一些CL技术进行了文档情绪分类,但我们不知道任何CL在ASC上工作。逐步学习一系列ASC任务的CL系统应该解决以下两个问题:(1)将从以前任务的传输知识从以前的任务中学到的新任务,以帮助它学习更好的模型,并且(2)保持模型的性能以前的任务让他们没有忘记。本文提出了一种新颖的基于胶囊网络的模型,称为B-CL以解决这些问题。B-CL通过前向和后向知识传输显着提高了新任务和旧任务的ASC性能。通过广泛的实验证明了B-CL的有效性。
translated by 谷歌翻译
本文研究了一个特定CL设置中的一系列方面情绪分类(ASC)任务的持续学习(CL),称为域增量学习(DIL)。每个任务都来自不同的域或产品。DIL设置特别适合ASC,因为在测试中,系统不需要知道测试数据所属的任务/域。据我们所知,此环境尚未在ASC之前进行过研究。本文提出了一种名为CLASSIC的新型模型。关键新颖性是一种对比的持续学习方法,可以通过从旧任务到新任务的任务和知识蒸馏的知识转移,这消除了对测试中的任务ID的需求。实验结果表明了经典的高效性。
translated by 谷歌翻译
持续学习(CL)逐步学习一系列任务,其目标是实现两个主要目标:克服灾难性的遗忘(CF)并鼓励跨任务的知识转移(KT)。然而,大多数现有技术只关注克服CF并且没有鼓励KT的机制,因此在KT中不好做得很好。虽然有几篇论文试图处理CF和KT,但我们的实验表明,当任务没有太多的共享知识时,他们患有严重的CF。另一个观察是,大多数电流CL方法不使用预先训练的型号,但已经表明这种模型可以显着提高结束任务性能。例如,在自然语言处理中,微调伯特的预训练语言模型是最有效的方法之一。然而,对于CL,这种方法遭受严重的CF.一个有趣的问题是如何充分利用预先训练的电流模型。本文提出了一种名为CTR的新型模型来解决这些问题。我们的实验结果表明了CTR的有效性
translated by 谷歌翻译
神经网络(NNS)的能力在顺序地学习和记住多项任务是由于其灾难性遗忘(CF)问题而在实现一般人工智能方面面临艰难的挑战。幸运的是,最新的OWM正交权重修改)和其他几种连续学习(CL)方法表明了一些有希望的克服CF问题的方法。但是,现有的CL方法都没有探讨以下三个关键问题,以便有效地克服CF问题:即,它有助于在其顺序任务学习期间对NN的有效权重修改有所了解?当新学习任务的数据分布与先前学习的任务相对应的更改时,是否应该采用统一/特定的权重修改策略?对于给定的CL方法,可学习任务的上限是什么? ect。为了实现这一点,在本文中,我们首先揭示了新的学习任务的权重梯度的事实是由新任务的输入空间和先前学习任务的重量空间顺序确定。在这种观察和递归最小二乘法的情况下,我们通过增强型OWM提出了一种新的高效和有效的连续学习方法EOWM。我们理论上和明确地赋予了我们的EOWM的学习任务的上限。在基准测试上进行的广泛实验表明,我们的EOWM是有效性,优于所有最先进的CL基线。
translated by 谷歌翻译