当前的文本分类方法通常仅在幼稚或复杂的分类器之前将文本编码为嵌入,该分类器忽略了标签文本中包含的建议信息。实际上,人类主要基于子类别的语义含义对文档进行分类。我们通过暹罗伯特(Siamese Bert)和名为Ideas(交互式双重注意力)的交互式双重注意提出了一种新颖的模型结构,以捕获文本和标签名称的信息交换。交互式双重注意力使该模型能够从粗糙到细小的类中开利的类和类内部信息,这涉及区分所有标签并匹配地面真实标签的语义子类。我们提出的方法的表现优于最新方法,使用标签文本显着,结果更稳定。
translated by 谷歌翻译
Current state-of-the-art approaches to text classification typically leverage BERT-style Transformer models with a softmax classifier, jointly fine-tuned to predict class labels of a target task. In this paper, we instead propose an alternative training objective in which we learn task-specific embeddings of text: our proposed objective learns embeddings such that all texts that share the same target class label should be close together in the embedding space, while all others should be far apart. This allows us to replace the softmax classifier with a more interpretable k-nearest-neighbor classification approach. In a series of experiments, we show that this yields a number of interesting benefits: (1) The resulting order induced by distances in the embedding space can be used to directly explain classification decisions. (2) This facilitates qualitative inspection of the training data, helping us to better understand the problem space and identify labelling quality issues. (3) The learned distances to some degree generalize to unseen classes, allowing us to incrementally add new classes without retraining the model. We present extensive experiments which show that the benefits of ante-hoc explainability and incremental learning come at no cost in overall classification accuracy, thus pointing to practical applicability of our proposed approach.
translated by 谷歌翻译
在线学习系统具有成绩单,书籍和问题形式的多个数据存储库。为了易于访问,此类系统会根据层次性质(主题 - 主题)的明确分类法组织内容。将输入分类为层次标签的任务通常被视为平坦的多类分类问题。这种方法忽略了输入中的术语与层次标签中的令牌之间的语义相关性。当它们仅将叶片节点视为标签时,替代方法也患有类不平衡。为了解决这些问题,我们将任务制定为一个密集的检索问题,以检索每个内容的适当层次标签。在本文中,我们处理问题。我们将层次标签建模为其令牌的组成,并使用有效的交叉注意机制将信息与内容术语表示融合。我们还提出了一种自适应内部的硬采样方法,随着培训的进行,该方法可以更好地取消负面影响。我们证明了所提出的方法\ textit {tagrec ++}在问题数据集上的现有最新方法均超过了receal@k所测量的现有最新方法。此外,我们演示了\ textit {tagrec ++}的零射击功能以及适应标签更改的能力。
translated by 谷歌翻译
In natural language processing (NLP), the context of a word or sentence plays an essential role. Contextual information such as the semantic representation of a passage or historical dialogue forms an essential part of a conversation and a precise understanding of the present phrase or sentence. However, the standard attention mechanisms typically generate weights using query and key but ignore context, forming a Bi-Attention framework, despite their great success in modeling sequence alignment. This Bi-Attention mechanism does not explicitly model the interactions between the contexts, queries and keys of target sequences, missing important contextual information and resulting in poor attention performance. Accordingly, a novel and general triple-attention (Tri-Attention) framework expands the standard Bi-Attention mechanism and explicitly interacts query, key, and context by incorporating context as the third dimension in calculating relevance scores. Four variants of Tri-Attention are generated by expanding the two-dimensional vector-based additive, dot-product, scaled dot-product, and bilinear operations in Bi-Attention to the tensor operations for Tri-Attention. Extensive experiments on three NLP tasks demonstrate that Tri-Attention outperforms about 30 state-of-the-art non-attention, standard Bi-Attention, contextual Bi-Attention approaches and pretrained neural language models1.
translated by 谷歌翻译
文档检索使用户能够准确,快速找到所需的文档。为了满足检索效率的要求,普遍的深神经方法采用了基于表示的匹配范式,该范式通过离线预先存储文档表示节省了在线匹配时间。但是,上述范式会消耗庞大的本地存储空间,尤其是将文档存储为单词元素表示时。为了解决这个问题,我们提出了TGTR,这是一种基于主题的文本表示模型,用于文档检索。遵循基于表示的匹配范式,TGTR将文档表示脱机存储以确保检索效率,而通过使用新颖的主题格式表示,而不是传统的单词元素,则大大降低了存储要求。实验结果表明,与单词粒度的基线相比,TGTR在检索准确性方面始终在TREC CAR和MS MARCO上竞争,但其所需的存储空间的少于1/10。此外,TGTR绝大多数在检索准确性方面超过了全球粒度的基线。
translated by 谷歌翻译
文档级别的情感分析(DSA)由于含糊的语义链接并使情感信息复杂化,因此更具挑战性。最近的工作专门用于利用文本摘要,并取得了令人鼓舞的结果。但是,这些基于摘要的方法没有充分利用摘要,包括忽略摘要和文档之间的固有交互。结果,他们将代表限制在文档中表达主要点,这高度表明了关键情绪。在本文中,我们研究了如何有效地产生具有明确的主题模式和情感环境的歧视性表示。提出了一个分层互动网络(HIN),以探索多个粒度的摘要和文档之间的双向交互,并学习以主题为导向的文档表示情感分类。此外,我们通过使用情感标签信息来完善HIN来学习基于情感的重新思考机制(SR),以学习更感知的文档表示。我们在三个公共数据集上广泛评估了我们提出的模型。实验结果始终证明了我们提出的模型的有效性,并表明HIN-SR优于各种最新方法。
translated by 谷歌翻译
近年来,人们对开发自然语言处理(NLP)中可解释模型的利益越来越多。大多数现有模型旨在识别输入功能,例如对于模型预测而言重要的单词或短语。然而,在NLP中开发的神经模型通常以层次结构的方式构成单词语义,文本分类需要层次建模来汇总本地信息,以便处理主题和标签更有效地转移。因此,单词或短语的解释不能忠实地解释文本分类中的模型决策。本文提出了一种新型的层次解释性神经文本分类器,称为提示,该分类器可以自动以层次结构方式以标记相关主题的形式生成模型预测的解释。模型解释不再处于单词级别,而是基于主题作为基本语义单元。评论数据集和新闻数据集的实验结果表明,我们所提出的方法与现有最新的文本分类器相当地达到文本分类结果,并比其他可解释的神经文本更忠实于模型的预测和更好地理解人类的解释分类器。
translated by 谷歌翻译
基于方面的情绪分析(ABSA)是一种文本分析方法,其定义了与特定目标相关的某些方面的意见的极性。 ABSA的大部分研究都是英文,阿拉伯语有少量的工作。最先前的阿拉伯语研究依赖于深度学习模型,主要依赖于独立于上下文的单词嵌入(例如,e.g.word2vec),其中每个单词都有一个独立于其上下文的固定表示。本文探讨了从预先培训的语言模型(如BERT)的上下文嵌入的建模功能,例如BERT,以及在阿拉伯语方面情感极度分类任务中使用句子对输入。特别是,我们开发一个简单但有效的基于伯特的神经基线来处理这项任务。根据三种不同阿拉伯语数据集的实验结果,我们的BERT架构与简单的线性分类层超出了最先进的作品。在Arabic Hotel评论数据库中实现了89.51%的准确性,73%的人类注册书评论数据集和阿拉伯新闻数据集的85.73%。
translated by 谷歌翻译
由于文档的复杂布局,提取文档的信息是一项挑战。大多数以前的研究以一种自我监督的方式开发了多模式预训练的模型。在本文中,我们专注于包含文本和布局信息的单词块的嵌入学习,并提出UTEL,这是具有统一文本和布局预训练的语言模型。具体而言,我们提出了两个预训练任务:布局学习的周围单词预测(SWP),以及对识别不同单词块的单词嵌入(CWE)的对比度学习。此外,我们用1D剪裁的相对位置嵌入了常用的一维位置。这样,掩盖布局语言建模(MLLM)的联合训练和两个新提出的任务可以以统一的方式在语义和空间特征之间进行相互作用。此外,提议的UTEL可以通过删除1D位置嵌入,同时保持竞争性能来处理任意长度的序列。广泛的实验结果表明,UTEL学会了比以前在各种下游任务上的方法更好的联合表示形式,尽管不需要图像模式。代码可在\ url {https://github.com/taosong2019/utel}中获得。
translated by 谷歌翻译
BERT (Devlin et al., 2018) and RoBERTa has set a new state-of-the-art performance on sentence-pair regression tasks like semantic textual similarity (STS). However, it requires that both sentences are fed into the network, which causes a massive computational overhead: Finding the most similar pair in a collection of 10,000 sentences requires about 50 million inference computations (~65 hours) with BERT. The construction of BERT makes it unsuitable for semantic similarity search as well as for unsupervised tasks like clustering.In this publication, we present Sentence-BERT (SBERT), a modification of the pretrained BERT network that use siamese and triplet network structures to derive semantically meaningful sentence embeddings that can be compared using cosine-similarity. This reduces the effort for finding the most similar pair from 65 hours with BERT / RoBERTa to about 5 seconds with SBERT, while maintaining the accuracy from BERT.We evaluate SBERT and SRoBERTa on common STS tasks and transfer learning tasks, where it outperforms other state-of-the-art sentence embeddings methods. 1
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
Bert在文本分类任务中取得了显着的结果,但尚未完全利用它,因为仅将最后一层用作下游分类器的表示输出。关于伯特学到的语言特征性质的最新研究表明,不同的层集中在不同种类的语言特征上。我们提出了一个CNN增强的变压器编码器模型,该模型在固定的bert $ [cls] $顶部进行了训练,来自所有层的表示,采用卷积神经网络来生成变压器编码器内的QKV功能映射,而不是线性的输入投影,进入嵌入空间。 CNN-Trans-enc相对较小,因为下游分类器,并且不需要对Bert进行任何微调,因为它可以确保从所有层中的$ [CLS] $表示的最佳使用,从而利用具有更有意义,更有意义,更有意义,更有意义的语言功能和输入的可推广QKV表示。将BERT与CNN-Trans-enc一起使用$ 98.9 \%$和$ 94.8 \%\%$ $ $ $ $ -5,$ 82.23 $($ 8.9 \%$改善),在亚马逊极性上,$ 0.98 \%$($ 0.2 \%$改进)(来自两个数据集的100万个样本子集的K倍交叉验证)。在AG新闻数据集中,CNN-Trans-enc在当前最新的$ 99.94 \%$中,并在DBPEDIA-14上获得了新的最高绩效,平均准确性为99.51美元\%$。索引术语:文本分类,自然语言处理,卷积神经网络,变压器,伯特
translated by 谷歌翻译
建筑聊天禁令的最大挑战是培训数据。所需的数据必须逼真,足以训练聊天禁止。我们创建一个工具,用于从Facebook页面的Facebook Messenger获取实际培训数据。在文本预处理步骤之后,新获得的数据集生成FVNC和示例数据集。我们使用返回越南(Phobert)的伯特来提取文本数据的功能。 K-means和DBSCAN聚类算法用于基于Phobert $ _ {Base} $的输出嵌入式群集任务。我们应用V测量分数和轮廓分数来评估聚类算法的性能。我们还展示了Phobert的效率与样本数据集和Wiki DataSet上的特征提取中的其他模型相比。还提出了一种结合聚类评估的GridSearch算法来找到最佳参数。由于群集如此多的对话,我们节省了大量的时间和精力来构建培训Chatbot的数据和故事情节。
translated by 谷歌翻译
诸如学术文章和商业报告之类的长期文件一直是详细说明重要问题和需要额外关注的复杂主题的标准格式。自动汇总系统可以有效地将长文档置于简短而简洁的文本中,以封装最重要的信息,从而在帮助读者的理解中很重要。最近,随着神经体系结构的出现,已经做出了重大的研究工作,以推动自动文本摘要系统,以及有关将这些系统扩展到长期文档领域的挑战的大量研究。在这项调查中,我们提供了有关长期文档摘要的研究的全面概述,以及其研究环境的三个主要组成部分的系统评估:基准数据集,汇总模型和评估指标。对于每个组成部分,我们在长期汇总的背景下组织文献,并进行经验分析,以扩大有关当前研究进度的观点。实证分析包括一项研究基准数据集的内在特征,摘要模型的多维分析以及摘要评估指标的综述。根据总体发现,我们通过提出可能在这个快速增长的领域中提出未来探索的方向来得出结论。
translated by 谷歌翻译
来自文本的采矿因果关系是一种复杂的和至关重要的自然语言理解任务,对应于人类认知。其解决方案的现有研究可以分为两种主要类别:基于特征工程和基于神经模型的方法。在本文中,我们发现前者具有不完整的覆盖范围和固有的错误,但提供了先验知识;虽然后者利用上下文信息,但其因果推断不足。为了处理限制,我们提出了一个名为MCDN的新型因果关系检测模型,明确地模拟因果关系,而且,利用两种方法的优势。具体而言,我们采用多头自我关注在Word级别获得语义特征,并在段级别推断出来的SCRN。据我们所知,关于因果关系任务,这是第一次应用关系网络。实验结果表明:1)该方法对因果区检测进行了突出的性能; 2)进一步分析表现出MCDN的有效性和稳健性。
translated by 谷歌翻译
多标签文本分类是指从标签集中分配其最相关标签的问题。通常,在现实世界应用中提供给定文件的元数据和标签的层次结构。然而,大多数现有的研究专注于仅建模文本信息,几次尝试利用元数据或层次结构,而不是它们都是。在本文中,我们通过在大型标签层次结构中正式化Metadata感知文本分类问题来弥合差距(例如,数万个标签)。为了解决这个问题,我们介绍了匹配解决方案 - 一个端到端的框架,它利用元数据和层次结构。为了合并元数据,我们预先培训了同一空间中的文本和元数据的嵌入,并且还利用完全连接的关注来捕获它们之间的相互关系。要利用标签层次结构,我们提出了不同的方法来规范其父母每个子标签的参数和输出概率。在具有大规模标签层次结构的两个大规模文本数据集上的广泛实验证明了匹配最先进的深度学习基线的有效性。
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译