本文总结了贸易中央实验室的联合参与和拉罗谢尔大学的L3I实验室在共享任务FinSIM-4评估活动的两个子任务中的共同参与。第一个子任务旨在通过New Lexicon条目丰富“ Fortia ESG分类学”,而第二个则旨在将刑期分类为“可持续”或“不可持续”,以涉及ESG(环境,社会和治理)相关因素。对于第一个子任务,我们提出了一个基于预训练的句子 - 伯特模型的模型,以在公共空间中的项目句子和概念,以更好地表示ESG概念。官方任务结果表明,与基线相比,我们的系统在绩效方面取得了重大改进,并且优于第一个子任务上的所有其他提交。对于第二个子任务,我们将Roberta模型与馈电多层感知器相结合,以提取句子的上下文并对其进行分类。我们的模型获得了高精度得分(超过92%),并在前5个系统中排名。
translated by 谷歌翻译
通讯和社交网络可以从分析师和公众提供公司提供的产品和/或服务的角度来反映市场和特定股票的意见。因此,这些文本的情感分析可以提供有用的信息,以帮助投资者在市场上进行贸易。在本文中,建议通过预测-1和+1之间的范围内的分数(数据类型Rime)来确定与公司和股票相关的情绪。具体而言,我们精细调整了罗伯塔模型来处理头条和微博,并将其与其他变压器层组合,以处理与情绪词典的句子分析,以改善情绪分析。我们在Semeval-2017任务5发布的财务数据上进行了评估,我们的命题优于Semeval-2017任务5和强基线的最佳系统。实际上,与财务和一般情绪词典的上下文句子分析的组合为我们的模型提供了有用的信息,并允许它产生更可靠的情感分数。
translated by 谷歌翻译
句子嵌入通常用于文本聚类和语义检索任务中。最先进的句子表示方法基于大量手动标记句子对集合的人工神经网络。高资源语言(例如英语或中文)可以使用足够数量的注释数据。在不太受欢迎的语言中,必须使用多语言模型,从而提供较低的性能。在本出版物中,我们通过提出一种培训有效的语言特定句子编码的方法来解决此问题,而无需手动标记数据。我们的方法是从句子对准双语文本语料库中自动构建释义对数据集。然后,我们使用收集的数据来微调具有附加复发池层的变压器语言模型。我们的句子编码器可以在不到一天的时间内在一张图形卡上进行培训,从而在各种句子级的任务上实现高性能。我们在波兰语中评估了八个语言任务的方法,并将其与最佳可用多语言句子编码器进行比较。
translated by 谷歌翻译
近年来,我们看到了处理敏感个人信息的应用程序(包括对话系统)的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先,性能模型应该能够区分敏感内容与中性句子的句子。其次,它应该能够识别其中包含的个人数据类别的类型。这样,可以考虑每个类别的不同隐私处理。在文献中,如果有关于自动敏感数据识别的作品,则通常在没有共同基准的不同域或语言上进行。为了填补这一空白,在这项工作中,我们介绍了SPEDAC,这是一个新的注释基准,用于识别敏感的个人数据类别。此外,我们提供了对数据集的广泛评估,该数据集使用不同的基准和基于Roberta的分类器进行的,这是一种神经体系结构,在检测敏感句子和个人数据类别的分类方面实现了强大的性能。
translated by 谷歌翻译
BERT (Devlin et al., 2018) and RoBERTa has set a new state-of-the-art performance on sentence-pair regression tasks like semantic textual similarity (STS). However, it requires that both sentences are fed into the network, which causes a massive computational overhead: Finding the most similar pair in a collection of 10,000 sentences requires about 50 million inference computations (~65 hours) with BERT. The construction of BERT makes it unsuitable for semantic similarity search as well as for unsupervised tasks like clustering.In this publication, we present Sentence-BERT (SBERT), a modification of the pretrained BERT network that use siamese and triplet network structures to derive semantically meaningful sentence embeddings that can be compared using cosine-similarity. This reduces the effort for finding the most similar pair from 65 hours with BERT / RoBERTa to about 5 seconds with SBERT, while maintaining the accuracy from BERT.We evaluate SBERT and SRoBERTa on common STS tasks and transfer learning tasks, where it outperforms other state-of-the-art sentence embeddings methods. 1
translated by 谷歌翻译
句子嵌入方法有许多成功的应用。但是,根据监督信号,在结果句子嵌入中捕获了哪些属性。在本文中,我们专注于具有相似体系结构和任务的两种类型的嵌入方法:一种关于自然语言推理任务的微型预训练的语言模型,以及其他微型训练的训练语言模型在单词预测任务上根据其定义句子,并研究其属性。具体而言,我们使用两个角度分区的STS数据集比较他们在语义文本相似性(STS)任务上的性能:1)句子源和2)句子对的表面相似性,并在下游和探测任务上比较其表现。此外,我们尝试结合两种方法,并证明将两种方法组合起来比无监督的STS任务和下游任务的各自方法的性能要好得多。
translated by 谷歌翻译
当查询使用不同的词汇表时,在大型临床本体中寻找概念可能是挑战。一种克服这个问题的搜索算法在概念归一化和本体匹配之类的应用中有用,其中概念可以以不同的方式引用,使用不同的同义词。在本文中,我们提出了一种基于深度学习的方法来构建大型临床本体的语义搜索系统。我们提出了一种三重型BERT模型和一种直接从本体产生培训数据的方法。该模型使用五个真实的基准数据集进行评估,结果表明,我们的方法在自由文本上实现了高结果,以概念和概念到概念搜索任务,并且优越所有基线方法。
translated by 谷歌翻译
与伯特(Bert)等语言模型相比,已证明知识增强语言表示的预培训模型在知识基础构建任务(即〜关系提取)中更有效。这些知识增强的语言模型将知识纳入预训练中,以生成实体或关系的表示。但是,现有方法通常用单独的嵌入表示每个实体。结果,这些方法难以代表播出的实体和大量参数,在其基础代币模型之上(即〜变压器),必须使用,并且可以处理的实体数量为由于内存限制,实践限制。此外,现有模型仍然难以同时代表实体和关系。为了解决这些问题,我们提出了一个新的预培训模型,该模型分别从图书中学习实体和关系的表示形式,并分别在文本中跨越跨度。通过使用SPAN模块有效地编码跨度,我们的模型可以代表实体及其关系,但所需的参数比现有模型更少。我们通过从Wikipedia中提取的知识图对我们的模型进行了预训练,并在广泛的监督和无监督的信息提取任务上进行了测试。结果表明,我们的模型比基线学习对实体和关系的表现更好,而在监督的设置中,微调我们的模型始终优于罗伯塔,并在信息提取任务上取得了竞争成果。
translated by 谷歌翻译
绑架性自然语言推断(\ alpha {} nli)的任务是确定哪种假设是一组观察的可能性更可能的解释,是NLI的特别困难类型。与其仅仅确定因果关系,还需要常识,还需要评估解释的合理性。所有最新的竞争系统都以情境化表示为基础,并利用变压器体系结构来学习NLI模型。当某人面对特定的NLI任务时,他们需要选择可用的最佳模型。这是一项耗时且资源浓厚的努力。为了解决这个实用问题,我们提出了一种简单的方法来预测性能,而无需实际调整模型。我们通过测试预先训练的模型在\ alpha {} NLI任务上的性能如何,仅将具有余弦相似性的句子嵌入到训练这些嵌入式的分类器时所达到的性能。我们表明,余弦相似方法的准确性与Pearson相关系数为0.65的分类方法的准确性密切相关。由于相似性计算是在给定数据集上计算的数量级(少于一分钟与小时),因此我们的方法可以在模型选择过程中节省大量时间。
translated by 谷歌翻译
雇用措施恳求抄袭文本的措施是对学术诚信的严重威胁。要启用检测机释录的文本,我们会评估五个预先训练的单词嵌入模型的有效性与机器学习分类器和最先进的神经语言模型相结合。我们分析了研究论文,毕业论文和维基百科文章的预印刷品,我们使用不同的工具SpinBot和Spinnerchief释放。最佳的表演技术,啰素,平均F1得分为80.99%(F1 = 99.68%,纺纱病例的F1 = 71.64%),而人类评估员均达到纺纱病例的F1 = 78.4%,F1 = 65.6%的纺纱病例。我们表明,自动分类减轻了广泛使用的文本匹配系统的缺点,例如金风格和Plagscan。为了促进未来的研究,所有数据,代码和两个展示我们贡献的Web应用程序都公开使用。
translated by 谷歌翻译
作为世界上第四大语言家庭,Dravidian语言已成为自然语言处理(NLP)的研究热点。虽然Dravidian语言包含大量语言,但有相对较少的公众可用资源。此外,文本分类任务是自然语言处理的基本任务,如何将其与Dravidian语言中的多种语言相结合,仍然是Dravidian自然语言处理的主要困难。因此,为了解决这些问题,我们为Dravidian语言提出了一个多语言文本分类框架。一方面,该框架使用Labse预先训练的模型作为基础模型。针对多任务学习中文本信息偏见的问题,我们建议使用MLM策略选择语言特定的单词,并使用对抗训练来扰乱它们。另一方面,鉴于模型无法识别和利用语言之间的相关性的问题,我们进一步提出了一种特定于语言的表示模块,以丰富模型的语义信息。实验结果表明,我们提出的框架在多语言文本分类任务中具有重要性能,每个策略实现某些改进。
translated by 谷歌翻译
理解和生成语言的能力使人类认知与其他已知的生命形式不同。我们研究一种在语义解析的任务中,将两种最成功的途径(统计语言模型和象征性语义形式主义)梳理到语言的意义。我们基于基于过渡的抽象表示(AMR)解析器,AMREAGER,我们探索了融合预验证的上下文感知的单词嵌入的实用性 - 例如Bert和Roberta,在AMR解析的问题中,我们为新的解析器做出了贡献。 Dub作为Amrberger。实验发现,与非上下文对应物相比,这些丰富的词汇特征对改善解析器的总体表现并不特别有助于改善解析器的整体性能,而其他概念信息则赋予了系统以优于基准的能力。通过病变研究,我们发现上下文嵌入的使用有助于使系统更强大,以消除显式句法特征。这些发现揭示了上下文嵌入的优势和劣势,并以当前形式揭示了语言模型,并激发了更深入的理解。
translated by 谷歌翻译
社会科学的学术文献是记录人类文明并研究人类社会问题的文献。随着这种文献的大规模增长,快速找到有关相关问题的现有研究的方法已成为对研究人员的紧迫需求。先前的研究,例如SCIBERT,已经表明,使用特定领域的文本进行预训练可以改善这些领域中自然语言处理任务的性能。但是,没有针对社会科学的预训练的语言模型,因此本文提出了关于社会科学引文指数(SSCI)期刊上许多摘要的预培训模型。这些模型可在GitHub(https://github.com/s-t-full-text-knowledge-mining/ssci-bert)上获得,在学科分类和带有社会科学文学的抽象结构 - 功能识别任务方面表现出色。
translated by 谷歌翻译
通过捕获文本表示的组成性,大型语言模型在各种自然语言处理任务中取得了成功。尽管它们取得了巨大的成功,但这些向量表示未能捕获惯用多字表达式(MWES)的含义。在本文中,我们专注于使用二进制分类检测惯用表达式。我们使用一个数据集,该数据集包括英语和葡萄牙语中MWE的字面用法和惯用性。此后,我们在两个不同的设置中执行分类:零射门和一个镜头,以确定给定的句子是否包含成语。 n个任务的n射击分类是由训练和测试集之间的n个常见成语数定义的。在本文中,我们在设置中训练多个大型语言模型,并在零射击设置中获得0.73的F1分数(宏),一个射击设置为0.85的F1分数(宏)。可以在https://github.com/ashwinpathak20/idiomation_detection_using_using_few_shot_learning上找到我们工作的实现。
translated by 谷歌翻译
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
translated by 谷歌翻译
预先训练的上下文化文本表示模型学习自然语言的有效表示,以使IT机器可以理解。在注意机制的突破之后,已经提出了新一代预磨模的模型,以便自变压器引入以来实现了良好的性能。来自变压器(BERT)的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功,但大多数可用的型号已经在印度欧洲语言中培训,但是对代表性的语言和方言的类似研究仍然稀疏。在本文中,我们调查了培训基于单语言变换器的语言模型的可行性,以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务,方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据(维基百科,文章等)更方便这些非标准化语言。此外,结果表明,相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后,我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。
translated by 谷歌翻译
Current state-of-the-art approaches to text classification typically leverage BERT-style Transformer models with a softmax classifier, jointly fine-tuned to predict class labels of a target task. In this paper, we instead propose an alternative training objective in which we learn task-specific embeddings of text: our proposed objective learns embeddings such that all texts that share the same target class label should be close together in the embedding space, while all others should be far apart. This allows us to replace the softmax classifier with a more interpretable k-nearest-neighbor classification approach. In a series of experiments, we show that this yields a number of interesting benefits: (1) The resulting order induced by distances in the embedding space can be used to directly explain classification decisions. (2) This facilitates qualitative inspection of the training data, helping us to better understand the problem space and identify labelling quality issues. (3) The learned distances to some degree generalize to unseen classes, allowing us to incrementally add new classes without retraining the model. We present extensive experiments which show that the benefits of ante-hoc explainability and incremental learning come at no cost in overall classification accuracy, thus pointing to practical applicability of our proposed approach.
translated by 谷歌翻译
自然语言处理的进步(NLP)正在通过实际应用和学术利益的形式传播各个域。本质上,法律域包含大量数据以文本格式。因此,它需要将NLP应用于迎合对域的分析要求苛刻的需求。识别法律案例中的重要句子,事实和论点是法律专业人员这么繁琐的任务。在本研究中,我们探讨了句子嵌入的使用,以确定法律案件中的重要句子,在案件中的主要缔约方的角度。此外,定义了特定于任务的丢失功能,以提高通过分类交叉熵损失的直接使用限制的准确性。
translated by 谷歌翻译
法律文本经常使用难以理解的概念。律师在其他事物仔细研究他们过去习惯的情况下,阐述了这种概念的含义。寻找以有用方式提及特定概念的文本片段是乏味,耗时的,因此,昂贵。我们组装了一个来自法律案例决策的26,959个句子的数据集,并在他们解释所选法律概念的实用性方面标记它们。使用DataSet我们研究了基于Transformer的模型的有效性,在大型语言语料上进行了预先培训,以检测哪些句子是有用的。根据模型的预测,我们分析了解释性句子的各种语言特性,以及他们与需要解释的法律概念的关系。我们表明,基于变压器的模型能够学习令人惊讶的复杂功能,优于前进的任务方法。
translated by 谷歌翻译
本文提出了一种新的FNC-1假新闻分类任务的方法,其中涉及使用类似NLP任务的预训练编码器模型,即句子相似性和自然语言推断,并提出了使用这种方法的两个神经网络架构。探讨了数据增强方法作为解决数据集中的类不平衡的一种手段,采用常见的先前存在的方法,并提出了一种使用新句子否定算法的代表性不足类中样本生成的方法。与现有基线相当的总体性能是可比的,而对于FNC-1的代表性不足但仍然重要的类别的准确性显着提高了准确性。
translated by 谷歌翻译