文本分类在许多实际应用中起着重要作用。在现实世界中,数据集非常小。大多数现有方法采用预训练的神经网络模型来处理这种数据集。但是,这些方法要么很难在移动设备上部署,因此它们的输出尺寸较大,或者无法完全提取短语和条款之间的深层语义信息。本文提出了一个基于多模型的深度学习框架,用于使用不平衡且极其小的数据集,用于短文本多类分类。我们的框架主要包括五层:编码器层使用Distilbert获得上下文敏感的动态词向量,这些词向量很难在传统的功能工程方法中表示。由于该层的变压器部分是蒸馏的,因此我们的框架被压缩。然后,我们使用接下来的两层提取深层语义信息。编码器层的输出发送到双向LSTM网络,并以单词和句子级别的LSTM层次提取特征矩阵,以获得细粒的语义表示。之后,最大式层将特征矩阵转换为较低维矩阵,仅保留明显的特征。最后,将特征矩阵视为完全连接的软磁层的输入,该输入包含一个可以将预测的线性向量转换为输出值的函数,作为每个分类中文本的概率。对两个公共基准测试的广泛实验证明了我们提出的方法对极小的数据集的有效性。它在精确,召回,准确性和F1得分方面保留最先进的基线性能,以及通过模型大小,训练时间和收敛时期,我们可以得出结论,可以更快,更轻松地部署我们的方法在移动设备上。
translated by 谷歌翻译
来自文本的采矿因果关系是一种复杂的和至关重要的自然语言理解任务,对应于人类认知。其解决方案的现有研究可以分为两种主要类别:基于特征工程和基于神经模型的方法。在本文中,我们发现前者具有不完整的覆盖范围和固有的错误,但提供了先验知识;虽然后者利用上下文信息,但其因果推断不足。为了处理限制,我们提出了一个名为MCDN的新型因果关系检测模型,明确地模拟因果关系,而且,利用两种方法的优势。具体而言,我们采用多头自我关注在Word级别获得语义特征,并在段级别推断出来的SCRN。据我们所知,关于因果关系任务,这是第一次应用关系网络。实验结果表明:1)该方法对因果区检测进行了突出的性能; 2)进一步分析表现出MCDN的有效性和稳健性。
translated by 谷歌翻译
转移学习已通过深度审慎的语言模型广泛用于自然语言处理,例如来自变形金刚和通用句子编码器的双向编码器表示。尽管取得了巨大的成功,但语言模型应用于小型数据集时会过多地适合,并且很容易忘记与分类器进行微调时。为了解决这个忘记将深入的语言模型从一个域转移到另一个领域的问题,现有的努力探索了微调方法,以减少忘记。我们建议DeepeMotex是一种有效的顺序转移学习方法,以检测文本中的情绪。为了避免忘记问题,通过从Twitter收集的大量情绪标记的数据来仪器进行微调步骤。我们使用策划的Twitter数据集和基准数据集进行了一项实验研究。 DeepeMotex模型在测试数据集上实现多级情绪分类的精度超过91%。我们评估了微调DeepeMotex模型在分类Emoint和刺激基准数据集中的情绪时的性能。这些模型在基准数据集中的73%的实例中正确分类了情绪。所提出的DeepeMotex-Bert模型优于BI-LSTM在基准数据集上的BI-LSTM增长23%。我们还研究了微调数据集的大小对模型准确性的影响。我们的评估结果表明,通过大量情绪标记的数据进行微调提高了最终目标任务模型的鲁棒性和有效性。
translated by 谷歌翻译
本文通过将深度递归编码器添加到具有深递归编码器(BERT-DRE)的伯爵,提供了一种深度神经阵列匹配(NLSM)。我们对模型行为的分析表明,BERT仍未捕获文本的全部复杂性,因此伯特顶部应用了一个深递归编码器。具有残留连接的三个Bi-LSTM层用于设计递归编码器,并在此编码器顶部使用注意模块。为了获得最终的载体,使用由平均值和最大池组成的池化层。我们在四个基准,SNLI,贝尔船,Multinli,Scitail和新的波斯宗教问题数据集上进行模型。本文侧重于改善NLSM任务中的BERT结果。在这方面,进行BERT-DRE和BERT之间的比较,并且显示在所有情况下,BERT-DRE优于伯特。宗教数据集的BERT算法实现了89.70%的精度,并且BERT-DRE架构使用相同的数据集提高了90.29%。
translated by 谷歌翻译
Named Entity Recognition and Intent Classification are among the most important subfields of the field of Natural Language Processing. Recent research has lead to the development of faster, more sophisticated and efficient models to tackle the problems posed by those two tasks. In this work we explore the effectiveness of two separate families of Deep Learning networks for those tasks: Bidirectional Long Short-Term networks and Transformer-based networks. The models were trained and tested on the ATIS benchmark dataset for both English and Greek languages. The purpose of this paper is to present a comparative study of the two groups of networks for both languages and showcase the results of our experiments. The models, being the current state-of-the-art, yielded impressive results and achieved high performance.
translated by 谷歌翻译
由于在线学习和评估平台(例如Coursera,Udemy,Khan Academy等)的兴起,对论文(AES)和自动论文评分的自动评估(AES)已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是,其中许多技术都使用手工制作的功能,因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式,可以利用大量数据并确定对论文评估有用的功能。为此,我们提出了一种基于复发网络(RNN)和卷积神经网络(CNN)的新型体系结构。在拟议的体系结构中,多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征,并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元(BGRU),用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的,以实现AES的任务。实验结果表明,我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译
Sentiment analysis is the computational study of opinions and emotions ex-pressed in text. Deep learning is a model that is currently producing state-of-the-art in various application domains, including sentiment analysis. Many researchers are using a hybrid approach that combines different deep learning models and has been shown to improve model performance. In sentiment analysis, input in text data is first converted into a numerical representation. The standard method used to obtain a text representation is the fine-tuned embedding method. However, this method does not pay attention to each word's context in the sentence. Therefore, the Bidirectional Encoder Representation from Transformer (BERT) model is used to obtain text representations based on the context and position of words in sentences. This research extends the previous hybrid deep learning using BERT representation for Indonesian sentiment analysis. Our simulation shows that the BERT representation improves the accuracies of all hybrid architectures. The BERT-based LSTM-CNN also reaches slightly better accuracies than other BERT-based hybrid architectures.
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
以互联网上的文件形式存储的信息量迅速增加。因此,它已成为以最佳方式组织和维护这些文件的必要性。文本分类算法研究文本中单词之间的复杂关系,并尝试解释文档的语义。这些算法在过去几年中已经显着发展。从简单的机器学习算法到基于变压器的架构有很多进展。然而,现有文献在不同的数据集上分析了不同的方法,从而难以比较机器学习算法的性能。在这项工作中,我们使用标准机器学习方法重新审视长文件分类。我们在六个标准文本分类数据集中从简单的天真贝叶斯到复杂伯爵的基准方法。我们在一系列长文档数据集中呈现了不同算法的详尽比较。我们重新延长了长篇文档分类是一个更简单的任务,甚至基本算法竞争地在大多数数据集上具有基于BERT的方法。基于BERT的模型在所有数据集上始终如一地执行,并且当计算成本不是一个问题时,可以盲目地用于文档分类任务。在浅模范的类别中,我们建议使用原始Bilstm + Max架构的用法,这些架构在所有数据集中体面效果。即使是更简单的手套+注意单词模型也可用于更简单的用例。在IMDB情绪数据集中清晰可见使用复杂模型的重要性,这是一个相对较难的任务。
translated by 谷歌翻译
自动推荐向特定法律案件的相关法律文章引起了很多关注,因为它可以大大释放人工劳动力,从而在大型法律数据库中寻找。然而,目前的研究只支持粗粒度推荐,其中所有相关文章都预测为整体,而无需解释每种文章与之相关的具体事实。由于一个案例可以由许多支持事实形成,因此遍历它们来验证推荐结果的正确性可能是耗时的。我们认为,在每个单一的事实和法律文章之间学习细粒度的对应,对于准确可靠的AI系统至关重要。通过这种动机,我们执行开创性的研究并创建一个手动注释的事实 - 文章的语料库。我们将学习视为文本匹配任务,并提出一个多级匹配网络来解决它。为了帮助模型更好地消化法律文章的内容,我们以随机森林的前提结论对形式解析物品。实验表明,解析的形式产生了更好的性能,结果模型超越了其他流行的文本匹配基线。此外,我们与先前的研究相比,并发现建立细粒度的事实 - 文章对应物可以通过大幅度提高建议准确性。我们最好的系统达到了96.3%的F1得分,使其具有实际使用潜力。它还可以显着提高法律决策预测的下游任务,将F1增加到12.7%。
translated by 谷歌翻译
基于方面的情感分析非常重要和应用,因为它能够识别文本中讨论的所有方面。但是,基于方面的情感分析将是最有效的,除了确定文本中讨论的所有方面外,它还可以识别其极性。大多数以前的方法都使用管道方法,即,它们首先识别各个方面,然后识别极性。此类方法不适合实际应用,因为它们可以导致模型错误。因此,在这项研究中,我们提出了一个基于卷积神经网络(CNN)的多任务学习模型,该模型可以同时检测方面类别并检测方面类别的极性。单独创建模型可能不会提供最佳的预测,并导致诸如偏见和高方差之类的错误。为了减少这些错误并提高模型预测的效率,将几种称为合奏学习的模型组合在一起可以提供更好的结果。因此,本文的主要目的是创建一个基于多任务深度卷积神经网络合奏的模型,以增强波斯评论中的情感分析。我们使用电影域中的波斯语数据集评估了提出的方法。 jacquard索引和锤损失措施用于评估开发模型的性能。结果表明,这种新方法提高了波斯语中情感分析模型的效率。
translated by 谷歌翻译
长期以来,共同基金或交易所交易基金(ETF)的分类已为财务分析师提供服务,以进行同行分析,以从竞争对手分析开始到量化投资组合多元化。分类方法通常依赖于从n-1a表格中提取的结构化格式的基金组成数据。在这里,我们启动一项研究,直接从使用自然语言处理(NLP)的表格中描绘的非结构化数据中学习分类系统。将输入数据仅作为表格中报告的投资策略描述,而目标变量是Lipper全球类别,并且使用各种NLP模型,我们表明,分类系统确实可以通过高准确率。我们讨论了我们发现的含义和应用,以及现有的预培训架构的局限性在应用它们以学习基金分类时。
translated by 谷歌翻译
电子邮件和短信是当今通信中最受欢迎的工具,随着电子邮件和短信用户的增加增加,垃圾邮件的数量也增加了。垃圾邮件是任何一种不必要的,未经请求的数字通信,批量发送,垃圾邮件和短信会通过不必要地淹没网络链接而导致重大资源浪费。尽管大多数垃圾邮件邮件都来自希望推销产品的广告商,但有些邮件的意图更为恶意,例如网络钓鱼电子邮件,旨在欺骗受害者,以放弃敏感信息,例如网站登录或信用卡信息,这种类型的网络犯罪称为网络钓鱼。为了对策垃圾邮件,进行了许多研究和努力来构建能够将消息和电子邮件滤出来垃圾邮件或火腿的垃圾邮件检测器。在这项研究中,我们使用BERT预培训模型构建垃圾邮件检测器,该模型通过理解其上下文来对电子邮件和消息进行分类,我们使用SMS Collection Corpus,Enron Corpus,Spamassassins,Spamassassins,Ling-Spam Corpus培训了垃圾邮件检测器模型和SMS垃圾邮件收集语料库,我们的垃圾邮件检测器性能分别为98.62%,97.83%,99.13%和99.28%。关键字:垃圾邮件检测器,BERT,机器学习,NLP,Transformer,Enron语料库,Spamassassins Corpus,SMS垃圾邮件检测语料库,Ling-Spam语料库。
translated by 谷歌翻译
Context: The IoT system infrastructure platform facility vulnerability attack has become the main battlefield of network security attacks. Most of the traditional vulnerability mining methods rely on vulnerability detection tools to realize vulnerability discovery. However, due to the inflexibility of tools and the limitation of file size, its scalability It is relatively low and cannot be applied to large-scale power big data fields. Objective: The goal of the research is to intelligently detect vulnerabilities in source codes of high-level languages such as C/C++. This enables us to propose a code representation of sensitive sentence-related slices of source code, and to detect vulnerabilities by designing a distributed deep ensemble learning model. Method: In this paper, a new directional vulnerability mining method of parallel ensemble learning is proposed to solve the problem of large-scale data vulnerability mining. By extracting sensitive functions and statements, a sensitive statement library of vulnerable codes is formed. The AST stream-based vulnerability code slice with higher granularity performs doc2vec sentence vectorization on the source code through the random sampling module, obtains different classification results through distributed training through the Bi-LSTM trainer, and obtains the final classification result by voting. Results: This method designs and implements a distributed deep ensemble learning system software vulnerability mining system called DCDetector. It can make accurate predictions by using the syntactic information of the code, and is an effective method for analyzing large-scale vulnerability data. Conclusion: Experiments show that this method can reduce the false positive rate of traditional static analysis and improve the performance and accuracy of machine learning.
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译