智能论文笔记

AIS: A nonlinear activation function for industrial safety engineering

Zhenhua Wang , Beike Zhang , Dong Gao

分类：机器学习 | 自然语言处理 | 神经与进化计算

2021-11-27

在基于深度学习的中文命名实体识别的任务中，激活函数起到不可替代的作用，它将非线性特性引入神经网络中，从而可以将拟合模型应用于各种任务。然而，工业安全分析文本的信息密度相对较高，信息之间的相关性和相似性很大，这很容易导致模型的高偏差问题和高标准偏差，没有设计特定的激活功能在先前的研究中，传统的激活函数具有梯度消失和负区域的问题，这也导致模型的识别精度不能进一步提高。为了解决这些问题，本文提出了一种新的激活功能AIS。 AIS是应用于工业安全工程中的激活功能，由两种分段非线性功能组成。在正区域中，组合指数函数和二次函数的结构用于缓解偏差和标准偏差的问题，并且添加线性函数以修改它，这使得整个激活函数更顺畅并克服梯度消失的问题。在负区域中，立方函数结构用于解决负面区域问题并加速模型的收敛。基于BERT-BILSTM-CRF的深度学习模型，评估AIS的性能。结果表明，与其他激活功能相比，AIS克服了梯度消失和负面区域的问题，减少了模型的偏差，加快了模型配件，提高了工业实体模型的提取能力。

translated by 谷歌翻译

Why MDAC? A Multi-domain Activation Function

Zhenhua Wang , Dong Gao , Haozhe Liu , Fanglin Liu

分类：机器学习 | 自然语言处理 | 神经与进化计算

2021-11-27

在本研究中，提出了一种新的，一般和巧妙的激活函数，被称为MDAC，以超越梯度消失和不可分化的存在的麻烦。 MDAC大致继承指数激活函数（如Tanh系列）的属性和分段线性激活函数（例如Relu系列）。具体地，在正区域中，自适应线性结构被设计为响应各种域分布。在负面地区，指数和线性度的组合被认为是征服梯度消失的障碍。此外，通过光滑的近似消除了不可分化的存在。实验表明，MDAC通过简单地改变激活功能，MDAC在六个域数据集中提高了六个域数据集的性能，这表明MDAC的有效性和高尚的革命性。 MDAC优于鲁棒性和泛化的其他普遍激活功能，并且可以在多个域中反映出色的激活性能。

translated by 谷歌翻译

A novel knowledge graph development for industry design: A case study on indirect coal liquefaction process

Zhenhua Wang , Beike Zhang , Dong Gao

分类：自然语言处理

2021-11-27

危险和可操作性分析（HAZOP）是工业安全工程中卓越的代表，HAZOP报告包含了工业安全知识（ISK）的巨大仓库。为了解锁ISK的价值并提高HAZOP效率，提出了一种新颖的知识图表开发工业安全（ISKG）。首先，根据国际标准IEC61882，我们使用自上而下的方法将HAZOP解体到具有多级信息的危险事件，该事件构建本体库。其次，采用自下而上的方法和自然语言处理技术，我们提出了一种基于杂交深度学习的Hainex的巧妙信息提取模型。简而言之，Hainex由以下模块组成：改进的工业双向编码器，用于提取语义特征，用于获得上下文表示的双向短期存储网络，以及基于具有改进的工业损失功能的条件随机场的解码器。最后，将构造的HAZOP三元组导入图表数据库。实验表明，Hainex先进，可靠。我们采取间接煤液化过程作为发展ISKG的案例研究。 ISKG导向应用，如ISK可视化，ISK检索，辅助斑纹和危险传播推理，可以挖掘ISK的潜力，提高HAZOP效率，这在加强工业安全方面具有重要意义。更重要的是，基于ISKG的问答系统可以应用于教学指导，以推广安全知识，并加强对非专业人士的预防意识。

translated by 谷歌翻译

WCL-BBCD: A Contrastive Learning and Knowledge Graph Approach to Named Entity Recognition

Renjie Zhou , Qiang Hu , Jian Wan , Jilin Zhang , Qiang Liu , Tianxiang Hu , Jianjun Li

分类：自然语言处理 | 人工智能

2022-03-14

指定的实体识别任务是信息提取的核心任务之一。单词歧义和单词缩写是命名实体低识别率的重要原因。在本文中，我们提出了一种名为“实体识别模型WCL-BBCD”（与Bert-Bilstm-Crf-Dbpedia的单词对比学习），结合了对比度学习的概念。该模型首先在文本中训练句子对，计算句子对通过余弦的相似性中的单词对之间的相似性，以及通过相似性通过相似性来命名实体识别任务的BERT模型，以减轻单词歧义。然后，将微调的BERT模型与Bilstm-CRF模型相结合，以执行指定的实体识别任务。最后，将识别结果与先验知识（例如知识图）结合使用，以减轻单词缩写引起的低速问题的识别。实验结果表明，我们的模型在Conll-2003英语数据集和Ontonotes V5英语数据集上优于其他类似的模型方法。

translated by 谷歌翻译

Brand Celebrity Matching Model Based on Natural Language Processing

Heming Yang , Ke Yang , Erhan Zhang

分类：自然语言处理

2022-08-18

名人认可是品牌交流中最重要的策略之一。如今，越来越多的公司试图为自己建立生动的特征。因此，他们的品牌身份交流应符合人类和法规的某些特征。但是，以前的作品主要是通过假设停止的，而不是提出一种特定的品牌和名人之间匹配的方式。在本文中，我们建议基于自然语言处理（NLP）技术的品牌名人匹配模型（BCM）。鉴于品牌和名人，我们首先从互联网上获得了一些描述性文档，然后总结了这些文档，最后计算品牌和名人之间的匹配程度，以确定它们是否匹配。根据实验结果，我们提出的模型以0.362 F1得分和精度的6.3％优于最佳基线，这表明我们模型在现实世界中的有效性和应用值。更重要的是，据我们所知，拟议的BCM模型是使用NLP解决认可问题的第一项工作，因此它可以为以下工作提供一些新颖的研究思想和方法。

translated by 谷歌翻译

Yes, DLGM! A novel hierarchical model for hazard classification

Zhenhua Wang , Ming Ren , Dong Gao , Bin Wang

分类：自然语言处理

2022-09-10

Hazop可以将危害作为文本信息暴露，研究其分类对于工业信息学的发展具有重要意义，这有利于安全性预警，决策支持，政策评估等。但是，对这一重要的研究没有研究目前。在本文中，我们提出了一种通过深度学习危害分类来称为DLGM的新型模型。具体而言，首先，我们利用BERT将危险矢量化并将其视为时间序列（HTS）。其次，我们构建了一个灰色模型FSGM（1，1）来对其进行建模，并从结构参数的意义上获得灰色指导。最后，我们设计了一个层次 - 特征融合神经网络（HFFNN），以从三个主题中使用灰色指导（HTSGG）调查HTS，其中HFFNN是一种具有四种模块的层次结构：两种功能编码器，一个门控机制，和一个门控机制和一个模块。加深机制。我们将18个工业流程作为应用程序案例，并启动一系列实验。实验结果证明，DLGM有望成为危险分类的才能，FSGM（1，1）和HFFNN具有有效性。我们希望我们的研究能为工业安全的日常实践贡献价值和支持。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Application of Data Encryption in Chinese Named Entity Recognition

Kaifang Long , Jikun Dong , Shengyu Fan , Yanfang Geng , Yang Cao , Han Zhao , Hui Yu , Weizhi Xu

分类：自然语言处理

2022-08-31

最近，随着深度学习的持续发展，指定实体识别任务的表现得到了极大的改进。但是，在某些特定领域（例如生物医学和军事）中数据的隐私和机密性导致数据不足以支持深度神经网络的培训。在本文中，我们提出了一个加密学习框架，以解决数据泄漏的问题以及对某些域中敏感数据的不便披露。我们首次将多个加密算法介绍以在指定实体识别任务中加密培训数据。换句话说，我们使用加密数据训练深神网络。我们在六个中国数据集上进行实验，其中三个是由我们自己构建的。实验结果表明，加密方法可实现令人满意的结果。一些经过加密数据训练的模型的性能甚至超过了未加密方法的性能，该方法验证了引入的加密方法的有效性，并在一定程度上解决了数据泄漏问题。

translated by 谷歌翻译

HTML版本

Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model

Hind Saleh , Areej Alhothali , Kawthar Moria

分类：自然语言处理

2021-11-02

在网络和社交媒体上生成的大量数据增加了检测在线仇恨言论的需求。检测仇恨言论将减少它们对他人的负面影响和影响。在自然语言处理（NLP）域中的许多努力旨在宣传仇恨言论或检测特定的仇恨言论，如宗教，种族，性别或性取向。讨厌的社区倾向于使用缩写，故意拼写错误和他们的沟通中的编码词来逃避检测，增加了讨厌语音检测任务的更多挑战。因此，词表示将在检测仇恨言论中发挥越来越关的作用。本文研究了利用基于双向LSTM的深度模型中嵌入的域特定词语的可行性，以自动检测/分类仇恨语音。此外，我们调查转移学习语言模型（BERT）对仇恨语音问题作为二进制分类任务。实验表明，与双向LSTM基于LSTM的深层模型嵌入的域特异性词嵌入了93％的F1分数，而BERT在可用仇恨语音数据集中的组合平衡数据集上达到了高达96％的F1分数。

translated by 谷歌翻译

Nish: A Novel Negative Stimulated Hybrid Activation Function

Yildiray Anagun , Sahin Isik

分类：机器学习 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-10-17

An activation function has a significant impact on the efficiency and robustness of the neural networks. As an alternative, we evolved a cutting-edge non-monotonic activation function, Negative Stimulated Hybrid Activation Function (Nish). It acts as a Rectified Linear Unit (ReLU) function for the positive region and a sinus-sigmoidal function for the negative region. In other words, it incorporates a sigmoid and a sine function and gaining new dynamics over classical ReLU. We analyzed the consistency of the Nish for different combinations of essential networks and most common activation functions using on several most popular benchmarks. From the experimental results, we reported that the accuracy rates achieved by the Nish is slightly better than compared to the Mish in classification.

translated by 谷歌翻译

Multi-features based Semantic Augmentation Networks for Named Entity Recognition in Threat Intelligence

Peipei Liu , Hong Li , Zuoguang Wang , Jie Liu , Yimo Ren , Hongsong Zhu

分类：自然语言处理

2022-07-01

从非结构化网络文本中提取网络安全实体，例如攻击者和漏洞是安全分析的重要组成部分。但是，智能数据的稀疏性是由较高的频率变化产生的，并且网络安全实体名称的随机性使得当前方法在提取与安全相关的概念和实体方面很难表现良好。为此，我们提出了一种语义增强方法，该方法结合了不同的语言特征，以丰富输入令牌的表示，以通过非结构化文本检测和对网络安全名称进行分类。特别是，我们编码和汇总每个输入令牌的组成特征，形态特征和语音特征的一部分，以提高方法的鲁棒性。不仅如此，令牌从其在网络安全域中最相似的k单词获得了增强的语义信息，在该语料库中，将一个细心的模块借给了一个单词的差异，并从基于大规模的一般田野语料库的上下文线索中权衡了差异。我们已经在网络安全数据集DNRTI和MalwaretextDB上进行了实验，结果证明了该方法的有效性。

translated by 谷歌翻译

A Biomedical Pipeline to Detect Clinical and Non-Clinical Named Entities

Shaina Raza , Brian Schwartz

分类：自然语言处理

2022-07-02

与生物医学命名实体识别任务有关的挑战是：现有方法考虑了较少数量的生物医学实体（例如疾病，症状，蛋白质，基因）；这些方法不考虑健康的社会决定因素（年龄，性别，就业，种族），这是与患者健康有关的非医学因素。我们提出了一条机器学习管道，该管道通过以下方式改善了以前的努力：首先，它认识到标准类型以外的许多生物医学实体类型；其次，它考虑了与患者健康有关的非临床因素。该管道还包括阶段，例如预处理，令牌化，映射嵌入查找和命名实体识别任务，以从自由文本中提取生物医学命名实体。我们提出了一个新的数据集，我们通过策划COVID-19案例报告来准备。所提出的方法的表现优于五个基准数据集上的基线方法，其宏观和微平均F1得分约为90，而我们的数据集则分别为95.25和93.18的宏观和微平均F1得分。

translated by 谷歌翻译

APTx: better activation function than MISH, SWISH, and ReLU's variants used in deep learning

Ravin Kumar

分类：机器学习 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-09-10

激活功能在深神网络中引入非线性。这种非线性有助于神经网络从数据集中更快，有效地学习。在深度学习中，基于类型问题陈述开发和使用许多激活功能。Relu的变体，Swish和Mish是Goto激活功能。Mish功能被认为比Swish相似甚至更好，并且比Relu更好。在本文中，我们提出了一个名为APTX的激活函数，其行为与Mish相似，但需要较少的数学操作来计算。APTX的计算要求较小会加快模型培训的速度，从而减少了深度学习模型的硬件需求。

translated by 谷歌翻译

Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Attentive CRF

Junzhe Jiang , Mingyue Cheng , Qi Liu , Zhi Li , Enhong Chen

分类：自然语言处理 | 人工智能

2022-11-09

Recognizing useful named entities plays a vital role in medical information processing, which helps drive the development of medical area research. Deep learning methods have achieved good results in medical named entity recognition (NER). However, we find that existing methods face great challenges when dealing with the nested named entities. In this work, we propose a novel method, referred to as ASAC, to solve the dilemma caused by the nested phenomenon, in which the core idea is to model the dependency between different categories of entity recognition. The proposed method contains two key modules: the adaptive shared (AS) part and the attentive conditional random field (ACRF) module. The former part automatically assigns adaptive weights across each task to achieve optimal recognition accuracy in the multi-layer network. The latter module employs the attention operation to model the dependency between different entities. In this way, our model could learn better entity representations by capturing the implicit distinctions and relationships between different categories of entities. Extensive experiments on public datasets verify the effectiveness of our method. Besides, we also perform ablation analyses to deeply understand our methods.

translated by 谷歌翻译

Building a Question Answering System for the Manufacturing Domain

Liu Xingguang , Cheng Zhenbo , Shen Zhengyuan , Zhang Haoxin , Meng Hangcheng , Xu Xuesong , Xiao Gang

分类：自然语言处理 | 人工智能

2021-11-19

特殊设备产品的设计或仿真分析必须遵循国家标准，因此可能有必要反复参考设计过程中标准的内容。但是，基于关键字检索的传统问题应答系统很难提供准确的技术问题的答案。因此，我们使用自然语言处理技术来设计用于压力容器设计中的决策过程的问题应答系统。为了解决技术问题应答系统的培训数据不足的问题，我们提出了一种根据来自几个不同维度的声明性句子生成问题的方法，以便可以从声明性句子获得多个问题答案对。此外，我们设计了一种基于双向长期短期存储器（BILSTM）网络的交互式注意模型，以提高两个问题句子的相似性比较的性能。最后，在公共和技术域数据集中测试了问题应答系统的性能。

translated by 谷歌翻译

ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer

Ebrahim Chekol Jibril , A. Cüneyd Tantğ

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-02

命名实体识别是一项信息提取任务，可作为其他自然语言处理任务的预处理步骤，例如机器翻译，信息检索和问题答案。命名实体识别能够识别专有名称以及开放域文本中的时间和数字表达式。对于诸如阿拉伯语，阿姆哈拉语和希伯来语之类的闪族语言，由于这些语言的结构严重变化，指定的实体识别任务更具挑战性。在本文中，我们提出了一个基于双向长期记忆的Amharic命名实体识别系统，并带有条件随机字段层。我们注释了一种新的Amharic命名实体识别数据集（8,070个句子，具有182,691个令牌），并将合成少数群体过度采样技术应用于我们的数据集，以减轻不平衡的分类问题。我们命名的实体识别系统的F_1得分为93％，这是Amharic命名实体识别的新最新结果。

translated by 谷歌翻译

Enhancing Identification of Structure Function of Academic Articles Using Contextual Information

Bowen Ma , Chengzhi Zhang , Yuzhuo Wang , Sanhong Deng

分类：自然语言处理

2021-11-28

随着文献资源的丰富，研究人员面临着信息爆炸和知识过载的不断增长的问题。为了帮助学者检索文学并成功获得知识，澄清学术文学中内容的语义结构已成为基本的研究问题。在识别学术文章中章节的结构功能的研究中，只有几项研究使用了深度学习模型，并探索了特征输入的优化。这限制了研究任务深度学习模型的应用，优化潜力。本文将ACL会议的文章作为语料库。我们采用传统的机器学习模型和深度学习模型，基于各种特征输入构建分类器。实验结果表明，（1）与章节内容相比，章节标题更有利于识别学术文章的结构功能。（2）相对位置是建立传统模型的有价值的功能。（3）受到（2）的启发，本文进一步将上下文信息引入深度学习模型，取得了显着的结果。同时，我们的模型在包含200个采样的非训练样本的开放式测试中显示出良好的迁移能力。近五年我们还基于表演模型的最佳实践，并对整体语料库进行了时间序列分析，近五年注释了ACL主要会议文件。这项工作通过多个比较实验探索并总结了此任务的实际功能和模型，并为相关文本分类任务提供了参考。最后，我们表示当前模型的局限性和缺点以及进一步优化的方向。

translated by 谷歌翻译

Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts

Isabel Segura-Bedmar , David Camino-Perdonas , Sara Guerrero-Aspizua

分类：自然语言处理 | 机器学习 | 神经与进化计算

2021-09-01

虽然罕见疾病的特征在于患病率低，但大约3亿人受到罕见疾病的影响。对这些条件的早期和准确诊断是一般从业者的主要挑战，没有足够的知识来识别它们。除此之外，罕见疾病通常会显示各种表现形式，这可能会使诊断更加困难。延迟的诊断可能会对患者的生命产生负面影响。因此，迫切需要增加关于稀有疾病的科学和医学知识。自然语言处理（NLP）和深度学习可以帮助提取有关罕见疾病的相关信息，以促进其诊断和治疗。本文探讨了几种深度学习技术，例如双向长期内存（BILSTM）网络或基于来自变压器（BERT）的双向编码器表示的深层语境化词表示，以识别罕见疾病及其临床表现（症状和症状） Raredis语料库。该毒品含有超过5,000名罕见疾病和近6,000个临床表现。 Biobert，基于BERT和培训的生物医学Corpora培训的域特定语言表示，获得了最佳结果。特别是，该模型获得罕见疾病的F1分数为85.2％，表现优于所有其他模型。

translated by 谷歌翻译

A Chinese Text Classification Method With Low Hardware Requirement Based on Improved Model Concatenation

Qingli Man , Yuanhao Zhuo

分类：自然语言处理 | 机器学习

2020-10-28

为了提高具有低硬件要求的中文文本分类模型的准确性性能，本文设计了一种改进的基于替代的模型，这是5种不同的子模型，包括Textcnn，LSTM和Bi-LSTM的替代。与现有的集合学习方法相比，对于文本分类任务，这种型号的准确性更高。同时，该模型的硬件要求远低于基于BERT的模型。

translated by 谷歌翻译

Classification of hazard event via language fractal

Zhenhua Wang , Dong Gao , Bin Wang , Ming Ren

分类：自然语言处理

2022-09-12

Hazop是为揭示行业危害的安全范式，其报告涵盖了有价值的危害事件（HAE）。 HAE分类的研究具有许多不可替代的务实值。但是，没有研究对此主题如此关注。在本文中，我们提出了一种新颖的深度学习模型，称为DLF，从语言的角度通过分形方法探索HAE分类。动机是（1）：HAE自然可以被视为一种时间序列；（2）：HAE的含义是由单词排列驱动的。具体而言，首先我们采用bert来矢量化hae。然后，我们提出了一种称为HMF-DFA的新的多型方法，通过分析被视为时间序列的HAE矢量来计算HAE分形系列。最后，我们设计了一个新的分层门控神经网络（HGNN）来处理HAE分形系列以完成HAE的分类。我们进行了18个过程进行案例研究。我们根据他们的Hazop报告启动实验。实验结果表明，我们的DLF分类器令人满意和有前途，提出的HMF-DFA和HGNN有效，并且将语言分形引入HAE是可行的。我们的HAE分类系统可以为Hazop提供服务，并为专家，工程师，员工和其他企业带来应用激励措施，这有利于工业安全的智能发展。我们希望我们的研究能为工业安全和分形理论的日常实践提供更多支持。

translated by 谷歌翻译