智能论文笔记

Knowledge mining of unstructured information: application to cyber-domain

Tuomas Takko , Kunal Bhattacharya , Martti Lehto , Pertti Jalasvirta , Aapo Cederberg , Kimmo Kaski

分类：自然语言处理 | 机器学习

2021-09-08

许多开放的在线资料中，有关网络相关犯罪，事件和冲突的信息大量提供。但是，对分析师和专家来说，处理大量数据和数据流是一项具有挑战性的任务，并且需要对较新的方法和技术的需求。在本文中，我们介绍并实施了一个新颖的知识图和知识挖掘框架，以从有关网络域中事件的自由形式文本中提取相关信息。该框架包括基于机器学习的管道，用于生成具有非技术网络主页的组织，国家，行业，产品和攻击者的图形。提取的知识图用于估计给定图配置上的网络攻击的发生率。我们使用公开可用的实际网络材料报告收集来测试我们方法的功效。发现知识提取足够准确，基于图的威胁估计证明了与攻击实际记录的一定程度。在实际使用中，利用介绍框架的分析师可以从当前的网络景观中推断出各种实体的风险以及行业和国家之间风险启发式的风险。

translated by 谷歌翻译

Inferring Cyber Threat Intelligence -- A Knowledge Graph-based Approach

Nidhi Rastogi , Sharmishtha Dutta , Ryan Christian , Jared Gridley , Mohammad Zaki , Alex Gittens , Charu Aggarwal

分类：人工智能 | 机器学习

2021-02-10

安全分析师在调查攻击，新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章，报告，分析和推文上分享，并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁，妥协指标，攻击方法和预防措施。它统称为威胁智能，通常是一种非结构化格式，因此，无缝集成到现有的IDPS系统中，具有挑战性。在本文中，我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息，以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图（KG）框架Tinker捕获网络威胁信息及其上下文。在修补匠之后，我们生成一个网络智能知识图（CTI-KG）。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。

translated by 谷歌翻译

Textbook to triples: Creating knowledge graph in the form of triples from AI TextBook

Aman Kumar , Swathi Dinakaran

分类：自然语言处理

2021-11-20

知识图是一个必不可少的和趋势技术，具有在实体识别，搜索或问题应答中的优势。在执行命名实体识别任务的自然语言处理中有一种方法;但是，有很少的方法可以为特定于域的文本提供三元组。在本文中，已经努力开发一个可以将文本从给定教科书转换为可以用于可视化的三元组的系统，以便为知识图形和用于进一步应用程序的系统。初步评估和评估给出了有希望的结果，F1得分为82％。

translated by 谷歌翻译

A Deep Learning Approach for Ontology Enrichment from Unstructured Text

Lalit Mohan Sanagavarapu , Vivek Iyer , Raghu Reddy

分类：自然语言处理

2021-12-16

网络世界中的信息安全是令人关切的主要原因，攻击表面的数量显着增加。网络上可用的漏洞，攻击，控件和建议的现有信息提供了代表知识并执行安全分析以减轻一些问题的机会。代表本体形式的安全知识有助于异常检测，威胁情报，推理和相关攻击的相关性归因等。这需要动态和自动丰富信息安全本体。然而，基于自然语言处理和ML模型的现有本体富集算法具有语文提取词，短语和句子的上下文提取问题。这激励了对遍历文本中的依赖路径的顺序深度学习架构的需求，并提取嵌入漏洞，威胁，控件，产品和其他安全相关概念和来自学习的路径表示的实例。在所提出的方法中，部署了在大型DBPedia数据集和Wikipedia语料库上培训的双向LSTMS与Universal Stank编码器一起培训，以丰富基于ISO 27001的信息安全本体。该模型在高性能计算（HPC）环境上进行培训并测试，以处理Wiki文本维度。当从本体论和网页实例的敲除概念测试以验证稳健性时，该方法产生了超过80％的测试精度。

translated by 谷歌翻译

Survey on English Entity Linking on Wikidata

Cedric Möller , Jens Lehmann , Ricardo Usbeck

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-03

Wikidata是一个经常更新，社区驱动和多语言知识图形。因此，Wikidata是实体联系的一个有吸引力的基础，这是最近发表论文的增加显而易见的。该调查侧重于四个主题：（1）存在哪些Wikidata实体链接数据集，它们是多么广泛使用，它们是如何构建的？（2）对实体联系数据集的设计进行Wikidata的特点，如果是的话，怎么样？（3）当前实体链接方法如何利用Wikidata的特定特征？（4）现有实体链接方法未开发哪种Wikidata特征？本次调查显示，当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此，没有提升多语言和时间依赖数据集的可能性，是自然适合维基帽的数据集。此外，我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式，因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性，有时是描述，而是忽略超关系结构等特征。因此，例如，通过包括超关系图嵌入或类型信息，仍有改进的余地。许多方法还包括来自维基百科的信息，这些信息很容易与Wikidata组合并提供有价值的文本信息，Wikidata缺乏。

translated by 谷歌翻译

Recognizing and Extracting Cybersecurtity-relevant Entities from Text

Casey Hanks , Michael Maiden , Priyanka Ranade , Tim Finin , Anupam Joshi

分类：自然语言处理 | 人工智能

2022-08-02

网络威胁智能（CTI）是描述威胁媒介，漏洞和攻击的信息，通常用作基于AI的网络防御系统（例如网络安全知识图（CKG））的培训数据。非常需要开发可访问社区的数据集来培训现有的基于AI的网络安全管道，以有效，准确地从CTI中提取有意义的见解。我们已经从各种开放源中创建了一个初始的非结构化CTI语料库，我们使用SPACY框架并探索自学习方法来自动识别网络安全实体，用于训练和测试网络安全实体模型。我们还描述了应用网络安全域实体与Wikidata现有世界知识联系起来的方法。我们未来的工作将调查和测试Spacy NLP工具，并创建方法，以连续整合从文本中提取的新信息。

translated by 谷歌翻译

Recent Advances in Automated Question Answering In Biomedical Domain

Krishanu Das Baksi

分类：人工智能 | 自然语言处理

2021-11-10

自动问题应答（QA）系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库（或知识库）或通常被称为语料库的文件集合中找到答案。在过去的几十年里，收购知识的扩散，因此生物医学领域的新科学文章一直是指数增长。因此，即使对于领域专家，也难以跟踪域中的所有信息。随着商业搜索引擎的改进，用户可以在某些情况下键入其查询并获得最相关的一小组文档，以及在某些情况下从文档中的相关片段。但是，手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统，该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中，我们介绍了用于开发普通域QA系统的基本方法，然后彻底调查生物医学QA系统的不同方面，包括使用结构化数据库和文本集合的基准数据集和几种提出的方法。我们还探讨了当前系统的局限性，并探索潜在的途径以获得进一步的进步。

translated by 谷歌翻译

The Development and Applications of Food Knowledge Graphs in the Food Science and Industry

Weiqing Min , Chunlin Liu , Leyi Xu , Shuqiang Jiang

分类：计算机视觉

2021-07-13

各种网络的部署（例如，事物互联网（IOT）和移动网络），数据库（例如，营养表和食品组成数据库）和社交媒体（例如，Instagram和Twitter）产生大量的多型食品数据，这在食品科学和工业中起着关键作用。然而，由于众所周知的数据协调问题，这些多源食品数据显示为信息孤岛，导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系，因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知，这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍，然后主要从食物分类，食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发，食品可追溯性，食物数据可视化，个性化饮食推荐，食品搜索和质询回答，视觉食品对象识别，食品机械智能制造方面来概述。我们还讨论了该领域的未来方向，例如食品供应链系统和人类健康的食品知识图，这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力，将食物知识图形应用于食品科学和工业领域。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Healthcare Knowledge Graph Construction: State-of-the-art, open issues, and opportunities

Bilal Abu-Salih , Muhammad AL-Qurishi , Mohammed Alweshah , Mohammad AL-Smadi , Reem Alfayez , Heba Saadeh

分类：人工智能

2022-07-08

由于对高效有效的大数据分析解决方案的需求，医疗保健行业中数据分析的合并已取得了重大进展。知识图（KGS）已在该领域证明了效用，并且植根于许多医疗保健应用程序，以提供更好的数据表示和知识推断。但是，由于缺乏代表性的kg施工分类法，该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外，还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法，知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后，报道和讨论了文献中的一些研究发现和现有问题，为这个充满活力的地区开放了未来研究的视野。

translated by 谷歌翻译

Semantically-enhanced Topic Recommendation System for Software Projects

Maliheh Izadi , Mahtab Nejati , Abbas Heydarnoori

分类：机器学习

2022-05-31

Software-related platforms have enabled their users to collaboratively label software entities with topics. Tagging software repositories with relevant topics can be exploited for facilitating various downstream tasks. For instance, a correct and complete set of topics assigned to a repository can increase its visibility. Consequently, this improves the outcome of tasks such as browsing, searching, navigation, and organization of repositories. Unfortunately, assigned topics are usually highly noisy, and some repositories do not have well-assigned topics. Thus, there have been efforts on recommending topics for software projects, however, the semantic relationships among these topics have not been exploited so far. We propose two recommender models for tagging software projects that incorporate the semantic relationship among topics. Our approach has two main phases; (1) we first take a collaborative approach to curate a dataset of quality topics specifically for the domain of software engineering and development. We also enrich this data with the semantic relationships among these topics and encapsulate them in a knowledge graph we call SED-KGraph. Then, (2) we build two recommender systems; The first one operates only based on the list of original topics assigned to a repository and the relationships specified in our knowledge graph. The second predictive model, however, assumes there are no topics available for a repository, hence it proceeds to predict the relevant topics based on both textual information of a software project and SED-KGraph. We built SED-KGraph in a crowd-sourced project with 170 contributors from both academia and industry. The experiment results indicate that our solutions outperform baselines that neglect the semantic relationships among topics by at least 25% and 23% in terms of ASR and MAP metrics.

translated by 谷歌翻译

Knowledge Graph - Deep Learning: A Case Study in Question Answering in Aviation Safety Domain

Ankush Agarwal , Raj Gite , Shreya Laddha , Pushpak Bhattacharyya , Satyanarayan Kar , Asif Ekbal , Prabhjit Thind , Rajesh Zele , Ravi Shankar

分类：自然语言处理 | 人工智能 | 机器学习

2022-05-31

在商业航空域中，有大量文件，例如事故报告（NTSB，ASRS）和监管指令（ADS）。有必要有效地访问这些多样化的存储库，以便在航空业中的服务需求，例如维护，合规性和安全性。在本文中，我们提出了一个基于深度学习的知识图（kg）基于深度学习（DL）的问题答案（QA）航空安全系统。我们从飞机事故报告中构建了知识图，并向研究人员社区贡献了这一资源。该资源的功效由上述质量保证系统测试和证明。根据上述文档构建的自然语言查询将转换为SPARQL（RDF图数据库的接口语言）查询并回答。在DL方面，我们有两个不同的质量检查模型：（i）BERT QA，它是通道检索（基于句子的）和问题答案（基于BERT）的管道，以及（ii）最近发布的GPT-3。我们根据事故报告创建的一系列查询评估系统。我们组合的QA系统在GPT-3上的准确性增长了9.3％，比Bert QA增加了40.3％。因此，我们推断出KG-DL的性能比单一表现更好。

translated by 谷歌翻译

Multi-Modal Knowledge Graph Construction and Application: A Survey

Xiangru Zhu , Zhixu Li , Xiaodan Wang , Xueyao Jiang , Penglei Sun , Xuwu Wang , Yanghua Xiao , Nicholas Jing Yuan

分类：人工智能 | 自然语言处理 | 计算机视觉

2022-02-11

Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.

translated by 谷歌翻译

Knowledge Graph Induction enabling Recommending and Trend Analysis: A Corporate Research Community Use Case

Nandana Mihindukulasooriya , Mike Sava , Gaetano Rossiello , Md Faisal Mahbub Chowdhury , Irene Yachbes , Aditya Gidh , Jillian Duckwitz , Kovit Nisar , Michael Santos , Alfio Gliozzo

分类：人工智能 | 自然语言处理

2022-07-11

研究部门在组织中推动创新的重要作用。随着速度和量的信息增长，绘制见解，跟随趋势，保持新的研究以及制定策略的配制策略越来越越来越具有挑战性。在本文中，我们介绍了一个用例，即公司研究界如何利用语义网络技术来诱导从结构化和文本数据中诱导统一的知识图，通过整合与研究项目相关的社区使用的各种应用程序，学术论文，学术论文，数据集，成就和认可。为了使应用程序开发人员更容易访问知识图，我们确定了一组通用模式，用于利用诱导的知识并将其视为API。这些模式是从用户研究中诞生的，这些模式确定了最有价值的用例或用户疼痛点要缓解。我们概述了两个不同的方案：用于业务使用的建议和分析。我们将详细讨论这些方案，并针对实体建议提供经验评估。所使用的方法和从这项工作中学到的教训可以应用于面临类似挑战的其他组织。

translated by 谷歌翻译

Topical Classification of Food Safety Publications with a Knowledge Base

Piotr Sowiński , Katarzyna Wasielewska-Michniewska , Maria Ganzha , Marcin Paprzycki

分类：自然语言处理

2022-01-02

庞大的科学出版物呈现出越来越大的挑战，找到与给定的研究问题相关的那些，并在其基础上做出明智的决定。如果不使用自动化工具，这变得非常困难。在这里，一个可能的改进区域是根据其主题自动分类出版物摘要。这项工作介绍了一种新颖的知识基础的出色出版物分类器。该方法侧重于实现可扩展性和对其他域的容易适应性。在非常苛刻的食品安全领域，分类速度和准确度被证明是令人满意的。需要进一步发展和评估该方法，因为所提出的方法显示出很大的潜力。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

BEKG: A Built Environment Knowledge Graph

Xiaojun Yang , Haoyu Zhong , Penglin Du , Keyi Zhou , Xingjin Lai , Zhengdong Wang , Yik Lun Lau , Yangqiu Song , Liyaning Tang

分类：自然语言处理

2022-11-05

Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.

translated by 谷歌翻译

Narrative Cartography with Knowledge Graphs

Gengchen Mai , Weiming Huang , Ling Cai , Rui Zhu , Ni Lao

分类：人工智能

2021-12-02

叙事制图是一项学科，研究了故事和地图的交织性质。然而，叙述的传统地理化技术经常遇到几个突出的挑战，包括数据采集和一体化挑战和语义挑战。为了解决这些挑战，在本文中，我们提出了具有知识图表（KGS）的叙事制图的想法。首先，要解决数据采集和集成挑战，我们开发了一组基于KG的地理学工具箱，以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下，来自KG的检索数据以GIS格式直接实现，该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时，从这种方法中确定了几个限制，例如数据不完整，语义不相容，以及地理化的语义挑战。对于后面的两个限制，我们为叙事制图提出了一个模块化本体，它将地图内容（地图内容模块）和地理化过程（制图模块）正式化。我们证明，通过代表KGS（本体）中的地图内容和地理化过程，我们可以实现数据可重用性和叙事制图的地图再现性。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Ontology Reuse: the Real Test of Ontological Design

Piotr Sowinski , Katarzyna Wasielewska-Michniewska , Maria Ganzha , Marcin Paprzycki , Costin Badica

分类：人工智能 | 自然语言处理

2022-05-05

实践中的本体论仍然非常具有挑战性，尤其是在涉及多个本体论的情况下。此外，尽管最近进步，系统本体论质量保证的实现仍然是一个困难的问题。在这项工作中，从实际用例的角度研究了30个生物医学本体论和计算机科学本体论的质量。对交叉主体论的参考进行了特殊审查，这对于结合本体论至关重要。提出了检测潜在问题的多种方法，包括自然语言处理和网络分析。此外，提出了一些改善本体论及其质量保证过程的建议。有人认为，尽管前进的自动工具用于本体质量保证对于本体论的改善至关重要，但它们并不能完全解决该问题。本体论重用是连续验证和改善本体质量以及指导其未来发展的最终方法。具体而言，可以通过实用和多样化的本体论点方案找到多个问题和修复。

translated by 谷歌翻译