网络威胁智能(CTI)是描述威胁媒介,漏洞和攻击的信息,通常用作基于AI的网络防御系统(例如网络安全知识图(CKG))的培训数据。非常需要开发可访问社区的数据集来培训现有的基于AI的网络安全管道,以有效,准确地从CTI中提取有意义的见解。我们已经从各种开放源中创建了一个初始的非结构化CTI语料库,我们使用SPACY框架并探索自学习方法来自动识别网络安全实体,用于训练和测试网络安全实体模型。我们还描述了应用网络安全域实体与Wikidata现有世界知识联系起来的方法。我们未来的工作将调查和测试Spacy NLP工具,并创建方法,以连续整合从文本中提取的新信息。
translated by 谷歌翻译
安全分析师在调查攻击,新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章,报告,分析和推文上分享,并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁,妥协指标,攻击方法和预防措施。它统称为威胁智能,通常是一种非结构化格式,因此,无缝集成到现有的IDPS系统中,具有挑战性。在本文中,我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息,以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图(KG)框架Tinker捕获网络威胁信息及其上下文。在修补匠之后,我们生成一个网络智能知识图(CTI-KG)。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Raredis Corpus含有超过5,000个罕见疾病,近6,000个临床表现都是注释。此外,跨候注释协议评估表明,相对高的协议(F1措施等于实体的完全匹配标准,与关系的81.3%等于83.5%)。基于这些结果,该毒品具有高质量,假设该领域的重要步骤由于稀缺具有稀有疾病的可用语料库。这可以将门打开到进一步的NLP应用,这将促进这些罕见疾病的诊断和治疗,因此将大大提高这些患者的生活质量。
translated by 谷歌翻译
To effectively train accurate Relation Extraction models, sufficient and properly labeled data is required. Adequately labeled data is difficult to obtain and annotating such data is a tricky undertaking. Previous works have shown that either accuracy has to be sacrificed or the task is extremely time-consuming, if done accurately. We are proposing an approach in order to produce high-quality datasets for the task of Relation Extraction quickly. Neural models, trained to do Relation Extraction on the created datasets, achieve very good results and generalize well to other datasets. In our study, we were able to annotate 10,022 sentences for 19 relations in a reasonable amount of time, and trained a commonly used baseline model for each relation.
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译
许多开放的在线资料中,有关网络相关犯罪,事件和冲突的信息大量提供。但是,对分析师和专家来说,处理大量数据和数据流是一项具有挑战性的任务,并且需要对较新的方法和技术的需求。在本文中,我们介绍并实施了一个新颖的知识图和知识挖掘框架,以从有关网络域中事件的自由形式文本中提取相关信息。该框架包括基于机器学习的管道,用于生成具有非技术网络主页的组织,国家,行业,产品和攻击者的图形。提取的知识图用于估计给定图配置上的网络攻击的发生率。我们使用公开可用的实际网络材料报告收集来测试我们方法的功效。发现知识提取足够准确,基于图的威胁估计证明了与攻击实际记录的一定程度。在实际使用中,利用介绍框架的分析师可以从当前的网络景观中推断出各种实体的风险以及行业和国家之间风险启发式的风险。
translated by 谷歌翻译
研究部门在组织中推动创新的重要作用。随着速度和量的信息增长,绘制见解,跟随趋势,保持新的研究以及制定策略的配制策略越来越越来越具有挑战性。在本文中,我们介绍了一个用例,即公司研究界如何利用语义网络技术来诱导从结构化和文本数据中诱导统一的知识图,通过整合与研究项目相关的社区使用的各种应用程序,学术论文,学术论文,数据集,成就和认可。为了使应用程序开发人员更容易访问知识图,我们确定了一组通用模式,用于利用诱导的知识并将其视为API。这些模式是从用户研究中诞生的,这些模式确定了最有价值的用例或用户疼痛点要缓解。我们概述了两个不同的方案:用于业务使用的建议和分析。我们将详细讨论这些方案,并针对实体建议提供经验评估。所使用的方法和从这项工作中学到的教训可以应用于面临类似挑战的其他组织。
translated by 谷歌翻译
了解全文学术文章的关键见解至关重要,因为它使我们能够确定有趣的趋势,洞悉研究和发展,并构建知识图。但是,只有在考虑全文时才可用一些有趣的关键见解。尽管研究人员在简短文档中的信息提取方面取得了重大进展,但从全文学术文献中提取科学实体仍然是一个具有挑战性的问题。这项工作提出了一种称为ENEREX的自动端对端研究实体提取器,用于提取技术集,客观任务,全文学术学术研究文章等技术方面。此外,我们提取了三个新颖的方面,例如源代码,计算资源,编程语言/库中的链接。我们演示了Enerex如何从计算机科学领域的大规模数据集中提取关键见解和趋势。我们进一步测试了多个数据集上的管道,发现ENEREX在最新模型的状态下进行了改进。我们强调了现有数据集的能力如何受到限制,以及enerex如何适应现有知识图。我们还向未来研究的指针进行了详细的讨论。我们的代码和数据可在https://github.com/discoveryanalyticscenter/enerex上公开获取。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
我们描述了CREER数据集的设计和使用,这是一个带有丰富英语语法和语义属性的大型语料库。CREER数据集使用Stanford Corenlp注释器从Wikipedia纯文本中捕获丰富的语言结构。该数据集遵循广泛使用的语言和语义注释,因此不仅可以用于大多数自然语言处理任务,还可以用于扩展数据集。这个大型监督数据集可以作为改善未来NLP任务的性能的基础。我们通过链接来宣传数据集:https://140.116.82.111/share.cgi?ssid=000Doj4
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
This article presents the application of the Universal Named Entity framework to generate automatically annotated corpora. By using a workflow that extracts Wikipedia data and meta-data and DBpedia information, we generated an English dataset which is described and evaluated. Furthermore, we conducted a set of experiments to improve the annotations in terms of precision, recall, and F1-measure. The final dataset is available and the established workflow can be applied to any language with existing Wikipedia and DBpedia. As part of future research, we intend to continue improving the annotation process and extend it to other languages.
translated by 谷歌翻译
生物医学文献中的自动关系提取(RE)对于研究和现实世界中的许多下游文本挖掘应用至关重要。但是,用于生物医学的大多数现有基准测试数据集仅关注句子级别的单一类型(例如蛋白质 - 蛋白质相互作用)的关系,从而极大地限制了生物医学中RE系统的开发。在这项工作中,我们首先审查了常用的名称实体识别(NER)和RE数据集。然后,我们提出了Biored,这是一种具有多种实体类型(例如,基因/蛋白质,疾病,化学)和关系对(例如,基因 - 疾病;化学化学化学化学)的首个生物医学RE语料库,在文档水平上,在一组600个PubMed摘要中。此外,我们将每个关系标记为描述一种新颖的发现或先前已知的背景知识,使自动化算法能够区分新颖和背景信息。我们通过基准在NER和RE任务上对几种现有的最新方法(包括基于BERT的模型)进行基准测试来评估Biored的实用性。我们的结果表明,尽管现有方法可以在NER任务上达到高性能(F-评分为89.3%),但重新任务的改进空间很大,尤其是在提取新颖的关系时(F-评分为47.7%)。我们的实验还表明,如此丰富的数据集可以成功地促进生物医学更准确,高效和健壮的RE系统的开发。 Biored数据集和注释指南可在https://ftp.ncbi.nlm.nih.gov/pub/lu/biored/中免费获得。
translated by 谷歌翻译
在本文中,我们介绍了第一个链接冰岛语料库的实体。我们描述了使用多语言实体链接模型(MGENRE)与Wikipedia API搜索(WAPIS)结合使用的方法来标记我们的数据并将其与仅使用WAPIS进行比较。我们发现,我们的组合方法在我们的语料库上达到53.9%的覆盖范围,而仅使用WAPIS的覆盖率为30.9%。我们分析我们的结果并解释使用冰岛时使用多语言系统的价值。此外,我们分析了仍然没有标记的数据,识别模式并讨论为什么它们可能很难注释。
translated by 谷歌翻译
数据在Web上发布了大量的时间,但大多数数据都是非结构化的,使得很难理解和难以解释。信息提取(IE)方法从非结构化数据获取结构化信息。其中一个具有挑战性的一个任务是事件提取(EE),它寻求从文本中获得有关具体事件及其演员的信息。 EE在许多域中有用,例如构建知识库,信息检索和概述。在过去的几十年中,开发了一些像Ace,Comeo和Icews这样的事件本体,以定义文本中观察到的事件的事件表格,演员和维度。这些事件本体仍然具有一些缺点,例如仅涵盖几个主题,如政治事件,在定义论证角色和金标准数据不足时具有不灵活的结构。为了解决这些问题,我们提出了一个事件本体,即Cofee,它包含专家领域知识和数据驱动方法,用于识别文本的事件。 Cofee由两个层次结构级别(事件类型和事件子类型)组成,包括与环境问题,网络空间和刑事活动有关的新类别,这些类别需要立即监测。此外,根据每个事件子类型的动态角色被定义为捕获事件的各种维度。在随访实验中,在维基百科事件中评估了所提出的本体,并显示为一般和全面。此外,为了便于编写事件提取的金标准数据,基于CoFee提出了一种独立于语言的在线工具。由10人专家注释的金标准数据集也是在波斯语中组成的24K新闻文章。最后,我们提出了一种基于深度学习技术的监督方法,以自动提取相关事件和相应的演员。
translated by 谷歌翻译
我们提出了带有核心注释的新语料库,俄罗斯核心语料库(Rucoco)。Rucoco的目的是获得大量注释的文本,同时保持高通道一致性。鲁科科(Rucoco)包含俄语的新闻文本,其中一部分是从头开始注释的,其余的机器生成的注释是由人类注释者完善的。我们的语料库的大小是一百万个单词,约有15万个提及。我们使语料库公开可用。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译