\ textit {petit larousse Illustr \'e}是一本法国词典,于1905年首次出版。其在语言和历史和地理方面的两个主要部分,对应于法国词典中的一个主要里程碑,也对应于经常知识的存储库,以及从这一时期。尽管从1905年开始的许多条目的价值仍然完好无损,但现在有些描述的维度比当代更具历史性。然而,它们对于分析和理解这段时间的文化代表性仍然很重要。与最新信息或对这些条目进行验证的比较将需要进行乏味的体力劳动。在本文中,我们描述了一种新的词汇资源,我们将历史记录和地理部分的所有字典条目与当前数据源联系起来。为此,我们将这些条目中的每一个链接到Wikidata标识符。使用Wikidata链接,我们可以更轻松地自动化识别,比较和验证历史上的表示形式。我们提供了一些有关如何处理Wikidata标识符的示例,并对词典中描述的实体进行了少量分析,以概述可能的应用程序。资源,即具有Wikidata链接的20,245个字典条目的注释,可从GitHub获得(\ url {https://github.com/pnugues/petit_larousse_1905/}))
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
在本文中,我们介绍了第一个链接冰岛语料库的实体。我们描述了使用多语言实体链接模型(MGENRE)与Wikipedia API搜索(WAPIS)结合使用的方法来标记我们的数据并将其与仅使用WAPIS进行比较。我们发现,我们的组合方法在我们的语料库上达到53.9%的覆盖范围,而仅使用WAPIS的覆盖率为30.9%。我们分析我们的结果并解释使用冰岛时使用多语言系统的价值。此外,我们分析了仍然没有标记的数据,识别模式并讨论为什么它们可能很难注释。
translated by 谷歌翻译
DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against datasets derived from Wikipedia and to link other datasets on the Web to Wikipedia data. We describe the extraction of the DBpedia datasets, and how the resulting information is published on the Web for human-and machine-consumption. We describe some emerging applications from the DBpedia community and show how website authors can facilitate DBpedia content within their sites. Finally, we present the current status of interlinking DBpedia with other open datasets on the Web and outline how DBpedia could serve as a nucleus for an emerging Web of open data.
translated by 谷歌翻译
我们呈现了名字,一个从英语维基百科和新闻文章中获得的暧昧名称的实体的数据集。它由4148个独特实体的58862提到和他们的名称:来自News的1000个提到,来自Wikipedia关于实体的文章28843,以及29019维基百科反向链接提到。名称应该有助于为命名实体链接的任务建立具有挑战性的基准(NEL)。
translated by 谷歌翻译
公众人物的行情可以标记历史上的转折点。一句话可以解释其发起人的行为,预示政治或个人决定并揭示性格特征。有影响力的行情跨语言障碍并影响了总体对特定立场的反应,总是面临被误入或脱离上下文的风险。提供的引号的跨语性知识图可以建立引号及其背景的真实性,这对于允许探索重要人物的生活以及主题的探索非常重要。在本文中,我们介绍了引号的第一个多语言知识图。我们提出了Quotekg创建管道,该管道从Wikiquote中提取引号,这是一种免费且合作创建的语言集合,并与同一报价的不同提及相符。 Quotekg包括$ 55 $语言的近一百万报价,在广泛的主题中,有超过69,000美元的公共利益人士说。 quotekg已公开可用,可以通过SPARQL端点访问。
translated by 谷歌翻译
This article presents the application of the Universal Named Entity framework to generate automatically annotated corpora. By using a workflow that extracts Wikipedia data and meta-data and DBpedia information, we generated an English dataset which is described and evaluated. Furthermore, we conducted a set of experiments to improve the annotations in terms of precision, recall, and F1-measure. The final dataset is available and the established workflow can be applied to any language with existing Wikipedia and DBpedia. As part of future research, we intend to continue improving the annotation process and extend it to other languages.
translated by 谷歌翻译
在本文中,我们展示了一种用于命名实体识别的意大利数据集。它包含超过一百万个令牌,其中注释涵盖三个课程:人员,地点和组织。大多数数据集(大约600k令牌)包含三个不同领域的手动黄金注释:新闻,文学和政治致命。文本和注释可用于免费下载GitHub存储库。
translated by 谷歌翻译
大型公共知识图,例如Wikidata,包含数千万实体的数十亿个陈述,从而激发了各种用例以利用此类知识图。但是,实践表明,Wikidata中仍然缺少适合用户需求的许多相关信息,而当前的链接开放数据(LOD)工具不适合丰富像Wikidata这样的大图。在本文中,我们研究了从LOD云中用结构化数据源丰富Wikidata的潜力。我们提出了一个新颖的工作流程,其中包括差距检测,源选择,模式对齐和语义验证。我们用两个互补的LOD来源评估了我们的富集方法:一个嘈杂的源,具有广泛的覆盖范围,DBPEDIA和一个手动策划的来源,对艺术领域,Getty的关注狭窄。我们的实验表明,我们的工作流程可以通过高质量的外部LOD来源来丰富Wikidata。财产一致性和数据质量是关键挑战,而实体对齐和源选择是由现有的Wikidata机制良好支持的。我们提供代码和数据以支持未来的工作。
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
背景:获得医疗服务在很大程度上取决于资源分配,例如医疗设施的地理分布。然而,这些数据通常仅限于国家官方文件,不可公开提供。尽管某些医疗设施的数据可以作为网络上的语义资源访问,但它的建模并不一致,并且尚未集成到完整,开放和专业的存储库中。这项工作着重于生成全球医疗设施的全面语义数据集,其中包含有关此类设施地理位置的广泛信息。结果:为此,我们收集,对齐并链接了可能存在医疗设施信息的各种开源数据库。这项工作使我们能够沿着各个方面评估每个数据源,例如完整性,正确性和与其他来源相互联系,当前知识表示技术的所有关键方面。结论:我们的贡献直接受益于生物医学和健康领域(患者,医疗保健专业人员,公司,监管机构和研究人员)的利益相关者,他们现在将更好地概述获得医疗设施的访问和分配。
translated by 谷歌翻译
Early detection of relevant locations in a piece of news is especially important in extreme events such as environmental disasters, war conflicts, disease outbreaks, or political turmoils. Additionally, this detection also helps recommender systems to promote relevant news based on user locations. Note that, when the relevant locations are not mentioned explicitly in the text, state-of-the-art methods typically fail to recognize them because these methods rely on syntactic recognition. In contrast, by incorporating a knowledge base and connecting entities with their locations, our system successfully infers the relevant locations even when they are not mentioned explicitly in the text. To evaluate the effectiveness of our approach, and due to the lack of datasets in this area, we also contribute to the research community with a gold-standard multilingual news-location dataset, NewsLOC. It contains the annotation of the relevant locations (and their WikiData IDs) of 600+ Wikinews articles in five different languages: English, French, German, Italian, and Spanish. Through experimental evaluations, we show that our proposed system outperforms the baselines and the fine-tuned version of the model using semi-supervised data that increases the classification rate. The source code and the NewsLOC dataset are publicly available for being used by the research community at https://github.com/vsuarezpaniagua/NewsLocation.
translated by 谷歌翻译
我们提出了将事件链接到知识库的多语言链接的任务。我们会自动编译一个针对此任务的大型数据集,包括180万个涉及Wikidata超过10.9k事件的44种语言提及。我们提出了事件链接任务的两个变体:1)多语言,其中事件描述来自与提及的语言相同的语言,以及2)交叉语言,其中所有事件描述均以英语为单位。在提出的两个任务上,我们比较了包括BM25+(LV和Zhai,2011年)在内的多个事件链接系统以及Blink(Wu等,2020)的Biencoder和Crossencoder体系结构的多语言改编。在我们对两个任务变体的实验中,我们发现Biencoder和Crossencoder模型均显着优于BM25+基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试所提出的链接系统的室外概括,我们还创建了基于Wikinews的评估集。我们提出了定性分析,强调了拟议数据集捕获的各个方面,包括需要在上下文上进行时间推理并解决跨语言的各种事件描述。
translated by 谷歌翻译
尽管传记在语义网络中广泛传播,但自动提取传记事件的资源和方法受到限制。这种限制减少了结构化的,可读的传记信息的数量,尤其是关于属于代表性不足的人的人的数量。我们的工作通过为生活事件的语义注释提供一组准则来挑战这一限制。该准则旨在与现有的ISO语义注释标准可互操作:ISO-TIMEML(ISO-24617-1)和SEMAF(ISO-24617-4)。通过代表不足的作家的维基百科传记的注释任务,即非西方国家,移民或属于少数民族的作者,对准则进行了测试。 4个注释者注释了1,000个句子,平均通知者协议为0.825。由此产生的语料库被映射在Ontonotes上。这样的映射允许扩展我们的语料库,表明已经存在现有资源可以用于传记事件提取任务。
translated by 谷歌翻译
Diversity Searcher is a tool originally developed to help analyse diversity in news media texts. It relies on a form of automated content analysis and thus rests on prior assumptions and depends on certain design choices related to diversity and fairness. One such design choice is the external knowledge source(s) used. In this article, we discuss implications that these sources can have on the results of content analysis. We compare two data sources that Diversity Searcher has worked with - DBpedia and Wikidata - with respect to their ontological coverage and diversity, and describe implications for the resulting analyses of text corpora. We describe a case study of the relative over- or under-representation of Belgian political parties between 1990 and 2020 in the English-language DBpedia, the Dutch-language DBpedia, and Wikidata, and highlight the many decisions needed with regard to the design of this data analysis and the assumptions behind it, as well as implications from the results. In particular, we came across a staggering over-representation of the political right in the English-language DBpedia.
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
Wikidata是公开可用的最大的一般兴趣知识库。自2012年成立以来,这是由数千名志愿者编辑的协同编辑。在本文中,我们展示了WikiData的全部修订历史数据集的WikiDate 1.0,它将Wikidata修订版的更改为删除和添加RDF三元组。据我们所知,它构成了一个在语义网络社区中最近出现的研究主题的不断发展知识图表的第一个大型数据集。我们介绍了从Wikidata的转储生成WikiDated 1.0的方法,讨论其实现和限制,以及数据集的统计特征。
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译