智能论文笔记

Entity Graph Extraction from Legal Acts -- a Prototype for a Use Case in Policy Design Analysis

Anna Wróblewska , Bartosz Pieliński , Karolina Seweryn , Karol Saputa , Aleksandra Wichrowska , Sylwia Sysko-Romańczuk , Hanna Schreiber

分类：自然语言处理

2022-09-02

本文介绍了有关开发的原型的研究，以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者，之间的关系以及在健康，环境，经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件，用机构语法注释它们的过程，并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护，以保护2003年的无形文化遗产，这是一份法律文件，该文件规定了确保文化遗产的国际关系的基本方面。

translated by 谷歌翻译

HTML版本

Creation and Analysis of an International Corpus of Privacy Laws

Sonu Gupta , Ellen Poplavska , Nora O'Toole , Siddhant Arora , Thomas Norton , Norman Sadeh , Shomir Wilson

分类：自然语言处理

2022-06-28

世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律，协议，法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变，我们介绍了1,043条隐私法，法规和准则的政府隐私指示语料库或GPI语料库，涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布，并说明了过去50年中隐私立法的急剧增加，尽管较细粒度的检查表明，增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明，大多数隐私法分别解决了相对较少的个人数据类型，这表明全面的隐私立法仍然很少见。此外，主题建模结果显示了GPI中常见主题的普遍性，例如财务，医疗保健和电信。最后，我们将语料库释放到研究界，以促进进一步的研究。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Between welcome culture and border fence. A dataset on the European refugee crisis in German newspaper reports

Nico Blokker , André Blessing , Erenay Dayanik , Jonas Kuhn , Sebastian Padó , Gabriella Lapesa

分类：自然语言处理

2021-11-19

报纸报告提供有关关于特定政策领域的公开辩论的丰富信息来源，该领域可以作为政治科学探究的依据。这种辩论通常由关键事件引发，这引起了公众的关注和煽动政治行动者的反应：危机引发了辩论。但是，由于可靠的注释和建模的挑战，很少有很多具有高质量注释的大规模数据集。本文介绍了Debatenet2.0，它在2015年期间追溯了德国优质报纸Taz欧洲难民危机的政治话语。我们的注释的核心单位是政治索赔（请求在政策领域内采取的具体行动）和制定它们的演员（政治家，派对等）。本文的贡献是双重的。首先，我们与其同伴R包，Mardyr，通过与报纸上的政策辩论的诠释的实际和概念问题引导读者，将DebateneT2.0与其伴侣R封装联系起来。其次，我们概述并将话语网络分析（DNA）应用于Debatenet2.0，比较了对“难民危机”的政策辩论的两个至关重要的时刻：4月/ 5月的地中海的移民通量和沿巴尔干路线的迁移渠道9月/ 10月。除了释放的资源和案例研究外，我们的贡献也是方法论：我们通过报纸文章向话语网络的步骤讨论读者，表明德国迁移辩论不仅仅是一个话语网络，而是多个话语，取决于兴趣主题（政治行动者，政策领域，时间跨度）。

translated by 谷歌翻译

Narrative Cartography with Knowledge Graphs

Gengchen Mai , Weiming Huang , Ling Cai , Rui Zhu , Ni Lao

分类：人工智能

2021-12-02

叙事制图是一项学科，研究了故事和地图的交织性质。然而，叙述的传统地理化技术经常遇到几个突出的挑战，包括数据采集和一体化挑战和语义挑战。为了解决这些挑战，在本文中，我们提出了具有知识图表（KGS）的叙事制图的想法。首先，要解决数据采集和集成挑战，我们开发了一组基于KG的地理学工具箱，以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下，来自KG的检索数据以GIS格式直接实现，该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时，从这种方法中确定了几个限制，例如数据不完整，语义不相容，以及地理化的语义挑战。对于后面的两个限制，我们为叙事制图提出了一个模块化本体，它将地图内容（地图内容模块）和地理化过程（制图模块）正式化。我们证明，通过代表KGS（本体）中的地图内容和地理化过程，我们可以实现数据可重用性和叙事制图的地图再现性。

translated by 谷歌翻译

Survey on English Entity Linking on Wikidata

Cedric Möller , Jens Lehmann , Ricardo Usbeck

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-03

Wikidata是一个经常更新，社区驱动和多语言知识图形。因此，Wikidata是实体联系的一个有吸引力的基础，这是最近发表论文的增加显而易见的。该调查侧重于四个主题：（1）存在哪些Wikidata实体链接数据集，它们是多么广泛使用，它们是如何构建的？（2）对实体联系数据集的设计进行Wikidata的特点，如果是的话，怎么样？（3）当前实体链接方法如何利用Wikidata的特定特征？（4）现有实体链接方法未开发哪种Wikidata特征？本次调查显示，当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此，没有提升多语言和时间依赖数据集的可能性，是自然适合维基帽的数据集。此外，我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式，因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性，有时是描述，而是忽略超关系结构等特征。因此，例如，通过包括超关系图嵌入或类型信息，仍有改进的余地。许多方法还包括来自维基百科的信息，这些信息很容易与Wikidata组合并提供有价值的文本信息，Wikidata缺乏。

translated by 谷歌翻译

Political representation bias in DBpedia and Wikidata as a challenge for downstream processing

Ozgur Karadeniz , Bettina Berendt , Sercan Kiyak , Stefan Mertens , Leen d'Haenens

分类：自然语言处理 | 人工智能

2022-12-29

Diversity Searcher is a tool originally developed to help analyse diversity in news media texts. It relies on a form of automated content analysis and thus rests on prior assumptions and depends on certain design choices related to diversity and fairness. One such design choice is the external knowledge source(s) used. In this article, we discuss implications that these sources can have on the results of content analysis. We compare two data sources that Diversity Searcher has worked with - DBpedia and Wikidata - with respect to their ontological coverage and diversity, and describe implications for the resulting analyses of text corpora. We describe a case study of the relative over- or under-representation of Belgian political parties between 1990 and 2020 in the English-language DBpedia, the Dutch-language DBpedia, and Wikidata, and highlight the many decisions needed with regard to the design of this data analysis and the assumptions behind it, as well as implications from the results. In particular, we came across a staggering over-representation of the political right in the English-language DBpedia.

translated by 谷歌翻译

The Development and Applications of Food Knowledge Graphs in the Food Science and Industry

Weiqing Min , Chunlin Liu , Leyi Xu , Shuqiang Jiang

分类：计算机视觉

2021-07-13

各种网络的部署（例如，事物互联网（IOT）和移动网络），数据库（例如，营养表和食品组成数据库）和社交媒体（例如，Instagram和Twitter）产生大量的多型食品数据，这在食品科学和工业中起着关键作用。然而，由于众所周知的数据协调问题，这些多源食品数据显示为信息孤岛，导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系，因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知，这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍，然后主要从食物分类，食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发，食品可追溯性，食物数据可视化，个性化饮食推荐，食品搜索和质询回答，视觉食品对象识别，食品机械智能制造方面来概述。我们还讨论了该领域的未来方向，例如食品供应链系统和人类健康的食品知识图，这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力，将食物知识图形应用于食品科学和工业领域。

translated by 谷歌翻译

Patent Data for Engineering Design: A Review

Shuo Jiang , Serhad Sarica , Binyang Song , Jie Hu , Jianxi Luo

分类：人工智能

2021-11-15

专利数据已用于工程设计研究，因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会，分析和对专利数据感开发设计理论和方法。在此，我们通过他们的贡献来调查专利设计文献，以设计理论，方法，工具和策略，以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。

translated by 谷歌翻译

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Intent Recognition in Conversational Recommender Systems

Sahar Moradizeyveh

分类：自然语言处理 | 机器学习

2022-12-06

Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.

translated by 谷歌翻译

Lessons from Deep Learning applied to Scholarly Information Extraction: What Works, What Doesn't, and Future Directions

Raquib Bin Yousuf , Subhodip Biswas , Kulendra Kumar Kaushal , James Dunham , Rebecca Gelles , Sathappan Muthiah , Nathan Self , Patrick Butler , Naren Ramakrishnan

分类：人工智能

2022-07-08

了解全文学术文章的关键见解至关重要，因为它使我们能够确定有趣的趋势，洞悉研究和发展，并构建知识图。但是，只有在考虑全文时才可用一些有趣的关键见解。尽管研究人员在简短文档中的信息提取方面取得了重大进展，但从全文学术文献中提取科学实体仍然是一个具有挑战性的问题。这项工作提出了一种称为ENEREX的自动端对端研究实体提取器，用于提取技术集，客观任务，全文学术学术研究文章等技术方面。此外，我们提取了三个新颖的方面，例如源代码，计算资源，编程语言/库中的链接。我们演示了Enerex如何从计算机科学领域的大规模数据集中提取关键见解和趋势。我们进一步测试了多个数据集上的管道，发现ENEREX在最新模型的状态下进行了改进。我们强调了现有数据集的能力如何受到限制，以及enerex如何适应现有知识图。我们还向未来研究的指针进行了详细的讨论。我们的代码和数据可在https://github.com/discoveryanalyticscenter/enerex上公开获取。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization

Ildikó Pilán , Pierre Lison , Lilja Øvrelid , Anthi Papadopoulou , David Sánchez , Montserrat Batet

分类：自然语言处理 | 人工智能

2022-01-25

我们提出了一种新颖的基准和相关的评估指标，用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务，目前遭受了面向隐私的带注释的文本资源的短缺，因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签（文本匿名基准），这是一种新的开源注释语料库，以解决此短缺。该语料库包括欧洲人权法院（ECHR）的1,268个英语法院案件，并充满了有关每个文档中出现的个人信息的全面注释，包括其语义类别，标识符类型，机密属性和共同参考关系。与以前的工作相比，TAB语料库旨在超越传统的识别（仅限于检测预定义的语义类别），并且明确标记了这些文本跨越的标记，这些文本应该被掩盖，以掩盖该人的身份受到保护。除了介绍语料库及其注释层外，我们还提出了一套评估指标，这些指标是针对衡量文本匿名性的性能而定制的，无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则，评估脚本和基线模型可在以下网址提供：

translated by 谷歌翻译

Interactive Question Answering Systems: Literature Review

Giovanni Maria Biancofiore , Yashar Deldjoo , Tommaso Di Noia , Eugenio Di Sciascio , Fedelucio Narducci

分类：自然语言处理 | 人工智能

2022-09-04

问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中，寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案，它位于问答和对话系统的交集。一方面，用户可以以普通语言提出问题，并找到对她的询问的实际回答；另一方面，如果在初始请求中有多个可能的答复，很少或歧义，则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题，交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理，从而定义新的符号和分类法，以将所有已确定的作品结合在统一框架内。然后，根据提出的方法，评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势，从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题，我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/

translated by 谷歌翻译

Automatic Related Work Generation: A Meta Study

Xiangci Li , Jessica Ouyang

分类：自然语言处理

2022-01-06

学术研究是解决以前从未解决过的问题的探索活动。通过这种性质，每个学术研究工作都需要进行文献审查，以区分其Novelties尚未通过事先作品解决。在自然语言处理中，该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表，自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的，但直到最近，它被认为是作为科学多文件摘要问题的变种。然而，即使在今天，尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中，我们进行了一个元研究，从问题制定，数据集收集，方法方法，绩效评估和未来前景的角度来比较相关工作的现有文献，以便为读者洞察到国家的进步 - 最内容的研究，以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Named Entity Recognition in Indian court judgments

Prathamesh Kalamkar , Astha Agarwal , Aman Tiwari , Smita Gupta , Saurabh Karn , Vivek Raghavan

分类：自然语言处理 | 人工智能

2022-11-07

Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.

translated by 谷歌翻译