智能论文笔记

Mapping Climate Change Research via Open Repositories & AI: advantages and limitations for an evidence-based R&D policy-making

Nicandro Bovenzi , Nicolau Duran-Silva , Francesco Alessandro Massucci , Francesco Multari , César Parra-Rojas , Josep Pujol-Llatse

分类：自然语言处理

2022-09-19

在过去的几年中，几项计划开始以开放方式提供对研究输出数据和元数据的访问。这些举措开发的平台正在向更广泛的公众开放科学生产，这对于基于循证的科学，技术和创新（STI）的决策是宝贵的资产。这些资源确实可以促进知识发现，并帮助确定特定感兴趣的研究领域中可用的研发资产和相关参与者。理想情况下，为了全面了解整个Sti生态系统，应相应地组合和分析这些资源所提供的信息。为了确保这一点，应至少在数据源之间保证至少一定程度的互操作性，以便可以更好地汇总和补充数据，并且为决策提供的证据更加完整和可靠。在这里，我们研究了在整个丹麦STI生态系统中绘制气候行动研究的情况，是否是通过使用4个流行的Open Access STI数据源（即OpenAire，Open Alex，Cordis和Kohesio）的情况。

translated by 谷歌翻译

Mapping STI ecosystems via Open Data: overcoming the limitations of conflicting taxonomies. A case study for Climate Change Research in Denmark

Nicandro Bovenzi , Nicolau Duran-Silva , Francesco Alessandro Massucci , Francesco Multari , Cèsar Parra-Rojas , Josep Pujol-Llatse

分类：自然语言处理

2022-09-19

科学，技术与创新（STI）决策者通常需要清楚地了解所研究的内容以及通过谁设计有效的政策。这种愿景是通过对机构界限内进行的研究活动的有效和全面映射提供的。在这种情况下要面临的一个重大挑战是访问相关数据并结合来自不同来源的信息的困难：实际上，传统上，STI数据已限制在封闭的数据源中，并且在可用的情况下，它将与不同的分类法分类。。在这里，我们介绍了一项概念验证研究，该研究使用开放资源来绘制有关可持续发展目标（SDG）13种气候行动的研究格局，该行动是整个国家的丹麦，我们在25 ERC上绘制了它面板。

translated by 谷歌翻译

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun , Luke Melas-Kyriazi , Suproteem K. Sarkar , Scott Duke Kominers , Stuart M. Shieber

分类：自然语言处理 | 机器学习

2022-07-08

创新是经济和社会发展的主要驱动力，有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量，但ML提供了一套有希望的技术来评估新颖性，汇总贡献和嵌入语义。在本文中，我们介绍了Harvard USPTO专利数据集（HUPD），该数据集是2004年至2004年之间提交给美国专利商业办公室（USPTO）的大型，结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件，是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同，HUPD包含了专利申请的发明人提交的版本（不是授予专利的最终版本），其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖：通过提供每个应用程序的元数据及其所有文本字段，数据集使研究人员能够执行一组新的NLP任务，以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究，我们向NLP社区（即专利决策的二元分类）介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后，我们演示了如何将HUPD用于三个其他任务：专利主题领域的多类分类，语言建模和摘要。

translated by 谷歌翻译

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Patent Data for Engineering Design: A Review

Shuo Jiang , Serhad Sarica , Binyang Song , Jie Hu , Jianxi Luo

分类：人工智能

2021-11-15

专利数据已用于工程设计研究，因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会，分析和对专利数据感开发设计理论和方法。在此，我们通过他们的贡献来调查专利设计文献，以设计理论，方法，工具和策略，以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Evaluating and improving social awareness of energy communities through semantic network analysis of online news

C. Piselli , A. Fronzetti Colladon , L. Segneri , A. L. Pisello

分类：自然语言处理

2022-08-03

能源社区的实施代表了一种跨学科现象，有可能支持能源过渡，同时促进公民在整个能源系统中的参与及其对可再生能源的剥削。在线信息源在使人们参与此过程并提高他们对相关利益的认识方面发挥了重要作用。在这种观点中，这项工作分析了有关能源社区的在线新闻数据，以了解人们的意识和媒体的重要性。我们将语义品牌评分（SBS）指标用作语义重要性的创新度量，结合了社交网络分析和文本挖掘方法。结果表明，对能源社区以及其他能源和社会有关的主题的重要性趋势不同，也允许识别其联系。我们的方法为信息差距和可能采取的行动提供了证据，以促进低碳能量过渡。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

On the evolution of research in hypersonics: application of natural language processing and machine learning

Ashkan Ebadi , Alain Auger , Yvan Gauthier

分类：人工智能

2022-08-17

近年来，超级人性药物的研究与发展取得了显着发展，各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员，旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言，能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据，提取隐藏的模式并为决策者提供新的见解。在这项研究中，我们专注于2000 - 2020年期间有关高人物的科学出版物，并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析，以及研究主题是算法提取的事实，可以从练习中删除主观性，并可以在主题和时间间隔之间进行一致的比较。

translated by 谷歌翻译

Creation and Analysis of an International Corpus of Privacy Laws

Sonu Gupta , Ellen Poplavska , Nora O'Toole , Siddhant Arora , Thomas Norton , Norman Sadeh , Shomir Wilson

分类：自然语言处理

2022-06-28

世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律，协议，法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变，我们介绍了1,043条隐私法，法规和准则的政府隐私指示语料库或GPI语料库，涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布，并说明了过去50年中隐私立法的急剧增加，尽管较细粒度的检查表明，增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明，大多数隐私法分别解决了相对较少的个人数据类型，这表明全面的隐私立法仍然很少见。此外，主题建模结果显示了GPI中常见主题的普遍性，例如财务，医疗保健和电信。最后，我们将语料库释放到研究界，以促进进一步的研究。

translated by 谷歌翻译

Keyword Extraction in Scientific Documents

Susie Xi Rao , Piriyakorn Piriyatamwong , Parijat Ghoshal , Sara Nasirian , Emmanuel de Salis , Sandra Mitrović , Michael Wechner , Vanya Brucker , Peter Egger , Ce Zhang

分类：自然语言处理

2022-07-05

科学出版物的产出成倍增长。因此，跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步，例如知识图构建，文本挖掘和纪律分类。在这个研讨会中，我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。

translated by 谷歌翻译

Artificial Intelligence in Concrete Materials: A Scientometric View

Zhanzhao Li , Aleksandra Radlińska

分类：人工智能

2022-09-17

人工智能（AI）已成为一种变革性和多功能工具，破坏了跨科学领域的新边界。在其最有希望的应用中，AI研究是在混凝土科学和工程中开展的，它为混合设计优化和胶合系统的服务寿命预测提供了新的见解。本章旨在揭示有关混凝土材料AI现有文献的主要研究兴趣和知识结构。首先，从1990年至2020年发表的总共389篇文章是从科学网络中检索出来的。采用了科学计量学工具，例如关键字共同出现分析和文档共分析，以量化研究领域的特征和特征。这些发现在数据驱动的具体研究中引起了迫切的问题，并为混凝土社区提供了充分利用AI技术能力的未来机会。

translated by 谷歌翻译

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance

Nicholas Kluge Corrêa , Camila Galvão , James William Santos , Carolina Del Pino , Edson Pontes Pinto , Camila Barbosa , Diogo Massmann , Rodrigo Mambrini , Luiza Galvão , Edmund Terem

分类：人工智能

2022-06-23

在过去的十年中，许多组织制作了旨在从规范意义上进行标准化的文件，并为我们最近和快速的AI开发促进指导。但是，除了一些荟萃分析和该领域的批判性评论外，尚未分析这些文档中提出的思想的全部内容和分歧。在这项工作中，我们试图扩展过去研究人员所做的工作，并创建一种工具，以更好地数据可视化这些文档的内容和性质。我们还提供了通过将工具应用于200个文档的样本量获得的结果的批判性分析。

translated by 谷歌翻译

Between welcome culture and border fence. A dataset on the European refugee crisis in German newspaper reports

Nico Blokker , André Blessing , Erenay Dayanik , Jonas Kuhn , Sebastian Padó , Gabriella Lapesa

分类：自然语言处理

2021-11-19

报纸报告提供有关关于特定政策领域的公开辩论的丰富信息来源，该领域可以作为政治科学探究的依据。这种辩论通常由关键事件引发，这引起了公众的关注和煽动政治行动者的反应：危机引发了辩论。但是，由于可靠的注释和建模的挑战，很少有很多具有高质量注释的大规模数据集。本文介绍了Debatenet2.0，它在2015年期间追溯了德国优质报纸Taz欧洲难民危机的政治话语。我们的注释的核心单位是政治索赔（请求在政策领域内采取的具体行动）和制定它们的演员（政治家，派对等）。本文的贡献是双重的。首先，我们与其同伴R包，Mardyr，通过与报纸上的政策辩论的诠释的实际和概念问题引导读者，将DebateneT2.0与其伴侣R封装联系起来。其次，我们概述并将话语网络分析（DNA）应用于Debatenet2.0，比较了对“难民危机”的政策辩论的两个至关重要的时刻：4月/ 5月的地中海的移民通量和沿巴尔干路线的迁移渠道9月/ 10月。除了释放的资源和案例研究外，我们的贡献也是方法论：我们通过报纸文章向话语网络的步骤讨论读者，表明德国迁移辩论不仅仅是一个话语网络，而是多个话语，取决于兴趣主题（政治行动者，政策领域，时间跨度）。

translated by 谷歌翻译

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset

Peter Henderson , Mark S. Krass , Lucia Zheng , Neel Guha , Christopher D. Manning , Dan Jurafsky , Daniel E. Ho

分类：自然语言处理

2022-07-01

大语言模型的兴起的一个关注点是它们可能造成重大伤害的潜力，尤其是在偏见，淫秽，版权和私人信息方面进行预处理。新兴的道德方法试图过滤预处理的材料，但是这种方法是临时的，未能考虑到上下文。我们提供了一种以法律为基础的过滤方法，该方法直接解决了过滤材料的权衡。首先，我们收集并提供了一堆法律，这是一个256GB（以及增长）的开源英语法律和行政数据数据集，涵盖法院意见，合同，行政规则和立法记录。对一堆法律进行预处理可能有助于解决有望改善司法接触的法律任务。其次，我们提炼政府已制定的法律规范将有毒或私人内容限制为可行的研究人员，并讨论我们的数据集如何反映这些规范。第三，我们展示了一堆法律如何为研究人员提供直接从数据中学习此类过滤规则的机会，从而为基于模型的处理提供了令人兴奋的新研究方向。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

Deception for Cyber Defence: Challenges and Opportunities

David Liebowitz , Surya Nepal , Kristen Moore , Cody J. Christopher , Salil S. Kanhere , David Nguyen , Roelien C. Timmer , Michael Longland , Keerth Rathakumar

分类：机器学习

2022-08-15

作为网络防御的重要工具，欺骗正在迅速发展，并补充了现有的周边安全措施，以迅速检测出漏洞和数据盗窃。限制欺骗使用的因素之一是手工生成逼真的人工制品的成本。但是，机器学习的最新进展为可扩展的，自动化的现实欺骗创造了机会。本愿景论文描述了开发模型所涉及的机会和挑战，以模仿IT堆栈的许多共同元素以造成欺骗效应。

translated by 谷歌翻译