智能论文笔记

On the evolution of research in hypersonics: application of natural language processing and machine learning

Ashkan Ebadi , Alain Auger , Yvan Gauthier

分类：人工智能

2022-08-17

近年来，超级人性药物的研究与发展取得了显着发展，各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员，旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言，能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据，提取隐藏的模式并为决策者提供新的见解。在这项研究中，我们专注于2000 - 2020年期间有关高人物的科学出版物，并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析，以及研究主题是算法提取的事实，可以从练习中删除主观性，并可以在主题和时间间隔之间进行一致的比较。

translated by 谷歌翻译

Analyzing Scientific Publications using Domain-Specific Word Embedding and Topic Modelling

Trisha Singhal , Junhua Liu , Lucienne T. M. Blessing , Kwan Hui Lim

分类：自然语言处理 | 人工智能

2021-12-24

科学世界正在快速改变，新技术正在开发，新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架，这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术，例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入，即PUB-G和PUB-W，其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后，主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集，由两条会议组成，并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明，与其他基线嵌入式的基于主题连贯性，我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。

translated by 谷歌翻译

Artificial Intelligence in Concrete Materials: A Scientometric View

Zhanzhao Li , Aleksandra Radlińska

分类：人工智能

2022-09-17

人工智能（AI）已成为一种变革性和多功能工具，破坏了跨科学领域的新边界。在其最有希望的应用中，AI研究是在混凝土科学和工程中开展的，它为混合设计优化和胶合系统的服务寿命预测提供了新的见解。本章旨在揭示有关混凝土材料AI现有文献的主要研究兴趣和知识结构。首先，从1990年至2020年发表的总共389篇文章是从科学网络中检索出来的。采用了科学计量学工具，例如关键字共同出现分析和文档共分析，以量化研究领域的特征和特征。这些发现在数据驱动的具体研究中引起了迫切的问题，并为混凝土社区提供了充分利用AI技术能力的未来机会。

translated by 谷歌翻译

Combining keyphrase extraction and lexical diversity to characterize ideas in publication titles

James Powell , Martin Klein , Lyudmila Balakireva

分类：自然语言处理

2022-08-30

除了文献计量学之外，还有兴趣表征科学论文中思想数量的演变。调查此问题的一种常见方法是分析出版物的标题，以检测随着时间的推移词汇变化。以这样的概念，即短语或更具体的键形酶代表概念，将词汇多样性指标应用于标题的短语版本。因此，词汇多样性的变化被视为研究的指标，甚至可能扩展研究。因此，优化键形检测是该过程的重要方面。我们建议使用多个短语检测模型的目标，而不是仅一个，而是从源代码语料库中生产出更全面的钥匙串。这种方法的另一个潜在优势是，这些集合的联合和差异可能会提供自动化技术，以识别和省略非特异性短语。我们比较了几个短语检测模型的性能，分析每个短语集的输出，并使用四个通用的词汇多样性指标计算包含每个模型的键形的Corpora变体的词汇多样性。

translated by 谷歌翻译

HTML版本

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Mapping Research Topics in Software Testing: A Bibliometric Analysis

Alireza Salahirad , Gregory Gay , Ehsan Mohammadi

分类：机器学习

2021-09-09

背景：软件测试领域正在增长和迅速发展。目的：基于分配给出版物的关键字，我们试图确定主要的研究主题，并了解它们的联系和发展方式。方法：我们应用共同字分析将测试研究的拓扑结构映射为一个网络，在该网络中，由作者分配的关键字通过表明出版物中共发生的边缘连接。关键字是根据边缘密度和连接频率聚类的。我们检查了最受欢迎的关键字，将集群汇总到高级研究主题中，检查主题如何连接并检查该领域的变化。结果：测试研究可以分为16个高级主题和18个子主题。创建指导，自动化测试生成，进化和维护以及测试魔术与其他主题具有特别牢固的联系，突出了其多学科性质。新兴关键字与Web和移动应用程序，机器学习，能源消耗，自动化程序修复和测试生成有关，而在Web应用程序，测试隔壁和机器学习之间形成了许多主题之间的新兴联系。随机和基于需求的测试显示潜在下降。结论：我们的观察，建议和地图数据为探索挑战和联系的领域和灵感提供了更深入的了解。

translated by 谷歌翻译

Patent Data for Engineering Design: A Review

Shuo Jiang , Serhad Sarica , Binyang Song , Jie Hu , Jianxi Luo

分类：人工智能

2021-11-15

专利数据已用于工程设计研究，因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会，分析和对专利数据感开发设计理论和方法。在此，我们通过他们的贡献来调查专利设计文献，以设计理论，方法，工具和策略，以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。

translated by 谷歌翻译

Automatic Recognition and Classification of Future Work Sentences from Academic Articles in a Specific Domain

Chengzhi Zhang , Yi Xiang , Wenke Hao , Zhicheng Li , Yuchen Qian , Yuzhuo Wang

分类：自然语言处理

2022-12-28

Future work sentences (FWS) are the particular sentences in academic papers that contain the author's description of their proposed follow-up research direction. This paper presents methods to automatically extract FWS from academic papers and classify them according to the different future directions embodied in the paper's content. FWS recognition methods will enable subsequent researchers to locate future work sentences more accurately and quickly and reduce the time and cost of acquiring the corpus. The current work on automatic identification of future work sentences is relatively small, and the existing research cannot accurately identify FWS from academic papers, and thus cannot conduct data mining on a large scale. Furthermore, there are many aspects to the content of future work, and the subdivision of the content is conducive to the analysis of specific development directions. In this paper, Nature Language Processing (NLP) is used as a case study, and FWS are extracted from academic papers and classified into different types. We manually build an annotated corpus with six different types of FWS. Then, automatic recognition and classification of FWS are implemented using machine learning models, and the performance of these models is compared based on the evaluation metrics. The results show that the Bernoulli Bayesian model has the best performance in the automatic recognition task, with the Macro F1 reaching 90.73%, and the SCIBERT model has the best performance in the automatic classification task, with the weighted average F1 reaching 72.63%. Finally, we extract keywords from FWS and gain a deep understanding of the key content described in FWS, and we also demonstrate that content determination in FWS will be reflected in the subsequent research work by measuring the similarity between future work sentences and the abstracts.

translated by 谷歌翻译

Research Topic Flows in Co-Authorship Networks

Bastian Schäfermeier , Johannes Hirth , Tom Hanika

分类：机器学习

2022-06-16

在科学计量学方面，经常通过共同创作分析科学合作。一个经常被忽视且更难量化的方面是作者来自不同研究主题的专业知识流，这是科学进步的重要组成部分。使用主题流网络（TFN），我们提出了一个图形结构，以分析科学作者及其各自的研究领域之间的研究主题流。基于多画像和主题模型，我们提出的网络结构解释了室内和跨性流。我们的方法需要仅仅构建TFN的出版物语料库（即作者和摘要信息）。由此，通过非阴性基质分解自动发现研究主题。其得出的TFN允许应用社交网络分析技术，例如常见指标和社区检测。最重要的是，它允许在研究主题之间以及微观量表之间，即在某些作者之间进行微观量表，即在研究主题之间以及在微观量表之间进行分析。我们通过将我们的方法应用于两个全面的20 mio。在现场进行了60多年的研究计算机科学和数学研究的出版物。我们的结果提供了证据，表明TFN是合适的，例如，用于分析局部社区，在不同领域中发现重要作者，以及最值得注意的是，对跨性别流的分析，即主题专业知识的转移。除此之外，我们的方法还为未来的研究打开了新的方向，例如研究研究领域之间的影响关系。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Mapping Climate Change Research via Open Repositories & AI: advantages and limitations for an evidence-based R&D policy-making

Nicandro Bovenzi , Nicolau Duran-Silva , Francesco Alessandro Massucci , Francesco Multari , César Parra-Rojas , Josep Pujol-Llatse

分类：自然语言处理

2022-09-19

在过去的几年中，几项计划开始以开放方式提供对研究输出数据和元数据的访问。这些举措开发的平台正在向更广泛的公众开放科学生产，这对于基于循证的科学，技术和创新（STI）的决策是宝贵的资产。这些资源确实可以促进知识发现，并帮助确定特定感兴趣的研究领域中可用的研发资产和相关参与者。理想情况下，为了全面了解整个Sti生态系统，应相应地组合和分析这些资源所提供的信息。为了确保这一点，应至少在数据源之间保证至少一定程度的互操作性，以便可以更好地汇总和补充数据，并且为决策提供的证据更加完整和可靠。在这里，我们研究了在整个丹麦STI生态系统中绘制气候行动研究的情况，是否是通过使用4个流行的Open Access STI数据源（即OpenAire，Open Alex，Cordis和Kohesio）的情况。

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Evaluating and improving social awareness of energy communities through semantic network analysis of online news

C. Piselli , A. Fronzetti Colladon , L. Segneri , A. L. Pisello

分类：自然语言处理

2022-08-03

能源社区的实施代表了一种跨学科现象，有可能支持能源过渡，同时促进公民在整个能源系统中的参与及其对可再生能源的剥削。在线信息源在使人们参与此过程并提高他们对相关利益的认识方面发挥了重要作用。在这种观点中，这项工作分析了有关能源社区的在线新闻数据，以了解人们的意识和媒体的重要性。我们将语义品牌评分（SBS）指标用作语义重要性的创新度量，结合了社交网络分析和文本挖掘方法。结果表明，对能源社区以及其他能源和社会有关的主题的重要性趋势不同，也允许识别其联系。我们的方法为信息差距和可能采取的行动提供了证据，以促进低碳能量过渡。

translated by 谷歌翻译

Mapping Industry 4.0 Technologies: From Cyber-Physical Systems to Artificial Intelligence

Benjamin Meindl , Joana Mendonça

分类：自然语言处理

2021-11-28

第四个工业革命正在迅速改变制造景观。由于该领域的研究和快速进化日益越来越多，尚未存在这些概念的明确定义。这项工作提供了对技术趋势和差距的明确描述。我们介绍了一种新颖的方法来创建行业4.0技术地图，采用自然语言处理从14,667研究文章提取技术术语并应用网络分析。我们确定了八种行业4.0技术，作为我们分析的基础。我们的研究结果表明，工业物联网（IIOT）技术已成为行业4.0技术地图的中心。这符合行业4.0的初始定义，该初始定义为中心。鉴于最近人工智能的重要性（AI）的重要性，我们建议占AI在工业中的基本作用4.0，并了解第四个工业革命，作为人类和机器之间的AI动力自然合作。本文介绍了一种新颖的文献审查方法，结果突出了引导未来工作的趋势和研究差距，帮助这些演员获得数字转型的好处。

translated by 谷歌翻译

Text Mining-Based Patent Analysis for Automated Rule Checking in AEC

Zhe Zheng , Bo-Rui Kang , Qi-Tian Yuan , Yu-Cheng Zhou , Xin-Zheng Lu , Jia-Rui Lin

分类：自然语言处理 | 机器学习

2022-12-12

Automated rule checking (ARC), which is expected to promote the efficiency of the compliance checking process in the architecture, engineering, and construction (AEC) industry, is gaining increasing attention. Throwing light on the ARC application hotspots and forecasting its trends are useful to the related research and drive innovations. Therefore, this study takes the patents from the database of the Derwent Innovations Index database (DII) and China national knowledge infrastructure (CNKI) as data sources and then carried out a three-step analysis including (1) quantitative characteristics (i.e., annual distribution analysis) of patents, (2) identification of ARC topics using a latent Dirichlet allocation (LDA) and, (3) SNA-based co-occurrence analysis of ARC topics. The results show that the research hotspots and trends of Chinese and English patents are different. The contributions of this study have three aspects: (1) an approach to a comprehensive analysis of patents by integrating multiple text mining methods (i.e., SNA and LDA) is introduced ; (2) the application hotspots and development trends of ARC are reviewed based on patent analysis; and (3) a signpost for technological development and innovation of ARC is provided.

translated by 谷歌翻译

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research

Jan Philip Wahle , Terry Ruas , Saif M. Mohammad , Bela Gipp

分类：自然语言处理

2022-04-28

DBLP是计算机科学科学文章的最大开放访问存储库，并提供与出版物，作者和场地相关的元数据。我们从DBLP中检索了超过600万个出版物，并从出版物文本中提取了相关的元数据（例如摘要，作者分支机构，引用），以创建DBLP Discovery Dataset（D3）。 D3可用于确定计算机科学研究的研究活动，生产力，偏见，可及性和影响的趋势。我们提出了针对计算机科学研究量（例如论文，作者，研究活动的数量），感兴趣主题和引文模式的初步分析。我们的发现表明，计算机科学是一个不断增长的研究领域（每年约15％），拥有一个积极的协作研究员社区。与前几十年相比，近年来的论文提供了更多的书目条目，但引用的平均数量仍在下降。调查论文的摘要表明，最近的主题趋势在D3中明显反映。最后，我们列出了D3和提出补充研究问题的进一步应用。 D3数据集，我们的发现和源代码可公开用于研究目的。

translated by 谷歌翻译

Creation and Analysis of an International Corpus of Privacy Laws

Sonu Gupta , Ellen Poplavska , Nora O'Toole , Siddhant Arora , Thomas Norton , Norman Sadeh , Shomir Wilson

分类：自然语言处理

2022-06-28

世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律，协议，法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变，我们介绍了1,043条隐私法，法规和准则的政府隐私指示语料库或GPI语料库，涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布，并说明了过去50年中隐私立法的急剧增加，尽管较细粒度的检查表明，增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明，大多数隐私法分别解决了相对较少的个人数据类型，这表明全面的隐私立法仍然很少见。此外，主题建模结果显示了GPI中常见主题的普遍性，例如财务，医疗保健和电信。最后，我们将语料库释放到研究界，以促进进一步的研究。

translated by 谷歌翻译

Which structure of academic articles do referees pay more attention to?: perspective of peer review and full-text of academic articles

Chenglei Qin , Chengzhi Zhang

分类：自然语言处理

2022-09-05

目的本文的目的是探讨哪些学术文章裁判的结构将更加关注，具体内容裁判的重点是哪些特定内容，以及中国的分布是否与引用有关。设计/方法/方法首先，利用节标题和分层注意网络模型（HAN）的特征单词来识别学术文章结构。其次，根据PRC中规则提取的位置信息在不同结构中的分布。第三，分析通过卡方检验和TF-IDF在不同结构中提取的PRC特征单词的分布。最后，使用四种相关分析方法来分析PRC在不同结构中的分布是否与引用相关。发现在材料和方法和结果部分中分布的PRC计数远远超过了引言和讨论的结构，这表明裁判员更多地关注材料，方法和结果。中国在不同结构中的特征单词的分布显然是不同的，这可以反映裁判员关注的内容。中国在不同结构中的分布与引用之间没有相关性。由于裁判员写同行评审报告的差异，研究的局限性/含义，用于提取位置信息的规则不能涵盖所有中国的所有中国。原创性/价值本文在不同的学术文章结构中发现了中国分布的一种模式，证明了长期的经验理解。它还提供了对学术文章写作的见解：研究人员应确保方法的科学性和撰写学术文章的结果的可靠性，以获得裁判的高度认可。

translated by 谷歌翻译

A Survey on Sentiment and Emotion Analysis for Computational Literary Studies

Evgeny Kim , Roman Klinger

分类：自然语言处理

2018-08-09

情感是引人入胜的叙事的关键部分：文学向我们讲述了有目标，欲望，激情和意图的人。情绪分析是情感分析更广泛，更大的领域的一部分，并且在文学研究中受到越来越多的关注。过去，文学的情感维度主要在文学诠释学的背景下进行了研究。但是，随着被称为数字人文科学（DH）的研究领域的出现，在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实，这一研究方向可以相对较新。在这项调查中，我们概述了现有的情感分析研究机构，以适用于文献。所评论的研究涉及各种主题，包括跟踪情节发展的巨大变化，对文学文本的网络分析以及了解文本的情感以及其他主题。

translated by 谷歌翻译

Change Summarization of Diachronic Scholarly Paper Collections by Semantic Evolution Analysis

Naman Paharia , Muhammad Syafiq Mohd Pozi , Adam Jatowt

分类：自然语言处理

2021-12-07

在过去几年中，学术数据的数量一直在急剧增加。对于特定科学领域的新人（例如，IR，物理学，NLP）往往难以解决更大的趋势，并在先前科学成就和突破的背景下定位最新研究。同样，科学史上的研究人员对允许他们分析和可视化特定科学域中的变化的工具感兴趣。时间摘要和相关方法应该是有用的，以使大量的科学话语数据随时间汇总。我们展示了一种新颖的分析研究论文收集的方法，在较长的时间内发布，以提供在时间进展情况上发生的重要语义变革的高级概述。我们的方法是基于比较单词语义表示随着时间的推移，并旨在支持用户更好地理解学术出版物的大型域名档案。作为一个示例数据集，我们使用从1979年到2015年的ACL原点参考语料库，并包含22,878篇学术文章。

translated by 谷歌翻译