智能论文笔记

A Bibliographic View on Constrained Clustering

Ludmila Kuncheva , Francis Williams , Samuel Hennessey

分类：机器学习

2022-09-22

对网络科学的受约束聚类的关键字搜索返回仅3,000个文档。我们对这些人进行了自动分析，并汇编了我们自己的183篇论文书目，我们根据其主题和实验研究（如果有的话）进行了更详细的分析。本文使用引文计数和出版年份通过帕累托分析介绍了该地区及其子主题的一般趋势。我们列出可用的软件并分析参考收集的实验部分。我们发现缺乏大型比较实验。在我们审查的主题中，应用程序研究最近最丰富，以及深入学习，积极学习和合奏学习。

translated by 谷歌翻译

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Mapping Research Topics in Software Testing: A Bibliometric Analysis

Alireza Salahirad , Gregory Gay , Ehsan Mohammadi

分类：机器学习

2021-09-09

背景：软件测试领域正在增长和迅速发展。目的：基于分配给出版物的关键字，我们试图确定主要的研究主题，并了解它们的联系和发展方式。方法：我们应用共同字分析将测试研究的拓扑结构映射为一个网络，在该网络中，由作者分配的关键字通过表明出版物中共发生的边缘连接。关键字是根据边缘密度和连接频率聚类的。我们检查了最受欢迎的关键字，将集群汇总到高级研究主题中，检查主题如何连接并检查该领域的变化。结果：测试研究可以分为16个高级主题和18个子主题。创建指导，自动化测试生成，进化和维护以及测试魔术与其他主题具有特别牢固的联系，突出了其多学科性质。新兴关键字与Web和移动应用程序，机器学习，能源消耗，自动化程序修复和测试生成有关，而在Web应用程序，测试隔壁和机器学习之间形成了许多主题之间的新兴联系。随机和基于需求的测试显示潜在下降。结论：我们的观察，建议和地图数据为探索挑战和联系的领域和灵感提供了更深入的了解。

translated by 谷歌翻译

Machine Learning-Based Disease Diagnosis:A Bibliometric Analysis

Md Manjurul Ahsan , Zahed Siddique

分类：机器学习

2022-01-08

机器学习（ML）从研究人员和从业者获得了相当大的关注，作为一种新的和适应性的疾病诊断工具。随着ML的进步和本领域的纸张和研究的增殖，需要完全检查机器学习的疾病诊断（MLBDD）。本文从一本书中，本文从2012年到2021年全面研究了MLBDD论文。因此，特定的关键字，1710篇关于助理信息的文件已从科学（WOS）数据库（WOS）数据库中提取，并集成到Excel数据表中进行进一步分析。首先，我们根据年度出版物和最富有成效的国家/地区，机构和作者来检查出版物结构。其次，使用R-Studio软件可视化国家/地区，机构，作者和文章的共同引文网络。他们进一步在引文结构和最具影响力的方面进行了检查。本文概述了MLBDD的研究人员对该主题感兴趣的研究人员，对那些对在这一领域进行更多研究的人进行彻底和完整的MLBDD研究。

translated by 谷歌翻译

Artificial Intelligence in Concrete Materials: A Scientometric View

Zhanzhao Li , Aleksandra Radlińska

分类：人工智能

2022-09-17

人工智能（AI）已成为一种变革性和多功能工具，破坏了跨科学领域的新边界。在其最有希望的应用中，AI研究是在混凝土科学和工程中开展的，它为混合设计优化和胶合系统的服务寿命预测提供了新的见解。本章旨在揭示有关混凝土材料AI现有文献的主要研究兴趣和知识结构。首先，从1990年至2020年发表的总共389篇文章是从科学网络中检索出来的。采用了科学计量学工具，例如关键字共同出现分析和文档共分析，以量化研究领域的特征和特征。这些发现在数据驱动的具体研究中引起了迫切的问题，并为混凝土社区提供了充分利用AI技术能力的未来机会。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Patent Data for Engineering Design: A Review

Shuo Jiang , Serhad Sarica , Binyang Song , Jie Hu , Jianxi Luo

分类：人工智能

2021-11-15

专利数据已用于工程设计研究，因为它包含大量的设计信息。人工智能和数据科学的最新进展呈现了我前所未有的机会，分析和对专利数据感开发设计理论和方法。在此，我们通过他们的贡献来调查专利设计文献，以设计理论，方法，工具和策略，以及不同形式的专利数据和各种方法。我们的评论阐明了对该领域的未来研究方向的光临。

translated by 谷歌翻译

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research

Jan Philip Wahle , Terry Ruas , Saif M. Mohammad , Bela Gipp

分类：自然语言处理

2022-04-28

DBLP是计算机科学科学文章的最大开放访问存储库，并提供与出版物，作者和场地相关的元数据。我们从DBLP中检索了超过600万个出版物，并从出版物文本中提取了相关的元数据（例如摘要，作者分支机构，引用），以创建DBLP Discovery Dataset（D3）。 D3可用于确定计算机科学研究的研究活动，生产力，偏见，可及性和影响的趋势。我们提出了针对计算机科学研究量（例如论文，作者，研究活动的数量），感兴趣主题和引文模式的初步分析。我们的发现表明，计算机科学是一个不断增长的研究领域（每年约15％），拥有一个积极的协作研究员社区。与前几十年相比，近年来的论文提供了更多的书目条目，但引用的平均数量仍在下降。调查论文的摘要表明，最近的主题趋势在D3中明显反映。最后，我们列出了D3和提出补充研究问题的进一步应用。 D3数据集，我们的发现和源代码可公开用于研究目的。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

The Integration of Machine Learning into Automated Test Generation: A Systematic Literature Review

Afonso Fontes , Gregory Gay

分类：机器学习

2022-06-21

背景：机器学习（ML）可以实现有效的自动测试生成。目的：我们表征了新兴研究，检查测试实践，研究人员目标，应用的ML技术，评估和挑战。方法：我们对97个出版物的样本进行系统文献综述。结果：ML生成系统，GUI，单位，性能和组合测试的输入或改善现有生成方法的性能。 ML还用于生成测试判决，基于属性的和预期的输出序列。经常基于神经网络和强化学习的监督学习通常是基于Q学习的 - 很普遍，并且某些出版物还采用了无监督或半监督的学习。使用传统的测试指标和与ML相关的指标（例如准确性）评估（半/非 - ）监督方法，而经常使用与奖励功能相关的测试指标来评估强化学习。结论：工作到尽头表现出巨大的希望，但是在培训数据，再探术，可伸缩性，评估复杂性，所采用的ML算法以及如何应用 - 基准和可复制性方面存在公开挑战。我们的发现可以作为该领域研究人员的路线图和灵感。

translated by 谷歌翻译

Quantifying the Online Long-Term Interest in Research

Murtuza Shahzad , Hamed Alhoori , Reva Freedman , Shaikh Abdul Rahman

分类：人工智能 | 机器学习

2022-09-13

在多个在线平台上的数量越来越多。尽管这些文章的学术影响得到了广泛的研究，但在线分享的在线兴趣仍不清楚。认识到在线提到的研究文章的时间对研究人员来说可能是有价值的信息。在本文中，我们分析了用户共享和/或讨论学术文章的多个社交媒体平台。我们建立了三个论文集群，根据年度在线提及的出版日期，范围从1920年到2016年。使用这三个群集中的每个集群使用在线社交媒体指标，我们构建了机器学习模型来预测长期的机器学习模型在线对研究文章的兴趣。我们采用两种不同的方法来解决预测任务：回归和分类。对于回归方法，多层感知器模型表现最好，对于分类方法，基于树的模型的性能比其他模型更好。我们发现，在经济和工业的背景下（即专利），旧文章最为明显。相比之下，最近发表的文章在研究平台（即Mendeley）之后是社交媒体平台（即Twitter）最为明显。

translated by 谷歌翻译

Research Topic Flows in Co-Authorship Networks

Bastian Schäfermeier , Johannes Hirth , Tom Hanika

分类：机器学习

2022-06-16

在科学计量学方面，经常通过共同创作分析科学合作。一个经常被忽视且更难量化的方面是作者来自不同研究主题的专业知识流，这是科学进步的重要组成部分。使用主题流网络（TFN），我们提出了一个图形结构，以分析科学作者及其各自的研究领域之间的研究主题流。基于多画像和主题模型，我们提出的网络结构解释了室内和跨性流。我们的方法需要仅仅构建TFN的出版物语料库（即作者和摘要信息）。由此，通过非阴性基质分解自动发现研究主题。其得出的TFN允许应用社交网络分析技术，例如常见指标和社区检测。最重要的是，它允许在研究主题之间以及微观量表之间，即在某些作者之间进行微观量表，即在研究主题之间以及在微观量表之间进行分析。我们通过将我们的方法应用于两个全面的20 mio。在现场进行了60多年的研究计算机科学和数学研究的出版物。我们的结果提供了证据，表明TFN是合适的，例如，用于分析局部社区，在不同领域中发现重要作者，以及最值得注意的是，对跨性别流的分析，即主题专业知识的转移。除此之外，我们的方法还为未来的研究打开了新的方向，例如研究研究领域之间的影响关系。

translated by 谷歌翻译

Deep Multi-view Semi-supervised Clustering with Sample Pairwise Constraints

Rui Chen , Yongqiang Tang , Wensheng Zhang , Wenlong Feng

分类：计算机视觉 | 机器学习

2022-06-10

由于多源信息集成的能力，多视图聚类吸引了很多关注。尽管在过去几十年中已经提出了许多高级方法，但其中大多数通常忽略了弱监督信息的重要性，并且无法保留多种视图的特征属性，从而导致聚类性能不令人满意。为了解决这些问题，在本文中，我们提出了一种新颖的深度观看半监督聚类（DMSC）方法，该方法在网络填充过程中共同优化了三种损失，包括多视图集群损失，半监督的成对约束损失损失和多个自动编码器重建损失。具体而言，基于KL差异的多视图聚类损失被施加在多视图数据的共同表示上，以同时执行异质特征优化，多视图加权和聚类预测。然后，我们通过创新建议将成对约束集成到多视图聚类的过程中，通过执行所学到的必须链接样本的多视图表示（不能链接样本）是相似的（不同的），以便形成的聚类结构可以可以更可信。此外，与现有的竞争对手不同，该竞争对手仅保留网络填充期间每个异质分支的编码器，我们进一步建议调整完整的自动编码器框架，其中包含编码器和解码器。通过这种方式，可以缓解特定视图和视图共享特征空间的严重腐败问题，从而使整个培训程序更加稳定。通过在八个流行图像数据集上进行的全面实验，我们证明了我们提出的方法的性能要比最先进的多视图和单视竞争对手更好。

translated by 谷歌翻译

Analyzing Scientific Publications using Domain-Specific Word Embedding and Topic Modelling

Trisha Singhal , Junhua Liu , Lucienne T. M. Blessing , Kwan Hui Lim

分类：自然语言处理 | 人工智能

2021-12-24

科学世界正在快速改变，新技术正在开发，新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架，这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术，例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入，即PUB-G和PUB-W，其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后，主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集，由两条会议组成，并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明，与其他基线嵌入式的基于主题连贯性，我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。

translated by 谷歌翻译

Mapping Climate Change Research via Open Repositories & AI: advantages and limitations for an evidence-based R&D policy-making

Nicandro Bovenzi , Nicolau Duran-Silva , Francesco Alessandro Massucci , Francesco Multari , César Parra-Rojas , Josep Pujol-Llatse

分类：自然语言处理

2022-09-19

在过去的几年中，几项计划开始以开放方式提供对研究输出数据和元数据的访问。这些举措开发的平台正在向更广泛的公众开放科学生产，这对于基于循证的科学，技术和创新（STI）的决策是宝贵的资产。这些资源确实可以促进知识发现，并帮助确定特定感兴趣的研究领域中可用的研发资产和相关参与者。理想情况下，为了全面了解整个Sti生态系统，应相应地组合和分析这些资源所提供的信息。为了确保这一点，应至少在数据源之间保证至少一定程度的互操作性，以便可以更好地汇总和补充数据，并且为决策提供的证据更加完整和可靠。在这里，我们研究了在整个丹麦STI生态系统中绘制气候行动研究的情况，是否是通过使用4个流行的Open Access STI数据源（即OpenAire，Open Alex，Cordis和Kohesio）的情况。

translated by 谷歌翻译

Deep Learning -- A first Meta-Survey of selected Reviews across Scientific Disciplines, their Commonalities, Challenges and Research Impact

Jan Egger , Antonio Pepe , Christina Gsaxner , Yuan Jin , Jianning Li , Roman Kern

分类：计算机视觉 | 机器学习 | 神经与进化计算

2020-11-16

深度学习属于人工智能领域，机器执行通常需要某种人类智能的任务。类似于大脑的基本结构，深度学习算法包括一种人工神经网络，其类似于生物脑结构。利用他们的感官模仿人类的学习过程，深入学习网络被送入（感官）数据，如文本，图像，视频或声音。这些网络在不同的任务中优于最先进的方法，因此，整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如，只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集，用于搜索术语“深度学习”，其中大约90％来自过去三年。因此，对深度学习领域的完全概述已经不可能在不久的将来获得，并且在不久的将来可能会难以获得难以获得子场的概要。但是，有几个关于深度学习的综述文章，这些文章专注于特定的科学领域或应用程序，例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础，这一贡献的目的是提供对不同科学学科的深度学习的第一个高级，分类的元调查。根据底层数据来源（图像，语言，医疗，混合）选择了类别（计算机愿景，语言处理，医疗信息和其他工程）。此外，我们还审查了每个子类别的常见架构，方法，专业，利弊，评估，挑战和未来方向。

translated by 谷歌翻译

Open-Source Ground-based Sky Image Datasets for Very Short-term Solar Forecasting, Cloud Analysis and Modeling: A Comprehensive Survey

Yuhao Nie , Xiatong Li , Quentin Paletta , Max Aragon , Andea Scott , Adam Brandt

分类：计算机视觉 | 人工智能

2022-11-27

Sky-image-based solar forecasting using deep learning has been recognized as a promising approach in reducing the uncertainty in solar power generation. However, one of the biggest challenges is the lack of massive and diversified sky image samples. In this study, we present a comprehensive survey of open-source ground-based sky image datasets for very short-term solar forecasting (i.e., forecasting horizon less than 30 minutes), as well as related research areas which can potentially help improve solar forecasting methods, including cloud segmentation, cloud classification and cloud motion prediction. We first identify 72 open-source sky image datasets that satisfy the needs of machine/deep learning. Then a database of information about various aspects of the identified datasets is constructed. To evaluate each surveyed datasets, we further develop a multi-criteria ranking system based on 8 dimensions of the datasets which could have important impacts on usage of the data. Finally, we provide insights on the usage of these datasets for different applications. We hope this paper can provide an overview for researchers who are looking for datasets for very short-term solar forecasting and related areas.

translated by 谷歌翻译

Research Trends and Applications of Data Augmentation Algorithms

Joao Fonseca , Fernando Bacao

分类：机器学习

2022-07-18

在机器学习研究社区中，关于模型复杂性与所需数据和计算能力的关系之间的关系存在共识。在现实世界应用中，这些计算要求并非总是可用的，激发了对正则化方法的研究。此外，当前和过去的研究表明，更简单的分类算法可以在计算机视觉任务上达到最先进的性能，并给定一种强大的方法来人为地增强培训数据集。因此，近年来，数据增强技术成为流行的研究主题。但是，现有的数据增强方法通常不如其他正则化方法传递。在本文中，我们确定了数据增强算法应用的主要领域，所使用的算法，重要的研究趋势，随着时间的推移的发展以及数据增强文献中的研究差距。为此，相关文献是通过Scopus数据库收集的。它的分析是在网络科学，文本挖掘和探索性分析方法之后进行的。我们希望读者能够了解数据扩展的潜力，并在数据增强研究中确定未来的研究方向和开放问题。

translated by 谷歌翻译

On the evolution of research in hypersonics: application of natural language processing and machine learning

Ashkan Ebadi , Alain Auger , Yvan Gauthier

分类：人工智能

2022-08-17

近年来，超级人性药物的研究与发展取得了显着发展，各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员，旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言，能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据，提取隐藏的模式并为决策者提供新的见解。在这项研究中，我们专注于2000 - 2020年期间有关高人物的科学出版物，并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析，以及研究主题是算法提取的事实，可以从练习中删除主观性，并可以在主题和时间间隔之间进行一致的比较。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译