智能论文笔记

Quantifying the Online Long-Term Interest in Research

Murtuza Shahzad , Hamed Alhoori , Reva Freedman , Shaikh Abdul Rahman

分类：人工智能 | 机器学习

2022-09-13

在多个在线平台上的数量越来越多。尽管这些文章的学术影响得到了广泛的研究，但在线分享的在线兴趣仍不清楚。认识到在线提到的研究文章的时间对研究人员来说可能是有价值的信息。在本文中，我们分析了用户共享和/或讨论学术文章的多个社交媒体平台。我们建立了三个论文集群，根据年度在线提及的出版日期，范围从1920年到2016年。使用这三个群集中的每个集群使用在线社交媒体指标，我们构建了机器学习模型来预测长期的机器学习模型在线对研究文章的兴趣。我们采用两种不同的方法来解决预测任务：回归和分类。对于回归方法，多层感知器模型表现最好，对于分类方法，基于树的模型的性能比其他模型更好。我们发现，在经济和工业的背景下（即专利），旧文章最为明显。相比之下，最近发表的文章在研究平台（即Mendeley）之后是社交媒体平台（即Twitter）最为明显。

translated by 谷歌翻译

YouTube and Science: Models for Research Impact

Abdul Rahman Shaikh , Hamed Alhoori , Maoyuan Sun

分类：机器学习

2022-09-01

在过去的十年中，视频通信一直在迅速增加，YouTube提供了一种媒介，用户可以在其中发布，发现，共享和反应视频。引用研究文章的视频数量也有所增加，尤其是因为学术会议需要进行视频提交已变得相对普遍。但是，研究文章与YouTube视频之间的关系尚不清楚，本文的目的是解决此问题。我们使用YouTube视频创建了新的数据集，并在各种在线平台上提到了研究文章。我们发现，视频中引用的大多数文章都与医学和生物化学有关。我们通过统计技术和可视化分析了这些数据集，并建立了机器学习模型，以预测（1）视频中是否引用了研究文章，（2）视频中引用的研究文章是否达到了一定程度的知名度，以及（3）引用研究文章的视频是否流行。最佳模型的F1得分在80％至94％之间。根据我们的结果，在更多推文和新闻报道中提到的研究文章有更高的机会接收视频引用。我们还发现，视频观点对于预测引用和增加研究文章的普及和公众参与科学很重要。

translated by 谷歌翻译

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application

Yuzhuo Wang , Chengzhi Zhang , Kai Li

分类：自然语言处理

2022-09-08

在科学研究中，该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展，正在提出，修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息，并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法，为研究任务选择适当的方法并提出新方法。此外，方法实体的演变可以揭示纪律的发展并促进知识发现。因此，本文对方法论和经验作品进行了系统的综述，重点是从全文学术文献中提取方法实体，并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义，我们系统地审查了提取和评估方法实体的方法和指标，重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后，讨论了现有作品的限制以及潜在的下一步。

translated by 谷歌翻译

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset

Lennart Küll

分类：自然语言处理

2022-12-01

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.

translated by 谷歌翻译

Sentiment analysis on electricity twitter posts

Pardeep Kaur , Maryam Edalati

分类：自然语言处理

2022-06-10

在当今的世界中，每个人都以某种方式表现出来，而该项目的重点是人们使用Twitter的数据（一个微博平台）的数据，人们对英国和印度的电价上涨的看法，人们在该平台上发布了消息，人们发布了消息，称为Tweets。因为许多人的收入不好，他们必须缴纳如此多的税款和账单，因此如今，维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费，但不受人们的欢迎。在这个项目中，目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见，有必要对能源市场的政府和消费者进行情感分析。此外，这些媒体上存在的文本本质上是非结构化的，因此要处理它们，我们首先需要预处理数据。有很多功能提取技术，例如单词袋，tf-idf（术语频率为单位的文档频率），单词嵌入，基于NLP的功能，例如Word Count。在该项目中，我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现，通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析，包括幼稚的贝叶斯，决策树，随机森林和逻辑回归，并考虑F评分，准确性，精度和召回性能参数。

translated by 谷歌翻译

Artificial Intelligence in Concrete Materials: A Scientometric View

Zhanzhao Li , Aleksandra Radlińska

分类：人工智能

2022-09-17

人工智能（AI）已成为一种变革性和多功能工具，破坏了跨科学领域的新边界。在其最有希望的应用中，AI研究是在混凝土科学和工程中开展的，它为混合设计优化和胶合系统的服务寿命预测提供了新的见解。本章旨在揭示有关混凝土材料AI现有文献的主要研究兴趣和知识结构。首先，从1990年至2020年发表的总共389篇文章是从科学网络中检索出来的。采用了科学计量学工具，例如关键字共同出现分析和文档共分析，以量化研究领域的特征和特征。这些发现在数据驱动的具体研究中引起了迫切的问题，并为混凝土社区提供了充分利用AI技术能力的未来机会。

translated by 谷歌翻译

Visual Framing of Science Conspiracy Videos: Integrating Machine Learning with Communication Theories to Study the Use of Color and Brightness

Kaiping Chen , Sang Jung Kim , Qiantong Gao , Sebastian Raschka

分类：计算机视觉 | 机器学习

2021-02-01

近年来，目睹了互联网上的科学阴谋视频，科学认识论和公众对科学的认识。学者们已经开始研究阴谋消息中使用的说服技术，例如不确定和恐惧，尤其是视觉叙述，特别是视觉叙述在视频中如何与传播阴谋传播的人相差。本文通过使用计算方法分析数百万帧，通过分析数百万帧来了解阴谋视频中的视觉框架，解决了这种差距。我们发现阴谋视频倾向于使用较低的颜色方差和亮度，尤其是在视频的缩略图和早期部分。本文还展示了研究人员如何在机器学习模型中集成文本和视觉特征，以研究社交媒体的阴谋，并探讨有兴趣在数字时代进行视觉操纵的学者计算建模的影响。本文呈现的视觉和文本特征的分析对于未来的研究专注于设计系统来识别互联网上的阴谋内容。

translated by 谷歌翻译

AI-enabled exploration of Instagram profiles predicts soft skills and personality traits to empower hiring decisions

Mercedeh Harirchian , Fereshteh Amin , Saeed Rouhani , Aref Aligholipour , Vahid Amiri Lord

分类：机器学习

2022-12-14

It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.

translated by 谷歌翻译

An Assessment Tool for Academic Research Managers in the Third World

Fernando Delbianco , Andres Fioriti , Fernando Tohmé

分类： (统计)机器学习

2022-09-07

研究人员出版记录的学术评估与确定有才华的晋升和资金候选人有关。这样做的关键工具是使用Web的科学和Scopus提供的索引，这些索引有时超出了世界许多地方的学术机构的可能性。我们在这里展示了一个基础之一中的数据如何用于推断另一个基础索引的主要索引。机器学习中使用的数据分析方法使我们只能选择数据库中数百个变量中的几个，后来在面板回归中使用，从而获得了与其他数据库中的主要索引的良好近似值。由于可以从网络上自由刮擦Scopus的信息，因此该方法可以自由推断出出版物的影响因素，这是全球研究评估中使用的主要索引。

translated by 谷歌翻译

Dataset of Fake News Detection and Fact Verification: A Survey

Taichi Murayama

分类：机器学习 | 自然语言处理

2021-11-05

假新闻的迅速增加，这对社会造成重大损害，触发了许多假新闻相关研究，包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集：（1）假新闻检测，（2）事实验证，（3）其他任务;例如，假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后，我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究，而无需重新发明轮子，从而提高了深度的假新闻研究。

translated by 谷歌翻译

Evaluating and improving social awareness of energy communities through semantic network analysis of online news

C. Piselli , A. Fronzetti Colladon , L. Segneri , A. L. Pisello

分类：自然语言处理

2022-08-03

能源社区的实施代表了一种跨学科现象，有可能支持能源过渡，同时促进公民在整个能源系统中的参与及其对可再生能源的剥削。在线信息源在使人们参与此过程并提高他们对相关利益的认识方面发挥了重要作用。在这种观点中，这项工作分析了有关能源社区的在线新闻数据，以了解人们的意识和媒体的重要性。我们将语义品牌评分（SBS）指标用作语义重要性的创新度量，结合了社交网络分析和文本挖掘方法。结果表明，对能源社区以及其他能源和社会有关的主题的重要性趋势不同，也允许识别其联系。我们的方法为信息差距和可能采取的行动提供了证据，以促进低碳能量过渡。

translated by 谷歌翻译

Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper

Samuel Goree , Gabriel Appleby , David Crandall , Norman Su

分类：计算机视觉

2022-09-22

深度学习的成功导致了包括计算机视觉在内的许多计算机科学领域的快速转变和增长。在这项工作中，我们通过从媒体考古学的角度分析研究论文中的数字和表，通过计算机视觉研究论文本身来研究这种增长的影响。我们通过对涵盖计算机视觉，图形和可视化的资深研究人员的访谈以及十年的视觉会议论文的计算分析进行了调查。我们的分析重点是在广告，衡量和传播日益商品化的“贡献”中发挥作用的要素。我们认为，这些元素中的每一个都由计算机视觉的气候塑造和塑造，最终为该商品化做出了贡献。通过这项工作，我们试图激励有关研究论文设计和更广泛的社会技术出版系统的未来讨论。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Which structure of academic articles do referees pay more attention to?: perspective of peer review and full-text of academic articles

Chenglei Qin , Chengzhi Zhang

分类：自然语言处理

2022-09-05

目的本文的目的是探讨哪些学术文章裁判的结构将更加关注，具体内容裁判的重点是哪些特定内容，以及中国的分布是否与引用有关。设计/方法/方法首先，利用节标题和分层注意网络模型（HAN）的特征单词来识别学术文章结构。其次，根据PRC中规则提取的位置信息在不同结构中的分布。第三，分析通过卡方检验和TF-IDF在不同结构中提取的PRC特征单词的分布。最后，使用四种相关分析方法来分析PRC在不同结构中的分布是否与引用相关。发现在材料和方法和结果部分中分布的PRC计数远远超过了引言和讨论的结构，这表明裁判员更多地关注材料，方法和结果。中国在不同结构中的特征单词的分布显然是不同的，这可以反映裁判员关注的内容。中国在不同结构中的分布与引用之间没有相关性。由于裁判员写同行评审报告的差异，研究的局限性/含义，用于提取位置信息的规则不能涵盖所有中国的所有中国。原创性/价值本文在不同的学术文章结构中发现了中国分布的一种模式，证明了长期的经验理解。它还提供了对学术文章写作的见解：研究人员应确保方法的科学性和撰写学术文章的结果的可靠性，以获得裁判的高度认可。

translated by 谷歌翻译

Beyond S-curves: Recurrent Neural Networks for Technology Forecasting

Alexander Glavackij , Dimitri Percia David , Alain Mermoud , Angelika Romanou , Karl Aberer

分类：机器学习

2022-11-28

Because of the considerable heterogeneity and complexity of the technological landscape, building accurate models to forecast is a challenging endeavor. Due to their high prevalence in many complex systems, S-curves are a popular forecasting approach in previous work. However, their forecasting performance has not been directly compared to other technology forecasting approaches. Additionally, recent developments in time series forecasting that claim to improve forecasting accuracy are yet to be applied to technological development data. This work addresses both research gaps by comparing the forecasting performance of S-curves to a baseline and by developing an autencoder approach that employs recent advances in machine learning and time series forecasting. S-curves forecasts largely exhibit a mean average percentage error (MAPE) comparable to a simple ARIMA baseline. However, for a minority of emerging technologies, the MAPE increases by two magnitudes. Our autoencoder approach improves the MAPE by 13.5% on average over the second-best result. It forecasts established technologies with the same accuracy as the other approaches. However, it is especially strong at forecasting emerging technologies with a mean MAPE 18% lower than the next best result. Our results imply that a simple ARIMA model is preferable over the S-curve for technology forecasting. Practitioners looking for more accurate forecasts should opt for the presented autoencoder approach.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Machine Learning to Predict the Antimicrobial Activity of Cold Atmospheric Plasma-Activated Liquids

Mehmet Akif Ozdemir , Gizem Dilara Ozdemir , Merve Gul , Onan Guren , Utku Kursat Ercan

分类：机器学习

2022-07-25

血浆定义为物质的第四个状态，在高电场下可以在大气压下产生非热血浆。现在众所周知，血浆激活液体（PAL）的强和广谱抗菌作用。机器学习（ML）在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此，在PALS上的ML应用可以提出一种新的观点，以更好地了解各种参数对其抗菌作用的影响。在本文中，通过使用先前获得的数据来定性预测PAL的体外抗菌活性，从而介绍了比较监督的ML模型。进行了文献搜索，并从33个相关文章中收集了数据。在所需的预处理步骤之后，将两种监督的ML方法（即分类和回归）应用于数据以获得微生物灭活（MI）预测。对于分类，MI分为四类，对于回归，MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略，以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明，高参数优化的随机森林分类器（ORFC）和随机森林回归者（ORFR）分别比其他模型进行了分类和回归的模型更好。最后，获得ORFC的最佳测试精度为82.68％，ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外，此类发现可能有助于将来的血浆剂量定义。

translated by 谷歌翻译

Slapping Cats, Bopping Heads, and Oreo Shakes: Understanding Indicators of Virality in TikTok Short Videos

Chen Ling , Jeremy Blackburn , Emiliano De Cristofaro , Gianluca Stringhini

分类：计算机视觉

2021-11-03

短片已成为年轻一代使用的领先媒体之一，以便在线表达自己，从而塑造在线文化中的驱动力。在这方面，Tiktok已成为往往首先发布病毒视频的平台。在本文中，我们研究了在Tiktok上发布的短片内容有助于他们的病毒。我们应用一种混合方法方法来开发码本并识别重要的病毒功能。我们这样做是如此vis- \'a-vis三个研究假设;即：1）视频内容，2）Tiktok的推荐算法，以及3）视频创建者的普及有助于病毒性。我们收集并标记400个Tiktok视频和火车分类器的数据集，以帮助我们确定最多影响景象的功能。虽然追随者的数量是最强大的预测因子，但特写和中射尺度也起到重要作用。因此视频的寿命，文本的存在以及观点。我们的研究突出了与非病毒Tiktok视频区分病毒的特征，奠定了制定额外方法来创建更多聘用的在线内容，并主动地确定可能达到大量受众的风险内容。

translated by 谷歌翻译

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation

Faisal Alatawi , Lu Cheng , Anique Tahir , Mansooreh Karami , Bohan Jiang , Tyler Black , Huan Liu

分类：机器学习

2021-12-09

社交媒体的回声室是一个重要的问题，可以引起许多负面后果，最近影响对Covid-19的响应。回声室促进病毒的阴谋理论，发现与疫苗犹豫不决，较少遵守面具授权，以及社会疏散的实践。此外，回声室的问题与政治极化等其他相关问题相连，以及误导的传播。回声室被定义为用户网络，用户只与支持其预先存在的信仰和意见的意见相互作用，并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象，并为可能的解决方案提供蓝图。我们调查了相关文献，了解回声室的属性以及它们如何影响个人和社会。此外，我们展示了算法和心理的机制，这导致了回声室的形成。这些机制可以以两种形式表现出：（1）社交媒体推荐系统的偏见和（2）内部偏见，如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的，但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议，以使我们参与其中才能观看更多广告。因此，我们进一步研究了回声室检测和预防的不同计算方法，主要基于推荐系统。

translated by 谷歌翻译

A Literature Review on Length of Stay Prediction for Stroke Patients using Machine Learning and Statistical Approaches

Ola Alkhatib , Ayman Alahmar

分类：机器学习 | 人工智能

2021-12-30

医院住宿时间（LOS）是最重要的医疗保健度量之一，反映了医院的服务质量，有助于改善医院调度和管理。LOS预测有助于成本管理，因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中，我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明，作者达成了相应的结论。例如，患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子，而其他研究则认为年龄不是一个重要因素。因此，在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。

translated by 谷歌翻译