智能论文笔记

To remove or not remove Mobile Apps? A data-driven predictive model approach

Fadi Mohsen , Dimka Karastoyanova , George Azzopardi

分类：机器学习

2022-06-08

移动应用商店是移动应用程序的关键分销商。他们定期将审核流程应用于部署的应用程序。然而，其中一些审查过程可能不足或迟到。延迟删除应用程序可能会对开发人员和用户产生不愉快的后果。因此，在这项工作中，我们提出了一种数据驱动的预测方法，该方法决定了是否将删除或接受相应的应用程序。它还表明了功能的相关性，可以帮助利益相关者进行解释。反过来，我们的方法可以支持开发人员改善其应用程序和用户下载不太可能被删除的应用程序。我们专注于Google App Store，并编译了870,515个应用程序的新数据集，其中56％实际上已从市场中删除。我们提出的方法是多个XGBoost机器学习分类器的引导程序聚合。我们提出了两种模型：使用47个功能以用户为中心，并以37个功能为中心，仅在部署之前可用。我们在测试集的ROC曲线（AUC）下实现以下区域：以用户为中心= 0.792，以开发人员为中心= 0.762。

translated by 谷歌翻译

AI-driven Mobile Apps: an Explorative Study

Yinghua Li , Xueqi Dang , Haoye Tian , Tiezhu Sun , Zhijie Wang , Lei Ma , Jacques Klein , Tegawende F. Bissyande

分类：人工智能

2022-12-03

Recent years have witnessed an astonishing explosion in the evolution of mobile applications powered by AI technologies. The rapid growth of AI frameworks enables the transition of AI technologies to mobile devices, significantly prompting the adoption of AI apps (i.e., apps that integrate AI into their functions) among smartphone devices. In this paper, we conduct the most extensive empirical study on 56,682 published AI apps from three perspectives: dataset characteristics, development issues, and user feedback and privacy. To this end, we build an automated AI app identification tool, AI Discriminator, that detects eligible AI apps from 7,259,232 mobile apps. First, we carry out a dataset analysis, where we explore the AndroZoo large repository to identify AI apps and their core characteristics. Subsequently, we pinpoint key issues in AI app development (e.g., model protection). Finally, we focus on user reviews and user privacy protection. Our paper provides several notable findings. Some essential ones involve revealing the issue of insufficient model protection by presenting the lack of model encryption, and demonstrating the risk of user privacy data being leaked. We published our large-scale AI app datasets to inspire more future research.

translated by 谷歌翻译

Dos and Don'ts of Machine Learning in Computer Security

Daniel Arp , Erwin Quiring , Feargus Pendlebury , Alexander Warnecke , Fabio Pierazzi , Christian Wressnegger , Lorenzo Cavallaro , Konrad Rieck

分类：机器学习

2020-10-19

随着计算系统的不断增长的加工能力和大规模数据集的可用性的增加，机器学习算法导致了许多不同区域的重大突破。此开发影响了计算机安全性，在基于学习的安全系统中产生了一系列工作，例如用于恶意软件检测，漏洞发现和二进制代码分析。尽管潜力巨大，但安全性的机器学习易于细微缺陷，以破坏其性能，并使基于学习的系统可能不适合安全任务和实际部署。在本文中，我们用临界眼睛看这个问题。首先，我们确定基于学习的安全系统的设计，实现和评估中的常见缺陷。我们在过去的10年内，从顶层安全会议中进行了一项研究，确认这些陷阱在目前的安全文献中普遍存在。在一个实证分析中，我们进一步展示了个体陷阱如何导致不切实际的表现和解释，阻碍了对手的安全问题的理解。作为补救措施，我们提出了可行的建议，以支持研究人员在可能的情况下避免或减轻陷阱。此外，我们在将机器学习应用于安全性并提供进一步研究方向时确定打开问题。

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

A machine learning model to identify corruption in México's public procurement contracts

Andrés Aldana , Andrea Falcón-Cortés , Hernán Larralde

分类：机器学习

2022-10-25

The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.

translated by 谷歌翻译

Nudge: Accelerating Overdue Pull Requests Towards Completion

Chandra Maddila , Sai Surya Upadrasta , Chetan Bansal , Nachiappan Nagappan , Georgios Gousios , Arie van Deursen

分类：人工智能 | 机器学习

2020-11-25

拉力请求是当今协作软件开发和代码审核过程的关键部分。但是，当审阅者或作者不积极参与拉动请求时，拉动请求也可以减慢软件开发过程。在这项工作中，我们设计了一项端到端服务，以提醒作者或审阅者与他们的逾期拉动请求互动，以加速逾期拉动请求。首先，我们根据努力估算和机器学习使用模型来预测给定拉的请求的完成时间。其次，我们使用活动检测来滤除可能逾期的拉请请求，但仍在采取足够的动作。最后，我们使用演员身份证来了解拉动请求的阻止者是谁，并推动适当的演员（作者或审稿人）。轻推的主要新颖性是它成功地减少了拉动请求解决时间，同时确保开发人员认为发送的通知在成千上万的存储库中是有用的。在Microsoft使用的147个存储库的随机试验中，Nudge能够将拉的请求分辨率时间减少60％，而与Nudge未发送通知的逾期拉动请求相比，该请求的8,500次拉。此外，收到推动通知的开发人员将这些通知的73％置于正面。我们观察到在Microsoft的8,000个存储库中扩展Nudge的部署时，我们观察到了类似的结果，在整整一年中，Nudge发送了210,000个通知。这表明了Nudge可以扩展到数千个存储库的能力。最后，我们对选择通知的定性分析指示了未来研究的领域，例如在拉动请求和开发人员的可用性中考虑依赖性。

translated by 谷歌翻译

Machine Learning Application Development: Practitioners' Insights

Md Saidur Rahman , Foutse Khomh , Alaleh Hamidi , Jinghui Cheng , Giuliano Antoniol , Hironori Washizaki

分类：机器学习

2021-12-31

如今，由于最近在人工智能（AI）和机器学习（ML）中的近期突破，因此，智能系统和服务越来越受欢迎。然而，机器学习不仅满足软件工程，不仅具有有希望的潜力，而且还具有一些固有的挑战。尽管最近的一些研究努力，但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外，目前尚不清楚软件工程研究人员应将其努力集中起来，以更好地支持ML应用程序开发人员。在本文中，我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者（以不同的技能，经验和应用领域）获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题，以改善工程过程和基于ML的申请的质量。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译

On the impact of dataset size and class imbalance in evaluating machine-learning-based windows malware detection techniques

David Illes

分类：机器学习

2022-06-13

该项目的目的是收集和分析有关关注Microsoft Windows恶意软件的已发布结果的可比性和现实生活的数据，更具体地说是数据集大小和测试数据集不平衡对测量检测器性能的影响。一些研究人员使用较小的数据集，如果数据集大小对性能产生重大影响，则可以比较已发布的结果。研究人员还倾向于使用平衡的数据集和准确性作为测试的指标。前者并不是现实的真实代表，在这种现实中，良性样本明显超过了恶意软件，而后者的方法对于不平衡问题而言是有问题的。该项目确定了两个关键目标，以了解数据集大小是否与测量的探测器性能相关，以防止有意义地比较已发布的结果，并了解是否可以在现实世界中的部署中表现良好设想。该研究的结果表明，数据集的大小确实与测量的检测器性能相关，以防止有意义地比较已发表的结果，并且不了解训练集大小准确性曲线的性质，用于在哪种方法“更好”的方法之间得出已发表的结果结论。不应仅根据准确分数制作。结果还表明，高精度得分不一定会转化为高现实世界的性能。

translated by 谷歌翻译

Machine Learning in Access Control: A Taxonomy and Survey

Mohammad Nur Nobi , Maanak Gupta , Lopamudra Praharaj , Mahmoud Abdelsalam , Ram Krishnan , Ravi Sandhu

分类：机器学习

2022-07-04

越来越多的工作已经认识到利用机器学习（ML）进步的重要性，以满足提取访问控制属性，策略挖掘，策略验证，访问决策等有效自动化的需求。在这项工作中，我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战，例如缺乏公共现实世界数据集，基于ML的访问控制系统的管理，了解黑盒ML模型的决策等，并列举未来的研究方向。

translated by 谷歌翻译

Automatically Categorising GitHub Repositories by Application Domain

Francisco Zanartu , Christoph Treude , Bruno Cartaxo , Hudson Silva Borges , Pedro Moura , Markus Wagner , Gustavo Pinto

分类：机器学习

2022-07-30

GitHub是Internet上最大的开源软件主机。这个大型，可自由访问的数据库吸引了从业人员和研究人员的注意。但是，随着Github的增长的继续，越来越难以导航遍布广泛领域的大量存储库。过去的工作表明，考虑到应用程序域对于预测存储库的普及以及有关项目质量的推理的任务至关重要。在这项工作中，我们建立在先前注释的5,000个GitHub存储库的数据集上，以设计自动分类器，以通过其应用程序域对存储库进行分类。分类器使用最先进的自然语言处理技术和机器学习，根据五个应用程序域从多个数据源和目录存储库中学习。我们用（1）自动分类器贡献，该分类器可以将流行的存储库分配给每个应用程序域，至少具有70％的精度，（2）对该方法在不流行的存储库中的性能进行调查，以及（3）这种方法对这种方法的实际应用程序，用于回答软件工程实践的采用如何在应用程序域之间有何不同。我们的工作旨在帮助GitHub社区确定感兴趣的存储库，并为未来的工作开放有希望的途径，以调查来自不同应用领域的存储库之间的差异。

translated by 谷歌翻译

PABAU: Privacy Analysis of Biometric API Usage

Feiyang Tang

分类：机器学习

2022-12-21

Biometric data privacy is becoming a major concern for many organizations in the age of big data, particularly in the ICT sector, because it may be easily exploited in apps. Most apps utilize biometrics by accessing common application programming interfaces (APIs); hence, we aim to categorize their usage. The categorization based on behavior may be closely correlated with the sensitive processing of a user's biometric data, hence highlighting crucial biometric data privacy assessment concerns. We propose PABAU, Privacy Analysis of Biometric API Usage. PABAU learns semantic features of methods in biometric APIs and uses them to detect and categorize the usage of biometric API implementation in the software according to their privacy-related behaviors. This technique bridges the communication and background knowledge gap between technical and non-technical individuals in organizations by providing an automated method for both parties to acquire a rapid understanding of the essential behaviors of biometric API in apps, as well as future support to data protection officers (DPO) with legal documentation, such as conducting a Data Protection Impact Assessment (DPIA).

translated by 谷歌翻译

NL2GDPR: Automatically Develop GDPR Compliant Android Application Features from Natural Language

Faysal Hossain Shezan , Yingjie Lao , Minlong Peng , Xin Wang , Mingming Sun , Ping Li

分类：自然语言处理

2022-08-29

最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是，此类义务还在应用程序开发人员遵守包含各种观点，活动和角色的这些法规方面面临重大挑战，尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍，我们开发了一个自动工具NL2GDPR，该工具可以从开发人员的自然语言描述中制定策略，同时还可以确保该应用程序的功能符合通用数据保护法规（GDPR）。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA（开放信息注释）开发的。核心，NL2GDPR是一个以隐私为中心的信息提取模型，附有GDPR策略查找器和策略生成器。我们进行一项全面的研究，以掌握提取以隐私为中心的信息和制定隐私政策的挑战，同时利用针对此特定任务的优化。借助NL2GDPR，我们可以在正确识别与个人数据存储，过程和共享类型相关的GDPR策略方面获得92.9％，95.2％和98.4％的精度。据我们所知，NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具，只需要输入自然语言来描述应用程序功能。请注意，其他非GDPR相关功能可能与生成的功能集成在一起，以构建复杂的应用程序。

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun , Luke Melas-Kyriazi , Suproteem K. Sarkar , Scott Duke Kominers , Stuart M. Shieber

分类：自然语言处理 | 机器学习

2022-07-08

创新是经济和社会发展的主要驱动力，有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量，但ML提供了一套有希望的技术来评估新颖性，汇总贡献和嵌入语义。在本文中，我们介绍了Harvard USPTO专利数据集（HUPD），该数据集是2004年至2004年之间提交给美国专利商业办公室（USPTO）的大型，结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件，是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同，HUPD包含了专利申请的发明人提交的版本（不是授予专利的最终版本），其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖：通过提供每个应用程序的元数据及其所有文本字段，数据集使研究人员能够执行一组新的NLP任务，以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究，我们向NLP社区（即专利决策的二元分类）介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后，我们演示了如何将HUPD用于三个其他任务：专利主题领域的多类分类，语言建模和摘要。

translated by 谷歌翻译

SkillFence: A Systems Approach to Practically Mitigating Voice-Based Confusion Attacks

Ashish Hooda , Matthew Wallace , Kushal Jhunjhunwalla , Earlence Fernandes , Kassem Fawaz

分类：机器学习

2022-12-16

Voice assistants are deployed widely and provide useful functionality. However, recent work has shown that commercial systems like Amazon Alexa and Google Home are vulnerable to voice-based confusion attacks that exploit design issues. We propose a systems-oriented defense against this class of attacks and demonstrate its functionality for Amazon Alexa. We ensure that only the skills a user intends execute in response to voice commands. Our key insight is that we can interpret a user's intentions by analyzing their activity on counterpart systems of the web and smartphones. For example, the Lyft ride-sharing Alexa skill has an Android app and a website. Our work shows how information from counterpart apps can help reduce dis-ambiguities in the skill invocation process. We build SkilIFence, a browser extension that existing voice assistant users can install to ensure that only legitimate skills run in response to their commands. Using real user data from MTurk (N = 116) and experimental trials involving synthetic and organic speech, we show that SkillFence provides a balance between usability and security by securing 90.83% of skills that a user will need with a False acceptance rate of 19.83%.

translated by 谷歌翻译

SNGuess: A method for the selection of young extragalactic transients

N. Miranda , J. C. Freytag , J. Nordin , R. Biswas , V. Brinnel , C. Fremling , M. Kowalski , A. Mahabal , S. Reusch , J. van Santen

分类：机器学习

2022-08-13

随着天文学中检测到的瞬变数量的迅速增加，基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类，并且出于良好的性能，他们通常需要存在大量观察。但是，精心设计，有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess，该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能，这些功能可以从天文警报数据中有效计算。其中一些功能是静态的，并且与警报元数据相关联，而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单，可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施（ZTF）的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成，这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88％的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星（SNE）。对于具有明亮检测的警报，此数字在92％至98％之间。自2020年4月以来，Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器（TNS）。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。

translated by 谷歌翻译

In Pursuit of Interpretable, Fair and Accurate Machine Learning for Criminal Recidivism Prediction

Caroline Wang , Bin Han , Bhrij Patel , Cynthia Rudin

分类： (统计)机器学习 | 机器学习

2020-05-08

目的：我们研究使用机器学习（ML）模型的可解释的累入预测，并在预测能力，稀疏性和公平性方面分析性能。与以前的作品不同，本研究列举了输出概率而不是二进制预测的可解释模型，并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法：我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较，以预测审前常规率：Arnold PSA和Compas。我们评估了所有模型的预测性能，可以在两次跨越两次预测六种不同类型犯罪的模型。结果：几种可解释的ML模型可以预测常规和黑盒ML模型，比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA，这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训，以便单独的位置并随时间更新。我们还为可解释模型提供了公平分析。结论：可解释的机器学习模型可以在预测准确性和公平性方面表现，也可以表现，也可以表现，也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训，可以更准确地进行不同的位置，并保持最新。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

FNDaaS: Content-agnostic Detection of Fake News sites

Panagiotis Papadopoulos , Dimitris Spithouris , Evangelos P. Markatos , Nicolas Kourtellis

分类：机器学习

2022-12-13

Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones.

translated by 谷歌翻译