智能论文笔记

PABAU: Privacy Analysis of Biometric API Usage

Feiyang Tang

分类：机器学习

2022-12-21

Biometric data privacy is becoming a major concern for many organizations in the age of big data, particularly in the ICT sector, because it may be easily exploited in apps. Most apps utilize biometrics by accessing common application programming interfaces (APIs); hence, we aim to categorize their usage. The categorization based on behavior may be closely correlated with the sensitive processing of a user's biometric data, hence highlighting crucial biometric data privacy assessment concerns. We propose PABAU, Privacy Analysis of Biometric API Usage. PABAU learns semantic features of methods in biometric APIs and uses them to detect and categorize the usage of biometric API implementation in the software according to their privacy-related behaviors. This technique bridges the communication and background knowledge gap between technical and non-technical individuals in organizations by providing an automated method for both parties to acquire a rapid understanding of the essential behaviors of biometric API in apps, as well as future support to data protection officers (DPO) with legal documentation, such as conducting a Data Protection Impact Assessment (DPIA).

translated by 谷歌翻译

Edge Security: Challenges and Issues

Xin Jin , Charalampos Katsis , Fan Sang , Jiahao Sun , Ashish Kundu , Ramana Kompella

分类：人工智能

2022-06-14

边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应，但除其他好处外，它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后，我们认为需要一种整体方法来分析边缘网络安全姿势，该姿势必须考虑每一层的知识。

translated by 谷歌翻译

Responsible AI Pattern Catalogue: a Multivocal Literature Review

Qinghua Lu , Liming Zhu , Xiwei Xu , Jon Whittle , Didar Zowghi , Aurelie Jacquet

分类：人工智能

2022-09-12

负责任的AI被广泛认为是我们时代最大的科学挑战之一，也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战，最近已经发布了许多AI伦理原则框架，AI系统应该符合这些框架。但是，没有进一步的最佳实践指导，从业者除了真实性之外没有什么。同样，在算法级别而不是系统级的算法上进行了重大努力，主要集中于数学无关的道德原则（例如隐私和公平）的一部分。然而，道德问题在开发生命周期的任何步骤中都可能发生，从而超过AI算法和模型以外的系统的许多AI，非AI和数据组件。为了从系统的角度操作负责任的AI，在本文中，我们采用了一种面向模式的方法，并根据系统的多媒体文献综述（MLR）的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上，我们专注于AI系统利益相关者可以在实践中采取的模式，以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组：多层次治理模式，可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。

translated by 谷歌翻译

Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions

Hammond Pearce , Baleegh Ahmad , Benjamin Tan , Brendan Dolan-Gavitt , Ramesh Karri

分类：人工智能

2021-08-20

在设计基于AI的系统中，有蓬勃发展的兴趣，以帮助人类设计计算系统，包括自动生成计算机代码的工具。这些最值得注意的是，以第一个自我描述的“Ai对程序员”，GitHub Copilot，一种在开源GitHub代码上培训的语言模型。但是，代码通常包含错误 - 因此，鉴于Copilot处理的大量未曝避代码，肯定是语言模型将从可利用的错误代码中学到。这提出了对Copilot代码捐助的安全的担忧。在这项工作中，我们系统地调查了可能导致Github CopIlot推荐不安全代码的普遍存在和条件。为了执行此分析，我们提示CopIlot在与高风险CWE相关的方案中生成代码（例如，从吉利的“前25名”列表中的方案）。我们探索了三个不同代码生成轴上的Copilot的表现 - 检查它如何表现为特定的弱点多样性，提示的多样性以及域的多样性。总共生产89个不同的Copilot方案，以完成，生产1,689个计划。其中，我们发现大约40％的脆弱。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译

NL2GDPR: Automatically Develop GDPR Compliant Android Application Features from Natural Language

Faysal Hossain Shezan , Yingjie Lao , Minlong Peng , Xin Wang , Mingming Sun , Ping Li

分类：自然语言处理

2022-08-29

最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是，此类义务还在应用程序开发人员遵守包含各种观点，活动和角色的这些法规方面面临重大挑战，尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍，我们开发了一个自动工具NL2GDPR，该工具可以从开发人员的自然语言描述中制定策略，同时还可以确保该应用程序的功能符合通用数据保护法规（GDPR）。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA（开放信息注释）开发的。核心，NL2GDPR是一个以隐私为中心的信息提取模型，附有GDPR策略查找器和策略生成器。我们进行一项全面的研究，以掌握提取以隐私为中心的信息和制定隐私政策的挑战，同时利用针对此特定任务的优化。借助NL2GDPR，我们可以在正确识别与个人数据存储，过程和共享类型相关的GDPR策略方面获得92.9％，95.2％和98.4％的精度。据我们所知，NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具，只需要输入自然语言来描述应用程序功能。请注意，其他非GDPR相关功能可能与生成的功能集成在一起，以构建复杂的应用程序。

translated by 谷歌翻译

SoK: Machine Learning with Confidential Computing

Fan Mo , Zahra Tarkhani , Hamed Haddadi

分类：机器学习

2022-08-22

机器学习中的隐私和安全挑战（ML）已成为ML普遍的开发以及最近对大型攻击表面的展示，已成为一个关键的话题。作为一种成熟的以系统为导向的方法，在学术界和行业中越来越多地使用机密计算来改善各种ML场景的隐私和安全性。在本文中，我们将基于机密计算辅助的ML安全性和隐私技术的发现系统化，以提供i）保密保证和ii）完整性保证。我们进一步确定了关键挑战，并提供有关ML用例现有可信赖的执行环境（TEE）系统中限制的专门分析。我们讨论了潜在的工作，包括基础隐私定义，分区的ML执行，针对ML的专用发球台设计，TEE Awawe Aware ML和ML Full Pipeline保证。这些潜在的解决方案可以帮助实现强大的TEE ML，以保证无需引入计算和系统成本。

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

Reviving Purpose Limitation and Data Minimisation in Data-Driven Systems

Asia J. Biega , Michèle Finck

分类：机器学习

2021-01-15

本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异，但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点，揭示了妨碍了妨碍了实现的障碍，并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响，为数据控制员，监管机构和研究人员提供实际行动点。

translated by 谷歌翻译

To remove or not remove Mobile Apps? A data-driven predictive model approach

Fadi Mohsen , Dimka Karastoyanova , George Azzopardi

分类：机器学习

2022-06-08

移动应用商店是移动应用程序的关键分销商。他们定期将审核流程应用于部署的应用程序。然而，其中一些审查过程可能不足或迟到。延迟删除应用程序可能会对开发人员和用户产生不愉快的后果。因此，在这项工作中，我们提出了一种数据驱动的预测方法，该方法决定了是否将删除或接受相应的应用程序。它还表明了功能的相关性，可以帮助利益相关者进行解释。反过来，我们的方法可以支持开发人员改善其应用程序和用户下载不太可能被删除的应用程序。我们专注于Google App Store，并编译了870,515个应用程序的新数据集，其中56％实际上已从市场中删除。我们提出的方法是多个XGBoost机器学习分类器的引导程序聚合。我们提出了两种模型：使用47个功能以用户为中心，并以37个功能为中心，仅在部署之前可用。我们在测试集的ROC曲线（AUC）下实现以下区域：以用户为中心= 0.792，以开发人员为中心= 0.762。

translated by 谷歌翻译

AI-driven Mobile Apps: an Explorative Study

Yinghua Li , Xueqi Dang , Haoye Tian , Tiezhu Sun , Zhijie Wang , Lei Ma , Jacques Klein , Tegawende F. Bissyande

分类：人工智能

2022-12-03

Recent years have witnessed an astonishing explosion in the evolution of mobile applications powered by AI technologies. The rapid growth of AI frameworks enables the transition of AI technologies to mobile devices, significantly prompting the adoption of AI apps (i.e., apps that integrate AI into their functions) among smartphone devices. In this paper, we conduct the most extensive empirical study on 56,682 published AI apps from three perspectives: dataset characteristics, development issues, and user feedback and privacy. To this end, we build an automated AI app identification tool, AI Discriminator, that detects eligible AI apps from 7,259,232 mobile apps. First, we carry out a dataset analysis, where we explore the AndroZoo large repository to identify AI apps and their core characteristics. Subsequently, we pinpoint key issues in AI app development (e.g., model protection). Finally, we focus on user reviews and user privacy protection. Our paper provides several notable findings. Some essential ones involve revealing the issue of insufficient model protection by presenting the lack of model encryption, and demonstrating the risk of user privacy data being leaked. We published our large-scale AI app datasets to inspire more future research.

translated by 谷歌翻译

Statistical Feature-based Personal Information Detection in Mobile Network Traffic

Shuang Zhao , Shuhui Chen , Ziling Wei

分类：机器学习

2021-12-23

随着智能手机的普及，移动应用程序（应用程序）渗透了人们的日常生活。虽然Apps提供丰富的功能，但它们也同时访问大量的个人信息。因此，提出了隐私问题。要了解应用程序收集的个人信息，提出了许多解决方案以检测应用程序中的隐私泄漏。最近，基于流量监控的隐私泄漏检测方法显示了有希望的性能和强大的可扩展性。但是，它仍然存在一些缺点。首先，它遭受了困扰的泄漏。其次，它无法发现未定义类型的隐私泄漏。旨在解决上述问题，本文提出了一种基于交通监测的新的个人信息检测方法。在本文中，个人信息的统计特征旨在描绘流量中的个人信息的发生模式，包括本地模式和全局模式。然后，基于机器学习算法培训检测器，以发现具有类似模式的潜在个人信息。由于统计特征与个人信息的价值和类型无关，因此训练有素的探测器能够识别各种类型的隐私泄漏和混淆隐私泄漏。据我们所知，这是基于统计特征来检测个人信息的第一项工作。最后，实验结果表明，该方法可以实现比最先进的性能更好。

translated by 谷歌翻译

Machine Learning Application Development: Practitioners' Insights

Md Saidur Rahman , Foutse Khomh , Alaleh Hamidi , Jinghui Cheng , Giuliano Antoniol , Hironori Washizaki

分类：机器学习

2021-12-31

如今，由于最近在人工智能（AI）和机器学习（ML）中的近期突破，因此，智能系统和服务越来越受欢迎。然而，机器学习不仅满足软件工程，不仅具有有希望的潜力，而且还具有一些固有的挑战。尽管最近的一些研究努力，但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外，目前尚不清楚软件工程研究人员应将其努力集中起来，以更好地支持ML应用程序开发人员。在本文中，我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者（以不同的技能，经验和应用领域）获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题，以改善工程过程和基于ML的申请的质量。

translated by 谷歌翻译

Orchestrating Collaborative Cybersecurity: A Secure Framework for Distributed Privacy-Preserving Threat Intelligence Sharing

Juan R. Trocoso-Pastoriza , Alain Mermoud , Romain Bouyé , Francesco Marino , Jean-Philippe Bossuat , Vincent Lenders , Jean-Pierre Hubaux

分类：人工智能

2022-09-06

网络威胁情报（CTI）共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是，由于数据共享和机密性之间的紧张关系，这项活动带来了挑战，这导致信息保留通常会导致自由骑士问题。因此，共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库，但是由于上述张力，这并不总是可行的。这会导致不平衡或不完整的数据集，需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架，用于从分布式数据中提取有关事件，漏洞和妥协指标的分布式数据，并与恶意软件信息共享平台（MISP）一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI，并最大程度地减少暴露或泄漏的风险，同时为共享的好处，更准确和代表性的结果以及更有效的预测性和预防性防御能力。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

A Proposal for Amending Privacy Regulations to Tackle the Challenges Stemming from Combining Data Sets

Gábor Erdélyi , Olivia J. Erdélyi , Andreas W. Kempa-Liehr

分类：人工智能

2021-11-26

现代信息和通信技术实践提出了对隐私的新威胁。我们专注于当前数据保护规范的一些缺点，可以充分解决AI驱动数据处理实践的后果，特别是组合数据集的影响。我们建议隐私监管依赖于个人的隐私预期，并建议在两个方向上建议监管改革：（1）为了引发数据保护法的应用和（2）制定方法优先考虑个人和匿名数据之间的区分基于各个数据处理行动提出的隐私风险水平的监管干预。这是一个跨学科论文，打算在涉及涉及隐私研究的各个社区之间建立一座桥梁。我们特别强调将技术概念与其监管影响联系起来，并介绍了相关的技术和法律术语，以促进政策制定和技术社区之间更有效的协调，并及时解决提出的问题。

translated by 谷歌翻译

Towards a trustworthy, secure and reliable enclave for machine learning in a hospital setting: The Essen Medical Computing Platform (EMCP)

Hendrik F. R. Schmidt , Jörg Schlötterer , Marcel Bargull , Enrico Nasca , Ryan Aydelott , Christin Seifert , Folker Meyer

分类：机器学习

2022-01-13

AI / Compling在Scale是一个难题，特别是在医疗保健环境中。我们概述了要求，规划和实施选择，以及导致我们安全的研究计算平台，埃森医疗计算平台（EMCP）的实施的指导原则，与德国主要医院隶属。遵从性，数据隐私和可用性是系统的不可变的要求。我们将讨论我们的计算飞地的功能，我们将为希望采用类似设置的团体提供我们的配方。

translated by 谷歌翻译

Confidential Machine Learning Computation in Untrusted Environments: A Systems Security Perspective

Kha Dinh Duy , Taehyun Noh , Siwon Huh , Hojoon Lee

分类：机器学习

2021-11-05

由于机器学习（ML）技术和应用正在迅速改变许多计算领域，以及与ML相关的安全问题也在出现。在系统安全领域中，已经进行了许多努力，以确保ML模型和数据机密性。ML计算通常不可避免地在不受信任的环境中执行，并因此需要复杂的多方安全要求。因此，研究人员利用可信任的执行环境（TEES）来构建机密ML计算系统。本文通过在不受信任的环境中分类攻击向量和缓解攻击载体和缓解来进行系统和全面的调查，分析多方ML安全要求，并讨论相关工程挑战。

translated by 谷歌翻译

An Empirical Study of IoT Security Aspects at Sentence-Level in Developer Textual Discussions

Nibir Chandra Mandal , Gias Uddin

分类：机器学习

2022-06-07

物联网是一个快速新兴的范式，现在几乎涵盖了我们现代生活的各个方面。因此，确保物联网设备的安全至关重要。物联网设备与传统计算可能有所不同，从而在物联网设备中设计和实施适当的安全措施可能具有挑战性。我们观察到，物联网开发人员在堆栈溢出（SO）等开发人员论坛中讨论了与安全相关的挑战。但是，我们发现，在SO中，物联网安全讨论也可以埋葬在非安全性讨论中。在本文中，我们旨在了解物联网开发人员在将安全实践和技术应用于IoT设备时面临的挑战。我们有两个目标：（1）开发一个模型，该模型可以自动在SO中找到与安全有关的物联网讨论，并且（2）研究模型输出以了解与IoT开发人员安全相关的挑战。首先，我们从中下载了53k帖子，因此包含有关物联网的讨论。其次，我们手动将53K帖子的5,919个句子标记为1或0。第三，我们使用此基准测试来研究一套深度学习变压器模型。最佳性能模型称为SECBOT。第四，我们将SECBOT应用于整个帖子，并找到大约30K安全性的句子。第五，我们将主题建模应用于与安全有关的句子。然后，我们标记并分类主题。第六，我们分析了主题的演变。我们发现（1）SECBOT是基于深度学习模型Roberta的重建。 SECBOT提供的最佳F1分数为0.935，（2）SECBOT错误分类的样本中有六个错误类别。当关键字/上下文是模棱两可的（例如，网关可以是安全网关或简单网关）时，SECBOT主要是错误的，（3）有9个安全主题分为三个类别：软件，硬件和网络，以及（4）最多的主题属于软件安全性，然后是网络安全。

translated by 谷歌翻译

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter

Nandita Pattnaik , Shujun Li , Jason R. C. Nurse

分类：机器学习

2022-06-05

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.

translated by 谷歌翻译