智能论文笔记

Machine Learning with DBOS

Robert Redmond , Nathan W. Weckwerth , Brian S. Xia , Qian Li , Peter Kraft , Deeptaanshu Kumar , Çağatay Demiralp , Michael Stonebraker

分类：机器学习

2022-08-10

我们最近提出了一个以DBM为中心的新群集操作系统堆栈DBO。DBO通过将ML代码封装在存储过程中，集中辅助ML数据，为基础DBMS内置的安全性，共同关注ML代码和数据以及跟踪数据和工作流源来源，从而为ML应用程序提供了独特的支持。在这里，我们在两个ML应用程序附近演示了这些好处的子集。我们首先表明，使用GPU的图像分类和对象检测模型可以用作DBOS存储程序，具有与现有系统竞争性能的DBOS存储程序。然后，我们提出了一项1D CNN，训练有素，可以在DBOS支持的Web服务上检测HTTP请求中的异常情况，从而实现SOTA结果。我们使用此模型来开发交互式异常检测系统，并通过定性用户反馈对其进行评估，并证明了其有用性作为未来工作的概念证明，以在DBO上开发实时的实时安全服务。

translated by 谷歌翻译

Globus Automation Services: Research process automation across the space-time continuum

Ryan Chard , Jim Pruyne , Kurt McKee , Josh Bryan , Brigitte Raumann , Rachana Ananthakrishnan , Kyle Chard , Ian Foster

分类：人工智能

2022-08-19

研究过程自动化 - 对科学仪器，计算机，数据存储和其他资源的可靠，高效和可重复执行的可靠，高效和可重复执行，这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务，该服务可以将各种研究过程的规范作为可重复使用的动作集，流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围（例如，从科学仪器到远程数据中心）和时间范围（从几秒钟到几周），这些Globus自动化服务功能：1）云托管以可靠地执行长期持久的流量，尽管零星的失败，但这些Globus自动化服务功能：1） ; 2）声明性符号和可扩展的异步行动提供商API，用于定义和执行涉及任意资源的各种行动和流动规范； 3）授权授权机制，用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠，可扩展和安全的云平台。我们向Globus自动化服务提供用例

translated by 谷歌翻译

Edge Security: Challenges and Issues

Xin Jin , Charalampos Katsis , Fan Sang , Jiahao Sun , Ashish Kundu , Ramana Kompella

分类：人工智能

2022-06-14

边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应，但除其他好处外，它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后，我们认为需要一种整体方法来分析边缘网络安全姿势，该姿势必须考虑每一层的知识。

translated by 谷歌翻译

Survey of Machine Learning Based Intrusion Detection Methods for Internet of Medical Things

Ayoub Si-Ahmed , Mohammed Ali Al-Garadi , Narhimene Boustia

分类：机器学习

2022-02-19

医学事物互联网（IOMT）允许使用传感器收集生理数据，然后将其传输到远程服务器，这使医生和卫生专业人员可以连续，永久地分析这些数据，并在早期阶段检测疾病。但是，使用无线通信传输数据将其暴露于网络攻击中，并且该数据的敏感和私人性质可能代表了攻击者的主要兴趣。在存储和计算能力有限的设备上使用传统的安全方法无效。另一方面，使用机器学习进行入侵检测可以对IOMT系统的要求提供适应性的安全响应。在这种情况下，对基于机器学习（ML）的入侵检测系统如何解决IOMT系统中的安全性和隐私问题的全面调查。为此，提供了IOMT的通用三层体系结构以及IOMT系统的安全要求。然后，出现了可能影响IOMT安全性的各种威胁，并确定基于ML的每个解决方案中使用的优势，缺点，方法和数据集。最后，讨论了在IOMT的每一层中应用ML的一些挑战和局限性，这些挑战和局限性可以用作未来的研究方向。

translated by 谷歌翻译

Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions

Hammond Pearce , Baleegh Ahmad , Benjamin Tan , Brendan Dolan-Gavitt , Ramesh Karri

分类：人工智能

2021-08-20

在设计基于AI的系统中，有蓬勃发展的兴趣，以帮助人类设计计算系统，包括自动生成计算机代码的工具。这些最值得注意的是，以第一个自我描述的“Ai对程序员”，GitHub Copilot，一种在开源GitHub代码上培训的语言模型。但是，代码通常包含错误 - 因此，鉴于Copilot处理的大量未曝避代码，肯定是语言模型将从可利用的错误代码中学到。这提出了对Copilot代码捐助的安全的担忧。在这项工作中，我们系统地调查了可能导致Github CopIlot推荐不安全代码的普遍存在和条件。为了执行此分析，我们提示CopIlot在与高风险CWE相关的方案中生成代码（例如，从吉利的“前25名”列表中的方案）。我们探索了三个不同代码生成轴上的Copilot的表现 - 检查它如何表现为特定的弱点多样性，提示的多样性以及域的多样性。总共生产89个不同的Copilot方案，以完成，生产1,689个计划。其中，我们发现大约40％的脆弱。

translated by 谷歌翻译

Amazon SageMaker Model Monitor: A System for Real-Time Insights into Deployed Machine Learning Models

David Nigenda , Zohar Karnin , Muhammad Bilal Zafar , Raghu Ramesha , Alan Tan , Michele Donini , Krishnaram Kenthapadi

分类：机器学习 | 人工智能 | (统计)机器学习

2021-11-26

随着机器学习（ML）模型和系统在不同行业的高赌注环境中的增加，保证了部署后的模型的性能变得至关重要。生产中的监测模型是确保其持续性能和可靠性的关键方面。我们展示了Amazon Sagemaker Model Monitor，这是一个完全托管的服务，不断监控亚马逊Sagemaker上托管的机器学习模型的质量。我们的系统实时地自动检测模型中的数据，概念，偏置和特征归因漂移，并提供警报，以便模型所有者可以采取纠正措施，从而保持高质量模型。我们描述了从客户，系统设计和架构获得的关键要求以及用于检测不同类型漂移的方法。此外，我们提供量化评估，然后使用案例，见解和从超过1.5年的生产部署中汲取的经验教训。

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

Deep Learning-Driven Edge Video Analytics: A Survey

Renjie Xu , Saiedeh Razavi , Rong Zheng

分类：计算机视觉 | 机器学习

2022-11-28

Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.

translated by 谷歌翻译

Large-Scale Intelligent Microservices

Mark Hamilton , Nick Gonsalves , Christina Lee , Anand Raman , Brendan Walsh , Siddhartha Prasad , Dalitso Banda , Lucy Zhang , Mei Gao , Lei Zhang

分类：人工智能 | 机器学习

2020-09-17

数据库中的部署机学习（ML）算法是由于现代ML算法的不同计算脚印和多数数据库技术的挑战，每个数据库技术都具有自己的限制性语法。我们介绍了一个基于Apache Spark的微服务编排框架，其扩展了数据库操作以包含Web服务基元。我们的系统可以协调数百台机器的Web服务，并充分利用群集，线程和异步并行性。使用此框架，我们为智能服务提供大规模客户端，如语音，视觉，搜索，异常检测和文本分析。这允许用户将随意使用的智能集成到具有Apache Spark连接器的任何数据存储器中。为了消除网络通信的大多数开销，我们还引入了我们架构的低延迟集装箱版本。最后，我们证明我们调查的服务在各种基准上具有竞争力，并在此框架中展示了两个应用程序来创建智能搜索引擎和实时自动竞赛分析系统。

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

Orchestrating Collaborative Cybersecurity: A Secure Framework for Distributed Privacy-Preserving Threat Intelligence Sharing

Juan R. Trocoso-Pastoriza , Alain Mermoud , Romain Bouyé , Francesco Marino , Jean-Philippe Bossuat , Vincent Lenders , Jean-Pierre Hubaux

分类：人工智能

2022-09-06

网络威胁情报（CTI）共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是，由于数据共享和机密性之间的紧张关系，这项活动带来了挑战，这导致信息保留通常会导致自由骑士问题。因此，共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库，但是由于上述张力，这并不总是可行的。这会导致不平衡或不完整的数据集，需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架，用于从分布式数据中提取有关事件，漏洞和妥协指标的分布式数据，并与恶意软件信息共享平台（MISP）一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI，并最大程度地减少暴露或泄漏的风险，同时为共享的好处，更准确和代表性的结果以及更有效的预测性和预防性防御能力。

translated by 谷歌翻译

Confidential Machine Learning Computation in Untrusted Environments: A Systems Security Perspective

Kha Dinh Duy , Taehyun Noh , Siwon Huh , Hojoon Lee

分类：机器学习

2021-11-05

由于机器学习（ML）技术和应用正在迅速改变许多计算领域，以及与ML相关的安全问题也在出现。在系统安全领域中，已经进行了许多努力，以确保ML模型和数据机密性。ML计算通常不可避免地在不受信任的环境中执行，并因此需要复杂的多方安全要求。因此，研究人员利用可信任的执行环境（TEES）来构建机密ML计算系统。本文通过在不受信任的环境中分类攻击向量和缓解攻击载体和缓解来进行系统和全面的调查，分析多方ML安全要求，并讨论相关工程挑战。

translated by 谷歌翻译

PhishMatch: A Layered Approach for Effective Detection of Phishing URLs

Harshal Tupsamudre , Sparsh Jain , Sachin Lodha

分类：机器学习

2021-12-04

网络钓鱼袭击在互联网上继续成为一个重大威胁。先前的研究表明，可以确定网站是否是网络钓鱼，也可以更仔细地分析其URL。基于URL的方法的一个主要优点是它即使在浏览器中呈现网页之前，它也可以识别网络钓鱼网站，从而避免了其他潜在问题，例如加密和驾驶下载。但是，传统的基于URL的方法有它们的局限性。基于黑名单的方法容易出现零小时网络钓鱼攻击，基于先进的机器学习方法消耗高资源，而其他方法将URL发送到远程服务器，损害用户的隐私。在本文中，我们提出了一个分层的防护防御，PhishMatch，这是强大，准确，廉价和客户端的。我们设计一种节省空间高效的AHO-Corasick算法，用于精确串联匹配和基于N-GRAM的索引技术，用于匹配的近似字符串，以检测网络钓鱼URL中的各种弧度标准技术。为了减少误报，我们使用全球白名单和个性化用户白名单。我们还确定访问URL的上下文并使用该信息更准确地对输入URL进行分类。 PhishMatch的最后一个组成部分涉及机器学习模型和受控搜索引擎查询以对URL进行分类。发现针对Chrome浏览器开发的PhishMatch的原型插件，是快速轻便的。我们的评价表明，PhishMatch既有效又有效。

translated by 谷歌翻译

SoK: Machine Learning with Confidential Computing

Fan Mo , Zahra Tarkhani , Hamed Haddadi

分类：机器学习

2022-08-22

机器学习中的隐私和安全挑战（ML）已成为ML普遍的开发以及最近对大型攻击表面的展示，已成为一个关键的话题。作为一种成熟的以系统为导向的方法，在学术界和行业中越来越多地使用机密计算来改善各种ML场景的隐私和安全性。在本文中，我们将基于机密计算辅助的ML安全性和隐私技术的发现系统化，以提供i）保密保证和ii）完整性保证。我们进一步确定了关键挑战，并提供有关ML用例现有可信赖的执行环境（TEE）系统中限制的专门分析。我们讨论了潜在的工作，包括基础隐私定义，分区的ML执行，针对ML的专用发球台设计，TEE Awawe Aware ML和ML Full Pipeline保证。这些潜在的解决方案可以帮助实现强大的TEE ML，以保证无需引入计算和系统成本。

translated by 谷歌翻译

Artificial Intelligence for Cybersecurity: Threats, Attacks and Mitigation

Abhilash Chakraborty , Anupam Biswas , Ajoy Kumar Khan

分类：人工智能 | 神经与进化计算

2022-09-27

随着数字时代的出现，由于技术进步，每天的任务都是自动化的。但是，技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备，确保连接设备的问题以均匀的螺旋速率增长。数据盗窃，身份盗窃，欺诈交易，密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化，而且可以提高效率。因此，很明显，如此美味的传播对网络犯罪分子来说是非常开胃的。因此，传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁，以及传统和智能的防御方式，以防止网络攻击。最终，结束讨论，以潜在的潜在前景结束讨论AI网络安全。

translated by 谷歌翻译

Machine Learning Sensors

Pete Warden , Matthew Stewart , Brian Plancher , Colby Banbury , Shvetank Prakash , Emma Chen , Zain Asgar , Sachin Katti , Vijay Janapa Reddi

分类：机器学习

2022-06-07

机器学习传感器代表了嵌入式机器学习应用程序未来的范式转移。当前的嵌入式机器学习（ML）实例化遭受了复杂的整合，缺乏模块化以及数据流动的隐私和安全问题。本文提出了一个以数据为中心的范式，用于将传感器智能嵌入边缘设备上，以应对这些挑战。我们对“传感器2.0”的愿景需要将传感器输入数据和ML处理从硬件级别隔离到更广泛的系统，并提供一个薄的界面，以模拟传统传感器的功能。这种分离导致模块化且易于使用的ML传感器设备。我们讨论了将ML处理构建到嵌入式系统上控制微处理器的软件堆栈中的标准方法所带来的挑战，以及ML传感器的模块化如何减轻这些问题。 ML传感器提高了隐私和准确性，同时使系统构建者更容易将ML集成到其产品中，以简单的组件。我们提供了预期的ML传感器和说明性数据表的例子，以表现出来，并希望这将建立对话使我们朝着传感器2.0迈进。

translated by 谷歌翻译

FedLess: Secure and Scalable Federated Learning Using Serverless Computing

Andreas Grafberger , Mohak Chadha , Anshul Jindal , Jianfeng Gu , Michael Gerndt

分类：机器学习

2021-11-05

传统的深度学习方法（DL）需要在中央服务器上收集和处理的培训数据，这些中央服务器通常在保健等隐私敏感域中挑战。为此，提出了一种新的学习范式，称为联合学习（FL），在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而，传统的FL系统面临多种挑战，例如可扩展性，复杂的基础设施管理，并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service（FAAS）平台旨在解决的核心问题密切对齐。这些包括快速可扩展性，无基础设施管理，自动缩放为空闲客户端，以及每次使用付费计费模型。为此，我们为无服务器FL展示了一个新颖的系统和框架，称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商，可以在机构数据中心和边缘设备上部署在云端，内部部署。据我们所知，我们是第一个能够在一大面料的异构FAAS提供商中启用FL，同时提供安全性和差异隐私等重要功能。我们展示了全面的实验，即使用我们的系统可以成功地培训多达200个客户功能的不同任务，更容易实现。此外，我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性，并表明它可以更便宜，更资源效率更便宜。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

Machine Learning Application Development: Practitioners' Insights

Md Saidur Rahman , Foutse Khomh , Alaleh Hamidi , Jinghui Cheng , Giuliano Antoniol , Hironori Washizaki

分类：机器学习

2021-12-31

如今，由于最近在人工智能（AI）和机器学习（ML）中的近期突破，因此，智能系统和服务越来越受欢迎。然而，机器学习不仅满足软件工程，不仅具有有希望的潜力，而且还具有一些固有的挑战。尽管最近的一些研究努力，但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外，目前尚不清楚软件工程研究人员应将其努力集中起来，以更好地支持ML应用程序开发人员。在本文中，我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者（以不同的技能，经验和应用领域）获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题，以改善工程过程和基于ML的申请的质量。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译