数据库中的部署机学习(ML)算法是由于现代ML算法的不同计算脚印和多数数据库技术的挑战,每个数据库技术都具有自己的限制性语法。我们介绍了一个基于Apache Spark的微服务编排框架,其扩展了数据库操作以包含Web服务基元。我们的系统可以协调数百台机器的Web服务,并充分利用群集,线程和异步并行性。使用此框架,我们为智能服务提供大规模客户端,如语音,视觉,搜索,异常检测和文本分析。这允许用户将随意使用的智能集成到具有Apache Spark连接器的任何数据存储器中。为了消除网络通信的大多数开销,我们还引入了我们架构的低延迟集装箱版本。最后,我们证明我们调查的服务在各种基准上具有竞争力,并在此框架中展示了两个应用程序来创建智能搜索引擎和实时自动竞赛分析系统。
translated by 谷歌翻译
研究过程自动化 - 对科学仪器,计算机,数据存储和其他资源的可靠,高效和可重复执行的可靠,高效和可重复执行,这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务,该服务可以将各种研究过程的规范作为可重复使用的动作集,流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围(例如,从科学仪器到远程数据中心)和时间范围(从几秒钟到几周),这些Globus自动化服务功能:1)云托管以可靠地执行长期持久的流量,尽管零星的失败,但这些Globus自动化服务功能:1) ; 2)声明性符号和可扩展的异步行动提供商API,用于定义和执行涉及任意资源的各种行动和流动规范; 3)授权授权机制,用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠,可扩展和安全的云平台。我们向Globus自动化服务提供用例
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
我们最近提出了一个以DBM为中心的新群集操作系统堆栈DBO。DBO通过将ML代码封装在存储过程中,集中辅助ML数据,为基础DBMS内置的安全性,共同关注ML代码和数据以及跟踪数据和工作流源来源,从而为ML应用程序提供了独特的支持。在这里,我们在两个ML应用程序附近演示了这些好处的子集。我们首先表明,使用GPU的图像分类和对象检测模型可以用作DBOS存储程序,具有与现有系统竞争性能的DBOS存储程序。然后,我们提出了一项1D CNN,训练有素,可以在DBOS支持的Web服务上检测HTTP请求中的异常情况,从而实现SOTA结果。我们使用此模型来开发交互式异常检测系统,并通过定性用户反馈对其进行评估,并证明了其有用性作为未来工作的概念证明,以在DBO上开发实时的实时安全服务。
translated by 谷歌翻译
机器学习传感器代表了嵌入式机器学习应用程序未来的范式转移。当前的嵌入式机器学习(ML)实例化遭受了复杂的整合,缺乏模块化以及数据流动的隐私和安全问题。本文提出了一个以数据为中心的范式,用于将传感器智能嵌入边缘设备上,以应对这些挑战。我们对“传感器2.0”的愿景需要将传感器输入数据和ML处理从硬件级别隔离到更广泛的系统,并提供一个薄的界面,以模拟传统传感器的功能。这种分离导致模块化且易于使用的ML传感器设备。我们讨论了将ML处理构建到嵌入式系统上控制微处理器的软件堆栈中的标准方法所带来的挑战,以及ML传感器的模块化如何减轻这些问题。 ML传感器提高了隐私和准确性,同时使系统构建者更容易将ML集成到其产品中,以简单的组件。我们提供了预期的ML传感器和说明性数据表的例子,以表现出来,并希望这将建立对话使我们朝着传感器2.0迈进。
translated by 谷歌翻译
智慧城市利益的最新全球增长导致了数万亿美元用于研发的投资。这些连接的城市有可能建立技术和社会的共生,并在全球范围内彻底改变社会的生活,安全,生态可持续性和生活质量。智能城市结构的一些关键组成部分是连接的智能电网,自动驾驶汽车,联合学习系统,智能公用事业,大规模的公共交通和积极的监视系统。尽管前景令人兴奋,但如果不解决这种高度自动化和数据共享的潜在社会影响,这些技术及其后续集成就无法尝试。此外,协调如此多的不同任务的可行性将需要一个快速,可扩展,统一的框架。为此,我们提出了Faro2,这是一个完全重新构想的Faro1的继任者,它是从头开始建造的。 FARO2提供了与其前身相同的功能,它充当统一的生物识别API线束,可为异构生物识别软件提供无缝评估,部署和简单的管道创建。 FARO2还提供了完全声明的功能来定义和协调自定义机器学习和传感器管道,从而使过程在原本不兼容的硬件和网络中分布。 Faro2最终提供了一种方法,可以在线快速配置,热门塑料和扩展大型协调或联合系统,而不会中断维护。由于在智能城市中收集的许多数据都包含个人识别信息(PII),因此FARO2还提供内置工具和层,以确保跨分布式系统跨系统的安全和加密的流媒体,存储和访问PII数据。
translated by 谷歌翻译
上下文:大数据的有效处理是SQL和NOSQL数据库的一项具有挑战性的任务,在这种数据库中,有效的软件体系结构起着至关重要的作用。 SQL数据库设计用于构建数据和支持垂直可扩展性。相反,水平可伸缩性由NOSQL数据库支持,并且可以有效地处理较大的非结构化数据。可以根据组织的需求选择正确的范式;但是,做出正确的选择通常可能具有挑战性。 SQL和NOSQL数据库遵循不同的体系结构。同样,混合模型之后是NOSQL数据库的每个类别。因此,对于多个云服务提供商(CSP)的云消费者来说,数据移动变得困难。此外,每个云平台IAAS,PAAS,SaaS和DBAAS还监视各种范式。目的:该系统文献综述(SLR)旨在研究与SQL和NOSQL数据库软件体系结构相关的相关文章,并解决各种云平台之间的数据可移植性和互操作性。最新的状态通过观察缩放,性能,可用性,一致性和分片特性,介绍了SQL和NOSQL数据库的许多性能比较研究。根据研究研究,NOSQL数据库设计的结构可以是大数据分析的正确选择,而SQL数据库适合OLTP数据库。研究人员提出了许多与云中数据流动相关的方法。开发了基于平台的API,这使用户的数据移动变得困难。因此,在跨多个CSP的数据移动期间发现了数据可移植性和互操作性问题。为了最大程度地减少开发人员的努力和互操作性,要求统一的API使数据移动在各种云平台之间相对易于访问。
translated by 谷歌翻译
边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应,但除其他好处外,它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后,我们认为需要一种整体方法来分析边缘网络安全姿势,该姿势必须考虑每一层的知识。
translated by 谷歌翻译
TensorFlow is a machine learning system that operates at large scale and in heterogeneous environments. Tensor-Flow uses dataflow graphs to represent computation, shared state, and the operations that mutate that state. It maps the nodes of a dataflow graph across many machines in a cluster, and within a machine across multiple computational devices, including multicore CPUs, generalpurpose GPUs, and custom-designed ASICs known as Tensor Processing Units (TPUs). This architecture gives flexibility to the application developer: whereas in previous "parameter server" designs the management of shared state is built into the system, TensorFlow enables developers to experiment with novel optimizations and training algorithms. TensorFlow supports a variety of applications, with a focus on training and inference on deep neural networks. Several Google services use TensorFlow in production, we have released it as an open-source project, and it has become widely used for machine learning research. In this paper, we describe the TensorFlow dataflow model and demonstrate the compelling performance that Tensor-Flow achieves for several real-world applications.
translated by 谷歌翻译
传统的数据湖泊通过启用时间旅行,运行SQL查询,使用酸性交易摄入数据以及可视化PBABYTE尺度数据集在云存储中,为分析工作负载提供了关键的数据基础架构。它们使组织能够分解数据孤岛,解锁数据驱动的决策,提高运营效率并降低成本。但是,随着深度学习接管常见的分析工作流程,传统数据湖泊对诸如自然语言处理(NLP),音频处理,计算机视觉和涉及非尾巴数据集的应用程序的有用程度降低。本文介绍了Deep Lake,这是一个开源湖泊,用于在Activeloop开发的深度学习应用程序。 Deep Lake保持了一项关键区别的香草数据湖的好处:它以张量的形式存储复杂数据,例如图像,视频,注释以及表格数据,并将数据迅速流式传输到网络上(a )张量查询语言,(b)浏览器可视化引擎或(c)不牺牲GPU利用率的深度学习框架。可以从Pytorch,Tensorflow,Jax,与许多MLOPS工具集成在一起的数据集。
translated by 谷歌翻译
In the Metaverse, the physical space and the virtual space co-exist, and interact simultaneously. While the physical space is virtually enhanced with information, the virtual space is continuously refreshed with real-time, real-world information. To allow users to process and manipulate information seamlessly between the real and digital spaces, novel technologies must be developed. These include smart interfaces, new augmented realities, efficient storage and data management and dissemination techniques. In this paper, we first discuss some promising co-space applications. These applications offer opportunities that neither of the spaces can realize on its own. We then discuss challenges. Finally, we discuss and envision what are likely to be required from the database and system perspectives.
translated by 谷歌翻译
模型用于软件工程(SE)和人工智能(AI)。 SE模型可以在不同抽象层次的架构中指定架构,并从早期概念化和设计,从软件开发生命周期的各个阶段解决不同的问题,以验证,实施,测试和演化。然而,AI模型可以提供智能能力,例如预测和决策支持。例如,在机器学习(ml)中,这是目前是AI的最受欢迎的子学科,数学模型可能会在观察到的数据中学习有用的模式,并且可以成为能够进行预测。这项工作的目标是通过将在所述社区的模型聚集在一起并提出一种需要ML的智能系统的模型驱动软件开发的整体方法来创建协同作用。我们说明了软件模型如何能够以无缝方式创建和处理ML模型。主要焦点位于事物互联网(物联网)的领域,其中ML和模型驱动的SE都发挥着关键作用。在需要采取有针对性架构的网络物理系统的系统视角下,SE和ML子系统的集成设计环境将最能支持所得系统实现的优化和整体效率。特别是,我们实现了基于INTOMML的CL-Quadrat的所提出的方法,并使用来自物联网域的案例研究以及经验用户评估来验证它。它归还所提出的方法不仅是可行的,而且还可能有助于与IOT连接的智能网络物理系统(CPS)的软件开发的性能飞跃,以及增强的使用者的用户体验建议的建模解决方案。
translated by 谷歌翻译
Vizier是Google的DeCACTO BlackBox和Hyper参数优化服务,它优化了Google一些最大的产品和研究工作。为了按照调整数千个用户的关键系统的规模运行,Google Vizier在提供多个不同的功能方面解决了关键的设计挑战,同时保持完全容忍。在本文中,我们介绍了基于Google内部Vizier基础架构和框架的基于Python的独立界面开源(OSS)Vizier。 OSS Vizier提供了一个能够定义和解决各种优化问题的API,包括多样性,早期停止,转移学习和条件搜索。此外,它被设计为可确保可靠性的分布式系统,并允许对用户的目标函数进行多次平行评估。基于RPC的灵活基础架构使用户可以从任何语言编写的二进制文件中访问OSS Vizier。 OSS Vizier还提供了一个后端(“ Pythia”)API,该API为算法作者提供了一种与Core OSS Vizier系统接口新算法的方法。 OSS Vizier可从https://github.com/google/vizier获得。
translated by 谷歌翻译
传统的深度学习方法(DL)需要在中央服务器上收集和处理的培训数据,这些中央服务器通常在保健等隐私敏感域中挑战。为此,提出了一种新的学习范式,称为联合学习(FL),在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而,传统的FL系统面临多种挑战,例如可扩展性,复杂的基础设施管理,并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service(FAAS)平台旨在解决的核心问题密切对齐。这些包括快速可扩展性,无基础设施管理,自动缩放为空闲客户端,以及每次使用付费计费模型。为此,我们为无服务器FL展示了一个新颖的系统和框架,称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商,可以在机构数据中心和边缘设备上部署在云端,内部部署。据我们所知,我们是第一个能够在一大面料的异构FAAS提供商中启用FL,同时提供安全性和差异隐私等重要功能。我们展示了全面的实验,即使用我们的系统可以成功地培训多达200个客户功能的不同任务,更容易实现。此外,我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性,并表明它可以更便宜,更资源效率更便宜。
translated by 谷歌翻译
In recent years, the exponential proliferation of smart devices with their intelligent applications poses severe challenges on conventional cellular networks. Such challenges can be potentially overcome by integrating communication, computing, caching, and control (i4C) technologies. In this survey, we first give a snapshot of different aspects of the i4C, comprising background, motivation, leading technological enablers, potential applications, and use cases. Next, we describe different models of communication, computing, caching, and control (4C) to lay the foundation of the integration approach. We review current state-of-the-art research efforts related to the i4C, focusing on recent trends of both conventional and artificial intelligence (AI)-based integration approaches. We also highlight the need for intelligence in resources integration. Then, we discuss integration of sensing and communication (ISAC) and classify the integration approaches into various classes. Finally, we propose open challenges and present future research directions for beyond 5G networks, such as 6G.
translated by 谷歌翻译
现代深度学习应用程序需要越来越多地计算培训最先进的模型。为了解决这一需求,大型企业和机构使用专用的高性能计算集群,其建筑和维护既昂贵又远远超出大多数组织的预算。结果,一些研究方向成为几个大型工业甚至更少的学术作用者的独家领域。为了减轻这种差异,较小的团体可以汇集他们的计算资源并运行有利于所有参与者的协作实验。这种范式称为网格或志愿者计算,在众多科学领域看到了成功的应用。然而,由于高延迟,不对称带宽以及志愿者计算独特的几个挑战,使用这种用于机器学习的方法是困难的。在这项工作中,我们仔细分析了这些约束,并提出了一种专门用于协作培训的新型算法框架。我们展示了我们在现实条件下的SWAV和Albert预先预价的方法的有效性,并在成本的一小部分中实现了与传统设置相当的性能。最后,我们提供了一份成功的协作语言模型预先追溯的详细报告,有40名参与者。
translated by 谷歌翻译
本文介绍了CAIR的设计和实施:为社会机器人和其他对话代理而设计的基于知识的自主互动的云系统。该系统对于低成本机器人和设备特别方便。为开发人员提供了一种可持续的解决方案,可以通过网络连接来管理口头和非语言互动,约有3,000个对话主题可以进行“闲聊”,并提供了一个预先煮熟的计划库,只需要将其接地到机器人的库中物理能力。该系统的结构为一组REST API端点,因此可以通过添加新的API来轻松扩展它,以提高连接到云的客户端的功能。该系统的另一个关键功能是它旨在使客户的开发变得直接:这样,可以轻松地赋予多个设备与用户自主交互的能力,了解何时执行特定的操作并利用云服务提供的所有信息。文章概述并讨论了为评估系统响应时间的性能而执行的实验结果,为研究和市场解决方案铺平了道路。提供了与ROS的客户的存储库的链接,并提供了诸如Pepper和Nao之类的流行机器人的链接。
translated by 谷歌翻译
机器学习中的隐私和安全挑战(ML)已成为ML普遍的开发以及最近对大型攻击表面的展示,已成为一个关键的话题。作为一种成熟的以系统为导向的方法,在学术界和行业中越来越多地使用机密计算来改善各种ML场景的隐私和安全性。在本文中,我们将基于机密计算辅助的ML安全性和隐私技术的发现系统化,以提供i)保密保证和ii)完整性保证。我们进一步确定了关键挑战,并提供有关ML用例现有可信赖的执行环境(TEE)系统中限制的专门分析。我们讨论了潜在的工作,包括基础隐私定义,分区的ML执行,针对ML的专用发球台设计,TEE Awawe Aware ML和ML Full Pipeline保证。这些潜在的解决方案可以帮助实现强大的TEE ML,以保证无需引入计算和系统成本。
translated by 谷歌翻译
Healthcare Ai持有增加患者安全性,增强效率和改善患者结果的潜力,但研究通常受到数据访问,队列策划和分析工具的限制。电子健康记录数据,实时数据和实时高分辨率设备数据的集合和翻译可能是具有挑战性和耗时的。现实世界AI工具的发展需要克服数据采集,稀缺医院资源和数据治疗需求的挑战。这些瓶颈可能导致资源沉重的需求和AI系统的研究和开发延迟。我们提供了一种系统和方法,可加速数据采集,数据集开发和分析和AI模型开发。我们创建了一个依赖于可扩展的微服务后端的交互式平台。该系统可以每小时摄取15,000名患者记录,其中每个记录代表数千个多式数级测量,文本备注和高分辨率数据。统称,这些记录可以接近数据的数据。该系统可以在2-5分钟内进一步执行队列和初步数据集分析。因此,多个用户可以在实时同时协作以迭代数据集和模型。我们预计这种方法将推动现实世界的AI模型开发,并且在长期运行中,有意义地改善医疗保健交付。
translated by 谷歌翻译
招聘人员可以通过查看课程简体文档来轻松地为工作候选人提供候选人。非结构化文件CV看到候选人组合和名为实体列表详细信息。本研究的主要目的是设计和提出面向Web的高度响应性计算管道,可以使用分层精制标签注意网络系统地预测CV实体。
translated by 谷歌翻译