New architecture GPUs like A100 are now equipped with multi-instance GPU (MIG) technology, which allows the GPU to be partitioned into multiple small, isolated instances. This technology provides more flexibility for users to support both deep learning training and inference workloads, but efficiently utilizing it can still be challenging. The vision of this paper is to provide a more comprehensive and practical benchmark study for MIG in order to eliminate the need for tedious manual benchmarking and tuning efforts. To achieve this vision, the paper presents MIGPerf, an open-source tool that streamlines the benchmark study for MIG. Using MIGPerf, the authors conduct a series of experiments, including deep learning training and inference characterization on MIG, GPU sharing characterization, and framework compatibility with MIG. The results of these experiments provide new insights and guidance for users to effectively employ MIG, and lay the foundation for further research on the orchestration of hybrid training and inference workloads on MIGs. The code and results are released on https://github.com/MLSysOps/MIGProfiler. This work is still in progress and more results will be published soon.
translated by 谷歌翻译
深度学习(DL)模型在许多应用领域中取得了卓越的性能,包括愿景,语言,医疗,商业广告,娱乐等。随着快速的发展,DL应用和潜在的服务硬件都表现出强大的缩放趋势,即例如,模型缩放和计算缩放,例如,最近的预先训练模型,具有数百亿次参数,具有〜TB级存储器消耗,以及提供数百个TFLOPS的最新GPU加速器。在扩大趋势,新的问题和挑战中出现了DL推理服务系统,这逐渐朝着大型深度学习服务系统(LDS)趋势。该调查旨在总结和分类大规模深度学习服务系统的新兴挑战和优化机会。通过提供新的分类法,总结计算范例,并详细说明最近的技术进步,我们希望这项调查能够在新的优化视角下阐明,并激励小说在大型深度学习系统优化中的作品。
translated by 谷歌翻译
深度学习培训是一个昂贵的过程,可广泛使用GPU,但并非所有模型训练都饱和现代强大的GPU。 Multi-Instance GPU(MIG)是NVIDIA引入的一项新技术,可以分区GPU,以更好地适合不需要所有内存和计算完整GPU的资源的工作负载。在本文中,我们研究了在深度学习工作负载下的三种尺寸工作负载下的MIG启用A100 GPU的性能,这些尺寸重点是使用Resnet模型进行图像识别培训。当在GPU允许的各种MIG实例上孤立运行时,我们还研究了这些工作负载的行为,此外还可以在同一GPU共同列入同类的同质实例上并行运行它们。我们的结果表明,当工作负载太小而无法孤立地利用整个GPU时,使用MIG可以显着改善GPU的利用率。通过并行训练多个小型型号,尽管每单位时间的时间增加了,但每单位时间的GPU可以执行更多的工作,导致$ \ sim $ \ sim $ 3倍吞吐量。相比之下,对于已经很好地利用了整个GPU的中型和大型工作量,MIG仅提供边际性能的改进。然而,我们观察到,使用单独的MIG分区并行的训练模型不会表现出强调具有MIG在现代GPU上具有功能的价值的干扰。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
当今AI应用程序的成功不仅需要模型培训(以模型为中心),还需要数据工程(以数据为中心)。在以数据为中心的AI中,主动学习(AL)起着至关重要的作用,但是当前的AL工具无法有效执行AL任务。为此,本文介绍了一个有效的MLOPS系统,该系统名为Alaas(主动学习-AS-A-Service)。具体而言,ALAAS采用服务器客户架构来支持AL管道并实现阶段级并行性以提高效率。同时,使用缓存和批处理技术进一步加速了AL过程。除效率外,ALAAS还可以借助于配置的设计理念,以确保可访问性。它还将AL过程抽象到多个组件,并为高级用户提供丰富的API,以将系统扩展到新方案。广泛的实验表明,在潜伏期和吞吐量方面,ALAAS优于所有其他基线。进一步的消融研究证明了我们的设计和Alaas易于使用的有效性。我们的代码可在\ url {https://github.com/mlsysops/alaas}中获得。
translated by 谷歌翻译
需要在最终用户设备(例如智能手机)上训练DNN模型的需求,而随着需要改善数据隐私并减少通信开销的需求。与具有功能强大CPU和GPU的数据中心服务器不同,现代智能手机由多种专门内核组成,遵循系统启动(SOC)架构,共同执行各种任务。我们观察到,在智能手机SOC上的培训DNN不仔细考虑其资源限制不仅会导致次优培训表现,而且还会显着影响用户体验。在本文中,我们展示了天鹅,这是一种神经引擎,可在不损害用户体验的情况下优化智能手机SOC的DNN培训。广泛的大规模评估表明,天鹅可以在最先进的情况下提高1.2-23.3倍的表现。
translated by 谷歌翻译
基于深度学习的(DL)申请越来越受欢迎,并以前所未有的步伐推动。虽然正在进行许多研究工作以增强深度神经网络(DNN) - DL应用的核心 - 云和边缘系统中这些应用的实际部署挑战,它们对应用程序的可用性的影响并未充分调查。特别是,部署不同虚拟化平台的影响由云和边缘提供的DL应用程序的可用性(在端到端(E2E)推理时间)仍然是一个打开的问题。重要的是,资源弹性(通过放大),CPU固定和处理器类型(CPU VS GPU)配置已经显示在虚拟化开销上有影响力。因此,本研究的目标是研究这些潜在决定的部署选项对E2E性能的影响,从而实现了DL应用程序的可用性。为此,我们在改变处理器配置时,我们测量四种流行的执行平台(即,裸机,虚拟机(VM),容器和容器中的裸机,虚拟机(VM),容器和容器)的影响(扩展,CPU固定)和处理器类型。本研究揭示了一系列有趣的,有时是反向直观的发现,可以用作云解决方案架构师的最佳实践,以便在各种系统中有效地部署DL应用程序。值得注意的发现是,解决方案架构师必须了解DL应用特征,特别是它们的预处理和后处理要求,能够最佳选择和配置执行平台,确定使用GPU,并决定有效扩展范围。
translated by 谷歌翻译
负责将数据从存储转移到GPU的同时,在培训机器学习模型的同时,数据加载器可能会大大提高培训工作的绩效。最近的进步不仅通过大大减少训练时间,而且还提供了新功能,例如从远程存储(如S3)加载数据,这表明了希望。在本文中,我们是第一个将数据加载器区分为深度学习(DL)工作流程中的单独组件并概述其结构和功能的组件。最后,我们提供了可用的不同数据库,其功能,可用性和性能方面的权衡以及从中获得的见解的全面比较。
translated by 谷歌翻译
随着社会越来越多的机器学习(ML)和深度学习(DL)进行各种智能解决方案,它将在普通开发实践和资源下规范ML / DL型号的ML / DL型号的常见措施变得越来越迫切。人们可以在共同的地面上基准和比较模型质量和性能。 MLCommons最近出现了来自工业和学术界的推动力,以协调这种努力。尽管其广泛采用作为标准化基准,但MLCommons推断只包括有限数量的ML / DL模型(实际上总共七种型号)。这显着限制了MLCommons推论的基准测试结果的一般性,因为研究界有更多的新颖ML / DL模型,解决了不同输入和输出方式的广泛问题。为了解决这种限制,我们提出了MLHARNESS,用于MLCommons推断的可扩展基准线束系统,具有三种独特的特点:(1)它根据MLCommons推理定义的标准基准过程,包括模型,数据集,DL框架和软件和硬件系统; (2)它为模型开发人员提供了一种简单且声明的方法,使其模型和数据集贡献到MLCommons推断; (3)它包括具有不同输入/输出模态的各种模型的支持,以便我们可以在不同的数据集,框架和硬件系统上缩放这些模型。该线束系统是在MLModelscope系统的顶部开发的,并将开放到社区。我们的实验结果表明,对于MLCommons推理基准测试,这种线束系统的卓越灵活性和可扩展性。
translated by 谷歌翻译
现在,扩展模型深度和大小是提高许多深度学习(DL)应用中准确性的常见方法,这是由数十亿美元甚至数万亿自然语言处理(NLP)研究的广泛成功所证明的。尽管在DL研究和主要技术公司方面取得了成功,但在域科学家和企业中,在领域科学家和企业中更广泛地采用的实际采用仍然受到GPU存储器限制,高培训成本和较低的GPU可用性的瓶装,即使在公共云上也是如此。模型选择需要进一步加剧这些资源挑战:用户通常需要将数十个模型与不同的超参数或神经体系结构进行比较,以适应其特定任务和数据集。在本文中,我们介绍了Hydra,该系统旨在通过以资源有效的方式启用在商品GPU上的多大模型DL工作负载来解决此类挑战。 HYDRA是首先对大型DL型号进行整体优化多模型工作负载的执行方法的第一种方法。我们通过调整先前的“模型平行”执行方案来与可扩展参数在整个内存层次结构上卸载,并将这种方法与任务并行作业计划技术融合在一起。 Hydra将模型参数的可扩展性从执行的并行性中脱离,从而使DL用户甚至可以在单个商品GPU上训练60亿个参数模型。它还充分利用了多GPU设置中任务并行性的加速潜力,从而产生了接近线性的较高缩放,并使严格的模型选择可能更实用。我们通过微调GPT-2进行语言建模评估端到端的性能。我们发现,Hydra提供的训练吞吐量比最佳工业框架(例如DeepSpeed和Gpipe)进行多大型模型培训的最佳设置还高出50%至100%。
translated by 谷歌翻译
我们旨在通过引入全面的分布式深度学习(DDL)探索器来解决此问题,该研究人员可以确定DDL在公共云上运行时遭受的各种执行“失速”。我们已经通过扩展先前的工作来估算两种类型的通信失速 - 互连和网络摊位来实现剖面。我们使用Profiler培训流行的DNN模型来表征各种AWS GPU实例,并列出了用户做出明智决定的优势和缺点。我们观察到,较昂贵的GPU实例可能不是所有DNN型号的性能最多,并且AWS可能会在次优的硬件互连资源分配次优。具体而言,与单个实例的培训相比,机内互连可以引入高达90%的DNN培训时间和网络连接的实例的通信开销,而与网络连接的实例可能会遭受高达5倍的速度。此外,我们对DNN宏观特征的影响进行建模,例如层的数量和通信摊位上的梯度数量。最后,我们为用户提出了一个基于衡量的建议模型,以降低DDL的公共云货币成本。
translated by 谷歌翻译
本文探讨了超线性增长趋势的环境影响,从整体角度来看,跨越数据,算法和系统硬件。我们通过在行业规模机器学习用例中检查模型开发周期来表征AI计算的碳足迹,同时考虑系统硬件的生命周期。进一步迈出一步,我们捕获AI计算的操作和制造碳足迹,并为硬件 - 软件设计和尺度优化的结束分析以及如何帮助降低AI的整体碳足迹。根据行业经验和经验教训,我们分享关键挑战,并在AI的许多方面上绘制了重要的发展方向。我们希望本文提出的关键信息和见解能够激发社区以环保的方式推进AI领域。
translated by 谷歌翻译
丹尼德缩放结束和摩尔法的放缓使能量使用数据中心在不可持续的道路上。数据中心已经是全球电力使用的大部分,应用需求以快速缩放。我们认为,数据中心计算的碳强度的大幅减少可以通过以软件为中心的方法来实现:通过修改系统API,通过修改系统API来使应用程序开发人员可见的能量和碳,使其成为可能进行知情的贸易性能和碳排放之间,并通过提高应用程序编程水平,以便灵活地使用更节能的计算和存储方法。我们还为系统软件奠定了一个研究议程,以减少数据中心计算的碳足迹。
translated by 谷歌翻译
With the rise of AI in recent years and the increase in complexity of the models, the growing demand in computational resources is starting to pose a significant challenge. The need for higher compute power is being met with increasingly more potent accelerators and the use of large compute clusters. However, the gain in prediction accuracy from large models trained on distributed and accelerated systems comes at the price of a substantial increase in energy demand, and researchers have started questioning the environmental friendliness of such AI methods at scale. Consequently, energy efficiency plays an important role for AI model developers and infrastructure operators alike. The energy consumption of AI workloads depends on the model implementation and the utilized hardware. Therefore, accurate measurements of the power draw of AI workflows on different types of compute nodes is key to algorithmic improvements and the design of future compute clusters and hardware. To this end, we present measurements of the energy consumption of two typical applications of deep learning models on different types of compute nodes. Our results indicate that 1. deriving energy consumption directly from runtime is not accurate, but the consumption of the compute node needs to be considered regarding its composition; 2. neglecting accelerator hardware on mixed nodes results in overproportional inefficiency regarding energy consumption; 3. energy consumption of model training and inference should be considered separately - while training on GPUs outperforms all other node types regarding both runtime and energy consumption, inference on CPU nodes can be comparably efficient. One advantage of our approach is that the information on energy consumption is available to all users of the supercomputer, enabling an easy transfer to other workloads alongside a raise in user-awareness of energy consumption.
translated by 谷歌翻译
GPU广泛用于加速机器学习工作负载的培训。随着现代机器学习模型越来越大,他们需要更长的时间来训练,导致GPU能耗更高。本文介绍了GPOEO,一个用于机器学习培训工作负载的在线GPU能量优化框架。 GPOEO通过采用用于在线测量,多目标预测建模和搜索优化的新颖技术动态地确定最佳能量配置。为了表征目标工作量行为,GPOEO利用GPU性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代移位时收集性能计数器数据。 GPOEO基于梯度升压和本地搜索算法使用多目标模型,在执行时间和能量消耗之间找到权衡。通过将其应用于来自在NVIDIA RTX3080TI GPU上运行的两个AI基准套件,通过将其应用于71台机器学习工作负载来评估GPoeo。与NVIDIA默认调度策略相比,GPOEO提供16.2%的平均节能,平均执行时间增加5.1%。
translated by 谷歌翻译
随着人工智能(AI)的积极发展,基于深神经网络(DNN)的智能应用会改变人们的生活方式和生产效率。但是,从网络边缘生成的大量计算和数据成为主要的瓶颈,传统的基于云的计算模式无法满足实时处理任务的要求。为了解决上述问题,通过将AI模型训练和推理功能嵌入网络边缘,Edge Intelligence(EI)成为AI领域的尖端方向。此外,云,边缘和终端设备之间的协作DNN推断提供了一种有希望的方法来增强EI。然而,目前,以EI为导向的协作DNN推断仍处于早期阶段,缺乏对现有研究工作的系统分类和讨论。因此,我们已经对有关以EI为导向的协作DNN推断的最新研究进行了全面调查。在本文中,我们首先回顾了EI的背景和动机。然后,我们为EI分类了四个典型的DNN推理范例,并分析其特征和关键技术。最后,我们总结了协作DNN推断的当前挑战,讨论未来的发展趋势并提供未来的研究方向。
translated by 谷歌翻译
In recent years, the exponential proliferation of smart devices with their intelligent applications poses severe challenges on conventional cellular networks. Such challenges can be potentially overcome by integrating communication, computing, caching, and control (i4C) technologies. In this survey, we first give a snapshot of different aspects of the i4C, comprising background, motivation, leading technological enablers, potential applications, and use cases. Next, we describe different models of communication, computing, caching, and control (4C) to lay the foundation of the integration approach. We review current state-of-the-art research efforts related to the i4C, focusing on recent trends of both conventional and artificial intelligence (AI)-based integration approaches. We also highlight the need for intelligence in resources integration. Then, we discuss integration of sensing and communication (ISAC) and classify the integration approaches into various classes. Finally, we propose open challenges and present future research directions for beyond 5G networks, such as 6G.
translated by 谷歌翻译
嵌入式机器学习(ML)系统现在已成为部署ML服务任务的主要平台,预计对于培训ML模型而言非常重要。随之而来的是,在严格的内存约束下,总体高效部署,尤其是低功率和高吞吐量实现的挑战。在这种情况下,与常规SRAM相比,由于其非挥发性,较高的细胞密度和可伸缩性特征,STT-MRAM和SOT-MRAM等非易失性记忆(NVM)技术具有显着优势。虽然先前的工作已经调查了NVM对通用应用的几种架构含义,但在这项工作中,我们提出了DeepNVM ++,这是一个综合框架,用于表征,模型和分析基于NVM的GPU架构中的基于NVM的CACHES,通过结合技术特异性的技术应用程序(DL)应用程序(DL)应用程序。电路级模型和各种DL工作负载的实际内存行为。 DEEPNVM ++依赖于使用常规SRAM和新兴STT-MRAM和SOT-MRAM Technologies实施的最后级别缓存的ISO容量和ISO区域性能和能量模型。在ISO容量的情况下,与常规的SRAM相比,STT-MRAM和SOT-MRAM可提供高达3.8倍和4.7倍的能量延迟产品(EDP)的降低以及2.4倍和2.8倍面积。在ISO-AREA假设下,STT-MRAM和SOT-MRAM可提供高达2.2倍和2.4倍的EDP降低,并且与SRAM相比,分别可容纳2.3倍和3.3倍的缓存能力。我们还执行可伸缩性分析,并表明与大型缓存能力相比,STT-MRAM和SOT-MRAM与SRAM相比实现了EDP的降低。 DEEPNVM ++在STT-/SOT-MRAM技术上进行了证明,可用于DL应用中GPU中最后一级缓存的任何NVM技术的表征,建模和分析。
translated by 谷歌翻译
我们展示了FedScale,这是一种多样化的挑战和现实的基准数据集,以便于可扩展,全面,可重复的联邦学习(FL)研究。 FedScale数据集是大规模的,包括不同的重要性范围,例如图像分类,对象检测,字预测和语音识别。对于每个数据集,我们使用逼真的数据拆分和评估度量提供统一的评估协议。为了满足在规模中繁殖现实流体的压力需求,我们还建立了一个有效的评估平台,以简化和标准化流程实验设置和模型评估的过程。我们的评估平台提供灵活的API来实现新的FL算法,并包括具有最小开发人员的新执行后端。最后,我们在这些数据集上执行深入的基准实验。我们的实验表明,在现实流动特征下,在系统的异质性感知协同优化和统计效率下提供了富有成效的机遇。 FedScale是具有允许许可的开放源,积极维护,我们欢迎来自社区的反馈和贡献。
translated by 谷歌翻译
深度学习领域目睹了对极端计算和内存密集型神经网络的显着转变。这些较新的较大模型使研究人员能够推进各种领域的最先进的工具。这种现象刺激了在更多的硬件加速器上产生了针对神经网络的分布式训练的算法。在本文中,我们讨论并比较了当前的最先进的框架,以实现大规模的分布式深度学习。首先,我们调查分布式学习中的当前实践,并确定所使用的不同类型的并行性。然后,我们提出了对大型图像和语言培训任务的性能进行了经验结果。此外,我们解决了他们的统计效率和内存消耗行为。根据我们的结果,我们讨论了阻碍性能的每个框架的算法和实现部分。
translated by 谷歌翻译