智能论文笔记

Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training

Jie You , Jae-Won Chung , Mosharaf Chowdhury

分类：机器学习 | 人工智能

2022-08-12

培训深度神经网络（DNNS）每年都会变得越来越多地资源和能源密集型。不幸的是，现有作品主要集中于优化DNN培训以更快完成，而无需考虑对能源效率的影响。在本文中，我们观察到改善训练绩效的常见实践通常会导致能源使用效率低下。更重要的是，我们证明能耗和性能优化之间存在权衡。为此，我们提出了一个优化框架，宙斯，通过自动找到重复出现的DNN培训工作的最佳作业和GPU级配置来导航这种权衡。宙斯与即时的能源分析一起使用了在线探索 - 开发方法，避免了对昂贵的离线测量的需求，同时适应数据随着时间的流逝。我们的评估表明，宙斯可以将DNN培训的能源效率提高15.3％-75.8％，以减少75.8％。

translated by 谷歌翻译

Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters

Jayashree Mohan , Amar Phanishayee , Janardhan Kulkarni , Vijay Chidambaram

分类：机器学习

2021-10-12

培训深神经网络（DNNS）在企业和云数据中心都广受欢迎。现有的DNN培训调度程序将GPU视为主要资源，并分配其他资源，例如CPU和内存与作业要求的GPU数量成正比。不幸的是，这些调度程序不考虑作业对CPU，内存和存储资源分配的敏感性的影响。在这项工作中，我们提出了Synergy，这是一种对共享GPU群集的资源敏感调度程序。通过乐观的分析，协同作用侵犯了DNN对不同资源的敏感性；某些工作可能会从GPU育儿分配中受益更多，而某些工作可能不会受到GPU育儿分配的影响。 Synergy使用新的近乎最佳的在线算法在共享的多租户集群上安排的一组作业进行了多余的工作量感知作业。我们的实验表明，与传统的GPU育儿计划相比，工作量感知的CPU和内存分配可以提高平均JCT高达3.4倍。

translated by 谷歌翻译

Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization

Lisha Li , Kevin Jamieson , Giulia DeSalvo , Afshin Rostamizadeh , Ameet Talwalkar

分类：

2016-03-21

Performance of machine learning algorithms depends critically on identifying a good set of hyperparameters. While recent approaches use Bayesian optimization to adaptively select configurations, we focus on speeding up random search through adaptive resource allocation and early-stopping. We formulate hyperparameter optimization as a pure-exploration nonstochastic infinite-armed bandit problem where a predefined resource like iterations, data samples, or features is allocated to randomly sampled configurations. We introduce a novel algorithm, Hyperband, for this framework and analyze its theoretical properties, providing several desirable guarantees. Furthermore, we compare Hyperband with popular Bayesian optimization methods on a suite of hyperparameter optimization problems. We observe that Hyperband can provide over an order-of-magnitude speedup over our competitor set on a variety of deep-learning and kernel-based learning problems.

translated by 谷歌翻译

FlexiBO: A Decoupled Cost-Aware Multi-Objective Optimization Approach for Deep Neural Networks

Md Shahriar Iqbal , Jianhai Su , Lars Kotthoff , Pooyan Jamshidi

分类：机器学习 | (统计)机器学习

2020-01-18

机器学习系统的设计通常需要交易不同的目标，例如，深度神经网络（DNN）的预测错误和能耗。通常，没有任何单一的设计在所有目标中都表现良好，因此，找到帕累托最佳的设计令人感兴趣。通常，测量不同的目标会产生不同的成本；例如，测量DNN的预测误差的成本比测量预先训练的DNN的能源消耗的数量级高，因为它需要重新训练DNN。当前的最新方法没有考虑到客观评估成本的这种差异，可能会浪费对目标功能的昂贵评估，从而获得很少的信息增益。在本文中，我们开发了一种新颖的分离成本感知方法，我们称为灵活的多目标贝叶斯优化（Flexibo）来解决此问题。 Flexibo通过每个目标的测量成本来加权帕累托区的超量。这有助于我们平衡收集新信息与通过客观评估获得的知识的费用，从而阻止我们几乎没有收益进行昂贵的测量。我们在七个最先进的DNN上评估了图像识别，自然语言处理（NLP）和语音到文本翻译的Flexibo。我们的结果表明，鉴于相同的总实验预算，Flexibo发现的设计比下一个最佳最佳多目标优化方法低4.8％至12.4％，具体取决于特定的DNN体系结构。

translated by 谷歌翻译

RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using a Diverse Pool of Cloud Computing Instances

Baolin Li , Rohan Basu Roy , Tirthak Patel , Vijay Gadepally , Karen Gettings , Devesh Tiwari

分类：机器学习

2022-07-23

深度学习模型推断是许多企业和科学发现过程中的关键服务。本文介绍了Ribbon，这是一种新颖的深度学习推理服务系统，符合两个相互竞争的目标：服务质量（QoS）目标和成本效益。功能区背后的关键思想是智能采用各种云计算实例（异质实例）来满足QoS目标并最大程度地节省成本。功能区设计了一种贝叶斯优化驱动的策略，该策略可帮助用户在云计算平台上为其模型推理服务需求构建最佳的异质实例集 - 并且，功能区展示了其优于使用均匀实例池的推理服务系统的优越性。功能区可为不同的学习模型节省多达16％的推理服务成本，包括新兴的深度学习建议系统模型和药物发现的启用模型。

translated by 谷歌翻译

Deep Learning-Driven Edge Video Analytics: A Survey

Renjie Xu , Saiedeh Razavi , Rong Zheng

分类：计算机视觉 | 机器学习

2022-11-28

Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.

translated by 谷歌翻译

Virtuoso: Video-based Intelligence for real-time tuning on SOCs

Jayoung Lee , PengCheng Wang , Ran Xu , Venkat Dasari , Noah Weston , Yin Li , Saurabh Bagchi , Somali Chaterji

分类：计算机视觉 | 人工智能

2021-12-24

已经提出了高效和自适应计算机视觉系统以使计算机视觉任务，例如图像分类和对象检测，针对嵌入或移动设备进行了优化。这些解决方案最近的起源，专注于通过设计具有近似旋钮的自适应系统来优化模型（深神经网络，DNN）或系统。尽管最近的几项努力，但我们表明现有解决方案遭受了两个主要缺点。首先，系统不考虑模型的能量消耗，同时在制定要运行的模型的决定时。其次，由于其他共同居民工作负载，评估不考虑设备上的争用的实际情况。在这项工作中，我们提出了一种高效和自适应的视频对象检测系统，这是联合优化的精度，能量效率和延迟。底层Virtuoso是一个多分支执行内核，它能够在精度 - 能量 - 延迟轴上的不同运行点处运行，以及轻量级运行时调度程序，以选择最佳的执行分支以满足用户要求。要与Virtuoso相当比较，我们基准于15件最先进的或广泛使用的协议，包括更快的R-CNN（FRCNN），YOLO V3，SSD，培训台，SELSA，MEGA，REPP，FastAdapt和我们的内部FRCNN +，YOLO +，SSD +和高效+（我们的变体具有增强的手机效率）的自适应变体。通过这种全面的基准，Virtuoso对所有上述协议显示出优势，在NVIDIA Jetson Mobile GPU上的每一项效率水平上引领精度边界。具体而言，Virtuoso的准确性为63.9％，比一些流行的物体检测模型高于10％，51.1％，yolo为49.5％。

translated by 谷歌翻译

A Survey of Methods for Automated Algorithm Configuration

Elias Schede , Jasmin Brandt , Alexander Tornede , Marcel Wever , Viktor Bengs , Eyke Hüllermeier , Kevin Tierney

分类：人工智能

2022-02-03

算法配置（AC）与对参数化算法最合适的参数配置的自动搜索有关。目前，文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物，也没有提供完整的分类计划。为此，我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献，概述相关的配置方法的设计选择，对比方法和问题变体相互对立，并描述行业中的AC状态。最后，我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。

translated by 谷歌翻译

COMET: A Novel Memory-Efficient Deep Learning Training Framework by Using Error-Bounded Lossy Compression

Sian Jin , Chengming Zhang , Xintong Jiang , Yunhe Feng , Hui Guan , Guanpeng Li , Shuaiwen Leon Song , Dingwen Tao

分类：人工智能

2021-11-18

培训广泛和深度神经网络（DNN）需要大量的存储资源，例如内存，因为在转发传播期间必须在存储器中保存中间激活数据，然后恢复以便向后传播。然而，由于硬件设计约束，诸如GPU之类的最先进的加速器（例如GPU）仅配备了非常有限的存储容量，这显着限制了在训练大规模DNN时的最大批量大小和性能加速。传统的记忆保存技术均受性能开销或受限互连带宽或特定互连技术的约束。在本文中，我们提出了一种新颖的记忆高效的CNN训练框架（称为Comet），利用错误界限的损耗压缩来显着降低训练的内存要求，以允许培训更大的模型或加速培训。不同于采用基于图像的有损压缩机（例如JPEG）的最先进的解决方案来压缩激活数据，我们的框架故意采用严格的错误控制机制来采用错误界限的损耗压缩。具体而言，我们对从改变的激活数据传播到梯度的压缩误差传播的理论分析，并经验探讨改变梯度对训练过程的影响。基于这些分析，我们优化了误报的损耗压缩，并提出了一种用于激活数据压缩的自适应误差控制方案。我们评估我们对最先进的解决方案的设计，其中包含五个广泛采用的CNN和Imagenet DataSet。实验表明，我们所提出的框架可以在基线训练中显着降低13.5倍，并分别在另一个最先进的基于压缩框架上的1.8倍，几乎没有准确性损失。

translated by 谷歌翻译

Precise Energy Consumption Measurements of Heterogeneous Artificial Intelligence Workloads

René Caspart , Sebastian Ziegler , Arvid Weyrauch , Holger Obermaier , Simon Raffeiner , Leon Pascal Schuhmacher , Jan Scholtyssek , Darya Trofimova , Marco Nolden , Ines Reinartz

分类：人工智能

2022-12-03

With the rise of AI in recent years and the increase in complexity of the models, the growing demand in computational resources is starting to pose a significant challenge. The need for higher compute power is being met with increasingly more potent accelerators and the use of large compute clusters. However, the gain in prediction accuracy from large models trained on distributed and accelerated systems comes at the price of a substantial increase in energy demand, and researchers have started questioning the environmental friendliness of such AI methods at scale. Consequently, energy efficiency plays an important role for AI model developers and infrastructure operators alike. The energy consumption of AI workloads depends on the model implementation and the utilized hardware. Therefore, accurate measurements of the power draw of AI workflows on different types of compute nodes is key to algorithmic improvements and the design of future compute clusters and hardware. To this end, we present measurements of the energy consumption of two typical applications of deep learning models on different types of compute nodes. Our results indicate that 1. deriving energy consumption directly from runtime is not accurate, but the consumption of the compute node needs to be considered regarding its composition; 2. neglecting accelerator hardware on mixed nodes results in overproportional inefficiency regarding energy consumption; 3. energy consumption of model training and inference should be considered separately - while training on GPUs outperforms all other node types regarding both runtime and energy consumption, inference on CPU nodes can be comparably efficient. One advantage of our approach is that the information on energy consumption is available to all users of the supercomputer, enabling an easy transfer to other workloads alongside a raise in user-awareness of energy consumption.

translated by 谷歌翻译

Sustainable AI: Environmental Implications, Challenges and Opportunities

Carole-Jean Wu , Ramya Raghavendra , Udit Gupta , Bilge Acun , Newsha Ardalani , Kiwan Maeng , Gloria Chang , Fiona Aga Behram , James Huang , Charles Bai

分类：机器学习 | 人工智能

2021-10-30

本文探讨了超线性增长趋势的环境影响，从整体角度来看，跨越数据，算法和系统硬件。我们通过在行业规模机器学习用例中检查模型开发周期来表征AI计算的碳足迹，同时考虑系统硬件的生命周期。进一步迈出一步，我们捕获AI计算的操作和制造碳足迹，并为硬件 - 软件设计和尺度优化的结束分析以及如何帮助降低AI的整体碳足迹。根据行业经验和经验教训，我们分享关键挑战，并在AI的许多方面上绘制了重要的发展方向。我们希望本文提出的关键信息和见解能够激发社区以环保的方式推进AI领域。

translated by 谷歌翻译

LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision

Rui Han , Qinglong Zhang , Chi Harold Liu , Guoren Wang , Jian Tang , Lydia Y. Chen

分类：计算机视觉

2021-12-18

深度神经网络（DNN）已成为移动和嵌入式系统中的普遍存在的技术，用于图像/对象识别和分类。执行多个DNN的趋势同时加剧了资源受限移动设备上满足严格延迟/准确性要求的现有限制。现有技术通过根据资源动态缩放模型大小来探索精度资源权衡的光。然而，这种模型缩放方法接近迫在眉睫的挑战：（i）模型尺寸的大空间探索，（ii）对不同模型组合的培训时间非常长。在本文中，我们介绍了Legodnn，一种用于在移动视觉系统中运行多DNN工作负载的轻质块粒度缩放解决方案。 Legodnn仅通过在DNN中提取和培训少数常见块（例如，在VGG和RENET中的VGG和8中的8中）来保证短模型培训时间。在运行时，Legodnn最佳地结合了这些块的后代模型，以最大限度地在特定资源和延迟约束下最大限度地提高精度，同时通过DNN的智能块级缩放来降低切换开销。我们在Tensorflow Lite中实现Legodnn，并通过一组普遍的DNN模型，广泛地评估了最先进的技术（浮标缩放，知识蒸馏和模型压缩）。评估结果表明，乐高达在模型尺寸下提供了1,296倍至279,936倍，而在不增加训练时间的情况下，推断准确性的提高高达31.74％，降低缩放能耗减少了71.07％。

translated by 谷歌翻译

A Deep Neural Networks ensemble workflow from hyperparameter search to inference leveraging GPU clusters

Pierrick Pochelu , Serge G. Petiton , Bruno Conche

分类：机器学习

2022-08-30

结合（或带有结合）的自动化机器学习试图自动构建深度神经网络（DNNS）的合奏，以实现定性的预测。众所周知，DNN的合奏避免过度合身，但它们是记忆和耗时的方法。因此，理想的汽车将在一次运行时间内产生有关准确性和推理速度的不同集合。尽管以前的AutoML专注于搜索最佳模型以最大化其概括能力，但我们宁愿提出新的Automl来构建一个较大的精确和多样化的单个模型的库，以构建合奏。首先，我们的广泛基准显示异步超频带是一种有效且可靠的方法，可以构建大量不同的模型来组合它们。然后，提出了一种基于多目标贪婪算法的新合奏选择方法，以通过控制其计算成本来生成准确的合奏。最后，我们提出了一种新型算法，以根据分配优化优化GPU群集中DNNS集合的推断。使用集合方法产生的自动素体在训练阶段和推理阶段都使用有效的GPU簇在两个数据集上显示出强大的结果。

translated by 谷歌翻译

DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device

Mario Almeida , Stefanos Laskaridis , Stylianos I. Venieris , Ilias Leontiadis , Nicholas D. Lane

分类：计算机视觉 | 机器学习

2021-04-20

最近，使用卷积神经网络（CNNS）存在移动和嵌入式应用的爆炸性增长。为了减轻其过度的计算需求，开发人员传统上揭示了云卸载，突出了高基础设施成本以及对网络条件的强烈依赖。另一方面，强大的SOC的出现逐渐启用设备执行。尽管如此，低端和中层平台仍然努力充分运行最先进的CNN。在本文中，我们展示了Dyno，一种分布式推断框架，将两全其人的最佳框架结合起来解决了几个挑战，例如设备异质性，不同的带宽和多目标要求。启用这是其新的CNN特定数据包装方法，其在onloading计算时利用CNN的不同部分的精度需求的可变性以及其新颖的调度器，该调度器共同调谐分区点并在运行时传输数据精度适应其执行环境的推理。定量评估表明，Dyno优于当前最先进的，通过竞争对手的CNN卸载系统，在竞争对手的CNN卸载系统上提高吞吐量超过一个数量级，最高可达60倍的数据。

translated by 谷歌翻译

Compilation and Optimizations for Efficient Machine Learning on Embedded Systems

Xiaofan Zhang , Yao Chen , Cong Hao , Sitao Huang , Yuhong Li , Deming Chen

分类：机器学习

2022-06-06

深神经网络（DNNS）在各种机器学习（ML）应用程序中取得了巨大成功，在计算机视觉，自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是，基于DNN的ML应用程序也带来计算和存储要求的增加了很多，对于具有有限的计算/存储资源，紧张的功率预算和较小形式的嵌入式系统而言，这尤其具有挑战性。挑战还来自各种特定应用的要求，包括实时响应，高通量性能和可靠的推理准确性。为了应对这些挑战，我们介绍了一系列有效的设计方法，包括有效的ML模型设计，定制的硬件加速器设计以及硬件/软件共同设计策略，以启用嵌入式系统上有效的ML应用程序。

translated by 谷歌翻译

Analysis of Distributed Deep Learning in the Cloud

Aakash Sharma , Vivek M. Bhasi , Sonali Singh , Rishabh Jain , Jashwant Raj Gunasekaran , Subrata Mitra , Mahmut Taylan Kandemir , George Kesidis , Chita R. Das

分类：机器学习

2022-08-30

我们旨在通过引入全面的分布式深度学习（DDL）探索器来解决此问题，该研究人员可以确定DDL在公共云上运行时遭受的各种执行“失速”。我们已经通过扩展先前的工作来估算两种类型的通信失速 - 互连和网络摊位来实现剖面。我们使用Profiler培训流行的DNN模型来表征各种AWS GPU实例，并列出了用户做出明智决定的优势和缺点。我们观察到，较昂贵的GPU实例可能不是所有DNN型号的性能最多，并且AWS可能会在次优的硬件互连资源分配次优。具体而言，与单个实例的培训相比，机内互连可以引入高达90％的DNN培训时间和网络连接的实例的通信开销，而与网络连接的实例可能会遭受高达5倍的速度。此外，我们对DNN宏观特征的影响进行建模，例如层的数量和通信摊位上的梯度数量。最后，我们为用户提出了一个基于衡量的建议模型，以降低DDL的公共云货币成本。

translated by 谷歌翻译

Swan: A Neural Engine for Efficient DNN Training on Smartphone SoCs

Sanjay Sri Vallabh Singapuram , Fan Lai , Chuheng Hu , Mosharaf Chowdhury

分类：机器学习 | 人工智能

2022-06-09

需要在最终用户设备（例如智能手机）上训练DNN模型的需求，而随着需要改善数据隐私并减少通信开销的需求。与具有功能强大CPU和GPU的数据中心服务器不同，现代智能手机由多种专门内核组成，遵循系统启动（SOC）架构，共同执行各种任务。我们观察到，在智能手机SOC上的培训DNN不仔细考虑其资源限制不仅会导致次优培训表现，而且还会显着影响用户体验。在本文中，我们展示了天鹅，这是一种神经引擎，可在不损害用户体验的情况下优化智能手机SOC的DNN培训。广泛的大规模评估表明，天鹅可以在最先进的情况下提高1.2-23.3倍的表现。

translated by 谷歌翻译

A Survey of Machine Learning for Computer Architecture and Systems

Nan Wu , Yuan Xie

分类：机器学习

2021-02-16

计算机架构和系统已优化了很长时间，以便高效执行机器学习（ML）模型。现在，是时候重新考虑ML和系统之间的关系，并让ML转换计算机架构和系统的设计方式。这有一个双重含义：改善设计师的生产力，以及完成良性周期。在这篇论文中，我们对应用ML进行计算机架构和系统设计的工作进行了全面的审查。首先，我们考虑ML技术在架构/系统设计中的典型作用，即快速预测建模或设计方法，我们执行高级分类学。然后，我们总结了通过ML技术解决的计算机架构/系统设计中的常见问题，并且所用典型的ML技术来解决它们中的每一个。除了在狭义中强调计算机架构外，我们采用数据中心可被认为是仓库规模计算机的概念;粗略的计算机系统中提供粗略讨论，例如代码生成和编译器;我们还注意ML技术如何帮助和改造设计自动化。我们进一步提供了对机会和潜在方向的未来愿景，并设想应用ML的计算机架构和系统将在社区中蓬勃发展。

translated by 谷歌翻译

Towards Green Automated Machine Learning: Status Quo and Future Directions

Tanja Tornede , Alexander Tornede , Jonas Hanselle , Marcel Wever , Felix Mohr , Eyke Hüllermeier

分类：机器学习

2021-11-10

自动化机器学习（Automl）努力自动配置机器学习算法及其组合的整体（软件）解决方案 - 机器学习管道 - 针对手头的学习任务（数据集）量身定制。在过去十年中，Automl已成为具有数百个贡献的热门研究课题。虽然Automl提供了许多前景，但也称它也是相当资源密集的，这是其主要批评的主要观点之一。高资源消耗的主要原因是许多方法依赖于许多ML管道的（昂贵）评估，同时寻找良好的候选者。由于使用许多数据集和方法进行了大规模实验，因此在Automl方法研究的背景下放大了这个问题，每个数据都是用几种重复来排除随机效应的几个重复的实验。本文阐述了最近的绿色AI的精神，是为了提高对问题的自动化研究人员的意识，并详细阐述可能的补救措施。为此，我们确定了四类行动，社区可能采取更加可持续的自动化计划，即接近设计，基准，研究激励和透明度。

translated by 谷歌翻译

Hyperparameter Optimization: Foundations, Algorithms, Best Practices and Open Challenges

Bernd Bischl , Martin Binder , Michel Lang , Tobias Pielok , Jakob Richter , Stefan Coors , Janek Thomas , Theresa Ullmann , Marc Becker , Anne-Laure Boulesteix

分类： (统计)机器学习 | 机器学习

2021-07-13

大多数机器学习算法由一个或多个超参数配置，必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置，可以采用各种自动超参数优化（HPO）方法，例如，基于监督机器学习的重新采样误差估计。本文介绍了HPO后，本文审查了重要的HPO方法，如网格或随机搜索，进化算法，贝叶斯优化，超带和赛车。它给出了关于进行HPO的重要选择的实用建议，包括HPO算法本身，性能评估，如何将HPO与ML管道，运行时改进和并行化结合起来。这项工作伴随着附录，其中包含关于R和Python的特定软件包的信息，以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑，这些笔记本展示了这项工作的概念作为补充文件。

translated by 谷歌翻译