在最近,对表现良好的神经体系结构(NAS)的高效,自动化的搜索引起了人们的关注。因此,主要的研究目标是减少对神经体系结构进行昂贵评估的必要性,同时有效地探索大型搜索空间。为此,替代模型将体系结构嵌入了潜在的空间并预测其性能,而神经体系结构的生成模型则可以在生成器借鉴的潜在空间内基于优化的搜索。替代模型和生成模型都具有促进结构良好的潜在空间中的查询搜索。在本文中,我们通过利用有效的替代模型和生成设计的优势来进一步提高查询效率和有前途的建筑生成之间的权衡。为此,我们提出了一个与替代预测指标配对的生成模型,该模型迭代地学会了从越来越有希望的潜在子空间中生成样品。这种方法可导致非常有效和高效的架构搜索,同时保持查询量较低。此外,我们的方法允许以一种直接的方式共同优化准确性和硬件延迟等多个目标。我们展示了这种方法的好处,不仅是W.R.T.优化体系结构以提高最高分类精度,但在硬件约束和在单个NAS基准测试中的最新方法和多个目标的最先进方法的优化。我们还可以在Imagenet上实现最先进的性能。该代码可在http://github.com/jovitalukasik/ag-net上找到。
translated by 谷歌翻译
In neural architecture search (NAS) methods based on latent space optimization (LSO), a deep generative model is trained to embed discrete neural architectures into a continuous latent space. In this case, different optimization algorithms that operate in the continuous space can be implemented to search neural architectures. However, the optimization of latent variables is challenging for gradient-based LSO since the mapping from the latent space to the architecture performance is generally non-convex. To tackle this problem, this paper develops a convexity regularized latent space optimization (CR-LSO) method, which aims to regularize the learning process of latent space in order to obtain a convex architecture performance mapping. Specifically, CR-LSO trains a graph variational autoencoder (G-VAE) to learn the continuous representations of discrete architectures. Simultaneously, the learning process of latent space is regularized by the guaranteed convexity of input convex neural networks (ICNNs). In this way, the G-VAE is forced to learn a convex mapping from the architecture representation to the architecture performance. Hereafter, the CR-LSO approximates the performance mapping using the ICNN and leverages the estimated gradient to optimize neural architecture representations. Experimental results on three popular NAS benchmarks show that CR-LSO achieves competitive evaluation results in terms of both computational complexity and architecture performance.
translated by 谷歌翻译
神经结构中的标准范例(NAS)是搜索具有特定操作和连接的完全确定性体系结构。在这项工作中,我们建议寻找最佳运行分布,从而提供了一种随机和近似解,可用于采样任意长度的架构。我们提出并显示,给定架构单元格,其性能主要取决于使用的操作的比率,而不是典型的搜索空间中的任何特定连接模式;也就是说,操作排序的小变化通常是无关紧要的。这种直觉与任何特定的搜索策略都具有正交,并且可以应用于多样化的NAS算法。通过对4数据集和4个NAS技术的广泛验证(贝叶斯优化,可分辨率搜索,本地搜索和随机搜索),我们表明操作分布(1)保持足够的辨别力来可靠地识别解决方案,并且(2)显着识别比传统的编码更容易优化,导致大量速度,几乎没有成本性能。实际上,这种简单的直觉显着降低了电流方法的成本,并可能使NAS用于更广泛的应用中。
translated by 谷歌翻译
Neural architectures can be naturally viewed as computational graphs. Motivated by this perspective, we, in this paper, study neural architecture search (NAS) through the lens of learning random graph models. In contrast to existing NAS methods which largely focus on searching for a single best architecture, i.e, point estimation, we propose GraphPNAS a deep graph generative model that learns a distribution of well-performing architectures. Relying on graph neural networks (GNNs), our GraphPNAS can better capture topologies of good neural architectures and relations between operators therein. Moreover, our graph generator leads to a learnable probabilistic search method that is more flexible and efficient than the commonly used RNN generator and random search methods. Finally, we learn our generator via an efficient reinforcement learning formulation for NAS. To assess the effectiveness of our GraphPNAS, we conduct extensive experiments on three search spaces, including the challenging RandWire on TinyImageNet, ENAS on CIFAR10, and NAS-Bench-101/201. The complexity of RandWire is significantly larger than other search spaces in the literature. We show that our proposed graph generator consistently outperforms RNN-based one and achieves better or comparable performances than state-of-the-art NAS methods.
translated by 谷歌翻译
神经体系结构搜索(NAS)最近在深度学习社区中变得越来越流行,主要是因为它可以提供一个机会,使感兴趣的用户没有丰富的专业知识,从而从深度神经网络(DNNS)的成功中受益。但是,NAS仍然很费力且耗时,因为在NAS的搜索过程中需要进行大量的性能估计,并且训练DNNS在计算上是密集的。为了解决NAS的主要局限性,提高NAS的效率对于NAS的设计至关重要。本文以简要介绍了NAS的一般框架。然后,系统地讨论了根据代理指标评估网络候选者的方法。接下来是对替代辅助NAS的描述,该NAS分为三个不同类别,即NAS的贝叶斯优化,NAS的替代辅助进化算法和NAS的MOP。最后,讨论了剩余的挑战和开放研究问题,并在这个新兴领域提出了有希望的研究主题。
translated by 谷歌翻译
神经建筑搜索(NAS)已被广泛研究,并已成长为具有重大影响的研究领域。虽然经典的单目标NAS搜索具有最佳性能的体系结构,但多目标NAS考虑了应同时优化的多个目标,例如,将沿验证错误最小化资源使用率。尽管在多目标NAS领域已经取得了长足的进步,但我们认为实际关注的实际优化问题与多目标NAS试图解决的优化问题之间存在一些差异。我们通过将多目标NAS问题作为质量多样性优化(QDO)问题来解决这一差异,并引入了三种质量多样性NAS优化器(其中两个属于多重速度优化器组),以寻求高度多样化但多样化的体系结构对于特定于应用程序特定的利基,例如硬件约束。通过将这些优化器与它们的多目标对应物进行比较,我们证明了质量多样性总体上优于多目标NA在解决方案和效率方面。我们进一步展示了应用程序和未来的NAS研究如何在QDO上蓬勃发展。
translated by 谷歌翻译
神经结构搜索(NAS)经常列车并评估大量架构。最近的基于预测的NAS方法尝试通过两个关键步骤来缓解这些重的计算成本:采样一些架构性能对并拟合代理精度预测器。然而,由于难以拟合庞大的搜索空间,所以这些预测变量远非准确地定位顶级架构。本文反映了一个简单而重要的问题:如果我们的最终目标是找到最好的建筑,我们真的需要融洽整个空间吗?我们提出了一种使用一个强预测器来拟合整个建筑空间的范式转变,以通过一组较弱的预测器逐渐地拟合朝向高性能子空间的搜索路径。作为弱预测因子的关键属性,它们的采样更好的架构的概率不断增加。因此,我们只示出了一些由以前学识到的预测器引导的少数好的架构,并估计一个新的更好的弱预测因素。这种令人尴尬的骨骼框架被称为缺点,产生粗略迭代,逐渐改进采样空间的排名。广泛的实验表明,在NAS-Bench-101和NAS-Bench-201上找到顶部性能架构的样本较少的缺点。与最先进的(SOTA)基于预测的NAS方法相比,缺点始终具有显着的边距,例如,需要至少7.5倍的样品来查找在NAS-Bench-101上的全局最优。缺点也可以吸收他们的想法,以提高性能。此外,缺点袭击了Imagenet MobileNet搜索空间中的81.3%的新SOTA结果。代码可在https://github.com/vita-group/weaknas获得。
translated by 谷歌翻译
虽然神经结构的早期研究搜索(NAS)所需的极端计算资源,但最近的表格和代理基准的版本大大提高了NAS研究的速度和再现性。但是,两个最受欢迎的基准测试不为每个架构提供完整的培训信息。结果,在这些基准上,不可能运行许多类型的多保真技术,例如学习曲线外推,这些技术需要在任意时期评估架构。在这项工作中,我们介绍了一种使用奇异值分解和噪声建模的方法来创建代理基准,NAS-Bench-111,NAS-BENCH-311和NAS-BENCH-NLP11,其输出每个架构的完整培训信息而不是最终的验证准确性。我们通过引入学习曲线外推框架来修改单一保真算法来展示使用完整培训信息的力量,示出它导致改进流行的单保真算法,该算法在释放时声称最先进的单一保真算法。我们的代码和预用模型可在https://github.com/automl/nas-bench-x11中获得。
translated by 谷歌翻译
神经体系结构搜索(NAS)是自动化有效图像处理DNN设计的强大工具。该排名已被倡导为NAS设计有效的性能预测指标。先前的对比方法通过比较架构对并预测其相对性能来解决排名问题。但是,它仅关注两个相关建筑之间的排名,而忽略了搜索空间的整体质量分布,这可能会遇到概括性问题。提出了一个预测因子,即专注于特定体系结构的全球质量层的神经体系结构排名,以解决由当地观点引起的此类问题。 NAR在全球范围内探索搜索空间的质量层,并根据其全球排名将每个人分类为他们所属的层。因此,预测变量获得了搜索空间的性能分布的知识,这有助于更轻松地将其排名能力推广到数据集。同时,全球质量分布通过根据质量层的统计数据直接对候选者进行采样,从而促进了搜索阶段,而质量层的统计数据没有培训搜索算法,例如增强型学习(RL)或进化算法(EA),因此简化了NAS管道并保存计算开销。拟议的NAR比在两个广泛使用的NAS研究数据集上的最先进方法取得了更好的性能。在NAS-Bench-101的庞大搜索空间中,NAR可以轻松地找到具有最高0.01 $ \ unicode {x2030} $ performance的架构。它还可以很好地概括为NAS Bench-201的不同图像数据集,即CIFAR-10,CIFAR-100和Imagenet-16-120,通过识别每个它们的最佳体系结构。
translated by 谷歌翻译
Neural architecture search (NAS) is a promising research direction that has the potential to replace expert-designed networks with learned, task-specific architectures. In this work, in order to help ground the empirical results in this field, we propose new NAS baselines that build off the following observations: (i) NAS is a specialized hyperparameter optimization problem; and (ii) random search is a competitive baseline for hyperparameter optimization. Leveraging these observations, we evaluate both random search with early-stopping and a novel random search with weight-sharing algorithm on two standard NAS benchmarks-PTB and CIFAR-10. Our results show that random search with early-stopping is a competitive NAS baseline, e.g., it performs at least as well as ENAS [41], a leading NAS method, on both benchmarks. Additionally, random search with weight-sharing outperforms random search with early-stopping, achieving a state-of-the-art NAS result on PTB and a highly competitive result on CIFAR-10. Finally, we explore the existing reproducibility issues of published NAS results. We note the lack of source material needed to exactly reproduce these results, and further discuss the robustness of published results given the various sources of variability in NAS experimental setups. Relatedly, we provide all information (code, random seeds, documentation) needed to exactly reproduce our results, and report our random search with weight-sharing results for each benchmark on multiple runs.
translated by 谷歌翻译
We propose a new method for learning the structure of convolutional neural networks (CNNs) that is more efficient than recent state-of-the-art methods based on reinforcement learning and evolutionary algorithms. Our approach uses a sequential model-based optimization (SMBO) strategy, in which we search for structures in order of increasing complexity, while simultaneously learning a surrogate model to guide the search through structure space. Direct comparison under the same search space shows that our method is up to 5 times more efficient than the RL method of Zoph et al. (2018) in terms of number of models evaluated, and 8 times faster in terms of total compute. The structures we discover in this way achieve state of the art classification accuracies on CIFAR-10 and ImageNet.
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
Recent advances in neural architecture search (NAS) demand tremendous computational resources, which makes it difficult to reproduce experiments and imposes a barrier-to-entry to researchers without access to large-scale computation. We aim to ameliorate these problems by introducing NAS-Bench-101, the first public architecture dataset for NAS research. To build NAS-Bench-101, we carefully constructed a compact, yet expressive, search space, exploiting graph isomorphisms to identify 423k unique convolutional architectures. We trained and evaluated all of these architectures multiple times on CIFAR-10 and compiled the results into a large dataset of over 5 million trained models. This allows researchers to evaluate the quality of a diverse range of models in milliseconds by querying the precomputed dataset. We demonstrate its utility by analyzing the dataset as a whole and by benchmarking a range of architecture optimization algorithms.
translated by 谷歌翻译
神经体系结构搜索(NAS)可以自动为深神经网络(DNN)设计架构,并已成为当前机器学习社区中最热门的研究主题之一。但是,NAS通常在计算上很昂贵,因为在搜索过程中需要培训大量DNN。绩效预测因素可以通过直接预测DNN的性能来大大减轻NAS的过失成本。但是,构建令人满意的性能预测能力很大程度上取决于足够的训练有素的DNN体系结构,在大多数情况下很难获得。为了解决这个关键问题,我们在本文中提出了一种名为Giaug的有效的DNN体系结构增强方法。具体而言,我们首先提出了一种基于图同构的机制,其优点是有效地生成$ \ boldsymbol n $(即$ \ boldsymbol n!$)的阶乘,对具有$ \ boldsymbol n $ n $ n $ n $ \ boldsymbol n $的单个体系结构进行了带注释的体系结构节点。此外,我们还设计了一种通用方法,将体系结构编码为适合大多数预测模型的形式。结果,可以通过各种基于性能预测因子的NAS算法灵活地利用Giaug。我们在中小型,中,大规模搜索空间上对CIFAR-10和Imagenet基准数据集进行了广泛的实验。实验表明,Giaug可以显着提高大多数最先进的同伴预测因子的性能。此外,与最先进的NAS算法相比,Giaug最多可以在ImageNet上节省三级计算成本。
translated by 谷歌翻译
Deep Learning has enabled remarkable progress over the last years on a variety of tasks, such as image recognition, speech recognition, and machine translation. One crucial aspect for this progress are novel neural architectures. Currently employed architectures have mostly been developed manually by human experts, which is a time-consuming and errorprone process. Because of this, there is growing interest in automated neural architecture search methods. We provide an overview of existing work in this field of research and categorize them according to three dimensions: search space, search strategy, and performance estimation strategy.
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
近年来,可微弱的建筑搜索(飞镖)已经受到了大量的关注,主要是因为它通过重量分享和连续放松来显着降低计算成本。然而,更近期的作品发现现有的可分辨率NAS技术难以俯视幼稚基线,产生劣化架构作为搜索所需。本文通过将体系结构权重放入高斯分布,而不是直接优化架构参数,而不是直接优化架构参数,而是作为分布学习问题。通过利用自然梯度变分推理(NGVI),可以基于现有的码票来容易地优化架构分布而不会产生更多内存和计算消耗。我们展示了贝叶斯原则的可分解NAS如何益处,提高勘探和提高稳定性。 NAS-BENCH-201和NAS-BENCH-1SHOT1基准数据集的实验结果证实了所提出的框架可以制造的重要改进。此外,我们还在学习参数上只需简单地应用argmax,我们进一步利用了NAS中最近提出的无培训代理,从优化分布中汲取的组架构中选择最佳架构,从而实现最终的架构-ART在NAS-BENCH-201和NAS-BENCH-1SHOT1基准上的结果。我们在飞镖搜索空间中的最佳架构也会分别获得2.37 \%,15.72 \%和24.2 \%的竞争性测试错误,分别在Cifar-10,CiFar-100和Imagenet数据集上。
translated by 谷歌翻译
可微分的架构搜索逐渐成为神经结构中的主流研究主题,以实现与早期NAS(基于EA的RL的)方法相比提高效率的能力。最近的可分辨率NAS还旨在进一步提高搜索效率,降低GPU记忆消耗,并解决“深度间隙”问题。然而,这些方法不再能够解决非微弱目标,更不用说多目标,例如性能,鲁棒性,效率和其他指标。我们提出了一个端到端的架构搜索框架,朝向非微弱的目标TND-NAS,具有在多目标NAs(MNA)中的不同NAS框架中的高效率的优点和兼容性的兼容性(MNA)。在可分辨率的NAS框架下,随着搜索空间的连续放松,TND-NAS具有在离散空间中优化的架构参数($ \ alpha $),同时通过$ \ alpha $逐步缩小超缩小的搜索策略。我们的代表性实验需要两个目标(参数,准确性),例如,我们在CIFAR10上实现了一系列高性能紧凑型架构(1.09米/ 3.3%,2.4M / 2.95%,9.57M / 2.54%)和CIFAR100(2.46 M / 18.3%,5.46 / 16.73%,12.88 / 15.20%)数据集。有利地,在现实世界的情景下(资源受限,平台专用),TND-NA可以方便地达到Pareto-Optimal解决方案。
translated by 谷歌翻译
深度神经网络中的建筑进步导致了跨越一系列计算机视觉任务的巨大飞跃。神经建筑搜索(NAS)并没有依靠人类的专业知识,而是成为自动化建筑设计的有前途的途径。尽管图像分类的最新成就提出了机会,但NAS的承诺尚未对更具挑战性的语义细分任务进行彻底评估。将NAS应用于语义分割的主要挑战来自两个方面:(i)要处理的高分辨率图像; (ii)针对自动驾驶等应用的实时推理速度(即实时语义细分)的其他要求。为了应对此类挑战,我们在本文中提出了一种替代辅助的多目标方法。通过一系列自定义预测模型,我们的方法有效地将原始的NAS任务转换为普通的多目标优化问题。然后是用于填充选择的层次预筛选标准,我们的方法逐渐实现了一组有效的体系结构在细分精度和推理速度之间进行交易。对三个基准数据集的经验评估以及使用华为地图集200 dk的应用程序的实证评估表明,我们的方法可以识别架构明显优于人类专家手动设计和通过其他NAS方法自动设计的现有最先进的体系结构。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译