我们提出了一个模型不确定性感知的可区分架构搜索($ \ mu $ darts),该搜索优化神经网络以同时达到高精度和低不确定性。我们在DARTS单元中引入混凝土辍学,并在训练损失中包括一个蒙特卡洛正规器,以优化混凝土辍学概率。在验证损失中引入了预测差异项,以使搜索具有最小模型不确定性的体系结构。与现有的DARTS方法相比,CIFAR10,CIFAR100,SVHN和ImageNet上的实验验证了$ \ MU $ $ $ $ $ $的实验。此外,与从现有的飞镖方法获得的体系结构相比,从$ \ mu $ darts获得的最终体系结构显示出更高的噪声稳健性。
translated by 谷歌翻译
近年来,可微弱的建筑搜索(飞镖)已经受到了大量的关注,主要是因为它通过重量分享和连续放松来显着降低计算成本。然而,更近期的作品发现现有的可分辨率NAS技术难以俯视幼稚基线,产生劣化架构作为搜索所需。本文通过将体系结构权重放入高斯分布,而不是直接优化架构参数,而不是直接优化架构参数,而是作为分布学习问题。通过利用自然梯度变分推理(NGVI),可以基于现有的码票来容易地优化架构分布而不会产生更多内存和计算消耗。我们展示了贝叶斯原则的可分解NAS如何益处,提高勘探和提高稳定性。 NAS-BENCH-201和NAS-BENCH-1SHOT1基准数据集的实验结果证实了所提出的框架可以制造的重要改进。此外,我们还在学习参数上只需简单地应用argmax,我们进一步利用了NAS中最近提出的无培训代理,从优化分布中汲取的组架构中选择最佳架构,从而实现最终的架构-ART在NAS-BENCH-201和NAS-BENCH-1SHOT1基准上的结果。我们在飞镖搜索空间中的最佳架构也会分别获得2.37 \%,15.72 \%和24.2 \%的竞争性测试错误,分别在Cifar-10,CiFar-100和Imagenet数据集上。
translated by 谷歌翻译
在本文中,我们提出了一种基于沙普利价值的方法来评估用于神经体系结构搜索的操作贡献(Shapley-NAS)。可区分的体系结构搜索(DARTS)通过使用梯度下降优化体系结构参数来获取最佳体系结构,从而大大降低了搜索成本。但是,梯度下降更新的体系结构参数的幅度未能揭示对任务性能的实际操作重要性,因此损害了获得的体系结构的有效性。相比之下,我们建议评估操作对验证准确性的直接影响。为了处理超级核成分之间的复杂关系,我们通过考虑所有可能的组合来利用Shapley的价值来量化其边际贡献。具体而言,我们通过Shapley值评估操作贡献来迭代优化SuperNet权重,并更新体系结构参数,从而通过选择对任务贡献显着贡献的操作来得出最佳体系结构。由于Shapley值的确切计算是NP-HARD,因此采用了基于早期截断的蒙特卡洛抽样算法进行有效的近似,并且采用了动量更新机制来减轻采样过程的波动。在各种数据集和各种搜索空间上进行的广泛实验表明,我们的Shapley-NAS的表现优于最先进的方法,并具有相当大的利润,并具有轻盈的搜索成本。该代码可从https://github.com/euphoria16/shapley-nas.git获得
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
虽然可分辨率的架构搜索(飞镖)已成为神经结构中的主流范例(NAS),因为其简单和效率,最近的作品发现,搜索架构的性能几乎可以随着飞镖的优化程序而增加,以及最终的大小由飞镖获得几乎无法表明运营的重要性。上述观察表明,飞镖中的监督信号可能是架构搜索的穷人或不可靠的指标,鼓励有趣和有趣的方向:我们可以衡量不可分辨率范式下的任何培训的运作重要性吗?我们通过在初始化问题的网络修剪中定制NAS提供肯定的答案。随着最近建议的突触突触效力标准在初始化的网络修剪中,我们寻求在没有任何培训的情况下将候选人行动中的候选人行动的重要性进行评分,并提出了一种名为“免费可分辨的架构搜索}(Freedarts)的小说框架” 。我们表明,没有任何培训,具有不同代理度量的自由路由器可以在不同的搜索空间中优于大多数NAS基线。更重要的是,Freedarts是非常内存的高效和计算效率,因为它放弃了架构搜索阶段的培训,使得能够在更灵活的空间上执行架构搜索并消除架构搜索和评估之间的深度间隙。我们希望我们的工作激励从初始化修剪的角度来激发解决NAS的尝试。
translated by 谷歌翻译
可区分架构搜索(飞镖)是基于解决双重优化问题的数据驱动神经网络设计的有效方法。尽管在许多体系结构搜索任务中取得了成功,但仍然担心一阶飞镖的准确性和二阶飞镖的效率。在本文中,我们制定了单个级别的替代方案和放松的体系结构搜索(RARTS)方法,该方法通过数据和网络拆分利用整个数据集在体系结构学习中,而无需涉及相应损失功能(如飞镖)的混合第二个衍生物。在我们制定网络拆分的过程中,两个具有不同但相关权重的网络在寻找共享体系结构时进行了合作。 RART比飞镖的优势通过收敛定理和可解析的模型证明是合理的。此外,RART在准确性和搜索效率方面优于飞镖及其变体,如足够的实验结果所示。对于搜索拓扑结构(即边缘和操作)的任务,RART获得了比CIFAR-10上的二阶Darts更高的精度和60 \%的计算成本降低。转移到Imagenet时,RART继续超越表演飞镖,并且与最近的飞镖变体相提并论,尽管我们的创新纯粹是在训练算法上,而无需修改搜索空间。对于搜索宽度的任务,即卷积层中的频道数量,RARTS还优于传统的网络修剪基准。关于公共体系结构搜索基准等NATS BENCH的进一步实验也支持RARTS的优势。
translated by 谷歌翻译
神经结构搜索(NAS)的成功受到过度计算要求的限制。虽然现代重量共享NAS方法,例如飞镖在单位数GPU天中可以完成搜索,但从共享权重中提取最终的最佳架构是众所周知的不可靠性。培训 - 速度估计(TSE),最近开发的普遍开发的普遍估计,以贝叶斯边缘似然解释的用来代替飞镖基于梯度优化的验证损失。这可以防止飞镖跳过连接崩溃,这显着提高了NASBench-201和原始飞镖搜索空间的性能。我们通过应用各种飞镖诊断来扩展这些结果,并显示不使用验证集产生的几种不寻常的行为。此外,我们的实验产生了在与操作选择相比,尽管通常在文献中受到有限的关注,但仍会产生对搜索性能的强烈影响的深度间隙和拓扑选择的具体示例。
translated by 谷歌翻译
现有的神经结构搜索算法主要在具有短距离连接的搜索空间上。我们争辩说,这种设计虽然安全稳定,障碍搜索算法从探索更复杂的情景。在本文中,我们在具有长距离连接的复杂搜索空间上构建搜索算法,并显示现有的权重共享搜索算法由于存在\ TextBF {交织连接}而大部分失败。基于观察,我们介绍了一个名为\ textbf {if-nas}的简单且有效的算法,在那里我们在搜索过程中执行定期采样策略来构建不同的子网,避免在任何中的交织连接出现。在所提出的搜索空间中,IF-NAS优于随机采样和先前的重量共享搜索算法,通过显着的余量。 IF-NAS还推广到微单元的空间,这些空间更容易。我们的研究强调了宏观结构的重要性,我们期待沿着这个方向进一步努力。
translated by 谷歌翻译
This paper proposes a new optimization algorithm called Entropy-SGD for training deep neural networks that is motivated by the local geometry of the energy landscape. Local extrema with low generalization error have a large proportion of almost-zero eigenvalues in the Hessian with very few positive or negative eigenvalues. We leverage upon this observation to construct a local-entropy-based objective function that favors well-generalizable solutions lying in large flat regions of the energy landscape, while avoiding poorly-generalizable solutions located in the sharp valleys. Conceptually, our algorithm resembles two nested loops of SGD where we use Langevin dynamics in the inner loop to compute the gradient of the local entropy before each update of the weights. We show that the new objective has a smoother energy landscape and show improved generalization over SGD using uniform stability, under certain assumptions. Our experiments on convolutional and recurrent networks demonstrate that Entropy-SGD compares favorably to state-of-the-art techniques in terms of generalization error and training time.
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
从一个人的错误中学习是一种有效的人类学习技术,学习者更多地关注在犯错误的主题上,以便加深他们的理解。在本文中,我们调查这种人类学习策略是否可以应用于机器学习。我们提出了一种新的机器学习方法,称为来自错误(LFM)的学习,其中学习者通过在修订期间更多地关注错误来提高其学习的能力。我们制定LFM作为三阶段优化问题:1)学习者学习;2)学习者重新学习专注于错误,而且;3)学习者验证其学习。我们开发了一种有效的算法来解决LFM问题。我们将LFM框架应用于CiFar-10,CiFar-100和ImageNet上的神经架构搜索。实验结果强烈展示了我们模型的有效性。
translated by 谷歌翻译
在NAS领域中,可分构造的架构搜索是普遍存在的,因为它的简单性和效率,其中两个范例,多路径算法和单路径方法主导。多路径框架(例如,DARTS)是直观的,但遭受内存使用和培训崩溃。单路径方法(例如,e.g.gdas和proxylesnnas)减轻了内存问题并缩小了搜索和评估之间的差距,但牺牲了性能。在本文中,我们提出了一种概念上简单的且有效的方法来桥接这两个范式,称为相互意识的子图可差架构搜索(MSG-DAS)。我们框架的核心是一个可分辨动的Gumbel-Topk采样器,它产生多个互斥的单路径子图。为了缓解多个子图形设置所带来的Severer Skip-Connect问题,我们提出了一个Dropblock-Identity模块来稳定优化。为了充分利用可用的型号(超级网和子图),我们介绍了一种记忆高效的超净指导蒸馏,以改善培训。所提出的框架击中了灵活的内存使用和搜索质量之间的平衡。我们展示了我们在想象中和CIFAR10上的方法的有效性,其中搜索的模型显示了与最近的方法相当的性能。
translated by 谷歌翻译
可微分的架构搜索逐渐成为神经结构中的主流研究主题,以实现与早期NAS(基于EA的RL的)方法相比提高效率的能力。最近的可分辨率NAS还旨在进一步提高搜索效率,降低GPU记忆消耗,并解决“深度间隙”问题。然而,这些方法不再能够解决非微弱目标,更不用说多目标,例如性能,鲁棒性,效率和其他指标。我们提出了一个端到端的架构搜索框架,朝向非微弱的目标TND-NAS,具有在多目标NAs(MNA)中的不同NAS框架中的高效率的优点和兼容性的兼容性(MNA)。在可分辨率的NAS框架下,随着搜索空间的连续放松,TND-NAS具有在离散空间中优化的架构参数($ \ alpha $),同时通过$ \ alpha $逐步缩小超缩小的搜索策略。我们的代表性实验需要两个目标(参数,准确性),例如,我们在CIFAR10上实现了一系列高性能紧凑型架构(1.09米/ 3.3%,2.4M / 2.95%,9.57M / 2.54%)和CIFAR100(2.46 M / 18.3%,5.46 / 16.73%,12.88 / 15.20%)数据集。有利地,在现实世界的情景下(资源受限,平台专用),TND-NA可以方便地达到Pareto-Optimal解决方案。
translated by 谷歌翻译
Deep neural networks (DNNs) are found to be vulnerable to adversarial attacks, and various methods have been proposed for the defense. Among these methods, adversarial training has been drawing increasing attention because of its simplicity and effectiveness. However, the performance of the adversarial training is greatly limited by the architectures of target DNNs, which often makes the resulting DNNs with poor accuracy and unsatisfactory robustness. To address this problem, we propose DSARA to automatically search for the neural architectures that are accurate and robust after adversarial training. In particular, we design a novel cell-based search space specially for adversarial training, which improves the accuracy and the robustness upper bound of the searched architectures by carefully designing the placement of the cells and the proportional relationship of the filter numbers. Then we propose a two-stage search strategy to search for both accurate and robust neural architectures. At the first stage, the architecture parameters are optimized to minimize the adversarial loss, which makes full use of the effectiveness of the adversarial training in enhancing the robustness. At the second stage, the architecture parameters are optimized to minimize both the natural loss and the adversarial loss utilizing the proposed multi-objective adversarial training method, so that the searched neural architectures are both accurate and robust. We evaluate the proposed algorithm under natural data and various adversarial attacks, which reveals the superiority of the proposed method in terms of both accurate and robust architectures. We also conclude that accurate and robust neural architectures tend to deploy very different structures near the input and the output, which has great practical significance on both hand-crafting and automatically designing of accurate and robust neural architectures.
translated by 谷歌翻译
彩票票证假设(LTH)引起了人们的关注,因为它可以解释为什么过度参数化模型通常显示出很高的概括能力。众所周知,当我们使用迭代幅度修剪(IMP)时,这是一种算法,可以找到具有高概括能力的稀疏网络,可以独立从初始权重训练,称为获胜票,最初的大型学习率在深层神经网络,例如重新连接。但是,由于最初的较大学习率通常有助于优化器收敛到平坦的最小值,因此我们假设获胜票的最小值相对较高,这在概括能力方面被认为是不利的。在本文中,我们证实了这一假设,并表明Pac-Bayesian理论可以对LTH与概括行为之间的关系有明确的理解。根据我们的实验发现,平坦度可用于提高标签噪声的准确性和稳健性,并且与初始权重的距离深深涉及获胜的门票,我们提供了使用尖峰和slab分布的PAC-Bayes绑定到的pac-bayes分析获胜门票。最后,我们重新审视了现有的算法,以从Pac-Bayesian的角度查找获奖门票,并对这些方法提供新的见解。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
从错误中学习是一种有效的学习方法,广泛用于人类学习,学习者将更加注重未来规避犯罪的错误。它有助于改善整体学习结果。在这项工作中,我们的目标是调查这种特殊学习能力的有效性如何用于改善机器学习模型。我们提出了一种简单有效的多层次优化框架,称为学习的错误(LFM),灵感来自错误驱动的学习,培训更好的机器学习模型。我们的LFM框架包括涉及三个学习阶段的配方。主要目标是通过使用重新加权技术训练模型来执行目标任务,以防止将来类似的错误。在这种制定中,我们通过最小化模型的验证丢失来学习类重量,并通过来自类明智性能和实际数据的图像生成器重新列出模型的验证丢失来重新列车。我们在图像分类数据集等差分架构搜索方法应用我们的LFM框架,如CiFar和Imagenet,结果表明了我们提出的策略的有效性。
translated by 谷歌翻译
可区分的架构搜索(飞镖)大大促进了NAS技术的发展,因为其搜索效率很高,但遭受了性能崩溃的影响。在本文中,我们努力从两个方面减轻飞镖的性能崩溃问题。首先,我们研究了飞镖中超级网的表达能力,然后仅使用训练batchnorm来得出新的飞镖范式设置。其次,从理论上讲,随机特征稀释了跳过连接在超网优化中的辅助连接作用,并使搜索算法专注于更公平的操作选择,从而解决了性能崩溃问题。我们具有随机功能的实例化飞镖和PC-Darts,分别为每个命名的RF-Darts和RF-PCDART构建一个改进的版本。实验结果表明,RF-darts在CIFAR-10上获得\ TextBf {94.36 \%}测试精度(这是NAS Bench-201的最接近最佳结果),并实现了最新的最新最先进的TOP-1从CIFAR-10传输时,ImageNet上\ TextBf {24.0 \%}的测试错误。此外,RF-DARTS在三个数据集(CIFAR-10,CIFAR-100和SVHN)和四个搜索空间(S1-S4)上进行稳健性能。此外,RF-PCDARTS在Imagenet上取得了更好的结果,即\ textbf {23.9 \%} top-1和\ textbf {7.1 \%} top-5 top-5测试错误,超越了代表性的方法,例如单路径,训练免费, ,直接在Imagenet上搜索部分通道范例。
translated by 谷歌翻译
神经网络合奏,例如贝叶斯神经网络(BNNS),在不确定性估计和鲁棒性领域表现出了成功。但是,至关重要的挑战禁止其在实践中使用。 BNN需要大量预测来产生可靠的结果,从而大大增加了计算成本。为了减轻这个问题,我们提出了空间平滑,这是一种在空间上集合相邻的卷积神经网络特征映射点的方法。通过简单地在模型中添加一些模糊层,我们从经验上表明,空间平滑提高了BNN在整个合奏大小范围内的准确性,不确定性估计和鲁棒性。特别是,结合空间平滑的BNN仅与少数合奏实现高预测性能。此外,该方法还可以应用于规范确定性神经网络以改善性能。许多证据表明,改进可以归因于稳定的特征图和损失景观的平滑。此外,我们通过将其作为特殊的空间平滑案例来称呼它们,为先前作品提供基本解释 - 即全球平均汇集,预活化和relu6。这些不仅提高了准确性,而且通过使损失景观与空间平滑相同的方式使损失景观更加顺畅,从而提高了不确定性估计和鲁棒性。该代码可从https://github.com/xxxnell/spatial-smoothing获得。
translated by 谷歌翻译