最近,神经体系结构搜索(NAS)已应用于在现实世界应用中自动化神经网络的设计。已经开发了大量算法,以提高NAS中最终选定架构的搜索成本或性能。不幸的是,这些NAS算法旨在仅从其搜索空间中选择一个表现良好的架构,因此忽略了神经网络合奏的能力(即具有多样化体系结构的神经网络的集合)在实现单个最终选定中的性能方面提高了性能建筑学。为此,我们介绍了一种新型的神经合奏搜索算法,通过贝叶斯采样(NESB)称为神经合奏搜索,以有效有效地从NAS搜索空间中选择良好的表现性神经网络集合。在我们的广泛实验中,NESBS算法被证明能够比最先进的NAS算法提高性能,同时产生可比的搜索成本,从而表明我们的NESBS算法在实践中的NESB算法优越。
translated by 谷歌翻译
We present a new algorithm to learn a deep neural network model robust against adversarial attacks. Previous algorithms demonstrate an adversarially trained Bayesian Neural Network (BNN) provides improved robustness. We recognize the adversarial learning approach for approximating the multi-modal posterior distribution of a Bayesian model can lead to mode collapse; consequently, the model's achievements in robustness and performance are sub-optimal. Instead, we first propose preventing mode collapse to better approximate the multi-modal posterior distribution. Second, based on the intuition that a robust model should ignore perturbations and only consider the informative content of the input, we conceptualize and formulate an information gain objective to measure and force the information learned from both benign and adversarial training instances to be similar. Importantly. we prove and demonstrate that minimizing the information gain objective allows the adversarial risk to approach the conventional empirical risk. We believe our efforts provide a step toward a basis for a principled method of adversarially training BNNs. Our model demonstrate significantly improved robustness--up to 20%--compared with adversarial training and Adv-BNN under PGD attacks with 0.035 distortion on both CIFAR-10 and STL-10 datasets.
translated by 谷歌翻译
Deep neural networks (DNNs) are found to be vulnerable to adversarial attacks, and various methods have been proposed for the defense. Among these methods, adversarial training has been drawing increasing attention because of its simplicity and effectiveness. However, the performance of the adversarial training is greatly limited by the architectures of target DNNs, which often makes the resulting DNNs with poor accuracy and unsatisfactory robustness. To address this problem, we propose DSARA to automatically search for the neural architectures that are accurate and robust after adversarial training. In particular, we design a novel cell-based search space specially for adversarial training, which improves the accuracy and the robustness upper bound of the searched architectures by carefully designing the placement of the cells and the proportional relationship of the filter numbers. Then we propose a two-stage search strategy to search for both accurate and robust neural architectures. At the first stage, the architecture parameters are optimized to minimize the adversarial loss, which makes full use of the effectiveness of the adversarial training in enhancing the robustness. At the second stage, the architecture parameters are optimized to minimize both the natural loss and the adversarial loss utilizing the proposed multi-objective adversarial training method, so that the searched neural architectures are both accurate and robust. We evaluate the proposed algorithm under natural data and various adversarial attacks, which reveals the superiority of the proposed method in terms of both accurate and robust architectures. We also conclude that accurate and robust neural architectures tend to deploy very different structures near the input and the output, which has great practical significance on both hand-crafting and automatically designing of accurate and robust neural architectures.
translated by 谷歌翻译
近年来,可微弱的建筑搜索(飞镖)已经受到了大量的关注,主要是因为它通过重量分享和连续放松来显着降低计算成本。然而,更近期的作品发现现有的可分辨率NAS技术难以俯视幼稚基线,产生劣化架构作为搜索所需。本文通过将体系结构权重放入高斯分布,而不是直接优化架构参数,而不是直接优化架构参数,而是作为分布学习问题。通过利用自然梯度变分推理(NGVI),可以基于现有的码票来容易地优化架构分布而不会产生更多内存和计算消耗。我们展示了贝叶斯原则的可分解NAS如何益处,提高勘探和提高稳定性。 NAS-BENCH-201和NAS-BENCH-1SHOT1基准数据集的实验结果证实了所提出的框架可以制造的重要改进。此外,我们还在学习参数上只需简单地应用argmax,我们进一步利用了NAS中最近提出的无培训代理,从优化分布中汲取的组架构中选择最佳架构,从而实现最终的架构-ART在NAS-BENCH-201和NAS-BENCH-1SHOT1基准上的结果。我们在飞镖搜索空间中的最佳架构也会分别获得2.37 \%,15.72 \%和24.2 \%的竞争性测试错误,分别在Cifar-10,CiFar-100和Imagenet数据集上。
translated by 谷歌翻译
提高黑箱逃避攻击的可转移性的一种既定方法是在基于合奏的替代物上制作对抗性例子,以提高多样性。我们认为可转移性与不确定性根本相关。基于一种最先进的贝叶斯深度学习技术,我们提出了一种新方法,通过大约从神经网络权重的后验分布进行采样来有效地构建代理,这代表了每个参数的价值的信念。我们对Imagenet,CIFAR-10和MNIST进行的广泛实验表明,在内部结构和结构转移性中,我们的方法显着提高了四个最新攻击的成功率(高达83.2个百分点)。在Imagenet上,与经过独立训练的DNN合奏相比,我们的方法可以达到成功率的94%,同时将训练计算从11.6降低到2.4个Exaflops。与为此目的设计的三种测试时间技术相比,我们的香草代理人的可传递性高87.5%。我们的工作表明,训练代理人的方法被忽略了,尽管这是基于转移攻击的重要组成部分。因此,我们是第一个回顾几种培训方法在提高可传递性方面的有效性的。我们提供了新的方向,以更好地了解可转移性现象,并为将来的工作提供简单但强大的基线。
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
神经结构中的标准范例(NAS)是搜索具有特定操作和连接的完全确定性体系结构。在这项工作中,我们建议寻找最佳运行分布,从而提供了一种随机和近似解,可用于采样任意长度的架构。我们提出并显示,给定架构单元格,其性能主要取决于使用的操作的比率,而不是典型的搜索空间中的任何特定连接模式;也就是说,操作排序的小变化通常是无关紧要的。这种直觉与任何特定的搜索策略都具有正交,并且可以应用于多样化的NAS算法。通过对4数据集和4个NAS技术的广泛验证(贝叶斯优化,可分辨率搜索,本地搜索和随机搜索),我们表明操作分布(1)保持足够的辨别力来可靠地识别解决方案,并且(2)显着识别比传统的编码更容易优化,导致大量速度,几乎没有成本性能。实际上,这种简单的直觉显着降低了电流方法的成本,并可能使NAS用于更广泛的应用中。
translated by 谷歌翻译
在本文中,我们提出了一种基于沙普利价值的方法来评估用于神经体系结构搜索的操作贡献(Shapley-NAS)。可区分的体系结构搜索(DARTS)通过使用梯度下降优化体系结构参数来获取最佳体系结构,从而大大降低了搜索成本。但是,梯度下降更新的体系结构参数的幅度未能揭示对任务性能的实际操作重要性,因此损害了获得的体系结构的有效性。相比之下,我们建议评估操作对验证准确性的直接影响。为了处理超级核成分之间的复杂关系,我们通过考虑所有可能的组合来利用Shapley的价值来量化其边际贡献。具体而言,我们通过Shapley值评估操作贡献来迭代优化SuperNet权重,并更新体系结构参数,从而通过选择对任务贡献显着贡献的操作来得出最佳体系结构。由于Shapley值的确切计算是NP-HARD,因此采用了基于早期截断的蒙特卡洛抽样算法进行有效的近似,并且采用了动量更新机制来减轻采样过程的波动。在各种数据集和各种搜索空间上进行的广泛实验表明,我们的Shapley-NAS的表现优于最先进的方法,并具有相当大的利润,并具有轻盈的搜索成本。该代码可从https://github.com/euphoria16/shapley-nas.git获得
translated by 谷歌翻译
独立训练的神经网络的集合是一种最新的方法,可以在深度学习中估算预测性不确定性,并且可以通过三角洲函数的混合物解释为后验分布的近似值。合奏的培训依赖于损失景观的非跨性别性和其单个成员的随机初始化,从而使后近似不受控制。本文提出了一种解决此限制的新颖和原则性的方法,最大程度地减少了函数空间中真实后验和内核密度估计器(KDE)之间的$ f $ divergence。我们从组合的角度分析了这一目标,并表明它在任何$ f $的混合组件方面都是supporular。随后,我们考虑了贪婪合奏结构的问题。从负$ f $ didivergence上的边际增益来量化后近似的改善,通过将新组件添加到KDE中得出,我们得出了集合方法的新型多样性项。我们的方法的性能在计算机视觉的分布外检测基准测试中得到了证明,该基准在多个数据集中训练的一系列架构中。我们方法的源代码可在https://github.com/oulu-imeds/greedy_ensembles_training上公开获得。
translated by 谷歌翻译
Conventional neural architecture search (NAS) approaches are based on reinforcement learning or evolutionary strategy, which take more than 3000 GPU hours to find a good model on CIFAR-10. We propose an efficient NAS approach learning to search by gradient descent. Our approach represents the search space as a directed acyclic graph (DAG). This DAG contains billions of sub-graphs, each of which indicates a kind of neural architecture. To avoid traversing all the possibilities of the sub-graphs, we develop a differentiable sampler over the DAG. This sampler is learnable and optimized by the validation loss after training the sampled architecture. In this way, our approach can be trained in an end-to-end fashion by gradient descent, named Gradient-based search using Differentiable Architecture Sampler (GDAS). In experiments, we can finish one searching procedure in four GPU hours on CIFAR-10, and the discovered model obtains a test error of 2.82% with only 2.5M parameters, which is on par with the state-of-the-art. Code is publicly available on GitHub: https://github.com/D-X-Y/NAS-Projects.
translated by 谷歌翻译
强有力的对手例子是评估和增强深神经网络鲁棒性的关键。流行的对抗性攻击算法使用梯度上升最大化非cave损失函数。但是,每种攻击的性能通常对由于信息不足(仅一个输入示例,几乎没有白色盒子源模型和未知的防御策略)而敏感。因此,精心设计的对抗性示例容易过度拟合源模型,从而将其转移性限制在身份不明的架构上。在本文中,我们提出了多种渐近正态分布攻击(Multianda),这是一种新颖的方法,可以明确表征来自学习分布的对抗性扰动。具体而言,我们通过利用随机梯度上升(SGA)的渐近正态性能(SGA)的优势来近似于扰动,然后将整体策略应用于此过程,以估算高斯混合模型,以更好地探索潜在的优化空间。从学习分布中绘制扰动使我们能够为每个输入生成任何数量的对抗示例。近似后验实质上描述了SGA迭代的固定分布,该分布捕获了局部最佳距离周围的几何信息。因此,从分布中得出的样品可靠地保持转移性。我们提出的方法通过对七个正常训练和七个防御模型进行广泛的实验,超过了对具有或没有防御的深度学习模型的九个最先进的黑盒攻击。
translated by 谷歌翻译
神经体系结构搜索(NAS)的主要挑战之一是有效地对体系结构的性能进行排名。绩效排名者的主流评估使用排名相关性(例如,肯德尔的tau),这对整个空间都同样关注。但是,NAS的优化目标是识别顶级体系结构,同时对搜索空间中其他体系结构的关注更少。在本文中,我们从经验和理论上都表明,标准化的累积累积增益(NDCG)对于排名者来说是一个更好的指标。随后,我们提出了一种新算法Acenas,该算法直接通过Lambdarank优化NDCG。它还利用体重共享NAS产生的弱标签来预先培训排名,以便进一步降低搜索成本。对12个NAS基准和大规模搜索空间进行的广泛实验表明,我们的方法始终超过SOTA NAS方法,精度提高了3.67%,搜索成本降低了8倍。
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
尽管深层神经网络在各种任务中取得了巨大的成功,但它们对不可察觉的对抗性扰动的脆弱性阻碍了他们在现实世界中的部署。最近,与随机合奏的作品相对于经过最小的计算开销的标准对手训练(AT)模型,对对抗性训练(AT)模型的对抗性鲁棒性有了显着改善,这使它们成为安全临界资源限制应用程序的有前途解决方案。但是,这种令人印象深刻的表现提出了一个问题:这些稳健性是由随机合奏提供的吗?在这项工作中,我们从理论和经验上都解决了这个问题。从理论上讲,我们首先确定通常采用的鲁棒性评估方法(例如自适应PGD)在这种情况下提供了错误的安全感。随后,我们提出了一种理论上有效的对抗攻击算法(ARC),即使在自适应PGD无法做到这一点的情况下,也能妥协随机合奏。我们在各种网络体系结构,培训方案,数据集和规范上进行全面的实验,以支持我们的主张,并经验证明,随机合奏实际上比在模型上更容易受到$ \ ell_p $结合的对抗性扰动的影响。我们的代码可以在https://github.com/hsndbk4/arc上找到。
translated by 谷歌翻译
We propose a general purpose variational inference algorithm that forms a natural counterpart of gradient descent for optimization. Our method iteratively transports a set of particles to match the target distribution, by applying a form of functional gradient descent that minimizes the KL divergence. Empirical studies are performed on various real world models and datasets, on which our method is competitive with existing state-of-the-art methods. The derivation of our method is based on a new theoretical result that connects the derivative of KL divergence under smooth transforms with Stein's identity and a recently proposed kernelized Stein discrepancy, which is of independent interest.
translated by 谷歌翻译
已经发现深层神经网络容易受到对抗攻击的影响,从而引起了对安全敏感的环境的潜在关注。为了解决这个问题,最近的研究从建筑的角度研究了深神经网络的对抗性鲁棒性。但是,搜索深神经网络的体系结构在计算上是昂贵的,尤其是当与对抗性训练过程相结合时。为了应对上述挑战,本文提出了双重主体神经体系结构搜索方法。首先,我们制定了NAS问题,以增强深度神经网络的对抗性鲁棒性为多目标优化问题。具体而言,除了低保真绩效预测器作为第一个目标外,我们还利用辅助目标 - 其值是经过高保真评估训练的替代模型的输出。其次,我们通过结合三种性能估计方法,即参数共享,低保真评估和基于替代的预测指标来降低计算成本。在CIFAR-10,CIFAR-100和SVHN数据集上进行的广泛实验证实了所提出的方法的有效性。
translated by 谷歌翻译
对抗性培训(AT)已成为一种广泛认可的防御机制,以提高深度神经网络对抗对抗攻击的鲁棒性。它解决了最小的最大优化问题,其中最小化器(即,后卫)寻求稳健的模型,以最小化由最大化器(即,攻击者)制成的对抗示例存在的最坏情况训练损失。然而,Min-Max的性质在计算密集并因此难以扩展。同时,快速算法,实际上,许多最近改进的算法,通过替换基于简单的单次梯度标志的攻击生成步骤来简化基于最大化步骤的最小值。虽然易于实施,快速缺乏理论保证,其实际表现可能是不令人满意的,患有强大的对手训练时的鲁棒性灾难性过度。在本文中,我们从双级优化(BLO)的角度来看,旨在快速设计。首先,首先进行关键观察,即快速at的最常用的算法规范等同于使用一些梯度下降型算法来解决涉及符号操作的双级问题。然而,标志操作的离散性使得难以理解算法的性能。基于上述观察,我们提出了一种新的遗传性双层优化问题,设计和分析了一组新的算法(快速蝙蝠)。 FAST-BAT能够捍卫基于符号的投影梯度下降(PGD)攻击,而无需调用任何渐变标志方法和明确的鲁棒正则化。此外,我们经验证明,通过在不诱导鲁棒性灾难性过度的情况下实现卓越的模型稳健性,或患有任何标准精度损失的稳健性,我们的方法优于最先进的快速基线。
translated by 谷歌翻译
与传统的神经网络(TNN)不同,贝叶斯神经网络(BNNS)是通过掺入随机性来处理对抗性攻击的鲁棒和熟练。这种随机性提高了不确定性的估计,在TNN中缺乏特征。因此,我们研究了BNNS与使用多个贝叶斯神经架构的白盒攻击的鲁棒性。此外,我们通过将这种干预与对抗训练结合起来,通过将贝叶斯推动(即变分别贝叶斯)融合到DENSenet架构和BDAV来创建我们的BNN-DenSenet。实验在CiFar-10和FGVC飞机数据集上进行。我们用强大的白盒攻击攻击模型($ l_ \ infty $ -fgsm,$ l_ \ infty $ -pgd,$ l_2 $ -pgd,eot $ l_ \ idty $ -fgsm,和eot $ l_ \ infty $ - PGD​​)。在所有实验中,至少一个BNN在对抗性攻击场景期间优于传统的神经网络。在大多数实验中,普遍训练的BNN优于非贝叶斯,过性训练的对应物,通常由显着的边缘。最后,我们调查网络校准并发现BNN没有过度自信预测,提供证据,即BNN在测量不确定性时也更好。
translated by 谷歌翻译
贝叶斯神经网络(BNNS)已成为缓解深度学习中过度自信预测的主要方法,但由于大量分布参数,它们经常遭受扩展问题。在本文中,我们发现在单独再培训时,深网络的第一层拥有多个不同的Optima。这表示当第一层由贝叶斯层改变时的大后差,这使我们能够设计空间融合BNN(STF-BNN),以便有效地将BNN缩放到大型模型:(1)首先常常培训一个神经网络网络从头开始实现快速训练; (2)第一层被转换为贝叶斯和通过采用随机变分推断推断,而其他层是固定的。与香草BNN相比,我们的方法可以大大减少训练时间和参数的数量,这有助于高效地缩放BNN。我们进一步提供了对概括性和缓解STF-BNN过度限制的能力的理论保障。综合实验表明,STF-BNN(1)实现了最先进的性能,以进行预测和不确定量化; (2)显着提高对抗性鲁棒性和隐私保护; (3)大大降低了培训时间和内存成本。
translated by 谷歌翻译
神经体系结构搜索(NAS)的关键挑战是迅速推断了广泛的网络的预测性能,以发现统计准确和计算高效的网络。我们将此任务称为模型性能推断(MPI)。当前的有效MPI实践是基于梯度的方法,可利用网络初始化的梯度来推断其性能。但是,现有的基于梯度的方法仅依赖启发式指标,并且缺乏必要的理论基础来巩固其设计。我们提出了GradSign,一种准确,简单且灵活的指标,用于使用理论见解的模型性能推断。 GradSign背后的关键思想是一个数量{\ psi},以分析单个训练样本粒度下不同网络的优化格局。从理论上讲,我们表明,在合理的假设下,网络的培训和真实的人口损失都由{\ psi}在相称的上限。此外,我们设计了GradSign,使用在随机初始化状态下评估的网络梯度对{\ psi}进行精确而简单的近似。对三个培训数据集的七个NAS基准进行评估表明,毕业生对现实世界的网络很好地推广,并且始终优于Spearman的{\ rho}和Kendall's Tau评估的基于最新的基于梯度的MPI。此外,我们将GradSign集成到四种现有的NAS算法中,并表明,通过将最佳发现网络的准确性提高高达0.3%,1.1%和1.0%,这三个现实世界任务的精确度提高了毕业生辅助的NAS算法的表现优于其香草。 。
translated by 谷歌翻译