Vision Transformers(VITS)为计算机视觉的最新突破提供了基础。但是,设计VIT的架构是艰苦的,并且在很大程度上依赖专家知识。为了自动化设计过程并结合了部署灵活性,一击神经体系结构搜索将超级网训练和体系结构专业化解除了各种部署场景。为了应对超级网中的大量子网络,现有方法在培训期间的每个更新步骤中都同样重要且随机对所有体系结构进行处理。在体系结构搜索过程中,这些方法着重于在性能和资源消耗的帕累托前沿寻找体系结构,这在培训和部署之间形成了差距。在本文中,我们设计了一种简单而有效的方法,称为FocusFormer,以弥合这种差距。为此,我们建议学习一个体系结构采样器,以在超级网训练期间在不同的资源限制下为帕累托前沿上的这些架构分配更高的采样概率,从而使它们充分优化,从而提高其性能。在专业化过程中,我们可以直接使用训练有素的体系结构采样器来获得满足给定资源约束的准确体系结构,从而大大提高了搜索效率。关于CIFAR-100和Imagenet的广泛实验表明,我们的FocusFormer能够提高搜索架构的性能,同时大大降低搜索成本。例如,在ImageNet上,我们具有1.4G FLOPS的FocusFormer-Ti在TOP-1准确性方面优于自动构架Ti 0.5%。
translated by 谷歌翻译
在许多真实世界应用程序中,我们经常需要处理各种部署方案,其中动态指定资源约束和对应于一组类的感兴趣的超类。如何为各种部署方案有效地部署深层模型是一个新的挑战。以前的NAS方法寻求同时为所有课程设计架构,这可能对某些单独的超类可能不是最佳的。直接解决方案是从划痕搜索每个部署方案的架构,然而,这是计算密集型和不切实际的。为了解决这个问题,我们提出了一种新颖且一般的框架,称为弹性架构搜索(EAS),允许在运行时即时专业化,以便具有各种资源限制的不同超类。为此,我们首先建议通过超类辍学策略有效地培训过参数化网络,以在训练期间解开不同的超类。以这种方式,所得到的模型对于在推理时间下降的随后的超类稳健。基于训练有素的过度参数化网络,我们提出了一个有效的架构生成器,以便在单个前向传递中获得有希望的架构。在三个图像分类数据集上的实验表明,EAS能够找到具有更好性能的更紧凑的网络,同时比最先进的NAS方法更快的数量序列。例如,我们的建议EA在50个部署方案中找到了0.1秒内的紧凑架构。
translated by 谷歌翻译
神经体系结构搜索(NAS)是自动化有效图像处理DNN设计的强大工具。该排名已被倡导为NAS设计有效的性能预测指标。先前的对比方法通过比较架构对并预测其相对性能来解决排名问题。但是,它仅关注两个相关建筑之间的排名,而忽略了搜索空间的整体质量分布,这可能会遇到概括性问题。提出了一个预测因子,即专注于特定体系结构的全球质量层的神经体系结构排名,以解决由当地观点引起的此类问题。 NAR在全球范围内探索搜索空间的质量层,并根据其全球排名将每个人分类为他们所属的层。因此,预测变量获得了搜索空间的性能分布的知识,这有助于更轻松地将其排名能力推广到数据集。同时,全球质量分布通过根据质量层的统计数据直接对候选者进行采样,从而促进了搜索阶段,而质量层的统计数据没有培训搜索算法,例如增强型学习(RL)或进化算法(EA),因此简化了NAS管道并保存计算开销。拟议的NAR比在两个广泛使用的NAS研究数据集上的最先进方法取得了更好的性能。在NAS-Bench-101的庞大搜索空间中,NAR可以轻松地找到具有最高0.01 $ \ unicode {x2030} $ performance的架构。它还可以很好地概括为NAS Bench-201的不同图像数据集,即CIFAR-10,CIFAR-100和Imagenet-16-120,通过识别每个它们的最佳体系结构。
translated by 谷歌翻译
Pure transformers have shown great potential for vision tasks recently. However, their accuracy in small or medium datasets is not satisfactory. Although some existing methods introduce a CNN as a teacher to guide the training process by distillation, the gap between teacher and student networks would lead to sub-optimal performance. In this work, we propose a new One-shot Vision transformer search framework with Online distillation, namely OVO. OVO samples sub-nets for both teacher and student networks for better distillation results. Benefiting from the online distillation, thousands of subnets in the supernet are well-trained without extra finetuning or retraining. In experiments, OVO-Ti achieves 73.32% top-1 accuracy on ImageNet and 75.2% on CIFAR-100, respectively.
translated by 谷歌翻译
We revisit the one-shot Neural Architecture Search (NAS) paradigm and analyze its advantages over existing NAS approaches. Existing one-shot method, however, is hard to train and not yet effective on large scale datasets like ImageNet. This work propose a Single Path One-Shot model to address the challenge in the training. Our central idea is to construct a simplified supernet, where all architectures are single paths so that weight co-adaption problem is alleviated. Training is performed by uniform path sampling. All architectures (and their weights) are trained fully and equally. Comprehensive experiments verify that our approach is flexible and effective. It is easy to train and fast to search. It effortlessly supports complex search spaces (e.g., building blocks, channel, mixed-precision quantization) and different search constraints (e.g., FLOPs, latency). It is thus convenient to use for various needs. It achieves start-of-the-art performance on the large dataset ImageNet.Equal contribution. This work is done when Haoyuan Mu and Zechun Liu are interns at MEGVII Technology.
translated by 谷歌翻译
网络量化是一种有效的压缩方法,以降低模型大小和计算成本。尽管压缩比高,但训练低精度模型由于量化的离散和不可分散的性质,难以实现相当大的性能下降。最近,提出了清晰度感知最小化(SAM),以通过同时最小化损耗值和损耗曲率来改善模型的泛化性能。在本文中,我们设计了锐度感知量化(SAQ)方法来培训量化模型,从而导致更好的泛化性能。此外,由于每个层与网络的损耗和损耗锐度有不同的贡献,我们进一步设计了一种有效的方法,该方法学习配置生成器以自动确定每层的位宽度配置,鼓励平面区域的较低位,反之亦然尖锐的景观,同时促进最小值的平整度,以实现更积极的量化。对CiFar-100和Imagenet的广泛实验显示了所提出的方法的优越性。例如,我们的量化Reset-18具有55.1X比特操作(BOP)减少甚至在前1个精度方面均匀地优于0.7%。代码可在https://github.com/zhuang-group/saq获得。
translated by 谷歌翻译
神经结构搜索(NAS)引起了日益增长的兴趣。为了降低搜索成本,最近的工作已经探讨了模型的重量分享,并在单枪NAS进行了重大进展。然而,已经观察到,单次模型精度较高的模型并不一定在独立培训时更好地执行更好。为了解决这个问题,本文提出了搜索空间的逐步自动设计,名为Pad-NAS。与超字幕中的所有层共享相同操作搜索空间的先前方法不同,我们根据操作修剪制定逐行搜索策略,并构建层面操作搜索空间。通过这种方式,Pad-NAS可以自动设计每层的操作,并在搜索空间质量和模型分集之间实现权衡。在搜索过程中,我们还考虑了高效神经网络模型部署的硬件平台约束。关于Imagenet的广泛实验表明我们的方法可以实现最先进的性能。
translated by 谷歌翻译
视觉变压器在识别和检测等实质性视野任务中显示了很大的视觉表示功率,从而在手动设计更有效的架构方面吸引了快速增长的努力。在本文中,我们建议使用神经架构搜索来自动化此过程,不仅可以搜索架构,还可以搜索搜索空间。中央观点是逐步发展使用权重共享超空网的E-T错误引导的不同搜索维度。此外,我们提供了一般视觉变压器的设计指南,根据空间搜索过程进行广泛的分析,这可以促进对视觉变压器的理解。值得注意的是,搜索空间的搜索模型,名为S3(用于搜索空间的短路),从搜索到的空间实现了卓越的性能,以最近提出的型号,例如在ImageNet上进行评估时的Swin,Deit和Vit。 S3的有效性也在对象检测,语义细分和视觉问题上说明,展示其泛度到下游视觉和视觉语言任务。代码和型号将在https://github.com/microsoft/cream中使用。
translated by 谷歌翻译
可微分的架构搜索逐渐成为神经结构中的主流研究主题,以实现与早期NAS(基于EA的RL的)方法相比提高效率的能力。最近的可分辨率NAS还旨在进一步提高搜索效率,降低GPU记忆消耗,并解决“深度间隙”问题。然而,这些方法不再能够解决非微弱目标,更不用说多目标,例如性能,鲁棒性,效率和其他指标。我们提出了一个端到端的架构搜索框架,朝向非微弱的目标TND-NAS,具有在多目标NAs(MNA)中的不同NAS框架中的高效率的优点和兼容性的兼容性(MNA)。在可分辨率的NAS框架下,随着搜索空间的连续放松,TND-NAS具有在离散空间中优化的架构参数($ \ alpha $),同时通过$ \ alpha $逐步缩小超缩小的搜索策略。我们的代表性实验需要两个目标(参数,准确性),例如,我们在CIFAR10上实现了一系列高性能紧凑型架构(1.09米/ 3.3%,2.4M / 2.95%,9.57M / 2.54%)和CIFAR100(2.46 M / 18.3%,5.46 / 16.73%,12.88 / 15.20%)数据集。有利地,在现实世界的情景下(资源受限,平台专用),TND-NA可以方便地达到Pareto-Optimal解决方案。
translated by 谷歌翻译
本文探讨了从视觉变压器查找最佳子模型的可行性,并引入了纯Vision变压器减肥(VIT-SLIM)框架,可以在跨多个维度从原始模型的端到端搜索这样的子结构,包括输入令牌,MHSA和MLP模块,具有最先进的性能。我们的方法基于学习和统一的L1稀疏限制,具有预定的因素,以反映不同维度的连续搜索空间中的全局重要性。通过单次训练方案,搜索过程非常有效。例如,在DeIT-S中,VIT-SLIM仅需要〜43 GPU小时进行搜索过程,并且搜索结构具有灵活的不同模块中的多维尺寸。然后,根据运行设备上的精度折叠折衷的要求采用预算阈值,并执行重新训练过程以获得最终模型。广泛的实验表明,我们的耐比可以压缩高达40%的参数和40%的视觉变压器上的40%拖鞋,同时在Imagenet上提高了〜0.6%的精度。我们还展示了我们搜索模型在几个下游数据集中的优势。我们的源代码将公开提供。
translated by 谷歌翻译
神经体系结构搜索方法寻求具有有效的体重共享超级网训练的最佳候选者。但是,最近的研究表明,关于独立架构和共享重量网络之间的性能的排名一致性差。在本文中,我们提出了提前引导的一声NAS(PGONA),以加强超级网的排名相关性。具体而言,我们首先探讨激活功能的效果,并提出基于三明治规则的平衡采样策略,以减轻超级网中的重量耦合。然后,采用了拖鞋和禅宗得分来指导超级网的训练,并具有排名相关性损失。我们的PGONA在CVPR2022第二轻型NAS挑战赛的SuperNet轨道中排名第三。代码可在https://github.com/pprp/cvpr2022-nas?competition-track1-3th-solution中找到。
translated by 谷歌翻译
视觉变形金刚(VITS)继承了NLP的成功,但它们的结构尚未充分调查并针对视觉任务进行优化。最简单的解决方案之一是通过CNN中的广泛使用的神经结构搜索(NAS)直接搜索最佳的问题。但是,我们经验探讨了这种直接的适应将遇到灾难性的失败,并对超级形式的培训感到沮丧。在本文中,我们认为,由于VITS主要在令牌嵌入具有很小的归纳偏差上运行,因此不同架构的通道的不平衡将使重量共享假设恶化并导致培训不稳定。因此,我们开发了一种新的循环重量共享机制,用于令牌的VITS嵌入式,这使得每个通道能够更均匀地贡献所有候选架构。此外,我们还提出了身份转移,以减轻超级形式的多对一问题,并利用弱的增强和正规化技术以维持更稳定的培训。基于这些,我们所提出的方法Vitas在Deit-and Twins的Vits中取得了显着的优势。例如,只有1.4美元的G拖鞋预算,我们搜索的架构有3.3 \%$ ImageNet-比基准Deit为1美元$ k准确性。我们的结果达到3.0美元,我们的结果达到了82.0 \%$ 1 $ k,$ 1 $ k,$ 45.9 \%$ 2017 $上涨,这是2.4美元的$ 2.4 \%$优于其他VITS。
translated by 谷歌翻译
从搜索效率中受益,可区分的神经体系结构搜索(NAS)已发展为自动设计竞争性深神经网络(DNNS)的最主要替代品。我们注意到,必须在现实世界中严格的性能限制下执行DNN,例如,自动驾驶汽车的运行时间延迟。但是,要获得符合给定性能限制的体系结构,先前的硬件可区分的NAS方法必须重复多次搜索运行,以通过反复试验和错误手动调整超参数,因此总设计成本会成比例地增加。为了解决这个问题,我们引入了一个轻巧的硬件可区分的NAS框架,称为lightnas,努力找到所需的架构,通过一次性搜索来满足各种性能约束(即,\ \ suesperline {\ textIt {您只搜索一次}})) 。进行了广泛的实验,以显示LINDNA的优越性,而不是先前的最新方法。
translated by 谷歌翻译
视觉变压器(VITS)在各种计算机视觉任务方面取得了令人印象深刻的性能。然而,与多头自我关注(MSA)层建模的全局相关性导致两个广泛认可的问题:大规模计算资源消耗和用于建模局部视觉模式的内在电感偏差。一个统一的解决方案是搜索是否用基于神经架构搜索(NAS)的修剪方法来替换具有卷积相对的电感偏差的一些MSA层。然而,将MSA和不同的候选卷积作业保持为单独的可训练路径,这导致昂贵的搜索成本和具有挑战性的优化。相反,我们提出了一种新的MSA和卷积操作之间的重量共享方案,并将搜索问题投射为查找在每个MSA层中使用的参数子集。重量分享方案还允许我们设计自动单路径视觉变压器修剪方法(SPVIT),以便将预先训练的VIS,精简和紧凑的混合模型中快速修剪,以显着降低的搜索成本,给定目标效率约束。我们对两个代表性毒性模型进行了广泛的实验,显示了我们的方法实现了有利的准确性效率折衷。代码可在https://github.com/zhuang-group/spvit使用。
translated by 谷歌翻译
神经体系结构搜索(NAS)旨在自动化体系结构设计过程并改善深神经网络的性能。平台感知的NAS方法同时考虑性能和复杂性,并且可以找到具有低计算资源的表现良好的体系结构。尽管普通的NAS方法由于模型培训的重复而导致了巨大的计算成本,但在搜索过程中,训练包含所有候选架构的超级网的权重训练了一杆NAS,据报道会导致搜索成本较低。这项研究着重于体系结构复杂性的单发NAS,该NA优化了由两个指标的加权总和组成的目标函数,例如预测性能和参数数量。在现有方法中,必须使用加权总和的不同系数多次运行架构搜索过程,以获得具有不同复杂性的多个体系结构。这项研究旨在降低与寻找多个体系结构相关的搜索成本。提出的方法使用多个分布来生成具有不同复杂性的体系结构,并使用基于重要性采样的多个分布获得的样本来更新每个分布。提出的方法使我们能够在单个体系结构搜索中获得具有不同复杂性的多个体系结构,从而降低了搜索成本。所提出的方法应用于CIAFR-10和Imagenet数据集上卷积神经网络的体系结构搜索。因此,与基线方法相比,提出的方法发现了多个复杂性不同的架构,同时需要减少计算工作。
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
功能提取器在文本识别(TR)中起着至关重要的作用,但是由于昂贵的手动调整,自定义其体系结构的探索相对较少。在这项工作中,受神经体系结构搜索(NAS)的成功启发,我们建议搜索合适的功能提取器。我们通过探索具有良好功能提取器的原理来设计特定于域的搜索空间。该空间包括用于空间模型的3D结构空间和顺序模型的基于转换的空间。由于该空间是巨大且结构复杂的,因此无法应用现有的NAS算法。我们提出了一种两阶段算法,以有效地在空间中进行搜索。在第一阶段,我们将空间切成几个块,并借助辅助头逐步训练每个块。我们将延迟约束引入第二阶段,并通过自然梯度下降从受过训练的超级网络搜索子网络。在实验中,进行了一系列消融研究,以更好地了解设计的空间,搜索算法和搜索架构。我们还将所提出的方法与手写和场景TR任务上的各种最新方法进行了比较。广泛的结果表明,我们的方法可以以较小的延迟获得更好的识别性能。
translated by 谷歌翻译
神经体系结构搜索(NAS)最近在深度学习社区中变得越来越流行,主要是因为它可以提供一个机会,使感兴趣的用户没有丰富的专业知识,从而从深度神经网络(DNNS)的成功中受益。但是,NAS仍然很费力且耗时,因为在NAS的搜索过程中需要进行大量的性能估计,并且训练DNNS在计算上是密集的。为了解决NAS的主要局限性,提高NAS的效率对于NAS的设计至关重要。本文以简要介绍了NAS的一般框架。然后,系统地讨论了根据代理指标评估网络候选者的方法。接下来是对替代辅助NAS的描述,该NAS分为三个不同类别,即NAS的贝叶斯优化,NAS的替代辅助进化算法和NAS的MOP。最后,讨论了剩余的挑战和开放研究问题,并在这个新兴领域提出了有希望的研究主题。
translated by 谷歌翻译
最近,社区对模型缩放的关注越来越多,并有助于开发具有广泛尺度的模型家族。当前的方法要么简单地采用单发NAS的方式来构建非结构性和不可缩放的模型家族,要么依靠手动固定的缩放策略来扩展不必要的最佳基础模型。在本文中,我们桥接了两个组件,并将Scalenet提出到共同搜索基础模型和缩放策略,以便缩放大型模型可以具有更有希望的性能。具体来说,我们设计了一个超级植物,以体现具有不同尺寸频谱(例如拖鞋)的模型。然后,可以通过基于马尔可夫链的进化算法与基本模型进行交互学习缩放策略,并概括以开发更大的模型。为了获得一个体面的超级植物,我们设计了一种分层抽样策略,以增强其训练充足并减轻干扰。实验结果表明,我们的缩放网络在各种失败的方面都具有显着的性能优势,但搜索成本至少降低了2.53倍。代码可在https://github.com/luminolx/scalenet上找到。
translated by 谷歌翻译