智能论文笔记

Towards Self-supervised and Weight-preserving Neural Architecture Search

Zhuowei Li , Yibo Gao , Zhenzhou Zha , Zhiqiang HU , Qing Xia , Shaoting Zhang , Dimitris N. Metaxas

分类：计算机视觉

2022-06-08

神经建筑搜索（NAS）算法可节省人类专家的巨大劳动。最近的进步进一步将计算开销降低到负担得起的水平。但是，由于挑剔的程序和监督的学习范式，将NAS技术部署在现实世界应用程序中仍然很麻烦。在这项工作中，我们通过允许自我审议并保留在搜索阶段发现的伴随的权重，提出了自我监管和举重的神经体系结构搜索（SSWP-NAS）作为当前NAS框架的扩展。因此，我们将NAS的工作流程简化为单阶段和无代理程序。实验表明，通过所提出的框架搜索的架构实现了CIFAR-10，CIFAR-100和Imagenet数据集上的最新精度，而无需使用手动标签。此外，我们表明，使用伴随的权重作为初始化始终优于随机初始化和两阶段的权重预训练方法，在半监督的学习方案下清晰的边缘。代码可在https://github.com/lzvv123456/sswp-nas上公开获得。

translated by 谷歌翻译

TND-NAS: Towards Non-differentiable Objectives in Progressive Differentiable NAS Framework

Bo Lyu , Shiping Wen , Zheng Yan , Kaibo Shi , Ke Li , Tingwen Huang

分类：机器学习 | 人工智能

2021-11-06

可微分的架构搜索逐渐成为神经结构中的主流研究主题，以实现与早期NAS（基于EA的RL的）方法相比提高效率的能力。最近的可分辨率NAS还旨在进一步提高搜索效率，降低GPU记忆消耗，并解决“深度间隙”问题。然而，这些方法不再能够解决非微弱目标，更不用说多目标，例如性能，鲁棒性，效率和其他指标。我们提出了一个端到端的架构搜索框架，朝向非微弱的目标TND-NAS，具有在多目标NAs（MNA）中的不同NAS框架中的高效率的优点和兼容性的兼容性（MNA）。在可分辨率的NAS框架下，随着搜索空间的连续放松，TND-NAS具有在离散空间中优化的架构参数（$ \ alpha $），同时通过$ \ alpha $逐步缩小超缩小的搜索策略。我们的代表性实验需要两个目标（参数，准确性），例如，我们在CIFAR10上实现了一系列高性能紧凑型架构（1.09米/ 3.3％，2.4M / 2.95％，9.57M / 2.54％）和CIFAR100（2.46 M / 18.3％，5.46 / 16.73％，12.88 / 15.20％）数据集。有利地，在现实世界的情景下（资源受限，平台专用），TND-NA可以方便地达到Pareto-Optimal解决方案。

translated by 谷歌翻译

Differentiable Architecture Search Meets Network Pruning at Initialization: A More Reliable, Efficient, and Flexible Framework

Miao Zhang , Steven Su , Shirui Pan , Xiaojun Chang , Wei Huang , Bin Yang , Gholamreza Haffari

分类：机器学习 | 计算机视觉

2021-06-22

虽然可分辨率的架构搜索（飞镖）已成为神经结构中的主流范例（NAS），因为其简单和效率，最近的作品发现，搜索架构的性能几乎可以随着飞镖的优化程序而增加，以及最终的大小由飞镖获得几乎无法表明运营的重要性。上述观察表明，飞镖中的监督信号可能是架构搜索的穷人或不可靠的指标，鼓励有趣和有趣的方向：我们可以衡量不可分辨率范式下的任何培训的运作重要性吗？我们通过在初始化问题的网络修剪中定制NAS提供肯定的答案。随着最近建议的突触突触效力标准在初始化的网络修剪中，我们寻求在没有任何培训的情况下将候选人行动中的候选人行动的重要性进行评分，并提出了一种名为“免费可分辨的架构搜索}（Freedarts）的小说框架” 。我们表明，没有任何培训，具有不同代理度量的自由路由器可以在不同的搜索空间中优于大多数NAS基线。更重要的是，Freedarts是非常内存的高效和计算效率，因为它放弃了架构搜索阶段的培训，使得能够在更灵活的空间上执行架构搜索并消除架构搜索和评估之间的深度间隙。我们希望我们的工作激励从初始化修剪的角度来激发解决NAS的尝试。

translated by 谷歌翻译

BaLeNAS: Differentiable Architecture Search via the Bayesian Learning Rule

Miao Zhang , Jilin Hu , Steven Su , Shirui Pan , Xiaojun Chang , Bin Yang , Gholamreza Haffari

分类：机器学习

2021-11-25

近年来，可微弱的建筑搜索（飞镖）已经受到了大量的关注，主要是因为它通过重量分享和连续放松来显着降低计算成本。然而，更近期的作品发现现有的可分辨率NAS技术难以俯视幼稚基线，产生劣化架构作为搜索所需。本文通过将体系结构权重放入高斯分布，而不是直接优化架构参数，而不是直接优化架构参数，而是作为分布学习问题。通过利用自然梯度变分推理（NGVI），可以基于现有的码票来容易地优化架构分布而不会产生更多内存和计算消耗。我们展示了贝叶斯原则的可分解NAS如何益处，提高勘探和提高稳定性。 NAS-BENCH-201和NAS-BENCH-1SHOT1基准数据集的实验结果证实了所提出的框架可以制造的重要改进。此外，我们还在学习参数上只需简单地应用argmax，我们进一步利用了NAS中最近提出的无培训代理，从优化分布中汲取的组架构中选择最佳架构，从而实现最终的架构-ART在NAS-BENCH-201和NAS-BENCH-1SHOT1基准上的结果。我们在飞镖搜索空间中的最佳架构也会分别获得2.37 \％，15.72 \％和24.2 \％的竞争性测试错误，分别在Cifar-10，CiFar-100和Imagenet数据集上。

translated by 谷歌翻译

A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks

Zihan Yang , Richard O. Sinnott , James Bailey , Qiuhong Ke

分类：计算机视觉

2022-06-14

近年来，计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术，深层模型需要大量准确标记的培训数据，这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强（DA），可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同，因为不同的数据类型可能需要不同的增强以促进模型培训。但是，DA策略的设计主要由具有领域知识的人类专家决定，这被认为是高度主观和错误的。为了减轻此类问题，一个新颖的方向是使用自动数据增强（AUTODA）技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件：搜索空间，搜索算法和评估功能。根据他们的架构，我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品，讨论了他们的利弊，并提出了一些潜在的方向以进行未来的改进。

translated by 谷歌翻译

Revisiting the Critical Factors of Augmentation-Invariant Representation Learning

Junqiang Huang , Xiangwen Kong , Xiangyu Zhang

分类：计算机视觉 | 机器学习

2022-07-30

我们专注于更好地理解增强不变代表性学习的关键因素。我们重新访问moco v2和byol，并试图证明以下假设的真实性：不同的框架即使具有相同的借口任务也会带来不同特征的表示。我们建立了MoCo V2和BYOL之间公平比较的第一个基准，并观察：（i）复杂的模型配置使得可以更好地适应预训练数据集；（ii）从实现竞争性转移表演中获得的预训练和微调阻碍模型的优化策略不匹配。鉴于公平的基准，我们进行进一步的研究并发现网络结构的不对称性赋予对比框架在线性评估协议下正常工作，同时可能会损害长尾分类任务的转移性能。此外，负样本并不能使模型更明智地选择数据增强，也不会使不对称网络结构结构。我们相信我们的发现为将来的工作提供了有用的信息。

translated by 谷歌翻译

Design Automation for Fast, Lightweight, and Effective Deep Learning Models: A Survey

Dalin Zhang , Kaixuan Chen , Yan Zhao , Bin Yang , Lina Yao , Christian S. Jensen

分类：机器学习 | 人工智能

2022-08-22

深度学习技术在各种任务中都表现出了出色的有效性，并且深度学习具有推进多种应用程序（包括在边缘计算中）的潜力，其中将深层模型部署在边缘设备上，以实现即时的数据处理和响应。一个关键的挑战是，虽然深层模型的应用通常会产生大量的内存和计算成本，但Edge设备通常只提供非常有限的存储和计算功能，这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案，以释放边缘设备的潜力，同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计，这些模型轻巧，仅需少量存储，并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较，这些指标通常用于量化模型在有效性，轻度和计算成本方面的水平。然后，该调查涵盖了深层设计自动化技术的三类最新技术：自动化神经体系结构搜索，自动化模型压缩以及联合自动化设计和压缩。最后，调查涵盖了未来研究的开放问题和方向。

translated by 谷歌翻译

Mutually-aware Sub-Graphs Differentiable Architecture Search

Haoxian Tan , Sheng Guo , Yujie Zhong , Matthew R. Scott , Weilin Huang

分类：计算机视觉

2021-07-09

在NAS领域中，可分构造的架构搜索是普遍存在的，因为它的简单性和效率，其中两个范例，多路径算法和单路径方法主导。多路径框架（例如，DARTS）是直观的，但遭受内存使用和培训崩溃。单路径方法（例如，e.g.gdas和proxylesnnas）减轻了内存问题并缩小了搜索和评估之间的差距，但牺牲了性能。在本文中，我们提出了一种概念上简单的且有效的方法来桥接这两个范式，称为相互意识的子图可差架构搜索（MSG-DAS）。我们框架的核心是一个可分辨动的Gumbel-Topk采样器，它产生多个互斥的单路径子图。为了缓解多个子图形设置所带来的Severer Skip-Connect问题，我们提出了一个Dropblock-Identity模块来稳定优化。为了充分利用可用的型号（超级网和子图），我们介绍了一种记忆高效的超净指导蒸馏，以改善培训。所提出的框架击中了灵活的内存使用和搜索质量之间的平衡。我们展示了我们在想象中和CIFAR10上的方法的有效性，其中搜索的模型显示了与最近的方法相当的性能。

translated by 谷歌翻译

PR-DARTS: Pruning-Based Differentiable Architecture Search

Hamid Mousavi , Mohammad Loni , Mina Alibeigi , Masoud Daneshtalab

分类：计算机视觉

2022-07-14

边缘设备上卷积神经网络（CNN）的部署受到性能要求和可用处理能力之间的巨大差距的阻碍。尽管最近的研究在开发网络修剪方法以减少CNN的计算开销方面取得了长足的进步，但仍然存在相当大的准确性损失，尤其是在高修剪比率下。质疑为非封闭网络设计的架构可能对修剪网络没有效，我们建议通过定义新的搜索空间和新颖的搜索目标来搜索架构修剪方法。为了改善修剪网络的概括，我们提出了两个新型的原始孔和prunedlinearaare操作。具体而言，这些操作通过正规化修剪网络的目标函数来缓解不稳定梯度的问题。提出的搜索目标使我们能够培训有关修剪权重元素的体系结构参数。定量分析表明，我们的搜索架构优于在CIFAR-10和Imagenet上最先进的修剪网络中使用的体系结构。就硬件效率而言，PR-DARTS将Mobilenet-V2的准确性从73.44％提高到81.35％（+7.91％提高），并且运行3.87 $ \ times $的速度更快。

translated by 谷歌翻译

Full-attention based Neural Architecture Search using Context Auto-regression

Yuan Zhou , Haiyang Wang , Shuwei Huo , Boyu Wang

分类：计算机视觉 | 机器学习

2021-11-13

自我关注架构被出现为最近提高视力任务表现的最新进步。手动确定自我关注网络的架构依赖于专家的经验，无法自动适应各种场景。同时，神经结构搜索（NAS）显着推出了神经架构的自动设计。因此，需要考虑使用NAS方法自动发现更好的自我关注架构。然而，由于基于细胞的搜索空间统一和缺乏长期内容依赖性，直接使用现有的NAS方法来搜索关注网络是具有挑战性的。为了解决这个问题，我们提出了一种基于全部关注的NAS方法。更具体地，构造阶段明智的搜索空间，其允许为网络的不同层采用各种关注操作。为了提取全局特征，提出了一种使用上下文自动回归来发现全部关注架构的自我监督的搜索算法。为了验证所提出的方法的功效，我们对各种学习任务进行了广泛的实验，包括图像分类，细粒度的图像识别和零拍摄图像检索。经验结果表明，我们的方法能够发现高性能，全面关注架构，同时保证所需的搜索效率。

translated by 谷歌翻译

A Survey on Surrogate-assisted Efficient Neural Architecture Search

Shiqing Liu , Haoyu Zhang , Yaochu Jin

分类：机器学习 | 神经与进化计算

2022-06-03

神经体系结构搜索（NAS）最近在深度学习社区中变得越来越流行，主要是因为它可以提供一个机会，使感兴趣的用户没有丰富的专业知识，从而从深度神经网络（DNNS）的成功中受益。但是，NAS仍然很费力且耗时，因为在NAS的搜索过程中需要进行大量的性能估计，并且训练DNNS在计算上是密集的。为了解决NAS的主要局限性，提高NAS的效率对于NAS的设计至关重要。本文以简要介绍了NAS的一般框架。然后，系统地讨论了根据代理指标评估网络候选者的方法。接下来是对替代辅助NAS的描述，该NAS分为三个不同类别，即NAS的贝叶斯优化，NAS的替代辅助进化算法和NAS的MOP。最后，讨论了剩余的挑战和开放研究问题，并在这个新兴领域提出了有希望的研究主题。

translated by 谷歌翻译

Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search

Han Xiao , Ziwei Wang , Zheng Zhu , Jie Zhou , Jiwen Lu

分类：机器学习 | 计算机视觉

2022-06-20

在本文中，我们提出了一种基于沙普利价值的方法来评估用于神经体系结构搜索的操作贡献（Shapley-NAS）。可区分的体系结构搜索（DARTS）通过使用梯度下降优化体系结构参数来获取最佳体系结构，从而大大降低了搜索成本。但是，梯度下降更新的体系结构参数的幅度未能揭示对任务性能的实际操作重要性，因此损害了获得的体系结构的有效性。相比之下，我们建议评估操作对验证准确性的直接影响。为了处理超级核成分之间的复杂关系，我们通过考虑所有可能的组合来利用Shapley的价值来量化其边际贡献。具体而言，我们通过Shapley值评估操作贡献来迭代优化SuperNet权重，并更新体系结构参数，从而通过选择对任务贡献显着贡献的操作来得出最佳体系结构。由于Shapley值的确切计算是NP-HARD，因此采用了基于早期截断的蒙特卡洛抽样算法进行有效的近似，并且采用了动量更新机制来减轻采样过程的波动。在各种数据集和各种搜索空间上进行的广泛实验表明，我们的Shapley-NAS的表现优于最先进的方法，并具有相当大的利润，并具有轻盈的搜索成本。该代码可从https://github.com/euphoria16/shapley-nas.git获得

translated by 谷歌翻译

RARTS: An Efficient First-Order Relaxed Architecture Search Method

Fanghui Xue , Yingyong Qi , Jack Xin

分类：机器学习 | 计算机视觉 | (统计)机器学习

2020-08-10

可区分架构搜索（飞镖）是基于解决双重优化问题的数据驱动神经网络设计的有效方法。尽管在许多体系结构搜索任务中取得了成功，但仍然担心一阶飞镖的准确性和二阶飞镖的效率。在本文中，我们制定了单个级别的替代方案和放松的体系结构搜索（RARTS）方法，该方法通过数据和网络拆分利用整个数据集在体系结构学习中，而无需涉及相应损失功能（如飞镖）的混合第二个衍生物。在我们制定网络拆分的过程中，两个具有不同但相关权重的网络在寻找共享体系结构时进行了合作。 RART比飞镖的优势通过收敛定理和可解析的模型证明是合理的。此外，RART在准确性和搜索效率方面优于飞镖及其变体，如足够的实验结果所示。对于搜索拓扑结构（即边缘和操作）的任务，RART获得了比CIFAR-10上的二阶Darts更高的精度和60 \％的计算成本降低。转移到Imagenet时，RART继续超越表演飞镖，并且与最近的飞镖变体相提并论，尽管我们的创新纯粹是在训练算法上，而无需修改搜索空间。对于搜索宽度的任务，即卷积层中的频道数量，RARTS还优于传统的网络修剪基准。关于公共体系结构搜索基准等NATS BENCH的进一步实验也支持RARTS的优势。

translated by 谷歌翻译

OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions

Chengkun Wang , Wenzhao Zheng , Zheng Zhu , Jie Zhou , Jiwen Lu

分类：计算机视觉 | 人工智能 | 机器学习

2022-10-11

The pretrain-finetune paradigm in modern computer vision facilitates the success of self-supervised learning, which tends to achieve better transferability than supervised learning. However, with the availability of massive labeled data, a natural question emerges: how to train a better model with both self and full supervision signals? In this paper, we propose Omni-suPErvised Representation leArning with hierarchical supervisions (OPERA) as a solution. We provide a unified perspective of supervisions from labeled and unlabeled data and propose a unified framework of fully supervised and self-supervised learning. We extract a set of hierarchical proxy representations for each image and impose self and full supervisions on the corresponding proxy representations. Extensive experiments on both convolutional neural networks and vision transformers demonstrate the superiority of OPERA in image classification, segmentation, and object detection. Code is available at: https://github.com/wangck20/OPERA.

translated by 谷歌翻译

Exploring Complicated Search Spaces with Interleaving-Free Sampling

Yunjie Tian , Lingxi Xie , Jiemin Fang , Jianbin Jiao , Qixiang Ye , Qi Tian

分类：机器学习 | 计算机视觉

2021-12-05

现有的神经结构搜索算法主要在具有短距离连接的搜索空间上。我们争辩说，这种设计虽然安全稳定，障碍搜索算法从探索更复杂的情景。在本文中，我们在具有长距离连接的复杂搜索空间上构建搜索算法，并显示现有的权重共享搜索算法由于存在\ TextBF {交织连接}而大部分失败。基于观察，我们介绍了一个名为\ textbf {if-nas}的简单且有效的算法，在那里我们在搜索过程中执行定期采样策略来构建不同的子网，避免在任何中的交织连接出现。在所提出的搜索空间中，IF-NAS优于随机采样和先前的重量共享搜索算法，通过显着的余量。 IF-NAS还推广到微单元的空间，这些空间更容易。我们的研究强调了宏观结构的重要性，我们期待沿着这个方向进一步努力。

translated by 谷歌翻译

Searching for A Robust Neural Architecture in Four GPU Hours

Xuanyi Dong , Yi Yang

分类：

2019-10-10

Conventional neural architecture search (NAS) approaches are based on reinforcement learning or evolutionary strategy, which take more than 3000 GPU hours to find a good model on CIFAR-10. We propose an efficient NAS approach learning to search by gradient descent. Our approach represents the search space as a directed acyclic graph (DAG). This DAG contains billions of sub-graphs, each of which indicates a kind of neural architecture. To avoid traversing all the possibilities of the sub-graphs, we develop a differentiable sampler over the DAG. This sampler is learnable and optimized by the validation loss after training the sampled architecture. In this way, our approach can be trained in an end-to-end fashion by gradient descent, named Gradient-based search using Differentiable Architecture Sampler (GDAS). In experiments, we can finish one searching procedure in four GPU hours on CIFAR-10, and the discovered model obtains a test error of 2.82% with only 2.5M parameters, which is on par with the state-of-the-art. Code is publicly available on GitHub: https://github.com/D-X-Y/NAS-Projects.

translated by 谷歌翻译

Differentiable Architecture Search with Random Features

Xuanyang Zhang , Yonggang Li , Xiangyu Zhang , Yongtao Wang , Jian Sun

分类：计算机视觉

2022-08-18

可区分的架构搜索（飞镖）大大促进了NAS技术的发展，因为其搜索效率很高，但遭受了性能崩溃的影响。在本文中，我们努力从两个方面减轻飞镖的性能崩溃问题。首先，我们研究了飞镖中超级网的表达能力，然后仅使用训练batchnorm来得出新的飞镖范式设置。其次，从理论上讲，随机特征稀释了跳过连接在超网优化中的辅助连接作用，并使搜索算法专注于更公平的操作选择，从而解决了性能崩溃问题。我们具有随机功能的实例化飞镖和PC-Darts，分别为每个命名的RF-Darts和RF-PCDART构建一个改进的版本。实验结果表明，RF-darts在CIFAR-10上获得\ TextBf {94.36 \％}测试精度（这是NAS Bench-201的最接近最佳结果），并实现了最新的最新最先进的TOP-1从CIFAR-10传输时，ImageNet上\ TextBf {24.0 \％}的测试错误。此外，RF-DARTS在三个数据集（CIFAR-10，CIFAR-100和SVHN）和四个搜索空间（S1-S4）上进行稳健性能。此外，RF-PCDARTS在Imagenet上取得了更好的结果，即\ textbf {23.9 \％} top-1和\ textbf {7.1 \％} top-5 top-5测试错误，超越了代表性的方法，例如单路径，训练免费，，直接在Imagenet上搜索部分通道范例。

translated by 谷歌翻译

Differentiable Search of Accurate and Robust Architectures

Yuwei Ou , Xiangning Xie , Shangce Gao , Yanan Sun , Kay Chen Tan , Jiancheng Lv

分类：机器学习 | 人工智能

2022-12-28

Deep neural networks (DNNs) are found to be vulnerable to adversarial attacks, and various methods have been proposed for the defense. Among these methods, adversarial training has been drawing increasing attention because of its simplicity and effectiveness. However, the performance of the adversarial training is greatly limited by the architectures of target DNNs, which often makes the resulting DNNs with poor accuracy and unsatisfactory robustness. To address this problem, we propose DSARA to automatically search for the neural architectures that are accurate and robust after adversarial training. In particular, we design a novel cell-based search space specially for adversarial training, which improves the accuracy and the robustness upper bound of the searched architectures by carefully designing the placement of the cells and the proportional relationship of the filter numbers. Then we propose a two-stage search strategy to search for both accurate and robust neural architectures. At the first stage, the architecture parameters are optimized to minimize the adversarial loss, which makes full use of the effectiveness of the adversarial training in enhancing the robustness. At the second stage, the architecture parameters are optimized to minimize both the natural loss and the adversarial loss utilizing the proposed multi-objective adversarial training method, so that the searched neural architectures are both accurate and robust. We evaluate the proposed algorithm under natural data and various adversarial attacks, which reveals the superiority of the proposed method in terms of both accurate and robust architectures. We also conclude that accurate and robust neural architectures tend to deploy very different structures near the input and the output, which has great practical significance on both hand-crafting and automatically designing of accurate and robust neural architectures.

translated by 谷歌翻译

Approximate Neural Architecture Search via Operation Distribution Learning

Xingchen Wan , Binxin Ru , Pedro M. Esperança , Fabio M. Carlucci

分类：机器学习 | 计算机视觉 | (统计)机器学习

2021-11-08

神经结构中的标准范例（NAS）是搜索具有特定操作和连接的完全确定性体系结构。在这项工作中，我们建议寻找最佳运行分布，从而提供了一种随机和近似解，可用于采样任意长度的架构。我们提出并显示，给定架构单元格，其性能主要取决于使用的操作的比率，而不是典型的搜索空间中的任何特定连接模式;也就是说，操作排序的小变化通常是无关紧要的。这种直觉与任何特定的搜索策略都具有正交，并且可以应用于多样化的NAS算法。通过对4数据集和4个NAS技术的广泛验证（贝叶斯优化，可分辨率搜索，本地搜索和随机搜索），我们表明操作分布（1）保持足够的辨别力来可靠地识别解决方案，并且（2）显着识别比传统的编码更容易优化，导致大量速度，几乎没有成本性能。实际上，这种简单的直觉显着降低了电流方法的成本，并可能使NAS用于更广泛的应用中。

translated by 谷歌翻译

On the Pros and Cons of Momentum Encoder in Self-Supervised Visual Representation Learning

Trung Pham , Chaoning Zhang , Axi Niu , Kang Zhang , Chang D. Yoo

分类：计算机视觉

2022-08-11

指数移动平均值（EMA或动量）被广泛用于现代自学学习（SSL）方法，例如MOCO，以提高性能。我们证明，这种动量也可以插入无动量的SSL框架（例如SIMCLR），以提高性能。尽管它广泛用作现代SSL框架中的基本组成部分，但动量造成的好处尚未得到充分理解。我们发现它的成功至少可以部分归因于稳定性效应。在第一次尝试中，我们分析了EMA如何影响编码器的每个部分，并揭示了编码器输入附近的部分起着微不足道的作用，而后者则具有更大的影响。通过监测编码器中每个块的输出的总体损失的梯度，我们观察到，最终层在反向传播过程中倾向于比其他层的波动大得多，即稳定性较小。有趣的是，我们表明，使用EMA到SSL编码器的最后一部分，即投影仪，而不是整个深层网络编码器可以提供可比或可比性的性能。我们提出的仅投影仪的动量有助于维持EMA的好处，但避免了双向计算。

translated by 谷歌翻译