在许多分类问题中,我们希望一个对一系列非语义转换具有强大的分类器。例如,无论其出现的方向和姿势如何,人都可以识别图片中的狗。存在实质性证据表明这种不变性可以显着提高机器学习模型的准确性和泛化。教导模型几何修正型的常用技术是通过变换输入来增加训练数据。但是,对于给定的分类任务期望需要哪种修正,并不总是已知的。确定有效的数据增强策略可以要求域专业知识或广泛的数据预处理。最近的努力,如自动化优化数据增强策略的参数化搜索空间,以自动化增强过程。虽然自动化和类似方法在几个常见的数据集上实现最先进的分类准确性,但它们仅限于学习一个数据增强策略。通常不同的类别或功能呼叫不同的几何修正。我们介绍了动态网络增强(DNA),从而了解输入条件增强策略。我们模型中的增强参数是神经网络的输出,并且随着网络权重被更新时被隐式学习。我们的模型允许动态增强策略,并在输入功能上具有几何变换的数据良好。
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
Data augmentation is an effective technique for improving the accuracy of modern image classifiers. However, current data augmentation implementations are manually designed. In this paper, we describe a simple procedure called AutoAugment to automatically search for improved data augmentation policies. In our implementation, we have designed a search space where a policy consists of many subpolicies, one of which is randomly chosen for each image in each mini-batch. A sub-policy consists of two operations, each operation being an image processing function such as translation, rotation, or shearing, and the probabilities and magnitudes with which the functions are applied. We use a search algorithm to find the best policy such that the neural network yields the highest validation accuracy on a target dataset. Our method achieves state-of-the-art accuracy on SVHN, and ImageNet (without additional data). On ImageNet, we attain a Top-1 accuracy of 83.5% which is 0.4% better than the previous record of 83.1%. On CIFAR-10, we achieve an error rate of 1.5%, which is 0.6% better than the previous state-of-theart. Augmentation policies we find are transferable between datasets. The policy learned on ImageNet transfers well to achieve significant improvements on other datasets, such as Oxford Flowers, Caltech-101, Oxford-IIT Pets, FGVC Aircraft, and Stanford Cars. * Work performed as a member of the Google Brain Residency Program.† Equal contribution.
translated by 谷歌翻译
Recent work has shown that data augmentation has the potential to significantly improve the generalization of deep learning models. Recently, automated augmentation strategies have led to state-of-the-art results in image classification and object detection. While these strategies were optimized for improving validation accuracy, they also led to state-of-the-art results in semi-supervised learning and improved robustness to common corruptions of images. An obstacle to a large-scale adoption of these methods is a separate search phase which increases the training complexity and may substantially increase the computational cost. Additionally, due to the separate search phase, these approaches are unable to adjust the regularization strength based on model or dataset size. Automated augmentation policies are often found by training small models on small datasets and subsequently applied to train larger models. In this work, we remove both of these obstacles. RandAugment has a significantly reduced search space which allows it to be trained on the target task with no need for a separate proxy task. Furthermore, due to the parameterization, the regularization strength may be tailored to different model and dataset sizes. RandAugment can be used uniformly across different tasks and datasets and works out of the box, matching or surpassing all previous automated augmentation approaches on CIFAR-10/100, SVHN, and ImageNet. On the ImageNet dataset we achieve 85.0% accuracy, a 0.6% increase over the previous state-of-the-art and 1.0% increase over baseline augmentation. On object detection, RandAugment leads to 1.0-1.3% improvement over baseline augmentation, and is within 0.3% mAP of AutoAugment on COCO. Finally, due to its interpretable hyperparameter, RandAugment may be used to investigate the role of data augmentation with varying model and dataset size. Code is available online. 1 * Authors contributed equally.1 github.com/tensorflow/tpu/tree/master/models/ official/efficientnet
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
最近,出现了许多新的半监督学习方法。随着时间的流逝,ImageNet和类似数据集的准确性提高,尚未探索自然图像分类以外的任务的性能。大多数半监督的学习方法都依赖于精心设计的数据增强管道,该数据无法转移,用于在其他域的图像上学习。在这项工作中,我们提出了一种半监督的学习方法,该方法自动为特定数据集选择了最有效的数据增强策略。我们以FixMatch方法为基础,并通过增强元学习扩展它。在分类培训之前,在额外的培训中学习了增强,并利用双层优化,以优化增强政策并最大程度地提高准确性。我们在两个特定领域的数据集上评估我们的方法,其中包含卫星图像和手绘草图,并获得最新的结果。我们在消融中进一步研究与学习增强策略相关的不同参数,并展示了如何使用策略学习将增强功能调整到ImageNet之外的数据集中。
translated by 谷歌翻译
使用卷积神经网络(CNN)已经显着改善了几种图像处理任务,例如图像分类和对象检测。与Reset和Abseralnet一样,许多架构在创建时至少在一个数据集中实现了出色的结果。培训的一个关键因素涉及网络的正规化,这可以防止结构过度装备。这项工作分析了在过去几年中开发的几种正规化方法,显示了不同CNN模型的显着改进。该作品分为三个主要区域:第一个称为“数据增强”,其中所有技术都侧重于执行输入数据的更改。第二个,命名为“内部更改”,旨在描述修改神经网络或内核生成的特征映射的过程。最后一个称为“标签”,涉及转换给定输入的标签。这项工作提出了与关于正则化的其他可用调查相比的两个主要差异:(i)第一个涉及在稿件中收集的论文并非超过五年,并第二个区别是关于可重复性,即所有作品此处推荐在公共存储库中可用的代码,或者它们已直接在某些框架中实现,例如Tensorflow或Torch。
translated by 谷歌翻译
数据增强方法丰富具有增强数据的数据集以提高神经网络的性能。最近,已经出现了自动化数据增强方法,自动设计增强策略。现有工作侧重于图像分类和对象检测,而我们提供了关于语义图像分割的第一次研究,并引入了两种新方法:\ Textit {Smartaugment}和\ Textit {SmartSamplingAugment}。 Smartaugment使用贝叶斯优化来搜索增强策略的丰富空间,并在我们考虑的所有语义细分任务中实现了新的最先进的性能。 SmartSamplingAugment,一种具有固定增强策略的简单参数方法,可与现有的资源密集型方法竞争性能,并且优于廉价的最先进的数据增强方法。此外,我们分析了数据增强超参数的影响,互动和重要性,并进行了融合研究,这确认了我们的设计选择,背后是Smartaugment和SmartSamplingAugment。最后,我们将提供我们的源代码以进行再现性,并促进进一步的研究。
translated by 谷歌翻译
设计对某些数据转换不变的学习系统对于机器学习至关重要。从业人员通常可以通过选择网络体系结构(例如使用卷积进行翻译或使用数据扩展。但是,在网络中实现真正的不变性可能很困难,并且并不总是知道数据不变。学习数据增强策略的最新方法需要持有数据,并且基于双重优化问题,这些问题很复杂,可以解决并且通常在计算上要求。在这项工作中,我们仅从培训数据中研究了学习不断增长的新方法。使用直接在网络中构建的可学习的增强层,我们证明我们的方法非常通用。它可以结合任何类型的可区分扩展,并应用于计算机视觉之外的广泛学习问题。我们提供的经验证据表明,基于二线优化的现代自动数据增强技术比现代自动数据增强技术更容易,更快,同时取得了可比的结果。实验表明,虽然通过自动数据增强传递到模型的不传导受到模型表达性的限制,但我们方法所产生的不变性对设计不敏感。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides an effective means of leveraging unlabeled data to improve a model's performance. This domain has seen fast progress recently, at the cost of requiring more complex methods. In this paper we propose FixMatch, an algorithm that is a significant simplification of existing SSL methods. FixMatch first generates pseudo-labels using the model's predictions on weaklyaugmented unlabeled images. For a given image, the pseudo-label is only retained if the model produces a high-confidence prediction. The model is then trained to predict the pseudo-label when fed a strongly-augmented version of the same image. Despite its simplicity, we show that FixMatch achieves state-of-the-art performance across a variety of standard semi-supervised learning benchmarks, including 94.93% accuracy on CIFAR-10 with 250 labels and 88.61% accuracy with 40 -just 4 labels per class. We carry out an extensive ablation study to tease apart the experimental factors that are most important to FixMatch's success. The code is available at https://github.com/google-research/fixmatch.
translated by 谷歌翻译
现有的自动数据增强(DA)方法要么忽略根据培训期间目标模型的状态根据目标模型的状态忽略更新DA的参数,要么采用不够有效的更新策略。在这项工作中,我们设计了一种新型的数据增强策略,称为“通用自适应数据增强”(UADA)。与现有方法不同,UADA会根据目标模型在训练过程中根据目标模型的梯度信息自适应地更新DA的参数:给定预定义的DA操作集,我们随机确定培训期间每个数据批次的DA操作的类型和大小,并自适应地更新DA的参数沿损失的梯度方向与DA参数有关。这样,UADA可以增加目标网络的训练损失,而目标网络将从更艰难的样本中学习以改善概括的功能。此外,UADA非常通用,可以在许多任务中使用,例如图像分类,语义分割和对象检测。在CIFAR-10,CIFAR-100,ImageNet,Tiny-Imagenet,CityScapes和VOC07+12上进行了各种模型的广泛实验,以证明我们提出的适应性增强带来了重大的性能改善。
translated by 谷歌翻译
Data augmentation (DA) is a widely used technique for enhancing the training of deep neural networks. Recent DA techniques which achieve state-of-the-art performance always meet the need for diversity in augmented training samples. However, an augmentation strategy that has a high diversity usually introduces out-of-distribution (OOD) augmented samples and these samples consequently impair the performance. To alleviate this issue, we propose ReSmooth, a framework that firstly detects OOD samples in augmented samples and then leverages them. To be specific, we first use a Gaussian mixture model to fit the loss distribution of both the original and augmented samples and accordingly split these samples into in-distribution (ID) samples and OOD samples. Then we start a new training where ID and OOD samples are incorporated with different smooth labels. By treating ID samples and OOD samples unequally, we can make better use of the diverse augmented data. Further, we incorporate our ReSmooth framework with negative data augmentation strategies. By properly handling their intentionally created OOD samples, the classification performance of negative data augmentations is largely ameliorated. Experiments on several classification benchmarks show that ReSmooth can be easily extended to existing augmentation strategies (such as RandAugment, rotate, and jigsaw) and improve on them. Our code is available at https://github.com/Chenyang4/ReSmooth.
translated by 谷歌翻译
标签噪声在大型现实世界数据集中很常见,其存在会损害深神网络的训练过程。尽管几项工作集中在解决此问题的培训策略上,但很少有研究评估数据增强作为培训深神经网络的设计选择。在这项工作中,我们分析了使用不同数据增强的模型鲁棒性及其在嘈杂标签的存在下对培训的改进。我们评估了数据集MNIST,CIFAR-10,CIFAR-100和现实世界数据集Clothing1M的最新和经典数据增强策略,具有不同级别的合成噪声。我们使用精度度量评估方法。结果表明,与基线相比,适当的数据增强可以大大提高模型的稳健性,可将相对最佳测试准确性的177.84%提高到177.84%的相对最佳测试准确性,而无需增强,并且随着绝对值增加了6%,而该基线的绝对值增加了6%最先进的Dividemix培训策略。
translated by 谷歌翻译
数据增强(DA)已被广泛调查,以便于多项任务中的模型优化。然而,在大多数情况下,对于具有某种概率的每个训练样本随机地对数据增强进行数据增强,这可能会产生内容破坏和视觉模糊。为了消除这一点,在本文中,我们提出了一种有效的方法,将选择,以基于样本内容和网络培训状态选择要以确定性和在线方式增强的样本。具体而言,在每批中,我们首先确定增强比,然后决定是否以这种比率增强每个训练样本。我们将此过程塑造为两步马尔可夫决策过程,并采用分层强化学习(HRL)来学习增强策略。以这种方式,可以有效地缓解选择用于增强的样品在选择样品时的负面影响,并且改善了DA的有效性。广泛的实验表明,我们所提出的选择可以适应许多常用的DA方法,例如混合,切割,自动化等,以及改善图像分类和细粒度图像识别的多个基准数据集中的性能。
translated by 谷歌翻译
自学学习(SSL)已成为深度学习研究的一个非常活跃的领域,在该领域中,它被大量用作分类和其他任务的预培训方法。但是,该领域的进步速度的迅速速度是一个代价:培训管道之间的培训管道差异很大,这是一个潜在的至关重要的混杂因素。在这里,我们表明,实际上,超参数和数据增强策略的选择可能会对性能产生巨大影响。为了阐明这些被忽视的因素并有助于最大化SSL的功能,我们将这些组件过度参数化并通过贝叶斯优化优化它们,从而显示了S​​IMSIAM SSL方法的多个数据集的改进。意识到数据增强对SSL的重要性,我们还引入了一种新的自动数据增强算法,小组声名格,该算法考虑了增强组的组并优化了跨组的采样。与为监督学习设计的算法相反,在我们考虑的所有数据集中,团体声明达到了一致的线性评估准确性。总体而言,我们的结果表明数据增强对SSL的重要性和可能低估的作用。
translated by 谷歌翻译
在最近的视觉自我监督作品中,通过将标签分配给变换或增强的输入图像来建立模仿分类目标,称为借口任务。借口的目标可以预测应用于图像的转换。然而,观察到,已经存在于数据集中的图像变换可能在学习这种自我监督的表示方面不太有效。在此观察中构建,我们提出了一种基于生成的对冲网络的框架,自动找到输入数据集中不存在的变换,从而有效地对自我监督学习有效。这种自动化策略允许估计数据集的转换分布,并且还构造其对借口任务进行采样的训练对的互补分布。我们使用多个可视识别数据集进行了评估我们的框架,以显示我们自动转换政策的效果。
translated by 谷歌翻译
在培训期间应用的图像增强对于图像分类器的泛化性能至关重要。因此,大型研究已经专注于找到给定任务的最佳增强策略。然而,randaugment [2]是一个简单的随机增强策略,最近被证明胜过现有的复杂策略。只有对抗性自动化(Advaa)[11],一种基于对抗性培训的想法的方法,表明比争夺更好。在本文中,我们表明,与最佳的对抗方法相比,随机增强仍然是竞争力的,以及简单的课程,并猜测ADVAA的成功是由于政策控制器网络的随机性,这引入了一种温和的形式课程。
translated by 谷歌翻译
我们提供了各种图像分类体系结构(卷积,视觉变压器和完全连接的MLP网络)和数据增强技术的详细评估。我们进行以下观察结果:(a)在没有数据增强的情况下,所有体系结构,包括卷积网络在翻译测试分布中评估时的性能下降。可以理解的是,对于非跨跨结构,分配准确性以及降解对变化都明显较差。 (b)在所有体系结构中,即使是$ 4 $ PIXEL随机农作物的最小增强也可以提高性能的稳健性,从而在测试数据中更大的图像大小($ 8 $ - $ 16 $像素)的更大幅度转移 - - 提出一种从增强性的元概括形式。对于非横线架构,虽然绝对精度仍然很低,但我们看到稳健性对大型翻译转移的稳定性有了显着改善。 (c)具有足够高级的增强($ 4 $ PIXEL CROP+RANDAGEMTANTY+RASANing+Mixup)管道,所有架构都可以训练以具有竞争性能,无论是在分发精度以及对大型翻译转移的推广方面。
translated by 谷歌翻译
对抗性训练遭受了稳健的过度装备,这是一种现象,在训练期间鲁棒测试精度开始减少。在本文中,我们专注于通过使用常见的数据增强方案来减少强大的过度装备。我们证明,与先前的发现相反,当与模型重量平均结合时,数据增强可以显着提高鲁棒精度。此外,我们比较各种增强技术,并观察到空间组合技术适用于对抗性培训。最后,我们评估了我们在Cifar-10上的方法,而不是$ \ ell_ indty $和$ \ ell_2 $ norm-indeded扰动分别为尺寸$ \ epsilon = 8/255 $和$ \ epsilon = 128/255 $。与以前的最先进的方法相比,我们表现出+ 2.93%的绝对改善+ 2.93%,+ 2.16%。特别是,反对$ \ ell_ infty $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $,我们的模型达到60.07%的强劲准确性而不使用任何外部数据。我们还通过这种方法实现了显着的性能提升,同时使用其他架构和数据集如CiFar-100,SVHN和TinyimageNet。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译