设计对某些数据转换不变的学习系统对于机器学习至关重要。从业人员通常可以通过选择网络体系结构(例如使用卷积进行翻译或使用数据扩展。但是,在网络中实现真正的不变性可能很困难,并且并不总是知道数据不变。学习数据增强策略的最新方法需要持有数据,并且基于双重优化问题,这些问题很复杂,可以解决并且通常在计算上要求。在这项工作中,我们仅从培训数据中研究了学习不断增长的新方法。使用直接在网络中构建的可学习的增强层,我们证明我们的方法非常通用。它可以结合任何类型的可区分扩展,并应用于计算机视觉之外的广泛学习问题。我们提供的经验证据表明,基于二线优化的现代自动数据增强技术比现代自动数据增强技术更容易,更快,同时取得了可比的结果。实验表明,虽然通过自动数据增强传递到模型的不传导受到模型表达性的限制,但我们方法所产生的不变性对设计不敏感。
translated by 谷歌翻译
在过去的几年中,深度学习用于脑电图(EEG)分类任务一直在迅速增长,但其应用程序受到EEG数据集相对较小的限制。数据扩展包括在培训过程中人为地增加数据集的大小,它一直是在计算机视觉或语音等应用程序中获得最新性能的关键要素。尽管文献中已经提出了一些脑电图数据的增强转换,但它们对跨任务的绩效的积极影响仍然难以捉摸。在这项工作中,我们提出了对主要现有脑电图增强的统一和详尽的分析,该分析在常见的实验环境中进行了比较。我们的结果强调了为睡眠阶段分类和大脑计算机界面界面的最佳数据增强,在某些情况下显示预测功率改善大于10%。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
通过强制了解输入中某些转换保留输出的知识,通常应用数据增强来提高深度学习的性能。当前,使用的数据扩大是通过人类的努力和昂贵的交叉验证来选择的,这使得应用于新数据集很麻烦。我们开发了一种基于梯度的方便方法,用于在没有验证数据的情况下和在深度神经网络的培训期间选择数据增强。我们的方法依赖于措辞增强作为先前分布的不变性,并使用贝叶斯模型选择学习,该模型已被证明在高斯过程中起作用,但尚未用于深神经网络。我们提出了一个可区分的Kronecker因拉普拉斯(Laplace)近似与边际可能性的近似,作为我们的目标,可以在没有人类监督或验证数据的情况下优化。我们表明,我们的方法可以成功地恢复数据中存在的不断增长,这提高了图像数据集的概括和数据效率。
translated by 谷歌翻译
关于数据中的不变或对称性的假设可以显着提高统计模型的预测能力。机器学习中的许多常用模型都受到限制,以尊重数据中的某些对称性,例如卷积神经网络中的翻译等效性,并且正在积极研究新的对称类型的融合。然而,从数据本身中学习此类不变的努力仍然是一个开放的研究问题。已经表明,边际可能性提供了一种在高斯过程中学习不变的原则方法。我们提出了一个相当于这种方法的权重空间,方法是通过最大程度地减少在神经网络中学习不变的可能性的下限,从而自然具有更高的性能模型。
translated by 谷歌翻译
我们提供了各种图像分类体系结构(卷积,视觉变压器和完全连接的MLP网络)和数据增强技术的详细评估。我们进行以下观察结果:(a)在没有数据增强的情况下,所有体系结构,包括卷积网络在翻译测试分布中评估时的性能下降。可以理解的是,对于非跨跨结构,分配准确性以及降解对变化都明显较差。 (b)在所有体系结构中,即使是$ 4 $ PIXEL随机农作物的最小增强也可以提高性能的稳健性,从而在测试数据中更大的图像大小($ 8 $ - $ 16 $像素)的更大幅度转移 - - 提出一种从增强性的元概括形式。对于非横线架构,虽然绝对精度仍然很低,但我们看到稳健性对大型翻译转移的稳定性有了显着改善。 (c)具有足够高级的增强($ 4 $ PIXEL CROP+RANDAGEMTANTY+RASANing+Mixup)管道,所有架构都可以训练以具有竞争性能,无论是在分发精度以及对大型翻译转移的推广方面。
translated by 谷歌翻译
许多应用程序需要神经网络的鲁棒性或理想的不变性,以使输入数据的某些转换。最常见的是,通过使用对抗性培训或定义包括设计所需不变性的网络体系结构来解决此要求。在这项工作中,我们提出了一种方法,使网络体系结构通过基于固定标准从(可能连续的)轨道中选择一个元素,从而使网络体系结构相对于小组操作证明是不变的。简而言之,我们打算在将数据馈送到实际网络之前“撤消”任何可能的转换。此外,我们凭经验分析了通过训练或体系结构结合不变性的不同方法的特性,并在鲁棒性和计算效率方面证明了我们方法的优势。特别是,我们研究了图像旋转(可以持续到离散化工件)以及3D点云分类的可证明的方向和缩放不变性方面的鲁棒性。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译
Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.
translated by 谷歌翻译
差异隐私(DP)提供了正式的隐私保证,以防止对手可以访问机器学习模型,从而从提取有关单个培训点的信息。最受欢迎的DP训练方法是差异私有随机梯度下降(DP-SGD),它通过在训练过程中注入噪声来实现这种保护。然而,以前的工作发现,DP-SGD通常会导致标准图像分类基准的性能显着降解。此外,一些作者假设DP-SGD在大型模型上固有地表现不佳,因为保留隐私所需的噪声规范与模型维度成正比。相反,我们证明了过度参数化模型上的DP-SGD可以比以前想象的要好得多。将仔细的超参数调整与简单技术结合起来,以确保信号传播并提高收敛速率,我们获得了新的SOTA,而没有额外数据的CIFAR-10,在81.4%的81.4%下(8,10^{ - 5}) - 使用40 -layer wide-Resnet,比以前的SOTA提高了71.7%。当对预训练的NFNET-F3进行微调时,我们在ImageNet(0.5,8*10^{ - 7})下达到了83.8%的TOP-1精度。此外,我们还在(8,8 \ cdot 10^{ - 7})下达到了86.7%的TOP-1精度,DP仅比当前的非私人SOTA仅4.3%。我们认为,我们的结果是缩小私人图像分类和非私有图像分类之间准确性差距的重要一步。
translated by 谷歌翻译
在许多分类问题中,我们希望一个对一系列非语义转换具有强大的分类器。例如,无论其出现的方向和姿势如何,人都可以识别图片中的狗。存在实质性证据表明这种不变性可以显着提高机器学习模型的准确性和泛化。教导模型几何修正型的常用技术是通过变换输入来增加训练数据。但是,对于给定的分类任务期望需要哪种修正,并不总是已知的。确定有效的数据增强策略可以要求域专业知识或广泛的数据预处理。最近的努力,如自动化优化数据增强策略的参数化搜索空间,以自动化增强过程。虽然自动化和类似方法在几个常见的数据集上实现最先进的分类准确性,但它们仅限于学习一个数据增强策略。通常不同的类别或功能呼叫不同的几何修正。我们介绍了动态网络增强(DNA),从而了解输入条件增强策略。我们模型中的增强参数是神经网络的输出,并且随着网络权重被更新时被隐式学习。我们的模型允许动态增强策略,并在输入功能上具有几何变换的数据良好。
translated by 谷歌翻译
数据增强是减少过度装备和提高学习性能的重要技术,但是现有的3D点云数据的数据增强的工作基于启发式。在这项工作中,我们建议使用Bilevel优化自动学习数据增强策略。增强器以类似的方式设计为条件发生器,并且在增强输入用于训练模型时最小化基础模型对验证集的损耗来进行优化。此配方提供了更为原则的方法来学习3D点云上的数据增强。我们评估了我们对标准点云分类任务的方法以及培训和验证/测试集之间的构成错位的更具挑战性。该拟议的战略在两个任务方面实现了竞争性能,我们提供了进一步了解增强者学习验证集分发的能力。
translated by 谷歌翻译
This work tackles the problem of semi-supervised learning of image classifiers. Our main insight is that the field of semi-supervised learning can benefit from the quickly advancing field of self-supervised visual representation learning. Unifying these two approaches, we propose the framework of self-supervised semi-supervised learning (S 4 L) and use it to derive two novel semi-supervised image classification methods. We demonstrate the effectiveness of these methods in comparison to both carefully tuned baselines, and existing semi-supervised learning methods. We then show that S 4 L and existing semi-supervised methods can be jointly trained, yielding a new state-of-the-art result on semi-supervised ILSVRC-2012 with 10% of labels.
translated by 谷歌翻译
Data augmentation is an effective technique for improving the accuracy of modern image classifiers. However, current data augmentation implementations are manually designed. In this paper, we describe a simple procedure called AutoAugment to automatically search for improved data augmentation policies. In our implementation, we have designed a search space where a policy consists of many subpolicies, one of which is randomly chosen for each image in each mini-batch. A sub-policy consists of two operations, each operation being an image processing function such as translation, rotation, or shearing, and the probabilities and magnitudes with which the functions are applied. We use a search algorithm to find the best policy such that the neural network yields the highest validation accuracy on a target dataset. Our method achieves state-of-the-art accuracy on SVHN, and ImageNet (without additional data). On ImageNet, we attain a Top-1 accuracy of 83.5% which is 0.4% better than the previous record of 83.1%. On CIFAR-10, we achieve an error rate of 1.5%, which is 0.6% better than the previous state-of-theart. Augmentation policies we find are transferable between datasets. The policy learned on ImageNet transfers well to achieve significant improvements on other datasets, such as Oxford Flowers, Caltech-101, Oxford-IIT Pets, FGVC Aircraft, and Stanford Cars. * Work performed as a member of the Google Brain Residency Program.† Equal contribution.
translated by 谷歌翻译
空间变压器网络(STNS)估计图像变换,可以通过“放大”图像中的相关区域来改善下游任务。但是,STN很难训练,并且对转型的错误预测敏感。为了避免这些局限性,我们提出了一种概率扩展,该扩展估计了随机转化而不是确定性的转换。边缘化转换使我们能够以多个姿势考虑每个图像,这使本地化任务变得更加容易,并且培训更加健壮。作为另一个好处,随机转换充当了局部,学习的数据增强,可改善下游任务。我们在标准成像基准和充满挑战的现实数据集中显示,这两种属性可改善分类性能,鲁棒性和模型校准。我们进一步证明,该方法通过改善时间序列数据的模型性能来推广到非视觉域。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译
Recent work has shown that data augmentation has the potential to significantly improve the generalization of deep learning models. Recently, automated augmentation strategies have led to state-of-the-art results in image classification and object detection. While these strategies were optimized for improving validation accuracy, they also led to state-of-the-art results in semi-supervised learning and improved robustness to common corruptions of images. An obstacle to a large-scale adoption of these methods is a separate search phase which increases the training complexity and may substantially increase the computational cost. Additionally, due to the separate search phase, these approaches are unable to adjust the regularization strength based on model or dataset size. Automated augmentation policies are often found by training small models on small datasets and subsequently applied to train larger models. In this work, we remove both of these obstacles. RandAugment has a significantly reduced search space which allows it to be trained on the target task with no need for a separate proxy task. Furthermore, due to the parameterization, the regularization strength may be tailored to different model and dataset sizes. RandAugment can be used uniformly across different tasks and datasets and works out of the box, matching or surpassing all previous automated augmentation approaches on CIFAR-10/100, SVHN, and ImageNet. On the ImageNet dataset we achieve 85.0% accuracy, a 0.6% increase over the previous state-of-the-art and 1.0% increase over baseline augmentation. On object detection, RandAugment leads to 1.0-1.3% improvement over baseline augmentation, and is within 0.3% mAP of AutoAugment on COCO. Finally, due to its interpretable hyperparameter, RandAugment may be used to investigate the role of data augmentation with varying model and dataset size. Code is available online. 1 * Authors contributed equally.1 github.com/tensorflow/tpu/tree/master/models/ official/efficientnet
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译