混合方案表明混合一对样品以创造增强的训练样本,并最近获得了相当大的关注,以提高神经网络的普遍性。混合的简单和广泛使用的扩展是与区域辍学方法相结合:从样品中除去随机贴片并用另一个样品的特征替换。尽管它们的简单性和有效性,但这些方法易于由于它们的随机性而产生有害样品。为了解决这个问题,最近提出了“最大显着性”策略:只选择最具信息性的功能以防止这种现象。然而,他们现在缺乏样品多样化,因为它们总是确定具有最大显着性的区域,将偏置注入增强数据。在本文中,我们展示了一种新颖,简单的混合变体,捕获了两个世界的最佳变化。我们的想法是两倍。通过将特征的随机抽查和“将它们嫁接到另一个样本”,我们的方法有效地产生了多样化但有意义的样本。其第二种成分是通过以显着校准的方式混合标签来生产接枝样品的标签,这整流了随机抽样程序引入的监督误导。我们在CiFar,微小想象成和Imagenet数据集下的实验表明,我们的方案不仅在分类准确性方面优于当前的最先进的增强策略,但在数据损坏等压力条件下也是优越的对象遮挡。
translated by 谷歌翻译
Mix-up training approaches have proven to be effective in improving the generalization ability of Deep Neural Networks. Over the years, the research community expands mix-up methods into two directions, with extensive efforts to improve saliency-guided procedures but minimal focus on the arbitrary path, leaving the randomization domain unexplored. In this paper, inspired by the superior qualities of each direction over one another, we introduce a novel method that lies at the junction of the two routes. By combining the best elements of randomness and saliency utilization, our method balances speed, simplicity, and accuracy. We name our method R-Mix following the concept of "Random Mix-up". We demonstrate its effectiveness in generalization, weakly supervised object localization, calibration, and robustness to adversarial attacks. Finally, in order to address the question of whether there exists a better decision protocol, we train a Reinforcement Learning agent that decides the mix-up policies based on the classifier's performance, reducing dependency on human-designed objectives and hyperparameter tuning. Extensive experiments further show that the agent is capable of performing at the cutting-edge level, laying the foundation for a fully automatic mix-up. Our code is released at [https://github.com/minhlong94/Random-Mixup].
translated by 谷歌翻译
Regional dropout strategies have been proposed to enhance the performance of convolutional neural network classifiers. They have proved to be effective for guiding the model to attend on less discriminative parts of objects (e.g. leg as opposed to head of a person), thereby letting the network generalize better and have better object localization capabilities. On the other hand, current methods for regional dropout remove informative pixels on training images by overlaying a patch of either black pixels or random noise. Such removal is not desirable because it leads to information loss and inefficiency during training. We therefore propose the CutMix augmentation strategy: patches are cut and pasted among training images where the ground truth labels are also mixed proportionally to the area of the patches. By making efficient use of training pixels and retaining the regularization effect of regional dropout, CutMix consistently outperforms the state-of-the-art augmentation strategies on CI-FAR and ImageNet classification tasks, as well as on the Im-ageNet weakly-supervised localization task. Moreover, unlike previous augmentation methods, our CutMix-trained ImageNet classifier, when used as a pretrained model, results in consistent performance gains in Pascal detection and MS-COCO image captioning benchmarks. We also show that CutMix improves the model robustness against input corruptions and its out-of-distribution detection performances. Source code and pretrained models are available at https://github.com/clovaai/CutMix-PyTorch.
translated by 谷歌翻译
图形结构的数据集通常具有不规则的图表尺寸和连接,渲染使用最近的数据增强技术,例如混合,困难。为了解决这一挑战,我们在名为曲线图移植的图形级别提供了第一个混合图形增强方法,其在数据空间中混合了不规则图。要在图形的各种尺度上定义,我们的方法将子结构标识为可以保留本地信息的混合单元。由于没有特殊考虑上下文的​​基于混合的方法易于产生噪声样本,因此我们的方法明确地使用节点显着信息来选择有意义的子图并自适应地确定标签。我们在多个图形分类基准数据集中广泛地验证了我们多样化的GNN架构,来自不同尺寸的各种图形域。实验结果显示了我们对其他基本数据增强基线的方法的一致优势。我们还证明了曲线图移植在鲁棒性和模型校准方面提高了性能。
translated by 谷歌翻译
数据增强已被广泛用于改善深形网络的性能。提出了许多方法,例如丢弃,正则化和图像增强,以避免过度发出和增强神经网络的概括。数据增强中的一个子区域是图像混合和删除。这种特定类型的增强混合两个图像或删除图像区域以隐藏或制定困惑的图像的某些特征,以强制它强调图像中对象的整体结构。与此方法培训的模型表明,与未执行混合或删除的培训相比,该模型表现得很好。这种培训方法实现的额外福利是对图像损坏的鲁棒性。由于其最近的计算成本低,因此提出了许多图像混合和删除技术。本文对这些设计的方法提供了详细的审查,在三个主要类别中划分增强策略,切割和删除,切割和混合和混合。纸张的第二部分是评估这些方法的图像分类,微小的图像识别和对象检测方法,其中显示了这类数据增强提高了深度神经网络的整体性能。
translated by 谷歌翻译
事实证明,数据混合对提高深神经网络的概括能力是有效的。虽然早期方法通过手工制作的策略(例如线性插值)混合样品,但最新方法利用显着性信息通过复杂的离线优化来匹配混合样品和标签。但是,在精确的混合政策和优化复杂性之间进行了权衡。为了应对这一挑战,我们提出了一个新颖的自动混合(Automix)框架,其中混合策略被参数化并直接实现最终分类目标。具体而言,Automix将混合分类重新定义为两个子任务(即混合样品生成和混合分类)与相应的子网络,并在双层优化框架中求解它们。对于这一代,可学习的轻质混合发电机Mix Block旨在通过在相应混合标签的直接监督下对贴片的关系进行建模,以生成混合样品。为了防止双层优化的降解和不稳定性,我们进一步引入了动量管道以端到端的方式训练汽车。与在各种分类场景和下游任务中的最新图像相比,九个图像基准的广泛实验证明了汽车的优势。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
已经发现基于混合的增强对于培训期间的概括模型有效,特别是对于视觉变压器(VITS),因为它们很容易过度装备。然而,先前的基于混合的方法具有潜在的先验知识,即目标的线性内插比应保持与输入插值中提出的比率相同。这可能导致一个奇怪的现象,有时由于增强中的随机过程,混合图像中没有有效对象,但标签空间仍然存在响应。为了弥合输入和标签空间之间的这种差距,我们提出了透明度,该差别将基于视觉变压器的注意图混合标签。如果受关注图的相应输入图像加权,则标签的置信度将会更大。传输令人尴尬地简单,可以在几行代码中实现,而不会在不引入任何额外的参数和拖鞋到基于Vit的模型。实验结果表明,我们的方法可以在想象集分类上一致地始终改善各种基于Vit的模型。在ImageNet上预先接受过扫描后,基于Vit的模型还展示了对语义分割,对象检测和实例分割的更好的可转换性。当在评估4个不同的基准时,传输展示展示更加强劲。代码将在https://github.com/beckschen/transmix上公开提供。
translated by 谷歌翻译
Modern deep networks can be better generalized when trained with noisy samples and regularization techniques. Mixup and CutMix have been proven to be effective for data augmentation to help avoid overfitting. Previous Mixup-based methods linearly combine images and labels to generate additional training data. However, this is problematic if the object does not occupy the whole image as we demonstrate in Figure 1. Correctly assigning the label weights is hard even for human beings and there is no clear criterion to measure it. To tackle this problem, in this paper, we propose LUMix, which models such uncertainty by adding label perturbation during training. LUMix is simple as it can be implemented in just a few lines of code and can be universally applied to any deep networks \eg CNNs and Vision Transformers, with minimal computational cost. Extensive experiments show that our LUMix can consistently boost the performance for networks with a wide range of diversity and capacity on ImageNet, \eg $+0.7\%$ for a small model DeiT-S and $+0.6\%$ for a large variant XCiT-L. We also demonstrate that LUMix can lead to better robustness when evaluated on ImageNet-O and ImageNet-A. The source code can be found \href{https://github.com/kevin-ssy/LUMix}{here}
translated by 谷歌翻译
混合是深度神经网络的流行数据依赖性增强技术,其包含两个子任务,混合生成和分类。社区通常将混合限制在监督学习(SL)中,并且生成子任务的目的是固定到采样的对,而不是考虑整个数据歧管。为了克服这些限制,我们系统地研究了两个子任务的目标,并为SL和自我监督的学习(SSL)方案,命名为Samix的两个子任务和提出情景 - 激动化混合。具体而言,我们假设并验证混合生成的核心目标,因为优化来自其他类别的全球歧视的两个类之间的局部平滑度。基于这一发现,提出了$ \ eta $ -Balanced混合丢失,以进行两个子任务的互补培训。同时,生成子任务被参数化为可优化的模块,混音器,其利用注意机制来生成混合样本而无需标记依赖性。对SL和SSL任务的广泛实验表明SAMIX始终如一地优于大边距。
translated by 谷歌翻译
我们提出了混合样品数据增强(MSDA)的第一个统一的理论分析,例如混合和cutmix。我们的理论结果表明,无论选择混合策略如何,MSDA都表现为基础训练损失的像素级正规化和第一层参数的正则化。同样,我们的理论结果支持MSDA培训策略可以改善与香草训练策略相比的对抗性鲁棒性和泛化。利用理论结果,我们对MSDA的不同设计选择的工作方式提供了高级了解。例如,我们表明,最流行的MSDA方法,混合和cutmix的表现不同,例如,CutMix通过像素距离正规化输入梯度,而混合量则使输入梯度正常于像素距离。我们的理论结果还表明,最佳MSDA策略取决于任务,数据集或模型参数。从这些观察结果中,我们提出了广义MSDA,这是混合版的混合和Cutmix(HMIX)和Gaussian Mixup(GMIX),简单的混合和CutMix。我们的实施可以利用混合和cutmix的优势,而我们的实施非常有效,并且计算成本几乎可以忽略为混合和cutmix。我们的实证研究表明,我们的HMIX和GMIX优于CIFAR-100和Imagenet分类任务中先前最先进的MSDA方法。源代码可从https://github.com/naver-ai/hmix-gmix获得
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
CutMix是一种流行的增强技术,通常用于训练现代卷积和变压器视觉网络。它最初旨在鼓励卷积神经网络(CNN)更多地关注图像的全球环境,而不是本地信息,从而大大提高了CNN的性能。但是,我们发现它对自然具有全球接收领域的基于变压器的体系结构的好处有限。在本文中,我们提出了一种新型的数据增强技术图,以提高视觉变压器的性能。 TokenMix通过将混合区分为多个分离的零件,将两个图像在令牌级别混合。此外,我们表明,Cutmix中的混合学习目标是一对地面真相标签的线性组合,可能是不准确的,有时是违反直觉的。为了获得更合适的目标,我们建议根据预先训练的教师模型的两个图像的基于内容的神经激活图分配目标得分,该图像不需要具有高性能。通过大量有关各种视觉变压器体系结构的实验,我们表明我们提出的TokenMix可以帮助视觉变形金刚专注于前景区域,以推断班级并增强其稳健性,以稳定的性能增长。值得注意的是,我们使用 +1%Imagenet TOP-1精度改善DEIT-T/S/B。此外,TokenMix的训练较长,在Imainet上获得了81.2%的TOP-1精度,而DEIT-S训练了400个时代。代码可从https://github.com/sense-x/tokenmix获得。
translated by 谷歌翻译
弱监督的对象本地化(WSOL)在过去几年中获得了普及,以便培训具有图像级标签的本地化模型。由于Soliminal WSOL类激活映射(CAM),该领域的重点是如何扩展注意区域更广泛地覆盖物体并更好地本地化。但是,这些策略依赖于验证超参数和模型选择的完全本地化监督,这是原则上禁止WSOL设置。在本文中,我们认为WSOL任务仅用图像级标签均不含糊,并提出了一种新的评估协议,其中全面监督仅限于仅与测试集没有重叠的小型举出的设置。我们观察到,根据我们的协议,五种最新的WSOL方法没有对CAM基线进行重大改进。此外,我们报告说,现有的WSOL方法尚未达到几次学习基准,其中验证时间的全面监督用于模型培训。根据我们的调查结果,我们讨论了WSOL的​​一些未来方向。
translated by 谷歌翻译
类别不平衡数据的问题在于,由于少数类别的数据缺乏数据,分类器的泛化性能劣化。在本文中,我们提出了一种新的少数民族过度采样方法,通过利用大多数类作为背景图像的丰富背景来增加多元化的少数民族样本。为了使少数民族样本多样化,我们的主要思想是将前景补丁从少数级别粘贴到来自具有富裕环境的多数类的背景图像。我们的方法很简单,可以轻松地与现有的长尾识别方法结合。我们通过广泛的实验和消融研究证明了提出的过采样方法的有效性。如果没有任何架构更改或复杂的算法,我们的方法在各种长尾分类基准上实现了最先进的性能。我们的代码将在链接上公开提供。
translated by 谷歌翻译
最近先进的无监督学习方法使用暹罗样框架来比较来自同一图像的两个“视图”以进行学习表示。使两个视图独特是一种保证无监督方法可以学习有意义的信息的核心。但是,如果使用用于生成两个视图的增强不足够强度,此类框架有时会易碎过度装备,导致培训数据上的过度自信的问题。此缺点会阻碍模型,从学习微妙方差和细粒度信息。为了解决这个问题,在这项工作中,我们的目标是涉及在无监督的学习中的标签空间上的距离概念,并让模型通过混合输入数据空间来了解正面或负对对之间的柔和程度,以便协同工作输入和损耗空间。尽管其概念性简单,我们凭借解决的解决方案 - 无监督图像混合(UN-MIX),我们可以从转换的输入和相应的新标签空间中学习Subtler,更强大和广义表示。广泛的实验在CiFar-10,CiFar-100,STL-10,微小的想象和标准想象中进行了流行的无人监督方法SIMCLR,BYOL,MOCO V1和V2,SWAV等。我们所提出的图像混合物和标签分配策略可以获得一致的改进在完全相同的超参数和基础方法的培训程序之后1〜3%。代码在https://github.com/szq0214/un-mix上公开提供。
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
CutMix is a vital augmentation strategy that determines the performance and generalization ability of vision transformers (ViTs). However, the inconsistency between the mixed images and the corresponding labels harms its efficacy. Existing CutMix variants tackle this problem by generating more consistent mixed images or more precise mixed labels, but inevitably introduce heavy training overhead or require extra information, undermining ease of use. To this end, we propose an efficient and effective Self-Motivated image Mixing method (SMMix), which motivates both image and label enhancement by the model under training itself. Specifically, we propose a max-min attention region mixing approach that enriches the attention-focused objects in the mixed images. Then, we introduce a fine-grained label assignment technique that co-trains the output tokens of mixed images with fine-grained supervision. Moreover, we devise a novel feature consistency constraint to align features from mixed and unmixed images. Due to the subtle designs of the self-motivated paradigm, our SMMix is significant in its smaller training overhead and better performance than other CutMix variants. In particular, SMMix improves the accuracy of DeiT-T/S, CaiT-XXS-24/36, and PVT-T/S/M/L by more than +1% on ImageNet-1k. The generalization capability of our method is also demonstrated on downstream tasks and out-of-distribution datasets. Code of this project is available at https://github.com/ChenMnZ/SMMix.
translated by 谷歌翻译
Large deep neural networks are powerful, but exhibit undesirable behaviors such as memorization and sensitivity to adversarial examples. In this work, we propose mixup, a simple learning principle to alleviate these issues. In essence, mixup trains a neural network on convex combinations of pairs of examples and their labels. By doing so, mixup regularizes the neural network to favor simple linear behavior in-between training examples. Our experiments on the ImageNet-2012, CIFAR-10, CIFAR-100, Google commands and UCI datasets show that mixup improves the generalization of state-of-the-art neural network architectures. We also find that mixup reduces the memorization of corrupt labels, increases the robustness to adversarial examples, and stabilizes the training of generative adversarial networks.
translated by 谷歌翻译
本文介绍了SuperMix的监督混合增强方法,它利用输入图像内的突出区域来构建混合训练样本。 SuperMix旨在获得丰富的视觉特征的混合图像,并符合现实的图像前提。为了提高算法的效率,我们开发了牛顿迭代方法的变种,比这个问题的渐变血管更快65美元。我们通过广泛的评估和消融研究验证SuperMix的有效性和对象分类和知识蒸馏的两个任务。在分类任务上,SuperMix为高级增强方法提供了可比的性能,例如自动化和randaugment。特别是,将SuperMix与Randaugment组合实现了78.2 \%在ImageNet上实现了78.2 \%的前1个精度。在蒸馏任务上,单独对使用教师知识混合的图像进行分类,实现了最先进的蒸馏方法的可比性。此外,平均地,将混合图像掺入蒸馏物物镜中,分别在CiFar-100和Imagenet上提高了3.4×%和3.1±1%的性能。 {\它的代码是在https://github.com/alldbi/supermix}上获得的。
translated by 谷歌翻译