最近的研究表明,卷积神经网络不能很好地推广到小图像转换,例如旋转几个度或几个像素的翻译。为了提高这种转换的鲁棒性,我们建议除了应用于输入图像的常见数据增强外,还要在神经结构的中间层上引入数据增强。通过在各个级别的激活图(特征)中引入小小的扰动,我们开发了神经网络以应对这种转换的能力。我们在三个图像分类基准(Tiny Imagenet,Caltech-256和Food-101)上进行实验,考虑了两个不同的卷积架构(Resnet-18和Densenet-121)。与两种最先进的稳定方法相比,经验结果表明,我们的方法始终达到准确性和平均翻转率之间的最佳权衡。
translated by 谷歌翻译
Modern convolutional networks are not shiftinvariant, as small input shifts or translations can cause drastic changes in the output. Commonly used downsampling methods, such as max-pooling, strided-convolution, and averagepooling, ignore the sampling theorem. The wellknown signal processing fix is anti-aliasing by low-pass filtering before downsampling. However, simply inserting this module into deep networks degrades performance; as a result, it is seldomly used today. We show that when integrated correctly, it is compatible with existing architectural components, such as max-pooling and strided-convolution. We observe increased accuracy in ImageNet classification, across several commonly-used architectures, such as ResNet, DenseNet, and MobileNet, indicating effective regularization. Furthermore, we observe better generalization, in terms of stability and robustness to input corruptions. Our results demonstrate that this classical signal processing technique has been undeservingly overlooked in modern deep networks.
translated by 谷歌翻译
许多应用程序需要神经网络的鲁棒性或理想的不变性,以使输入数据的某些转换。最常见的是,通过使用对抗性培训或定义包括设计所需不变性的网络体系结构来解决此要求。在这项工作中,我们提出了一种方法,使网络体系结构通过基于固定标准从(可能连续的)轨道中选择一个元素,从而使网络体系结构相对于小组操作证明是不变的。简而言之,我们打算在将数据馈送到实际网络之前“撤消”任何可能的转换。此外,我们凭经验分析了通过训练或体系结构结合不变性的不同方法的特性,并在鲁棒性和计算效率方面证明了我们方法的优势。特别是,我们研究了图像旋转(可以持续到离散化工件)以及3D点云分类的可证明的方向和缩放不变性方面的鲁棒性。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译
卷积神经网络(CNN)在翻译下是固有的等分反,但是,它们没有等效的嵌入机制来处理其他变换,例如旋转和规模变化。存在几种方法,使CNN通过设计在其他转换组下变得等效。其中,可操纵的CNN特别有效。然而,这些方法需要将滤波器重新设计标准网络,筛选涉及复杂的分析功能的预定义基的组合。我们通过实验证明,在选择的基础上的这些限制可能导致模型权重,这对主要深度学习任务进行了次优(例如,分类)。此外,这种硬烘焙的显式配方使得难以设计包括异质特征组的复合网络。为了规避此类问题,我们提出了隐含的等级网络(IEN),其通过优化与标准损耗术语相结合的多目标损耗函数来诱导标准CNN模型的不同层的等级。通过在ROT-MNIST上的VGG和RESNET模型的实验,ROT-TINIMAGENET,SCALE-MNIST和STL-10数据集上,我们表明IEN,即使是简单的配方,也要优于可操纵网络。此外,IEN促进了非均相过滤器组的构建,允许CNNS中的通道数量减少超过30%,同时保持与基线的表现。 IEN的功效进一步验证了视觉对象跟踪的难题。我们表明IEN优于最先进的旋转等级跟踪方法,同时提供更快的推理速度。
translated by 谷歌翻译
卷积神经网络(CNN)的一个问题是,它们需要大型数据集来获得足够的鲁棒性。在小型数据集上,它们容易过度拟合。已经提出了许多方法来克服CNN的缺点。如果无法轻易收集其他样本,则一种常见的方法是使用增强技术从现有数据中生成更多数据点。在图像分类中,许多增强方法都使用简单的图像操纵算法。在这项工作中,我们通过添加通过组合14种增强方法生成的图像来构建合奏,其中第一次提出了其中三种。这些新型方法基​​于傅立叶变换(FT),ra transform(RT)和离散余弦变换(DCT)。预处理的RESNET50网络在训练集上进行了填充,其中包括从每种增强方法中得出的图像。这些网络和几个融合均在11个基准测试中进行了评估和比较。结果表明,通过组合不同的数据增强方法来产生分类器,这些分类器不仅可以与最新技术竞争,而且经常超过文献中报告的最佳方法,从而在数据级上建立合奏。
translated by 谷歌翻译
神经网络在医疗图像分割任务上的成功通常依赖于大型标记的数据集用于模型培训。但是,由于数据共享和隐私问题,获取和手动标记大型医疗图像集是资源密集的,昂贵的,有时是不切实际的。为了应对这一挑战,我们提出了一个通用的对抗数据增强框架Advchain,旨在提高培训数据对医疗图像分割任务的多样性和有效性。 AdvChain通过动态数据增强来增强数据,从而产生随机链接的光线像和几何转换,以类似于现实而又具有挑战性的成像变化以扩展训练数据。通过在培训期间共同优化数据增强模型和分割网络,可以生成具有挑战性的示例,以增强下游任务的网络可推广性。所提出的对抗数据增强不依赖生成网络,可以用作通用分割网络中的插件模块。它在计算上是有效的,适用于低声监督和半监督学习。我们在两个MR图像分割任务上分析和评估该方法:心脏分割和前列腺分割具有有限的标记数据。结果表明,所提出的方法可以减轻对标记数据的需求,同时提高模型泛化能力,表明其在医学成像应用中的实际价值。
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
(非)神经网络到小,对抗像素明智的扰动的鲁棒性,并且最近示出了甚至是随机空间转换(例如,翻译,旋转)恳求理论和经验理解。通过等级模型(例如,STDCNNS,GCNN)和训练增强,通常实现了随机翻译和旋转的空间鲁棒性,而普遍鲁棒性通常通过对抗性训练来实现。在本文中,我们在简单的统计环境中证明了空间和对抗性鲁棒性之间的定量折衷。我们通过展示:(a)随着等效模型的空间稳健性通过逐步培训更大的转化来改善,它们的对抗鲁棒性逐渐恶化,并且(b)随着最先进的强大模型是对抗的具有较大的像素明智的扰动训练,它们的空间鲁棒性逐渐下降。在此权衡中实现帕累托 - 最优性,我们提出了一种基于课程学习的方法,该方法逐步列举更加困难的扰动(空间和对抗性),以同时改善空间和对抗鲁棒性。
translated by 谷歌翻译
Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.
translated by 谷歌翻译
使用卷积神经网络(CNN)已经显着改善了几种图像处理任务,例如图像分类和对象检测。与Reset和Abseralnet一样,许多架构在创建时至少在一个数据集中实现了出色的结果。培训的一个关键因素涉及网络的正规化,这可以防止结构过度装备。这项工作分析了在过去几年中开发的几种正规化方法,显示了不同CNN模型的显着改进。该作品分为三个主要区域:第一个称为“数据增强”,其中所有技术都侧重于执行输入数据的更改。第二个,命名为“内部更改”,旨在描述修改神经网络或内核生成的特征映射的过程。最后一个称为“标签”,涉及转换给定输入的标签。这项工作提出了与关于正则化的其他可用调查相比的两个主要差异:(i)第一个涉及在稿件中收集的论文并非超过五年,并第二个区别是关于可重复性,即所有作品此处推荐在公共存储库中可用的代码,或者它们已直接在某些框架中实现,例如Tensorflow或Torch。
translated by 谷歌翻译
Data augmentation is an effective technique for improving the accuracy of modern image classifiers. However, current data augmentation implementations are manually designed. In this paper, we describe a simple procedure called AutoAugment to automatically search for improved data augmentation policies. In our implementation, we have designed a search space where a policy consists of many subpolicies, one of which is randomly chosen for each image in each mini-batch. A sub-policy consists of two operations, each operation being an image processing function such as translation, rotation, or shearing, and the probabilities and magnitudes with which the functions are applied. We use a search algorithm to find the best policy such that the neural network yields the highest validation accuracy on a target dataset. Our method achieves state-of-the-art accuracy on SVHN, and ImageNet (without additional data). On ImageNet, we attain a Top-1 accuracy of 83.5% which is 0.4% better than the previous record of 83.1%. On CIFAR-10, we achieve an error rate of 1.5%, which is 0.6% better than the previous state-of-theart. Augmentation policies we find are transferable between datasets. The policy learned on ImageNet transfers well to achieve significant improvements on other datasets, such as Oxford Flowers, Caltech-101, Oxford-IIT Pets, FGVC Aircraft, and Stanford Cars. * Work performed as a member of the Google Brain Residency Program.† Equal contribution.
translated by 谷歌翻译
在本文中,我们询问视觉变形金刚(VIT)是否可以作为改善机器学习模型对抗逃避攻击的对抗性鲁棒性的基础结构。尽管较早的作品集中在改善卷积神经网络上,但我们表明VIT也非常适合对抗训练以实现竞争性能。我们使用自定义的对抗训练配方实现了这一目标,该配方是在Imagenet数据集的一部分上使用严格的消融研究发现的。与卷积相比,VIT的规范培训配方建议强大的数据增强,部分是为了补偿注意力模块的视力归纳偏置。我们表明,该食谱在用于对抗训练时可实现次优性能。相比之下,我们发现省略所有重型数据增强,并添加一些额外的零件($ \ varepsilon $ -Warmup和更大的重量衰减),从而大大提高了健壮的Vits的性能。我们表明,我们的配方在完整的Imagenet-1k上概括了不同类别的VIT体系结构和大规模模型。此外,调查了模型鲁棒性的原因,我们表明,在使用我们的食谱时,在训练过程中产生强烈的攻击更加容易,这会在测试时提高鲁棒性。最后,我们通过提出一种量化对抗性扰动的语义性质并强调其与模型的鲁棒性的相关性来进一步研究对抗训练的结果。总体而言,我们建议社区应避免将VIT的规范培训食谱转换为在对抗培训的背景下进行强大的培训和重新思考常见的培训选择。
translated by 谷歌翻译
对不需要的扰动的鲁棒性是在现实世界中部署神经网络分类器的一个重要方面。常见的自然扰动包括噪声,饱和度,遮挡,视点变化和模糊变形。所有这些都可以由新提议的转换增强卷积网络建模。虽然通过向网络提供增强数据来培训网络的许多方法,但我们的目标是在网络架构中集成扰动,以实现改善和更普遍的鲁棒性。为了证明Wiggling权重始终改进分类,我们选择标准网络并将其修改为转换增强网络。在扰动的CiFar-10图像上,修改的网络提供比原始网络更好的性能。对于更小的STL-10数据集,除了提供更好的普遍稳健性之外,Wiggling甚至可以提高无禁止的清洁图像的分类。我们得出结论,即使在训练期间没有看到扰动,Wiggled的转换网络也获得了良好的鲁棒性。
translated by 谷歌翻译
设计对某些数据转换不变的学习系统对于机器学习至关重要。从业人员通常可以通过选择网络体系结构(例如使用卷积进行翻译或使用数据扩展。但是,在网络中实现真正的不变性可能很困难,并且并不总是知道数据不变。学习数据增强策略的最新方法需要持有数据,并且基于双重优化问题,这些问题很复杂,可以解决并且通常在计算上要求。在这项工作中,我们仅从培训数据中研究了学习不断增长的新方法。使用直接在网络中构建的可学习的增强层,我们证明我们的方法非常通用。它可以结合任何类型的可区分扩展,并应用于计算机视觉之外的广泛学习问题。我们提供的经验证据表明,基于二线优化的现代自动数据增强技术比现代自动数据增强技术更容易,更快,同时取得了可比的结果。实验表明,虽然通过自动数据增强传递到模型的不传导受到模型表达性的限制,但我们方法所产生的不变性对设计不敏感。
translated by 谷歌翻译
Modern deep neural networks can achieve high accuracy when the training distribution and test distribution are identically distributed, but this assumption is frequently violated in practice. When the train and test distributions are mismatched, accuracy can plummet. Currently there are few techniques that improve robustness to unforeseen data shifts encountered during deployment. In this work, we propose a technique to improve the robustness and uncertainty estimates of image classifiers. We propose AUGMIX, a data processing technique that is simple to implement, adds limited computational overhead, and helps models withstand unforeseen corruptions. AUGMIX significantly improves robustness and uncertainty measures on challenging image classification benchmarks, closing the gap between previous methods and the best possible performance in some cases by more than half.
translated by 谷歌翻译
用尖峰神经网络(SNN)对基于事件的数据集开发神经形态智能最近引起了很多研究的关注。但是,基于事件的数据集的大小有限,使SNN易于过度拟合和不稳定的收敛性。以前的学术工作仍未探索这个问题。为了最大程度地减少这种泛化差距,我们提出了神经形态数据增强(NDA),这是一个专门针对基于事件的数据集设计的几何增强家族,目的是显着稳定SNN训练并减少训练和测试性能之间的概括差距。所提出的方法简单且与现有的SNN训练管道兼容。我们首次使用所提出的增强作用,证明了无监督的SNN对比度学习的可行性。我们对盛行的神经形态视觉基准进行了全面的实验,并表明NDA比以前的最新结果产生了实质性改进。例如,基于NDA的SNN分别在CIFAR10-DV和N-Caltech 101上获得了101%和13.7%的准确性增长。代码可在github https://github.com/intelligent-computing-lab-yale/nda_snn上找到。
translated by 谷歌翻译
当有足够的训练数据时,在某些视力任务中,基于变压器的模型(例如Vision Transformer(VIT))可以超越跨趋化神经网络(CNN)。然而,(CNN)对视力任务(即翻译均衡和局部性)具有强大而有用的归纳偏见。在这项工作中,我们开发了一种新颖的模型架构,我们称之为移动鱼类地标检测网络(MFLD-NET)。我们已经使用基于VIT的卷积操作(即斑块嵌入,多层感知器)制作了该模型。 MFLD-NET可以在轻巧的同时获得竞争性或更好的结果,同时轻巧,因此适用于嵌入式和移动设备。此外,我们表明MFLD-NET可以在PAR上获得关键点(地标)估计精度,甚至比FISH图像数据集上的某些最先进的(CNN)更好。此外,与VIT不同,MFLD-NET不需要预训练的模型,并且在小型数据集中训练时可以很好地概括。我们提供定量和定性的结果,以证明该模型的概括能力。这项工作将为未来开发移动但高效的鱼类监测系统和设备的努力奠定基础。
translated by 谷歌翻译
深度神经网络(DNN)已被广泛用于计算机视觉任务,例如图像分类,对象检测和分割。尽管最近的研究表明它们易受输入图像中手动数字扰动或失真的脆弱性。网络的准确性受到培训数据集的数据分布的极大影响。缩放原始图像会创建分布数据,这使其成为欺骗网络的对抗性攻击。在这项工作中,我们通过通过不同的倍数将ImageNet挑战数据集的子集缩放出一个子集,从而提出了一个缩放分数数据集Imagenet-C。我们工作的目的是研究缩放图像对高级DNN的性能的影响。我们对所提出的Imagenet-CS进行了几个最新的深神网络体系结构进行实验,结果显示缩放大小和准确性下降之间存在显着的正相关。此外,根据RESNET50体系结构,我们展示了一些关于最近提出的强大训练技术和策略(例如Augmix,Revisiting and Ranstorize of Al Of Awmiting and Normorizer of Un Imagenet-cs)的测试。实验结果表明,这些强大的训练技术可以改善网络对缩放转换的鲁棒性。
translated by 谷歌翻译
我们向您展示一次(YOCO)进行数据增强。 Yoco将一张图像切成两片,并在每件零件中单独执行数据增强。应用YOCO改善了每个样品的增强的多样性,并鼓励神经网络从部分信息中识别对象。 Yoco享受无参数,轻松使用的属性,并免费提供几乎所有的增强功能。进行了彻底的实验以评估其有效性。我们首先证明Yoco可以无缝地应用于不同的数据增强,神经网络体系结构,并在CIFAR和Imagenet分类任务上带来性能提高,有时会超过传统的图像级增强。此外,我们显示了Yoco益处对比的预培训,以更强大的表示,可以更好地转移到多个下游任务。最后,我们研究了Yoco的许多变体,并经验分析了各个设置的性能。代码可在GitHub上找到。
translated by 谷歌翻译