Batch Normalization (BN) is an important preprocessing step to many deep learning applications. Since it is a data-dependent process, for some homogeneous datasets it is a redundant or even a performance-degrading process. In this paper, we propose an early-stage feasibility assessment method for estimating the benefits of applying BN on the given data batches. The proposed method uses a novel threshold-based approach to classify the training data batches into two sets according to their need for normalization. The need for normalization is decided based on the feature heterogeneity of the considered batch. The proposed approach is a pre-training processing, which implies no training overhead. The evaluation results show that the proposed approach achieves better performance mostly in small batch sizes than the traditional BN using MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets. Additionally, the network stability is increased by reducing the occurrence of internal variable transformation.
translated by 谷歌翻译
Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful parameter initialization, and makes it notoriously hard to train models with saturating nonlinearities. We refer to this phenomenon as internal covariate shift, and address the problem by normalizing layer inputs. Our method draws its strength from making normalization a part of the model architecture and performing the normalization for each training mini-batch. Batch Normalization allows us to use much higher learning rates and be less careful about initialization. It also acts as a regularizer, in some cases eliminating the need for Dropout. Applied to a state-of-the-art image classification model, Batch Normalization achieves the same accuracy with 14 times fewer training steps, and beats the original model by a significant margin. Using an ensemble of batchnormalized networks, we improve upon the best published result on ImageNet classification: reaching 4.9% top-5 validation error (and 4.8% test error), exceeding the accuracy of human raters.
translated by 谷歌翻译
这项研究介绍了一个称为批处理层归一化(BLN)的新的归一化层,以减少深神经网络层中内部协变量转移的问题。作为批处理和层归一化的组合版本,BLN自适应地将适当的重量放在迷你批处理上,并基于迷你批次的逆尺寸,在学习过程中将输入标准化为层。它还使用微型批量统计或人口统计数据,在推理时间执行精确的计算,并在推理时间进行较小的更改。使用迷你批量或人口统计的决策过程使BLN具有在模型的超参数优化过程中发挥全面作用的能力。 BLN的关键优势是对独立于输入数据的理论分析的支持,其统计配置在很大程度上取决于执行的任务,培训数据的量和批次的大小。测试结果表明,BLN的应用潜力及其更快的收敛性在卷积和复发性神经网络中都比批处理归一化和层归一化。实验的代码在线公开可用(https://github.com/a2amir/batch-layer-normalization)。
translated by 谷歌翻译
分批归一化(BN)由归一化组成部分,然后是仿射转化,并且对于训练深神经网络至关重要。网络中每个BN的标准初始化分别设置了仿射变换量表,并将其转移到1和0。但是,经过训练,我们观察到这些参数从初始化中并没有太大变化。此外,我们注意到归一化过程仍然可以产生过多的值,这对于训练是不可能的。我们重新审视BN公式,并为BN提出了一种新的初始化方法和更新方法,以解决上述问题。实验旨在强调和证明适当的BN规模初始化对性能的积极影响,并使用严格的统计显着性测试进行评估。该方法可以与现有实施方式一起使用,没有额外的计算成本。源代码可在https://github.com/osu-cvl/revisiting-bninit上获得。
translated by 谷歌翻译
尽管对视觉识别任务进行了显着进展,但是当培训数据稀缺或高度不平衡时,深神经网络仍然易于普遍,使他们非常容易受到现实世界的例子。在本文中,我们提出了一种令人惊讶的简单且高效的方法来缓解此限制:使用纯噪声图像作为额外的训练数据。与常见使用添加剂噪声或对抗数据的噪声不同,我们通过直接训练纯无随机噪声图像提出了完全不同的视角。我们提出了一种新的分发感知路由批量归一化层(DAR-BN),除了同一网络内的自然图像之外,还可以在纯噪声图像上训练。这鼓励泛化和抑制过度装备。我们所提出的方法显着提高了不平衡的分类性能,从而获得了最先进的导致大量的长尾图像分类数据集(Cifar-10-LT,CiFar-100-LT,想象齿 - LT,和celeba-5)。此外,我们的方法非常简单且易于使用作为一般的新增强工具(在现有增强的顶部),并且可以在任何训练方案中结合。它不需要任何专门的数据生成或培训程序,从而保持培训快速高效
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
由于医学图像的数据稀缺性和数据异质性是普遍存在的,因此在部署到新站点时,使用先前的归一化方法训练有素的卷积神经网络(CNN)可能会表现不佳。但是,现实世界应用程序的可靠模型应该能够在分布(IND)和分布(OOD)数据(例如新站点数据)上很好地概括。在这项研究中,我们提出了一种称为窗口归一化(WIN)的新型归一化技术,这是现有标准化方法的简单而有效的替代方法。具体而言,赢得了与特征窗口上计算的本地统计数据的归一化统计数据。此功能级增强技术可以很好地规范模型,并显着改善了其OOD的概括。利用它的优势,我们提出了一种称为Win Win的新型自我鉴定方法,以进一步改善分类中的OOD概括。通过两次向前传球和一致性约束可以轻松实现双赢,这对于现有方法来说是一个简单的扩展。关于各种任务(例如青光眼检测,乳腺癌检测,染色体分类,视盘和杯赛分割等)和数据集(26个数据集)的广泛实验结果证明了我们方法的一般性和有效性。该代码可从https://github.com/joe1chief/windownormalizaion获得。
translated by 谷歌翻译
已经提出了各种归一化层来帮助培训神经网络。组归一化(GN)是在视觉识别任务中实现出色表现的有效和有吸引力的研究之一。尽管取得了巨大的成功,但GN仍然存在几个问题,可能会对神经网络培训产生负面影响。在本文中,我们介绍了一个分析框架,并讨论了GN在影响神经网络训练过程时的工作原理。从实验结果中,我们得出结论GN对批处理标准化(BN)的较低性能的真正原因:1)\ TextBf {不稳定的训练性能},2)\ TextBf {更敏感}对失真,无论是来自外部噪声还是扰动。通过正规化。此外,我们发现GN只能在某个特定时期内帮助神经网络培训,而BN可以帮助整个培训中的网络。为了解决这些问题,我们提出了一个新的归一化层,该层是通过合并BN的优势在GN顶部构建的。图像分类任务的实验结果表明,所提出的归一化层优于官方GN,以提高识别精度,无论批次大小如何,并稳定网络训练。
translated by 谷歌翻译
当源(训练)数据和目标(测试)数据之间存在域移动时,深网很容易降级。最近的测试时间适应方法更新了通过流数据部署在新目标环境中的预训练源模型的批归归式层,以减轻这种性能降低。尽管此类方法可以在不首先收集大型目标域数据集的情况下进行调整,但它们的性能取决于流媒体条件,例如迷你批量的大小和类别分布,在实践中可能无法预测。在这项工作中,我们提出了一个框架,以适应几个域的适应性,以应对数据有效适应的实际挑战。具体而言,我们提出了在预训练的源模型中对特征归一化统计量的约束优化,该模型由目标域的小支持集监督。我们的方法易于实现,并改善每类用于分类任务的示例较小的源模型性能。对5个跨域分类和4个语义分割数据集进行了广泛的实验表明,我们的方法比测试时间适应更准确,更可靠,同时不受流媒体条件的约束。
translated by 谷歌翻译
When training early-stage deep neural networks (DNNs), generating intermediate features via convolution or linear layers occupied most of the execution time. Accordingly, extensive research has been done to reduce the computational burden of the convolution or linear layers. In recent mobile-friendly DNNs, however, the relative number of operations involved in processing these layers has significantly reduced. As a result, the proportion of the execution time of other layers, such as batch normalization layers, has increased. Thus, in this work, we conduct a detailed analysis of the batch normalization layer to efficiently reduce the runtime overhead in the batch normalization process. Backed up by the thorough analysis, we present an extremely efficient batch normalization, named LightNorm, and its associated hardware module. In more detail, we fuse three approximation techniques that are i) low bit-precision, ii) range batch normalization, and iii) block floating point. All these approximate techniques are carefully utilized not only to maintain the statistics of intermediate feature maps, but also to minimize the off-chip memory accesses. By using the proposed LightNorm hardware, we can achieve significant area and energy savings during the DNN training without hurting the training accuracy. This makes the proposed hardware a great candidate for the on-device training.
translated by 谷歌翻译
最近的智能故障诊断(IFD)的进展大大依赖于深度代表学习和大量标记数据。然而,机器通常以各种工作条件操作,或者目标任务具有不同的分布,其中包含用于训练的收集数据(域移位问题)。此外,目标域中的新收集的测试数据通常是未标记的,导致基于无监督的深度转移学习(基于UDTL为基础的)IFD问题。虽然它已经实现了巨大的发展,但标准和开放的源代码框架以及基于UDTL的IFD的比较研究尚未建立。在本文中,我们根据不同的任务,构建新的分类系统并对基于UDTL的IFD进行全面审查。对一些典型方法和数据集的比较分析显示了基于UDTL的IFD中的一些开放和基本问题,这很少研究,包括特征,骨干,负转移,物理前导等的可转移性,强调UDTL的重要性和再现性 - 基于IFD,整个测试框架将发布给研究界以促进未来的研究。总之,发布的框架和比较研究可以作为扩展界面和基本结果,以便对基于UDTL的IFD进行新的研究。代码框架可用于\ url {https:/github.com/zhaozhibin/udtl}。
translated by 谷歌翻译
自我监督的学习(SSL)已成为无需人类注释而产生不变表示的流行方法。但是,通过在输入数据上利用先前的在线转换功能来实现所需的不变表示。结果,每个SSL框架都是针对特定数据类型(例如,视觉数据)定制的,如果将其用于其他数据集类型,则需要进行进一步的修改。另一方面,是一个通用且广泛适用的框架的自动编码器(AE),主要集中于缩小尺寸,不适合学习不变表示。本文提出了一个基于阻止退化解决方案的受限自我标签分配过程的通用SSL框架。具体而言,先前的转换函数被用无监督的对抗训练的训练过程得出,以实现不变表示。通过自我转化机制,可以从相同的输入数据生成成对的增强实例。最后,基于对比度学习的培训目标是通过利用自我标签分配和自我转化机制来设计的。尽管自我转化过程非常通用,但拟议的培训策略的表现优于基于AE结构的大多数最先进的表示方法。为了验证我们的方法的性能,我们对四种类型的数据进行实验,即视觉,音频,文本和质谱数据,并用四个定量指标进行比较。我们的比较结果表明,所提出的方法证明了鲁棒性并成功识别数据集中的模式。
translated by 谷歌翻译
批次归一化被广泛用于深度学习以使中间激活归一化。深层网络臭名昭著地增加了训练的复杂性,要​​求仔细的体重初始化,需要较低的学习率等。这些问题已通过批归一化解决(\ textbf {bn})来解决,通过将激活的输入归功于零平均值和单位标准偏差。使培训过程的批归归量化部分显着加速了非常深网络的训练过程。一个新的研究领域正在进行研究\ textbf {bn}成功背后的确切理论解释。这些理论见解中的大多数试图通过将其对优化,体重量表不变性和正则化的影响来解释\ textbf {bn}的好处。尽管\ textbf {bn}在加速概括方面取得了不可否认的成功,但分析的差距将\ textbf {bn}与正则化参数的效果相关联。本文旨在通过\ textbf {bn}对正则化参数的数据依赖性自动调整,并具有分析证明。我们已将\ textbf {bn}提出为对非 - \ textbf {bn}权重的约束优化,通过该优化,我们通过它演示其数据统计信息依赖于正则化参数的自动调整。我们还为其在嘈杂的输入方案下的行为提供了分析证明,该方案揭示了正则化参数的信号与噪声调整。我们还通过MNIST数据集实验的经验结果证实了我们的主张。
translated by 谷歌翻译
差异私有随机梯度下降(DPSGD)是基于差分隐私(DP)范例的随机梯度下降的变化,这可以减轻来自在训练数据中存在敏感信息的隐私威胁。然而,具有DPSGD的培训深度神经网络的一个主要缺点是模型精度的降低。本文研究了标准化层对DPSGD性能的影响。我们证明标准化层显着影响了深度神经网络与嘈杂参数的效用,应该被视为DPSGD培训的基本成分。特别是,我们提出了一种新的方法,用于将批量标准化与DPSGD集成,而不会产生额外的隐私损失。通过我们的方法,我们能够培训更深的网络并实现更好的效用隐私权衡。
translated by 谷歌翻译
背景和目标:需要分享医疗数据以实现医疗保健信息的跨机构流量并构建高准确的计算机辅助诊断系统。但是,大量的医疗数据集,保存深度卷积神经网络(DCNN)模型的大量记忆以及患者的隐私保护是可能导致医疗数据共享效率低下的问题。因此,本研究提出了一种新型的软标签数据集蒸馏方法,用于医疗数据共享。方法:所提出的方法提炼医疗图像数据的有效信息,并生成几个带有不同数据分布的压缩图像,以供匿名医疗数据共享。此外,我们的方法可以提取DCNN模型的基本权重,以减少保存训练有素的模型以进行有效的医疗数据共享所需的内存。结果:所提出的方法可以将数万张图像压缩为几个软标签图像,并将受过训练的模型的大小减少到其原始大小的几百分之一。蒸馏后获得的压缩图像已在视觉上匿名化;因此,它们不包含患者的私人信息。此外,我们可以通过少量压缩图像实现高检测性能。结论:实验结果表明,所提出的方法可以提高医疗数据共享的效率和安全性。
translated by 谷歌翻译
在测试时间适应(TTA)中,给定在某些源数据上培训的模型,目标是使其适应从不同分布的测试实例更好地预测。至关重要的是,TTA假设从目标分布到Finetune源模型,无法访问源数据或甚至从目标分布到任何其他标记/未标记的样本。在这项工作中,我们考虑TTA在更务实的设置中,我们称为SITA(单图像测试时间适应)。这里,在制作每个预测时,该模型只能访问给定的\ emph {单}测试实例,而不是实例的\ emph {批次}。通常在文献中被考虑。这是由逼真的情况激励,其中在按需时尚中需要推断,可能不会被延迟到“批量 - iFY”传入请求或者在没有范围的边缘设备(如移动电话中)发生推断批处理。 SITA的整个适应过程应在推理时间发生时非常快。为了解决这个问题,我们提出了一种新颖的AUGBN,用于仅需要转发传播的SITA设置。该方法可以为分类和分段任务的单个测试实例调整任何特征训练模型。 AUGBN估计仅使用具有标签保存的转换的一个前进通过的给定测试图像的看不见的测试分布的正常化统计。由于AUGBN不涉及任何反向传播,与其他最近的方法相比,它显着更快。据我们所知,这是仅使用单个测试图像解决此硬调整问题的第一个工作。尽管非常简单,但我们的框架能够在我们广泛的实验和消融研究中对目标实例上应用源模型来实现显着的性能增益。
translated by 谷歌翻译
网络压缩对于使深网的效率更高,更快且可推广到低端硬件至关重要。当前的网络压缩方法有两个开放问题:首先,缺乏理论框架来估计最大压缩率;其次,有些层可能会过多地进行,从而导致网络性能大幅下降。为了解决这两个问题,这项研究提出了一种基于梯度矩阵分析方法,以估计最大网络冗余。在最大速率的指导下,开发了一种新颖而有效的层次网络修剪算法,以最大程度地凝结神经元网络结构而无需牺牲网络性能。进行实质性实验以证明新方法修剪几个高级卷积神经网络(CNN)体系结构的功效。与现有的修剪方法相比,拟议的修剪算法实现了最先进的性能。与其他方法相比,在相同或相似的压缩比下,新方法提供了最高的网络预测准确性。
translated by 谷歌翻译
在本文中,我们表明样品的欧几里得规范的差异可以在空间翻译和划分归一化之后对语义差异甚至混乱做出贡献。为了解决这个问题,我们提出了一种直观但有效的方法,以均衡样品向量的欧几里得规范。具体来说,我们$ l_2 $ - 在批准之前将每个样品向量归一化,因此样品向量的幅度相同。由于所提出的方法结合了$ L_2 $归一化和批量归一化,因此我们将我们的方法称为$ L_2 $ bn。 $ l_2 $ bn可以增强阶层内特征的紧凑性,并扩大阶层间特征的差异。此外,它可以帮助梯度收敛到稳定的量表。 $ l_2 $ bn易于实现,并且可以在没有任何其他参数和超参数的情况下发挥其效果。因此,它可以用作神经网络的基本归一化方法。我们通过对图像分类和声学场景分类任务进行各种模型的广泛实验来评估$ L_2 $亿美元的有效性。实验结果表明,$ L_2 $ bn能够提高各种神经网络模型的概括能力,并取得了可观的性能改进。
translated by 谷歌翻译
在过去的几十年中,卷积神经网络(CNN)在计算机视觉方面取得了令人印象深刻的成功。图像卷积操作可帮助CNN在与图像相关的任务上获得良好的性能。但是,图像卷积具有很高的计算复杂性,难以实现。本文提出了可以在频域中训练的Cemnet。这项研究的最重要动机是,我们可以根据互相关定理替换频域中的直接元素乘法操作来替换频域中的图像卷积,从而显然降低了计算复杂性。我们进一步介绍了一种体重固定机制,以减轻过度拟合的问题,并分析批准,泄漏的速度和频域中辍学的工作行为,以设计其为Cemnet的对应物。此外,为了处理由离散的傅立叶变换带来的复杂输入,我们为CENNET设计了两个分支网络结构。实验结果表明,Cemnet在MNIST和CIFAR-10数据库上取得了良好的性能。
translated by 谷歌翻译
将联合学习(FL)模型概括为未IID数据的解读客户是一个至关重要的主题,但到目前为止未解决。在这项工作中,我们建议从新的因果角度来解决这个问题。具体而言,我们形成培训结构因果模型(SCM),以解释模型泛化在分布式学习范式中的挑战。基于此,我们介绍了一种使用测试特定和势头批量标准化(TSMobn)的简单且有效的方法来推广到测试客户端。通过制定另一个测试SCM来说,给出了因果分析,并证明了TSMobn的关键因素是特定的特定于特定的统计数据(即,均值和方差)。这种统计数据可以被视为因果干预的代理变量。此外,通过考虑FL中的泛化界,我们表明我们的TSMobn方法可以减少训练和测试特征分布之间的分歧,这实现了比标准模型测试更低的泛化差距。我们广泛的实验评估表明,在具有各种类型的特征分布和客户端数量的三个数据集上对看不见的客户端概括的显着改进。值得注意的是,我们的建议方法可以灵活地应用于不同的最先进的联邦学习算法,并且与现有的域泛化方法正交。
translated by 谷歌翻译