由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
本文提出了一种新的和富有激光激活方法,被称为FPLUS,其利用具有形式的极性标志的数学功率函数。它是通过常见的逆转操作来启发,同时赋予仿生学的直观含义。制剂在某些先前知识和预期特性的条件下理论上得出,然后通过使用典型的基准数据集通过一系列实验验证其可行性,其结果表明我们的方法在许多激活功能中拥有卓越的竞争力,以及兼容稳定性许多CNN架构。此外,我们将呈现给更广泛类型的功能延伸到称为PFPlus的函数,具有两个可以固定的或学习的参数,以便增加其表现力的容量,并且相同的测试结果验证了这种改进。
translated by 谷歌翻译
为了对线性不可分离的数据进行分类,神经元通常被组织成具有至少一个隐藏层的多层神经网络。灵感来自最近神经科学的发现,我们提出了一种新的神经元模型以及一种新的激活函数,可以使用单个神经元来学习非线性决策边界。我们表明标准神经元随后是新颖的顶端枝晶激活(ADA)可以使用100 \%的精度来学习XOR逻辑函数。此外,我们在计算机视觉,信号处理和自然语言处理中进行五个基准数据集进行实验,即摩洛哥,utkface,crema-d,时尚mnist和微小的想象成,表明ADA和泄漏的ADA功能提供了卓越的结果用于各种神经网络架构的整流线性单元(Relu),泄漏的Relu,RBF和嗖嗖声,例如单隐层或两个隐藏层的多层的Perceptrons(MLPS)和卷积神经网络(CNNS),如LENET,VGG,RESET和字符级CNN。当我们使用具有顶端树突激活(Pynada)的金字塔神经元改变神经元的标准模型时,我们获得进一步的性能改进。我们的代码可用于:https://github.com/raduionescu/pynada。
translated by 谷歌翻译
修剪深度神经网络的现有方法专注于去除训练有素的网络的不必要参数,然后微调模型,找到恢复训练模型的初始性能的良好解决方案。与其他作品不同,我们的方法特别注意通过修剪神经元的压缩模型和推理计算时间的解决方案的质量。通过探索Hessian的光谱半径,所提出的算法通过探索Hessian的光谱半径来指示压缩模型的参数,这导致了更好地推广了未经看涨的数据。此外,该方法不适用于预先训练的网络,并同时执行训练和修剪。我们的结果表明,它改善了神经元压缩的最先进的结果。该方法能够在不同神经网络模型上实现具有小精度下降的非常小的网络。
translated by 谷歌翻译
通过在多个观察到的源极域上培训模型,域概括旨在概括到无需进一步培训的任意看不见的目标领域。现有的作品主要专注于学习域不变的功能,以提高泛化能力。然而,由于在训练期间不可用目标域,因此前面的方法不可避免地遭受源极域中的过度。为了解决这个问题,我们开发了一个有效的基于辍学的框架,可以扩大模型的注意力,这可以有效地减轻过度的问题。特别地,与典型的辍学方案不同,通常在固定层上进行丢失,首先,我们随机选择一层,然后我们随机选择其通道以进行丢弃。此外,我们利用进步方案增加训练期间辍学的比率,这可以逐步提高培训模型的难度,以增强模型的稳健性。此外,为了进一步缓解过度拟合问题的影响,我们利用了在图像级和特征级别的增强方案来产生强大的基线模型。我们对多个基准数据集进行广泛的实验,该数据集显示了我们的方法可以优于最先进的方法。
translated by 谷歌翻译
使用卷积神经网络(CNN)已经显着改善了几种图像处理任务,例如图像分类和对象检测。与Reset和Abseralnet一样,许多架构在创建时至少在一个数据集中实现了出色的结果。培训的一个关键因素涉及网络的正规化,这可以防止结构过度装备。这项工作分析了在过去几年中开发的几种正规化方法,显示了不同CNN模型的显着改进。该作品分为三个主要区域:第一个称为“数据增强”,其中所有技术都侧重于执行输入数据的更改。第二个,命名为“内部更改”,旨在描述修改神经网络或内核生成的特征映射的过程。最后一个称为“标签”,涉及转换给定输入的标签。这项工作提出了与关于正则化的其他可用调查相比的两个主要差异:(i)第一个涉及在稿件中收集的论文并非超过五年,并第二个区别是关于可重复性,即所有作品此处推荐在公共存储库中可用的代码,或者它们已直接在某些框架中实现,例如Tensorflow或Torch。
translated by 谷歌翻译
图形神经网络(GNNS)从节点功能和输入图拓扑中利用信号来改善节点分类任务性能。然而,这些模型倾向于在异细胞图上表现不良,其中连接的节点具有不同的标记。最近提出了GNNS横跨具有不同程度的同性恋级别的图表。其中,依赖于多项式图滤波器的模型已经显示了承诺。我们观察到这些多项式图滤波器模型的解决方案也是过度确定的方程式系统的解决方案。它表明,在某些情况下,模型需要学习相当高的多项式。在调查中,我们发现由于其设计而在学习此类多项式的拟议模型。为了缓解这个问题,我们执行图表的特征分解,并建议学习作用于频谱的不同子集的多个自适应多项式滤波器。理论上和经验证明我们所提出的模型学习更好的过滤器,从而提高了分类准确性。我们研究了我们提出的模型的各个方面,包括利用潜在多项式滤波器的依义组分的数量以及节点分类任务上的各个多项式的性能的依赖性。我们进一步表明,我们的模型通过在大图中评估来扩展。我们的模型在最先进的模型上实现了高达5%的性能增益,并且通常优于现有的基于多项式滤波器的方法。
translated by 谷歌翻译
图形神经网络已成为从图形结构数据学习的不可缺少的工具之一,并且它们的实用性已在各种各样的任务中显示。近年来,建筑设计的巨大改进,导致各种预测任务的性能更好。通常,这些神经架构在同一层中使用可知的权重矩阵组合节点特征聚合和特征转换。这使得分析从各种跳过的节点特征和神经网络层的富有效力来挑战。由于不同的图形数据集显示在特征和类标签分布中的不同级别和异常级别,因此必须了解哪些特征对于没有任何先前信息的预测任务是重要的。在这项工作中,我们将节点特征聚合步骤和深度与图形神经网络分离,并经验分析了不同的聚合特征在预测性能中发挥作用。我们表明,并非通过聚合步骤生成的所有功能都很有用,并且通常使用这些较少的信息特征可能对GNN模型的性能有害。通过我们的实验,我们表明学习这些功能的某些子集可能会导致各种数据集的性能更好。我们建议使用Softmax作为常规器,并从不同跳距的邻居聚合的功能的“软选择器”;和L2 - GNN层的标准化。结合这些技术,我们呈现了一个简单浅的模型,特征选择图神经网络(FSGNN),并经验展示所提出的模型比九个基准数据集中的最先进的GNN模型实现了可比或甚至更高的准确性节点分类任务,具有显着的改进,可达51.1%。
translated by 谷歌翻译
作为深度图像分类应用,例如,人脸识别,在我们日常生活中越来越普遍,他们的公平问题提高了越来越多的关注。因此,在部署之前全面地测试这些应用的公平性是至关重要的。现有的公平测试方法遭受以下限制:1)适用性,即它们仅适用于结构化数据或文本,而无需处理图像分类应用的语义水平中的高维和抽象域采样; 2)功能,即,它们在不提供测试标准的情况下产生不公平的样本,以表征模型的公平性充足。为了填补差距,我们提出了Deepfait,是专门为深图图像分类应用而设计的系统公平测试框架。 Deepfait由几种重要组成部分组成,实现了对深度图像分类应用的有效公平测试的重要组成部分:1)神经元选择策略,用于识别与公平相关神经元的神经元; 2)一组多粒度充足度指标,以评估模型的公平性; 3)测试选择算法有效地修复公平问题。我们对广泛采用的大型面部识别应用,即VGGFace和Fairface进行了实验。实验结果证实,我们的方法可以有效地识别公平相关的神经元,表征模型的公平性,并选择最有价值的测试用例来减轻模型的公平问题。
translated by 谷歌翻译
图形神经网络(GNN)在学习强大的节点表示中显示了令人信服的性能,这些表现在保留节点属性和图形结构信息的强大节点表示中。然而,许多GNNS在设计有更深的网络结构或手柄大小的图形时遇到有效性和效率的问题。已经提出了几种采样算法来改善和加速GNN的培训,但他们忽略了解GNN性能增益的来源。图表数据中的信息的测量可以帮助采样算法来保持高价值信息,同时消除冗余信息甚至噪声。在本文中,我们提出了一种用于GNN的公制引导(MEGUIDE)子图学习框架。 MEGUIDE采用两种新颖的度量:功能平滑和连接失效距离,以指导子图采样和迷你批次的培训。功能平滑度专为分析节点的特征而才能保留最有价值的信息,而连接失败距离可以测量结构信息以控制子图的大小。我们展示了MEGUIDE在多个数据集上培训各种GNN的有效性和效率。
translated by 谷歌翻译
以前的工作提出了许多新的损失函数和常规程序,可提高图像分类任务的测试准确性。但是,目前尚不清楚这些损失函数是否了解下游任务的更好表示。本文研究了培训目标的选择如何影响卷积神经网络隐藏表示的可转移性,训练在想象中。我们展示了许多目标在Vanilla Softmax交叉熵上导致想象的精度有统计学意义的改进,但由此产生的固定特征提取器转移到下游任务基本较差,并且当网络完全微调时,损失的选择几乎没有效果新任务。使用居中内核对齐来测量网络隐藏表示之间的相似性,我们发现损失函数之间的差异仅在网络的最后几层中都很明显。我们深入了解倒数第二层的陈述,发现不同的目标和近奇计的组合导致大幅不同的类别分离。具有较高类别分离的表示可以在原始任务上获得更高的准确性,但它们的功能对于下游任务不太有用。我们的结果表明,用于原始任务的学习不变功能与传输任务相关的功能之间存在权衡。
translated by 谷歌翻译
在过去的几年里,深度神经网络(DNN)取得了巨大的成功,并且在许多应用领域中不断应用。然而,在工业任务的实际部署期间,由于超容易的原因,发现DNN被发现是错误的,缺乏在实际使用过程中对现实世界腐败的鲁棒性。为了解决这些挑战,通过通过在神经级别的再试,微调或直接重量固定来通过更新权重(即,网络参数)来修复实际操作环境下的近期尝试。在这项工作中,作为第一次尝试,我们通过共同优化架构和重量,以更高(即,块)级别来修复DNN。我们首先履行实证研究,以调查整个网络级和层次修复的限制,这激励我们探索块水平的DNN修复的新修复方向。为此,我们首先提出对弱势群体定位的对抗侵犯块定位的频谱分析,其在前向和后向过程中考虑块中的神经元“状态和权重”梯度,这使得即使在几个示例下也能够修复更准确的候选块定位。然后,我们进一步提出了面向架构的基于搜索的修复,该修复将目标块放宽到更高的深度特征级别的连续修复搜索空间。通过联合优化该空间中的架构和权重,我们可以识别更好的块架构。我们实施我们提出的修复技术作为一个名为ArchRepair的工具,并进行广泛的实验以验证提出的方法。结果表明,我们的方法不仅可以修复,还可以提高准确性和稳健性,优于最先进的DNN修复技术。
translated by 谷歌翻译
最近,图形神经网络(GNNS)在各种现实情景中获得了普及。尽管取得了巨大成功,但GNN的建筑设计严重依赖于体力劳动。因此,自动化图形神经网络(Autopmn)引起了研究界的兴趣和关注,近年来显着改善。然而,现有的autopnn工作主要采用隐式方式来模拟并利用图中的链接信息,这对图中的链路预测任务不充分规范化,并限制了自动启动的其他图表任务。在本文中,我们介绍了一个新的Autognn工作,该工作明确地模拟了缩写为autogel的链接信息。以这种方式,AutoGel可以处理链路预测任务并提高Autognns对节点分类和图形分类任务的性能。具体地,AutoGel提出了一种新的搜索空间,包括层内和层间设计中的各种设计尺寸,并采用更强大的可分辨率搜索算法,以进一步提高效率和有效性。基准数据集的实验结果展示了自动池上的优势在几个任务中。
translated by 谷歌翻译
过度平滑是一个具有挑战性的问题,这会降低深图卷积网络(GCNS)的性能。然而,用于缓解过度平滑问题的现有研究缺乏一般性或有效性。在本文中,我们分析了过度平滑问题背后的潜在问题,即特征 - 多样性退化,梯度消失和模型重量衰减。灵感来自于此,我们提出了一个简单而有效的即插即用模块,速度,缓解过度平滑。具体地,对于GCN模型的每个中间层,随机地(或基于节点度)选择节点以通过直接向非线性函数馈送它们的输入特征来跳过卷积操作。分析,1)跳过卷积操作可以防止特征失去多样性; 2)“跳过”节点使能梯度直接传递回来,从而减轻梯度消失和模型权重过腐蚀问题。为了展示Skipnode的优越性,我们对九个流行的数据集进行了广泛的实验,包括同性恋和异化图,在两个典型的任务上具有不同的图表大小:节点分类和链路预测。具体而言,1)SkipNode具有适应不同数据集和任务的各种基于GCN的模型的普遍性。 2)Skipnode优于最近最先进的反平滑插头 - 播放模块,即DropEdge和Dropnode,在不同的设置中。代码将在GitHub上公开提供。
translated by 谷歌翻译
最近,张等人。(2021)基于$ \ ell_ \ infty $ -distance函数开发出一种新的神经网络架构,自然拥有经过认证的$ \ ell_ \ infty $坚固的稳健性。尽管具有出色的理论特性,但到目前为止的模型只能实现与传统网络的可比性。在本文中,我们通过仔细分析培训流程,大大提高了$ \ ell_ \ infty $ -distance网的认证稳健性。特别是,我们展示了$ \ ell_p $ -rexation,这是克服模型的非平滑度的关键方法,导致早期训练阶段的意外的大型嘴唇浓度。这使得优化不足以使用铰链损耗并产生次优溶液。鉴于这些调查结果,我们提出了一种简单的方法来解决上述问题,设计一种新的客观函数,这些功能将缩放的跨熵损失结合在剪切铰链损失。实验表明,使用拟议的培训策略,$ \ ell_ \ infty $-distance网的认证准确性可以从Cifar-10($ \ epsilon = 8/255 $)的33.30%到40.06%的显着提高到40.06%,同时显着优于表现优势该地区的其他方法。我们的结果清楚地展示了$ \ ell_ \ infty $-distance净的有效性和潜力,以获得认证的稳健性。代码在https://github.com/zbh2047/l_inf-dist-net-v2上获得。
translated by 谷歌翻译
通过增强模型,输入示例,培训集和优化目标,已经提出了各种方法进行分发(OOD)检测。偏离现有工作,我们有一个简单的假设,即标准的离心模型可能已经包含有关训练集分布的足够信息,这可以利用可靠的ood检测。我们对验证这一假设的实证研究,该假设测量了模型激活的模型和分布(ID)迷你批次,发现OOD Mini-Batches的激活手段一直偏离培训数据的培训数据。此外,培训数据的激活装置可以从批量归一化层作为“自由午餐”中有效地计算或从批量归一化层次上检索。基于该观察,我们提出了一种名为神经平均差异(NMD)的新型度量,其比较了输入示例和训练数据的神经手段。利用NMD的简单性,我们提出了一种有效的OOD探测器,通过标准转发通道来计算神经手段,然后是轻量级分类器。广泛的实验表明,在检测精度和计算成本方面,NMD跨越多个数据集和模型架构的最先进的操作。
translated by 谷歌翻译
最近的结果表明,在训练期间重新升级神经网络参数的子集可以改善泛化,特别是对于小型训练集。我们研究不同重新初始化方法在12个基准图像分类数据集中的几种卷积架构中的影响,分析了它们的潜在收益和突出显示限制。我们还介绍了一种新的层状重新初始化算法,优于先前的方法,并建议观察到的改进的泛化的解释。首先,我们表明,无需增加重量的规范,可以在不增加重量的规范的情况下增加训练示例的余量。因此,导致神经网络的边缘的泛化范围的改善。其次,我们证明它在损失表面的平坦局部最小值中稳定。第三,它鼓励学习一般规则,并通过强调神经网络的下层来劝阻记忆。我们的外带消息是使用自下而上的层状重新初始化的小型数据集可以改善卷积神经网络的准确性,其中重新初始层的数量可能因可用计算预算而变化。
translated by 谷歌翻译
培训广泛和深度神经网络(DNN)需要大量的存储资源,例如内存,因为在转发传播期间必须在存储器中保存中间激活数据,然后恢复以便向后传播。然而,由于硬件设计约束,诸如GPU之类的最先进的加速器(例如GPU)仅配备了非常有限的存储容量,这显着限制了在训练大规模DNN时的最大批量大小和性能加速。传统的记忆保存技术均受性能开销或受限互连带宽或特定互连技术的约束。在本文中,我们提出了一种新颖的记忆高效的CNN训练框架(称为Comet),利用错误界限的损耗压缩来显着降低训练的内存要求,以允许培训更大的模型或加速培训。不同于采用基于图像的有损压缩机(例如JPEG)的最先进的解决方案来压缩激活数据,我们的框架故意采用严格的错误控制机制来采用错误界限的损耗压缩。具体而言,我们对从改变的激活数据传播到梯度的压缩误差传播的理论分析,并经验探讨改变梯度对训练过程的影响。基于这些分析,我们优化了误报的损耗压缩,并提出了一种用于激活数据压缩的自适应误差控制方案。我们评估我们对最先进的解决方案的设计,其中包含五个广泛采用的CNN和Imagenet DataSet。实验表明,我们所提出的框架可以在基线训练中显着降低13.5倍,并分别在另一个最先进的基于压缩框架上的1.8倍,几乎没有准确性损失。
translated by 谷歌翻译
神经架构的创新促进了语言建模和计算机视觉中的重大突破。不幸的是,如果网络参数未正确初始化,新颖的架构通常会导致挑战超参数选择和培训不稳定。已经提出了许多架构特定的初始化方案,但这些方案并不总是可移植到新体系结构。本文介绍了毕业,一种用于初始化神经网络的自动化和架构不可知论由方法。毕业基础是一个简单的启发式;调整每个网络层的规范,使得具有规定的超参数的SGD或ADAM的单个步骤导致可能的损耗值最小。通过在每个参数块前面引入标量乘数变量,然后使用简单的数字方案优化这些变量来完成此调整。 GradInit加速了许多卷积架构的收敛性和测试性能,无论是否有跳过连接,甚至没有归一化层。它还提高了机器翻译的原始变压器架构的稳定性,使得在广泛的学习速率和动量系数下使用ADAM或SGD来训练它而无需学习速率预热。代码可在https://github.com/zhuchen03/gradinit上获得。
translated by 谷歌翻译
表示标签分布作为一个热量矢量是培训节点分类模型中的常见做法。然而,单热表示可能无法充分反映不同类别中节点的语义特征,因为某些节点可以在其他类中的邻居语义上靠近其邻居。由于鼓励在对每个节点进行分类时,鼓励模型分配完全概率,因此会导致过度自信。虽然具有标签平滑的培训模型可以在某种程度上缓解此问题,但它仍然无法捕获图形结构隐含的节点的语义特征。在这项工作中,我们提出了一种新颖的SAL(\ Textit {Security-Aware标签平滑})方法作为流行节点分类模型的增强组件。 SAL利用图形结构来捕获连接节点之间的语义相关性并生成结构感知标签分配以替换原始的单热标签向量,从而改善节点分类性能而不推广成本。七节点分类基准数据集的广泛实验揭示了我们对改进转膜和归纳节点分类的含量的有效性。经验结果表明,SALS优于标签平滑方法,增强节点分类模型以优于基线方法。
translated by 谷歌翻译