我们提出了一种基于虚拟对抗性损失的新正则化方法:给出输入的条件标签分布的局部平滑度的新度量。虚拟对抗性损失被定义为围绕每个输入数据点的条件标签分布对局部扰动的鲁棒性。与对抗训练不同,我们的方法定义了没有标签信息的对抗方向,因此适用于半监督学习。因为我们平滑的方向该模型只是“虚拟”对抗,我们称我们的方法为虚拟对抗训练(VAT)。增值税的计算成本相对较低。对于神经网络,可以计算虚拟对抗性损失的近似梯度,而不超过两对前向和后向传播。在我们的实验中,我们将VAT应用于多基准数据集上的监督和半监督学习任务。通过基于熵最小化原理的算法的简单增强,我们的增值税在SVHN和CIFAR-10上实现了半监督学习任务的最先进性能。
translated by 谷歌翻译
We propose local distributional smoothness (LDS), a new notion of smoothnessfor statistical model that can be used as a regularization term to promote thesmoothness of the model distribution. We named the LDS based regularization asvirtual adversarial training (VAT). The LDS of a model at an input datapoint isdefined as the KL-divergence based robustness of the model distribution againstlocal perturbation around the datapoint. VAT resembles adversarial training,but distinguishes itself in that it determines the adversarial direction fromthe model distribution alone without using the label information, making itapplicable to semi-supervised learning. The computational cost for VAT isrelatively low. For neural network, the approximated gradient of the LDS can becomputed with no more than three pairs of forward and back propagations. Whenwe applied our technique to supervised and semi-supervised learning for theMNIST dataset, it outperformed all the training methods other than the currentstate of the art method, which is based on a highly advanced generative model.We also applied our method to SVHN and NORB, and confirmed our method'ssuperior performance over the current state of the art semi-supervised methodapplied to these datasets.
translated by 谷歌翻译
Adversarial training provides a means of regularizing supervised learning algorithms while virtual adversarial training is able to extend supervised learning algorithms to the semi-supervised setting. However, both methods require making small perturbations to numerous entries of the input vector, which is inappropriate for sparse high-dimensional inputs such as one-hot word representations. We extend adversarial and virtual adversarial training to the text domain by applying perturbations to the word embeddings in a recurrent neural network rather than to the original input itself. The proposed method achieves state of the art results on multiple benchmark semi-supervised and purely supervised tasks. We provide visualizations and analysis showing that the learned word embeddings have improved in quality and that while training, the model is less prone to overfitting.
translated by 谷歌翻译
We present a scalable approach for semi-supervised learning on graph-structured data that is based on an efficient variant of convolutional neural networks which operate directly on graphs. We motivate the choice of our convolutional architecture via a localized first-order approximation of spectral graph convolutions. Our model scales linearly in the number of graph edges and learns hidden layer representations that encode both local graph structure and features of nodes. In a number of experiments on citation networks and on a knowledge graph dataset we demonstrate that our approach outperforms related methods by a significant margin.
translated by 谷歌翻译
and alex3012 and sujin.shin and icmoon } @kaist.ac.kr Abstract Recently, training with adversarial examples, which are generated by adding a small but worst-case perturbation on input examples, has improved the generalization performance of neural networks. In contrast to the biased individual inputs to enhance the generality, this paper introduces adversarial dropout, which is a minimal set of dropouts that maximize the divergence between 1) the training supervision and 2) the outputs from the network with the dropouts. The identified adversarial dropouts are used to automatically reconfigure the neural network in the training process, and we demonstrated that the simultaneous training on the original and the recon-figured network improves the generalization performance of supervised and semi-supervised learning tasks on MNIST, SVHN, and CIFAR-10. We analyzed the trained model to find the performance improvement reasons. We found that adver-sarial dropout increases the sparsity of neural networks more than the standard dropout. Finally, we also proved that ad-versarial dropout is a regularization term with a rank-valued hyper parameter that is different from a continuous-valued parameter to specify the strength of the regularization.
translated by 谷歌翻译
The recently proposed self-ensembling methods have achieved promising results in deep semi-supervised learning, which penalize inconsistent predictions of unlabeled data under different perturbations. However, they only consider adding perturbations to each single data point, while ignoring the connections between data samples. In this paper, we propose a novel method, called Smooth Neighbors on Teacher Graphs (SNTG). In SNTG, a graph is constructed based on the predictions of the teacher model, i.e., the implicit self-ensemble of models. Then the graph serves as a similarity measure with respect to which the representations of "similar" neighboring points are learned to be smooth on the low-dimensional manifold. We achieve state-of-the-art results on semi-supervised learning benchmarks. The error rates are 9.89%, 3.99% for CIFAR-10 with 4000 labels , SVHN with 500 labels, respectively. In particular, the improvements are significant when the labels are fewer. For the non-augmented MNIST with only 20 labels, the error rate is reduced from previous 4.81% to 1.36%. Our method also shows robustness to noisy labels.
translated by 谷歌翻译
最近提出的对抗性训练方法显示了对抗性和原始例子的稳健性,并实现了最先进的结果,无监督和半监督学习。所有现有的对抗训练方法都只考虑最差的扰动例子(即,adversarialexamples)如何影响模型输出。尽管取得了成功,但我们认为这种设置可能缺乏概括性,因为输出空间(或标签空间)显然信息量较少。在本文中,我们提出了一种新的方法,称为Manifold Adver-sarial Training(MAT)。 MAT设法根据最差扰动如何影响分布流形而不是输出空间来构建一个对抗框架。特别地,将首先导出具有高斯混合模型(GMM)的潜在数据空间。一方面,MAT试图扰乱输入样本,使粗分布最差的方式。另一方面,深度学习模型被训练试图在潜在空间中促进由高斯混合的变化(给定数据点的局部扰动)测量的流形平滑度。重要的是,由于潜在空间比输出空间更具信息性,因此拟议的MAT可以更好地学习运行和紧凑数据表示,从而进一步提高性能。提出的MAT是重要的,因为它可以被认为是一个最近提出的称为中心损失的判别特征学习方法的超集。我们在三个基准数据集的监督和半监督中进行了一系列实验,表明提出的MAT可以表现出卓越的性能,远远优于现有的对等方法。
translated by 谷歌翻译
图卷积网络(GCN)是一种新兴的神经网络方法。它通过在聚合过程中聚合所有邻居的特征向量而不考虑邻居或特征是否有用来获取节点的新表示。最近的方法通过采样固定大小的邻居集合或者在聚合过程中为不同的邻居分配不同的权重来改进解决方案,但是在聚合过程中仍然对特征向量内的特征进行相同的处理。在本文中,我们引入了一个新的卷积运算,通过采样得到固定节点带宽的特征构造的常规尺寸特征图,得到第一级节点表示,然后传递给标准GCN以学习第二级节点表示。实验表明,我们的方法在半监督节点分类任务中优于竞争方法。此外,我们的方法为探索新的GCN架构打开了新的大门,特别是更深入的GCN模型。
translated by 谷歌翻译
Graph Convolutional Networks (GCNs) have shown significant improvements in semi-supervised learning on graph-structured data. Concurrently, unsupervised learning of graph embeddings has benefited from the information contained in random walks. In this paper, we propose a model: Network of GCNs (N-GCN), which marries these two lines of work. At its core, N-GCN trains multiple instances of GCNs over node pairs discovered at different distances in random walks, and learns a combination of the instance outputs which optimizes the classification objective. Our experiments show that our proposed N-GCN model improves state-of-the-art baselines on all of the challenging node classification tasks we consider: Cora, Citeseer, Pubmed, and PPI. In addition, our proposed method has other desirable properties, including generalization to recently proposed semi-supervised learning methods such as GraphSAGE, allowing us to propose N-SAGE, and resilience to adversarial input perturbations.
translated by 谷歌翻译
卷积神经网络(CNN)已经在诸如图像之类的网格图像上取得了巨大的成功,但是在学习图形等更通用的数据时面临着巨大的挑战。在CNN中,可训练的本地过滤器可以自动提取高级功能。使用过滤器的计算在感知域中需要固定数量的有序单元。但是,相邻单位的数量既不固定,也不在通用图中排序,从而阻碍了卷积运算的应用。在这里,我们通过提出可学习的图卷积层(LGCL)来解决这些挑战。 LGCL基于值排名自动为每个特征选择固定数量的相邻节点,以便以1-D格式转换图形数据类似于网格的结构,从而允许在通用图上使用常规卷积运算。为了实现大规模图形的模型训练,我们提出了一种子图训练方法,以减少先前的图形卷积方法所遭受的过多内存和计算资源需求。我们在转导和归纳学习环境中对节点分类任务的实验结果表明,我们的方法可以在Cora,Citeseer,Pubmed引文网络和蛋白质 - 蛋白质相互作用网络数据集上实现始终如一的更好性能。我们的结果还表明,与现有方法相比,使用子图训练策略的方法更有效。
translated by 谷歌翻译
我们研究了生成对抗网(GAN)如何帮助在图上进行半监督学习。我们首先提供关于图表上对抗性学习的工作原理的见解,然后介绍GraphSGAN,图表上的半监督学习的新方法。在GraphSGAN中,generatorand分类器网络发挥着一种新颖的竞争游戏。在均衡时,发生器在子图之间的低密度区域生成假样本。为了将假样本与真实样本区分开来,分类器隐含地考虑了子图的密度属性。已经开发出一种有效的对抗学习算法来改进传统的归一化graphLaplacian正则化,并提供理论保证。在几种不同类型的数据集上的实验结果表明,所提出的GraphSGAN显着优于几种最先进的方法。 GraphSGAN也可以使用小批量进行培训,因此具有可扩展性优势。
translated by 谷歌翻译
最近,出现了将卷积神经网络应用于图结构数据的技术。图形卷积神经网络(GCNN)已经被用于解决节点和图形分类以及矩阵完成。虽然性能令人印象深刻,但是当前的实现使得在图形结构中结合不确定性的能力变得更加强大。几乎所有的GCNN都处理一个图形,好像它是节点之间关系的真实描述,但是应用程序中使用的图形通常是从噪声数据或建模假设中得出的。可能包括虚假边缘;在具有非常强关系的节点之间可能缺少其他边缘。在本文中,我们采用贝叶斯方法,将观测图视为随机图的参数族的实现。我们对随机图参数和节点(或图形)标签的联合后验进行了目标推断。我们提出了贝叶斯GCNN框架,并针对混合成员随机区块模型的情况开发了一个迭代学习程序。我们提供的实验结果表明,当培训过程中可用的标签很少时,贝叶斯制剂可以提供更好的性能。
translated by 谷歌翻译
随着深度卷积网络在各种视觉和语言相关任务中的成功,研究人员开始研究图形结构数据的众所周知技术的概括。最近提出的称为图形卷积网络的方法已经能够实现节点分类任务中的最新结果。然而,由于所提出的方法依赖于谱图卷积的局部一阶近似,因此无法捕获图中节点之间的高阶交互。在这项工作中,我们提出了一个基于图案的图注意模型,称为MotifConvolutional Networks( MCNs),它通过使用加权多跳主题邻接矩阵来概括过去的方法来捕获更高阶的邻域。一种新颖的注意机制用于允许每个单独的节点选择最相关的邻域来应用其过滤器。实验表明,我们提出的方法能够在半监督节点分类任务上实现最先进的结果。
translated by 谷歌翻译
我们提出了一种新的算法来训练一个强大的神经网络来抵抗对抗攻击。我们的算法受以下两个思想的推动。首先,虽然最近的工作已经证明融合随机性可以提高神经网络的鲁棒性(Liu 2017),但我们注意到,对所有层添加噪声并不是结合随机性的最佳方法。我们在贝叶斯神经网络(BNN)框架下对随机性进行建模,以可扩展的方式正式学习模型的后验分布。其次,我们在BNN中制定了mini-max问题,以学习对抗性攻击下的最佳模式分布,从而导致对抗训练的贝叶斯神经网络。实验结果表明,所提出的算法在强攻击下具有最先进的性能。在CIFAR-10 withVGG网络上,我们的模型与PGDattack下的对抗训练(Madry 2017)和随机自我组合(Liu 2017)相比,在$ 0.035 $失真的情况下,准确度提高了14%,并且在ImageNet的一个子集上差距变得更大。
translated by 谷歌翻译
图的深度学习模型已经为节点分类任务取得了很好的性能。尽管它们已经扩散,但目前还没有研究它们对抗攻击的强大程度。然而,在它们可能被使用的领域中,例如,网络,对手很常见。图表的深度学习模型是否容易被愚弄?在这项工作中,我们介绍了对属性图的对抗性攻击的第一项研究,特别是关注图形卷积的模型开发思想。除了在测试时的攻击,还要进行更具挑战性的中毒/致病攻击,这些攻击主要集中在机器学习模型的训练阶段。我们生成针对节点特征和图结构的对抗性扰动,从而考虑实例之间的依赖关系。此外,我们通过保留重要的数据特征来确保扰动仍然不明显。为了应对潜在的离散域,我们提出了利用增量计算的有效算法Nettack。 Ourexperimental研究表明,即使只进行少量扰动,节点分类的准确性也会显着降低。更重要的是,我们的攻击是可以传播的:学习的攻击可以推广到其他最先进的节点分类模型和无监督的方法,并且当仅给出关于图的有限知识时,同样是成功的。
translated by 谷歌翻译
随着云计算和大数据的发展,数据存储系统的可靠性变得越来越重要。以前的研究人员已经表明,基于SMART属性的机器学习算法是预测硬盘故障的有效方法。在本文中,我们使用SMART属性来预测硬盘健康度,这有助于提前采取不同的容错行为。鉴于高度不平衡的SMART数据集,精确预测健康程度是一项非常重要的工作。如果采用传统方法训练,拟议模型将遇到过度拟合和偏差拟合问题。为了解决这个问题,我们提出了两种策略来更好地利用不平衡数据并提高性能。首先,我们设计了一种基于分层扰动的对抗训练方法,该方法可以对神经网络的任何层进行扰动,以改善网络的概括。其次,我们将训练方法扩展到这些受监督的设置。然后,可以利用有可能失败的未标记数据来进一步提高模型的性能。我们对两个真实硬盘驱动器数据集的大量实验证明了所提出的方案对于监督和半监督分类的优越性。通过该方法训练的模型可以提前5天和15天正确地预测硬盘健康状态。最后,我们验证了在数据集不平衡的其他类似异常检测任务中提出的训练方法的一般性。结果表明,提出的方法适用于其他领域。
translated by 谷歌翻译
大图中节点的低维嵌入已被证明在从内容推荐到识别蛋白质功能的各种预测任务中极其有用。然而,大多数现有方法要求在嵌入训练期间存在图中的所有节点;这些以前的方法本质上是转换性的,并不自然地普遍认为看不见的节点。在这里,我们提出GraphSAGE,一种通用的归纳框架,它利用节点特征信息(例如,文本属性)来有效地为先前看不见的数据生成节点嵌入。我们学习了一种函数,通过对节点的localneighborhood中的特征进行采样和聚合来生成嵌入,而不是为每个节点进行单独的嵌入。我们的算法在三个归纳节点分类基准上优于强基线:我们根据引用和Reddit后期数据对信息图中看不见的节点类别进行分类,并且我们展示了我们的算法使用蛋白质 - 蛋白质相互作用的多图形数据集推广到完全看不见的图形。 。
translated by 谷歌翻译
We present a formulation of deep learning that aims at producing a large margin classifier. The notion of margin, minimum distance to a decision boundary, has served as the foundation of several theoretically profound and empirically successful results for both classification and regression tasks. However, most large margin algorithms are applicable only to shallow models with a preset feature representation; and conventional margin methods for neural networks only enforce margin at the output layer. Such methods are therefore not well suited for deep networks. In this work, we propose a novel loss function to impose a margin on any chosen set of layers of a deep network (including input and hidden layers). Our formulation allows choosing any l p norm (p ≥ 1) on the metric measuring the margin. We demonstrate that the decision boundary obtained by our loss has nice properties compared to standard classification loss functions. Specifically, we show improved empirical results on the MNIST, CIFAR-10 and ImageNet datasets on multiple tasks: generalization from small training sets, corrupted labels, and robustness against adversarial perturbations. The resulting loss is general and complementary to existing data augmentation (such as random/adversarial input transform) and regularization techniques (such as weight decay, dropout, and batch norm). 2
translated by 谷歌翻译
最近,图形神经网络在各个研究领域引起了极大的关注并取得了突出的成果。这些算法中的大多数都具有感兴趣对象的成对关系。然而,在许多重新应用中,对象之间的关系是高阶的,超出了一定的配置。为了有效地学习高阶图结构数据的深度嵌入,我们在图神经网络的家庭中引入了两个端到端可训练算子,即超图卷积和超图注意。虽然超图卷积定义了在超图上执行卷积的基本公式,但超图注意通过利用注意模块进一步增强了表示学习的能力。通过这两个算子,图形神经网络很容易扩展到更灵活的模型,并应用于观察到非成对关系的各种应用。半监督节点分类的广泛实验结果证明了超图卷积和超图注意的有效性。
translated by 谷歌翻译
网络表示学习的目标是学习捕获图结构的低维节点嵌入,并且对解决下游任务很有用。然而,尽管这些方法的激增,目前还没有研究它们对抗攻击的鲁棒性。我们针对广泛使用的基于随机游走的方法系列提供了第一次对抗性漏洞分析。我们得出有效的对抗性扰动,这会对网络结构造成毒害,并对嵌入质量和下游任务产生负面影响。我们进一步表明,我们的攻击是可转移的 - 它们可以推广到许多模型 - 并且即使攻击者限制行动也是成功的。
translated by 谷歌翻译