悠久的作品历史表明,神经网络在训练场上很难推断。 Balesteriero等人最近的一项研究。 (2021)挑战这种观点:将插值定义为训练集凸壳的属性状态,他们表明,在输入或神经空间中,测试集在此凸面上都不能躺在大部分中数据的高维度,引用了众所周知的维度诅咒。然后,假定神经网络必须在外推性模式下起作用。我们在这里研究典型神经网络最后一层隐藏层的神经活动。使用自动编码器来揭示神经活动的固有空间,我们表明该空间实际上是低维的,并且模型越好,该内在空间的维度越低。在这个空间中,测试集的大多数样本实际上位于训练集的凸壳上:在凸船体的定义下,模型因此在插值方面起作用。此外,我们表明属于凸船体似乎不是相关标准。实际上,与训练集的近端近距离措施实际上更好地与性能准确性有关。因此,典型的神经网络似乎确实在插值方面起作用。良好的概括性能与神经网络在这种制度中运作良好的能力有关。
translated by 谷歌翻译
在人类和其他动物中分类的众所周知的感知后果称为分类感知,是由类别内部压缩和类别分离之间的特别特征:两个项目,在输入空间内,如果它们属于与属于不同类别的类别相同。在这里阐述认知科学的实验和理论结果,我们在这里研究人工神经网络中的分类效果。我们结合了利用互联网信息量的理论分析,以及关于增加复杂性的网络的一系列数值模拟。这些形式和数值分析提供了深层层内神经表示的几何形状的见解,随着类别边界附近的空间膨胀,远离类别边界。我们通过使用两个互补方法调查分类表示:通过不同类别的刺激之间的变形连续进行动态物理学和认知神经科学的一种模仿实验,而另一个介绍网络中的每层的分类指数,量化的分类指数量化了神经人口水平的类别。我们展示了类别学习的浅层和深度神经网络,自动诱导分类感知。我们进一步表明层更深,分类效果越强。作为我们研究的结果,我们提出了辍学正规化技术不同启发式实践的效果的相干观点。更一般地,我们的观点在神经科学文献中发现回声,坚持根据所学习的神经表示的几何形状的任何给定层中的噪声对噪声的差异影响,即该几何形状如何反映类别的结构。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
We explore an original strategy for building deep networks, based on stacking layers of denoising autoencoders which are trained locally to denoise corrupted versions of their inputs. The resulting algorithm is a straightforward variation on the stacking of ordinary autoencoders. It is however shown on a benchmark of classification problems to yield significantly lower classification error, thus bridging the performance gap with deep belief networks (DBN), and in several cases surpassing it. Higher level representations learnt in this purely unsupervised fashion also help boost the performance of subsequent SVM classifiers. Qualitative experiments show that, contrary to ordinary autoencoders, denoising autoencoders are able to learn Gabor-like edge detectors from natural image patches and larger stroke detectors from digit images. This work clearly establishes the value of using a denoising criterion as a tractable unsupervised objective to guide the learning of useful higher level representations.
translated by 谷歌翻译
在人类神经科学中,机器学习可以帮助揭示与受试者行为相关的较低维度的神经表现。但是,最新的模型通常需要大型数据集进行训练,因此容易过度拟合人类神经影像学数据,这些数据通常只有很少的样本但很多输入尺寸。在这里,我们利用了这样一个事实,即我们在人类神经科学中寻求的特征恰恰是与受试者行为相关的事实。因此,我们通过分类器增强(Trace)开发了与任务相关的自动编码器,并测试了其与两个严重截断的机器学习数据集的标准自动编码器相比,它提取与行为相关的可分离表示的能力。然后,我们在fMRI数据上评估了两个模型,受试者观察到动物和物体。 Trace几乎单方面优于自动编码器和原始输入,在发现“清洁剂”,与任务相关的表示方面最多提高了分类准确性,并提高了三倍。这些结果展示了Trace获得与人类行为有关的各种数据的潜力。
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
嵌入大而冗余的数据,例如图像或文本,在较低维空间的层次结构中是表示方法的关键特征之一,如今,这些特征是一旦相信困难或不可能的问题,这些方法就可以为问题提供最新的解决方案解决。在这项工作中,在具有强大元回味的情节扭转中,我们展示了受过训练的深层模型与它们优化的数据一样多余,因此如何使用深度学习模型来嵌入深度学习模型。特别是,我们表明可以使用表示形式学习来学习经过训练的深层模型的固定大小,低维的嵌入空间,并且可以通过插值或优化来探索此类空间,以实现现成的模型。我们发现,可以学习相同体系结构和多个体系结构的多个实例的嵌入空间。我们解决了信号的图像分类和神经表示,表明如何学习我们的嵌入空间,以分别捕获性能和3D形状的概念。在多架结构的环境中,我们还展示了仅在架构子集中训练的嵌入方式如何才能学会生成已经训练的架构实例,从未在培训时看到实例化。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
反事实可以以人类的可解释方式解释神经网络的分类决策。我们提出了一种简单但有效的方法来产生这种反事实。更具体地说,我们执行合适的差异坐标转换,然后在这些坐标中执行梯度上升,以查找反事实,这些反事实是由置信度良好的指定目标类别分类的。我们提出了两种方法来利用生成模型来构建完全或大约差异的合适坐标系。我们使用Riemannian差异几何形状分析了生成过程,并使用各种定性和定量测量方法验证了生成的反事实质量。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
理解为什么深网络可以在大尺寸中对数据进行分类仍然是一个挑战。已经提出了它们通过变得稳定的差异术,但现有的经验测量值得支持它通常不是这种情况。我们通过定义弥散术的最大熵分布来重新审视这个问题,这允许研究给定规范的典型的扩散术。我们确认对基准数据集的稳定性与基准数据集的性能没有强烈关联。相比之下,我们发现,对于普通转换的稳定性,R_F $的稳定性与测试错误$ \ epsilon_t $相比。在初始化时,它是初始化的统一,但在最先进的架构培训期间减少了几十年。对于CiFar10和15名已知的架构,我们发现$ \ epsilon_t \约0.2 \ sqrt {r_f} $,表明获得小$ r_f $非常重要,无法实现良好的性能。我们研究R_F $如何取决于培训集的大小,并将其与简单的不变学习模型进行比较。
translated by 谷歌翻译
Grid search and manual search are the most widely used strategies for hyper-parameter optimization. This paper shows empirically and theoretically that randomly chosen trials are more efficient for hyper-parameter optimization than trials on a grid. Empirical evidence comes from a comparison with a large previous study that used grid search and manual search to configure neural networks and deep belief networks. Compared with neural networks configured by a pure grid search, we find that random search over the same domain is able to find models that are as good or better within a small fraction of the computation time. Granting random search the same computational budget, random search finds better models by effectively searching a larger, less promising configuration space. Compared with deep belief networks configured by a thoughtful combination of manual search and grid search, purely random search over the same 32-dimensional configuration space found statistically equal performance on four of seven data sets, and superior performance on one of seven. A Gaussian process analysis of the function from hyper-parameters to validation set performance reveals that for most data sets only a few of the hyper-parameters really matter, but that different hyper-parameters are important on different data sets. This phenomenon makes grid search a poor choice for configuring algorithms for new data sets. Our analysis casts some light on why recent "High Throughput" methods achieve surprising success-they appear to search through a large number of hyper-parameters because most hyper-parameters do not matter much. We anticipate that growing interest in large hierarchical models will place an increasing burden on techniques for hyper-parameter optimization; this work shows that random search is a natural baseline against which to judge progress in the development of adaptive (sequential) hyper-parameter optimization algorithms.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
在学习断开分布时,已知生成对抗网络(GAN)面临模型错误指定。实际上,从单峰潜伏分布到断开连接的连续映射是不可能的,因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题:最小化这些领域的衡量标准的潜在空间分区是什么?基于几何测量理论的最新结果,我们证明,最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区,其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中,每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是,这两个界限具有相同的减小顺序:$ \ sqrt {\ log m} $,$ m $是模式的数量。最后,我们执行了几项实验,以表现出潜在空间的几何形状,并在实验上表明gan具有与理论相似的几何形状。
translated by 谷歌翻译
我们研究深度学习图像分类模型的功能任务,并显示图像分类需要外推能力。这表明必须开发新的理论,以了解深度学习,因为当前的理论假设模型完全插值,留下了许多关于他们未答复的问题。我们研究了像素空间,并且还通过经过培训的模型从图像中提取的特征空间(在其隐藏的层中,包括预先训练的残余神经网络的最后一个隐藏层中的64维特征空间),以及提取的特征空间小波/沉索。在所有这些领域中,测试样品大大落在训练集的凸壳外,图像分类需要推断。与深入学习文学相比,在认知科学,心理学和神经科学,推断和学习通常在串联中研究。此外,据报道,人类视觉认知和行为的许多方面涉及推断。我们为深层学习模型的数学研究提出了一种新的外推框架。在我们的框架中,我们在训练集的凸壳外外推开的这种特定方式外推,但在训练数据定义的特定范围内,在许多范围内定义了相同的方式认知科学研究。我们解释说,我们的外推框架可以为深入学习的开放研究问题提供新的答案,包括他们的过参数化,培训制度,分发检测等。我们还看到学习任务的推断程度可以忽略不计据报道,深度学习与简单模型没有优势。
translated by 谷歌翻译
歧管假说(现实世界数据集中在低维流形附近)被认为是在非常高的维度问题中,在诸如视觉和言语等领域常见的非常高的维度问题中,机器学习算法的有效性。已经提出了多种方法将歧管假设纳入现代深度神经网络(DNNS)的先验,并取得了不同的成功。在本文中,我们提出了一种新方法,即远程学习者,以将基于DNN的分类器提前整合。对距离学习者进行了训练,以预测一个点与每个类别的基础歧管的距离,而不是类标签。对于分类,远程学习者然后选择与最接近预测类歧管相对应的类。距离学习者还可以将点识别为超出分布(属于两类),如果与最接近的歧管的距离高于阈值。我们在多个合成数据集上评估了我们的方法,并表明距离学习者与标准分类器相比学习了更有意义的分类边界。我们还评估了我们的方法对对抗性鲁棒性的任务,并发现它不仅要优于标准分类器,而且还可以与通过最先进的对抗训练进行培训的分类器相当。
translated by 谷歌翻译
在本文中,我们提出了一种新方法,以可靠的方式使用基于几何的变异自动编码器以可靠的方式执行数据增强。我们的方法结合了VAE被视为Riemannian歧管的适当潜在空间建模和新一代方案,该方案产生了更有意义的样本,尤其是在小型数据集的背景下。该方法通过广泛的实验研究进行了测试,在该研究中,其对数据集,分类器和训练样品的稳健性受到了强调。还可以在充满挑战的ADNI数据库上进行医学成像分类任务进行验证,其中使用拟议的VAE框架考虑了少量的3D脑MRIS并增强。在每种情况下,所提出的方法都可以在分类指标中获得显着可靠的增益。例如,在最先进的CNN分类器中,经过50次认知正常(CN)和50例阿尔茨海默氏病(AD)患者的最先进的CNN分类器,平衡准确度从66.3%跃升至74.3%,从77.7%到86.3%。具有243 CN和210 AD,同时提高了极大的敏感性和特异性指标。
translated by 谷歌翻译
Several machine learning models, including neural networks, consistently misclassify adversarial examples-inputs formed by applying small but intentionally worst-case perturbations to examples from the dataset, such that the perturbed input results in the model outputting an incorrect answer with high confidence. Early attempts at explaining this phenomenon focused on nonlinearity and overfitting. We argue instead that the primary cause of neural networks' vulnerability to adversarial perturbation is their linear nature. This explanation is supported by new quantitative results while giving the first explanation of the most intriguing fact about them: their generalization across architectures and training sets. Moreover, this view yields a simple and fast method of generating adversarial examples. Using this approach to provide examples for adversarial training, we reduce the test set error of a maxout network on the MNIST dataset.
translated by 谷歌翻译
神经科学家和机器学习研究人员通常引用对抗的例子,作为计算模型如何从生物感官系统发散的示例。最近的工作已经提出将生物启发组件添加到视觉神经网络中,作为提高其对抗性鲁棒性的一种方式。一种令人惊讶的有效组分,用于减少对抗性脆弱性是响应随机性,例如由生物神经元呈现的响应性随机性。在这里,使用最近开发的从计算神经科学的几何技术,我们研究了对抗性扰动如何影响标准,前列培训和生物学启发的随机网络的内部表示。我们为每种类型的网络找到了不同的几何签名,揭示了实现稳健表示的不同机制。接下来,我们将这些结果概括为听觉域,表明神经插值性也使听觉模型对对抗对抗扰动更鲁棒。随机网络的几何分析揭示了清洁和离前动脉扰动刺激的表示之间的重叠,并且定量表现出随机性的竞争几何效果在对抗和清洁性能之间调解权衡。我们的结果阐明了通过对外内培训和随机网络利用的强大感知的策略,并帮助解释了随机性如何有利于机器和生物计算。
translated by 谷歌翻译
Deep neural networks can approximate functions on different types of data, from images to graphs, with varied underlying structure. This underlying structure can be viewed as the geometry of the data manifold. By extending recent advances in the theoretical understanding of neural networks, we study how a randomly initialized neural network with piece-wise linear activation splits the data manifold into regions where the neural network behaves as a linear function. We derive bounds on the density of boundary of linear regions and the distance to these boundaries on the data manifold. This leads to insights into the expressivity of randomly initialized deep neural networks on non-Euclidean data sets. We empirically corroborate our theoretical results using a toy supervised learning problem. Our experiments demonstrate that number of linear regions varies across manifolds and the results hold with changing neural network architectures. We further demonstrate how the complexity of linear regions is different on the low dimensional manifold of images as compared to the Euclidean space, using the MetFaces dataset.
translated by 谷歌翻译