该教程论文调查端到端反向传播(E2EBP)的最佳替代方案 - 事实上的培训深度体系结构的标准。模块化训练是指严格的本地培训,而没有前进和向后通行证,即将深度建筑分为几个非重叠模块,并在没有任何端到端操作的情况下分别训练它们。在全局E2EBP和严格的局部模块化训练之间,有弱模块化的混合动力车执行训练,而无需向后传球。这些替代方案可以匹配或超过E2EBP在挑战数据集(例如ImageNet)上的性能,并且主要是因为它们比E2EBP具有实际优势,这将在此列举。特别是,它们允许在深度学习工作流程中具有更大的模块化和透明度,将深度学习与主流计算机科学工程的一致性一致,从而大大利用模块化以实现可扩展性。模块化训练还揭示了有关学习的新见解,并对其他重要的研究领域产生了进一步的影响。具体而言,它可以诱导自然和有效的解决方案,以解决一些重要的实际问题,例如数据效率和可转让性估计。
translated by 谷歌翻译
在监督的学习中,获得大量全标记的培训数据很昂贵。我们表明,我们并不总是需要关于每个培训示例的完整标签信息来培训合格的分类器。具体而言,受统计原则的启发,我们提出了完全标记的培训集的统计量(摘要),该培训集几乎捕获了分类的所有相关信息,但同时更容易直接获得。我们称此统计数据为“足够标记的数据”,并证明其足够的和效率可以找到最佳的隐藏表示形式,可以在其中使用少量随机选择的单个随机选择的全标签示例,可以在其中训练有效的分类器头。可以直接从注释者获得足够标记的数据,而无需首先收集完全标记的数据。我们证明,与获得完全标记的数据相比,直接获得足够标记的数据要容易得多。此外,足够标记的数据自然更加安全,因为它存储了相对而不是绝对的信息。提供广泛的实验结果以支持我们的理论。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
Deep neural networks provide unprecedented performance gains in many real world problems in signal and image processing. Despite these gains, future development and practical deployment of deep networks is hindered by their blackbox nature, i.e., lack of interpretability, and by the need for very large training sets. An emerging technique called algorithm unrolling or unfolding offers promise in eliminating these issues by providing a concrete and systematic connection between iterative algorithms that are used widely in signal processing and deep neural networks. Unrolling methods were first proposed to develop fast neural network approximations for sparse coding. More recently, this direction has attracted enormous attention and is rapidly growing both in theoretic investigations and practical applications. The growing popularity of unrolled deep networks is due in part to their potential in developing efficient, high-performance and yet interpretable network architectures from reasonable size training sets. In this article, we review algorithm unrolling for signal and image processing. We extensively cover popular techniques for algorithm unrolling in various domains of signal and image processing including imaging, vision and recognition, and speech processing. By reviewing previous works, we reveal the connections between iterative algorithms and neural networks and present recent theoretical results. Finally, we provide a discussion on current limitations of unrolling and suggest possible future research directions.
translated by 谷歌翻译
与古典浅表示学习技术相比,深神经网络在几乎每个应用基准中都实现了卓越的性能。但尽管他们明确的经验优势,但它仍然没有很好地理解,是什么让他们如此有效。为了解决这个问题,我们引入了深度框架近似:用结构化超常帧的受限表示学习的统一框架。虽然精确推断需要迭代优化,但是可以通过前馈深神经网络的操作来近似。我们间接分析模型容量如何涉及由架构超参数,如深度,宽度和跳过连接引起的帧结构。我们通过深度框架电位量化这些结构差异,与表示唯一性和稳定性相关的数据无关的相干措施。作为模型选择的标准,我们将与各种常见的深网络架构和数据集的泛化误差显示相关性。我们还证明了实现迭代优化算法的复发网络如何实现与其前馈近似的性能相当,同时提高对抗鲁棒性。这种与既定的过度符合表达理论的联系表明,具有较少对临时工程依赖的原则深网络架构设计的新方向。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
传统上,信号处理,通信和控制一直依赖经典的统计建模技术。这种基于模型的方法利用代表基本物理,先验信息和其他领域知识的数学公式。简单的经典模型有用,但对不准确性敏感,当真实系统显示复杂或动态行为时,可能会导致性能差。另一方面,随着数据集变得丰富,现代深度学习管道的力量增加,纯粹的数据驱动的方法越来越流行。深度神经网络(DNNS)使用通用体系结构,这些架构学会从数据中运行,并表现出出色的性能,尤其是针对受监督的问题。但是,DNN通常需要大量的数据和巨大的计算资源,从而限制了它们对某些信号处理方案的适用性。我们对将原则数学模型与数据驱动系统相结合的混合技术感兴趣,以从两种方法的优势中受益。这种基于模型的深度学习方法通​​过为特定问题设计的数学结构以及从有限的数据中学习来利用这两个部分领域知识。在本文中,我们调查了研究和设计基于模型的深度学习系统的领先方法。我们根据其推理机制将基于混合模型/数据驱动的系统分为类别。我们对以系统的方式将基于模型的算法与深度学习以及具体指南和详细的信号处理示例相结合的领先方法进行了全面综述。我们的目的是促进对未来系统的设计和研究信号处理和机器学习的交集,这些系统结合了两个领域的优势。
translated by 谷歌翻译
近年来,在诸如denoing,压缩感应,介入和超分辨率等反问题中使用深度学习方法的使用取得了重大进展。尽管这种作品主要是由实践算法和实验驱动的,但它也引起了各种有趣的理论问题。在本文中,我们调查了这一作品中一些突出的理论发展,尤其是生成先验,未经训练的神经网络先验和展开算法。除了总结这些主题中的现有结果外,我们还强调了一些持续的挑战和开放问题。
translated by 谷歌翻译
在多标签学习中,单个数据点与多个目标标签相关联的多任务学习的特定情况,在文献中广泛假定,为了获得最佳准确性,应明确建模标签之间的依赖性。这个前提导致提供的方法的扩散,以学习和预测标签,例如,一个标签的预测会影响对其他标签的预测。即使现在人们承认,在许多情况下,最佳性能并不需要一种依赖模型,但此类模型在某些情况下继续超越独立模型,这暗示了其对其性能的替代解释以外的标签依赖性,而文献仅是文献才是最近开始解开。利用并扩展了最近的发现,我们将多标签学习的原始前提转移到其头上,并在任务标签之间没有任何可衡量的依赖性的情况下特别处理联合模型的问题;例如,当任务标签来自单独的问题域时。我们将洞察力从这项研究转移到建立转移学习方法,该方法挑战了长期以来的假设,即任务的可转移性来自源和目标域或模型之间相似性的测量。这使我们能够设计和测试一种传输学习方法,该方法是模型驱动的,而不是纯粹的数据驱动,并且它是黑匣子和模型不合时式(可以考虑任何基本模型类)。我们表明,从本质上讲,我们可以根据源模型容量创建任务依赖性。我们获得的结果具有重要的含义,并在多标签和转移学习领域为将来的工作提供了明确的方向。
translated by 谷歌翻译
Multilayer Neural Networks trained with the backpropagation algorithm constitute the best example of a successful Gradient-Based Learning technique. Given an appropriate network architecture, Gradient-Based Learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional Neural Networks, that are specifically designed to deal with the variability of 2D shapes, are shown to outperform all other techniques.Real-life document recognition systems are composed of multiple modules including eld extraction, segmentation, recognition, and language modeling. A new learning paradigm, called Graph Transformer Networks (GTN), allows such multi-module systems to be trained globally using Gradient-Based methods so as to minimize an overall performance measure.Two systems for on-line handwriting recognition are described. Experiments demonstrate the advantage of global training, and the exibility of Graph Transformer Networks.A Graph Transformer Network for reading bank check is also described. It uses Convolutional Neural Network character recognizers combined with global training techniques to provides record accuracy on business and personal checks. It is deployed commercially and reads several million checks per day.
translated by 谷歌翻译
基于梯度的残差训练的方法(RESNET)通常需要输入数据的前进通过,然后将误差梯度反向传播到更新模型参数,这变得耗费网络变得更深。为了破坏前向和向后模式的算法锁定和利用同步模块并行性,辅助变量方法最近吸引了很多兴趣,但遭受了重大的沟通开销和缺乏数据增强。在这项工作中,通过交易外部辅助变量的存储和重新计算,建立了一种用于跨多个计算设备训练现实Resnet的新颖联合学习框架。更具体地,每个独立处理器的输入数据是从其低容量辅助网络(AUXNET)生成的,这允许使用数据增强并实现前向解锁。然后并行地执行后向通过,每个丢失函数源自惩罚或增强拉格朗日(AL)方法。最后,采用所提出的AUXNET通过端到端培训过程重现更新的辅助变量。我们展示了我们在CIFAR-10,CIFAR-100和Imagenet数据集中展示了我们对RESNET和WIMERESNET的效果,实现了传统的层串行训练方法的加速,同时保持了可比的测试精度。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
最近对反向传播的近似(BP)减轻了BP的许多计算效率低下和与生物学的不兼容性,但仍然存在重要的局限性。此外,近似值显着降低了基准的准确性,这表明完全不同的方法可能更富有成果。在这里,基于在软冠军全网络中Hebbian学习的最新理论基础上,我们介绍了多层softhebb,即一种训练深神经网络的算法,没有任何反馈,目标或错误信号。结果,它通过避免重量传输,非本地可塑性,层更新的时间锁定,迭代平衡以及(自我)监督或其他反馈信号来实现效率,这在其他方法中是必不可少的。与最先进的生物学知识学习相比,它提高的效率和生物兼容性不能取得准确性的折衷,而是改善了准确性。 MNIST,CIFAR-10,STL-10和IMAGENET上最多五个隐藏层和添加的线性分类器,分别达到99.4%,80.3%,76.2%和27.3%。总之,SOFTHEBB显示出与BP的截然不同的方法,即对几层的深度学习在大脑中可能是合理的,并提高了生物学上的机器学习的准确性。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
深度学习使用由其重量进行参数化的神经网络。通常通过调谐重量来直接最小化给定损耗功能来训练神经网络。在本文中,我们建议将权重重新参数转化为网络中各个节点的触发强度的目标。给定一组目标,可以计算使得发射强度最佳地满足这些目标的权重。有人认为,通过我们称之为级联解压缩的过程,使用培训的目标解决爆炸梯度的问题,并使损失功能表面更加光滑,因此导致更容易,培训更快,以及潜在的概括,神经网络。它还允许更容易地学习更深层次和经常性的网络结构。目标对重量的必要转换有额外的计算费用,这是在许多情况下可管理的。在目标空间中学习可以与现有的神经网络优化器相结合,以额外收益。实验结果表明了使用目标空间的速度,以及改进的泛化的示例,用于全连接的网络和卷积网络,以及调用和处理长时间序列的能力,并使用经常性网络进行自然语言处理。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
平衡系统是表达神经计算的有力方法。作为特殊情况,它们包括对神经科学和机器学习的最新兴趣模型,例如平衡复发性神经网络,深度平衡模型或元学习。在这里,我们提出了一个新的原则,用于学习具有时间和空间本地规则的此类系统。我们的原理将学习作为一个最不控制的问题,我们首先引入一个最佳控制器,以将系统带入解决方案状态,然后将学习定义为减少达到这种状态所需的控制量。我们表明,将学习信号纳入动力学作为最佳控制可以以先前未知的方式传输信用分配信息,避免将中间状态存储在内存中,并且不依赖无穷小的学习信号。在实践中,我们的原理可以使基于梯度的学习方法的强大绩效匹配,该方法应用于涉及复发性神经网络和元学习的一系列问题。我们的结果阐明了大脑如何学习并提供解决广泛的机器学习问题的新方法。
translated by 谷歌翻译
我们引入了一种新型的数学公式,用于训练以(可能非平滑)近端图作为激活函数的馈送前向神经网络的培训。该公式基于布雷格曼的距离,关键优势是其相对于网络参数的部分导数不需要计算网络激活函数的导数。我们没有使用一阶优化方法和后传播的组合估算参数(如最先进的),而是建议使用非平滑一阶优化方法来利用特定结构新颖的表述。我们提出了几个数值结果,这些结果表明,与更常规的培训框架相比,这些训练方法可以很好地很好地适合于培训基于神经网络的分类器和具有稀疏编码的(DeNoising)自动编码器。
translated by 谷歌翻译