Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this representation we can calculate the optimal information theoretic limits of the DNN and obtain finite sample generalization bounds. The advantage of getting closer to the theoretical limit is quantifiable both by the generalization bound and by the network's simplicity. We argue that both the optimal architecture, number of layers and features/connections at each layer, are related to the bifurcation points of the information bottleneck tradeoff, namely, relevant compression of the input layer with respect to the output layer. The hierarchical representations at the layered network naturally correspond to the structural phase transitions along the information curve. We believe that this new insight can lead to new optimality bounds and deep learning algorithms.
translated by 谷歌翻译
The Information Bottleneck theory provides a theoretical and computational framework for finding approximate minimum sufficient statistics. Analysis of the Stochastic Gradient Descent (SGD) training of a neural network on a toy problem has shown the existence of two phases, fitting and compression. In this work, we analyze the SGD training process of a Deep Neural Network on MNIST classification and confirm the existence of two phases of SGD training. We also propose a setup for estimating the mutual information for a Deep Neural Network through Variational Inference.
translated by 谷歌翻译
我们研究了由Biclesting问题激励的新型多终端源编码设置。两个单独的编码器观察两个i.i.d.分别序列$ x ^ n $和$ y ^ n $。目标是找到速率有限的编码$ f(x ^ n)$和$ g(z ^ n)$,最大化相互信息$ i(f(x ^ n); g(y ^ n))/ n$。我们讨论了对独立性,模式识别和信息瓶颈方法的假设检验的这个问题的联系。改善内部和外界的先前基数界限使我们能够彻底地研究二进制对称源的特殊情况,并在这个特殊情况下量化内部和外部边界之间的间隙。此外,我们调查了互信息约束的首席运营官(CEO)问题的多个描述(MD)延伸。令人惊讶的是,这个MD-CEO问题允许了可实现的区域的紧密单信表征。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
在本章中,提出了用于获得与任务相关的,多分辨率的,环境抽象的问题的整数线性编程公式,用于资源受限的自主剂。该公式从信息理论信号压缩(特别是信息瓶颈(IB)方法)中利用概念来提出抽象问题,作为在多分辨率树的空间上的最佳编码器搜索。抽象以与任务相关的方式出现,作为代理信息处理约束的函数。我们详细介绍我们的配方,并展示如何以共同的主题统一信号压缩的层次结构结构,信号编码器和信息理论方法。提出了一个讨论来描述我们配方的好处和缺点的讨论,以及详细的解释,如何在为资源受限的自主系统生成抽象的背景下解释我们的方法。结果表明,在多分辨率树空间中所得的信息理论抽象问题可以作为整数线性编程(ILP)问题进行配合。我们在许多示例上演示了这种方法,并提供了与现有方法相比,详细说明所提出框架的差异的讨论。最后,我们考虑了ILP问题的线性程序放松,从而证明可以通过求解凸程序来获得多分辨率信息理论树抽象。
translated by 谷歌翻译
在神经网络中,与任务相关的信息由神经元组共同表示。但是,对信息分布在单个神经元之间的特定方式尚不清楚:虽然部分只能从特定的单个神经元中获得,但其他部分是由多个神经元冗余或协同携带的。我们展示了部分信息分解(PID)是信息理论的最新扩展,可以解散这些贡献。由此,我们介绍了“代表性复杂性”的度量,该量度量化了访问跨多个神经元信息的难度。我们展示了这种复杂性如何直接适用于较小的层。对于较大的层,我们提出了子采样和粗粒程序,并证明了后者的相应边界。从经验上讲,为了量化解决MNIST任务的深度神经网络,我们观察到,代表性复杂性通过连续的隐藏层和过度训练都会降低。总体而言,我们建议代表性复杂性作为分析神经表示结构的原则且可解释的摘要统计量。
translated by 谷歌翻译
The present paper reviews and discusses work from computer science that proposes to identify concepts in internal representations (hidden layers) of DNNs. It is examined, first, how existing methods actually identify concepts that are supposedly represented in DNNs. Second, it is discussed how conceptual spaces -- sets of concepts in internal representations -- are shaped by a tradeoff between predictive accuracy and compression. These issues are critically examined by drawing on philosophy. While there is evidence that DNNs able to represent non-trivial inferential relations between concepts, our ability to identify concepts is severely limited.
translated by 谷歌翻译
过度装备数据是与生成模型的众所周知的现象,其模拟太紧密(或准确)的特定数据实例,因此可能无法可靠地预测未来的观察。在实践中,这种行为是由各种 - 有时启发式的 - 正则化技术控制,这是通过将上限发展到泛化误差的激励。在这项工作中,我们研究依赖于在跨熵损失的随机编码上依赖于随机编码的泛化误差,这通常用于深度学习进行分类问题。我们导出界定误差,示出存在根据编码分布随机生成的输入特征和潜在空间中的相应表示之间的相互信息界定的制度。我们的界限提供了对所谓的各种变分类分类中的概括的信息理解,其由Kullback-Leibler(KL)发散项进行规则化。这些结果为变分推理方法提供了高度流行的KL术语的理论理由,这些方法已经认识到作为正则化罚款有效行动。我们进一步观察了具有良好研究概念的连接,例如变形自动化器,信息丢失,信息瓶颈和Boltzmann机器。最后,我们对Mnist和CiFar数据集进行了数值实验,并表明相互信息确实高度代表了泛化误差的行为。
translated by 谷歌翻译
When presented with a data stream of two statistically dependent variables, predicting the future of one of the variables (the target stream) can benefit from information about both its history and the history of the other variable (the source stream). For example, fluctuations in temperature at a weather station can be predicted using both temperatures and barometric readings. However, a challenge when modelling such data is that it is easy for a neural network to rely on the greatest joint correlations within the target stream, which may ignore a crucial but small information transfer from the source to the target stream. As well, there are often situations where the target stream may have previously been modelled independently and it would be useful to use that model to inform a new joint model. Here, we develop an information bottleneck approach for conditional learning on two dependent streams of data. Our method, which we call Transfer Entropy Bottleneck (TEB), allows one to learn a model that bottlenecks the directed information transferred from the source variable to the target variable, while quantifying this information transfer within the model. As such, TEB provides a useful new information bottleneck approach for modelling two statistically dependent streams of data in order to make predictions about one of them.
translated by 谷歌翻译
瓶颈问题是一系列重要的优化问题,最近在机器学习和信息理论领域引起了人们的关注。它们被广泛用于生成模型,公平的机器学习算法,对隐私保护机制的设计,并在各种多用户通信问题中作为信息理论性能界限出现。在这项工作中,我们提出了一个普通的优化问题家族,称为复杂性 - 裸露的瓶颈(俱乐部)模型,该模型(i)提供了一个统一的理论框架,该框架将大多数最先进的文献推广到信息理论隐私模型(ii)建立了对流行的生成和判别模型的新解释,(iii)构建了生成压缩模型的新见解,并且(iv)可以在公平的生成模型中使用。我们首先将俱乐部模型作为复杂性约束的隐私性优化问题。然后,我们将其与密切相关的瓶颈问题(即信息瓶颈(IB),隐私渠道(PF),确定性IB(DIB),条件熵瓶颈(CEB)和有条件的PF(CPF)连接。我们表明,俱乐部模型概括了所有这些问题以及大多数其他信息理论隐私模型。然后,我们通过使用神经网络来参数化相关信息数量的变异近似来构建深层俱乐部(DVCLUB)模型。在这些信息数量的基础上,我们提出了监督和无监督的DVClub模型的统一目标。然后,我们在无监督的设置中利用DVClub模型,然后将其与最先进的生成模型(例如变异自动编码器(VAE),生成对抗网络(GAN)以及Wasserstein Gan(WGAN)连接起来,Wasserstein自动编码器(WAE)和对抗性自动编码器(AAE)通过最佳运输(OT)问题模型。然后,我们证明DVCLUB模型也可以用于公平表示学习问题,其目标是在机器学习模型的训练阶段减轻不希望的偏差。我们对彩色命名和Celeba数据集进行了广泛的定量实验,并提供了公共实施,以评估和分析俱乐部模型。
translated by 谷歌翻译
有损压缩和聚类的核心是学习代表的忠诚度和规模之间的权衡。我们的目标是绘制并研究量化此权衡的帕累托前沿。我们关注确定性信息瓶颈(DIB)目标在硬聚类空间上的优化。为此,我们介绍了原始的DIB问题,当优化在离散搜索空间上时,我们显示出比以前研究的拉格朗日放松的最丰富的领域。我们提出了一种算法,用于绘制原始DIB权衡的Pareto前沿,该算法也适用于其他两种目标聚类问题。我们研究了帕累托边境的一般特性,并提供了总体上对数稀疏性的分析和数值证据。我们提供的证据表明,尽管有超过指数的搜索空间,但我们的算法具有多项式缩放,此外,我们提出了对算法的修改,该算法可以在预期采样噪声显着的情况下使用。最后,我们使用算法来绘制三个不同任务的DIB前沿:压缩英语字母,从自然图像中提取信息性的颜色类别,并压缩了一个以群体理论为灵感的数据集,揭示了Frontier的有趣特征,并演示了如何展示的结构。边界可用于模型选择,重点是先前由凸船斗篷隐藏的点。
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
避免过度拟合是机器学习的核心挑战,但是许多大型神经网络很容易实现零训练的损失。这种令人困惑的矛盾需要对过度拟合的新方法进行新的方法。在这里,我们通过剩余信息量化过度拟合,该信息定义为在训练数据中编码噪声的拟合模型中的位。信息有效的学习算法最大程度地减少了剩余信息,同时最大程度地提高了相关位,这可以预测未知的生成模型。我们解决了此优化,以获得线性回归问题的最佳算法的信息内容,并将其与随机脊回归的信息进行比较。我们的结果表明,残留信息和相关信息之间的基本权衡,并表征了随机回归相对于最佳算法的相对信息效率。最后,使用随机矩阵理论的结果,我们揭示了在高维度和多重下降现象的高维和信息理论类似物中学习线性图的信息复杂性。
translated by 谷歌翻译
每年,深度学习都会通过更深层和更广泛的神经网络展示新的和改进的经验结果。同时,使用现有的理论框架,很难在不诉诸于计数参数或遇到深度指数的样本复杂性范围的情况下,比两层更深地分析网络。尝试在不同的镜头下分析现代机器学习也许是富有成效的。在本文中,我们提出了一个新颖的信息理论框架,其遗憾和样本复杂性的概念用于分析机器学习的数据要求。通过我们的框架,我们首先通过一些经典示例进行工作,例如标量估计和线性回归,以构建直觉并引入通用技术。然后,我们使用该框架来研究由深度符号神经网络,深度恢复神经网络和深层网络产生的数据的样本复杂性,这些数据无限宽,但具有限制的权重。对于符号神经网络,我们恢复了基于VC量的参数之后的样本复杂性界限。对于后两个神经网络环境,我们建立了新的结果,这些结果表明,在这些数据生成过程中,学习的样本复杂性最多是线性和二次的网络深度。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
We present a variational approximation to the information bottleneck of Tishby et al. (1999). This variational approach allows us to parameterize the information bottleneck model using a neural network and leverage the reparameterization trick for efficient training. We call this method "Deep Variational Information Bottleneck", or Deep VIB. We show that models trained with the VIB objective outperform those that are trained with other forms of regularization, in terms of generalization performance and robustness to adversarial attack.
translated by 谷歌翻译
最近,基于深层神经网络(DNN)的物理层通信技术引起了极大的兴趣。尽管模拟实验已经验证了它们增强通信系统和出色性能的潜力,但对理论分析的关注很少。具体而言,物理层中的大多数研究都倾向于专注于DNN模型在无线通信问题上的应用,但理论上不了解DNN在通信系统中的工作方式。在本文中,我们旨在定量分析为什么DNN可以在物理层中与传统技术相比,并在计算复杂性方面提高其成本。为了实现这一目标,我们首先分析基于DNN的发射器的编码性能,并将其与传统发射器进行比较。然后,我们理论上分析了基于DNN的估计器的性能,并将其与传统估计器进行比较。第三,我们调查并验证在信息理论概念下基于DNN的通信系统中如何播放信息。我们的分析开发了一种简洁的方式,可以在物理层通信中打开DNN的“黑匣子”,可用于支持基于DNN的智能通信技术的设计,并有助于提供可解释的性能评估。
translated by 谷歌翻译
深度神经网络是一个很好的任务解决者,但是很难理解其操作。人们对如何形成有关其运作的解释有不同的想法。我们从一个新的角度来看这个问题,在该问题中,通过量化了用于解决以前任务的信息之外,还量化了多少以前未使用的信息来综合任务解决的解释。首先,在学习了几个任务之后,网络将获取与每个任务相关的几个信息分区。然后,我们建议该网络学习最小的信息分区,这些信息分区已补充以前学习的信息分区以更准确地表示输入。此额外的分区与以前任务中未使用的未概念的信息相关联。我们设法确定使用了哪些未概念的信息并量化了金额。为了解释网络如何解决新任务,我们量化了从每个分区中提取多少信息的元信息。我们使用各种信息瓶颈技术实现此框架。我们使用MNIST和CLEVR数据集测试框架。该框架被证明能够以元信息的形式构成信息分区并综合经验依赖性解释。该系统通过将未概念的信息分区的一部分转换为与任务相关的分区,从而逐步改善了对新体验的解释分辨率。它还可以通过对以前未概念的信息来解决新任务所需的以前的未感知信息的一部分来提供视觉解释。
translated by 谷歌翻译
在本文中,我们提出了一个旨在进行探测估计的学习动机方法的统一信息理论框架,这是许多机器人技术和视觉任务的关键组成部分,例如导航和虚拟现实,其中需要相对摄像头姿势。我们将此问题提出来优化变分信息瓶颈的目标函数,从而消除了潜在表示中的姿势 - 呈现信息。拟议的框架为信息理论语言中的性能评估和理解提供了优雅的工具。具体而言,我们绑定了深度信息瓶颈框架的概括错误和潜在表示的可预测性。这些不仅提供了绩效保证,还提供了模型设计,样本收集和传感器选择的实用指导。此外,随机潜在表示提供了一种自然的不确定性度量,而无需进行额外的结构或计算。在两个众所周知的探测数据集上进行的实验证明了我们方法的有效性。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译