我们提出了具有共同总和重建(CSR)的两端源编码的问题。考虑两个终端,每个终端都可以访问两个相关源之一。两个终端都希望在某些平均变形约束下重建两个源的总和,并且两个终端处的重建必须具有很高的概率。在本文中,我们将内部和外部边界发展为双重对称二进制源的CSR问题的可实现速率失真区域。我们对Steinberg的普通重建和Wyner-Ziv的源编码进行了现有的可实现结果,并为Korner-Marton的Modulo-Two-two总计计算问题提供了可实现的结果。
translated by 谷歌翻译
本文在对数损耗保真度下调查了多终端源编码问题,这不一定导致添加性失真度量。该问题是通过信息瓶颈方法的扩展到多源场景的激励,其中多个编码器必须构建其来源的协同速率限制描述,以便最大化关于其他未观察的(隐藏的)源的信息。更确切地说,我们研究所谓的基本信息 - 理论极限:(i)双向协同信息瓶颈(TW-CIB)和(ii)协同分布式信息瓶颈(CDIB)问题。 TW-CIB问题由两个遥远的编码器分开观察边缘(依赖)组件$ X_1 $和$ X_2 $,并且可以通过有关隐藏变量的信息提取信息的目的进行有限信息的多个交换机(Y_1,Y_2)$ ,它可以任意依赖于$(X_1,X_2)$。另一方面,在CDIB中,有两个合作的编码器,分别观察$ x_1 $和$ x_2 $和第三个节点,它可以侦听两个编码器之间的交换,以便获取有关隐藏变量$ y $的信息。根据标准化(每个样本)多字母互信息度量(对数损耗保真度)来测量的相关性(图 - 优点),并且通过限制描述的复杂性来产生一个有趣的权衡,从而测量编码器和解码器之间的交换所需的费率。内部和外界与这些问题的复杂性相关区域的衍生自特征从哪个感兴趣的案例的特征在于。我们所产生的理论复杂性相关区域最终针对二进制对称和高斯统计模型进行评估。
translated by 谷歌翻译
我们研究了由Biclesting问题激励的新型多终端源编码设置。两个单独的编码器观察两个i.i.d.分别序列$ x ^ n $和$ y ^ n $。目标是找到速率有限的编码$ f(x ^ n)$和$ g(z ^ n)$,最大化相互信息$ i(f(x ^ n); g(y ^ n))/ n$。我们讨论了对独立性,模式识别和信息瓶颈方法的假设检验的这个问题的联系。改善内部和外界的先前基数界限使我们能够彻底地研究二进制对称源的特殊情况,并在这个特殊情况下量化内部和外部边界之间的间隙。此外,我们调查了互信息约束的首席运营官(CEO)问题的多个描述(MD)延伸。令人惊讶的是,这个MD-CEO问题允许了可实现的区域的紧密单信表征。
translated by 谷歌翻译
分布式学习的主要重点之一是沟通效率,因为每一轮训练的模型聚集可能包括数百万到数十亿个参数。已经提出了几种模型压缩方法,例如梯度量化和稀疏方法,以提高模型聚合的通信效率。但是,对于给定梯度估计器的给定扭曲的信息理论的最低通信成本仍然未知。在本文中,我们研究了从率延伸的角度研究分布式学习中模型聚集的基本限制。通过将模型聚合作为矢量高斯首席执行官问题,我们得出了模型聚合问题的速率区域和总成绩 - 距离函数,这揭示了在特定梯度失真上限处的最小通信速率。我们还根据现实世界数据集的梯度统计数据,分析了每次迭代和总通信成本的通信成本和总通信成本。发现通过利用工人节点之间的相关性来获得沟通增益,对于符号来说是显着的,并且梯度估计器的高扭曲可以实现梯度压缩中的较低总通信成本。
translated by 谷歌翻译
在有损压缩的背景下,Blau&Michaeli(2019)采用了感知质量的数学概念,并定义了信息率 - 失真 - 感知功能,概括了经典速率 - 失真概况。我们考虑一个通用表示的概念,其中一个人可以修复编码器并改变解码器以实现失真和感知约束的集合中的任何点。我们证明,相应的信息理论通用率 - 失真 - 感知功能在近似意义上可操作地实现。在MSE失真下,我们表明高斯来源的整个失真 - 感知概况可以通过渐近率的相同速率的单个编码器来实现。然后,我们在任意分布的情况下表征了用于固定表示的可实现的失真感知区域,识别上述结果近似地保持的条件,并且在速率预先固定时研究该情况。这激发了对跨RDP权衡大致普遍的实际结构的研究,从而减轻了为每个目标设计新编码器的需要。我们为MNIST和SVHN提供实验结果,表明在图像压缩任务上,通过机器学习模型实现的操作权衡与固定编码器相比只遭受小额惩罚。
translated by 谷歌翻译
我们考虑使用随机球形代码的高维信号$ x $的有损压缩表示之间的分布连接,并在添加白色高斯噪声(AWGN)下的$ X $观察$ x $。我们展示了比特率 - $ R $压缩版的Wassersein距离$ x $及其在AWGN-噪声比率下的AWGN噪声比率下的观察2 ^ {2R} -1 $ 2 ^ {2r} -1 $中的下线性。我们利用此事实基于AWGN损坏的$ x $的AWGN损坏版本的估算者的风险连接到与其比特率 - $ r $量化版本相同的估算器所获得的风险。我们通过在压缩约束下导出推导问题的各种新结果来展示这种联系的有用性,包括Minimax估计,稀疏回归,压缩感和远程源编码中的线性估计的普遍性。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
通过考虑一个嘈杂的测量值是用于安全源重建的相关随机变量的远程源,可以扩展使用多个终端的安全源编码的问题。该问题的主要添加包括1)所有终端非本质都观察到远程源的嘈杂测量; 2)所有合法终端都可以使用私钥; 3)编码器和解码器之间的公共通信链接是限制的; 4)根据编码器输入测量了窃听器的保密泄漏,而与远程源测量了隐私泄漏。在安全性,隐私,通信和失真约束下,使用私钥,远程源和解码器侧信息的有损源编码问题的确切速率区域的特征是。通过用可靠性约束替换失真约束,我们还可以获得无损案例的确切速率区域。此外,确定了标量离散时间高斯源和测量通道的损耗率区域。
translated by 谷歌翻译
我们研究了在通信约束下的分布式平均值估计和优化问题。我们提出了一个相关的量化协议,该协议的误差保证中的主项取决于数据点的平均偏差,而不仅仅是它们的绝对范围。该设计不需要关于数据集的集中属性的任何先验知识,这是在以前的工作中获得这种依赖所必需的。我们表明,在分布式优化算法中应用提出的协议作为子规则会导致更好的收敛速率。我们还在轻度假设下证明了我们的方案的最佳性。实验结果表明,我们提出的算法在各种任务方面优于现有的平均估计协议。
translated by 谷歌翻译
本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是,我们对以下问题感兴趣:最大噪声水平$ \ sigma^2 $是什么,对此样品复杂性基本与从标记的测量值估算中心时相同?为此,我们将注意力限制为问题的贝叶斯公式,其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $,而GMM学习问题(在大系统中限制$ d,k \ to \ infty $)就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left(1+ \ frac {1} {1} {\ sigma^2} \ right)$,这是添加性白色高斯的能力噪声(AWGN)频道。将$ K $中心的集合作为代码,可以将此噪声阈值解释为最大的噪声水平,AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的,但他们暗示,也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度,而不是仅仅最小距离。
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
or if the system is intended to service several individual channels in multiplex; (e) Several functions of several variables --in color television the message consists of three functions f (x,y, t), g(x, y, t), h(x, y, t) defined in a three-dimensional continuum --we may also think of these three functions as components of a vector field defined in the region --similarly, several black and white television sources would produce "messages" consisting of a number of functions of three variables; (f) Various combinations also occur, for example in television with an associated audio channel.. A transmitter which operates on the message in some way to produce a signal suitable for transmission over the channel. In telephony this operation consists merely of changing sound pressure into a proportional electrical current. In telegraphy we have an encoding operation which produces a sequence of dots, dashes and spaces on the channel corresponding to the message. In a multiplex PCM system the different speech functions must be sampled, compressed, quantized and encoded, and finally interleaved properly to construct the signal. Vocoder systems, television and frequency modulation are other examples of complex operations applied to the message to obtain the signal.3. The channel is merely the medium used to transmit the signal from transmitter to receiver. It may be a pair of wires, a coaxial cable, a band of radio frequencies, a beam of light, etc. 4. The receiver ordinarily performs the inverse operation of that done by the transmitter, reconstructing the message from the signal.5. The destination is the person (or thing) for whom the message is intended.We wish to consider certain general problems involving communication systems. To do this it is first necessary to represent the various elements involved as mathematical entities, suitably idealized from their physical counterparts. We may roughly classify communication systems into three main categories: discrete, continuous and mixed. By a discrete system we will mean one in which both the message and the signal are a sequence of discrete symbols. A typical case is telegraphy where the message is a sequence of letters and the signal a sequence of dots, dashes and spaces. A continuous system is one in which the message and signal are both treated
translated by 谷歌翻译
随机优化在最小化机器学习中的目标功能方面发现了广泛的应用,这激发了许多理论研究以了解其实际成功。大多数现有研究都集中在优化误差的收敛上,而随机优化的概括分析却落后了。在实践中经常遇到的非洞穴和非平滑问题的情况尤其如此。在本文中,我们初始化了对非凸和非平滑问题的随机优化的系统稳定性和概括分析。我们介绍了新型算法稳定性措施,并在人口梯度和经验梯度之间建立了定量联系,然后进一步扩展,以研究经验风险的莫罗(Moreau)膜之间的差距和人口风险的差距。据我们所知,尚未在文献中研究稳定性与概括之间的这些定量联系。我们引入了一类采样确定的算法,为此我们为三种稳定性度量而开发界限。最后,我们将这些讨论应用于随机梯度下降及其自适应变体的误差界限,我们在其中显示如何通过调整步骤大小和迭代次数来实现隐式正则化。
translated by 谷歌翻译
我们在限制下研究了一阶优化算法,即使用每个维度的$ r $ bits预算进行量化下降方向,其中$ r \ in(0,\ infty)$。我们提出了具有收敛速率的计算有效优化算法,与信息理论性能匹配:(i):(i)具有访问精确梯度甲骨文的平稳且强烈的符合目标,以及(ii)一般凸面和非平滑目标访问嘈杂的亚级别甲骨文。这些算法的关键是一种多项式复杂源编码方案,它在量化它之前将矢量嵌入随机子空间中。这些嵌入使得具有很高的概率,它们沿着转换空间的任何规范方向的投影很小。结果,量化这些嵌入,然后对原始空间进行逆变换产生一种源编码方法,具有最佳的覆盖效率,同时仅利用每个维度的$ r $ bits。我们的算法保证了位预算$ r $的任意值的最佳性,其中包括次线性预算制度($ r <1 $),以及高预算制度($ r \ geq 1 $),虽然需要$ o \ left(n^2 \右)$乘法,其中$ n $是尺寸。我们还提出了使用Hadamard子空间对这种编码方案的有效放松扩展以显着提高梯度稀疏方案的性能。数值模拟验证我们的理论主张。我们的实现可在https://github.com/rajarshisaha95/distoptconstrocncomm上获得。
translated by 谷歌翻译
我们开发了一种内点方法来解决受约束的变异不平等(CVI)问题。受乘数在单目标上下文中的交替方向方法(ADMM)方法的效力的启发,我们将ADMM推广为CVIS的一阶方法,我们将其称为基于ADMM基于ADMM的内部点方法(用于受限的VIS)( ACVI)。我们在两个通用类问题中为ACVI提供了收敛保证:(i)当操作员为$ \ xi $ - 单酮,并且(ii)当它是单调的时,限制是有效的,并且游戏不纯粹是旋转的。当操作员为后一种情况添加L-lipschitz时,我们将$ \ MATHCAL {O}的差距函数的速率匹配已知的低界限(1/\ sqrt {k})$和$ \ MATHCAL {O}(O}(O})(最后一个和平均迭代的1/k)$。据我们所知,这是针对具有全球收敛保证的一般CVI问题的一阶内点方法的首次介绍。此外,与以前的工作不同的是,ACVI提供了一种在限制不平的情况下解决CVI的方法。经验分析表明,ACVI比常见的一阶方法具有明显的优势。特别是,(i)当我们的方法从分析中心接近解决方案时,周期性行为显着降低,并且(ii)与基于投影的方法不同,在接近约束时振荡的方法有效地处理了约束。
translated by 谷歌翻译
速率 - 失真(R-D)函数,信息理论中的关键数量,其特征在于,通过任何压缩算法,通过任何压缩算法将数据源可以压缩到保真标准的基本限制。随着研究人员推动了不断提高的压缩性能,建立给定数据源的R-D功能不仅具有科学的兴趣,而且还在可能的空间上揭示了改善压缩算法的可能性。以前的解决此问题依赖于数据源上的分布假设(Gibson,2017)或仅应用于离散数据。相比之下,本文使得第一次尝试播放常规(不一定是离散的)源仅需要i.i.d的算法的算法。数据样本。我们估计高斯和高尺寸香蕉形源的R-D三明治界,以及GaN生成的图像。我们在自然图像上的R-D上限表示在各种比特率的PSNR中提高最先进的图像压缩方法的性能的空间。
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
我们考虑在线无替代环境中的$ k $ - emeans集群,其中一个人必须在流媒体传输时立即拍摄每个数据点$ x_t $ x_t $。我们的作品专注于\ emph {任意订单}假设没有限制点数$ x $如何订购或生成。与最佳聚类成本相比,在其近似值中评估该设置中的算法,它们选择的中心数及其内存使用率。最近,Bhattacharjee和Moshkovitz(2020)定义了一个参数,$ lower _ {\ alpha,k}(x)$,它控制最小的中心数量的任何$ \ alpha $-xpruckatimation聚类算法,必须给予任何金额输入$ x $。为了补充结果,我们提供了第一个算法,它需要$ \ tilde {o}(下_ {\ alpha,k}(x))$中心(k,log n $)同时实现恒定近似除了保存中心所需的内存之外,还使用$ \ tilde {o}(k)$内存。我们的算法显示它在无替代设置中,可以在使用很少的额外内存时占用订单 - 最佳中心。
translated by 谷歌翻译
Parallel implementations of stochastic gradient descent (SGD) have received significant research attention, thanks to its excellent scalability properties. A fundamental barrier when parallelizing SGD is the high bandwidth cost of communicating gradient updates between nodes; consequently, several lossy compresion heuristics have been proposed, by which nodes only communicate quantized gradients. Although effective in practice, these heuristics do not always converge. In this paper, we propose Quantized SGD (QSGD), a family of compression schemes with convergence guarantees and good practical performance. QSGD allows the user to smoothly trade off communication bandwidth and convergence time: nodes can adjust the number of bits sent per iteration, at the cost of possibly higher variance. We show that this trade-off is inherent, in the sense that improving it past some threshold would violate information-theoretic lower bounds. QSGD guarantees convergence for convex and non-convex objectives, under asynchrony, and can be extended to stochastic variance-reduced techniques. When applied to training deep neural networks for image classification and automated speech recognition, QSGD leads to significant reductions in end-to-end training time. For instance, on 16GPUs, we can train the ResNet-152 network to full accuracy on ImageNet 1.8× faster than the full-precision variant. time to the same target accuracy is 2.7×. Further, even computationally-heavy architectures such as Inception and ResNet can benefit from the reduction in communication: on 16GPUs, QSGD reduces the end-to-end convergence time of ResNet152 by approximately 2×. Networks trained with QSGD can converge to virtually the same accuracy as full-precision variants, and that gradient quantization may even slightly improve accuracy in some settings. Related Work. One line of related research studies the communication complexity of convex optimization. In particular, [40] studied two-processor convex minimization in the same model, provided a lower bound of Ω(n(log n + log(1/ ))) bits on the communication cost of n-dimensional convex problems, and proposed a non-stochastic algorithm for strongly convex problems, whose communication cost is within a log factor of the lower bound. By contrast, our focus is on stochastic gradient methods. Recent work [5] focused on round complexity lower bounds on the number of communication rounds necessary for convex learning.Buckwild! [10] was the first to consider the convergence guarantees of low-precision SGD. It gave upper bounds on the error probability of SGD, assuming unbiased stochastic quantization, convexity, and gradient sparsity, and showed significant speedup when solving convex problems on CPUs. QSGD refines these results by focusing on the trade-off between communication and convergence. We view quantization as an independent source of variance for SGD, which allows us to employ standard convergence results [7]. The main differences from Buckw
translated by 谷歌翻译