通过考虑一个嘈杂的测量值是用于安全源重建的相关随机变量的远程源,可以扩展使用多个终端的安全源编码的问题。该问题的主要添加包括1)所有终端非本质都观察到远程源的嘈杂测量; 2)所有合法终端都可以使用私钥; 3)编码器和解码器之间的公共通信链接是限制的; 4)根据编码器输入测量了窃听器的保密泄漏,而与远程源测量了隐私泄漏。在安全性,隐私,通信和失真约束下,使用私钥,远程源和解码器侧信息的有损源编码问题的确切速率区域的特征是。通过用可靠性约束替换失真约束,我们还可以获得无损案例的确切速率区域。此外,确定了标量离散时间高斯源和测量通道的损耗率区域。
translated by 谷歌翻译
本文在对数损耗保真度下调查了多终端源编码问题,这不一定导致添加性失真度量。该问题是通过信息瓶颈方法的扩展到多源场景的激励,其中多个编码器必须构建其来源的协同速率限制描述,以便最大化关于其他未观察的(隐藏的)源的信息。更确切地说,我们研究所谓的基本信息 - 理论极限:(i)双向协同信息瓶颈(TW-CIB)和(ii)协同分布式信息瓶颈(CDIB)问题。 TW-CIB问题由两个遥远的编码器分开观察边缘(依赖)组件$ X_1 $和$ X_2 $,并且可以通过有关隐藏变量的信息提取信息的目的进行有限信息的多个交换机(Y_1,Y_2)$ ,它可以任意依赖于$(X_1,X_2)$。另一方面,在CDIB中,有两个合作的编码器,分别观察$ x_1 $和$ x_2 $和第三个节点,它可以侦听两个编码器之间的交换,以便获取有关隐藏变量$ y $的信息。根据标准化(每个样本)多字母互信息度量(对数损耗保真度)来测量的相关性(图 - 优点),并且通过限制描述的复杂性来产生一个有趣的权衡,从而测量编码器和解码器之间的交换所需的费率。内部和外界与这些问题的复杂性相关区域的衍生自特征从哪个感兴趣的案例的特征在于。我们所产生的理论复杂性相关区域最终针对二进制对称和高斯统计模型进行评估。
translated by 谷歌翻译
分布式学习的主要重点之一是沟通效率,因为每一轮训练的模型聚集可能包括数百万到数十亿个参数。已经提出了几种模型压缩方法,例如梯度量化和稀疏方法,以提高模型聚合的通信效率。但是,对于给定梯度估计器的给定扭曲的信息理论的最低通信成本仍然未知。在本文中,我们研究了从率延伸的角度研究分布式学习中模型聚集的基本限制。通过将模型聚合作为矢量高斯首席执行官问题,我们得出了模型聚合问题的速率区域和总成绩 - 距离函数,这揭示了在特定梯度失真上限处的最小通信速率。我们还根据现实世界数据集的梯度统计数据,分析了每次迭代和总通信成本的通信成本和总通信成本。发现通过利用工人节点之间的相关性来获得沟通增益,对于符号来说是显着的,并且梯度估计器的高扭曲可以实现梯度压缩中的较低总通信成本。
translated by 谷歌翻译
我们研究了由Biclesting问题激励的新型多终端源编码设置。两个单独的编码器观察两个i.i.d.分别序列$ x ^ n $和$ y ^ n $。目标是找到速率有限的编码$ f(x ^ n)$和$ g(z ^ n)$,最大化相互信息$ i(f(x ^ n); g(y ^ n))/ n$。我们讨论了对独立性,模式识别和信息瓶颈方法的假设检验的这个问题的联系。改善内部和外界的先前基数界限使我们能够彻底地研究二进制对称源的特殊情况,并在这个特殊情况下量化内部和外部边界之间的间隙。此外,我们调查了互信息约束的首席运营官(CEO)问题的多个描述(MD)延伸。令人惊讶的是,这个MD-CEO问题允许了可实现的区域的紧密单信表征。
translated by 谷歌翻译
我们在信息理论安全保证下为高斯窃听通道设计了简短的区块长度代码。我们的方法在于将代码设计中的可靠性和保密性限制解耦。具体而言,我们通过自动编码器处理可靠性约束,并处理具有哈希功能的保密约束。对于小于或等于16的区块长度,我们通过模拟合法接收器的错误概率以及我们的代码构建中的窃听器的泄漏进行评估。这种泄漏被定义为机密信息和窃听通道观察之间的共同信息,并通过基于神经网络的共同信息估计器进行经验测量。我们的仿真结果提供了具有正面保密率的代码的示例,这些代码优于高斯窃听通道的非结构性可获得的最知名的保密率。此外,我们表明我们的代码设计适用于化合物和任意变化的高斯窃听通道,为此,通道统计信息不是完全知道的,但仅属于预先指定的不确定性集。这些模型不仅捕获了与渠道统计估计有关的不确定性,而且还捕获了窃听器堵塞合法传输或通过更改其位置来影响其自身渠道统计的场景。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
想象一组愿意集体贡献他们的个人数据的公民,以获得共同的益处,以产生社会有用的信息,由数据分析或机器学习计算产生。使用执行计算的集中式服务器共享原始的个人数据可能会引发对隐私和感知风险的担忧。相反,公民可以相互信任,并且他们自己的设备可以参与分散的计算,以协同生成要共享的聚合数据释放。在安全计算节点在运行时在安全信道交换消息的上下文中,密钥安全问题是保护对观察流量的外部攻击者,其对数据的依赖可以揭示个人信息。现有解决方案专为云设置而设计,目标是隐藏底层数据集的所有属性,并且不解决上述背景下出现的特定隐私和效率挑战。在本文中,我们定义了一般执行模型,以控制用户侧分散计算中通信的数据依赖性,其中通过组合在局部节点的局部集群上的保证来分析全局执行计划中的差异隐私保证。我们提出了一系列算法,可以在隐私,效用和效率之间进行权衡。我们的正式隐私保障利用,并通过洗牌延长隐私放大的结果。我们说明了我们对具有数据依赖通信的分散执行计划的两个代表性示例的提案的有用性。
translated by 谷歌翻译
本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是,我们对以下问题感兴趣:最大噪声水平$ \ sigma^2 $是什么,对此样品复杂性基本与从标记的测量值估算中心时相同?为此,我们将注意力限制为问题的贝叶斯公式,其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $,而GMM学习问题(在大系统中限制$ d,k \ to \ infty $)就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left(1+ \ frac {1} {1} {\ sigma^2} \ right)$,这是添加性白色高斯的能力噪声(AWGN)频道。将$ K $中心的集合作为代码,可以将此噪声阈值解释为最大的噪声水平,AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的,但他们暗示,也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度,而不是仅仅最小距离。
translated by 谷歌翻译
我们考虑使用随机球形代码的高维信号$ x $的有损压缩表示之间的分布连接,并在添加白色高斯噪声(AWGN)下的$ X $观察$ x $。我们展示了比特率 - $ R $压缩版的Wassersein距离$ x $及其在AWGN-噪声比率下的AWGN噪声比率下的观察2 ^ {2R} -1 $ 2 ^ {2r} -1 $中的下线性。我们利用此事实基于AWGN损坏的$ x $的AWGN损坏版本的估算者的风险连接到与其比特率 - $ r $量化版本相同的估算器所获得的风险。我们通过在压缩约束下导出推导问题的各种新结果来展示这种联系的有用性,包括Minimax估计,稀疏回归,压缩感和远程源编码中的线性估计的普遍性。
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
在有损压缩的背景下,Blau&Michaeli(2019)采用了感知质量的数学概念,并定义了信息率 - 失真 - 感知功能,概括了经典速率 - 失真概况。我们考虑一个通用表示的概念,其中一个人可以修复编码器并改变解码器以实现失真和感知约束的集合中的任何点。我们证明,相应的信息理论通用率 - 失真 - 感知功能在近似意义上可操作地实现。在MSE失真下,我们表明高斯来源的整个失真 - 感知概况可以通过渐近率的相同速率的单个编码器来实现。然后,我们在任意分布的情况下表征了用于固定表示的可实现的失真感知区域,识别上述结果近似地保持的条件,并且在速率预先固定时研究该情况。这激发了对跨RDP权衡大致普遍的实际结构的研究,从而减轻了为每个目标设计新编码器的需要。我们为MNIST和SVHN提供实验结果,表明在图像压缩任务上,通过机器学习模型实现的操作权衡与固定编码器相比只遭受小额惩罚。
translated by 谷歌翻译
我们提出了Swiftagg+,这是一种针对联合学习系统的新颖的安全聚合协议,其中central Server汇总了$ n \ in \ mathbb {n} $分布式用户的本地型号,每个大小$ l \ in \ mathbb {n} $中的每个型号,训练有素,以隐私的方式在其本地数据上。 Swiftagg+可以大大减少通信开销,而不会对安全性进行任何妥协,并在减少差距内实现最佳通信负载。具体而言,最多有$ d = o(n)$ droput用户,Swiftagg+实现了$(1+ \ Mathcal {o}(\ frac {1} {n} {n}))的每个用户通信负载。和$(1+ \ Mathcal {o}(\ frac {1} {n}))的服务器通信负载,具有最差的信息理论安全保证o(n)$半honest用户,也可能与好奇的服务器合谋。此外,拟议的Swiftagg+允许在通信负载和主动通信链接的数量之间进行灵活的权衡。特别是,对于$ t <n-d $,对于任何$ k \ in \ mathbb {n} $,Swiftagg+可以实现$(1+ \ frac {t} {k} {k})l $符号的服务器通信负载,并且 - 用户通信负载最多$(1+ \ frac {t+d} {k})l $符号,其中网络中的配对活动连接的数量为$ \ frac {n} {2}(k +T+D+1)$。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
与经典线性模型不同,非线性生成模型在统计学习的文献中被稀疏地解决。这项工作旨在引起对这些模型及其保密潜力的关注。为此,我们调用了复制方法,以在反相反的问题中得出渐近归一化的横熵,其生成模型由具有通用协方差函数的高斯随机场描述。我们的推导进一步证明了贝叶斯估计量的渐近统计解耦,并为给定的非线性模型指定了解耦设置。复制解决方案描述了严格的非线性模型建立了全有或全无的相变:存在一个关键负载,最佳贝叶斯推断从完美的学习变为不相关的学习。基于这一发现,我们设计了一种新的安全编码方案,该方案可实现窃听通道的保密能力。这个有趣的结果意味着,严格的非线性生成模型是完美的,没有任何安全编码。我们通过分析说明性模型的完全安全和可靠的推论来证明后一种陈述是合理的。
translated by 谷歌翻译
我们提出了具有共同总和重建(CSR)的两端源编码的问题。考虑两个终端,每个终端都可以访问两个相关源之一。两个终端都希望在某些平均变形约束下重建两个源的总和,并且两个终端处的重建必须具有很高的概率。在本文中,我们将内部和外部边界发展为双重对称二进制源的CSR问题的可实现速率失真区域。我们对Steinberg的普通重建和Wyner-Ziv的源编码进行了现有的可实现结果,并为Korner-Marton的Modulo-Two-two总计计算问题提供了可实现的结果。
translated by 谷歌翻译
在联邦学习方案中,多方共同从其各自的数据中学习模型,有两个相互矛盾的目标是选择适当的算法。一方面,必须在存在\ textit {semi-honest}合作伙伴的情况下尽可能保持私人和敏感的培训数据,而另一方面,必须在不同方之间交换一定数量的信息学习实用程序。这样的挑战要求采用隐私的联合学习解决方案,该解决方案最大程度地提高了学习模型的效用,并维护参与各方的私人数据的可证明的隐私保证。本文说明了一个一般框架,即a)从统一信息理论的角度来制定隐私损失和效用损失之间的权衡,而b)在包括随机化,包括随机性,包括随机的机制,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,,包括随机性,包括随机性,,使用稀疏性和同态加密。结果表明,一般而言\ textit {没有免费的午餐来进行隐私 - 私人权衡取舍},并且必须用一定程度的降级效用进行保存隐私。本文中说明的定量分析可以作为实用联合学习算法设计的指导。
translated by 谷歌翻译
Storage-efficient privacy-preserving learning is crucial due to the increasing amounts of sensitive user data required for modern learning tasks. We propose a framework for reducing the storage cost of user data while at the same time providing privacy guarantees, without essential loss in the utility of the data for learning. Our method comprises noise injection followed by lossy compression. We show that, when appropriately matching the lossy compression to the distribution of the added noise, the compressed examples converge, in distribution, to that of the noise-free training data as the sample size of the training data (or the dimension of the training data) increases. In this sense, the utility of the data for learning is essentially maintained, while reducing storage and privacy leakage by quantifiable amounts. We present experimental results on the CelebA dataset for gender classification and find that our suggested pipeline delivers in practice on the promise of the theory: the individuals in the images are unrecognizable (or less recognizable, depending on the noise level), overall storage of the data is substantially reduced, with no essential loss (and in some cases a slight boost) to the classification accuracy. As an added bonus, our experiments suggest that our method yields a substantial boost to robustness in the face of adversarial test data.
translated by 谷歌翻译
我们考虑一个非线性逆问题$ \ mathbf {y} = f(\ mathbf {ax})$,其中观察$ \ mathbf {y} \ in \ mathbb {r} ^ m $ in $ \ mathbf的组件非线性转换\ MathBB {R} ^ M $,$ \ MATHBF {X} \ IN \ MATHBB {R} ^ $是兴趣的信号,$ \ MATHBF {A} $是已知的线性映射。通过正确指定非线性处理功能,可以将该模型统治到许多信号处理问题,包括压缩感测和相位检索。我们本文的主要目标是了解传感矩阵的影响,或更具体地是感测矩阵的频谱,难以从$ \ mathbf {y} $恢复$ \ mathbf {x} $。为了实现这一目标,我们研究了最成功的恢复方法之一的性能,即期望传播算法(EP)。我们为$ \ mathbf {a} $的频谱的尖端定义了一个概念,并显示了在EP性能方面的这一措施的重要性。频谱的刺激是否可以伤害或帮助EP的恢复性能取决于$ F $。我们根据函数$ F $定义某些数量,使我们能够描述谱对EP恢复刺激的影响。基于我们的框架,我们能够表明,例如,在阶段检索问题中,具有尖光频谱的矩阵对于EP更好,而在1位压缩的感测问题中,较少的尖峰(平坦)频谱提供更好的恢复。我们的结果统一并基本上概括了比较子高斯和正交矩阵的现有结果,并为设计最佳感测系统提供平台。
translated by 谷歌翻译
我们描述了一种新型有损压缩方法,称为DIFFC,该方法基于无条件扩散生成模型。与依靠转换编码和量化来限制传输信息的现代压缩方案不同,DIFFC依赖于高斯噪声损坏的像素的有效通信。我们实施了概念证明,并发现尽管缺乏编码器变换,但它的工作原理表现出色,超过了Imagenet 64x64上最先进的生成压缩方法。 DIFFC仅使用单个模型在任意比特率上编码和DENOISE损坏的像素。该方法进一步提供了对渐进编码的支持,即从部分位流进行解码。我们执行速率分析,以更深入地了解其性能,为多元高斯数据以及一般分布的初始结果提供分析结果。此外,我们表明,基于流动的重建可以比祖先采样在高比特率上获得3 dB的增长。
translated by 谷歌翻译
瓶颈问题是一系列重要的优化问题,最近在机器学习和信息理论领域引起了人们的关注。它们被广泛用于生成模型,公平的机器学习算法,对隐私保护机制的设计,并在各种多用户通信问题中作为信息理论性能界限出现。在这项工作中,我们提出了一个普通的优化问题家族,称为复杂性 - 裸露的瓶颈(俱乐部)模型,该模型(i)提供了一个统一的理论框架,该框架将大多数最先进的文献推广到信息理论隐私模型(ii)建立了对流行的生成和判别模型的新解释,(iii)构建了生成压缩模型的新见解,并且(iv)可以在公平的生成模型中使用。我们首先将俱乐部模型作为复杂性约束的隐私性优化问题。然后,我们将其与密切相关的瓶颈问题(即信息瓶颈(IB),隐私渠道(PF),确定性IB(DIB),条件熵瓶颈(CEB)和有条件的PF(CPF)连接。我们表明,俱乐部模型概括了所有这些问题以及大多数其他信息理论隐私模型。然后,我们通过使用神经网络来参数化相关信息数量的变异近似来构建深层俱乐部(DVCLUB)模型。在这些信息数量的基础上,我们提出了监督和无监督的DVClub模型的统一目标。然后,我们在无监督的设置中利用DVClub模型,然后将其与最先进的生成模型(例如变异自动编码器(VAE),生成对抗网络(GAN)以及Wasserstein Gan(WGAN)连接起来,Wasserstein自动编码器(WAE)和对抗性自动编码器(AAE)通过最佳运输(OT)问题模型。然后,我们证明DVCLUB模型也可以用于公平表示学习问题,其目标是在机器学习模型的训练阶段减轻不希望的偏差。我们对彩色命名和Celeba数据集进行了广泛的定量实验,并提供了公共实施,以评估和分析俱乐部模型。
translated by 谷歌翻译