智能论文笔记

Distributed Information-Theoretic Clustering

Georg Pichler , Pablo Piantanida , Gerald Matz

分类：机器学习

2016-02-15

我们研究了由Biclesting问题激励的新型多终端源编码设置。两个单独的编码器观察两个i.i.d.分别序列$ x ^ n $和$ y ^ n $。目标是找到速率有限的编码$ f（x ^ n）$和$ g（z ^ n）$，最大化相互信息$ i（f（x ^ n）; g（y ^ n））/ n$。我们讨论了对独立性，模式识别和信息瓶颈方法的假设检验的这个问题的联系。改善内部和外界的先前基数界限使我们能够彻底地研究二进制对称源的特殊情况，并在这个特殊情况下量化内部和外部边界之间的间隙。此外，我们调查了互信息约束的首席运营官（CEO）问题的多个描述（MD）延伸。令人惊讶的是，这个MD-CEO问题允许了可实现的区域的紧密单信表征。

translated by 谷歌翻译

Collaborative Information Bottleneck

Matías Vera , Leonardo Rey Vega , Pablo Piantanida

分类： (统计)机器学习

2016-04-05

本文在对数损耗保真度下调查了多终端源编码问题，这不一定导致添加性失真度量。该问题是通过信息瓶颈方法的扩展到多源场景的激励，其中多个编码器必须构建其来源的协同速率限制描述，以便最大化关于其他未观察的（隐藏的）源的信息。更确切地说，我们研究所谓的基本信息 - 理论极限：（i）双向协同信息瓶颈（TW-CIB）和（ii）协同分布式信息瓶颈（CDIB）问题。 TW-CIB问题由两个遥远的编码器分开观察边缘（依赖）组件$ X_1 $和$ X_2 $，并且可以通过有关隐藏变量的信息提取信息的目的进行有限信息的多个交换机（Y_1，Y_2）$ ，它可以任意依赖于$（X_1，X_2）$。另一方面，在CDIB中，有两个合作的编码器，分别观察$ x_1 $和$ x_2 $和第三个节点，它可以侦听两个编码器之间的交换，以便获取有关隐藏变量$ y $的信息。根据标准化（每个样本）多字母互信息度量（对数损耗保真度）来测量的相关性（图 - 优点），并且通过限制描述的复杂性来产生一个有趣的权衡，从而测量编码器和解码器之间的交换所需的费率。内部和外界与这些问题的复杂性相关区域的衍生自特征从哪个感兴趣的案例的特征在于。我们所产生的理论复杂性相关区域最终针对二进制对称和高斯统计模型进行评估。

translated by 谷歌翻译

Supermodular $\mf$-divergences and bounds on lossy compression and generalization error with mutual $\mf$-information

Saeed Masiha , Amin Gohari , Mohammad Hossein Yassaee

分类：机器学习

2022-06-21

在本文中，我们介绍了超模块化$ \ mf $ -Diverences，并为它们提供了三个应用程序：（i）我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫（Sanov）严格改善了普通的界限，（ii）我们考虑了有损耗的压缩问题，该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数，并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的，严格的更好的界限，并且（iii）我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限，该函数（对于某些示例）严格改善了以前最著名的界限。此外，使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。

translated by 谷歌翻译

Two-terminal source coding with common sum reconstruction

Tharindu Adikari , Stark Draper

分类：机器学习

2022-06-14

我们提出了具有共同总和重建（CSR）的两端源编码的问题。考虑两个终端，每个终端都可以访问两个相关源之一。两个终端都希望在某些平均变形约束下重建两个源的总和，并且两个终端处的重建必须具有很高的概率。在本文中，我们将内部和外部边界发展为双重对称二进制源的CSR问题的可实现速率失真区域。我们对Steinberg的普通重建和Wyner-Ziv的源编码进行了现有的可实现结果，并为Korner-Marton的Modulo-Two-two总计计算问题提供了可实现的结果。

translated by 谷歌翻译

Studying the Interplay between Information Loss and Operation Loss in Representations for Classification

Jorge F. Silva , Felipe Tobar , Mario Vicuña , Felipe Cordova

分类：机器学习 | (统计)机器学习

2021-12-30

信息理论措施已广泛采用学习和决策问题的特征。受到这一点的启发，我们介绍了Shannon Sense的信息损失的弱形式，ii）在考虑一系列有损的连续表示（特征）时，错误（MPE）意义上的最小概率的操作损失连续观察。我们展示了几个结果揭示了这种相互作用的结果。我们的第一个结果在采用离散的损耗表示（量化）而不是原始原始观察时，在其各自的操作损失的函数中提供弱的信息损失形式的下限。从这后，我们的主要结果表明，在考虑一般的持续陈述时，特定形式的消失信息丧失（渐近信息充足的弱势概念）意味着消失的MPE损失（或渐近运营充足机会）。我们的理论调查结果支持观察到选择要捕捉信息充足性的特征表示是适当的学习，但如果预期目标在分类中实现MPE，这种选择是一种相当保守的设计原则。支持这一表明，在某些结构条件下，我们表明，可以采取信息充足的替代概念（严格弱于互信息意义上的纯粹足够的充足），以实现运动充足。

translated by 谷歌翻译

Towards a Unified Information-Theoretic Framework for Generalization

Mahdi Haghifam , Gintare Karolina Dziugaite , Shay Moran , Daniel M. Roy

分类：机器学习 | (统计)机器学习

2021-11-09

在这项工作中，我们调查了Steinke和Zakynthinou（2020）的“条件互信息”（CMI）框架的表现力，以及使用它来提供统一框架，用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎（但是次优）界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用，显示稳定的压缩方案Bousquet al。（2020）尺寸$ k $有统一有限的命令$ o（k）$。我们进一步表明，适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在，并且它意味着对Steinke和Zakynthinou（2020）的开放问题的负面分辨率。我们进一步研究了价值最低限度（ERMS）的CMI的级别$ H $，并表明，如果才能使用有界CMI输出所有一致的分类器（版本空间），只有在$ H $具有有界的星号（Hanneke和杨（2015）））。此外，我们证明了一般性的减少，表明“休假”分析通过CMI框架表示。作为推论，我们研究了Haussler等人提出的一包图算法的CMI。（1994）。更一般地说，我们表明CMI框架是通用的，因为对于每一项一致的算法和数据分布，当且仅当其评估的CMI具有样品的载位增长时，预期的风险就会消失。

translated by 谷歌翻译

On the Role of Channel Capacity in Learning Gaussian Mixture Models

Elad Romanov , Tamir Bendory , Or Ordentlich

分类：机器学习 | (统计)机器学习

2022-02-15

本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是，我们对以下问题感兴趣：最大噪声水平$ \ sigma^2 $是什么，对此样品复杂性基本与从标记的测量值估算中心时相同？为此，我们将注意力限制为问题的贝叶斯公式，其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $，而GMM学习问题（在大系统中限制$ d，k \ to \ infty $）就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left（1+ \ frac {1} {1} {\ sigma^2} \ right）$，这是添加性白色高斯的能力噪声（AWGN）频道。将$ K $中心的集合作为代码，可以将此噪声阈值解释为最大的噪声水平，AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的，但他们暗示，也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度，而不是仅仅最小距离。

translated by 谷歌翻译

Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms

Milad Sefidgaran , Amin Gohari , Gaël Richard , Umut Şimşekli

分类： (统计)机器学习 | 机器学习

2022-03-04

了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下，近年来见证了各种泛化范围的发展，表明了不同的复杂性概念，例如数据样本和算法输出之间的相互信息，假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题，但它们建议的复杂性概念似乎似乎无关，从而限制了它们的高级影响。在这项研究中，我们通过速率理论的镜头证明了新的概括界定，并明确地将相互信息，可压缩性和分形维度的概念联系起来。我们的方法包括（i）通过使用源编码概念来定义可压缩性的广义概念，（ii）表明“压缩错误率”可以与预期和高概率相关。我们表明，在“无损压缩”设置中，我们恢复并改善了现有的基于信息的界限，而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来，这是分形维度的特定概念。我们的结果为概括带来了更统一的观点，并打开了几个未来的研究方向。

translated by 谷歌翻译

Computational Barriers to Estimation from Low-Degree Polynomials

Tselil Schramm , Alexander S. Wein

分类： (统计)机器学习

2020-08-05

高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构（例如低级别矩阵）。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型：在各种情况下，数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量，以检测隐藏结构的存在。在这项工作中，我们将这些方法扩展到解决估计和恢复问题（而不是检测）。对于大量的“信号加噪声”问题，我们给出了一个用户友好的下限，以获得最佳的均衡误差。据我们所知，这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用，我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征，在两种情况下都解决了有关恢复的计算复杂性的开放问题（在低度框架中）。

translated by 谷歌翻译

Sequential Estimation of Convex Functionals and Divergences

Tudor Manole , Aaditya Ramdas

分类： (统计)机器学习

2021-03-16

我们提出了一种统一的技术，用于顺序估计分布之间的凸面分歧，包括内核最大差异等积分概率度量，$ \ varphi $ - 像Kullback-Leibler发散，以及最佳运输成本，例如Wassersein距离的权力。这是通过观察到经验凸起分歧（部分有序）反向半角分离的实现来实现的，而可交换过滤耦合，其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备，将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列，在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格，保留对问题参数的相同依赖性（如适用的尺寸或字母大小）。这些结果也适用于更一般的凸起功能，如负差分熵，实证过程的高度和V型统计。

translated by 谷歌翻译

Chained Generalisation Bounds

Eugenio Clerico , Amitis Shidani , George Deligiannidis , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2022-03-02

这项工作讨论了如何通过链接技术导致监督学习算法的预期概括误差的上限。通过开发一个一般的理论框架，我们根据损失函数的规律性及其链式对应物建立二元性界限，这可以通过将损失从损失从其梯度提升到其梯度来获得。这使我们能够根据Wasserstein距离和其他概率指标重新衍生从文献中绑定的链式相互信息，并获得新颖的链接信息理论理论范围。我们在一些玩具示例中表明，链式的概括结合可能比其标准对应物明显更紧，尤其是当算法选择的假设的分布非常集中时。关键字：概括范围；链信息理论范围；相互信息；瓦斯堡的距离； Pac-Bayes。

translated by 谷歌翻译

On the Estimation of Information Measures of Continuous Distributions

Georg Pichler , Pablo Piantanida , Günther Koliander

分类：机器学习

2020-02-07

基于样本的连续分布信息衡量估算是统计和机器学习中的一个基本问题。在本文中，当概率密度函数属于预定的凸面族{P} $时，我们分析了从有限数量的样本计算的差分熵的估计。首先，如果$ \ mathcal {p} $的密度差异熵是无限的，显然表达出额外假设的必要性，则估计差动熵将是不可行的。随后，我们调查了足够的条件，使差动熵估计能够置信界限。特别地，假设概率密度函数是LipsChitz恒定和已知的界限支持的概率密度函数是LipsChitz的差分熵的简单直方图估计的基于差分熵的差分估计。我们的重点是在差分熵上，但我们提供了示例，表明相似的结果适用于相互信息和相对熵。

translated by 谷歌翻译

Estimating means of bounded random variables by betting

Ian Waudby-Smith , Aaditya Ramdas

分类： (统计)机器学习

2020-10-19

本文衍生了置信区间（CI）和时间统一的置信序列（CS），用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法，可以看作是著名的切尔诺夫方法的概括（和改进）。它的核心是基于推导一类新的复合非负胸腔，通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下，这是另一个经过深入研究的问题。在所有情况下，我们的界限都适应未知的差异，并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括，经验上大大优于现有方法。简而言之，我们为四个基本问题建立了一个新的最先进的问题：在有或没有替换的情况下进行采样时，CS和CI进行有限的手段。

translated by 谷歌翻译

Lower bounds for learning quantum states with single-copy measurements

Angus Lowe , Ashwin Nayak

分类：机器学习

2022-07-29

我们使用对单个的，相同的$ d $维状态的相同副本进行的测量来研究量子断层扫描和阴影断层扫描的问题。我们首先因Haah等人而重新审视已知的下限。（2017年）在痕量距离上具有准确性$ \ epsilon $的量子断层扫描，当测量选择与先前观察到的结果无关（即它们是非适应性的）时。我们简要地证明了这一结果。当学习者使用具有恒定结果数量的测量值时，这会导致更强的下限。特别是，这严格确定了民间传说的最佳性``Pauli phymography''算法的样本复杂性。我们还得出了$ \ omega（r^2 d/\ epsilon^2）$和$ \ omega（r^2 d/\ epsilon^2）的新颖界限（ R^2 d^2/\ epsilon^2）$用于学习排名$ r $状态，分别使用任意和恒定的结果测量，在非适应性情况下。除了样本复杂性，对于学习量子的实际意义，是一种实际意义的资源状态是算法使用的不同测量值的数量。我们将下限扩展到学习者从固定的$ \ exp（o（d））$测量的情况下进行自适应测量的情况。这特别意味着适应性。没有使用可有效实现的单拷贝测量结果给我们任何优势。在目标是预测给定的可观察到给定序列的期望值的情况下，我们还获得了类似的界限，该任务被称为阴影层析成像。在适应性的情况下单拷贝测量可通过多项式大小的电路实现，我们证明了基于计算给定可观察物的样本平均值的直接策略是最佳的。

translated by 谷歌翻译

Community Detection and Stochastic Block Models

Emmanuel Abbe

分类： (统计)机器学习

2017-03-29

随机块模型（SBM）是一个随机图模型，其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型，并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展，无论是在信息理论和计算方案方面，以及各种恢复要求，例如精确，部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换，Kesten-Stigum阈值弱恢复的相变，最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导，特别是通过绘制绘制，半定义编程，（线性化）信念传播，经典/非背带频谱和图形供电。还讨论了其他块模型的扩展，例如几何模型和一些开放问题。

translated by 谷歌翻译

Beyond Transmitting Bits: Context, Semantics, and Task-Oriented Communications

Deniz Gunduz , Zhijin Qin , Inaki Estella Aguerri , Harpreet S. Dhillon , Zhaohui Yang , Aylin Yener , Kai Kit Wong , Chan-Byoung Chae

分类：人工智能 | 机器学习

2022-07-19

迄今为止，通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计，这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是，下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外，可以使这些系统了解进行交流交流的环境，从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力，从早期改编，语义意识和以任务为导向的通信开始，涵盖了基础，算法和潜在的实现。重点是利用信息理论提供基础的方法，以及学习在语义和任务感知通信中的重要作用。

translated by 谷歌翻译

Understanding Generalization via Leave-One-Out Conditional Mutual Information

Mahdi Haghifam , Shay Moran , Daniel M. Roy , Gintare Karolina Dziugaite

分类：机器学习

2022-06-29

我们研究了学习算法的输出及其$ n $培训数据之间（某些摘要）之间的共同信息，以$ n+1 $ i.i.d.的超级样本为条件。随机选择训练数据而无需更换的数据。这些算法（Steinke and Zakynthinou，2020）的条件相互信息（CMI）的这些剩余变体也被认为可以控制具有有界损耗函数的学习算法的平均通用误差。为了学习在0-1损失（即插值算法）下实现零经验风险的学习算法，我们提供了剩余的CMI与风险的经典保留误差估计之间的明确联系。使用此连接，我们就（评估）保留的CMI获得了上限和下限。当限制风险恒定或多项式衰减时，边界会收敛到两个恒定因子。作为应用程序，我们分析了单个包含图算法的人口风险，这是一种在可实现的环境中的VC类的通用转导学习算法。使用一对一的CMI，我们匹配在可实现的设置中学习VC课程的最佳界限，回答了Steinke和Zakynthinou（2020）提出的开放挑战。最后，为了理解剩余的CMI在研究概括中的作用，我们将剩余的CMI放在措施层次结构中，并在根本上使用新颖的无条件相互信息。对于0-1的损失和插值学习算法，观察到此相互信息恰恰是风险。

translated by 谷歌翻译

Generalization Bounds in the Predict-then-Optimize Framework

Othman El Balghiti , Adam N. Elmachtoub , Paul Grigas , Ambuj Tewari

分类：机器学习 | (统计)机器学习

2019-05-27

预测到优化的框架在许多实际设置中都是基础：预测优化问题的未知参数，然后使用参数的预测值解决该问题。与参数的预测误差相反，在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas（2022）中引入了此损失函数，并被称为智能预测 - 优化（SPO）损失。在这项工作中，我们试图提供有关在SPO损失的背景下，预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz，因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限，在多面体可行区域中，在极端点数中最大程度地比对数扩展，但是，在一般凸的可行区域中，对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性，我们将其表示为强度属性，我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润，这些预测不会产生独特的最佳解决方案，然后在修改后的利润率SPO损失函数的背景下提供了概括界限，而SPO损失函数是Lipschitz的连续。最后，我们表征了强度特性，并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译