智能论文笔记

Local Grammar-Based Coding Revisited

Łukasz Dębowski

分类：自然语言处理

2022-09-27

我们重新讨论了最小的局部语法编码问题。在这种情况下，局部语法编码器按符号编码语法符号，而最小的语法转换最小化的语法最小化可以最大程度地减少由局部语法编码的长度给出的预设语法中的语法长度。众所周知，对于严格的正熵率，这种最小代码是强烈通用的，而最小语法中的规则数构成了源互信息的上限。尽管完全最小的代码可能是棘手的，但可以有效地计算约束的最小块代码。在本说明中，无论熵率如何，我们提供了最小块代码的强大普遍性的新的，更简单，更一般的证明。该证明基于一个简单的Zipfian绑定，用于排名概率。顺便说一句，我们还从经验上表明，最小块代码中规则的数量不能清楚地区分长期内存和无内存来源，例如英语文本和其字符的随机置换。这与我们以前的期望相抵触。

translated by 谷歌翻译

Estimation of Stationary Optimal Transport Plans

Kevin O'Connor , Kevin McGoff , Andrew B Nobel

分类： (统计)机器学习

2021-07-25

我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性，我们限制了对固定联轴器的关注，也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本，我们建立了温和条件下估算器的一致性。此外，在更强的混合假设下，我们为估计的最佳连接成本建立有限样本误差速率，其延伸了IID案件中的最佳已知结果。最后，我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。

translated by 谷歌翻译

On the Role of Channel Capacity in Learning Gaussian Mixture Models

Elad Romanov , Tamir Bendory , Or Ordentlich

分类：机器学习 | (统计)机器学习

2022-02-15

本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是，我们对以下问题感兴趣：最大噪声水平$ \ sigma^2 $是什么，对此样品复杂性基本与从标记的测量值估算中心时相同？为此，我们将注意力限制为问题的贝叶斯公式，其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $，而GMM学习问题（在大系统中限制$ d，k \ to \ infty $）就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left（1+ \ frac {1} {1} {\ sigma^2} \ right）$，这是添加性白色高斯的能力噪声（AWGN）频道。将$ K $中心的集合作为代码，可以将此噪声阈值解释为最大的噪声水平，AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的，但他们暗示，也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度，而不是仅仅最小距离。

translated by 谷歌翻译

Supermodular $\mf$-divergences and bounds on lossy compression and generalization error with mutual $\mf$-information

Saeed Masiha , Amin Gohari , Mohammad Hossein Yassaee

分类：机器学习

2022-06-21

在本文中，我们介绍了超模块化$ \ mf $ -Diverences，并为它们提供了三个应用程序：（i）我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫（Sanov）严格改善了普通的界限，（ii）我们考虑了有损耗的压缩问题，该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数，并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的，严格的更好的界限，并且（iii）我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限，该函数（对于某些示例）严格改善了以前最著名的界限。此外，使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。

translated by 谷歌翻译

A Measure-Theoretic Characterization of Tight Language Models

Li Du , Lucas Torroba Hennigen , Tiago Pimentel , Clara Meister , Jason Eisner , Ryan Cotterell

分类：自然语言处理

2022-12-20

Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.

translated by 谷歌翻译

Studying the Interplay between Information Loss and Operation Loss in Representations for Classification

Jorge F. Silva , Felipe Tobar , Mario Vicuña , Felipe Cordova

分类：机器学习 | (统计)机器学习

2021-12-30

信息理论措施已广泛采用学习和决策问题的特征。受到这一点的启发，我们介绍了Shannon Sense的信息损失的弱形式，ii）在考虑一系列有损的连续表示（特征）时，错误（MPE）意义上的最小概率的操作损失连续观察。我们展示了几个结果揭示了这种相互作用的结果。我们的第一个结果在采用离散的损耗表示（量化）而不是原始原始观察时，在其各自的操作损失的函数中提供弱的信息损失形式的下限。从这后，我们的主要结果表明，在考虑一般的持续陈述时，特定形式的消失信息丧失（渐近信息充足的弱势概念）意味着消失的MPE损失（或渐近运营充足机会）。我们的理论调查结果支持观察到选择要捕捉信息充足性的特征表示是适当的学习，但如果预期目标在分类中实现MPE，这种选择是一种相当保守的设计原则。支持这一表明，在某些结构条件下，我们表明，可以采取信息充足的替代概念（严格弱于互信息意义上的纯粹足够的充足），以实现运动充足。

translated by 谷歌翻译

Distributed Information-Theoretic Clustering

Georg Pichler , Pablo Piantanida , Gerald Matz

分类：机器学习

2016-02-15

我们研究了由Biclesting问题激励的新型多终端源编码设置。两个单独的编码器观察两个i.i.d.分别序列$ x ^ n $和$ y ^ n $。目标是找到速率有限的编码$ f（x ^ n）$和$ g（z ^ n）$，最大化相互信息$ i（f（x ^ n）; g（y ^ n））/ n$。我们讨论了对独立性，模式识别和信息瓶颈方法的假设检验的这个问题的联系。改善内部和外界的先前基数界限使我们能够彻底地研究二进制对称源的特殊情况，并在这个特殊情况下量化内部和外部边界之间的间隙。此外，我们调查了互信息约束的首席运营官（CEO）问题的多个描述（MD）延伸。令人惊讶的是，这个MD-CEO问题允许了可实现的区域的紧密单信表征。

translated by 谷歌翻译

Safe Testing

Peter Grünwald , Rianne de Heide , Wouter Koolen

分类：机器学习

2019-06-18

我们基于电子价值开发假设检测理论，这是一种与p值不同的证据，允许毫不费力地结合来自常见场景中的几项研究的结果，其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的，即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性（GRO）定义为可选的连续上下文中的电力模拟，并且我们展示了如何构建GRO E-VARIABLE，以便为复合空缺和替代，强调模型的常规测试问题，并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论，包括一个样本安全T检验（其中右哈尔前方的右手前锋为GE）和2x2差价表（其中GRE之前与标准前沿不同）。分享渔业，奈曼和杰弗里斯·贝叶斯解释，电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。

translated by 谷歌翻译

An Algorithmic Approach to Emergence

Charles Alexandre Bédard , Geoffroy Bergeron

分类：人工智能

2022-05-19

我们建议出现的定量和客观概念。我们的建议使用算法信息理论作为一个客观框架的基础，其中某个字符串编码观测数据。这种字符串的Kolmogorov结构功能中有多个滴剂被视为出现的标志。我们的定义除了扩展了粗粒和边界条件的概念外，还提供了一些理论上的结果。最后，我们面对对动态系统和热力学的应用。

translated by 谷歌翻译

Optimal alphabet for single text compression

Armen E. Allahverdyan , Andranik Khachatryan

分类：自然语言处理

2022-01-13

可以使用Huffman代码来压缩使用给定字母的符号编写的文本，该代码可最大程度地减少编码文本的长度。但是，有必要使用特定于文本的代码簿，即符号代码字典来解码原始文本。因此，应通过完整的代码长度，即编码文本的长度以及代码簿的长度来评估压缩性能。我们研究了几个字母，用于压缩文本 - 字母，字母，音节，单词和短语的n-gram。如果仅保留足够短的文本，则最佳字母或两倍的字母字母是最佳的。对于大多数Project Gutenberg文本，根据代码簿的表示，最好的字母（将完整代码长度最小化的字母最小化）是由音节或单词给出的。字母3和4克，平均具有与音节/单词相当长的长度，其性能比音节或单词差。在拥有非常大的代码簿的帐户上，Word 2-grams也从来都不是最好的字母。我们还表明，代码书表示很重要 - 从天真的表示变为紧凑的表示可以显着改善具有大量符号的字母的事项，最著名的是单词。因此，语言（音节或单词）的表达含义元素提供了最佳的压缩字母。

translated by 谷歌翻译

Computational Barriers to Estimation from Low-Degree Polynomials

Tselil Schramm , Alexander S. Wein

分类： (统计)机器学习

2020-08-05

高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构（例如低级别矩阵）。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型：在各种情况下，数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量，以检测隐藏结构的存在。在这项工作中，我们将这些方法扩展到解决估计和恢复问题（而不是检测）。对于大量的“信号加噪声”问题，我们给出了一个用户友好的下限，以获得最佳的均衡误差。据我们所知，这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用，我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征，在两种情况下都解决了有关恢复的计算复杂性的开放问题（在低度框架中）。

translated by 谷歌翻译

Quantum learning algorithms imply circuit lower bounds

Srinivasan Arunachalam , Alex B. Grilo , Tom Gur , Igor C. Oliveira , Aarthi Sundaram

分类：机器学习

2020-12-03

我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说，让$ \ mathfrak {c} $是一类多项式大小概念，假设$ \ mathfrak {c} $可以在统一分布下的成员查询，错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $，则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $，其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o（n）}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中，此结果是最佳的，因为它不难学习（经典）时间$ t = 2 ^ n $（没有错误），或在Quantum Time $ t = \ mathsf {poly}（n）$以傅立叶采样为单位为1/2美元（2 ^ { - n / 2}）$。换句话说，即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论，伪随机性和计算复杂性的几个作品上构建，并且至关重要地，在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系（CCC 2017）。扩展他们对量子学习算法的方法，结果产生了重大挑战。为此，我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接，构建针对均匀量子计算的第一个条件伪随机发生器，并扩展了Impagliazzo，JaiSwal的本地列表解码算法。，Kabanets和Wigderson（Sicomp 2010）通过微妙的分析到量子电路。我们认为，这些贡献是独立的兴趣，可能会发现其他申请。

translated by 谷歌翻译

Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms

Milad Sefidgaran , Amin Gohari , Gaël Richard , Umut Şimşekli

分类： (统计)机器学习 | 机器学习

2022-03-04

了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下，近年来见证了各种泛化范围的发展，表明了不同的复杂性概念，例如数据样本和算法输出之间的相互信息，假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题，但它们建议的复杂性概念似乎似乎无关，从而限制了它们的高级影响。在这项研究中，我们通过速率理论的镜头证明了新的概括界定，并明确地将相互信息，可压缩性和分形维度的概念联系起来。我们的方法包括（i）通过使用源编码概念来定义可压缩性的广义概念，（ii）表明“压缩错误率”可以与预期和高概率相关。我们表明，在“无损压缩”设置中，我们恢复并改善了现有的基于信息的界限，而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来，这是分形维度的特定概念。我们的结果为概括带来了更统一的观点，并打开了几个未来的研究方向。

translated by 谷歌翻译

On the Statistical Complexity of Sample Amplification

Brian Axelrod , Shivam Garg , Yanjun Han , Vatsal Sharan , Gregory Valiant

分类：机器学习

2022-01-12

鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本，何时可以生成更大的$ n + m $ samples，这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品？（AXELROD等人2019）将该问题正式化为样本放大问题，并为离散分布和高斯位置模型提供了最佳放大程序。然而，这些程序和相关的下限定制到特定分布类，对样本扩增的一般统计理解仍然很大程度上。在这项工作中，我们通过推出通常适用的放大程序，下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布，包括指数家庭，并在样本放大和分配学习之间建立严格的联系。

translated by 谷歌翻译

Convergence and Complexity of Stochastic Block Majorization-Minimization

Hanbaek Lyu

分类：机器学习 | (统计)机器学习

2022-01-05

随机多变最小化 - 最小化（SMM）是大多数变化最小化的经典原则的在线延伸，这包括采样I.I.D。来自固定数据分布的数据点，并最小化递归定义的主函数的主要替代。在本文中，我们引入了随机块大大化 - 最小化，其中替代品现在只能块多凸，在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求，我们的框架在内提供了更广泛的适用性，包括在线CANDECOMP / PARAFAC（CP）字典学习，并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析，我们在可能的数据流下派生，放松标准i.i.d。对数据样本的假设。我们表明，所提出的算法几乎肯定会收敛于速率$ O（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O（（\ log n）^ {1+ \ eps} / n ^ {1/4}）$的预期丢失函数，其中$ n $表示处理的数据样本数。在一些额外的假设下，后一趋同率可以提高到$ o（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。

translated by 谷歌翻译

The Fragility of Optimized Bandit Algorithms

Lin Fan , Peter W. Glynn

分类：机器学习

2021-09-28

关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知，在某些指数家庭中最佳的设计可以实现预期的遗憾，即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中，我们表明，当人们使用这种优化的设计时，相关算法的遗憾分布必然具有非常沉重的尾巴，特别是cauchy分布的尾巴。此外，对于$ p> 1 $，遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多，尤其是作为ARM播放总数的力量。我们表明，优化的UCB强盗设计在另一种意义上也是脆弱的，即，当问题甚至略有指定时，遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法，并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励，从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题，我们表明可以修改UCB算法，以确保对错误指定的理想程度。在此过程中，我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。

translated by 谷歌翻译

Estimating means of bounded random variables by betting

Ian Waudby-Smith , Aaditya Ramdas

分类： (统计)机器学习

2020-10-19

本文衍生了置信区间（CI）和时间统一的置信序列（CS），用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法，可以看作是著名的切尔诺夫方法的概括（和改进）。它的核心是基于推导一类新的复合非负胸腔，通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下，这是另一个经过深入研究的问题。在所有情况下，我们的界限都适应未知的差异，并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括，经验上大大优于现有方法。简而言之，我们为四个基本问题建立了一个新的最先进的问题：在有或没有替换的情况下进行采样时，CS和CI进行有限的手段。

translated by 谷歌翻译

Asymptotics of Network Embeddings Learned via Subsampling

Andrew Davison , Morgane Austern

分类： (统计)机器学习 | 机器学习

2021-07-06

Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.

translated by 谷歌翻译

Correlation detection in trees for planted graph alignment

Luca Ganassali , Laurent Massoulié , Marc Lelarge

分类：机器学习 | (统计)机器学习

2021-07-15

Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译