Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
translated by 谷歌翻译
对抗性鲁棒性是各种现代机器学习应用中的关键财产。虽然它是最近几个理论研究的主题,但与对抗性稳健性有关的许多重要问题仍然是开放的。在这项工作中,我们研究了有关对抗对抗鲁棒性的贝叶斯最优性的根本问题。我们提供了一般的充分条件,可以保证贝叶斯最佳分类器的存在,以满足对抗性鲁棒性。我们的结果可以提供一种有用的工具,用于随后研究对抗性鲁棒性及其一致性的替代损失。这份稿件是“关于普通贝叶斯分类器的存在”在神经潮端中发表的延伸版本。原始纸张的结果不适用于一些非严格凸的规范。在这里,我们将结果扩展到所有可能的规范。
translated by 谷歌翻译
大多数现代的潜在变量和概率生成模型,例如变异自动编码器(VAE),即使有无限的数据也无法解决,这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型,其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时,取得了进展,最著名的是IVAE(Arxiv:1907.04809 [stat.ml]),该模型排除了许多(但不是全部 - 不确定)。我们构建了一个完整的理论框架,用于分析潜在变量模型的不确定性,并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明,我们应用框架以更好地了解最近的可识别性结果的结构。然后,我们研究如何指定强烈识别的潜在变量模型,并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
储层计算系统是使用驱动的动力系统构建的,在该系统中,外部输入可以改变系统的发展状态。这些范例用于信息处理,机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性,并表明当输入和输出过程的集合赋予了Wasserstein距离时,它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的,该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性,这通常是为了保证储层计算中的回声状态属性的需求。结果,即使不存在Echo State属性,也可能会得到满足。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
随机近似算法是迭代过程,用于在目标未知且直接观察结果被噪声损坏的环境中近似目标值。例如,当目标函数或模型不直接知道时,这些算法对于根找到和最小化是有用的。最初是在Robbins和Monro的1951年论文中引入的,随机近似领域已大大增长,并影响了从自适应信号处理到人工智能的应用领域。例如,在机器学习的各个子域中无处不在的随机梯度下降算法是基于随机近似理论。在本文中,我们为由于Aryeh dvoretzky的一般融合定理提供了正式的证明(在COQ证明助手中),这意味着重要的经典方法(例如Robbins-Monro和Kiefer-Wolfowitz算法)的收敛性。在此过程中,我们构建了一个综合的量子库库理论概率理论和随机过程。
translated by 谷歌翻译
我们使用对单个的,相同的$ d $维状态的相同副本进行的测量来研究量子断层扫描和阴影断层扫描的问题。我们首先因Haah等人而重新审视已知的下限。 (2017年)在痕量距离上具有准确性$ \ epsilon $的量子断层扫描,当测量选择与先前观察到的结果无关(即它们是非适应性的)时。我们简要地证明了这一结果。当学习者使用具有恒定结果数量的测量值时,这会导致更强的下限。特别是,这严格确定了民间传说的最佳性``Pauli phymography''算法的样本复杂性。我们还得出了$ \ omega(r^2 d/\ epsilon^2)$和$ \ omega(r^2 d/\ epsilon^2)的新颖界限( R^2 d^2/\ epsilon^2)$用于学习排名$ r $状态,分别使用任意和恒定的结果测量,在非适应性情况下。除了样本复杂性,对于学习量子的实际意义,是一种实际意义的资源状态是算法使用的不同测量值的数量。我们将下限扩展到学习者从固定的$ \ exp(o(d))$测量的情况下进行自适应测量的情况。这特别意味着适应性。没有使用可有效实现的单拷贝测量结果给我们任何优势。在目标是预测给定的可观察到给定序列的期望值的情况下,我们还获得了类似的界限,该任务被称为阴影层析成像。在适应性的情况下单拷贝测量可通过多项式大小的电路实现,我们证明了基于计算给定可观察物的样本平均值的直接策略是最佳的。
translated by 谷歌翻译
信息理论措施已广泛采用学习和决策问题的特征。受到这一点的启发,我们介绍了Shannon Sense的信息损失的弱形式,ii)在考虑一系列有损的连续表示(特征)时,错误(MPE)意义上的最小概率的操作损失连续观察。我们展示了几个结果揭示了这种相互作用的结果。我们的第一个结果在采用离散的损耗表示(量化)而不是原始原始观察时,在其各自的操作损失的函数中提供弱的信息损失形式的下限。从这后,我们的主要结果表明,在考虑一般的持续陈述时,特定形式的消失信息丧失(渐近信息充足的弱势概念)意味着消失的MPE损失(或渐近运营充足机会)。我们的理论调查结果支持观察到选择要捕捉信息充足性的特征表示是适当的学习,但如果预期目标在分类中实现MPE,这种选择是一种相当保守的设计原则。支持这一表明,在某些结构条件下,我们表明,可以采取信息充足的替代概念(严格弱于互信息意义上的纯粹足够的充足),以实现运动充足。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
积极推论的中央概念是,物理系统参数概率的内部状态在外部世界的状态下衡量。这些可以被视为代理人的信仰,以贝叶斯先前或后部表示。在这里,我们开始发展一般理论,这将告诉我们何时适合将国家解释为以这种方式代表信仰。我们专注于系统可以被解释为执行贝叶斯滤波或贝叶斯推断的情况。我们使用类别理论的技术提供对存在这种解释的方法的形式定义。
translated by 谷歌翻译
最近的工作突出了因果关系在设计公平决策算法中的作用。但是,尚不清楚现有的公平因果概念如何相互关系,或者将这些定义作为设计原则的后果是什么。在这里,我们首先将算法公平性的流行因果定义组装成两个广泛的家庭:(1)那些限制决策对反事实差异的影响的家庭; (2)那些限制了法律保护特征(如种族和性别)对决策的影响。然后,我们在分析和经验上表明,两个定义的家庭\ emph {几乎总是总是} - 从一种理论意义上讲 - 导致帕累托占主导地位的决策政策,这意味着每个利益相关者都有一个偏爱的替代性,不受限制的政策从大型自然级别中绘制。例如,在大学录取决定的情况下,每位利益相关者都不支持任何对学术准备和多样性的中立或积极偏好的利益相关者,将不利于因果公平定义的政策。的确,在因果公平的明显定义下,我们证明了由此产生的政策要求承认所有具有相同概率的学生,无论学术资格或小组成员身份如何。我们的结果突出了正式的局限性和因果公平的常见数学观念的潜在不利后果。
translated by 谷歌翻译
我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
通过使用系统理论方法来解决,将隐藏的马尔可夫模型(HMM)降低到一个较小的维度的问题,该问题通过使用系统理论方法来解决相同的边缘,通过利用适当的代数表示概率空间的代数来解决HMM。我们提出了两种算法,这些算法返回由随机投影运算符获得的粗粒等效的HMM:第一返回模型,这些模型可重现给定输出过程的单个时间分布,而在第二个(多时间)分布中,则保留了第二个模型。还原方法不仅利用了观察到的输出的结构,而且还利用了后者的初始条件,每当后者已知或属于给定的子类时。最佳算法是针对一类HMM(即可观察到的)得出的。在一般情况下,我们提出的算法为我们分析的所有示例产生了最小的模型,并猜测它们的最优性。
translated by 谷歌翻译
也称为(非参数)结构方程模型(SEMS)的结构因果模型(SCM)被广泛用于因果建模目的。特别是,也称为递归SEM的无循环SCMS,形成了一个研究的SCM的良好的子类,概括了因果贝叶斯网络来允许潜在混淆。在本文中,我们调查了更多普通环境中的SCM,允许存在潜在混杂器和周期。我们展示在存在周期中,无循环SCM的许多方便的性质通常不会持有:它们并不总是有解决方案;它们并不总是诱导独特的观察,介入和反事实分布;边缘化并不总是存在,如果存在边缘模型并不总是尊重潜在的投影;他们并不总是满足马尔可夫财产;他们的图表并不总是与他们的因果语义一致。我们证明,对于SCM一般,这些属性中的每一个都在某些可加工条件下保持。我们的工作概括了SCM的结果,迄今为止仅针对某些特殊情况所知的周期。我们介绍了将循环循环设置扩展到循环设置的简单SCM的类,同时保留了许多方便的无环SCM的性能。用本文,我们的目标是为SCM提供统计因果建模的一般理论的基础。
translated by 谷歌翻译
D分隔标准通过某些条件独立性检测到关节概率分布与定向无环图的兼容性。在这项工作中,我们通过引入因果模型的分类定义,D分隔的分类概念,并证明了D-Exaration Criterion的抽象版本,从而在分类概率理论的背景下研究了这个问题。这种方法有两个主要好处。首先,分类D分隔是基于拓扑连接的非常直观的标准。其次,我们的结果适用于度量理论概率(具有标准的鲍尔空间),因此提供了与局部和全球马尔可夫属性等效性具有因果关系兼容性的简洁证明。
translated by 谷歌翻译
我们介绍了统计实验的两种新的信息度量,它们概括和包含$ \ phi $ -diverences,积分概率指标,$ \ mathfrak {n} $ - distances(mmd)和$(f,\ gamma)$ divergences $ divergences在两个或多个分布之间。这使我们能够在信息的度量与统计决策问题的贝叶斯风险之间得出简单的几何关系,从而将变异的$ \ phi $ -divergence代表扩展到多个分布,以完全对称的方式。在马尔可夫运营商的行动下,新的分歧家庭被关闭,该家族产生了信息处理平等,这是经典数据处理不平等的完善和概括。这种平等使人深入了解假设类别在经典风险最小化中的重要性。
translated by 谷歌翻译
ALChour \“Ardenfors的AGM发布,Makinson继续代表与信仰变革有关的研究中的基石。Katsuno和Mendelzon(K&M)通过了AGM假设改变信仰基地,并在命题中的特征agm信仰基地修订有限签名的逻辑。我们概括了K&M在任意Tarskian逻辑中设置的(多个)基本修订版的方法,涵盖了具有经典模型 - 理论语义的所有逻辑,从而涵盖了知识表示和超越的各种逻辑。我们的通用配方适用于“基础”的各种概念(例如信仰集,任意或有限的句子或单句话)。核心结果是表示AGM基本修订运算符和某些“分配”之间双向对应的表示定理:函数映射信仰基础到总数 - 尚未传递 - “偏好”解释之间的关系。与此同时,我们为CAS提供了一个伴侣E当agm andodatience的AGM假设被遗弃时。我们还提供了所有逻辑的表征,我们的结果可以加强生产传递偏好关系的分配(如K&M的原始工作),根据语法依赖与独立性,引起了这种逻辑的两个表示定理。
translated by 谷歌翻译