我们考虑通过复制内核希尔伯特空间的相关协方差操作员对概率分布进行分析。我们表明,冯·诺伊曼(Von Neumann)的熵和这些操作员的相对熵与香农熵和相对熵的通常概念密切相关,并具有许多特性。它们与来自概率分布的各种口径的有效估计算法结合在一起。我们还考虑了产品空间,并表明对于张量产品内核,我们可以定义互信息和联合熵的概念,然后可以完美地表征独立性,但只能部分条件独立。我们最终展示了这些新的相对熵概念如何导致对数分区函数的新上限,这些函数可以与变异推理方法中的凸优化一起使用,从而提供了新的概率推理方法家族。
translated by 谷歌翻译
我们考虑了香农相对熵的扩展,称为F-Diverence。通常与这些差异相关的三个经典计算问题:(a)从矩,(b)计算归一化积分的估计,以及(c)概率模型中的变异推断。这些问题是通过凸双重性相互关联的,对于所有这些问题,在整个数据科学中都有许多应用程序,我们旨在实现可在计算上可触及的近似算法,以保留原始问题的性质,例如潜在的凸度或单调性。为了实现这一目标,我们得出了一系列凸松弛序列,用于计算与给定特征向量相关的非中心协方差矩阵这些差异:从典型的最佳最佳下限开始,我们考虑基于基于'的额外弛豫。现在可以在多项式时间内作为半决赛程序进行计算,以及基于量子信息理论的频谱信息差异的进一步计算更有效的放松。对于上述所有任务,除了提出新的放松外,我们还基于增强的Lagrangian和一阶方法得出可拖动算法,并且我们介绍了有关Boolean Hypercube上多元三角多项式和功能的插图。
translated by 谷歌翻译
We consider neural networks with a single hidden layer and non-decreasing positively homogeneous activation functions like the rectified linear units. By letting the number of hidden units grow unbounded and using classical non-Euclidean regularization tools on the output weights, they lead to a convex optimization problem and we provide a detailed theoretical analysis of their generalization performance, with a study of both the approximation and the estimation errors. We show in particular that they are adaptive to unknown underlying linear structures, such as the dependence on the projection of the input variables onto a low-dimensional subspace. Moreover, when using sparsity-inducing norms on the input weights, we show that high-dimensional non-linear variable selection may be achieved, without any strong assumption regarding the data and with a total number of variables potentially exponential in the number of observations. However, solving this convex optimization problem in infinite dimensions is only possible if the non-convex subproblem of addition of a new unit can be solved efficiently. We provide a simple geometric interpretation for our choice of activation functions and describe simple conditions for convex relaxations of the finite-dimensional non-convex subproblem to achieve the same generalization error bounds, even when constant-factor approximations cannot be found. We were not able to find strong enough convex relaxations to obtain provably polynomial-time algorithms and leave open the existence or non-existence of such tractable algorithms with non-exponential sample complexities.
translated by 谷歌翻译
我们研究了非参数脊的最小二乘的学习属性。特别是,我们考虑常见的估计人的估计案例,由比例依赖性内核定义,并专注于规模的作用。这些估计器内插数据,可以显示规模来通过条件号控制其稳定性。我们的分析表明,这是不同的制度,具体取决于样本大小,其尺寸与问题的平滑度之间的相互作用。实际上,当样本大小小于数据维度中的指数时,可以选择比例,以便学习错误减少。随着样本尺寸变大,总体错误停止减小但有趣地可以选择规模,使得噪声引起的差异仍然存在界线。我们的分析结合了概率,具有来自插值理论的许多分析技术。
translated by 谷歌翻译
在这项工作中,我们通过alpha log-determinant(log-det)在两个不同的环境中的Hilbert-schmidt操作员之间的alpha log-determinant(log-det)差异介绍了正式化的kullback-leibler和r \'enyi的分歧(log-det)差异以及在繁殖内核希尔伯特空间(RKHS)上定义的高斯措施; (ii)具有平方的可集成样品路径的高斯工艺。对于特征性内核,第一个设置导致在完整的,可分开的度量空间上进行任意borel概率度量之间的差异。我们表明,Hilbert-Schmidt Norm中的Alpha Log-Det差异是连续的,这使我们能够将大量定律应用于希尔伯特太空值的随机变量。因此,我们表明,在这两种情况下,都可以使用有限的依赖性gram矩阵/高斯措施和有限的样本数据来始终如一地从其有限维版本中始终有效地估算其有限差异版本在所有情况下,无独立的}样品复杂性。 RKHS方法论在两种情况下的理论分析中都起着核心作用。数值实验说明了数学公式。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译
内核方法是强大的学习方法,允许执行非线性数据分析。尽管它们很受欢迎,但在大数据方案中,它们的可伸缩性差。已经提出了各种近似方法,包括随机特征近似,以减轻问题。但是,除了内核脊回归外,大多数这些近似内核方法的统计一致性尚不清楚,其中已证明随机特征近似不仅在计算上有效,而且在统计上与最小值最佳收敛速率一致。在本文中,我们通过研究近似KPCA的计算和统计行为之间的权衡,研究了内核主成分分析(KPCA)中随机特征近似的功效。我们表明,与KPCA相比,与KPCA相比,与KPCA相比,近似KPCA在与基于内核函数基于其对相应的特征面积的投影相关的误差方面是有效的。该分析取决于伯恩斯坦类型的不平等现象,对自我偶和式希尔伯特·史克米特(Hilbert-Schmidt)操作员价值u统计量的运营商和希尔伯特·史克米特(Hilbert-Schmidt)规范取决于独立利益。
translated by 谷歌翻译
内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
找到模型概率密度的好方法是概率推断的关键。理想的模型应该能够简单地近似于概率,同时也与两个主要操作兼容:两个模型(产品规则)的乘法和相对于随机变量的子集(SUM规则)的边缘化。在这项工作中,我们表明最近提出的非负函数的正半明确(PSD)模型特别适用于此。特别是,我们表征了PSD模型的近似和泛化能力,显示它们享有强烈的理论保证。此外,我们表明我们可以通过矩阵操作以封闭形式的封闭形式有效地执行和产品规则,享受混合模型的相同多功能性。我们的结果为PSD模型应用于密度估计,决策理论和推理的方式开辟了途径。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
切成薄片的相互信息(SMI)定义为在随机变量的一维随机投影之间的平均值(MI)项。它是对经典MI依赖的替代度量,该量子保留了许多特性,但更可扩展到高维度。但是,对SMI本身和其估计率的定量表征取决于环境维度,这对于理解可伸缩性至关重要,仍然晦涩难懂。这项工作将原始的SMI定义扩展到$ K $ -SMI,该定义将预测视为$ k $维二维子空间,并提供了有关其依赖性尺寸的多方面帐户。在2-Wasserstein指标中使用差分熵连续性的新结果,我们对Monte Carlo(MC)基于$ K $ -SMI的估计的错误得出了尖锐的界限,并明确依赖于$ K $和环境维度,揭示了他们与样品数量的相互作用。然后,我们将MC Integrator与神经估计框架相结合,以提供端到端$ K $ -SMI估算器,为此建立了最佳的收敛率。随着尺寸的增长,我们还探索了人口$ k $ -smi的渐近学,从而为高斯近似结果提供了在适当的力矩范围下衰减的残差。我们的理论通过数值实验验证,并适用于切片Infogan,该切片完全提供了$ k $ -smi的可伸缩性问题的全面定量说明,包括SMI作为特殊情况,当$ k = 1 $。
translated by 谷歌翻译
在机器学习或统计中,通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法,其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明,与光谱嵌入方法相比,该嵌入方法对异常值的影响更加稳健。
translated by 谷歌翻译
我们解决了条件平均嵌入(CME)的内核脊回归估算的一致性,这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望,并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置,其中目标CME位于Hilbert-Schmidt操作员的空间中,该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构,我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明,我们的费率与最佳$ o(\ log n / n)$速率匹配,而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限,这表明所获得的上限是最佳的。
translated by 谷歌翻译
We develop and analyze M -estimation methods for divergence functionals and the likelihood ratios of two probability distributions. Our method is based on a non-asymptotic variational characterization of f -divergences, which allows the problem of estimating divergences to be tackled via convex empirical risk optimization. The resulting estimators are simple to implement, requiring only the solution of standard convex programs. We present an analysis of consistency and convergence for these estimators. Given conditions only on the ratios of densities, we show that our estimators can achieve optimal minimax rates for the likelihood ratio and the divergence functionals in certain regimes. We derive an efficient optimization algorithm for computing our estimates, and illustrate their convergence behavior and practical viability by simulations. 1
translated by 谷歌翻译
确定点过程(DPP)是排斥点模式的统计模型。取样和推理都是DPPS的易用,这是具有负依赖性的模型中的罕见特征,解释了他们在机器学习和空间统计中的普及。已经在有限情况下提出了参数和非参数推断方法,即当点模式生活在有限的地面集中时。在连续的情况下,只有研究参数方法,而DPPS的非参数最大可能性 - 追踪课程运算符的优化问题 - 仍然是一个打开的问题。在本文中,我们表明,这种最大可能性(MLE)问题的受限制版本落入了RKHS中的非负面函数的最新代表定理的范围内。这导致有限的尺寸问题,具有强大的统计关系到原始MLE。此外,我们提出,分析,并展示了解决这个有限尺寸问题的定点算法。最后,我们还提供了对DPP的相关核的受控估计,从而提供更多的解释性。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
最大平均差异(MMD)(例如内核Stein差异(KSD))已成为广泛应用的中心,包括假设测试,采样器选择,分布近似和变异推断。在每种情况下,这些基于内核的差异度量都需要(i)(i)将目标p与其他概率度量分开,甚至(ii)控制弱收敛到P。在本文中,我们得出了新的足够和必要的条件,以确保(i) (ii)。对于可分开的度量空间上的MMD,我们表征了那些将BOCHNER嵌入量度分开的内核,并引入了简单条件,以将所有措施用无限的内核分开,并控制与有界内核的收敛。我们在$ \ mathbb {r}^d $上使用这些结果来实质性地扩大了KSD分离和收敛控制的已知条件,并开发了已知的第一个KSD,以恰好将弱收敛到P。我们的假设检验,测量和改善样本质量以及用Stein变异梯度下降进行抽样的结果。
translated by 谷歌翻译