智能论文笔记

Optimal Learning Rates for Regularized Least-Squares with a Fourier Capacity Condition

Prem Talwai , David Simchi-Levi

分类： (统计)机器学习

2022-04-16

我们为在一般来源条件下的希尔伯特量表中的新型Tikhonov登记学习问题提供了最小的自适应率。我们的分析不需要在假设类中包含回归函数，并且最著名的是不使用传统的\ textit {先验{先验}假设。使用插值理论，我们证明了Mercer运算符的光谱可以在存在“紧密''$ l^{\ infty} $嵌入的存在的情况下，可以推断出合适的Hilbert鳞片的嵌入。我们的分析利用了新的傅立叶能力条件在某些参数制度中，修改后的Mercer运算符的最佳Lorentz范围空间。

translated by 谷歌翻译

Optimal Rates for Regularized Conditional Mean Embedding Learning

Zhu Li , Dimitri Meunier , Mattes Mollenhauer , Arthur Gretton

分类： (统计)机器学习 | 机器学习

2022-08-02

我们解决了条件平均嵌入（CME）的内核脊回归估算的一致性，这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望，并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置，其中目标CME位于Hilbert-Schmidt操作员的空间中，该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构，我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明，我们的费率与最佳$ o（\ log n / n）$速率匹配，而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限，这表明所获得的上限是最佳的。

translated by 谷歌翻译

Interpolation and Learning with Scale Dependent Kernels

Nicolò Pagliana , Alessandro Rudi , Ernesto De Vito , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2020-06-17

我们研究了非参数脊的最小二乘的学习属性。特别是，我们考虑常见的估计人的估计案例，由比例依赖性内核定义，并专注于规模的作用。这些估计器内插数据，可以显示规模来通过条件号控制其稳定性。我们的分析表明，这是不同的制度，具体取决于样本大小，其尺寸与问题的平滑度之间的相互作用。实际上，当样本大小小于数据维度中的指数时，可以选择比例，以便学习错误减少。随着样本尺寸变大，总体错误停止减小但有趣地可以选择规模，使得噪声引起的差异仍然存在界线。我们的分析结合了概率，具有来自插值理论的许多分析技术。

translated by 谷歌翻译

Coefficient-based Regularized Distribution Regression

Yuan Mao , Lei Shi , Zheng-Chu Guo

分类： (统计)机器学习 | 机器学习

2022-08-26

在本文中，我们考虑了基于系数的正则分布回归，该回归旨在从概率措施中回归到复制的内核希尔伯特空间（RKHS）的实现响应（RKHS），该响应将正则化放在系数上，而内核被假定为无限期的。。该算法涉及两个采样阶段，第一阶段样本由分布组成，第二阶段样品是从这些分布中获得的。全面研究了回归函数的不同规律性范围内算法的渐近行为，并通过整体操作员技术得出学习率。我们在某些温和条件下获得最佳速率，这与单级采样的最小最佳速率相匹配。与文献中分布回归的内核方法相比，所考虑的算法不需要内核是对称的和阳性的半明确仪，因此为设计不确定的内核方法提供了一个简单的范式，从而丰富了分布回归的主题。据我们所知，这是使用不确定核进行分配回归的第一个结果，我们的算法可以改善饱和效果。

translated by 谷歌翻译

HTML版本

Optimal Rates for Spectral Algorithms with Least-Squares Regression over Hilbert Spaces

Junhong Lin , Alessandro Rudi , Lorenzo Rosasco , Volkan Cevher

分类： (统计)机器学习 | 机器学习

2018-01-20

在本文中，我们研究了可分离的希尔伯特空间的回归问题，并涵盖了繁殖核希尔伯特空间的非参数回归。我们研究了一类光谱/正则化算法，包括脊回归，主成分回归和梯度方法。我们证明了最佳，高概率的收敛性在研究算法的规范变体方面，考虑到对假设空间的能力假设以及目标函数的一般源条件。因此，我们以最佳速率获得了几乎确定的收敛结果。我们的结果改善并推广了先前的结果，以填补了无法实现的情况的理论差距。

translated by 谷歌翻译

Spectral Regularized Kernel Two-Sample Tests

Omar Hagrass , Bharath K. Sriperumbudur , Bing Li

分类：机器学习 | (统计)机器学习

2022-12-19

Over the last decade, an approach that has gained a lot of popularity to tackle non-parametric testing problems on general (i.e., non-Euclidean) domains is based on the notion of reproducing kernel Hilbert space (RKHS) embedding of probability distributions. The main goal of our work is to understand the optimality of two-sample tests constructed based on this approach. First, we show that the popular MMD (maximum mean discrepancy) two-sample test is not optimal in terms of the separation boundary measured in Hellinger distance. Second, we propose a modification to the MMD test based on spectral regularization by taking into account the covariance information (which is not captured by the MMD test) and prove the proposed test to be minimax optimal with a smaller separation boundary than that achieved by the MMD test. Third, we propose an adaptive version of the above test which involves a data-driven strategy to choose the regularization parameter and show the adaptive test to be almost minimax optimal up to a logarithmic factor. Moreover, our results hold for the permutation variant of the test where the test threshold is chosen elegantly through the permutation of the samples. Through numerical experiments on synthetic and real-world data, we demonstrate the superior performance of the proposed test in comparison to the MMD test.

translated by 谷歌翻译

Sharp Bounds on the Approximation Rates, Metric Entropy, and $n$-widths of Shallow Neural Networks

Jonathan W. Siegel , Jinchao Xu

分类： (统计)机器学习 | 机器学习

2021-01-29

在本文中，我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具，用于估计这些空间的度量熵，近似率和$ n $宽度。首先，我们介绍了平滑参数化词典的概念，并在非线性近似速率，度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典，并且在许多情况下它们的现有结果改善了。接下来，我们提供了一种方法，用于下限度量熵和$ n $ widths的变化空间，其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率，度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。

translated by 谷歌翻译

Optimal transport map estimation in general function spaces

Vincent Divol , Jonathan Niles-Weed , Aram-Alexandre Pooladian

分类： (统计)机器学习

2022-12-07

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.

translated by 谷歌翻译

On the Estimation of Derivatives Using Plug-in KRR Estimators

Zejian Liu , Meng Li

分类： (统计)机器学习 | 机器学习

2020-06-02

我们研究了估计回归函数的导数的问题，该函数的衍生物具有广泛的应用，作为未知函数的关键非参数功能。标准分析可以定制为特定的衍生订单，参数调整仍然是一个艰巨的挑战，尤其是对于高阶导数。在本文中，我们提出了一个简单的插入式内核脊回归（KRR）估计器，其非参数回归中具有随机设计，该设计广泛适用于多维支持和任意混合派生衍生物。我们提供了非反应分析，以统一的方式研究提出的估计量的行为，该估计量涵盖回归函数及其衍生物，从而在强$ l_ \ infty $ norm中导致一般核类中的一般内核的两个误差范围。在专门针对多个多项式衰减特征值核的具体示例中，提出的估计器将最小值的最佳速率恢复到估计H \ h \ offormions ofergarithmic因子的最佳速率。因此，在任何衍生词的顺序中都选择了调整参数。因此，提出的估计器享受\ textIt {插件属性}的衍生物，因为它会自动适应要估计的衍生物顺序，从而可以轻松地在实践中调整。我们的仿真研究表明，相对于几种现有方法蓝色的几种现有方法的有限样本性能有限，并证实了其最小值最优性的理论发现。

translated by 谷歌翻译

Convex regularization in statistical inverse learning problems

Tatiana A. Bubba , Martin Burger , Tapio Helin , Luca Ratti

分类： (统计)机器学习 | 机器学习

2021-02-18

我们考虑统计逆学习问题，任务是根据$ AF $的嘈杂点评估估算函数$ F $，其中$ a $是一个线性运算符。函数$ AF $在I.I.D评估。随机设计点$ u_n $，$ n = 1，...，n $由未知的一般概率分布生成。我们认为Tikhonov正规用一般凸起和$ P $-Homenecous罚款功能，并在由惩罚功能引起的对称BREGMAN距离中测量的地面真理的正则化解决方案的集中率。我们获得了Besov Norm处罚的具体率，并在数值上展示了与X射线断层扫描的背景下的观察到的率的对应。

translated by 谷歌翻译

Dynamic Pricing and Demand Learning on a Large Network of Products: A PAC-Bayesian Approach

Bora Keskin , David Simchi-Levi , Prem Talwai

分类： (统计)机器学习 | 机器学习

2021-11-01

我们考虑在$ T $期间的时间范围内为卖方提供大量的$ N $产品。卖方不知道产品线性需求模型的参数，可以动态调整产品价格，以了解基于销售观察的需求模型。卖方旨在最大限度地减少其伪心，即相对于了解潜在需求模型的克莱师的预期收入损失。我们考虑产品之间的稀疏需求关系，以表征产品网络的各种连接属性。特别是，我们研究了三个不同的稀疏性框架：（1）$ L_0 $稀疏性，限制网络中的连接数，（2）偏差稀疏性，这会限制跨产品价格敏感性的大小，并（ 3）光谱稀疏性的新概念，其限制网络节点上相似度量的渐近衰减。我们提出了一种动态的定价和学习政策，结合了乐观的乐观情绪，不确定和PAC-Bayesian方法，并表明这一政策在$ N $和$ T $方面实现了渐近最佳性能。我们还表明，在频谱和非对角线稀疏性的情况下，卖方可以在$ N $以$ N $具有伪遗憾的线性，即使网络密集。

translated by 谷歌翻译

Bless and curse of smoothness and phase transitions in nonparametric regressions: a nonasymptotic perspective

Ying Zhu

分类：机器学习

2021-12-07

当回归函数属于标准的平滑类时，由衍生物的单变量函数组成，衍生物到达$（\ gamma + 1）$ th由Action Anclople或Ae界定的常见常数，众所周知，最小的收敛速率均值平均错误（MSE）是$ \左（\ FRAC {\ SIGMA ^ {2}} {n} \右）^ {\ frac {2 \ gamma + 2} {2 \ gamma + 3}} $ \伽玛$是有限的，样本尺寸$ n \ lightarrow \ idty $。从一个不可思议的观点来看，考虑有限$ N $，本文显示：对于旧的H \“较旧的和SoboLev类，最低限度最佳速率是$ \ frac {\ sigma ^ {2} \ left（\ gamma \ vee1 \右）$ \ frac {n} {\ sigma ^ {2}} \ precsim \ left（\ gamma \ vee1 \右）^ {2 \ gamma + 3} $和$ \ left（\ frac {\ sigma ^ {2}} {n} \右）^ {\ frac {2 \ gamma + 2} $ \ r \ frac {n} {\ sigma ^ {2}}} \ succsim \ left（\ gamma \ vee1 \右）^ {2 \ gamma + 3} $。为了建立这些结果，我们在覆盖和覆盖号码上获得上下界限，以获得$ k的广义H \“较旧的班级$ th（$ k = 0，...，\ gamma $）衍生物由上面的参数$ r_ {k} $和$ \ gamma $ th衍生物是$ r _ {\ gamma + 1} - $ lipschitz （以及广义椭圆形的平滑功能）。我们的界限锐化了标准类的古典度量熵结果，并赋予$ \ gamma $和$ r_ {k} $的一般依赖。通过在$ r_ {k} = 1 $以下派生MIMIMAX最佳MSE率，$ r_ {k} \ LEQ \ left（k-1 \右）！$和$ r_ {k} = k！$（与后两个在我们的介绍中有动机的情况）在我们的新熵界的帮助下，我们展示了一些有趣的结果，无法在文献中的现有熵界显示。对于H \“较旧的$ D-$变化函数，我们的结果表明，归一渐近率$ \左（\ frac {\ sigma ^ {2}} {n}右）^ {\ frac {2 \ Gamma + 2} {2 \ Gamma + 2 + D}} $可能是有限样本中的MSE低估。

translated by 谷歌翻译

On the Sample Complexity of Learning under Invariance and Geometric Stability

Alberto Bietti , Luca Venturi , Joan Bruna

分类： (统计)机器学习 | 机器学习

2021-06-14

许多监督的学习问题涉及高维数据，例如图像，文本或图形。为了能够有效地利用数据，它通常有用的是在手头的问题中利用某些几何前瞻，例如与换算，置换子组或稳定性的不变性。通过考虑球体上这些功能的球形谐波分解，我们研究了目标功能提出了这种不变性和稳定性特性的学习问题的样本复杂性。我们提供内核方法的非参数率的收敛速度，并且在与相应的非不变内核相比，在该组上使用不变内核时，通过等于组的大小的因子的提高。当样本大小足够大时，这些改进是有效的，其渐近行为取决于该组的光谱特性。最后，这些增益扩展到不变性组之外，还涵盖小变形的几何稳定性，这里被建模为排列的子集（不一定是子组）。

translated by 谷歌翻译

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2021-03-25

当并非观察到所有混杂因子并获得负面对照时，我们研究因果参数的估计。最近的工作表明，这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中，我们使用阴性对照来应对因果推断的主要挑战：这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件，以识别因果参数并在估计中需要进行独特性假设，并且还集中于桥梁函数的参数估计。相反，我们提供了一种新的识别策略，以避免完整性条件。而且，我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别，例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果，既可以估计桥梁功能本身，又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

Approximate Kernel PCA Using Random Features: Computational vs. Statistical Trade-off

Bharath Sriperumbudur , Nicholas Sterge

分类： (统计)机器学习

2017-06-20

内核方法是强大的学习方法，允许执行非线性数据分析。尽管它们很受欢迎，但在大数据方案中，它们的可伸缩性差。已经提出了各种近似方法，包括随机特征近似，以减轻问题。但是，除了内核脊回归外，大多数这些近似内核方法的统计一致性尚不清楚，其中已证明随机特征近似不仅在计算上有效，而且在统计上与最小值最佳收敛速率一致。在本文中，我们通过研究近似KPCA的计算和统计行为之间的权衡，研究了内核主成分分析（KPCA）中随机特征近似的功效。我们表明，与KPCA相比，与KPCA相比，与KPCA相比，近似KPCA在与基于内核函数基于其对相应的特征面积的投影相关的误差方面是有效的。该分析取决于伯恩斯坦类型的不平等现象，对自我偶和式希尔伯特·史克米特（Hilbert-Schmidt）操作员价值u统计量的运营商和希尔伯特·史克米特（Hilbert-Schmidt）规范取决于独立利益。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Three rates of convergence or separation via U-statistics in a dependent framework

Quentin Duchemin , Yohann De Castro , Claire Lacour

分类： (统计)机器学习

2021-06-24

尽管U统计量在现代概率和统计学中存在着无处不在的，但其在依赖框架中的非反应分析可能被忽略了。在最近的一项工作中，已经证明了对统一的马尔可夫链的U级统计数据的新浓度不平等。在本文中，我们通过在三个不同的研究领域中进一步推动了当前知识状态，将这一理论突破付诸实践。首先，我们为使用MCMC方法估算痕量类积分运算符光谱的新指数不平等。新颖的是，这种结果适用于具有正征和负征值的内核，据我们所知，这是新的。此外，我们研究了使用成对损失函数和马尔可夫链样品的在线算法的概括性能。我们通过展示如何从任何在线学习者产生的假设序列中提取低风险假设来提供在线到批量转换结果。我们最终对马尔可夫链的不变度度量的密度进行了拟合优度测试的非反应分析。我们确定了一些类别的替代方案，基于$ L_2 $距离的测试具有规定的功率。

translated by 谷歌翻译

Spectral Representation Learning for Conditional Moment Models

Ziyu Wang , Yucen Luo , Yueru Li , Jun Zhu , Bernhard Schölkopf

分类： (统计)机器学习 | 机器学习

2022-10-29

Many problems in causal inference and economics can be formulated in the framework of conditional moment models, which characterize the target function through a collection of conditional moment restrictions. For nonparametric conditional moment models, efficient estimation often relies on preimposed conditions on various measures of ill-posedness of the hypothesis space, which are hard to validate when flexible models are used. In this work, we address this issue by proposing a procedure that automatically learns representations with controlled measures of ill-posedness. Our method approximates a linear representation defined by the spectral decomposition of a conditional expectation operator, which can be used for kernelized estimators and is known to facilitate minimax optimal estimation in certain settings. We show this representation can be efficiently estimated from data, and establish L2 consistency for the resulting estimator. We evaluate the proposed method on proximal causal inference tasks, exhibiting promising performance on high-dimensional, semi-synthetic data.

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译