智能论文笔记

PAC-Learning Uniform Ergodic Communicative Networks

Yihan He

分类： (统计)机器学习 | 机器学习

2021-11-21

这项工作解决了通过顶点之间的通信学习网络的问题。顶点之间的通信以扰动对测量的形式呈现。我们研究了从均匀ergodic随机图工艺（简称RGPS的RGPS）中汲取样本的场景，这为感兴趣的问题提供了自然的数学上下文。对于二进制分类问题，我们获得的结果使统一的学习能力作为最坏情况的理论限制。我们介绍了结构改造的复杂性，它自然地融合到VC理论中，以至于第一刻。凭借Martingale方法和Marton的耦合，我们建立了统一收敛的尾部，并为经验风险最小化提供了一致性保证。在这项工作中使用的技术来获得高概率界限对于具有和没有网络结构的其他混合过程是独立的兴趣。

translated by 谷歌翻译

Multi-fidelity Stability for Graph Representation Learning

Yihan He , Joan Bruna

分类：机器学习

2021-11-25

在具有图形表示学习的结构预测的问题（GRL短路）的问题中，算法返回的假设将目标顶点的\ EMPH {接收字段}的一组特征映射到其标签。为了了解这些算法的可读性，我们介绍了较弱的均匀稳定性形式，称为\ emph {多保真稳定性}，并为弱依赖性图形提供学习保证。我们在接收场稀疏时，在对单个样品的泛化上索取的〜\ CiteT {London2016Stability}的索赔。此外，我们研究了两个流行算法的稳定性诱导：\ TextBF {（1）}在凸面和非凸景观下的随机梯度下降。在该示例中，我们提供了非渐近界，其高度依赖于由算法构建的接收场的稀疏性。 \ TextBF {（2）} 1层线性等级GNN上的约束回归问题。在这个例子中，我们为两种类型的稳定性之间的差异呈现了下限，这使得多保真设计证明了这两种类型的稳定性。

translated by 谷歌翻译

Probabilistically Robust PAC Learning

VInod Raman , Unique Subedi , Ambuj Tewari

分类：机器学习 | (统计)机器学习

2022-11-10

Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.

translated by 谷歌翻译

Three rates of convergence or separation via U-statistics in a dependent framework

Quentin Duchemin , Yohann De Castro , Claire Lacour

分类： (统计)机器学习

2021-06-24

尽管U统计量在现代概率和统计学中存在着无处不在的，但其在依赖框架中的非反应分析可能被忽略了。在最近的一项工作中，已经证明了对统一的马尔可夫链的U级统计数据的新浓度不平等。在本文中，我们通过在三个不同的研究领域中进一步推动了当前知识状态，将这一理论突破付诸实践。首先，我们为使用MCMC方法估算痕量类积分运算符光谱的新指数不平等。新颖的是，这种结果适用于具有正征和负征值的内核，据我们所知，这是新的。此外，我们研究了使用成对损失函数和马尔可夫链样品的在线算法的概括性能。我们通过展示如何从任何在线学习者产生的假设序列中提取低风险假设来提供在线到批量转换结果。我们最终对马尔可夫链的不变度度量的密度进行了拟合优度测试的非反应分析。我们确定了一些类别的替代方案，基于$ L_2 $距离的测试具有规定的功率。

translated by 谷歌翻译

Robust Linear Predictions: Analyses of Uniform Concentration, Fast Rates and Model Misspecification

Saptarshi Chakraborty , Debolina Paul , Swagatam Das

分类： (统计)机器学习 | 机器学习

2022-01-06

在漂亮的广义框架下，过去的世纪已经广泛研究了线性预测问题。强大的统计文献中的最新进展允许我们通过手工（MOM）中位数的棱镜分析古典线性模型的强大版本。以零碎的方式结合这些方法可能导致临时程序，以及限制每个个人捐款的受限制理论结论可能不再有效。为了完全应对这些挑战，在这项研究中，我们提供了一个统一的强大框架，包括在希尔伯特空间上具有广泛的线性预测问题，与通用丢失功能相结合。值得注意的是，我们不需要对偏远数据点的分布（$ \ mathcal {o} $）的任何假设，也不需要依赖于依赖的支持的紧凑性（$ \ mathcal {i} $）。在双规范的温和条件下，我们展示了用于拼盘级别$ \ epsilon $，这些估算器达到$ O（\ max \ left \ {| \ mathcal {o} | ^ {1/2} n ^ {-1/2}，| \ mathcal {i} | ^ {1/2} n ^ {-1} n ^ { - 1} \ rick \} + \ epsilon）$，匹配文献中最着名的速率。此速率比$ O的经典速率略慢（n ^ { - 1/2}）$，表明我们需要在错误率方面支付价格以获得强大的估计。此外，我们表明，在额外的假设下，可以提高该速率以实现所谓的“快速速率”。

translated by 谷歌翻译

Expected Worst Case Regret via Stochastic Sequential Covering

Changlong Wu , Mohsen Heidari , Ananth Grama , Wojciech Szpankowski

分类：机器学习

2022-09-09

我们研究了顺序预测和在线minimax遗憾的问题，并在一般损失函数下具有随机生成的特征。我们介绍了一个预期的最坏情况下的概念minimax遗憾，它概括并涵盖了先前已知的minimax遗憾。对于这种极匹马的遗憾，我们通过随机全局顺序覆盖的新颖概念建立了紧密的上限。我们表明，对于VC-Dimension $ \ Mathsf {Vc} $和$ I.I.D. $生成的长度$ t $的假设类别，随机全局顺序覆盖的基数可以在上限上限制高概率（WHP） e^{o（\ mathsf {vc} \ cdot \ log^2 t）} $。然后，我们通过引入一种称为Star-Littlestone维度的新复杂度度量来改善这种束缚，并显示与Star-Littlestone dimension $ \ Mathsf {Slsf {sl} $类别的类别允许订单的随机全局顺序覆盖$ e^{o（\ Mathsf） {sl} \ cdot \ log t）} $。我们进一步建立了具有有限脂肪的数字的真实有价值类的上限。最后，通过应用固定设计的Minimax遗憾的信息理论工具，我们为预期的最坏情况下的Minimax遗憾提供了下限。我们通过在预期的最坏情况下对对数损失和一般可混合损失的遗憾建立紧密的界限来证明我们的方法的有效性。

translated by 谷歌翻译

User-friendly introduction to PAC-Bayes bounds

Pierre Alquier

分类： (统计)机器学习 | 机器学习

2021-10-21

通过使一组基本预测因素投票根据一些权重，即对某些概率分布来获得聚合预测器。根据一些规定的概率分布，通过在一组基本预测器中采样来获得随机预测器。因此，聚合和随机预测器的共同之处包括最小化问题，而是通过对预测器集的概率分布来定义。在统计学习理论中，有一套工具旨在了解此类程序的泛化能力：Pac-Bayesian或Pac-Bayes界。由于D. Mcallester的原始Pac-Bayes界，这些工具在许多方向上得到了大大改善（例如，我们将描述社区错过的O. Catoni的定位技术的简化版本，后来被重新发现“相互信息界“）。最近，Pac-Bayes的界限受到相当大的关注：例如，在2017年的Pac-Bayes上有研讨会，“（几乎）50种贝叶斯学习：Pac-Bayesian趋势和见解”，由B. Guedj，F组织。。巴赫和P.Merain。这一最近成功的原因之一是通过G. Dziugaite和D. Roy成功地将这些限制应用于神经网络。对Pac-Bayes理论的初步介绍仍然缺失。这是一种尝试提供这样的介绍。

translated by 谷歌翻译

Risk-Monotonicity in Statistical Learning

Zakaria Mhammedi

分类：机器学习 | (统计)机器学习

2020-11-28

收购数据是机器学习的许多应用中的一项艰巨任务，只有一个人希望并且预期人口风险在单调上汇率增加（更好的性能）。事实证明，甚至对于最小化经验风险的最大限度的算法，甚至不令人惊讶的情况。在训练中的风险和不稳定的非单调行为表现出并出现在双重血统描述中的流行深度学习范式中。这些问题突出了目前对学习算法和泛化的理解缺乏了解。因此，追求这种行为的表征是至关重要的，这是至关重要的。在本文中，我们在弱假设下获得了一致和风险的单调算法，从而解决了一个打开问题Viering等。 2019关于如何避免风险曲线的非单调行为。我们进一步表明，风险单调性不一定以更糟糕的风险率的价格出现。为实现这一目标，我们推出了持有某些非I.I.D的独立利益的新经验伯恩斯坦的浓度不等式。鞅差异序列等进程。

translated by 谷歌翻译

Improved Generalization Bounds for Adversarially Robust Learning

Idan Attias , Aryeh Kontorovich , Yishay Mansour

分类：机器学习 | (统计)机器学习

2018-10-04

我们考虑在对抗环境中的强大学习模型。学习者获得未腐败的培训数据，并访问可能受到测试期间对手影响的可能腐败。学习者的目标是建立一个强大的分类器，该分类器将在未来的对抗示例中进行测试。每个输入的对手仅限于$ k $可能的损坏。我们将学习者 - 对手互动建模为零和游戏。该模型与Schmidt等人的对抗示例模型密切相关。（2018）; Madry等。（2017）。我们的主要结果包括对二进制和多类分类的概括界限，以及实现的情况（回归）。对于二元分类设置，我们都拧紧Feige等人的概括。（2015年），也能够处理无限假设类别。样本复杂度从$ o（\ frac {1} {\ epsilon^4} \ log（\ frac {| h |} {\ delta}）$ to $ o \ big（\ frac {1} { epsilon^2}（kvc（h）\ log^{\ frac {3} {2}+\ alpha}（kvc（h））+\ log（\ frac {1} {\ delta} {\ delta}）\ big）\ big）\ big）$ for任何$ \ alpha> 0 $。此外，我们将算法和概括从二进制限制到多类和真实价值的案例。一路上，我们获得了脂肪震惊的尺寸和$ k $ fold的脂肪的尺寸和Rademacher复杂性的结果最大值的功能类别；这些可能具有独立的兴趣。对于二进制分类，Feige等人（2015年）使用遗憾的最小化算法和Erm Oracle作为黑匣子；我们适应了多类和回归设置。该算法为我们提供了给定培训样本中的球员的近乎最佳政策。

translated by 谷歌翻译

Generalization Bounds in the Predict-then-Optimize Framework

Othman El Balghiti , Adam N. Elmachtoub , Paul Grigas , Ambuj Tewari

分类：机器学习 | (统计)机器学习

2019-05-27

预测到优化的框架在许多实际设置中都是基础：预测优化问题的未知参数，然后使用参数的预测值解决该问题。与参数的预测误差相反，在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas（2022）中引入了此损失函数，并被称为智能预测 - 优化（SPO）损失。在这项工作中，我们试图提供有关在SPO损失的背景下，预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz，因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限，在多面体可行区域中，在极端点数中最大程度地比对数扩展，但是，在一般凸的可行区域中，对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性，我们将其表示为强度属性，我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润，这些预测不会产生独特的最佳解决方案，然后在修改后的利润率SPO损失函数的背景下提供了概括界限，而SPO损失函数是Lipschitz的连续。最后，我们表征了强度特性，并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。

translated by 谷歌翻译

Error Bound of Empirical $\ell_2$ Risk Minimization for Noisy Standard and Generalized Phase Retrieval Problems

Junren Chen , Michael K. Ng

分类： (统计)机器学习 | 机器学习

2022-05-27

在本文中，我们研究了经验$ \ ell_2 $最小化（erm）的估计性能（标准）阶段检索（NPR），由$ y_k = | \ alpha_k^*x_0 |^2+\ eta_k $，或嘈杂的广义阶段检索（NGPR）以$ y_k = x_0^*a_kx_0 + \ eta_k $，其中$ x_0 \ in \ mathbb {k}^d $是所需的信号，$ n $是样本大小，$ \ eta =（\ eta_1，...，\ eta_n）^\ top $是噪声向量。我们在不同的噪声模式下建立了新的错误界限，我们的证明对$ \ mathbb {k} = \ mathbb {r} $和$ \ mathbb {k} = \ mathbb {c} $有效。在任意噪声向量$ \ eta $下的NPR中，我们得出了一个新的错误$ o \ big（\ | \ eta \ | _ \ | _ \ infty \ sqrt {\ frac {d} {1}^\ top \ eta |} {n} \ big）$，它比当前已知的一个$ o \ big（\ frac {\ | \ eTa \ |} {\ sqrt {\ sqrt {n}} \ big big ）$在许多情况下。在NGPR中，我们显示了$ o \ big（\ | \ eta \ | \ frac {\ sqrt {d}}} {n} {n} \ big）$ for nutary $ \ eta $。在这两个问题上，任意噪声的范围立即引起$ \ tilde {o}（\ sqrt {\ frac {d} {n}}}}）$，用于次高斯或次指数随机噪声，带有一些常规但不可吻的去除或削弱的假设（例如，独立或均值均值的条件）。此外，我们首次尝试在假定$ l $ -th时刻的重尾随机噪声下进行ERM。为了实现偏见和差异之间的权衡，我们截断了响应并提出了相应的稳健ERM估计器，该估计量具有保证$ \ tilde {o} \ big（\ big [\ sqrt {\ frac {\ frac {d}） {n}} \ big]^{1-1/l} \ big）$在NPR，NGPR中。所有错误都直接扩展到等级$ r $矩阵恢复的更普遍的问题，这些结果得出的结论是，全级框架$ \ {a_k \} _ {k = 1}^n $ in ngpr是比级别1帧$ \ {\ alpha_k \ alpha_k^*\} _ {k = 1}^n $在npr中更强大。提出了广泛的实验结果，以说明我们的理论发现。

translated by 谷歌翻译

Towards a Unified Information-Theoretic Framework for Generalization

Mahdi Haghifam , Gintare Karolina Dziugaite , Shay Moran , Daniel M. Roy

分类：机器学习 | (统计)机器学习

2021-11-09

在这项工作中，我们调查了Steinke和Zakynthinou（2020）的“条件互信息”（CMI）框架的表现力，以及使用它来提供统一框架，用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎（但是次优）界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用，显示稳定的压缩方案Bousquet al。（2020）尺寸$ k $有统一有限的命令$ o（k）$。我们进一步表明，适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在，并且它意味着对Steinke和Zakynthinou（2020）的开放问题的负面分辨率。我们进一步研究了价值最低限度（ERMS）的CMI的级别$ H $，并表明，如果才能使用有界CMI输出所有一致的分类器（版本空间），只有在$ H $具有有界的星号（Hanneke和杨（2015）））。此外，我们证明了一般性的减少，表明“休假”分析通过CMI框架表示。作为推论，我们研究了Haussler等人提出的一包图算法的CMI。（1994）。更一般地说，我们表明CMI框架是通用的，因为对于每一项一致的算法和数据分布，当且仅当其评估的CMI具有样品的载位增长时，预期的风险就会消失。

translated by 谷歌翻译

Supermodular $\mf$-divergences and bounds on lossy compression and generalization error with mutual $\mf$-information

Saeed Masiha , Amin Gohari , Mohammad Hossein Yassaee

分类：机器学习

2022-06-21

在本文中，我们介绍了超模块化$ \ mf $ -Diverences，并为它们提供了三个应用程序：（i）我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫（Sanov）严格改善了普通的界限，（ii）我们考虑了有损耗的压缩问题，该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数，并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的，严格的更好的界限，并且（iii）我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限，该函数（对于某些示例）严格改善了以前最著名的界限。此外，使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。

translated by 谷歌翻译

An Information-Theoretic Analysis for Transfer Learning: Error Bounds and Applications

Xuetong Wu , Jonathan H. Manton , Uwe Aickelin , Jingge Zhu

分类：机器学习

2022-07-12

转移学习或域适应性与机器学习问题有关，在这些问题中，培训和测试数据可能来自可能不同的概率分布。在这项工作中，我们在Russo和Xu发起的一系列工作之后，就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明，也许正如预期的那样，kullback-leibler（kl）Divergence $ d（\ mu || \ mu'）$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言，我们为经验风险最小化（ERM）算法提供了概括误差上限，其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法，例如Gibbs算法和随机梯度下降方法。然后，我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围，并且在$ \ mu $相对于$ \ mu' $的情况下，可以处理案例。此外，我们应用了一套新的技术来获得替代的上限，该界限为某些学习问题提供了快速（最佳）的学习率。最后，受到派生界限的启发，我们提出了Infoboost算法，其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。

translated by 谷歌翻译

Robust Batch Policy Learning in Markov Decision Processes

Zhengling Qi , Peng Liao

分类：机器学习 | (统计)机器学习

2020-11-09

我们研究马尔可夫决策过程（MDP）框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性，我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集，我们的目标是在预先指定的策略类中学习一个强大的策略，可以最大化此集的最小值。利用半参数统计的理论，我们开发了一种统计上有效的策略学习方法，用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。

translated by 谷歌翻译

An improper estimator with optimal excess risk in misspecified density estimation and logistic regression

Jaouad Mourtada , Stéphane Gaïffas

分类：机器学习 | (统计)机器学习

2019-12-23

我们在对数损失下引入条件密度估计的过程，我们调用SMP（样本Minmax预测器）。该估算器最大限度地减少了统计学习的新一般过度风险。在标准示例中，此绑定量表为$ d / n $，$ d $ d $模型维度和$ n $ sample大小，并在模型拼写条目下批判性仍然有效。作为一个不当（超出型号）的程序，SMP在模型内估算器（如最大似然估计）的内部估算器上，其风险过高的风险降低。相比，与顺序问题的方法相比，我们的界限删除了SubOltimal $ \ log n $因子，可以处理无限的类。对于高斯线性模型，SMP的预测和风险受到协变量的杠杆分数，几乎匹配了在没有条件的线性模型的噪声方差或近似误差的条件下匹配的最佳风险。对于Logistic回归，SMP提供了一种非贝叶斯方法来校准依赖于虚拟样本的概率预测，并且可以通过解决两个逻辑回归来计算。它达到了$ O的非渐近风险（（d + b ^ 2r ^ 2）/ n）$，其中$ r $绑定了特征的规范和比较参数的$ B $。相比之下，在模型内估计器内没有比$ \ min达到更好的速率（{b r} / {\ sqrt {n}}，{d e ^ {br} / {n}）$。这为贝叶斯方法提供了更实用的替代方法，这需要近似的后部采样，从而部分地解决了Foster等人提出的问题。（2018）。

translated by 谷歌翻译

Learning to Optimize Via Posterior Sampling

Daniel Russo , Benjamin Van Roy

分类：

2013-01-11

Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.

translated by 谷歌翻译

Stability and Deviation Optimal Risk Bounds with Convergence Rate $O(1/n)$

Yegor Klochkov , Nikita Zhivotovskiy

分类：机器学习

2021-03-22

最尖锐的已知高概率泛化界限均匀稳定的算法（Feldman，Vondr \'{A} K，2018,2010），（Bousquet，Klochkov，Jhivotovskiy，2020）包含一般不可避免的采样误差术语，订单$ \ Theta（1 / \ sqrt {n}）$。当应用于过度的风险范围时，这导致次优导致在几个标准随机凸优化问题中。我们表明，如果满足所谓的伯尔斯坦状况，则可以避免术语$ \θ（1 / \ sqrt {n}）$，并且高达$ o（1 / n）$的高概率过剩风险范围通过均匀的稳定性是可能的。使用此结果，我们展示了高概率过度的风险，其速率为O $ O（\ log n / n）$的强大凸，Lipschitz损失为\ emph {任何}经验风险最小化方法。这解决了Shalev-Shwartz，Shamir，Srebro和Sridharan（2009）的问题。我们讨论如何（\ log n / n）$高概率过度风险缩小，在没有通常的平滑度的情况下强烈凸起和嘴唇损耗的情况下，可能的梯度下降可能是可能的。

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems

Yahya Sattar , Samet Oymak

分类：机器学习 | (统计)机器学习

2020-02-20

我们考虑由非线性状态等式$ H_ {T + 1} = \ phi（h_t，u_t; \ theta）+ w_t $ toy的稳定系统的问题问题。在这里$ \ theta $是未知的系统动态，$ h_t $是状态，$ u_t $是输入，$ w_t $是附加噪音矢量。我们研究了基于梯度的算法，以了解从单个有限轨迹所获得的样本的系统动态$ \ theta $。如果系统通过稳定输入策略运行，我们表明可以通过I.i.d近似时间依赖的样本。使用混合时间参数通过截断参数示例。然后，我们为经验损失梯度的均匀收敛性开发新的保证。与现有的工作不同，我们的界限是噪声敏感，允许高精度和小样本复杂度学习地面真实动态。我们的结果在一起，促进了稳定政策下的一般非线性系统的高效学习。我们专注于进入明智的非线性激活的保证，并在各种数值实验中验证我们的理论

translated by 谷歌翻译