智能论文笔记

Fast Doubly-Adaptive MCMC to Estimate the Gibbs Partition Function with Weak Mixing Time Bounds

Shahrzad Haddadan , Yue Zhuang , Cyrus Cousins , Eli Upfal

分类： (统计)机器学习

2021-11-14

我们提出了一种降低概率图形模型中普遍存在的吉布斯（Boltzmann）分布的分区功能（标准化常数）的计算复杂性的新方法。 Gibbs分布的实际应用的主要障碍是需要估计其分区功能。在解决该问题的情况下，本领域的状态是多级算法，其包括冷却时间表，以及时间表的每个步骤中的平均估计器。虽然这些算法中的冷却时间表是自适应的，但平均估计计算使用MCMC作为黑盒以绘制近似样本。我们开发了一种双重自适应方法，将自适应冷却时间与自适应MCMC平均估计器相结合，其数量的马尔可夫链步骤动态地适应下面的链条。通过严格的理论分析，我们证明了我们的方法在几个因素中优于最新的技术算法：（1）我们方法的计算复杂性较小; （2）我们的方法对混合时间的松散界限敏感，这些算法中的固有组成部分; （3）我们方法获得的改进在高精度估计的最具挑战性方案中特别显着。我们展示了我们在经典因素图中运行的实验中的方法的优势，例如投票模型和ising模型。

translated by 谷歌翻译

Empirical and Instance-Dependent Estimation of Markov Chain and Mixing Time

Geoffrey Wolfer

分类：机器学习 | (统计)机器学习

2019-12-14

我们解决了从单个观测轨迹估算马尔可夫链的混合时间的基本问题。与以前考虑了希尔伯特空间方法来估计光谱差距的作品相反，我们选择了基于收缩的总变异的方法。具体而言，我们根据Dobrushin定义并估算了广义收缩系数。我们表明，与光谱差距不同，该数量可以控制到强烈通用常数的混合时间，并且对于非可逆链仍然有效。我们在系数周围设计了完全依赖数据的置信区间，该系数既比其光谱对应物更易于计算和更薄。此外，我们通过展示如何利用有关过渡矩阵的其他信息来启动超越最坏情况的分析，以便获得有关其相对于诱导统一规范的实例依赖性速率以及其某些混合属性。

translated by 谷歌翻译

Estimating the Mixing Time of Ergodic Markov Chains

Geoffrey Wolfer , Aryeh Kontorovich

分类：机器学习 | (统计)机器学习

2019-02-01

我们解决了估计混合时间的问题$ t _ {\ mathsf {mix}} $从单个长度$ m $的单个轨迹中的任意Ergodic有限状态马尔可夫链的$。 Hsu等人解决了可逆情况。 [2019]，他将一般案件作为一个空旷的问题。在可逆情况下，马尔可夫操作员是自我伴侣的事实，极大地促进了分析，而魏尔的不平等允许对经验特征值进行无维度的扰动分析。如Hsu等。指出，在没有可逆性（引起不对称的对概率矩阵）的情况下，现有的扰动分析对$ D $ $ d $的状态数量的指数依赖性最差。此外，即使可以更好地依赖$ d $的特征值扰动分析，在不可逆的情况下，光谱间隙和混合时间之间的连接也不像可逆情况下那么简单。我们的关键见解是估计伪柔性差距$ \ gamma _ {\ mathsf {ps}}} $，这使我们能够克服对称性的损失并实现对最小的平稳概率$ \ pi_ \ pi_ \ star $ \ star $和$ \ gamma _ {\ mathsf {ps}} $。此外，在可逆情况下，我们在$ t _ {\ Mathsf {mix}} $和precision $ \ varepsilon $中获得几乎同时获得的（取决于对数因素）的最小值，并在HSU等人中缩小了差距，他的差距是$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ varepsilon $在下限中为常数。最后，我们为$ \ gamma _ {\ mathsf {ps}} $构建完全的经验置信区间，它以大约$ 1/\ sqrt {m} $的速度收缩至零案子。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Identity Testing for High-Dimensional Distributions via Entropy Tensorization

Antonio Blanca , Zongchen Chen , Daniel Štefankovič , Eric Vigoda

分类：机器学习

2022-07-19

我们提出了改进的算法，并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中，我们将作为输入作为显式分发$ \ mu $，$ \ varepsilon> 0 $，并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时，众所周知，可能需要许多样本，因此以前的作品已经研究了身份测试，并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文，称为坐标Oracle，并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明，如果一个称为熵的分析属性为可见分布$ \ mu $保留，那么对于任何使用$ \ tilde {o}（n/\ tilde {o}），有一个有效的身份测试算法Varepsilon）$查询坐标Oracle。熵的近似张力是一种经典的工具，用于证明马尔可夫链的最佳混合时间边界用于高维分布，并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega（n/\ varepsilon）$统计下键进行匹配的算法结果补充，以供坐标Oracle下的查询数量。我们还证明了一个计算相变：对于$ \ {+1，-1，-1 \}^n $以上的稀疏抗抗铁磁性模型，在熵失败的近似张力失败的状态下，除非RP = np，否则没有有效的身份测试算法。

translated by 谷歌翻译

Optimal learning of quantum Hamiltonians from high-temperature Gibbs states

Jeongwan Haah , Robin Kothari , Ewin Tang

分类：机器学习

2021-08-10

我们研究了学习哈密顿$ h $ to precision $ \ varepsilon $的问题，假设我们将获得其gibbs state $ \ rho = \ exp（ - \ beta h）/\ operatoratorname {tr}（\ exp（\ exp）（ - \ beta h））$在已知的反温度$ \ beta $处。 Anshu，Arunachalam，Kuwahara和Soleimanifar（Nature Physics，2021，Arxiv：2004.07266）最近研究了此问题的样品复杂性（需要$ \ rho $的副本数量）。在高温（低$ \ beta $）制度中，他们的算法具有样品复杂性poly poly $（n，1/\ beta，1/\ varepsilon）$，并且可以用多项式但次优的时间复杂性实现。在本文中，我们研究了更一般的哈密顿人的同样问题。我们展示了如何学习哈密顿量的系数到错误$ \ varepsilon $带有样本复杂性$ s = o（\ log n/（\ beta \ varepsilon）^{2}）$和样本大小的时间复杂性，$ o（s n）$。此外，我们证明了匹配的下限，表明我们算法的样品复杂性是最佳的，因此我们的时间复杂性也是最佳的。在附录中，我们证明，几乎可以使用相同的算法来从实时进化的统一$ e^{ - it H} $中学习$ h $，其中具有相似的示例和时间复杂性的小$ t $制度。

translated by 谷歌翻译

Robust Sparse Mean Estimation via Sum of Squares

Ilias Diakonikolas , Daniel M. Kane , Sushrut Karmalkar , Ankit Pensia , Thanasis Pittas

分类：机器学习 | (统计)机器学习

2022-06-07

我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法，用于辅助性Subgaussian分布。在这项工作中，我们开发了第一个有效的算法，用于强大的稀疏平均值估计，而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布，带有“认证有限”的$ t $ tum-矩和足够轻的尾巴，我们的算法达到了$ o（\ epsilon^{1-1/t}）$带有样品复杂性$的错误（\ epsilon^{1-1/t}） m =（k \ log（d））^{o（t）}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况，我们的算法达到了$ \ tilde o（\ epsilon）$的接近最佳错误，带有样品复杂性$ m = o（k^4 \ mathrm {polylog}（d）（d））/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和，对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限，提供了证据，表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。

translated by 谷歌翻译

BR-SNIS: Bias Reduced Self-Normalized Importance Sampling

Gabriel Cardoso , Sergey Samsonov , Achille Thin , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习 | 机器学习

2022-07-13

重要性采样（IS）是一种使用来自建议分布和相关重要性权重的独立样本在目标分布下近似期望的方法。在许多应用中，只有直到归一化常数才知道目标分布，在这种情况下，可以使用自称为（SNIS）。虽然自我正态化的使用可能会对估计量的分散产生积极影响，但它引入了偏见。在这项工作中，我们提出了一种新方法BR-SNIS，其复杂性与SNI的复杂性基本相同，并且显着降低了偏见而不增加差异。这种方法是一种包装器，从某种意义上说，它使用了与SNIS相同的建议样本和重要性权重，但巧妙地使用了迭代采样（ISIR）重新采样（ISIR）来形成估算器的偏置版本。我们为提出的算法提供了严格的理论结果，包括新的偏见，方差和高概率界限，这些算法由数值示例进行了说明。

translated by 谷歌翻译

The Price of Tolerance in Distribution Testing

Clément L. Canonne , Ayush Jain , Gautam Kamath , Jerry Li

分类： (统计)机器学习

2021-06-25

我们重新审视耐受分发测试的问题。也就是说，给出来自未知分发$ P $超过$ \ {1，\ dots，n \} $的样本，它是$ \ varepsilon_1 $ -close到或$ \ varepsilon_2 $ -far从引用分发$ q $（总变化距离）？尽管过去十年来兴趣，但在极端情况下，这个问题很好。在无噪声设置（即，$ \ varepsilon_1 = 0 $）中，样本复杂性是$ \ theta（\ sqrt {n}）$，强大的域大小。在频谱的另一端时，当$ \ varepsilon_1 = \ varepsilon_2 / 2 $时，样本复杂性跳转到勉强sublinear $ \ theta（n / \ log n）$。然而，非常少于中级制度。我们充分地表征了分发测试中的公差价格，作为$ N $，$ varepsilon_1 $，$ \ varepsilon_2 $，最多一个$ \ log n $ factor。具体来说，我们显示了\ [\ tilde \ theta \ left的样本复杂性（\ frac {\ sqrt {n}} {\ varepsilon_2 ^ {2}} + \ frac {n} {\ log n} \ cdot \ max \左\ {\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2}，\ left（\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2} \右）^ {\！\！\！2} \ \ \} \右），\]提供两个先前已知的案例之间的顺利折衷。我们还为宽容的等价测试问题提供了类似的表征，其中$ p $和$ q $均未赘述。令人惊讶的是，在这两种情况下，对样本复杂性的主数量是比率$ \ varepsilon_1 / varepsilon_2 ^ 2 $，而不是更直观的$ \ varepsilon_1 / \ varepsilon_2 $。特别是技术兴趣是我们的下限框架，这涉及在以往的工作中处理不对称所需的新颖近似性理论工具，从而缺乏以前的作品。

translated by 谷歌翻译

Privately Estimating a Gaussian: Efficient, Robust and Optimal

Daniel Alabi , Pravesh K. Kothari , Pranay Tankala , Prayaag Venkat , Fred Zhang

分类： (统计)机器学习

2022-12-15

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].

translated by 谷歌翻译

Nearly Optimal Latent State Decoding in Block MDPs

Yassir Jedra , Junghyun Lee , Alexandre Proutière , Se-Young Yun

分类：机器学习 | (统计)机器学习

2022-08-17

我们研究了情节块MDP中模型估计和无奖励学习的问题。在这些MDP中，决策者可以访问少数潜在状态产生的丰富观察或上下文。我们首先对基于固定行为策略生成的数据估算潜在状态解码功能（从观测到潜在状态的映射）感兴趣。我们在估计此功能的错误率上得出了信息理论的下限，并提出了接近此基本限制的算法。反过来，我们的算法还提供了MDP的所有组件的估计值。然后，我们研究在无奖励框架中学习近乎最佳政策的问题。根据我们有效的模型估计算法，我们表明我们可以以最佳的速度推断出策略（随着收集样品的数量增长大）的最佳策略。有趣的是，我们的分析提供了必要和充分的条件，在这些条件下，利用块结构可以改善样本复杂性，以识别近乎最佳的策略。当满足这些条件时，Minimax无奖励设置中的样本复杂性将通过乘法因子$ n $提高，其中$ n $是可能的上下文数量。

translated by 谷歌翻译

A Provably Efficient Sample Collection Strategy for Reinforcement Learning

Jean Tarbouriech , Matteo Pirotta , Michal Valko , Alessandro Lazaric

分类：机器学习 | (统计)机器学习

2020-07-13

在线强化学习（RL）中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾，采样复杂性，状态空间覆盖范围或模型估计，我们都需要攻击不同的勘探开发权衡。在本文中，我们建议在分离方法组成的探索 - 剥削问题：1）“客观特定”算法（自适应）规定哪些样本以收集到哪些状态，似乎它可以访问a生成模型（即环境的模拟器）; 2）负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法，我们首先提供一种算法，它给出了每个状态动作对所需的样本$ B（S，a）$的样本数量，需要$ \ tilde {o} （bd + d ^ {3/2} s ^ 2 a）收集$ b = \ sum_ {s，a} b（s，a）$所需样本的$时间步骤，以$ s $各国，$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对，这些策略规定了解决各种设置的样本要求 - 例如，模型估计，稀疏奖励发现，无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。

translated by 谷歌翻译

Accelerated and instance-optimal policy evaluation with linear function approximation

Tianjiao Li , Guanghui Lan , Ashwin Pananjady

分类： (统计)机器学习 | 机器学习

2021-12-24

我们研究了线性函数近似的政策评估问题，并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是，我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限，并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个：为了说明，我们分析了时间差异学习的方差减少变体，特别是它未能实现Oracle复杂性下限。为了解决这个问题，我们开发了加速，方差减少的快速时间差算法（VRFTD），其同时匹配两个下限，并达到实例 - 最优性的强烈概念。最后，我们将VRFTD算法扩展到Markovian观察的设置，并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。

translated by 谷歌翻译

Finite Sample Complexity of Sequential Monte Carlo Estimators on Multimodal Target Distributions

Joseph Mathews , Scott C. Schmidler

分类： (统计)机器学习

2022-08-13

我们证明了顺序蒙特卡洛（SMC）算法的有限样品复杂性，该算法仅需要相关的马尔可夫核的局部混合时间。当目标分布是多模式的，而马尔可夫内核的全局混合速度很慢时，我们的边界特别有用。在这种情况下，我们的方法确定了SMC比相应的Markov链蒙特卡洛（MCMC）估计量的好处。通过依次控制SMC重采样程序引入的偏差来解决全局混合。我们将这些结果应用于对数凸出分布的混合物下的近似期望获得复杂性界限，并表明SMC为某些困难的多模式问题提供了完全多项式时间随机近似方案，而相应的Markov链采样器的指数呈呈呈速度速度。最后，我们比较了通过我们在相同问题上使用钢结战的马尔可夫链的现有界限获得的界限。

translated by 谷歌翻译

Private Estimation with Public Data

Alex Bie , Gautam Kamath , Vikrant Singhal

分类：机器学习 | (统计)机器学习

2022-08-16

我们启动差异私有（DP）估计的研究，并访问少量公共数据。为了对D维高斯人进行私人估计，我们假设公共数据来自高斯人，该高斯与私人数据的基础高斯人的总变化距离可能消失了。我们表明，在纯或集中DP的约束下，D+1个公共数据样本足以从私人样本复杂性中删除对私人数据分布的范围参数的任何依赖性，而在没有公共数据的情况下，这是必不可少的。对于分离的高斯混合物，我们假设基本的公共和私人分布是相同的，我们考虑两个设置：（1）当给出独立于维度的公共数据时，可以根据多种方式改善私人样本复杂性混合组件的数量以及对分布范围参数的任何依赖性都可以在近似DP情况下去除；（2）当在维度上给出了一定数量的公共数据线性时，即使在集中的DP下，也可以独立于范围参数使私有样本复杂性使得可以对整体样本复杂性进行其他改进。

translated by 谷歌翻译

Robustness Implies Privacy in Statistical Estimation

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid , Shyam Narayanan

分类： (统计)机器学习

2022-12-09

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.

translated by 谷歌翻译

List-Decodable Covariance Estimation

Misha Ivkov , Pravesh K. Kothari

分类：机器学习 | (统计)机器学习

2022-06-22

我们给出了\ emph {list-codobable协方差估计}的第一个多项式时间算法。对于任何$ \ alpha> 0 $，我们的算法获取输入样本$ y \ subseteq \ subseteq \ mathbb {r}^d $ size $ n \ geq d^{\ mathsf {poly}（1/\ alpha）} $获得通过对抗损坏I.I.D的$（1- \ alpha）n $点。从高斯分布中的样本$ x $ size $ n $，其未知平均值$ \ mu _*$和协方差$ \ sigma _*$。在$ n^{\ mathsf {poly}（1/\ alpha）} $ time中，它输出$ k = k（\ alpha）=（1/\ alpha）^{\ mathsf {poly}的常数大小列表（1/\ alpha）} $候选参数，具有高概率，包含$（\ hat {\ mu}，\ hat {\ sigma}）$，使得总变化距离$ tv（\ Mathcal {n}（n}）（n}（n}）（ \ mu _*，\ sigma _*），\ Mathcal {n}（\ hat {\ mu}，\ hat {\ sigma}））<1-o _ {\ alpha}（1）$。这是距离的统计上最强的概念，意味着具有独立尺寸误差的参数的乘法光谱和相对Frobenius距离近似。我们的算法更普遍地适用于$（1- \ alpha）$ - 任何具有低度平方总和证书的分布$ d $的损坏，这是两个自然分析属性的：1）一维边际和抗浓度2）2度多项式的超收缩率。在我们工作之前，估计可定性设置的协方差的唯一已知结果是针对Karmarkar，Klivans和Kothari（2019），Raghavendra和Yau（2019和2019和2019和2019和2019年）的特殊情况。 2020年）和巴克西（Bakshi）和科塔里（Kothari）（2020年）。这些结果需要超级物理时间，以在基础维度中获得任何子构误差。我们的结果意味着第一个多项式\ emph {extcect}算法，用于列表可解码的线性回归和子空间恢复，尤其允许获得$ 2^{ - \ Mathsf { - \ Mathsf {poly}（d）} $多项式时间错误。我们的结果还意味着改进了用于聚类非球体混合物的算法。

translated by 谷歌翻译

A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond

Anamitra Chaudhuri , Sabyasachi Chatterjee

分类： (统计)机器学习

2022-01-07

本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法，例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性，我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov（2015）的想法的启发，并且可能适用于使用调整参数的广泛估算方法。

translated by 谷歌翻译

Nearly Optimal Algorithms for Level Set Estimation

Blake Mason , Romain Camilleri , Subhojyoti Mukherjee , Kevin Jamieson , Robert Nowak , Lalit Jain

分类： (统计)机器学习 | 机器学习

2021-11-02

级别设置估计问题旨在查找域$ {\ cal x} $的所有点，其中一个未知函数$ f：{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式}，并提供先验，或\ \ ich {隐式}，相对于最佳函数值定义，即$ \ alpha =（1- \ epsilon）f（x_ \ AST）$关于给定$ \ epsilon> 0 $ why $ f（x_ \ ist）$是最大函数值，并且未知。在这项工作中，我们通过将其与最近的自适应实验设计方法相关联，为近期自适应实验设计方法提供了一种新的再现内核盗窃空间（RKHS）设置。我们假设可以通过RKHS中的函数近似于未知的拼写，并为此设置中隐含和显式案件提供新的算法，具有很强的理论保证。此外，在线性（内核）设置中，我们表明我们的界限几乎是最佳的，即，我们的上限与阈值线性匪徒的现有下限匹配。据我们所知，这项工作提供了第一个实例依赖性非渐近的上限，就匹配信息理论下限的水平设定估计的样本复杂性。

translated by 谷歌翻译

Robust Batch Policy Learning in Markov Decision Processes

Zhengling Qi , Peng Liao

分类：机器学习 | (统计)机器学习

2020-11-09

我们研究马尔可夫决策过程（MDP）框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性，我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集，我们的目标是在预先指定的策略类中学习一个强大的策略，可以最大化此集的最小值。利用半参数统计的理论，我们开发了一种统计上有效的策略学习方法，用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。

translated by 谷歌翻译