智能论文笔记

No-Substitution $k$-means Clustering with Optimal Center Complexity and Low Memory

Robi Bhattacharjee , Jacob Imola

分类：机器学习

2021-02-18

我们考虑在线无替代环境中的$ k $ - emeans集群，其中一个人必须在流媒体传输时立即拍摄每个数据点$ x_t $ x_t $。我们的作品专注于\ emph {任意订单}假设没有限制点数$ x $如何订购或生成。与最佳聚类成本相比，在其近似值中评估该设置中的算法，它们选择的中心数及其内存使用率。最近，Bhattacharjee和Moshkovitz（2020）定义了一个参数，$ lower _ {\ alpha，k}（x）$，它控制最小的中心数量的任何$ \ alpha $-xpruckatimation聚类算法，必须给予任何金额输入$ x $。为了补充结果，我们提供了第一个算法，它需要$ \ tilde {o}（下_ {\ alpha，k}（x））$中心（k，log n $）同时实现恒定近似除了保存中心所需的内存之外，还使用$ \ tilde {o}（k）$内存。我们的算法显示它在无替代设置中，可以在使用很少的额外内存时占用订单 - 最佳中心。

translated by 谷歌翻译

Adapting $k$-means algorithms for outliers

Christoph Grunau , Václav Rozhoň

分类：机器学习

2020-07-02

本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法，以使用离群值设置。最近，Bhaskara等人。（Neurips 2019）展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是，他们的算法需要输出$ o（\ log（k）\ cdot z）$ outiers，其中$ z $是true Outliers的数量，以匹配$ o（\ log k）$ - 近似值的$ k的近似保证$ -Means ++。在本文中，我们以他们的想法为基础，并展示了如何适应几个顺序和分布式的$ k $ - 均值算法，但使用离群值来设置，但具有更强的理论保证：我们的算法输出$（1+ \ VAREPSILON）z $ OUTLIERS Z $ OUTLIERS在实现$ o（1 / \ varepsilon）$ - 近似目标函数的同时。在顺序世界中，我们通过改编Lattanzi和Sohler的最新算法来实现这一目标（ICML 2019）。在分布式设置中，我们适应了Guha等人的简单算法。（IEEE Trans。知道和数据工程2003）以及Bahmani等人的流行$ K $ -Means $ \ | $。（PVLDB 2012）。我们技术的理论应用是一种具有运行时间$ \ tilde {o}（nk^2/z）$的算法，假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega（NK^2/z）$的匹配下限相互补。

translated by 谷歌翻译

A Nearly Tight Analysis of Greedy k-means++

Christoph Grunau , Ahmet Alper Özüdoğru , Václav Rozhoň , Jakub Tětek

分类：机器学习

2022-07-16

Arthur和Vassilvitskii的著名$ K $ -MEANS ++算法[SODA 2007]是解决实践中$ K $ - 英镑问题的最流行方式。该算法非常简单：它以随机的方式均匀地对第一个中心进行采样，然后始终将每个$ K-1 $中心的中心取样与迄今为止最接近最接近中心的平方距离成比例。之后，运行了劳埃德的迭代算法。已知$ k $ -Means ++算法可以返回预期的$ \ theta（\ log K）$近似解决方案。在他们的开创性工作中，Arthur和Vassilvitskii [Soda 2007]询问了其以下\ emph {greedy}的保证：在每一步中，我们采样了$ \ ell $候选中心，而不是一个，然后选择最小化新的中心成本。这也是$ k $ -Means ++在例如中实现的方式。流行的Scikit-Learn库[Pedregosa等人； JMLR 2011]。我们为贪婪的$ k $ -Means ++提供几乎匹配的下限和上限：我们证明它是$ o（\ ell^3 \ log^3 k）$ - 近似算法。另一方面，我们证明了$ \ omega的下限（\ ell^3 \ log^3 k / \ log^2（\ ell \ log k））$。以前，只有$ \ omega（\ ell \ log k）$下限是已知的[bhattacharya，eube，r \“ ogllin，schmidt; esa 2020），并且没有已知的上限。

translated by 谷歌翻译

Exploration with Limited Memory: Streaming Algorithms for Coin Tossing, Noisy Comparisons, and Multi-Armed Bandits

Sepehr Assadi , Chen Wang

分类：机器学习

2020-04-09

Consider the following abstract coin tossing problem: Given a set of $n$ coins with unknown biases, find the most biased coin using a minimal number of coin tosses. This is a common abstraction of various exploration problems in theoretical computer science and machine learning and has been studied extensively over the years. In particular, algorithms with optimal sample complexity (number of coin tosses) have been known for this problem for quite some time. Motivated by applications to processing massive datasets, we study the space complexity of solving this problem with optimal number of coin tosses in the streaming model. In this model, the coins are arriving one by one and the algorithm is only allowed to store a limited number of coins at any point -- any coin not present in the memory is lost and can no longer be tossed or compared to arriving coins. Prior algorithms for the coin tossing problem with optimal sample complexity are based on iterative elimination of coins which inherently require storing all the coins, leading to memory-inefficient streaming algorithms. We remedy this state-of-affairs by presenting a series of improved streaming algorithms for this problem: we start with a simple algorithm which require storing only $O(\log{n})$ coins and then iteratively refine it further and further, leading to algorithms with $O(\log\log{(n)})$ memory, $O(\log^*{(n)})$ memory, and finally a one that only stores a single extra coin in memory -- the same exact space needed to just store the best coin throughout the stream. Furthermore, we extend our algorithms to the problem of finding the $k$ most biased coins as well as other exploration problems such as finding top-$k$ elements using noisy comparisons or finding an $\epsilon$-best arm in stochastic multi-armed bandits, and obtain efficient streaming algorithms for these problems.

translated by 谷歌翻译

Planning in Observable POMDPs in Quasipolynomial Time

Noah Golowich , Ankur Moitra , Dhruv Rohatgi

分类：机器学习 | (统计)机器学习

2022-01-12

部分可观察到的马尔可夫决策过程（POMDPS）是加强学习的自然和一般模型，以考虑到代理人对其当前国家的不确定性。在POMDPS的文献中，习惯性地假设在已知参数时计算最佳策略的规划Oracle，即使已知问题是计算的。几乎所有现有的规划算法都在指数时间内运行，缺乏可证明的性能保证，或者需要在每个可能的政策下对转换动态进行强烈的假设。在这项工作中，我们重新审视了规划问题并问：是否有自然和积极的假设，使计划变得容易？我们的主要结果是用于规划（一步）可观察POMDPS的QuasioInomial-time算法。具体而言，我们假设各国的分离良好的分布导致分开的观察分布，因此观察结果在每一步中至少有一些信息。至关重要的是，这个假设没有对POMDP的过渡动态的限制;尽管如此，它意味着近乎最佳的政策承认准简洁的描述，这通常不是真实的（在标准的硬度假设下）。我们的分析基于滤波器稳定性的新定量界限 - 即潜在状态的最佳滤波器的速率忘记其初始化。此外，在指数时间假设下，我们证明了在可观察POMDPS中规划的匹配硬度。

translated by 谷歌翻译

Near-Optimal Bounds for Testing Histogram Distributions

Clément L. Canonne , Ilias Diakonikolas , Daniel M. Kane , Sihan Liu

分类：机器学习

2022-07-14

我们研究了测试有序域上的离散概率分布是否是指定数量的垃圾箱的直方图。$ k $的简洁近似值的最常见工具之一是$ k $ [n] $，是概率分布，在一组$ k $间隔上是分段常数的。直方图测试问题如下：从$ [n] $上的未知分布中给定样品$ \ mathbf {p} $，我们想区分$ \ mathbf {p} $的情况从任何$ k $ - 组织图中，总变化距离的$ \ varepsilon $ -far。我们的主要结果是针对此测试问题的样本接近最佳和计算有效的算法，以及几乎匹配的（在对数因素内）样品复杂性下限。具体而言，我们表明直方图测试问题具有样品复杂性$ \ widetilde \ theta（\ sqrt {nk} / \ varepsilon + k / \ varepsilon^2 + \ sqrt {n} / \ varepsilon^2）$。

translated by 谷歌翻译

On the Role of Channel Capacity in Learning Gaussian Mixture Models

Elad Romanov , Tamir Bendory , Or Ordentlich

分类：机器学习 | (统计)机器学习

2022-02-15

本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是，我们对以下问题感兴趣：最大噪声水平$ \ sigma^2 $是什么，对此样品复杂性基本与从标记的测量值估算中心时相同？为此，我们将注意力限制为问题的贝叶斯公式，其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $，而GMM学习问题（在大系统中限制$ d，k \ to \ infty $）就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left（1+ \ frac {1} {1} {\ sigma^2} \ right）$，这是添加性白色高斯的能力噪声（AWGN）频道。将$ K $中心的集合作为代码，可以将此噪声阈值解释为最大的噪声水平，AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的，但他们暗示，也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度，而不是仅仅最小距离。

translated by 谷歌翻译

Online Prediction in Sub-linear Space

Binghui Peng , Fred Zhang

分类：机器学习

2022-07-16

我们提供了第一个子线性空间和次线性遗憾算法，用于在线学习，并通过专家建议（反对遗忘的对手），解决了Srinivas，Woodruff，Xu和Zhou最近提出的一个公开问题（STOC 2022）。我们还通过证明对自适应对手的任何子线性遗憾算法的线性记忆下限，证明了遗忘和（强）适应对手之间的分离。我们的算法基于一个新颖的泳池选择程序，该程序绕过了传统的在线学习领导者选择的智慧，以及将任何弱的子线性遗憾$ O（t）$算法转变为$ t^{1- \ alpha} $遗憾算法，这可能具有独立的利益。我们的下边界利用了零和游戏中无需重新学习和平衡计算的连接，从而证明了与自适应对手相对于自适应对手的强大界限。

translated by 谷歌翻译

On the power of adaptivity in statistical adversaries

Guy Blanc , Jane Lange , Ali Malik , Li-Yang Tan

分类：机器学习

2021-11-19

我们研究了算法收到I.I.D的统计问题中对抗噪声模型的基本问题。从分发$ \ mathcal {d} $绘制。这些对手的定义指定了允许的损坏类型（噪声模型）以及可以进行这些损坏（适应性）;后者区别了唯一可以损坏分发$ \ mathcal {d} $和适应性对手的疏忽，这些对手可以损坏他们的腐败依赖于从$ \ mathcal {d} $绘制的特定样本$ s $。在这项工作中，我们调查了在文献中研究的所有噪声模型中是否有效地相当于自适应对手。具体而言，算法$ \ mathcal {a} $的行为可以在不受算法$ \ mathcal {a}'$的情况下始终受到适应性对手的存在的良好近似？我们的第一个结果表明，这确实是在所有合理的噪声模型下广泛的统计查询算法的情况。然后，我们显示在附加噪声的具体情况下，这种等价物适用于所有算法。最后，我们将所有算法和所有合理的噪声模型中的最丰富的一般性映射到最完整的普遍性的方法。

translated by 谷歌翻译

MAJORITY-3SAT (and Related Problems) in Polynomial Time

Shyan Akmal , Ryan Williams

分类：人工智能

2021-07-06

大多数-AT是确定联合正常形式（CNF）中输入$ N $的最低价公式的问题至少为2 ^ {n-1} $令人满意的作业。在对概率规划和推论复杂性的各种AI社区中，广泛研究了多数饱和问题。虽然大多数饱满为期40多年来，但自然变体的复杂性保持开放：大多数 - $ k $ SAT，其中输入CNF公式仅限于最多$ k $的子句宽度。我们证明，每辆$ k $，大多数 - $ k $ sat是在p的。事实上，对于任何正整数$ k $和ratic $ \ rho \ in（0,1）$ in（0,1）$与有界分比者，我们给出了算法这可以确定给定的$ k $ -cnf是否至少有$ \ rho \ cdot 2 ^ n $令人满意的分配，在确定性线性时间（而先前的最着名的算法在指数时间中运行）。我们的算法对计算复杂性和推理的复杂性具有有趣的积极影响，显着降低了相关问题的已知复杂性，例如E-Maj-$ K $ Sat和Maj-Maj- $ K $ Sat。在我们的方法中，通过提取在$ k $ -cnf的相应设置系统中发现的向日葵，可以通过提取向日葵来解决阈值计数问题的有效方法。我们还表明，大多数 - $ k $ sat的易腐烂性有些脆弱。对于密切相关的gtmajority-sat问题（我们询问给定公式是否超过2 ^ {n-1} $满足分配），这已知是pp-cleanting的，我们表明gtmajority-$ k $ sat在p for $ k \ le 3 $，但为$ k \ geq 4 $完成np-cleante。这些结果是违反直觉的，因为这些问题的“自然”分类将是PP完整性，因为GTMAJority的复杂性存在显着差异 - $ k $ SAT和MOSTION- $ K $ SAT为所有$ k \ ge 4 $。

translated by 谷歌翻译

Differentially Private Nonparametric Regression Under a Growth Condition

Noah Golowich

分类：机器学习 | (统计)机器学习

2021-11-24

给定真实的假设类$ \ mathcal {h} $，我们在什么条件下调查有一个差异的私有算法，它从$ \ mathcal {h} $给出的最佳假设.I.i.d.数据。灵感来自最近的成果的二进制分类的相关环境（Alon等，2019; Bun等，2020），其中显示了二进制类的在线学习是必要的，并且足以追随其私人学习，Jung等人。（2020）显示，在回归的设置中，$ \ mathcal {h} $的在线学习是私人可读性所必需的。这里的在线学习$ \ mathcal {h} $的特点是其$ \ eta $-sequentient胖胖子的优势，$ {\ rm sfat} _ \ eta（\ mathcal {h}）$，适用于所有$ \ eta> 0 $。就足够的私人学习条件而言，Jung等人。（2020）显示$ \ mathcal {h} $私下学习，如果$ \ lim _ {\ eta \ downarrow 0} {\ rm sfat} _ \ eta（\ mathcal {h}）$是有限的，这是一个相当限制的健康）状况。我们展示了在轻松的条件下，\ LIM \ INF _ {\ eta \ downarrow 0} \ eta \ cdot {\ rm sfat} _ \ eta（\ mathcal {h}）= 0 $，$ \ mathcal {h} $私人学习，为\ \ rm sfat} _ \ eta（\ mathcal {h}）$ \ eta \ dockarrow 0 $ divering建立第一个非参数私人学习保证。我们的技术涉及一种新颖的过滤过程，以输出非参数函数类的稳定假设。

translated by 谷歌翻译

Learning General Halfspaces with General Massart Noise under the Gaussian Distribution

Ilias Diakonikolas , Daniel M. Kane , Vasilis Kontonis , Christos Tzamos , Nikos Zarifis

分类：机器学习 | (统计)机器学习

2021-08-19

我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中，允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta（\ mathbf {x}）\ leq \ eta $，用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误，其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题：（i）目标半空间是同质的（即，分离超平面通过原点），并且（ii）参数$ \ eta $严格小于$ 1/2 $。在此工作之前，当除去这些假设中的任何一个时，不知道非增长的界限。我们研究了一般问题并建立以下内容：对于$ \ eta <1/2 $，我们为一般半个空间提供了一个学习算法，采用样本和计算复杂度$ d ^ {o_ {\ eta}（\ log（1 / \ gamma））））}} \ mathrm {poly}（1 / \ epsilon）$，其中$ \ gamma = \ max \ {\ epsilon，\ min \ {\ mathbf {pr} [f（\ mathbf {x}）= 1]， \ mathbf {pr} [f（\ mathbf {x}）= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是，我们建立了$ d ^ {\ oomega（\ log（\ log（\ log（\ log））}}的质量匹配的下限，而是任何统计查询（SQ）算法的复杂性。对于$ \ eta = 1/2 $，我们为一般半空间提供了一个学习算法，具有样本和计算复杂度$ o_ \ epsilon（1）d ^ {o（\ log（1 / epsilon））} $。即使对于均匀半空间的子类，这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega（\ log（\ log（\ log（\ log（\ epsilon））} $的近似匹配的sq下限补充了我们的上限，这甚至可以为同类半空间的特殊情况而保持。

translated by 谷歌翻译

Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean Estimation

Ilias Diakonikolas , Daniel M. Kane , Daniel Kongsgaard , Jerry Li , Kevin Tian

分类：机器学习 | (统计)机器学习

2021-06-16

我们研究了清单可解放的平均估计问题，而对手可能会破坏大多数数据集。具体来说，我们在$ \ mathbb {r} ^ $和参数$ 0 <\ alpha <\ frac 1 2 $中给出了一个$ $ n $ points的$ t $ points。$ \ alpha $ -flaction的点$ t $是iid来自乖巧的分发$ \ Mathcal {D} $的样本，剩余的$（1- \ alpha）$ - 分数是任意的。目标是输出小型的vectors列表，其中至少一个接近$ \ mathcal {d} $的均值。我们开发新的算法，用于列出可解码的平均值估计，实现几乎最佳的统计保证，运行时间$ O（n ^ {1 + \ epsilon_0} d）$，适用于任何固定$ \ epsilon_0> 0 $。所有先前的此问题算法都有额外的多项式因素在$ \ frac 1 \ alpha $。我们与额外技术一起利用此结果，以获得用于聚类混合物的第一个近几个线性时间算法，用于分开的良好表现良好的分布，几乎匹配谱方法的统计保证。先前的聚类算法本身依赖于$ k $ -pca的应用程序，从而产生$ \ omega（n d k）$的运行时。这标志着近二十年来这个基本统计问题的第一次运行时间改进。我们的方法的起点是基于单次矩阵乘法权重激发电位减少的$ \ Alpha \至1 $制度中的新颖和更简单的近线性时间较强的估计算法。在Diakonikolas等人的迭代多滤波技术的背景下，我们迫切地利用了这种新的算法框架。 '18，'20，提供一种使用一维投影的同时群集和下群点的方法 - 因此，绕过先前算法所需的$ k $ -pca子程序。

translated by 谷歌翻译

Johnson Coverage Hypothesis: Inapproximability of k-means and k-median in L_p metrics

Vincent Cohen-Addad , Karthik C. S , Euiwoong Lee

分类：机器学习

2021-11-21

K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力，但对这些目标的近似性很好地了解，特别是在$ \ ell_p $ -metrics中，仍然是一个重大的开放问题。在本文中，我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说（JCH）的新假设，这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e，即使是成员图形设置系统是Johnson图的子图。然后，我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括（Focs'19），JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地，假设JCH我们表明很难近似K-Meator目标：$ \ Bullet $离散情况：$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例：$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标，我们还获得了类似的改进。此外，我们使用Dinure等人的工作证明了JCH的弱版本。（Sicomp'05）在超图顶点封面上，恢复Cohen-Addad和Karthik（Focs'19 Focs'19）上面的所有结果（近）相同的不可识别因素，但现在在标准的NP $ \ NEQ $ P假设下（代替UGC）。

translated by 谷歌翻译

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games

Constantinos Daskalakis , Noah Golowich

分类：机器学习 | (统计)机器学习

2021-11-17

我们研究了非参数在线回归中的快速收敛速度，即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍： - 在绝对损失中的非参数网上回归的可实现设置中，我们提出了一种随机适当的学习算法，该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中，我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题，以及适当的学习者是否可以实现近乎最佳错误的界限;以前，即使在线分类，绑定的最知名错误也是$ \ tilde o（\ sqrt {dt}）$。此外，对于真实值（回归）设置，在这项工作之前，界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果，我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法，每个玩家达到后悔$ \ tilde o（d ^ {3/4} \ cdot t ^ {1 / 4}）$。该结果概括了Syrgkanis等人的类似结果。（2015）谁表明，在有限的游戏中，最佳遗憾可以从普通的o（\ sqrt {t}）$中的$ o（\ sqrt {t}）为游戏设置中的$ o（t ^ {1/4}）$。要建立上述结果，我们介绍了几种新技术，包括：分层聚合规则，以实现对实际类别的最佳错误，Hanneke等人的适当在线可实现学习者的多尺度扩展。（2021），一种方法来表明这种非参数学习算法的输出是稳定的，并且证明Minimax定理在所有在线学习游戏中保持。

translated by 谷歌翻译

Robustness Implies Privacy in Statistical Estimation

Samuel B. Hopkins , Gautam Kamath , Mahbod Majid , Shyam Narayanan

分类： (统计)机器学习

2022-12-09

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.

translated by 谷歌翻译

Sublinear Algorithms for Hierarchical Clustering

Arpit Agarwal , Sanjeev Khanna , Huan Li , Prathamesh Patil

分类：机器学习

2022-06-15

图形上的分层聚类是数据挖掘和机器学习中的一项基本任务，并在系统发育学，社交网络分析和信息检索等领域中进行了应用。具体而言，我们考虑了由于Dasgupta引起的层次聚类的最近普及的目标函数。以前（大约）最小化此目标函数的算法需要线性时间/空间复杂性。在许多应用程序中，底层图的大小可能很大，即使使用线性时间/空间算法，也可以在计算上具有挑战性。结果，人们对设计只能使用sublinear资源执行全局计算的算法有浓厚的兴趣。这项工作的重点是在三个经过良好的sublinear计算模型下研究大量图的层次聚类，分别侧重于时空，时间和通信，作为要优化的主要资源：（1）（动态）流模型。边缘作为流，（2）查询模型表示，其中使用邻居和度查询查询图形，（3）MPC模型，其中图边缘通过通信通道连接的几台机器进行了分区。我们在上面的所有三个模型中设计用于层次聚类的sublinear算法。我们算法结果的核心是图表中的剪切方面的视图，这使我们能够使用宽松的剪刀示意图进行分层聚类，同时仅引入目标函数中的较小失真。然后，我们的主要算法贡献是如何在查询模型和MPC模型中有效地构建所需形式的切割稀疏器。我们通过建立几乎匹配的下限来补充我们的算法结果，该界限排除了在每个模型中设计更好的算法的可能性。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Differentially-Private Clustering of Easy Instances

Edith Cohen , Haim Kaplan , Yishay Mansour , Uri Stemmer , Eliad Tsfadia

分类：机器学习

2021-12-29

聚类是数据分析中的一个根本问题。在差别私有聚类中，目标是识别$ k $群集中心，而不披露各个数据点的信息。尽管研究进展显着，但问题抵制了实际解决方案。在这项工作中，我们的目的是提供简单的可实现的差异私有聚类算法，当数据“简单”时，提供实用程序，例如，当簇之间存在显着的分离时。我们提出了一个框架，允许我们将非私有聚类算法应用于简单的实例，并私下结合结果。在高斯混合的某些情况下，我们能够改善样本复杂性界限，并获得$ k $ -means。我们与合成数据的实证评估补充了我们的理论分析。

translated by 谷歌翻译

Nearly Optimal Latent State Decoding in Block MDPs

Yassir Jedra , Junghyun Lee , Alexandre Proutière , Se-Young Yun

分类：机器学习 | (统计)机器学习

2022-08-17

我们研究了情节块MDP中模型估计和无奖励学习的问题。在这些MDP中，决策者可以访问少数潜在状态产生的丰富观察或上下文。我们首先对基于固定行为策略生成的数据估算潜在状态解码功能（从观测到潜在状态的映射）感兴趣。我们在估计此功能的错误率上得出了信息理论的下限，并提出了接近此基本限制的算法。反过来，我们的算法还提供了MDP的所有组件的估计值。然后，我们研究在无奖励框架中学习近乎最佳政策的问题。根据我们有效的模型估计算法，我们表明我们可以以最佳的速度推断出策略（随着收集样品的数量增长大）的最佳策略。有趣的是，我们的分析提供了必要和充分的条件，在这些条件下，利用块结构可以改善样本复杂性，以识别近乎最佳的策略。当满足这些条件时，Minimax无奖励设置中的样本复杂性将通过乘法因子$ n $提高，其中$ n $是可能的上下文数量。

translated by 谷歌翻译