最接近的基于邻居的方法通常用于分类任务和其他数据分析方法的子例程。具有将自己的数据点插入训练集的攻击者可以操纵推断的最近的邻居结构。我们将此目标提取到对$ k $ neart的邻居分类($ k $ nn)执行训练集数据插入攻击的任务。我们证明,即使$ k = 1 $,计算对$ k $ nn分类的最佳训练时间(又称中毒)攻击也是NP-HARD,并且攻击者只能插入一个数据点。我们提供任何时间算法来执行此类攻击,以及一般$ K $和攻击者预算的贪婪算法。我们提供理论界限,并从经验上证明我们方法对合成和现实数据集的有效性和实用性。从经验上讲,我们发现$ k $ nn在实践中很容易受到伤害,而降低维度是有效的防御。最后,我们讨论了我们的分析阐明的开放问题。
translated by 谷歌翻译
对抗训练实例可能会严重扭曲模型的行为。这项工作调查了经过认证的回归防御措施,该防御措施提供了保证的限制,即在训练集攻击下回归者的预测可能会发生多少变化。我们的关键见解是,使用中位数作为模型的主要决策功能时,经认证的回归减少了认证分类。将我们的减少与现有认证分类器相结合,我们提出了六个新的可证明的回归剂。就我们的知识而言,这是第一部证明单个回归预测的鲁棒性的工作,而没有任何关于数据分布和模型体系结构的假设。我们还表明,现有的最先进的认证分类器通常会做出过分的假设,可以降低其可证明的保证。我们引入了对模型鲁棒性的更严格的分析,在许多情况下,这会大大改善认证的保证。最后,我们从经验上证明了我们的方法对回归和分类数据的有效性,在1%的训练集腐败和4%以下腐败以下预测中,可以保证多达50%的测试预测准确性。我们的源代码可在https://github.com/zaydh/certified-regression上获得。
translated by 谷歌翻译
从外界培训的机器学习模型可能会被数据中毒攻击损坏,将恶意指向到模型的培训集中。对这些攻击的常见防御是数据消毒:在培训模型之前首先过滤出异常培训点。在本文中,我们开发了三次攻击,可以绕过广泛的常见数据消毒防御,包括基于最近邻居,训练损失和奇异值分解的异常探测器。通过增加3%的中毒数据,我们的攻击成功地将Enron垃圾邮件检测数据集的测试错误从3%增加到24%,并且IMDB情绪分类数据集从12%到29%。相比之下,没有明确占据这些数据消毒防御的现有攻击被他们击败。我们的攻击基于两个想法:(i)我们协调我们的攻击将中毒点彼此放置在彼此附近,(ii)我们将每个攻击制定为受限制的优化问题,限制旨在确保中毒点逃避检测。随着这种优化涉及解决昂贵的Bilevel问题,我们的三个攻击对应于基于影响功能的近似近似这个问题的方式; minimax二元性;和karush-kuhn-tucker(kkt)条件。我们的结果强调了对数据中毒攻击产生更强大的防御的必要性。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
我们考虑多级分类的问题,其中普遍选择的查询流到达,并且必须在线分配标签。与寻求最小化错误分类率的传统界定不同,我们将每个查询的总距离最小化到与其正确标签相对应的区域。当通过最近的邻分区确定真正的标签时 - 即点的标签由它最接近欧几里德距离所提供的点,我们表明人们可以实现独立的损失查询总数。我们通过显示学习常规凸集每查询需要几乎线性损耗来补充此结果。我们的结果为语境搜索的几何问题而被遗憾地构建了遗憾的保证。此外,我们制定了一种从多字符分类到二进制分类的新型还原技术,这可能具有独立兴趣。
translated by 谷歌翻译
对对抗性示例强大的学习分类器已经获得了最近的关注。标准强大学习框架的主要缺点是人为强大的RADIUS $ R $,适用于所有输入。这忽略了数据可能是高度异构的事实,在这种情况下,它是合理的,在某些数据区域中,鲁棒性区域应该更大,并且在其他区域中更小。在本文中,我们通过提出名为邻域最佳分类器的新限制分类器来解决此限制,该分类通过使用最接近的支持点的标签扩展其支持之外的贝叶斯最佳分类器。然后,我们认为该分类器可能会使其稳健性区域的大小最大化,但受到等于贝叶斯的准确性的约束。然后,我们存在足够的条件,该条件下可以表示为重量函数的一般非参数方法会聚在此限制,并且显示最近的邻居和内核分类器在某些条件下满足它们。
translated by 谷歌翻译
我们在可实现的PAC设置中从带有边距的可实现的PAC设置中介绍了一种改进的{\ em准正确}学习凸多面体。我们的学习算法将一致的多面体构造为大约$ t \ log t $ halfpace,在$ t $的时间多项式中的恒定尺寸边距(其中$ t $是形成最佳多面体的半个空间的数量)。我们还确定了从覆盖物到多层的覆盖率概念的明显概括,并调查它们如何与几何上的关系;此结果可能具有超出学习设置的后果。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
In the Priority $k$-Center problem, the input consists of a metric space $(X,d)$, an integer $k$, and for each point $v \in X$ a priority radius $r(v)$. The goal is to choose $k$-centers $S \subseteq X$ to minimize $\max_{v \in X} \frac{1}{r(v)} d(v,S)$. If all $r(v)$'s are uniform, one obtains the $k$-Center problem. Plesn\'ik [Plesn\'ik, Disc. Appl. Math. 1987] introduced the Priority $k$-Center problem and gave a $2$-approximation algorithm matching the best possible algorithm for $k$-Center. We show how the problem is related to two different notions of fair clustering [Harris et al., NeurIPS 2018; Jung et al., FORC 2020]. Motivated by these developments we revisit the problem and, in our main technical contribution, develop a framework that yields constant factor approximation algorithms for Priority $k$-Center with outliers. Our framework extends to generalizations of Priority $k$-Center to matroid and knapsack constraints, and as a corollary, also yields algorithms with fairness guarantees in the lottery model of Harris et al [Harris et al, JMLR 2019].
translated by 谷歌翻译
对手的例子是在机器学习模型中广泛研究的现象。虽然大多数关注都集中在神经网络上,但其他实际模型也遭受了这个问题。在这项工作中,我们提出了一种用于评估$ K $ -NEALEST邻居分类的对抗鲁棒性,即找到最小常态对抗示例。从以前的建议发散,我们通过执行从给定输入点向外扩展的搜索来采用几何方法。在高级,搜索半径扩展到附近的Voronoi单元格,直到我们找到与输入点不同的单元格分类。要将算法扩展到大量的k $,我们引入了与基线相比,在各种数据集中相比,介绍了具有较小规范的近似捕获的近似步骤。此外,我们分析了DataSet的结构性属性,我们的方法优于竞争。
translated by 谷歌翻译
我们考虑使用对抗鲁棒性学习的样本复杂性。对于此问题的大多数现有理论结果已经考虑了数据中不同类别在一起或重叠的设置。通过一些实际应用程序,我们认为,相比之下,存在具有完美精度和稳健性的分类器的分类器的良好分离的情况,并表明样品复杂性叙述了一个完全不同的故事。具体地,对于线性分类器,我们显示了大类分离的分布式,其中任何算法的预期鲁棒丢失至少是$ \ω(\ FRAC {D} {n})$,而最大边距算法已预期标准亏损$ o(\ frac {1} {n})$。这表明了通过现有技术不能获得的标准和鲁棒损耗中的间隙。另外,我们介绍了一种算法,给定鲁棒率半径远小于类之间的间隙的实例,给出了预期鲁棒损失的解决方案是$ O(\ FRAC {1} {n})$。这表明,对于非常好的数据,可实现$ O(\ FRAC {1} {n})$的收敛速度,否则就是这样。我们的结果适用于任何$ \ ell_p $ norm以$ p> 1 $(包括$ p = \ idty $)为稳健。
translated by 谷歌翻译
We develop and study new adversarial perturbations that enable an attacker to gain control over decisions in generic Artificial Intelligence (AI) systems including deep learning neural networks. In contrast to adversarial data modification, the attack mechanism we consider here involves alterations to the AI system itself. Such a stealth attack could be conducted by a mischievous, corrupt or disgruntled member of a software development team. It could also be made by those wishing to exploit a ``democratization of AI'' agenda, where network architectures and trained parameter sets are shared publicly. We develop a range of new implementable attack strategies with accompanying analysis, showing that with high probability a stealth attack can be made transparent, in the sense that system performance is unchanged on a fixed validation set which is unknown to the attacker, while evoking any desired output on a trigger input of interest. The attacker only needs to have estimates of the size of the validation set and the spread of the AI's relevant latent space. In the case of deep learning neural networks, we show that a one neuron attack is possible - a modification to the weights and bias associated with a single neuron - revealing a vulnerability arising from over-parameterization. We illustrate these concepts using state of the art architectures on two standard image data sets. Guided by the theory and computational results, we also propose strategies to guard against stealth attacks.
translated by 谷歌翻译
We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
translated by 谷歌翻译
我们研究了清单可解放的平均估计问题,而对手可能会破坏大多数数据集。具体来说,我们在$ \ mathbb {r} ^ $和参数$ 0 <\ alpha <\ frac 1 2 $中给出了一个$ $ n $ points的$ t $ points。$ \ alpha $ -flaction的点$ t $是iid来自乖巧的分发$ \ Mathcal {D} $的样本,剩余的$(1- \ alpha)$ - 分数是任意的。目标是输出小型的vectors列表,其中至少一个接近$ \ mathcal {d} $的均值。我们开发新的算法,用于列出可解码的平均值估计,实现几乎最佳的统计保证,运行时间$ O(n ^ {1 + \ epsilon_0} d)$,适用于任何固定$ \ epsilon_0> 0 $。所有先前的此问题算法都有额外的多项式因素在$ \ frac 1 \ alpha $。我们与额外技术一起利用此结果,以获得用于聚类混合物的第一个近几个线性时间算法,用于分开的良好表现良好的分布,几乎匹配谱方法的统计保证。先前的聚类算法本身依赖于$ k $ -pca的应用程序,从而产生$ \ omega(n d k)$的运行时。这标志着近二十年来这个基本统计问题的第一次运行时间改进。我们的方法的起点是基于单次矩阵乘法权重激发电位减少的$ \ Alpha \至1 $制度中的新颖和更简单的近线性时间较强的估计算法。在Diakonikolas等人的迭代多滤波技术的背景下,我们迫切地利用了这种新的算法框架。 '18,'20,提供一种使用一维投影的同时群集和下群点的方法 - 因此,绕过先前算法所需的$ k $ -pca子程序。
translated by 谷歌翻译
Deep active learning aims to reduce the annotation cost for the training of deep models, which is notoriously data-hungry. Until recently, deep active learning methods were ineffectual in the low-budget regime, where only a small number of examples are annotated. The situation has been alleviated by recent advances in representation and self-supervised learning, which impart the geometry of the data representation with rich information about the points. Taking advantage of this progress, we study the problem of subset selection for annotation through a "covering" lens, proposing ProbCover - a new active learning algorithm for the low budget regime, which seeks to maximize Probability Coverage. We then describe a dual way to view the proposed formulation, from which one can derive strategies suitable for the high budget regime of active learning, related to existing methods like Coreset. We conclude with extensive experiments, evaluating ProbCover in the low-budget regime. We show that our principled active learning strategy improves the state-of-the-art in the low-budget regime in several image recognition benchmarks. This method is especially beneficial in the semi-supervised setting, allowing state-of-the-art semi-supervised methods to match the performance of fully supervised methods, while using much fewer labels nonetheless. Code is available at https://github.com/avihu111/TypiClust.
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译
中毒攻击已成为对机器学习算法的重要安全威胁。已经证明对培训集进行小变化的对手,例如添加特制的数据点,可以损害输出模型的性能。一些更强大的中毒攻击需要全面了解培训数据。这种叶子打开了使用没有完全了解干净训练集的中毒攻击来实现相同的攻击结果的可能性。在这项工作中,我们启动了对上述问题的理论研究。具体而言,对于具有套索的特征选择的情况,我们表明全信息对手(基于培训数据的其余部分的工艺中毒示例)可从未获得培训集的最佳攻击者提供了更强的最佳攻击者数据分发。我们的分离结果表明,数据感知和数据疏忽的两个设置从根本上不同,我们不能希望在这些场景中始终达到相同的攻击或辩护。
translated by 谷歌翻译
ML模型通常使用高质量的大型数据集进行培训。但是,训练数据集通常包含不一致或不完整的数据。为了解决这个问题,一个解决方案是开发可以检查模型的预测是否是可证明的算法的算法。给定生成分类器的学习算法并在测试时间时给出示例,如果通过在不确定(不一致)数据集的所有可能的世界(维修)训练的每个模型中预测,则对分类结果是可证明的稳健。这种坚固性的概念自然地在某些答案的框架下落下。在本文中,我们研究了一个简单但广泛部署的分类算法的认证稳健性的复杂性,$ k $-nearest邻居($ k $ -nn)。当完整性约束是功能依赖性(FDS)时,我们的主要焦点在于不一致的数据集。对于这种环境,我们在认证稳健性W.R.T的复杂性方面建立了二分法。该组FDS:问题要么承认多项式时间算法,或者它是坚固的。此外,我们对问题的计数版本表现出类似的二分法,其中目标是计算预测某个标签的可能世界的数量。作为我们研究的副产品,我们还建立了与寻找可能是独立兴趣的最佳子集修复相关的问题的复杂性。
translated by 谷歌翻译
后门数据中毒攻击是一种对抗的攻击,其中攻击者将几个水印,误标记的训练示例注入训练集中。水印不会影响典型数据模型的测试时间性能;但是,该模型在水印示例中可靠地错误。为获得对后门数据中毒攻击的更好的基础认识,我们展示了一个正式的理论框架,其中一个人可以讨论对分类问题的回溯数据中毒攻击。然后我们使用它来分析这些攻击的重要统计和计算问题。在统计方面,我们识别一个参数,我们称之为记忆能力,捕捉到后门攻击的学习问题的内在脆弱性。这使我们能够争论几个自然学习问题的鲁棒性与后门攻击。我们的结果,攻击者涉及介绍后门攻击的明确建设,我们的鲁棒性结果表明,一些自然问题设置不能产生成功的后门攻击。从计算的角度来看,我们表明,在某些假设下,对抗训练可以检测训练集中的后门的存在。然后,我们表明,在类似的假设下,我们称之为呼叫滤波和鲁棒概括的两个密切相关的问题几乎等同。这意味着它既是渐近必要的,并且足以设计算法,可以识别训练集中的水印示例,以便获得既广泛概念的学习算法,以便在室外稳健。
translated by 谷歌翻译