可以通过学习所有类别的接受区域来获得的旨在确定观察属于的所有合理类的新分类范式,旨在识别所有观察属性的所有合理类别。许多现有的设置值分类方法没有考虑到训练数据中从未出现的新类别出现在测试数据中的可能性。此外,当类的数量很大时,它们在计算上很昂贵。我们提出了一种广义预测集(GPS)方法,以估计接受区域,同时考虑测试数据中新类的可能性。提出的分类器可最大程度地减少预测集的预期大小,同时确保特定于类的精度至少为预先指定的值。与以前的方法不同,所提出的方法在准确性,效率和异常检测率之间达到了良好的平衡。此外,我们的方法可以与所有类平行应用以减轻计算负担。进行了理论分析和数值实验,以说明该方法的有效性。
translated by 谷歌翻译
大多数现有的分类方法旨在最大限度地减少整体错误分类错误率,但是,在应用程序中,不同类型的错误可能具有不同的后果。要考虑到这种不对称问题,已经开发了两个流行的范式,即Neyman-Pearson(NP)范式和成本敏感(CS)范式。与CS范例相比,NP PARADIGM不需要提高成本规范。最先前的NP Paradigm的作品集中在二进制案例上。在这项工作中,我们通过将其连接到CS问题并提出两种算法来研究多级NP问题。我们将NP Oracle不等式扩展到二进制案例到多级案例的一致性,并显示我们的两种算法在某些条件下享受这些属性。模拟和实际数据研究表明了我们算法的有效性。据我们所知,这是第一个通过具有理论保证的成本敏感的学习技术来解决多级NP问题的工作。所提出的算法在CRAN上的R包“NPCS”中实现。
translated by 谷歌翻译
经典的错误发现率(FDR)控制程序提供了强大而可解释的保证,而它们通常缺乏灵活性。另一方面,最近的机器学习分类算法是基于随机森林(RF)或神经网络(NN)的算法,具有出色的实践表现,但缺乏解释和理论保证。在本文中,我们通过引入新的自适应新颖性检测程序(称为Adadetect)来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围,尤其是Yang等人的范围。 (2021)。显示AD​​ADETECT既可以强烈控制FDR,又具有在特定意义上模仿甲骨文之一的力量。理论结果,几个基准数据集上的数值实验以及对天体物理数据的应用,我们的方法的兴趣和有效性得到了证明。特别是,虽然可以将AdadEtect与任何分类器结合使用,但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。
translated by 谷歌翻译
预测到优化的框架在许多实际设置中都是基础:预测优化问题的未知参数,然后使用参数的预测值解决该问题。与参数的预测误差相反,在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas(2022)中引入了此损失函数,并被称为智能预测 - 优化(SPO)损失。在这项工作中,我们试图提供有关在SPO损失的背景下,预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz,因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限,在多面体可行区域中,在极端点数中最大程度地比对数扩展,但是,在一般凸的可行区域中,对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性,我们将其表示为强度属性,我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润,这些预测不会产生独特的最佳解决方案,然后在修改后的利润率SPO损失函数的背景下提供了概括界限,而SPO损失函数是Lipschitz的连续。最后,我们表征了强度特性,并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
异常值广泛发生在大数据应用中,可能严重影响统计估计和推理。在本文中,引入了抗强估计的框架,以强制任意给出的损耗函数。它与修剪方法密切连接,并且包括所有样本的显式外围参数,这反过来促进计算,理论和参数调整。为了解决非凸起和非体性的问题,我们开发可扩展的算法,以实现轻松和保证快速收敛。特别地,提出了一种新的技术来缓解对起始点的要求,使得在常规数据集上,可以大大减少数据重采样的数量。基于组合的统计和计算处理,我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的,但在低维度和高维度中享有最小的速率最优性。回归,分类和神经网络的实验表明,在总异常值发生的情况下提出了拟议方法的优异性能。
translated by 谷歌翻译
在统计和机器学习中具有重尾数据的模型开发强大的估计估计兴趣兴趣。本文提出了一个用于大家庭统计回归的日志截断的M估计,并在数据具有$ \ varepsilon \中的数据(0,1] $。随着相关风险函数的额外假设,我们获得了估计的$ \ ell_2 $ -Error绑定。我们的定理应用于建立具体回归的强大M估计。除了凸面回归等分位数回归之外广义线性模型,许多非凸回归也可以符合我们的定理,我们专注于强大的深度神经网络回归,这可以通过随机梯度下降算法解决。模拟和实际数据分析证明了日志截断估计的优越性超过标准估计。
translated by 谷歌翻译
从积极和未标记的(PU)数据中学习是各种应用中的重要问题。最近PU分类的大多数方法假设训练未标记的数据集中的课程(正样本的比率)与测试数据的类别相同,这在许多实际情况下不存在。此外,我们通常不知道培训和测试数据的类别,因此我们没有关于如何在没有它们的情况下训练分类器的线索。为了解决这些问题,我们提出了一种基于密度比估计的新型PU分类方法。我们所提出的方法的显着优势在于它不需要训练阶段中的类前沿;先前的换档仅在测试阶段结合。理论上,理论地证明我们提出的方法和实验证明其有效性。
translated by 谷歌翻译
由于它们对社会决策产生至关重要的影响,因此AI算法不仅应该是准确的,而且应该是公平的。在公平性AI的各种算法中,通过最大程度地降低受特定公平限制的经验风险(例如,跨熵)来学习预测模型。但是,为避免计算困难,给定的公平限制被替代公平限制代替,因为0-1损失被分类问题的凸替代损失所取代。在本文中,我们调查了现有的替代公平限制的有效性,并提出了一种称为幻灯片的新替代公平约束,该公平性在计算上是可行的,并且在渐近上有效,从而使学识渊博的模型无效地满足公平性约束并实现快速融合率。数值实验证实,幻灯片适用于各种基准数据集。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
有监督的分类技术使用培训样本来学习具有小预期0-1损失(错误概率)的分类规则。常规方法可以通过使用替代损失而不是0-1损失并考虑特定的规则家族(假设类别)来实现可拖动学习并提供样本外的概括。本文介绍了Minimax风险分类器(MRCS),该分类器将最差的0-1损失比一般分类规则最小化,并在学习时提供严格的绩效保证。我们表明,使用特征内核给出的特征映射非常普遍地一致。本文还提出了MRC学习的有效优化技术,并表明提出的方法可以提供准确的分类以及实践中的紧张性能保证。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives.
translated by 谷歌翻译
We consider neural networks with a single hidden layer and non-decreasing positively homogeneous activation functions like the rectified linear units. By letting the number of hidden units grow unbounded and using classical non-Euclidean regularization tools on the output weights, they lead to a convex optimization problem and we provide a detailed theoretical analysis of their generalization performance, with a study of both the approximation and the estimation errors. We show in particular that they are adaptive to unknown underlying linear structures, such as the dependence on the projection of the input variables onto a low-dimensional subspace. Moreover, when using sparsity-inducing norms on the input weights, we show that high-dimensional non-linear variable selection may be achieved, without any strong assumption regarding the data and with a total number of variables potentially exponential in the number of observations. However, solving this convex optimization problem in infinite dimensions is only possible if the non-convex subproblem of addition of a new unit can be solved efficiently. We provide a simple geometric interpretation for our choice of activation functions and describe simple conditions for convex relaxations of the finite-dimensional non-convex subproblem to achieve the same generalization error bounds, even when constant-factor approximations cannot be found. We were not able to find strong enough convex relaxations to obtain provably polynomial-time algorithms and leave open the existence or non-existence of such tractable algorithms with non-exponential sample complexities.
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
我们研究了基于分布强大的机会约束的对抗性分类模型。我们表明,在Wasserstein模糊性下,该模型旨在最大限度地减少距离分类距离的条件值 - 风险,并且我们探讨了前面提出的对抗性分类模型和最大限度的分类机的链接。我们还提供了用于线性分类的分布鲁棒模型的重构,并且表明它相当于最小化正则化斜坡损失目标。数值实验表明,尽管这种配方的非凸起,但是标准的下降方法似乎会聚到全球最小值器。灵感来自这种观察,我们表明,对于某一类分布,正则化斜坡损失最小化问题的唯一静止点是全球最小化器。
translated by 谷歌翻译
在漂亮的广义框架下,过去的世纪已经广泛研究了线性预测问题。强大的统计文献中的最新进展允许我们通过手工(MOM)中位数的棱镜分析古典线性模型的强大版本。以零碎的方式结合这些方法可能导致临时程序,以及限制每个个人捐款的受限制理论结论可能不再有效。为了完全应对这些挑战,在这项研究中,我们提供了一个统一的强大框架,包括在希尔伯特空间上具有广泛的线性预测问题,与通用丢失功能相结合。值得注意的是,我们不需要对偏远数据点的分布($ \ mathcal {o} $)的任何假设,也不需要依赖于依赖的支持的紧凑性($ \ mathcal {i} $)。在双规范的温和条件下,我们展示了用于拼盘级别$ \ epsilon $,这些估算器达到$ O(\ max \ left \ {| \ mathcal {o} | ^ {1/2} n ^ {-1/2},| \ mathcal {i} | ^ {1/2} n ^ {-1} n ^ { - 1} \ rick \} + \ epsilon)$,匹配文献中最着名的速率。此速率比$ O的经典速率略慢(n ^ { - 1/2})$,表明我们需要在错误率方面支付价格以获得强大的估计。此外,我们表明,在额外的假设下,可以提高该速率以实现所​​谓的“快速速率”。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
形状约束,例如非负,单调性,凸度或超模型性,在机器学习和统计的各种应用中都起着关键作用。但是,将此方面的信息以艰苦的方式(例如,在间隔的所有点)纳入预测模型,这是一个众所周知的具有挑战性的问题。我们提出了一个统一和模块化的凸优化框架,依赖于二阶锥(SOC)拧紧,以编码属于矢量值重现的载体内核Hilbert Spaces(VRKHSS)的模型对函数衍生物的硬仿射SDP约束。所提出的方法的模块化性质允许同时处理多个形状约束,并将无限数量的约束限制为有限的许多。我们证明了所提出的方案的收敛及其自适应变体的收敛性,利用VRKHSS的几何特性。由于基于覆盖的拧紧构造,该方法特别适合具有小到中等输入维度的任务。该方法的效率在形状优化,机器人技术和计量经济学的背景下进行了说明。
translated by 谷歌翻译