对于子伽马噪声下的差异隐私,我们通过常规链路函数推导出一类具有二进制值的网络模型的渐近属性。在本文中,我们根据具有离散拉普拉斯机制的一般嘈杂机制来释放二元网络的程度序列。我们建立渐近结果,包括参数估计器的一致性和渐近常态,当参数的数量进入无限远在一类网络模型中时。提供模拟和实际数据示例以说明渐近结果。
translated by 谷歌翻译
在机器学习和高维统计领域的有限样本理论中,恒定指定的浓度不平等至关重要。我们获得了独立亚网络随机变量总和的更清晰和常数的浓度不平等,这导致了两个尾巴的混合物:尺寸的小偏差和较大偏差的小偏差。这些界限是新的,并通过更清晰的常数改善了现有的界限。另外,如果应保留斜体,则新的子韦布尔参数。请检查整个文本。还提出了提出的,它可以为随机变量(向量)恢复紧密浓度不平等。对于统计应用,我们给出了$ \ ell_2 $ - 估计系数在负二项式回归中的估计系数时,当重尾协变量是稀疏结构分布的亚weibull时,这是负二项式回归的新结果。在应用随机矩阵时,我们得出了Bai-Yin定理的非反应版本,用于具有指数尾巴边界的亚weibull条目。最后,通过为没有第二瞬间条件的对数截断的Z-测验器演示一个子静电区域,我们讨论并定义了独立观测值的sub-weibull类型稳健估计器$ \ {x_i \} _ {i = 1 }^{n} $没有指数矩条件。
translated by 谷歌翻译
Bradley-terry-luce(BTL)模型是一个基准模型,用于个人之间的成对比较。尽管最近在几种流行程序的一阶渐近学上进行了最新进展,但对BTL模型中不确定性定量的理解基本上仍然不完整,尤其是当基础比较图很少时。在本文中,我们通过重点关注两个估计量的估计器来填补这一空白:最大似然估计器(MLE)和频谱估计器。使用统一的证明策略,我们在基础比较图的最稀少的可能的制度(最多达到某些多同源因​​素)中,为两个估计量提供了尖锐而均匀的非反应膨胀。这些扩展使我们能够获得:(i)两个估计器的有限维中心限制定理; (ii)构建个人等级的置信区间; (iii)$ \ ell_2 $估计的最佳常数,这是由MLE实现的,但不是由光谱估计器实现的。我们的证明是基于二阶剩余矢量的自洽方程和新的两次分析分析。
translated by 谷歌翻译
在本文中,我们研究了代理人(个人)具有战略性或自我利益的情况,并且在报告数据时关注其隐私。与经典环境相比,我们的目标是设计机制,这些机制既可以激励大多数代理来真实地报告他们的数据并保留个人报告的隐私,而它们的输出也应接近基础参数。在本文的第一部分中,我们考虑了协变量是次高斯的情况,并且在他们只有有限的第四瞬间的情况下进行了重尾。首先,我们是受可能性功能最大化器的固定条件的动机,我们得出了一种新颖的私人和封闭式估计量。基于估算器,我们提出了一种机制,该机制通过对几种规范模型的计算和付款方案进行一些适当的设计具有以下属性,例如线性回归,逻辑回归和泊松回归:(1)机制为$ O(1) $ - 接点差异私有(概率至少$ 1-O(1)$); (2)这是一个$ o(\ frac {1} {n})$ - 近似于$(1-o(1))$的代理的近似贝叶斯nash平衡,以真实地报告其数据,其中$ n $是代理人的数量; (3)输出可能会达到基础参数的$ O(1)$; (4)对于机制中的$(1-o(1))$的代理分数是个人合理的; (5)分析师运行该机制所需的付款预算为$ O(1)$。在第二部分中,我们考虑了在更通用的环境下的线性回归模型,在该设置中,协变量和响应都是重尾,只有有限的第四次矩。通过使用$ \ ell_4 $ -norm收缩运算符,我们提出了一种私人估算器和付款方案,该方案具有与次高斯案例相似的属性。
translated by 谷歌翻译
We provide results that exactly quantify how data augmentation affects the convergence rate and variance of estimates. They lead to some unexpected findings: Contrary to common intuition, data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables. The pathological behavior we identify is not a consequence of complex models, but can occur even in the simplest settings -- one of our examples is a ridge regressor with two parameters. On the other hand, our results also show that data augmentation can have real, quantifiable benefits.
translated by 谷歌翻译
隐私保护数据分析研究了在隐私约束下的统计方法。这是现代统计数据中的一个不断提高的挑战,因为机密性保证的实现通常是通过数据扰动而发生的,这可能会决定数据的统计实用性损失。在本文中,我们考虑对频率表中的拟合优点进行隐私测试,这可以说是释放数据的最常见形式,并对私人可能性比率(LR)的大样本行为进行了严格的分析(LR)测试。在$(\ varepsilon,\ delta)$ - 差异隐私的框架下,我们的主要贡献是私人LR测试的功率分析,该测试的特征是通过差异隐私参数测量的机密性之间的权衡取舍($)( \ varepsilon,\ delta)$和统计实用程序,通过测试功率测量。这是通过bahadur-rao大偏差扩展获得的,用于私人LR测试的功率,从样本量,表和$(\ varepsilon,\ delta)$,这决定了测试功能的损失。然后,将这样的结果应用于与参数$(\ varepsilon,\ delta)$相关的样本量和表尺寸的影响,对私人LR测试的功率损失。特别是,我们确定$(样本)成本(\ varepsilon,\ delta)$ - 私人LR测试中的差异隐私,即在没有缺少多项式LR测试的功率所需的附加样本量扰动。我们的功率分析依赖于LR的非标准大偏差分析,以及用于I.I.D的新颖(尖锐)大偏差原理的发展。随机矢量,具有独立感兴趣。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
Rankings are widely collected in various real-life scenarios, leading to the leakage of personal information such as users' preferences on videos or news. To protect rankings, existing works mainly develop privacy protection on a single ranking within a set of ranking or pairwise comparisons of a ranking under the $\epsilon$-differential privacy. This paper proposes a novel notion called $\epsilon$-ranking differential privacy for protecting ranks. We establish the connection between the Mallows model (Mallows, 1957) and the proposed $\epsilon$-ranking differential privacy. This allows us to develop a multistage ranking algorithm to generate synthetic rankings while satisfying the developed $\epsilon$-ranking differential privacy. Theoretical results regarding the utility of synthetic rankings in the downstream tasks, including the inference attack and the personalized ranking tasks, are established. For the inference attack, we quantify how $\epsilon$ affects the estimation of the true ranking based on synthetic rankings. For the personalized ranking task, we consider varying privacy preferences among users and quantify how their privacy preferences affect the consistency in estimating the optimal ranking function. Extensive numerical experiments are carried out to verify the theoretical results and demonstrate the effectiveness of the proposed synthetic ranking algorithm.
translated by 谷歌翻译
鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本,何时可以生成更大的$ n + m $ samples,这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品?(AXELROD等人2019)将该问题正式化为样本放大问题,并为离散分布和高斯位置模型提供了最佳放大程序。然而,这些程序和相关的下限定制到特定分布类,对样本扩增的一般统计理解仍然很大程度上。在这项工作中,我们通过推出通常适用的放大程序,下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布,包括指数家庭,并在样本放大和分配学习之间建立严格的联系。
translated by 谷歌翻译
在统计和机器学习中具有重尾数据的模型开发强大的估计估计兴趣兴趣。本文提出了一个用于大家庭统计回归的日志截断的M估计,并在数据具有$ \ varepsilon \中的数据(0,1] $。随着相关风险函数的额外假设,我们获得了估计的$ \ ell_2 $ -Error绑定。我们的定理应用于建立具体回归的强大M估计。除了凸面回归等分位数回归之外广义线性模型,许多非凸回归也可以符合我们的定理,我们专注于强大的深度神经网络回归,这可以通过随机梯度下降算法解决。模拟和实际数据分析证明了日志截断估计的优越性超过标准估计。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
网络研究中最根本的问题之一是社区检测。随机块模型(SBM)是一种流行的模型,具有不同的估计方法,其社区检测一致性结果揭晓。但是,SBM受到强烈假设的限制:同一社区中的所有节点在随机上都是等效的,这可能不适合实际应用。我们引入了成对协变量调整后的随机块模型(PCABM),这是SBM的概括,该模型包含成对协变量信息。我们研究协变量和社区分配系数的最大似然估计。结果表明,在适当的稀疏条件下,协变量和社区分配的系数估计均一致。引入了带有调节的光谱聚类(SCWA),以有效地求解PCABM。在某些条件下,我们得出了SCWA下社区检测的错误限制,并表明它是社区检测一致的。此外,研究了模型的选择,并研究了成对协变量的特征选择,并提出了两种相应的算法。当可访问协变量信息时,PCABM与SBM或学位校正的随机块模型(DCBM)进行比较。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
垫子的协方差函数是空间统计和不确定性量化文献中预测的热门选择。垫子纳米级的一个主要好处是,可以精确控制随机过程的平均方形差异性。然而,垫子的纳米阶级具有指数腐烂的尾部,因此可能不适用于建模多项式腐烂的依赖性。使用多项式协方彰可以纠正这个问题;然而,在相应过程的平均方形差异程度上失去控制,在现有多项式考虑因素的随机过程中是无限的平均可分辨率或无论是均值的可分方式。我们构建一个名为\ EMPH {Confluent HyperGeometric}(CH)类的新的协方差函数系列使用垫子\'课程的比例表示,其中一个人获得垫片和多项式协方差的益处。结果协方差包含两个参数:一个控制原点附近的平均方形可分性程度,另一个控制尾部沉重,彼此独立地控制。使用光谱表示,我们导出了这种新协方差的理论属性,包括填充渐近学下的最大似然估计量的等效措施和渐近行为。通过广泛的模拟验证CH类的改进的理论特性。应用使用NASA的轨道碳观察台-2卫星数据证实了CH类在垫子类上的优势,尤其是外推设置。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私(NLDP)模型中估计平滑普遍线性模型(GLM)的问题。与其经典设置不同,我们的模型允许服务器访问一些其他公共但未标记的数据。在本文的第一部分中,我们专注于GLM。具体而言,我们首先考虑每个数据记录均为I.I.D.的情况。从零均值的多元高斯分布中取样。由Stein的引理动机,我们提出了GLMS的$(Epsilon,\ delta)$ -NLDP算法。此外,算法的公共数据和私人数据的示例复杂性以实现$ \ alpha $的$ \ ell_2 $ -norm估计错误(具有高概率)为$ {o}(p \ alpha^{ - 2})$和$ \ tilde {o}(p^3 \ alpha^{ - 2} \ epsilon^{ - 2})$,其中$ p $是特征向量的维度。这是对$ \ alpha^{ - 1} $中先前已知的指数或准过程的重大改进,或者在$ p $中的指数smack sample sample smack glms的复杂性,没有公共数据。然后,我们考虑一个更通用的设置,每个数据记录为I.I.D.从某些次高斯分布中取样,有限制的$ \ ell_1 $ -norm。基于Stein的引理的变体,我们提出了一个$(\ epsilon,\ delta)$ - NLDP算法,用于GLMS的公共和私人数据的样本复杂性,以实现$ \ ell_ \ elfty $ - infty $ -NOMM估计的$ \ alpha误差$是$ is $ {o}(p^2 \ alpha^{ - 2})$和$ \ tilde {o}(p^2 \ alpha^{ - 2} \ epsilon^{ - 2})$,温和的假设,如果$ \ alpha $不太小({\ em i.e.,} $ \ alpha \ geq \ omega(\ frac {1} {\ sqrt {p}}})$)。在本文的第二部分中,我们将我们的想法扩展到估计非线性回归的问题,并显示出与多元高斯和次高斯案例的GLMS相似的结果。最后,我们通过对合成和现实世界数据集的实验来证明算法的有效性。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译