内核平均嵌入是表示和比较概率度量的有用工具。尽管具有有用性,但内核的意思是考虑无限维度的特征,在差异私有数据生成的背景下,这是具有挑战性的。最近的一项工作建议使用有限维的随机特征近似数据分布的内核平均值嵌入,从而产生可分析的敏感性。但是,所需的随机特征的数量过高,通常是一千到十万,这会使隐私准确的权衡加剧。为了改善权衡取舍,我们建议用Hermite多项式特征替换随机功能。与随机特征不同,储能多项式特征是排序的,其中低订单的特征包含的分布更多的信息比高订单处的分布更多。因此,与明显更高的随机特征相比,HERMITE多项式特征的相对较低的阶多项式特征可以更准确地近似数据分布的平均嵌入。正如在几个表格和图像数据集中所证明的那样,Hermite多项式特征似乎比随机傅立叶功能更适合私人数据生成。
translated by 谷歌翻译
内核平均值嵌入是一种强大的工具,可以代表任意空间上的概率分布作为希尔伯特空间中的单个点。然而,计算和存储此类嵌入的成本禁止其在大规模设置中的直接使用。我们提出了一个基于NyStr \“ Om方法的有效近似过程,该过程利用了数据集的一个小随机子集。我们的主要结果是该过程的近似误差的上限。它在子样本大小上产生足够的条件以获得足够的条件。降低计算成本的同时,标准的$ n^{ - 1/2} $。我们讨论了此结果的应用,以近似的最大平均差异和正交规则,并通过数值实验说明了我们的理论发现。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
在概率空间或分销回归方面的学习功能的问题正在对机器学习社区产生重大兴趣。此问题背后的一个关键挑战是确定捕获基础功能映射的所有相关属性的合适表示形式。内核平均嵌入式提供了一种原则性的分布回归方法,该方法在概率水平上提高了内核诱导的输入域的相似性。该策略有效地解决了问题的两阶段抽样性质,使人们能够得出具有强大统计保证的估计器,例如普遍的一致性和过度的风险界限。但是,内核平均值嵌入在最大平均差异(MMD)上隐含地铰接,这是概率的度量,可能无法捕获分布之间的关键几何关系。相反,最佳运输(OT)指标可能更具吸引力。在这项工作中,我们提出了一个基于OT的分布回归估计器。我们建立在切成薄片的Wasserstein距离上,以获得基于OT的表示。我们基于这种表示,我们研究了内核脊回归估计量的理论特性,我们证明了普遍的一致性和过多的风险界限。初步实验通过显示提出方法的有效性并将其与基于MMD的估计器进行比较,以补充我们的理论发现。
translated by 谷歌翻译
我们解决了在没有观察到的混杂的存在下的因果效应估计的问题,但是观察到潜在混杂因素的代理。在这种情况下,我们提出了两种基于内核的方法,用于非线性因果效应估计:(a)两阶段回归方法,以及(b)最大矩限制方法。我们专注于近端因果学习设置,但是我们的方法可以用来解决以弗雷霍尔姆积分方程为特征的更广泛的逆问题。特别是,我们提供了在非线性环境中解决此问题的两阶段和矩限制方法的统一视图。我们为每种算法提供一致性保证,并证明这些方法在合成数据和模拟现实世界任务的数据上获得竞争结果。特别是,我们的方法优于不适合利用代理变量的早期方法。
translated by 谷歌翻译
Simulator-based models are models for which the likelihood is intractable but simulation of synthetic data is possible. They are often used to describe complex real-world phenomena, and as such can often be misspecified in practice. Unfortunately, existing Bayesian approaches for simulators are known to perform poorly in those cases. In this paper, we propose a novel algorithm based on the posterior bootstrap and maximum mean discrepancy estimators. This leads to a highly-parallelisable Bayesian inference algorithm with strong robustness properties. This is demonstrated through an in-depth theoretical study which includes generalisation bounds and proofs of frequentist consistency and robustness of our posterior. The approach is then assessed on a range of examples including a g-and-k distribution and a toggle-switch model.
translated by 谷歌翻译
我们有兴趣私有化近似后部推理算法,称为期望传播(EP)。 EP通过迭代地改进到局部可能性的近似近似后,并且已知提供比变差推断(VI)的更好的后不确定性。但是,使用EP对于大规模数据集在内存要求方面对挑战施加了挑战,因为它需要维护存储器中的每个局部近似值。为了克服这个问题,提出了随机期望繁殖(SEP),这仅考虑了一个独特的局部因素,捕获每个可能性术语对后后的平均效果,并以类似于EP的方式改进它。在隐私方面,SEP比EP更具易行,因为在一个因素的每个精炼步骤中,其余因子被固定到相同的值,并且不依赖于EP中的其他数据点,这使得敏感性分析成为易敏感性分析。我们在差异私有随机期望繁殖(DP-SEP)下的后验估计中提供了对隐私准确性权衡的理论分析。此外,我们展示了我们的DP-SEP算法在不同水平的保证隐私的后估计的质量方面评估的综合性和现实数据集。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
Polynomial kernels are among the most popular kernels in machine learning, since their feature maps model the interactions between the dimensions of the input data. However, these features correspond to tensor products of the input with itself, which makes their dimension grow exponentially with the polynomial degree. We address this issue by proposing Complexto-Real (CtR) sketches for tensor products that can be used as random feature approximations of polynomial kernels. These sketches leverage intermediate complex random projections, leading to better theoretical guarantees and potentially much lower variances than analogs using real projections. Our sketches are simple to construct and their final output is real-valued, which makes their downstream use straightforward. Finally, we show that they achieve state-of-the-art performance in terms of accuracy and speed.
translated by 谷歌翻译
We investigate the training and performance of generative adversarial networks using the Maximum Mean Discrepancy (MMD) as critic, termed MMD GANs. As our main theoretical contribution, we clarify the situation with bias in GAN loss functions raised by recent work: we show that gradient estimators used in the optimization process for both MMD GANs and Wasserstein GANs are unbiased, but learning a discriminator based on samples leads to biased gradients for the generator parameters. We also discuss the issue of kernel choice for the MMD critic, and characterize the kernel corresponding to the energy distance used for the Cramér GAN critic. Being an integral probability metric, the MMD benefits from training strategies recently developed for Wasserstein GANs. In experiments, the MMD GAN is able to employ a smaller critic network than the Wasserstein GAN, resulting in a simpler and faster-training algorithm with matching performance. We also propose an improved measure of GAN convergence, the Kernel Inception Distance, and show how to use it to dynamically adapt learning rates during GAN training.
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
已知量子计算机可以在某些专业设置中使用经典的最先进的机器学习方法提供加速。例如,已证明量子内核方法可以在离散对数问题的学习版本上提供指数加速。了解量子模型的概括对于实现实际利益问题的类似加速至关重要。最近的结果表明,量子特征空间的指数大小阻碍了概括。尽管这些结果表明,量子模型在量子数数量较大时无法概括,但在本文中,我们表明这些结果依赖于过度限制性的假设。我们通过改变称为量子内核带宽的超参数来考虑更广泛的模型。我们分析了大量限制,并为可以以封闭形式求解的量子模型的概括提供了明确的公式。具体而言,我们表明,更改带宽的值可以使模型从不能概括到任何目标函数到对准目标的良好概括。我们的分析表明,带宽如何控制内核积分操作员的光谱,从而如何控制模型的电感偏置。我们从经验上证明,我们的理论正确地预测带宽如何影响质量模型在具有挑战性的数据集上的概括,包括远远超出我们理论假设的数据集。我们讨论了结果对机器学习中量子优势的含义。
translated by 谷歌翻译
We introduce the Conditional Independence Regression CovariancE (CIRCE), a measure of conditional independence for multivariate continuous-valued variables. CIRCE applies as a regularizer in settings where we wish to learn neural features $\varphi(X)$ of data $X$ to estimate a target $Y$, while being conditionally independent of a distractor $Z$ given $Y$. Both $Z$ and $Y$ are assumed to be continuous-valued but relatively low dimensional, whereas $X$ and its features may be complex and high dimensional. Relevant settings include domain-invariant learning, fairness, and causal learning. The procedure requires just a single ridge regression from $Y$ to kernelized features of $Z$, which can be done in advance. It is then only necessary to enforce independence of $\varphi(X)$ from residuals of this regression, which is possible with attractive estimation properties and consistency guarantees. By contrast, earlier measures of conditional feature dependence require multiple regressions for each step of feature learning, resulting in more severe bias and variance, and greater computational cost. When sufficiently rich features are used, we establish that CIRCE is zero if and only if $\varphi(X) \perp \!\!\! \perp Z \mid Y$. In experiments, we show superior performance to previous methods on challenging benchmarks, including learning conditionally invariant image features.
translated by 谷歌翻译
我们介绍了一种差别的私有方法来测量遍布两个实体托管的敏感数据之间的非线性相关性。我们提供私人估算器的实用程序保障。我们是第一个非线性相关性的私人估算器,据我们在多方设置中的知识中最好。我们认为的非线性相关的重要措施是距离相关性。这项工作具有直接应用于私有功能筛选,私人独立测试,私人K样品测试,私有多方因果推断和私有数据综合,除了探索数据分析。代码访问:公开访问的链接在补充文件中提供了代码。
translated by 谷歌翻译
深度神经网络(DNNS)铰接对大型数据集的可用性的最新成功;但是,对此类数据集的培训经常为敏感培训信息构成隐私风险。在本文中,我们的目标是探讨生成模型和梯度稀疏性的力量,并提出了一种可扩展的隐私保留生成模型数据标准。与标准展示隐私保留框架相比,允许教师对一维预测进行投票,在高维梯度向量上投票在隐私保存方面具有挑战性。随着需要尺寸减少技术,我们需要在(1)之间的改进之间导航精致的权衡空间,并进行SGD收敛的放缓。为了解决这一点,我们利用通信高效学习,并通过将顶-K压缩与相应的噪声注入机构相结合,提出一种新的噪声压缩和聚集方法TopAGG。理论上,我们证明了DataLens框架保证了其生成数据的差异隐私,并提供了其收敛性的分析。为了展示DataLens的实际使用情况,我们对不同数据集进行广泛的实验,包括Mnist,Fashion-Mnist和高维Celeba,并且我们表明,DataLens显着优于其他基线DP生成模型。此外,我们改进了所提出的Topagg方法,该方法是DP SGD培训的主要构建块之一,并表明它能够在大多数情况下实现比最先进的DP SGD方法更高的效用案件。我们的代码在HTTPS://github.com/ai-secure/datalens公开提供。
translated by 谷歌翻译
过度参数化神经网络(NNS)的小概括误差可以通过频率偏见现象来部分解释,在频率偏置现象中,基于梯度的算法将低频失误最小化,然后再减少高频残差。使用神经切线内核(NTK),可以为训练提供理论上严格的分析,其中数据是从恒定或分段构剂概率密度绘制的数据。由于大多数训练数据集不是从此类分布中汲取的,因此我们使用NTK模型和数据依赖性的正交规则来理论上量化NN训练的频率偏差,给定完全不均匀的数据。通过用精心选择的Sobolev规范替换损失函数,我们可以进一步扩大,抑制,平衡或逆转NN训练中的内在频率偏差。
translated by 谷歌翻译
本文提出了一种新颖的协作生成建模(CGM)框架,可激励自私各方之间的合作,以将数据贡献给池,用于培训生成模型(例如,GaN),从中绘制并将其分发给奖励的合成数据符合他们的贡献。将合成数据分配为奖励(而不是培训的型号或金钱)为下游学习任务提供任务和模型无关效益,并且不太可能违反数据隐私监管。为了实现框架,我们首先使用最大平均差异(MMD)提出数据估值函数,这些归属差异(MMD)在其近距离真实数据分布方面基于其数量和质量来提出数据,并提供指导我们MMD中的内核选择的理论结果基于数据估值功能。然后,我们将奖励方案制定为线性优化问题,当解决时,保证CGM框架中的某些激励措施如公平性。我们设计了一种加权采样算法,用于生成待分发的合成数据作为奖励,使得其数据的值和合成数据组合将其分配的奖励值与奖励方案相匹配。我们经验展示了使用派对合成数据奖励的模拟和实际数据集以符合其贡献。
translated by 谷歌翻译
概率分布之间的差异措施,通常被称为统计距离,在概率理论,统计和机器学习中普遍存在。为了在估计这些距离的距离时,对维度的诅咒,最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度,我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {(\ sigma)} $的结构和统计行为,用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {(\ sigma)} $的基本度量和拓扑属性之后,我们探索$ \ mathsf {w} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {(\ sigma)} $享受$ n ^ { - 1/2} $的参数经验融合速率,这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {(\ sigma)} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {(\ sigma)} $并导出限制$ \ sqrt {n} \,\ mathsf {d} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,适用于所有尺寸$ d $。作为应用程序,我们提供了使用$ \ mathsf {w} _p ^ {(\ sigma)} $的两个样本测试和最小距离估计的渐近保证,使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {(\ sigma)} $。
translated by 谷歌翻译
机器学习的最新进展主要受益于大规模的可访问培训数据。但是,大规模的数据共享提出了极大的隐私问题。在这项工作中,我们提出了一种基于PAINE框架(G-PATE)的新型隐私保留数据生成模型,旨在训练可缩放的差异私有数据生成器,其保留高生成的数据实用程序。我们的方法利用生成的对抗性网来产生数据,与不同鉴别者之间的私人聚集相结合,以确保强烈的隐私保障。与现有方法相比,G-PATE显着提高了隐私预算的使用。特别是,我们用教师鉴别者的集合训练学生数据发生器,并提出一种新颖的私人梯度聚合机制,以确保对从教师鉴别者流到学生发电机的所有信息的差异隐私。另外,通过随机投影和梯度离散化,所提出的梯度聚合机制能够有效地处理高维梯度向量。从理论上讲,我们证明了G-PATE确保了数据发生器的差异隐私。经验上,我们通过广泛的实验证明了G-PAIN的优越性。我们展示了G-PATE是第一个能够在限量隐私预算下产生高数据实用程序的高维图像数据($ \ epsilon \ LE 1 $)。我们的代码可在https://github.com/ai-secure/gate上获得。
translated by 谷歌翻译