在本文中,我们使用统计方法再现核心克莱伯特空间(RKHS)来研究与集体行为的学习动态特性问题。具体地,我们提供了一个框架,通过计算RKHS中的聚合测量之间的最大平均差异(MMD)来识别和群集多个集群系统,而无需任何先验知识的集合系统动态。然后,利用新提出的聚合马尔可夫参数的新提出的概念的梯度流程,我们介绍了系统框架,以识别和识别使用它们的线性近似的集合系统。最后,我们证明,使用其聚合测量,可以将所提出的方法扩展到RKH中的群集多个未知组合。数值实验表明,我们的方法是具有不同类型的系统动态的合奏是可靠和强大的。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
评估数据流是否是从相同分布中绘制的是各种机器学习问题的核心。这与动态系统生成的数据尤其重要,因为这种系统对于生物医学,经济或工程系统的许多实际过程至关重要。虽然内核两样本测试对于比较独立和相同分布的随机变量具有强大的功能,但没有建立的方法来比较动态系统。主要问题是固有的违反独立假设。我们通过解决三个核心挑战提出了针对动态系统的两样本测试:我们(i)引入了一种新颖的混合概念,该概念在相关度量标准中捕获自相关,(ii)提出了一种有效的方法来估计混合速度纯粹依赖于纯粹依赖混合的速度。数据,(iii)将它们集成到已建立的核两样本测试中。结果是一种数据驱动的方法,可直接在实践中使用,并具有合理的理论保证。在从人类步行数据中进行异常检测的示例应用程序中,我们表明该测试很容易适用,没有任何人类的专家知识和功能工程。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
我们合并计算力学的因果状态(预测等同历史)的定义与再现 - 内核希尔伯特空间(RKHS)表示推断。结果是一种广泛适用的方法,可直接从系统行为的观察中迁移因果结构,无论它们是否超过离散或连续事件或时间。结构表示 - 有限或无限状态内核$ \ epsilon $ -Machine - 由减压变换提取,其提供了有效的因果状态及其拓扑。以这种方式,系统动态由用于在因果状态上的随机(普通或部分)微分方程表示。我们介绍了一种算法来估计相关的演化运营商。平行于Fokker-Plank方程,它有效地发展了因果状态分布,并通过RKHS功能映射在原始数据空间中进行预测。我们展示了这些技术,以及他们的预测能力,在离散时间的离散时间离散 - 有限的无限值Markov订单流程,其中有限状态隐藏马尔可夫模型与(i)有限或(ii)不可数 - 无限因果态和(iii)连续时间,由热驱动的混沌流产生的连续值处理。该方法在存在不同的外部和测量噪声水平和非常高的维数据存在下鲁棒地估计因果结构。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
基于内核的测试提供了一个简单而有效的框架,该框架使用繁殖内核希尔伯特空间的理论设计非参数测试程序。在本文中,我们提出了新的理论工具,可用于在几种数据方案以及许多不同的测试问题中研究基于内核测试的渐近行为。与当前的方法不同,我们的方法避免使用冗长的$ u $和$ v $统计信息扩展并限制定理,该定理通常出现在文献中,并直接与希尔伯特空格上的随机功能合作。因此,我们的框架会导致对内核测试的简单明了的分析,只需要轻度的规律条件。此外,我们表明,通常可以通过证明我们方法所需的规律条件既足够又需要进行必要的规律条件来改进我们的分析。为了说明我们的方法的有效性,我们为有条件的独立性测试问题提供了一项新的内核测试,以及针对已知的基于内核测试的新分析。
translated by 谷歌翻译
提出了用于基于合奏的估计和模拟高维动力系统(例如海洋或大气流)的方法学框架。为此,动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中,Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则,使这种令人尴尬的简单策略成为可能。
translated by 谷歌翻译
We propose two statistical tests to determine if two samples are from different distributions. Our test statistic is in both cases the distance between the means of the two samples mapped into a reproducing kernel Hilbert space (RKHS). The first test is based on a large deviation bound for the test statistic, while the second is based on the asymptotic distribution of this statistic. The test statistic can be computed in O(m 2 ) time. We apply our approach to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where our test performs strongly. We also demonstrate excellent performance when comparing distributions over graphs, for which no alternative tests currently exist.
translated by 谷歌翻译
The kernel Maximum Mean Discrepancy~(MMD) is a popular multivariate distance metric between distributions that has found utility in two-sample testing. The usual kernel-MMD test statistic is a degenerate U-statistic under the null, and thus it has an intractable limiting distribution. Hence, to design a level-$\alpha$ test, one usually selects the rejection threshold as the $(1-\alpha)$-quantile of the permutation distribution. The resulting nonparametric test has finite-sample validity but suffers from large computational cost, since every permutation takes quadratic time. We propose the cross-MMD, a new quadratic-time MMD test statistic based on sample-splitting and studentization. We prove that under mild assumptions, the cross-MMD has a limiting standard Gaussian distribution under the null. Importantly, we also show that the resulting test is consistent against any fixed alternative, and when using the Gaussian kernel, it has minimax rate-optimal power against local alternatives. For large sample sizes, our new cross-MMD provides a significant speedup over the MMD, for only a slight loss in power.
translated by 谷歌翻译
在本文中,我们开发了一种新的更改检测算法,用于检测马尔可夫内核在变化后内核未知的度量空间上的变化。假设Markov前和后马尔可夫内核是均匀的,我们在误报之间的平均延迟和下限上得出了上限。提供了数值模拟以证明我们方法的有效性。
translated by 谷歌翻译
数学模型是动态控制系统设计中的基本构件。随着控制系统变得越来越复杂和网络,基于第一原理的方法达到了限制。数据驱动的方法提供了替代方案。但是,在没有结构知识的情况下,这些方法很容易在训练数据中找到虚假的相关性,这可能会妨碍所获得的模型的概括能力。当系统暴露于未知情况时,这可以显着降低控制和预测性能。先前的因果鉴定可以防止这种陷阱。在本文中,我们提出了一种识别控制系统因果结构的方法。我们根据可控性概念设计实验,该概念提供了一种系统的方法来计算输入轨迹,该输入轨迹将系统引导到其状态空间中的特定区域。然后,我们分析从因果推理中利用强大技术的结果数据,并将其扩展到控制系统。此外,我们得出了保证发现系统真正因果结构的条件。在机器人臂上的实验表明,来自现实世界数据和增强的概括能力的可靠因果鉴定。
translated by 谷歌翻译
概率分布之间的差异措施,通常被称为统计距离,在概率理论,统计和机器学习中普遍存在。为了在估计这些距离的距离时,对维度的诅咒,最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度,我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {(\ sigma)} $的结构和统计行为,用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {(\ sigma)} $的基本度量和拓扑属性之后,我们探索$ \ mathsf {w} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {(\ sigma)} $享受$ n ^ { - 1/2} $的参数经验融合速率,这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {(\ sigma)} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {(\ sigma)} $并导出限制$ \ sqrt {n} \,\ mathsf {d} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,适用于所有尺寸$ d $。作为应用程序,我们提供了使用$ \ mathsf {w} _p ^ {(\ sigma)} $的两个样本测试和最小距离估计的渐近保证,使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {(\ sigma)} $。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
我们在非标准空间上介绍了积极的确定核的新类别,这些空间完全是严格的确定性或特征。特别是,我们讨论了可分离的希尔伯特空间上的径向内核,并在Banach空间和强型负类型的度量空间上引入了广泛的内核。一般结果用于在可分离的$ l^p $空间和一组措施上提供明确的核类。
translated by 谷歌翻译
本文涉及高维度中经验措施的收敛。我们提出了一类新的指标,并表明在这样的指标下,融合不受维度的诅咒(COD)。这样的特征对于高维分析至关重要,并且与经典指标相反({\ it,例如,瓦斯泰尔距离)。所提出的指标源自最大平均差异,我们通过提出选择测试功能空间的特定标准来概括,以确保没有COD的属性。因此,我们将此类别称为广义最大平均差异(GMMD)。所选测试功能空间的示例包括复制的内核希尔伯特空间,巴伦空间和流动诱导的功能空间。提出了所提出的指标的三种应用:1。在随机变量的情况下,经验度量的收敛; 2. $ n $粒子系统的收敛到麦基·维拉索夫随机微分方程的解决方案; 3.构建$ \ varepsilon $ -NASH平衡,用于均质$ n $ - 玩家游戏的平均范围限制。作为副产品,我们证明,考虑到接近GMMD测量的目标分布和目标分布的一定表示,我们可以在Wasserstein距离和相对熵方面生成接近目标的分布。总体而言,我们表明,所提出的指标类是一种强大的工具,可以在没有COD的高维度中分析经验度量的收敛性。
translated by 谷歌翻译
In nonparametric independence testing, we observe i.i.d.\ data $\{(X_i,Y_i)\}_{i=1}^n$, where $X \in \mathcal{X}, Y \in \mathcal{Y}$ lie in any general spaces, and we wish to test the null that $X$ is independent of $Y$. Modern test statistics such as the kernel Hilbert-Schmidt Independence Criterion (HSIC) and Distance Covariance (dCov) have intractable null distributions due to the degeneracy of the underlying U-statistics. Thus, in practice, one often resorts to using permutation testing, which provides a nonasymptotic guarantee at the expense of recalculating the quadratic-time statistics (say) a few hundred times. This paper provides a simple but nontrivial modification of HSIC and dCov (called xHSIC and xdCov, pronounced ``cross'' HSIC/dCov) so that they have a limiting Gaussian distribution under the null, and thus do not require permutations. This requires building on the newly developed theory of cross U-statistics by Kim and Ramdas (2020), and in particular developing several nontrivial extensions of the theory in Shekhar et al. (2022), which developed an analogous permutation-free kernel two-sample test. We show that our new tests, like the originals, are consistent against fixed alternatives, and minimax rate optimal against smooth local alternatives. Numerical simulations demonstrate that compared to the full dCov or HSIC, our variants have the same power up to a $\sqrt 2$ factor, giving practitioners a new option for large problems or data-analysis pipelines where computation, not sample size, could be the bottleneck.
translated by 谷歌翻译
双簇算法分区数据并同时协变量,提供了几个领域的新见解,例如分析基因表达以发现新的生物学功能。本文使用能量距离(ED)和最大平均差异(MMD)的概念在抽象空间中开发了一种新的无模型双簇算法 - 能够处理复杂数据(例如曲线或图形)的概率分布之间的两个距离。所提出的方法比大多数现有文献方法都可以学习更多的通用和复杂的群集形状,这些方法通常着重于检测均值和方差差异。尽管我们的方法的两次簇配置受到限制,以在基准和协变量级别创建不相交结构,但结果是竞争性的。我们的结果与最佳场景中的最新方法相似,假设有适当的内核选择,当群集差异集中在高阶矩中时,它们的表现优于它们。该模型的性能已在涉及模拟和现实世界数据集的几种情况下进行了测试。最后,使用最佳运输理论的一些工具确定了新的理论一致性结果。
translated by 谷歌翻译
从嘈杂和稀疏数据中学习普通微分方程(ODES)的非参数系统$ \ dot x = f(t,x)$是一个新兴的机器学习主题。我们使用良好的复制内核希尔伯特空间(RKHS)的理论来定义$ f $的候选者,该候选者的解决方案存在且独特。Learning $ f $包括解决RKHS中的约束优化问题。我们提出了一种惩罚方法,该方法迭代使用代表定理和Euler近似来提供数值解决方案。我们证明了$ l^2 $距离$ x $及其估算器之间的概括。为Fitzhugh Nagumo振荡器提供了实验,并预测了衰老受试者皮质中的淀粉样蛋白水平。在这两种情况下,与最新技术相比,我们都表现出竞争成果。
translated by 谷歌翻译