我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
We introduce and analyze NetOTC, a procedure for the comparison and soft alignment of weighted networks. Given two networks and a cost function relating their vertices, NetOTC finds an appropriate coupling of their associated random walks having minimum expected cost. The minimizing cost provides a numerical measure of the difference between the networks, while the optimal transport plan itself provides interpretable, probabilistic alignments of the vertices and edges of the two networks. The cost function employed can be based, for example, on vertex degrees, externally defined features, or Euclidean embeddings. Coupling of the full random walks, rather than their stationary distributions, ensures that NetOTC captures local and global information about the given networks. NetOTC applies to networks of different size and structure, and does not the require specification of free parameters. NetOTC respects edges, in the sense that vertex pairs in the given networks are aligned with positive probability only if they are adjacent in the given networks. We investigate a number of theoretical properties of NetOTC that support its use, including metric properties of the minimizing cost and its connection with short- and long-run average cost. In addition, we introduce a new notion of factor for weighted networks, and establish a close connection between factors and NetOTC. Complementing the theory, we present simulations and numerical experiments showing that NetOTC is competitive with, and sometimes superior to, other optimal transport-based network comparison methods in the literature. In particular, NetOTC shows promise in identifying isomorphic networks using a local (degree-based) cost function.
translated by 谷歌翻译
We study a family of adversarial multiclass classification problems and provide equivalent reformulations in terms of: 1) a family of generalized barycenter problems introduced in the paper and 2) a family of multimarginal optimal transport problems where the number of marginals is equal to the number of classes in the original classification problem. These new theoretical results reveal a rich geometric structure of adversarial learning problems in multiclass classification and extend recent results restricted to the binary classification setting. A direct computational implication of our results is that by solving either the barycenter problem and its dual, or the MOT problem and its dual, we can recover the optimal robust classification rule and the optimal adversarial strategy for the original adversarial problem. Examples with synthetic and real data illustrate our results.
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
概率分布之间的差异措施,通常被称为统计距离,在概率理论,统计和机器学习中普遍存在。为了在估计这些距离的距离时,对维度的诅咒,最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度,我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {(\ sigma)} $的结构和统计行为,用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {(\ sigma)} $的基本度量和拓扑属性之后,我们探索$ \ mathsf {w} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {(\ sigma)} $享受$ n ^ { - 1/2} $的参数经验融合速率,这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {(\ sigma)} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {(\ sigma)} $并导出限制$ \ sqrt {n} \,\ mathsf {d} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,适用于所有尺寸$ d $。作为应用程序,我们提供了使用$ \ mathsf {w} _p ^ {(\ sigma)} $的两个样本测试和最小距离估计的渐近保证,使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {(\ sigma)} $。
translated by 谷歌翻译
近年来,生成的对抗性网络(GANS)已经证明了令人印象深刻的实验结果,同时只有一些作品促进了统计学习理论。在这项工作中,我们提出了一种用于生成对抗性学习的无限尺寸理论框架。假设统一界限的$ k $-times $ \ alpha $ -h \“较旧的可分辨率和统一的正密度,我们表明Rosenblatt的转换引起了最佳发电机,可在$ \ alpha $的假设空间中可实现H \“较旧的微分发电机。通过一致的鉴别者假设空间的定义,我们进一步表明,在我们的框架中,由发电机引起的分布与来自对手学习过程的分布之间的jensen-shannon发散,并且数据生成分布会聚到零。在足够严格的规律性假设下对数据产生过程密度的假设,我们还基于浓度和链接提供会聚率。
translated by 谷歌翻译
素描的Wasserstein距离($ W^S $)是专门针对有限混合物分布的新概率距离。给定概率分布的集合$ \ MATHCAL {a} $定义的任何度量$ d $,$ w^s $定义为该指标的最判别凸扩展为space $ \ mathcal {s} = \ textrm {cons}(\ Mathcal {a})$ \ Mathcal {a} $的元素混合物的$。我们的表示定理表明,以这种方式构建的空间$(\ MATHCAL {S},w^s)$对$ \ MATHCAL {x} =(\ Mathcal {a},d)$的wasserstein空间是同构的。该结果为Wasserstein距离建立了普遍性,表明它们的特征是它们具有有限混合物的判别能力。我们利用此表示定理提出了基于Kantorovich--Rubenstein二元性的估计方法,并证明了一般定理,该定理表明其估计误差可以由任何估计混合物重量和混合物组件的误差的总和来限制。这些数量的估计器。在$ p $二维离散$ k $ -mixtures的情况下,我们得出了估计$ w^s $的尖锐统计属性,我们显示的可以估计的速率与$ \ sqrt {k/n} $,达到对数因素。我们对这些边界进行了互补,以估计$ k $ - 点度量空间上的分布之间的瓦斯汀距离的风险,这与我们的上限与对数因素相匹配。该结果是用于估计离散分布之间的Wasserstein距离的第一个接近最小的下限。此外,我们构造了混合物权重的$ \ sqrt {n} $渐变正常的估计器,并得出了我们$ w^s $的估计器的$ \ sqrt {n} $分布限制。仿真研究和数据分析为新素描的瓦斯汀距离的适用性提供了强有力的支持。
translated by 谷歌翻译
我们研究了随着正则化参数的消失,差异调节的最佳转运的收敛性消失。一般差异的尖锐费率包括相对熵或$ l^{p} $正则化,一般运输成本和多边界问题。使用量化和Martingale耦合的新方法适用于非紧密的边际和实现,特别是对于所有有限$(2+ \ delta)$ - 时刻的边缘的熵正规化2-wasserstein距离的尖锐前阶项。
translated by 谷歌翻译
Wassersein距离,植根于最佳运输(OT)理论,是在统计和机器学习的各种应用程序之间的概率分布之间的流行差异测量。尽管其结构丰富,但效用,但Wasserstein距离对所考虑的分布中的异常值敏感,在实践中阻碍了适用性。灵感来自Huber污染模型,我们提出了一种新的异常值 - 强大的Wasserstein距离$ \ mathsf {w} _p ^ \ varepsilon $,它允许从每个受污染的分布中删除$ \ varepsilon $异常块。与以前考虑的框架相比,我们的配方达到了高度定期的优化问题,使其更好地分析。利用这一点,我们对$ \ mathsf {w} _p ^ \ varepsilon $的彻底理论研究,包括最佳扰动,规律性,二元性和统计估算和鲁棒性结果的表征。特别是,通过解耦优化变量,我们以$ \ mathsf {w} _p ^ \ varepsilon $到达一个简单的双重形式,可以通过基于标准的基于二元性的OT响音器的基本修改来实现。我们通过应用程序来说明我们的框架的好处,以与受污染的数据集进行生成建模。
translated by 谷歌翻译
我们研究只有历史数据时设计最佳学习和决策制定公式的问题。先前的工作通常承诺要进行特定的数据驱动配方,并随后尝试建立样本外的性能保证。我们以相反的方式采取了相反的方法。我们首先定义一个明智的院子棒,以测量任何数据驱动的公式的质量,然后寻求找到最佳的这种配方。在非正式的情况下,可以看到任何数据驱动的公式可以平衡估计成本与实际成本的接近度的量度,同时保证了样本外的性能水平。考虑到可接受的样本外部性能水平,我们明确地构建了一个数据驱动的配方,该配方比任何其他享有相同样本外部性能的其他配方都更接近真实成本。我们展示了三种不同的样本外绩效制度(超大型制度,指数状态和次指数制度)之间存在,最佳数据驱动配方的性质会经历相变的性质。最佳数据驱动的公式可以解释为超级稳定的公式,在指数方面是一种熵分布在熵上稳健的公式,最后是次指数制度中的方差惩罚公式。这个最终的观察揭示了这三个观察之间的令人惊讶的联系,乍一看似乎是无关的,数据驱动的配方,直到现在仍然隐藏了。
translated by 谷歌翻译
Wasserstein的分布在强大的优化方面已成为强大估计的有力框架,享受良好的样本外部性能保证,良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中,通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中,我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架,我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的,在该状态下,环境维度和样品数量都以相对的速度进行编码,该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下,我们表明可以恢复平方误差作为凸 - 串联优化问题的解,令人惊讶的是,它在最多四个标量变量中都涉及。据我们所知,这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
三角形流量,也称为kn \“{o}的Rosenblatt测量耦合,包括用于生成建模和密度估计的归一化流模型的重要构建块,包括诸如实值的非体积保存变换模型的流行自回归流模型(真实的NVP)。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是,我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状,优化坐标排序,并导致雅各比比流动的统计保证。我们对合成数据进行数值实验,以说明我们理论发现的实际意义。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
储层计算系统是使用驱动的动力系统构建的,在该系统中,外部输入可以改变系统的发展状态。这些范例用于信息处理,机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性,并表明当输入和输出过程的集合赋予了Wasserstein距离时,它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的,该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性,这通常是为了保证储层计算中的回声状态属性的需求。结果,即使不存在Echo State属性,也可能会得到满足。
translated by 谷歌翻译
我们研究基于度量传输的非参数密度估计器的收敛性和相关距离。这些估计量代表了利息的度量,作为传输图下选择的参考分布的推动力,其中地图是通过最大似然目标选择(等效地,将经验性的kullback-leibler损失)或其受惩罚版本选择。我们通过将M估计的技术与基于运输的密度表示的分析性能相结合,为一般惩罚措施估计量的一般类别的措施运输估计器建立了浓度不平等。然后,我们证明了我们的理论对三角形knothe-rosenblatt(kr)在$ d $维单元方面的运输的含义,并表明该估计器的惩罚和未化的版本都达到了Minimax最佳收敛速率,超过了H \ \ \'“较旧的密度类别。具体来说,我们建立了在有限的h \“较旧型球上,未确定的非参数最大似然估计,然后在某些sobolev-penalate的估计器和筛分的小波估计器中建立了最佳速率。
translated by 谷歌翻译
我们在具有Martingale差异噪声的可实现的时间序列框架中学习正方形损失。我们的主要结果是一个快速率的多余风险结合,这表明每当轨迹超收缩条件成立时,依赖数据的最小二乘估计器的风险与燃烧时间后的IID速率订单匹配。相比之下,从依赖数据中学习的许多现有结果都具有有效的样本量,即使在燃烧时间之后,有效的样本量也被基础过程的混合时间降低。此外,我们的结果允许协变量过程表现出远距离相关性,这些相关性大大弱于几何牙齿。我们将这种现象学习称为几乎没有混合的方式,并为其示出了几个示例:$ l^2 $和$ l^{2+\ epsilon} $ norms的有界函数类是等效的,有限的有限态Markov链,各种参数模型,以及一个无限尺寸$ \ ell^2(\ mathbb {n})$椭圆形的广阔家族。通过将我们的主要结果实例化,以使用广义线性模型过渡对非线性动力学的系统识别,我们仅在多项式燃烧时间后获得了几乎最小的最佳超量风险。
translated by 谷歌翻译
假设我们在$ \ mathbb {r} ^ d $和predictor x中的响应变量y在$ \ mathbb {r} ^ d $,以便为$ d \ geq 1 $。在置换或未解释的回归中,我们可以访问x和y上的单独无序数据,而不是在通常回归中的(x,y)-pabes上的数据。到目前为止,在文献中,案件$ d = 1 $已收到关注,请参阅例如近期的纸张和杂草[信息和推理,8,619--717]和Balabdaoui等人。 [J.马赫。学习。 res,22(172),1-60]。在本文中,我们考虑使用$ d \ geq 1 $的一般多变量设置。我们表明回归函数的周期性单调性的概念足以用于置换/未解释的回归模型中的识别和估计。我们在允许的回归设置中研究置换恢复,并在基于Kiefer-WolfoItz的基于代索的计算高效且易用算法[ANN。数学。统计部。,27,887--906]非参数最大似然估计和来自最佳运输理论的技术。我们在高斯噪声的相关均方方向误差误差上提供显式上限。与之前的案件的工作$ d = 1 $一样,置换/未解释的设置涉及潜在的解卷积问题的慢速(对数)收敛率。数值研究证实了我们的理论分析,并表明所提出的方法至少根据上述事先工作中的方法进行了比例,同时在计算复杂性方面取得了大量减少。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译