We propose the tensorizing flow method for estimating high-dimensional probability density functions from the observed data. The method is based on tensor-train and flow-based generative modeling. Our method first efficiently constructs an approximate density in the tensor-train form via solving the tensor cores from a linear system based on the kernel density estimators of low-dimensional marginals. We then train a continuous-time flow model from this tensor-train density to the observed empirical distribution by performing a maximum likelihood estimation. The proposed method combines the optimization-less feature of the tensor-train with the flexibility of the flow-based generative models. Numerical results are included to demonstrate the performance of the proposed method.
translated by 谷歌翻译
The optimal design of experiments typically involves solving an NP-hard combinatorial optimization problem. In this paper, we aim to develop a globally convergent and practically efficient optimization algorithm. Specifically, we consider a setting where the pre-treatment outcome data is available and the synthetic control estimator is invoked. The average treatment effect is estimated via the difference between the weighted average outcomes of the treated and control units, where the weights are learned from the observed data. {Under this setting, we surprisingly observed that the optimal experimental design problem could be reduced to a so-called \textit{phase synchronization} problem.} We solve this problem via a normalized variant of the generalized power method with spectral initialization. On the theoretical side, we establish the first global optimality guarantee for experiment design when pre-treatment data is sampled from certain data-generating processes. Empirically, we conduct extensive experiments to demonstrate the effectiveness of our method on both the US Bureau of Labor Statistics and the Abadie-Diemond-Hainmueller California Smoking Data. In terms of the root mean square error, our algorithm surpasses the random design by a large margin.
translated by 谷歌翻译
无限维功能空间之间的学习映射已在机器学习的许多学科中取得了经验成功,包括生成建模,功能数据分析,因果推理和多方面的增强学习。在本文中,我们研究了在两个无限维sobolev繁殖内核希尔伯特空间之间学习希尔伯特 - 施密特操作员的统计限制。我们根据Sobolev Hilbert-Schmidt规范建立了信息理论的下限,并表明一种正规化学习了偏见轮廓以下的光谱成分,并且忽略了差异高于方差轮廓的频谱成分可以达到最佳学习率。同时,偏置和方差轮廓之间的光谱成分为我们设计计算可行的机器学习算法的灵活性。基于此观察结果,我们开发了一种多级内核操作员学习算法,该算法在无限维函数空间之间学习线性运算符时是最佳的。
translated by 谷歌翻译
尽管过度参数化的模型已经在许多机器学习任务上表现出成功,但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时,重要的加权是一种处理分配转移的传统技术,已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中,我们提出了重要的回火来改善决策界限,并为过度参数化模型取得更好的结果。从理论上讲,我们证明在标签移位和虚假相关设置下,组温度的选择可能不同。同时,我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲,我们使用重要性回火来实现最严重的小组分类任务的最新结果。
translated by 谷歌翻译
在本文中,我们提出了一个基于树张量网状状态的密度估计框架。所提出的方法包括使用Chow-Liu算法确定树拓扑,并获得线性系统通过草图技术定义张量 - 网络组件的线性系统。开发了草图功能的新颖选择,以考虑包含循环的图形模型。提供样品复杂性保证,并通过数值实验进一步证实。
translated by 谷歌翻译
在基于模型的马尔可夫决策过程的大多数应用中,通常从经验数据中估算出未知基础模型的参数。由于噪音,从估计模型中学到的政策通常与基础模型的最佳政策相去甚远。当应用于基础模型的环境时,学习的政策会导致次优性能,因此要求提供更好的概括性能的解决方案。在这项工作中,我们采用贝叶斯的观点,并通过先验信息将马尔可夫决策过程的目标函数正规化,以获得更强大的策略。提出了两种方法,一种基于$ l^1 $正则化,另一种基于相对熵正则化。我们评估了有关合成模拟和大规模在线购物商店的现实搜索日志的建议算法。我们的结果证明了正则MDP策略对模型中存在的噪声的鲁棒性。
translated by 谷歌翻译
在本文中,我们研究了使用一般目标函数类别的嘈杂观测来解决梯度下降的Sobolev规范的统计限制。我们的目标功能类别包括用于内核回归的SOBOLEV培训,深层RITZ方法(DRM)和物理知识的神经网络(PINN),以解决椭圆形偏微分方程(PDES)作为特殊情况。我们考虑使用合适的再现核希尔伯特空间和通过内核积分运算符的定义对问题硬度的连续参数化考虑模型的潜在无限二维参数化。我们证明,该目标函数上的梯度下降也可以实现统计最佳性,并且数据的最佳通过数随样本量增加而增加。基于我们的理论,我们解释了使用SOBOLOLEV标准作为训练的目标函数的隐含加速度,推断出DRM的最佳时期数量在数据大小和任务的硬度增加时,DRM的最佳数量变得大于PINN的数量,尽管DRM和PINN都可以实现统计最佳性。
translated by 谷歌翻译
神经网络损失景观的二次近似已被广泛用于研究这些网络的优化过程。但是,它通常位于最低限度的一个很小的社区,但无法解释在优化过程中观察到的许多现象。在这项工作中,我们研究了神经网络损失函数的结构及其对超出良好二次近似范围的区域中优化的影响。从数值上讲,我们观察到神经网络损失功能具有多尺度结构,以两种方式表现出来:(1)在Minima的社区中,损失将量表的连续体和次级次序增长,(2)在较大的区域,损失,损失,损失,清楚地显示了几个单独的秤。使用次级生长,我们能够解释梯度下降(GD)方法观察到的稳定现象的边缘[5]。使用单独的量表,我们通过简单示例解释学习率衰减的工作机理。最后,我们研究了多尺度结构的起源,并提出模型的非跨性别性和训练数据的不均匀性是原因之一。通过构建两层神经网络问题,我们表明,具有不同幅度的训练数据会产生损失函数的不同尺度,从而产生次级生长和多个单独的尺度。
translated by 谷歌翻译
最近的一系列工作都集中在执行设置中的培训机器学习(ML)模型,即,当数据分布对部署的模型作出反应时。该设置中的目标是学习一个模型,它们都会引起有利的数据分布,并且在诱导的分布上表现良好,从而最小化测试损耗。以前的研究找到最佳模型假定数据分布立即适应部署的模型。然而,在实践中,这可能不是这种情况,因为人口可能需要时间来适应模型。在许多应用中,数据分发取决于当前部署的ML模型和在部署模型之前的“状态”。在这项工作中,我们提出了一种新的算法,有状态表现梯度下降(有状态perfgd),即使在存在这些效果的情况下也使得即使在这些效果的存在中最小化性能损失。我们为有状态行为的融合提供了理论保障。我们的实验证实,有状态的PERGD大幅优于以前的最先进的方法。
translated by 谷歌翻译
在本文中,我们研究了使用深丽升方法(DRM)和物理信息的神经网络(Pinns)从随机样品求解椭圆局部微分方程(PDE)的深度学习技术的统计限制。为了简化问题,我们专注于原型椭圆PDE:SCHR \“odinginger方程,具有零的Dirichlet边界条件,其在量子 - 机械系统中具有广泛的应用。我们为两种方法建立了上下界,通过快速速率泛化绑定并发地改善了这个问题的上限。我们发现当前的深ritz方法是次优的,提出修改版本。我们还证明了Pinn和DRM的修改版本可以实现Minimax SoboLev空间的最佳限制。经验上,近期工作表明,根据权力法,我们提供了培训训练的深层模型精度,我们提供了计算实验,以显示对深PDE求解器的尺寸依赖权力法的类似行为。
translated by 谷歌翻译