非线性独立组件分析(NICA)旨在恢复未知非线性函数混合的统计独立的潜在组件。 NICA的核心是潜在组件的可识别性,直到最近才难以捉摸。具体而言,Hyv \“ Arinen等人都表明,在广义对比度学习(GCL)配方中,非线性混合的潜在组件是可识别的(通常是无关紧要的歧义性),因为潜在组件是独立于某个辅助变量的独立条件。 NICA的基于GCL的可识别性非常优雅,并在表示形式学习,因果学习和因素分解范围内建立了有趣的联系与流行的无监督/自我监督的学习范例以及理想的通用功能学习者的使用 - 在理论和实践之间造成了不可忽略的差距。缩小差距是一个非平凡的挑战,因为缺乏既定的``教科书''常规,以进行这种无监督的样本分析问题。这项工作提出了基于GCL的NICA的有限样本可识别性分析。我们的分析方法iCal框架明智地结合了GCL损失函数,统计概括分析和数值分化的特性。我们的框架还考虑了学习函数的近似错误,并揭示了就业功能学习者的复杂性和表现力之间的直观权衡。数值实验用于验证定理。
translated by 谷歌翻译
对比度学习是无监督表示学习的最新有前途的方法,其中通过从未标记的数据中求解伪分类问题来学习数据的特征表示。但是,了解哪些表示对比度学习产量并不直接。此外,对比度学习通常基于最大似然估计,这往往容易受到异常值污染的影响。为了促进对比度学习的理解,本文理论上首先显示了与共同信息(MI)最大化的联系。我们的结果表明,在某些条件下,密度比估计是必需的,足以使MI最大化。因此,在流行目标功能中完成的与密度比估计相关的对比学习可以解释为最大化MI。接下来,随着密度比,我们在非线性独立组件分析(ICA)中为潜在源组件建立了新的恢复条件。与现有工作相反,既定条件包括对数据维度的新见解,该洞察力显然得到了数值实验的支持。此外,受非线性ICA的启发,我们提出了一个新型框架,以估算低维度潜在源组件的非线性子空间,并以密度比建立了一些基本空间估计的理论条件。然后,我们通过异常抗体密度比估计提出了一种实用方法,可以看作是对MI,非线性ICA或非线性子空间估计的最大化。此外,还提出了样品有效的非线性ICA方法。我们从理论上研究了所提出的方法的异常体性。最后,在非线性ICA中并通过应用线性分类,在数值上证明了所提出方法的有用性。
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
自我监督的表示学习解决辅助预测任务(称为借口任务),而不需要标记数据以学习有用的语义表示。这些借口任务仅使用输入特征,例如预测缺失的图像修补程序,从上下文中恢复图像的颜色通道,或者预测文本中的缺失单词;然而,预测该\ Texit {已知}信息有助于学习对下游预测任务的学习陈述。我们提供利用某些{\ EM重建}借口任务之间的统计连接的机制,以保证学习良好代表性。正式地,我们量化了借口任务的组件之间的近似独立性(标签和潜在变量的条件)允许我们学习可以通过训练在学习表示的顶部的线性层来解决下游任务的表示。我们证明了线性层即使对于复杂的地面真理函数类,也会产生小的近似误差,并且将急剧减少标记的样本复杂性。接下来,我们展示了我们方法的简单修改,导致非线性CCA,类似于流行的Simsiam算法,并显示了非线性CCA的类似保证。
translated by 谷歌翻译
Artificial neural networks are functions depending on a finite number of parameters typically encoded as weights and biases. The identification of the parameters of the network from finite samples of input-output pairs is often referred to as the \emph{teacher-student model}, and this model has represented a popular framework for understanding training and generalization. Even if the problem is NP-complete in the worst case, a rapidly growing literature -- after adding suitable distributional assumptions -- has established finite sample identification of two-layer networks with a number of neurons $m=\mathcal O(D)$, $D$ being the input dimension. For the range $D<m<D^2$ the problem becomes harder, and truly little is known for networks parametrized by biases as well. This paper fills the gap by providing constructive methods and theoretical guarantees of finite sample identification for such wider shallow networks with biases. Our approach is based on a two-step pipeline: first, we recover the direction of the weights, by exploiting second order information; next, we identify the signs by suitable algebraic evaluations, and we recover the biases by empirical risk minimization via gradient descent. Numerical results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
我们的目标是恢复时间延迟的潜在因果变量,并确定其与测量的时间数据的关系。由于在最常规情况下潜在的变量并不唯一可恢复,估计来自观察的因果关系差别尤其具有挑战性。在这项工作中,我们考虑潜在过程的非参数,非间断设置和参数设置,并提出了两个可提供的条件,在该可提供条件下,可以从其非线性混合物中识别时间上发生因果潜在过程。我们提出了一系列的理论上接地的架构,通过在原因过程中通过适当的约束来实现我们的条件来扩展变形AutoEncoders(VAES)。各种数据集的实验结果表明,在不同依赖结构下,从观察到的变量可靠地识别了时间的因果关系潜在过程,并且我们的方法显着优于不利用历史记录或非间常信息的基线。这是第一种工作之一,即在不使用稀疏性或最小的假设的情况下成功地从非线性混合物中恢复时间延迟潜在的过程之一。
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
监督表示学习的目标是为预测构建有效的数据表示。在高维复杂数据的理想非参数表示的所有特征中,充分性,低维度和脱离是最重要的。我们提出了一种深层缩小方法,以使用这些特征来学习表示表示。提出的方法是对足够降低方法的非参数概括。我们制定理想的表示学习任务是找到非参数表示,该任务最小化了表征条件独立性并促进人口层面的分离的目标函数。然后,我们使用深层神经网络在非参数上估计样品级别的目标表示。我们表明,估计的深度非参数表示是一致的,因为它的过剩风险会收敛到零。我们使用模拟和真实基准数据的广泛数值实验表明,在分类和回归的背景下,所提出的方法比现有的几种降低方法和标准深度学习模型具有更好的性能。
translated by 谷歌翻译
我们提出了一种基于信息的足够表示学习(MSRL)方法,该方法使用了相互信息的变异表述,并利用了深神经网络的近似能力。 MSRL以最大的互明信息和用户选择的分布来学习足够的表示形式。它可以轻松处理多维连续或分类响应变量。在给定预测变量给定预测变量给定的响应变量的条件概率密度函数的情况下,响应变量的条件概率密度函数的意义上,MSRL被证明是一致的。在适当的条件下,也建立了MSRL的非反应误差界。为了建立误差范围,我们得出了普遍的达德利对订单的不平等,这是由深度神经网络索引的u-process索引,这可能具有独立的关注。我们讨论如何确定基础数据分布的内在维度。此外,我们通过广泛的数值实验和实际数据分析评估了MSRL的性能,并证明MSRL优于某些现有的非线性降低方法。
translated by 谷歌翻译
我们证明了(a)具有通用近似功能的广泛的深层变量模型的可识别性,并且(b)是通常在实践中使用的变异自动编码器的解码器。与现有工作不同,我们的分析不需要弱监督,辅助信息或潜在空间中的条件。最近,研究了此类模型的可识别性。在这些作品中,主要的假设是,还可以观察到辅助变量$ u $(也称为侧面信息)。同时,几项作品从经验上观察到,这在实践中似乎并不是必需的。在这项工作中,我们通过证明具有通用近似功能的广泛生成(即无监督的)模型来解释这种行为,无需侧面信息$ u $:我们证明了整个生成模型的可识别性$ u $,仅观察数据$ x $。我们考虑的模型与实践中使用的自动编码器体系结构紧密连接,该体系结构利用了潜在空间中的混合先验和编码器中的Relu/Leaky-Relu激活。我们的主要结果是可识别性层次结构,该层次结构显着概括了先前的工作,并揭示了不同的假设如何导致可识别性的“优势”不同。例如,我们最薄弱的结果确定了(无监督的)可识别性,直到仿射转换已经改善了现有工作。众所周知,这些模型具有通用近似功能,而且它们已被广泛用于实践中来学习数据表示。
translated by 谷歌翻译
自我监督学习中的最新作品通过依靠对比度学习范式来推动最先进的工作,该范式通过推动正面对或从同一班级中的类似示例来学习表示形式,同时将负面对截然不同。尽管取得了经验的成功,但理论基础是有限的 - 先前的分析假设鉴于同一类标签的正对有条件独立性,但是最近的经验应用使用了密切相关的正对(即同一图像的数据增强)。我们的工作分析了对比度学习,而无需在数据上使用增强图的新概念假设正对的有条件独立性。此图中的边缘连接相同数据的增强,而地面实际类别自然形成了连接的子图。我们提出了在人口增强图上执行光谱分解的损失,并且可以简洁地作为对神经净表示的对比学习目标。最小化此目标会导致在线性探针评估下具有可证明准确性的功能。通过标准的概括范围,在最大程度地减少训练对比度损失时,这些准确性也可以保证。从经验上讲,我们目标所学的功能可以匹配或胜过基准视觉数据集上的几个强基线。总的来说,这项工作为对比度学习提供了首次可证明的分析,在该学习中,线性探针评估的保证可以适用于现实的经验环境。
translated by 谷歌翻译
本文提出了一项新的统计分析,旨在解释自然语言处理(NLP)中训练技术的最新成就。我们证明,当预训练任务的类(例如,蒙版语言模型任务中的不同单词)的类别足够多样化,从某种意义上说,最后一个线性层的最小奇异值在预训练中(表示为$ \ \ \ \ \ Tilde {\ nu} $)很大,然后预训练可以显着提高下游任务的样本效率。特别是,我们显示转移学习过量风险享受$ o \ left(\ frac {1} {\ tilde {\ nu} \ sqrt {n}} \ right)$ rate,与$ o \ left相比(\)标准监督学习中的frac {1} {\ sqrt {m}} \ right)$ rate。在这里,$ n $是预训练数据的数量,$ m $是下游任务中的数据数,通常是$ n \ gg m $。我们的证明依赖于矢量形式的rademacher复杂性链规则来拆卸复合函数类别和修改的自我符合条件。这些技术可能具有独立的兴趣。
translated by 谷歌翻译
本文研究了在潜在的结果框架中使用深神经网络(DNN)的平均治疗效果(ATE)的估计和推理。在一些规则性条件下,观察到的响应可以作为与混杂变量和治疗指标作为自变量的平均回归问题的响应。使用这种配方,我们研究了通过使用特定网络架构的DNN回归基于估计平均回归函数的两种尝试估计和推断方法。我们表明ATE的两个DNN估计在底层真正的均值回归模型上的一些假设下与无维一致性率一致。我们的模型假设可容纳观察到的协变量的潜在复杂的依赖结构,包括治疗指标和混淆变量之间的潜在因子和非线性相互作用。我们还基于采样分裂的思想,确保精确推理和不确定量化,建立了我们估计的渐近常态。仿真研究和实际数据应用证明了我们的理论调查结果,支持我们的DNN估计和推理方法。
translated by 谷歌翻译
通过定义和上限,通过定义和上限,分析了贝叶斯学习的最佳成绩性能,通过限定了最小的过度风险(MER):通过从数据学习和最低预期损失可以实现的最低预期损失之间的差距认识到了。 MER的定义提供了一种原则状的方式来定义贝叶斯学习中的不同概念的不确定性,包括炼膜不确定性和最小的认知不确定性。提出了用于衍生MER的上限的两种方法。第一方法,通常适用于具有参数生成模型的贝叶斯学习,通过在模型参数之间的条件互信息和所观察到的数据预测的量之间的条件相互信息。它允许我们量化MER衰减随着更多数据可用而衰减为零的速率。在可实现的模型中,该方法还将MER与生成函数类的丰富性涉及,特别是二进制分类中的VC维度。具有参数预测模型的第二种方法,特别适用于贝叶斯学习,将MER与来自数据的模型参数的最小估计误差相关联。它明确地说明了模型参数估计中的不确定性如何转化为MER和最终预测不确定性。我们还将MER的定义和分析扩展到具有多个模型系列的设置以及使用非参数模型的设置。沿着讨论,我们在贝叶斯学习中的MER与频繁学习的过度风险之间建立了一些比较。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
我们开发了对对抗估计量(“ A-估计器”)的渐近理论。它们将最大样品型估计量(“ M-估计器”)推广为平均目标,以通过某些参数最大化,而其他参数则最小化。该课程涵盖了瞬间的瞬间通用方法,生成的对抗网络以及机器学习和计量经济学方面的最新建议。在这些示例中,研究人员指出,原则上可以使用哪些方面进行估计,并且对手学习如何最佳地强调它们。我们在重点和部分识别下得出A估计剂的收敛速率,以及其参数功能的正态性。未知功能可以通过筛子(例如深神经网络)近似,我们为此提供简化的低级条件。作为推论,我们获得了神经网络估计剂的正态性,克服了文献先前确定的技术问题。我们的理论产生了有关各种A估计器的新成果,为它们在最近的应用中的成功提供了直觉和正式的理由。
translated by 谷歌翻译
我们研究了离线加强学习(RL)的代表性学习,重点是离线政策评估(OPE)的重要任务。最近的工作表明,与监督的学习相反,Q功能的可实现性不足以学习。样品效率OPE的两个足够条件是Bellman的完整性和覆盖范围。先前的工作通常假设给出满足这些条件的表示形式,结果大多是理论上的。在这项工作中,我们提出了BCRL,该BCRL直接从数据中吸取了近似线性的贝尔曼完整表示,并具有良好的覆盖范围。通过这种学识渊博的表示,我们使用最小平方策略评估(LSPE)执行OPE,并在我们学习的表示中具有线性函数。我们提出了端到端的理论分析,表明我们的两阶段算法享有多项式样本复杂性,该算法在所考虑的丰富类别中提供了一些表示形式,这是线性的贝尔曼完成。从经验上讲,我们广泛评估了我们的DeepMind Control Suite的具有挑战性的基于图像的连续控制任务。我们显示我们的表示能够与针对非政策RL开发的先前表示的学习方法(例如Curl,SPR)相比,可以更好地使用OPE。 BCRL使用最先进的方法拟合Q评估(FQE)实现竞争性OPE误差,并在评估超出初始状态分布的评估时击败FQE。我们的消融表明,我们方法的线性铃铛完整和覆盖范围都至关重要。
translated by 谷歌翻译