传统的监督学习方法,尤其是深的学习方法,发现对分发超出(OOD)示例敏感,主要是因为所学习的表示与由于其域特异性相关性的变异因子混合了语义因素,而只有语义因子导致输出。为了解决这个问题,我们提出了一种基于因果推理的因果语义生成模型(CSG),以便分别建模两个因素,以及从单个训练域中的oo ood预测的制定方法,这是常见和挑战的。该方法基于因果不变原理,在变形贝斯中具有新颖的设计,用于高效学习和易于预测。从理论上讲,我们证明,在某些条件下,CSG可以通过拟合训练数据来识别语义因素,并且这种语义识别保证了泛化概率的界限和适应的成功。实证研究表明,改善了卓越的基线表现。
translated by 谷歌翻译
我们研究是否使用两个条件型号$ p(x | z)$和$ q(z | x)$,以使用循环的两个条件型号,我们如何建模联合分配$ p(x,z)$。这是通过观察到深入生成模型的动机,除了可能的型号$ p(x | z)$,通常也使用推理型号$ q(z | x)$来提取表示,但它们通常依赖不表征的先前分配$ P(z)$来定义联合分布,这可能会使后塌和歧管不匹配等问题。为了探讨仅使用$ p(x | z)$和$ q(z | x)$模拟联合分布的可能性,我们研究其兼容性和确定性,对应于其条件分布一致的联合分布的存在和唯一性跟他们。我们为可操作的等价标准开发了一般理论,以实现兼容性,以及足够的确定条件。基于该理论,我们提出了一种新颖的生成建模框架来源,仅使用两个循环条件模型。我们开发方法以实现兼容性和确定性,并使用条件模型适合和生成数据。通过预先删除的约束,Cygen更好地适合数据并捕获由合成和现实世界实验支持的更多代表性特征。
translated by 谷歌翻译
尽管机器学习模型迅速推进了各种现实世界任务的最先进,但鉴于这些模型对虚假相关性的脆弱性,跨域(OOD)的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性,但我们提出了一种平衡的迷你批次采样策略,以减少观察到的训练分布中域特异性的虚假相关性。更具体地说,我们提出了一种两步方法,该方法1)识别虚假相关性的来源,以及2)通过在确定的来源上匹配,构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证,并表明我们提出的方法是从所有培训环境中平衡,无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的,从经验上证明,与随机的迷你批次采样策略相比,我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。
translated by 谷歌翻译
这项工作介绍了一种新颖的原则,我们通过机制稀疏正规调用解剖学,基于高级概念的动态往往稀疏的想法。我们提出了一种表示学习方法,可以通过同时学习与它们相关的潜在因子和稀疏因果图形模型来引起解剖学。我们开发了一个严谨的可识别性理论,建立在最近的非线性独立分量分析(ICA)结果中,结果是模拟这一原理,并展示了如何恢复潜在变量,如果一个规则大致潜在机制为稀疏,如果某些图形连接标准通过数据生成过程满足。作为我们框架的特殊情况,我们展示了如何利用未知目标的干预措施来解除潜在因子,从而借鉴ICA和因果关系之间的进一步联系。我们还提出了一种基于VAE的方法,其中通过二进制掩码来学习和正规化潜在机制,并通过表明它学会在模拟中的解散表示来验证我们的理论。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
机器学习系统经常在培训和测试之间遇到分发转变。在本文中,我们介绍了一个简单的变分目标,其OptiCa正好成为所有表现形式的集合,在那种情况下,保证风险最小化者对保留贝叶斯预测因子的任何分配换档,例如协变量。我们的目标有两个组成部分。首先,表示必须保持对任务的判别,即,一些预测指标必须能够同时最小化来源和目标风险。其次,代表性的边际支持需要跨源头和目标相同。我们通过设计自我监督的学习方法来实现这一实用,只使用未标记的数据和增强来培训强大的陈述。我们的目标在域底实现最先进的结果,并对最近的方法(如剪辑)的稳健性提供洞察力。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
机器学习系统通常假设训练和测试分布是相同的。为此,关键要求是开发可以概括到未经看不见的分布的模型。领域泛化(DG),即分销概括,近年来引起了越来越令人利益。域概括处理了一个具有挑战性的设置,其中给出了一个或几个不同但相关域,并且目标是学习可以概括到看不见的测试域的模型。多年来,域概括地区已经取得了巨大进展。本文提出了对该地区最近进步的首次审查。首先,我们提供了域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底审查了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将最近的算法分为三个类:数据操作,表示学习和学习策略,并为每个类别详细介绍几种流行的算法。第三,我们介绍常用的数据集,应用程序和我们的开放源代码库进行公平评估。最后,我们总结了现有文学,并为未来提供了一些潜在的研究主题。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anticausal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By tradingoff robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
translated by 谷歌翻译
象征性的AI社区越来越多地试图在神经符号结构中接受机器学习,但由于文化障碍,仍在挣扎。为了打破障碍,这份相当有思想的个人备忘录试图解释和纠正统计,机器学习和深入学习的惯例,从局外人的角度进行深入学习。它提供了一个分步协议,用于设计一个机器学习系统,该系统满足符号AI社区认真对待所必需的最低理论保证,即,它讨论“在哪些条件下,我们可以停止担心和接受统计机器学习。 “一些亮点:大多数教科书都是为计划专门研究STAT/ML/DL的人编写的,应该接受术语。该备忘录适用于经验丰富的象征研究人员,他们听到了很多嗡嗡声,但仍然不确定和持怀疑态度。有关STAT/ML/DL的信息目前太分散或嘈杂而无法投资。此备忘录优先考虑紧凑性,并特别注意与象征性范式相互共鸣的概念。我希望这份备忘录能节省时间。它优先考虑一般数学建模,并且不讨论任何特定的函数近似器,例如神经网络(NNS),SVMS,决策树等。它可以对校正开放。将此备忘录视为与博客文章相似的内容,采用有关Arxiv的论文的形式。
translated by 谷歌翻译
当用于训练模型的源数据与用于测试模型的目标数据不同时,域适应(DA)作为统计机器学习的重要问题。 DA最近的进展主要是应用驱动的,并且主要依赖于源和目标数据的常见子空间的想法。要了解DA方法的经验成功和失败,我们通过结构因果模型提出了理论框架,可以实现DA方法的预测性能的分析和比较。此框架还允许我们逐项逐项列出DA方法具有低目标错误所需的假设。此外,通过我们理论的见解,我们提出了一种名为CIRM的新DA方法,当协变量和标签分布都在目标数据中被扰乱时,胜过现有的DA方法。我们补充了广泛的模拟的理论分析,以表明设计了设计的必要性。还提供可重复的合成和实际数据实验,以说明当我们理论中的某些假设的某些问题被侵犯时DA方法的强度和弱点。
translated by 谷歌翻译
多类神经网络是现代无监督的领域适应性中的常见工具,但是在适应性文献中缺乏针对其非均匀样品复杂性的适当理论描述。为了填补这一空白,我们为多类学习者提出了第一个Pac-Bayesian适应范围。我们还提出了我们考虑的多类分布差异的第一个近似技术,从而促进了界限的实际使用。对于依赖Gibbs预测因子的分歧,我们提出了其他PAC-湾适应界限,以消除对蒙特卡洛效率低下的需求。从经验上讲,我们测试了我们提出的近似技术的功效以及一些新型的设计概念,我们在范围中包括。最后,我们应用界限来分析使用神经网络的常见适应算法。
translated by 谷歌翻译
尽管在各种应用中取得了显着成功,但众所周知,在呈现出分发数据时,深度学习可能会失败。为了解决这一挑战,我们考虑域泛化问题,其中使用从相关训练域系列绘制的数据进行训练,然后在不同和看不见的测试域中评估预测器。我们表明,在数据生成的自然模型和伴随的不变性条件下,域泛化问​​题等同于无限维约束的统计学习问题;此问题构成了我们的方法的基础,我们呼叫基于模型的域泛化。由于解决深度学习中受约束优化问题的固有挑战,我们利用非凸显二元性理论,在二元间隙上紧张的界限发展这种统计问题的不受约束放松。基于这种理论动机,我们提出了一种具有收敛保证的新型域泛化算法。在我们的实验中,我们在几个基准中报告了最多30个百分点的阶段概括基座,包括彩色,Camelyon17-Wilds,FMOW-Wilds和PAC。
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译