多源域适应(MSDA)学会了预测目标域数据中的标签,在标记来自多个源域的所有数据并且来自目标域的所有数据的设置下。为了解决这个问题,大多数方法都集中在跨域中学习不变表示。但是,他们的成功严重依赖于标签分布在跨域保持不变的假设。为了减轻它,我们提出了一个新的假设,潜在的协变量移位,其中潜在内容变量的边际分布跨域变化,并且给定标签的条件分布在跨域之间保持不变。我们引入了一个潜在样式变量,以补充潜在因果图作为数据和标签生成过程的潜在内容变量。我们表明,尽管潜在样式变量由于潜在空间中的传输性能而无法识别,但在某些温和条件下,可以将潜在内容变量识别为简单缩放。这激发了我们为MSDA提出一种新颖的方法,该方法在潜在内容变量上学习了不变标签的分布,而不是学习不变表示。与基于不变表示的许多最新方法相比,对模拟和真实数据的经验评估证明了该方法的有效性。
translated by 谷歌翻译
因果代表学习揭示了低级观察背后的潜在高级因果变量,这对于一组感兴趣的下游任务具有巨大的潜力。尽管如此,从观察到的数据中确定真正的潜在因果表示是一个巨大的挑战。在这项工作中,我们专注于确定潜在的因果变量。为此,我们分析了潜在空间中的三个固有特性,包括传递性,置换和缩放。我们表明,传递性严重阻碍了潜在因果变量的可识别性,而排列和缩放指导指导了识别潜在因果变量的方向。为了打破传递性,我们假设潜在的潜在因果关系是线性高斯模型,其中高斯噪声的权重,平均值和方差受到额外观察到的变量的调节。在这些假设下,我们从理论上表明,潜在因果变量可以识别为微不足道的置换和缩放。基于这个理论结果,我们提出了一种新型方法,称为结构性因果变异自动编码器,该方法直接学习潜在因果变量,以及从潜在因果变量到观察到的映射。关于合成和实际数据的实验结果证明了可识别的结果以及所提出的学习潜在因果变量的能力。
translated by 谷歌翻译
本文重点研究\文本颜色的问题{黑} {半监督}域适配用于时间序列预测,这是一个很容易被忽视的,但具有挑战性的问题是由于可变的和复杂的条件的依赖关系。事实上,这些特定领域的条件依赖主要领导的数据偏移量,时间滞后,并且变体数据的分布。为了解决这个问题,我们分析了变条件依赖于时间序列数据,并认为因果结构是不同的域之间的稳定,并进一步提高了因果条件转变的假设。通过这一假设的启发,我们考虑的时间序列数据的因果生成过程,并制定一个终端到终端的型号为转移的时间序列预测。该方法不仅可以发现跨域\ textit {Granger因果}也解决了跨域的时间序列预测问题。它甚至可以提供预测结果在一定程度上的解释性。我们进一步分析理论所提出的方法,其中在目标域泛化的错误不仅通过在源和目标域,但也受到来自不同域的因果结构之间的相似经验的风险有界的优越性。在合成的和真实数据实验结果表明,用于转让的时间序列预测了该方法的有效性。
translated by 谷歌翻译
Machine learning models rely on various assumptions to attain high accuracy. One of the preliminary assumptions of these models is the independent and identical distribution, which suggests that the train and test data are sampled from the same distribution. However, this assumption seldom holds in the real world due to distribution shifts. As a result models that rely on this assumption exhibit poor generalization capabilities. Over the recent years, dedicated efforts have been made to improve the generalization capabilities of these models collectively known as -- \textit{domain generalization methods}. The primary idea behind these methods is to identify stable features or mechanisms that remain invariant across the different distributions. Many generalization approaches employ causal theories to describe invariance since causality and invariance are inextricably intertwined. However, current surveys deal with the causality-aware domain generalization methods on a very high-level. Furthermore, we argue that it is possible to categorize the methods based on how causality is leveraged in that method and in which part of the model pipeline is it used. To this end, we categorize the causal domain generalization methods into three categories, namely, (i) Invariance via Causal Data Augmentation methods which are applied during the data pre-processing stage, (ii) Invariance via Causal representation learning methods that are utilized during the representation learning stage, and (iii) Invariance via Transferring Causal mechanisms methods that are applied during the classification stage of the pipeline. Furthermore, this survey includes in-depth insights into benchmark datasets and code repositories for domain generalization methods. We conclude the survey with insights and discussions on future directions.
translated by 谷歌翻译
尽管机器学习模型迅速推进了各种现实世界任务的最先进,但鉴于这些模型对虚假相关性的脆弱性,跨域(OOD)的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性,但我们提出了一种平衡的迷你批次采样策略,以减少观察到的训练分布中域特异性的虚假相关性。更具体地说,我们提出了一种两步方法,该方法1)识别虚假相关性的来源,以及2)通过在确定的来源上匹配,构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证,并表明我们提出的方法是从所有培训环境中平衡,无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的,从经验上证明,与随机的迷你批次采样策略相比,我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。
translated by 谷歌翻译
We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
translated by 谷歌翻译
域泛化(DG)的主要挑战是克服多个训练域和看不见的测试域之间的潜在分布偏移。一类流行的DG算法旨在学习在训练域中具有不变因果关系的表示。但是,某些特征,称为\ emph {伪不变特征},可能是培训域中的不变性,但不是测试域,并且可以大大降低现有算法的性能。为了解决这个问题,我们提出了一种新颖的算法,称为不变信息瓶颈(IIB),该算法学习跨越训练和测试域的最小值的最小值。通过最大限度地减少表示和输入之间的相互信息,IIB可以减轻其对伪不变特征的依赖,这对于DG是期望的。为了验证IIB原则的有效性,我们对大型DG基准进行了广泛的实验。结果表明,在两个评估度量标准中,IIB的IIIb平均超过2.8 \%和3.8 \%的准确性。
translated by 谷歌翻译
传统的监督学习方法,尤其是深的学习方法,发现对分发超出(OOD)示例敏感,主要是因为所学习的表示与由于其域特异性相关性的变异因子混合了语义因素,而只有语义因子导致输出。为了解决这个问题,我们提出了一种基于因果推理的因果语义生成模型(CSG),以便分别建模两个因素,以及从单个训练域中的oo ood预测的制定方法,这是常见和挑战的。该方法基于因果不变原理,在变形贝斯中具有新颖的设计,用于高效学习和易于预测。从理论上讲,我们证明,在某些条件下,CSG可以通过拟合训练数据来识别语义因素,并且这种语义识别保证了泛化概率的界限和适应的成功。实证研究表明,改善了卓越的基线表现。
translated by 谷歌翻译
利用来自多个域的标记数据来启用没有标签的另一个域中的预测是一个重大但充满挑战的问题。为了解决这个问题,我们介绍了框架Dapdag(\ textbf {d} omain \ textbf {a}通过\ textbf {p} daptation daptation daptation \ textbf {p} erturbed \ textbf {dag}重建),并建议学习对人群进行投入的自动化统计信息给定特征并重建有向的无环图(DAG)作为辅助任务。在观察到的变量中,允许有条件的分布在由潜在环境变量$ e $领导的域变化的变量中,假定基础DAG结构不变。编码器旨在用作$ e $的推理设备,而解码器重建每个观察到的变量,以其DAG中的图形父母和推断的$ e $进行。我们以端到端的方式共同训练编码器和解码器,并对具有混合变量的合成和真实数据集进行实验。经验结果表明,重建DAG有利于近似推断。此外,我们的方法可以在预测任务中与其他基准测试实现竞争性能,具有更好的适应能力,尤其是在目标领域与源域显着不同的目标领域。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
We propose a Target Conditioned Representation Independence (TCRI) objective for domain generalization. TCRI addresses the limitations of existing domain generalization methods due to incomplete constraints. Specifically, TCRI implements regularizers motivated by conditional independence constraints that are sufficient to strictly learn complete sets of invariant mechanisms, which we show are necessary and sufficient for domain generalization. Empirically, we show that TCRI is effective on both synthetic and real-world data. TCRI is competitive with baselines in average accuracy while outperforming them in worst-domain accuracy, indicating desired cross-domain stability.
translated by 谷歌翻译
转移学习中最关键的问题之一是域适应的任务,其中目标是将在一个或多个源域中培训的算法应用于不同(但相关)的目标域。本文在域内存在协变量转变时,涉及域适应。解决此问题的现有因果推断方法的主要限制之一是可扩展性。为了克服这种困难,我们提出了一种避免穷举搜索的算法,并识别基于Markov毯子发现的源和目标域的不变因果特征。 SCTL不需要先前了解因果结构,干预措施的类型或干预目标。有一个与SCTL相关的内在位置,使其实现实际上可扩展且稳健,因为本地因果发现增加了计算独立性测试的力量,并使域适配的任务进行了计算地进行了易行的。我们通过低维和高维设置中的合成和实际数据集显示SCTL的可扩展性和稳健性。
translated by 谷歌翻译
现实世界的分类问题必须与域移位竞争,该域移动是部署模型的域之间的(潜在)不匹配以及收集训练数据的域。处理此类问题的方法必须指定域之间哪种结构与什么变化。一个自然的假设是,因果关系(结构)关系在所有领域都是不变的。然后,很容易学习仅取决于其因果父母的标签$ y $的预测指标。但是,许多现实世界中的问题是“反农产品”,因为$ y $是协变量$ x $的原因 - 在这种情况下,$ y $没有因果父母,而天真的因果不变性是没有用的。在本文中,我们研究了在特定的域转移概念下的表示形式学习,该概念既尊重因果不变性又自然处理“反毒物”结构。我们展示了如何利用域的共享因果结构来学习一个表示不变预测因子的表示,并且还允许在新域中快速适应。关键是将因果假设转化为学习原理,这些学习原理“不变”和“不稳定”特征。关于合成数据和现实世界数据的实验证明了所提出的学习算法的有效性。代码可在https://github.com/ybjiaang/actir上找到。
translated by 谷歌翻译
域的概括旨在提高机器学习系统到分布(OOD)数据的概括能力。现有的域概括技术将启动固定和离散环境,以解决由OOD数据引起的概括问题。但是,非平稳环境中的许多实际任务(例如,自动驱动的汽车系统,传感器度量)涉及更复杂和不断发展的域漂移,这为域概括的问题带来了新的挑战。在本文中,我们将上述设置作为不断发展的域概括问题。具体而言,我们建议引入一个称为潜在结构感知的顺序自动编码器(LSSAE)的概率框架,以解决通过探索深神经网络潜在空间中的基本连续结构来解决域的概括问题,我们旨在识别两个主要因素即协变量的转移和概念转移核算非平稳环境中的分配转移。合成和现实世界数据集的实验结果表明,LSSAE可以基于不断发展的域概括设置导致出色的性能。
translated by 谷歌翻译
典型的多源域适应性(MSDA)方法旨在将知识从一组标记的源域中学习的知识转移到一个未标记的目标域。然而,先前的工作严格假设每个源域都与目标域共享相同的类别类别,因为目标标签空间无法观察到,这几乎无法保证。在本文中,我们考虑了MSDA的更广泛的设置,即广义的多源域适应性,其中源域部分重叠,并且允许目标域包含任何源域中未呈现的新型类别。由于域的共存和类别跨源域和目标域的转移,因此这种新设置比任何现有的域适应协议都难以捉摸。为了解决这个问题,我们提出了一个变分域分解(VDD)框架,该框架通过鼓励尺寸独立性来分解每个实例的域表示和语义特征。为了识别未知类别的目标样本,我们利用在线伪标签,该标签将伪标签分配给基于置信分数的未标记目标数据。在两个基准数据集上进行的定量和定性实验证明了拟议框架的有效性。
translated by 谷歌翻译
Due to the ability of deep neural nets to learn rich representations, recent advances in unsupervised domain adaptation have focused on learning domain-invariant features that achieve a small error on the source domain. The hope is that the learnt representation, together with the hypothesis learnt from the source domain, can generalize to the target domain. In this paper, we first construct a simple counterexample showing that, contrary to common belief, the above conditions are not sufficient to guarantee successful domain adaptation. In particular, the counterexample exhibits conditional shift: the class-conditional distributions of input features change between source and target domains. To give a sufficient condition for domain adaptation, we propose a natural and interpretable generalization upper bound that explicitly takes into account the aforementioned shift. Moreover, we shed new light on the problem by proving an information-theoretic lower bound on the joint error of any domain adaptation method that attempts to learn invariant representations. Our result characterizes a fundamental tradeoff between learning invariant representations and achieving small joint error on both domains when the marginal label distributions differ from source to target. Finally, we conduct experiments on real-world datasets that corroborate our theoretical findings. We believe these insights are helpful in guiding the future design of domain adaptation and representation learning algorithms.
translated by 谷歌翻译
机器学习系统通常假设训练和测试分布是相同的。为此,关键要求是开发可以概括到未经看不见的分布的模型。领域泛化(DG),即分销概括,近年来引起了越来越令人利益。域概括处理了一个具有挑战性的设置,其中给出了一个或几个不同但相关域,并且目标是学习可以概括到看不见的测试域的模型。多年来,域概括地区已经取得了巨大进展。本文提出了对该地区最近进步的首次审查。首先,我们提供了域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底审查了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将最近的算法分为三个类:数据操作,表示学习和学习策略,并为每个类别详细介绍几种流行的算法。第三,我们介绍常用的数据集,应用程序和我们的开放源代码库进行公平评估。最后,我们总结了现有文学,并为未来提供了一些潜在的研究主题。
translated by 谷歌翻译
学习分离旨在寻找低维表示,该表示由观察数据的多个解释性和生成因素组成。变异自动编码器(VAE)的框架通常用于将独立因素从观察中解散。但是,在实际情况下,具有语义的因素不一定是独立的。取而代之的是,可能存在基本的因果结构,从而使这些因素取决于这些因素。因此,我们提出了一个名为Causalvae的新的基于VAE的框架,该框架包括一个因果层,将独立的外源性因子转化为因果内源性因素,这些因子与数据中的因果关系相关概念相对应。我们进一步分析了模型,表明从观测值中学到的拟议模型可以在一定程度上恢复真实的模型。实验是在各种数据集上进行的,包括合成和真实的基准Celeba。结果表明,因果关系学到的因果表示是可以解释的,并且其因果关系作为定向无环形图(DAG)的因果关系良好地鉴定出来。此外,我们证明了所提出的Causalvae模型能够通过因果因素的“操作”来生成反事实数据。
translated by 谷歌翻译
当部署在与受过训练的域不同的域中时,机器学习方法可能是不可靠的。为了解决这个问题,我们可能希望学习以域不变性的数据表示,即我们保留跨域稳定但抛出虚假变化的部分的数据结构。这种类型有许多表示学习方法,包括基于数据增强,分配不变性和风险不变性的方法。不幸的是,当面对任何特定的现实世界转移时,目前尚不清楚这些方法中有哪些(如果有的话)可以正常工作。本文的目的是展示不同方法如何相互关系,并阐明各自预期成功的现实情况。关键工具是一个新的域转移概念,它依靠因果关系是不变的想法,但是非因果关系(例如,由于混杂而引起的)可能会有所不同。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译