基于实例的解释方法已经广泛研究了监督学习方法,因为它们有助于解释黑匣子神经网络如何预测。然而,在无监督的学习的背景下,基于实例的解释仍然是不理解的。在本文中,我们调查影响功能[20],一种基于流行的基于实例的解释方法,用于一类称为变分自动编码器(VAE)的深度生成模型。我们正式框架在这个环境中通过影响函数回答的反事实问题,并通过理论分析,检查他们揭示了培训样本对古典无监督学习方法的影响。然后,我们将基于Pruthi等人介绍VAE-Tracin,基于Pruthi等人的计算上有效和理论上的声音解决方案。最后,我们在几个现实世界数据集中评估了VAE-TRACIN,具有广泛的定量和定性分析。
translated by 谷歌翻译
A neural network deployed in the wild may be asked to make predictions for inputs that were drawn from a different distribution than that of the training data. A plethora of work has demonstrated that it is easy to find or synthesize inputs for which a neural network is highly confident yet wrong. Generative models are widely viewed to be robust to such mistaken confidence as modeling the density of the input features can be used to detect novel, out-of-distribution inputs. In this paper we challenge this assumption. We find that the density learned by flow-based models, VAEs, and PixelCNNs cannot distinguish images of common objects such as dogs, trucks, and horses (i.e. CIFAR-10) from those of house numbers (i.e. SVHN), assigning a higher likelihood to the latter when the model is trained on the former. Moreover, we find evidence of this phenomenon when pairing several popular image data sets: FashionMNIST vs MNIST, CelebA vs SVHN, ImageNet vs CIFAR-10 / CIFAR-100 / SVHN. To investigate this curious behavior, we focus analysis on flow-based generative models in particular since they are trained and evaluated via the exact marginal likelihood. We find such behavior persists even when we restrict the flows to constant-volume transformations. These transformations admit some theoretical analysis, and we show that the difference in likelihoods can be explained by the location and variances of the data and the model curvature. Our results caution against using the density estimates from deep generative models to identify inputs similar to the training distribution until their behavior for out-of-distribution inputs is better understood.
translated by 谷歌翻译
估计数据分布的局部内在维度的大多数现有方法不能很好地扩展到高维数据。他们中的许多人依靠非参数最近的邻居方法,该方法受到维度的诅咒。我们试图通过提出一种新的问题来解决这一挑战:使用近似可能性(LIDL)的局部固有维度估计。我们的方法依赖于任意密度估计方法作为其子例程,因此通过利用最新的参数神经方法的进展来避免维度挑战,以进行可能性估计。我们仔细研究了所提出方法的经验特性,将其与我们的理论预测进行了比较,并表明LIDL在此问题的标准基准上产生竞争结果,并将其扩展到数千个维度。更重要的是,我们预计通过密度估计文献的持续进展,这种方法可以进一步改善。
translated by 谷歌翻译
深度生成模型的最新进展导致各种应用领域的令人印象深刻。由于深入学习模型可能会记住部分输入数据的可能性,已经增加了努力,了解出现的记忆。在这项工作中,我们将最近提出的监督学习记忆衡量标准(Feldman,2019)扩展到无监督的密度估算问题,并使它更加计算效率。接下来,我们提出了一项关于概率在诸如变形AutoEncoders等概率深度生成模型中可能发生的记忆的研究。这表明,这些模型易感的记忆形式与模式崩溃和过度装备根本不同。此外,我们表明,所提出的记忆分数测量普通使用的最近邻测试未捕获的现象。最后,我们讨论了几种可用于限制在实践中的记忆的策略。因此,我们的工作提供了理解概率生成模型中有问题的记忆的框架。
translated by 谷歌翻译
已知大型预训练的生成模型偶尔提供出于各种原因可能不希望的样品。减轻这种情况的标准方法是以不同的方式重新培养模型。在这项工作中,我们采用了一种不同,更友好的方法,并调查了如何在训练后将模型置于模型之后,以便忘记某些样本。我们为gan提供了三种不同的算法,这些算法在描述了遗忘的样本方面有所不同。对现实世界图像数据集的广泛评估表明,我们的算法能够忘记数据,同时以全面重新训练成本的一小部分保留高生成质量。
translated by 谷歌翻译
深度学习在学习高维数据的低维表示方面取得了巨大的成功。如果在感兴趣的数据中没有隐藏的低维结构,那么这一成功将是不可能的。这种存在是由歧管假设提出的,该假设指出数据在于固有维度低的未知流形。在本文中,我们认为该假设无法正确捕获数据中通常存在的低维结构。假设数据在于单个流形意味着整个数据空间的内在维度相同,并且不允许该空间的子区域具有不同数量的变异因素。为了解决这一缺陷,我们提出了多种假设的结合,该假设适应了非恒定固有维度的存在。我们从经验上验证了在常用图像数据集上的这一假设,发现确实应该允许内在维度变化。我们还表明,具有较高内在维度的类更难分类,以及如何使用这种见解来提高分类精度。然后,我们将注意力转移到该假设的影响下,在深层生成模型(DGM)的背景下。当前的大多数DGM都难以建模具有几个连接组件和/或不同固有维度的数据集建模。为了解决这些缺点,我们提出了群集的DGM,首先将数据聚集,然后在每个群集上训练DGM。我们表明,聚类的DGM可以模拟具有不同固有维度的多个连接组件,并在没有增加计算要求的情况下经验优于其非簇的非群体。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
最近,在深度生成模型中,不可能是非线性ICA的可识别性的文艺复兴。对于i.I.D.数据,先前的作品已经假定访问足够丰富的辅助观察集,表示$ \ mathbf {u} $。我们在这里展示了在没有这种侧面信息的情况下可以获得可识别性。以前的方法必须制定强烈的假设,以获得可识别的模型。在这里,我们在一组宽松的约束集中获得了经验识别的模型。特别是,我们专注于在其潜在空间中执行聚类的生成模型 - 一种匹配以前可识别模型的模型结构,而是使用学习群集提供辅助信息的合成形式。我们评估我们的提案,包括通过统计测试,并发现学习群集有效功能:具有潜在群集的深度生成模型是经验识别的,与依赖侧面信息的模型相同。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
使用显式密度建模的生成模型(例如,变形式自动码码器,基于流动的生成模型)涉及从已知分布的映射,例如,从已知分布中找到映射。高斯,到未知的输入分布。这通常需要搜索一类非线性函数(例如,由深神经网络表示)。在实践中有效,相关的运行时/内存成本可以迅速增加,通常是应用程序中所需性能的函数。我们提出了一个更便宜的(更简单)的策略来估算基于内核传输运算符中的已知结果的此映射。我们表明我们的配方能够实现高效的分布近似和采样,并提供令人惊讶的良好的经验性能,与强大的基线有利,但有很大的运行时储蓄。我们表明该算法在小样本大小设置(脑成像)中也表现良好。
translated by 谷歌翻译
无监督的黑盒模型要挑战。实际上,大多数现有的解释性方法都要求标签来选择要解释的黑框输出的组件。在没有标签的情况下,黑框输出通常是表示向量,其组件的分量与任何有意义的数量不符。因此,选择哪些组件在无标签的无监督/自我监督的设置中是一个重要但未解决的问题。为了弥合文献中的这一差距,我们介绍了事后解释技术的两个关键扩展:(1)无标签的功能重要性以及(2)无标签的示例分别重要的示例,这些示例分别强调了黑盒的有影响力的特征和训练示例在推理时间构建表示。我们证明,我们的扩展可以成功实现,以围绕许多现有功能和示例重要性方法的简单包装器实现。我们通过定性和定量的比较来说明我们无标记的解释性范式的实用性,该范式对经过不同无监督任务的各种自动编码器学到的表示空间进行了定量比较。
translated by 谷歌翻译
变异自动编码器(VAE)是最常用的无监督机器学习模型之一。但是,尽管对先前和后验的高斯分布的默认选择通常代表了数学方便的分布通常会导致竞争结果,但我们表明该参数化无法用潜在的超球体结构对数据进行建模。为了解决这个问题,我们建议使用von Mises-fisher(VMF)分布,从而导致超级潜在空间。通过一系列实验,我们展示了这种超球vae或$ \ mathcal {s} $ - vae如何更适合于用超球形结构捕获数据,同时胜过正常的,$ \ mathcal {n} $ - vae-,在其他数据类型的低维度中。http://github.com/nicola-decao/s-vae-tf和https://github.com/nicola-decao/nicola-decao/s-vae-pytorch
translated by 谷歌翻译
表示学习已成为一种实用的方法,可以在重建方面成功地建立大量高维数据的丰富参数编码。在考虑具有测试训练分布变化的无监督任务时,概率的观点有助于解决预测过度自信和不良校准。但是,由于多种原因,即维度或顽固性问题的诅咒,直接引入贝叶斯推断仍然是一个艰难的问题。 Laplace近似(LA)在这里提供了一个解决方案,因为可以通过二阶Taylor膨胀在参数空间的某些位置通过二阶Taylor膨胀来建立重量的高斯近似值。在这项工作中,我们为洛杉矶启发的无监督表示学习提供了贝叶斯自动编码器。我们的方法实现了迭代的拉普拉斯更新,以获得新型自动编码器证据的新变化下限。二阶部分衍生物的巨大计算负担是通过Hessian矩阵的近似来跳过的。从经验上讲,我们通过为分布外检测提供了良好的不确定性,用于差异几何形状的大地测量和缺失数据归思的方法来证明拉普拉斯自动编码器的可伸缩性和性能。
translated by 谷歌翻译
当前,随机平滑被认为是获得确切可靠分类器的最新方法。尽管其表现出色,但该方法仍与各种严重问题有关,例如``认证准确性瀑布'',认证与准确性权衡甚至公平性问题。已经提出了依赖输入的平滑方法,目的是克服这些缺陷。但是,我们证明了这些方法缺乏正式的保证,因此所产生的证书是没有道理的。我们表明,一般而言,输入依赖性平滑度遭受了维数的诅咒,迫使方差函数具有低半弹性。另一方面,我们提供了一个理论和实用的框架,即使在严格的限制下,即使在有维度的诅咒的情况下,即使在存在维度的诅咒的情况下,也可以使用依赖输入的平滑。我们提供平滑方差功能的一种混凝土设计,并在CIFAR10和MNIST上进行测试。我们的设计减轻了经典平滑的一些问题,并正式下划线,但仍需要进一步改进设计。
translated by 谷歌翻译
The key idea behind the unsupervised learning of disentangled representations is that real-world data is generated by a few explanatory factors of variation which can be recovered by unsupervised learning algorithms. In this paper, we provide a sober look at recent progress in the field and challenge some common assumptions. We first theoretically show that the unsupervised learning of disentangled representations is fundamentally impossible without inductive biases on both the models and the data. Then, we train more than 12 000 models covering most prominent methods and evaluation metrics in a reproducible large-scale experimental study on seven different data sets. We observe that while the different methods successfully enforce properties "encouraged" by the corresponding losses, well-disentangled models seemingly cannot be identified without supervision. Furthermore, increased disentanglement does not seem to lead to a decreased sample complexity of learning for downstream tasks. Our results suggest that future work on disentanglement learning should be explicit about the role of inductive biases and (implicit) supervision, investigate concrete benefits of enforcing disentanglement of the learned representations, and consider a reproducible experimental setup covering several data sets.
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
基于似然或显式的深层生成模型使用神经网络来构建灵活的高维密度。该公式直接与歧管假设相矛盾,该假设指出,观察到的数据位于嵌入高维环境空间中的低维歧管上。在本文中,我们研究了在这种维度不匹配的情况下,最大可能的训练的病理。我们正式证明,在学习歧管本身而不是分布的情况下,可以实现堕落的优点,而我们称之为多种歧视的现象过于拟合。我们提出了一类两步程序,该过程包括降低降低步骤,然后进行最大样子密度估计,并证明它们在非参数方面恢复了数据生成分布,从而避免了多种歧视。我们还表明,这些过程能够对隐式模型(例如生成对抗网络)学到的流形进行密度估计,从而解决了这些模型的主要缺点。最近提出的几种方法是我们两步程序的实例。因此,我们统一,扩展和理论上证明了一大批模型。
translated by 谷歌翻译
Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers.
translated by 谷歌翻译
在值得信赖的机器学习中,这是一个重要的问题,可以识别与分配任务无关的输入的分布(OOD)输入。近年来,已经提出了许多分布式检测方法。本文的目的是识别共同的目标以及确定不同OOD检测方法的隐式评分函数。我们专注于在培训期间使用替代OOD数据的方法,以学习在测试时概括为新的未见外部分布的OOD检测分数。我们表明,内部和(不同)外部分布之间的二元歧视等同于OOD检测问题的几种不同的公式。当与标准分类器以共同的方式接受培训时,该二进制判别器达到了类似于离群暴露的OOD检测性能。此外,我们表明,异常暴露所使用的置信损失具有隐式评分函数,在训练和测试外部分配相同的情况下,以非平凡的方式与理论上最佳评分功能有所不同,这又是类似于训练基于能量的OOD检测器或添加背景类时使用的一种。在实践中,当以完全相同的方式培训时,所有这些方法的性能类似。
translated by 谷歌翻译