我们探索了深度神经网络的软磁预测的聚类,并引入了一种新型的概率聚类方法,称为k-sbetas。在聚类分布的一般环境中,现有方法着重于探索针对单纯形数据(例如KL Divergence)量身定制的失真度量,作为标准欧几里得距离的替代方法。我们提供了聚类分布的一般观点,该观点强调,基于失真的方法的统计模型可能不够描述。取而代之的是,我们优化了一个可混合变量的目标,该目标测量了每个集群中数据的一致性与引入的SBETA密度函数,其参数受到约束并与二进制分配变量共同估​​算。我们的多功能公式近似于用于建模群集数据的各种参数密度,并使能够控制群集平衡偏置。这会产生高度竞争性的性能,以在各种情况下进行有效无监督的黑盒预测调整,包括一声分类和实时的无监督域适应道路,以进行道路分割。实施可在https://github.com/fchiaroni/clustering_softmax_predictions上获得。
translated by 谷歌翻译
We introduce an information-maximization approach for the Generalized Category Discovery (GCD) problem. Specifically, we explore a parametric family of loss functions evaluating the mutual information between the features and the labels, and find automatically the one that maximizes the predictive performances. Furthermore, we introduce the Elbow Maximum Centroid-Shift (EMaCS) technique, which estimates the number of classes in the unlabeled set. We report comprehensive experiments, which show that our mutual information-based approach (MIB) is both versatile and highly competitive under various GCD scenarios. The gap between the proposed approach and the existing methods is significant, more so when dealing with fine-grained classification problems. Our code: \url{https://github.com/fchiaroni/Mutual-Information-Based-GCD}.
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
考虑到数据注释的成本以及几乎没有标记的样本所提供的准确性提高,几乎没有射击的成本,几乎没有射击的转移学习越来越多。尤其是在少量分类(FSC)中,最近的作品探索了旨在最大程度地相对于未知参数的可能性或后二阶段的特征分布。遵循这种静脉,并考虑到FSC和聚类之间的平行,我们寻求更好地考虑到由于缺乏数据而导致的估计不确定性,以及与每个类相关的群集的统计属性更好。因此,在本文中,我们提出了一种基于变异贝叶斯推论的新聚类方法,基于概率线性判别分析,自适应维度降低进一步改善。当应用于先前研究中使用的功能时,我们提出的方法可显着提高在各种少量基准测试的现实不平衡转导设置中的准确性,其准确性高达$ 6 \%$。此外,当应用于平衡设置时,我们将获得非常有竞争力的结果,而无需使用对实际用例的级别平衡伪像。我们还提供了方法的性能,以高性能的主链链链,其报告的结果进一步超过了当前的最新准确性,这表明该方法的通用性。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
Equipping predicted segmentation with calibrated uncertainty is essential for safety-critical applications. In this work, we focus on capturing the data-inherent uncertainty (aka aleatoric uncertainty) in segmentation, typically when ambiguities exist in input images. Due to the high-dimensional output space and potential multiple modes in segmenting ambiguous images, it remains challenging to predict well-calibrated uncertainty for segmentation. To tackle this problem, we propose a novel mixture of stochastic experts (MoSE) model, where each expert network estimates a distinct mode of the aleatoric uncertainty and a gating network predicts the probabilities of an input image being segmented in those modes. This yields an efficient two-level uncertainty representation. To learn the model, we develop a Wasserstein-like loss that directly minimizes the distribution distance between the MoSE and ground truth annotations. The loss can easily integrate traditional segmentation quality measures and be efficiently optimized via constraint relaxation. We validate our method on the LIDC-IDRI dataset and a modified multimodal Cityscapes dataset. Results demonstrate that our method achieves the state-of-the-art or competitive performance on all metrics.
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
自我监督的学习(SSL)已成为无需人类注释而产生不变表示的流行方法。但是,通过在输入数据上利用先前的在线转换功能来实现所需的不变表示。结果,每个SSL框架都是针对特定数据类型(例如,视觉数据)定制的,如果将其用于其他数据集类型,则需要进行进一步的修改。另一方面,是一个通用且广泛适用的框架的自动编码器(AE),主要集中于缩小尺寸,不适合学习不变表示。本文提出了一个基于阻止退化解决方案的受限自我标签分配过程的通用SSL框架。具体而言,先前的转换函数被用无监督的对抗训练的训练过程得出,以实现不变表示。通过自我转化机制,可以从相同的输入数据生成成对的增强实例。最后,基于对比度学习的培训目标是通过利用自我标签分配和自我转化机制来设计的。尽管自我转化过程非常通用,但拟议的培训策略的表现优于基于AE结构的大多数最先进的表示方法。为了验证我们的方法的性能,我们对四种类型的数据进行实验,即视觉,音频,文本和质谱数据,并用四个定量指标进行比较。我们的比较结果表明,所提出的方法证明了鲁棒性并成功识别数据集中的模式。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
我们提出了一种在数据样本集合中共同推断标签的方法,其中每个样本都包含一个观察和对标签的先验信念。通过隐式假设存在一种生成模型,可区分预测因子是后部,我们得出了一个训练目标,该目标允许在弱信念下学习。该配方统一了各种机器学习设置;弱信念可以以嘈杂或不完整的标签形式出现,由辅助输入的不同预测机制给出的可能性,或反映出有关手头问题结构的知识的常识性先验。我们证明了有关各种问题的建议算法:通过负面培训示例进行分类,从排名中学习,弱和自我监督的空中成像细分,视频框架的共段以及粗糙的监督文本分类。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
在这项工作中,我们研究了基于分数的梯度学习在判别和生成分类设置中的应用。分数函数可用于将数据分布描述为密度的替代方案。它可以通过分数匹配有效地学习,并用于灵活地生成可靠的样本以增强判别性分类质量,以恢复密度并构建生成性分类器。我们分析了涉及基于分数表示的决策理论,并对模拟和现实世界数据集进行了实验,证明了其在实现和改善算法分类性能以及对扰动的鲁棒性方面的有效性,尤其是在高维和不平衡状况下。
translated by 谷歌翻译