边际贝叶斯预测分类器(MBPC)与同时贝叶斯预测分类器(SBPC)相反,分别处理每个数据,因此默认地假设观察结果的独立性。然而,由于在学习生成式模型参数时,这种错误假设对MBPC精度的不利影响趋于磨损,面对越来越多的训练数据;保证在De Finetti类型的交换性下这两个分类器的收敛性。然而,这种结果远非在分区交换性(PE)下所产生的序列的微不足道,在那里甚至ULPTEEN的培训数据量并不统治不观察到的结果(仙境!)。我们提供了一种计算方案,允许在PE下生成序列。基于此,随着培训数据的控制增加,我们展示了SBPC和MBPC的融合。这使得使用更简单但计算方式更有效的边缘分类器而不是同时使用。我们还提供了生成模型的参数估计,从不同的样本跨越分区交换序列以及测试范例,以跨不同样本的该参数的平等。贝叶斯预测监督分类,参数估计和eWEN采样公式生成模型的参数估计和假设检测的包装在Cran作为PEKIT包上存放,可从https://github.com/amiryousefilab/pekit上免费获得。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
The notion of uncertainty is of major importance in machine learning and constitutes a key element of machine learning methodology. In line with the statistical tradition, uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions. Yet, due to the steadily increasing relevance of machine learning for practical applications and related issues such as safety requirements, new problems and challenges have recently been identified by machine learning scholars, and these problems may call for new methodological developments. In particular, this includes the importance of distinguishing between (at least) two different types of uncertainty, often referred to as aleatoric and epistemic. In this paper, we provide an introduction to the topic of uncertainty in machine learning as well as an overview of attempts so far at handling uncertainty in general and formalizing this distinction in particular.
translated by 谷歌翻译
给定有限数量的训练数据样本的分类的基本任务被考虑了具有已知参数统计模型的物理系统。基于独立的学习和统计模型的分类器面临使用小型训练集实现分类任务的主要挑战。具体地,单独依赖基于物理的统计模型的分类器通常遭受它们无法适当地调整底层的不可观察的参数,这导致系统行为的不匹配表示。另一方面,基于学习的分类器通常依赖于来自底层物理过程的大量培训数据,这在最实际的情况下可能不可行。本文提出了一种混合分类方法 - 被称为亚牙线的菌丝 - 利用基于物理的统计模型和基于学习的分类器。所提出的解决方案基于猜想,即通过融合它们各自的优势,刺鼠线将减轻与基于学习和统计模型的分类器的各个方法相关的挑战。所提出的混合方法首先使用可用(次优)统计估计程序来估计不可观察的模型参数,随后使用基于物理的统计模型来生成合成数据。然后,培训数据样本与基于学习的分类器中的合成数据结合到基于神经网络的域 - 对抗训练。具体地,为了解决不匹配问题,分类器将从训练数据和合成数据的映射学习到公共特征空间。同时,培训分类器以在该空间内找到判别特征,以满足分类任务。
translated by 谷歌翻译
覆盖率概率的估计,尤其是缺失的质量,是许多科学领域应用的经典统计问题。在本文中,我们研究了与随机数据压缩或素描有关的问题。这是一种新颖但实际上相关的观点,它是指必须根据真实数据的压缩和不完美的摘要或草图来估算覆盖范围的情况,因为完全数据或不同符号的经验频率都无法直接观察。我们的贡献是一种贝叶斯非参数方法,可从随机哈希概述的数据中估算覆盖概率,这也解决了恢复真实数据中不同计数和不同计数的挑战性问题,并具有特定的感兴趣的经验频率。拟议的贝叶斯估计量很容易适用于大规模分析,结合了事先进行的差异过程,尽管在更一般的Pitman-yor过程中涉及一些公开的计算挑战。通过数值实验和应用于Covid DNA序列,经典英语文献和IP地址的真实数据集的应用,我们的方法论的经验有效性得到了证明。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
在本文中,我们提出了一种多个内核测试程序,以推断几个因素(例如不同的治疗组,性别,病史)及其相互作用同时引起了人们的兴趣。我们的方法能够处理复杂的数据,并且当假设诸如相称性不能合理时,可以看作是无所不在的COX模型的替代方法。我们的方法结合了来自生存分析,机器学习和多次测试的众所周知的概念:加权的对数秩检验,内核方法和多个对比度测试。这样,可以检测到超出经典比例危害设置以外的复杂危险替代方案。此外,通过充分利用单个测试程序的依赖性结构以避免功率损失来进行多个比较。总的来说,这为阶乘生存设计提供了灵活而强大的程序,其理论有效性通过Martingale论证和$ v $统计的理论证明。我们在广泛的仿真研究中评估了方法的性能,并通过真实的数据分析对其进行了说明。
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
我们研究了机器学习(ML)分类技术的误差概率收敛到零的速率的性能。利用大偏差理论,我们为ML分类器提供了数学条件,以表现出误差概率,这些误差概率呈指数级消失,例如$ \ sim \ exp \ left(-n \,i + o(i + o(n)\ right)$,其中$ n $是可用于测试的信息的数量(或其他相关参数,例如图像中目标的大小),而$ i $是错误率。这样的条件取决于数据驱动的决策功能的累积生成功能的Fenchel-Legendre变换(D3F,即,在做出最终二进制决策之前的阈值)在训练阶段中学到的。因此,D3F以及相关的错误率$ $ $取决于给定的训练集,该集合假定有限。有趣的是,可以根据基础统计模型的可用信息生成的可用数据集或合成数据集对这些条件进行验证和测试。换句话说,分类误差概率收敛到零,其速率可以在可用于培训的数据集的一部分上计算。与大偏差理论一致,我们还可以以足够大的$ n $为高斯分布的归一化D3F统计量来确定收敛性。利用此属性设置所需的渐近错误警报概率,从经验上来说,即使对于$ n $的非常现实的值,该属性也是准确的。此外,提供了近似错误概率曲线$ \ sim \ sim \ sim \ sim \ exp \ left(-n \,i \ right)$,这要归功于精制的渐近导数(通常称为精确的渐近学),其中$ \ zeta_n $代表$ \ zeta_n $误差概率的大多数代表性亚指数项。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
机器学习中的歧视通常沿多个维度(又称保护属性)出现;因此,希望确保\ emph {交叉公平} - 即,没有任何子组受到歧视。众所周知,确保\ emph {边际公平}对于每个维度而言,独立不够。但是,由于亚组的指数数量,直接测量数据交叉公平性是不可能的。在本文中,我们的主要目标是通过统计分析详细了解边际和交叉公平之间的关系。我们首先确定一组足够的条件,在这些条件下可以获得确切的关系。然后,在一般情况下,我们证明了相交公平性的高概率的界限(通过边际公平和其他有意义的统计量很容易计算)。除了它们的描述价值之外,我们还可以利用这些理论界限来得出一种启发式,从而通过以相关的方式选择了我们描述相交子组的保护属性来改善交叉公平的近似和边界。最后,我们测试了实际和合成数据集的近似值和界限的性能。
translated by 谷歌翻译
监督学习模型是最基本的模型类别之一。从概率的角度查看监督的学习,通常假定拟合模型的一组培训数据遵循固定分布。但是,这种平稳性假设通常在称为概念漂移的现象中违反,该现象是指随时间变化的变化,在协变量$ \ mathbf {x} $和响应变量$ y $之间的预测关系中,并且可以渲染受过训练的模型次优或过时。我们开发了一个全面且在计算上有效的框架,用于检测,监视和诊断概念漂移。具体而言,我们使用多变量指数加权移动平均值的形式来监视拟合模型的对数似然梯度的梯度,该形式可以监视随机矢量平均值的一般变化。尽管我们在基于流行的错误方法上证明了具有实质性的性能优势,但以前尚未考虑基于分数的方法进行概念漂移监测。提出的基于分数的框架的优点包括适用于任何参数模型,对理论和实验中所示的更大变化的检测以及固有的诊断功能,以帮助识别变化的性质。
translated by 谷歌翻译
在偏好学习环境中,每个参与者都会在显示的一组候选人中选择$ k $最喜欢的物品的有序列表。(对于每个参与者,该集合可能都不同。)我们确定了人口偏好及其(排名)选择行为的基于距离的排名模型。排名模型类似于曲棍球模型,但使用了称为“反向主要索引(RMJ)”的新距离函数。我们发现,尽管需要对所有排列进行汇总,但基于RMJ的排名分布聚合物将其纳入(排名)选择概率,并具有简单的闭合形式表达式。我们开发有效的方法来估计模型参数并使用真实数据展示其概括功率,尤其是在显示集合有限的情况下。
translated by 谷歌翻译
形状约束在完全非参数和完全参数的方法之间产生灵活的中间地,以建模数据分布。对数凹陷的具体假设是经济学,生存建模和可靠性理论的应用程序的激励。但是,目前没有对给定数据的底层密度是对数凹的有效测试。最近的普遍似然比测试提供了有效的测试。通用测试依赖于最大似然估计(MLE),并且已经存在有效的方法来查找日志凹形MLE。这产生了在任何维度的有限样本中过度有效的对数凹面的第一次测试,我们还建立了渐近一致性结果。经验上,我们发现通过使用随机投影来获得最高功率以将D维测试问题转换为许多一维问题,导致统计上和计算效率的简单过程。
translated by 谷歌翻译
将多个分类器或专家的输出组合成单个概率分类是机器学习中的基本任务,从分类器融合到专家意见汇集的广泛应用程序。在这里,我们基于新相关的Dirichlet分布,介绍了一个分层贝叶斯模型的概率分类器融合。该分布明确地模拟了边际Dirichlet分布的随机载体之间的正相关,从而允许基本分类器或专家之间的相关性建模。拟议的模型自然地容纳经典的独立意见池和其他独立的融合算法作为特殊情况。通过对合成和现实世界数据集的融合的不确定性和正确性来评估它。我们表明,由于不确定性降低,融合分类器的性能的变化即使对于高度相关的基础分类器,也可以是贝叶斯的最佳状态。
translated by 谷歌翻译
贝叶斯网络是一种图形模型,用于编码感兴趣的变量之间的概率关系。当与统计技术结合使用时,图形模型对数据分析具有几个优点。一个,因为模型对所有变量中的依赖性进行编码,因此它易于处理缺少某些数据条目的情况。二,贝叶斯网络可以用于学习因果关系,因此可以用来获得关于问题域的理解并预测干预的后果。三,因为该模型具有因果和概率语义,因此是结合先前知识(通常出现因果形式)和数据的理想表示。四,贝叶斯网络与贝叶斯网络的统计方法提供了一种有效和原则的方法,可以避免数据过剩。在本文中,我们讨论了从先前知识构建贝叶斯网络的方法,总结了使用数据来改善这些模型的贝叶斯统计方法。关于后一项任务,我们描述了学习贝叶斯网络的参数和结构的方法,包括使用不完整数据学习的技术。此外,我们还联系了贝叶斯网络方法,以学习监督和无监督学习的技术。我们说明了使用真实案例研究的图形建模方法。
translated by 谷歌翻译
We develop stochastic variational inference, a scalable algorithm for approximating posterior distributions. We develop this technique for a large class of probabilistic models and we demonstrate it with two probabilistic topic models, latent Dirichlet allocation and the hierarchical Dirichlet process topic model. Using stochastic variational inference, we analyze several large collections of documents: 300K articles from Nature, 1.8M articles from The New York Times, and 3.8M articles from Wikipedia. Stochastic inference can easily handle data sets of this size and outperforms traditional variational inference, which can only handle a smaller subset. (We also show that the Bayesian nonparametric topic model outperforms its parametric counterpart.) Stochastic variational inference lets us apply complex Bayesian models to massive data sets.
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
测量贡献是合作游戏理论中的一个经典问题,其中沙普利价值是最著名的解决方案概念。在本文中,我们在参数贝叶斯学习游戏中建立了沙普利价值的收敛属性,玩家使用其组合数据进行贝叶斯推断,后端kl差异被用作特征函数。我们表明,对于任何两个玩家,在某些规律性的条件下,其在Shapley价值上的差异与限制性游戏的Shapley值的差异有关,其特征功能与联合Fisher信息的对数确定性成正比。作为一个应用程序,我们介绍了一个在线协作学习框架,该框架是渐近的沙普利 - 费尔。我们的结果使得可以实现这一目标,而无需对后端KL差异的任何昂贵计算。仅需要一致的Fisher信息估计器。使用现实世界数据通过实验证明了我们框架的有效性。
translated by 谷歌翻译
这项工作提出了一种分散的架构,其中个别代理旨在解决分类问题,同时观察不同尺寸的流特征,并从可能不同的分布产生。在社会学习的背景下,已经开发了几种有用的策略,通过跨分布式代理的本地合作解决了决策问题,并允许他们从流数据中学习。然而,传统的社会学习策略依赖于每个代理人对观察结果分布的重要知识的基本假设。在这项工作中,我们通过引入一种机器学习框架来克服这一问题,该机器学习框架利用图形的社交交互,导致分布式分类问题的完全数据驱动的解决方案。在拟议的社交机器学习(SML)策略中,存在两个阶段:在训练阶段,分类器被独立培训,以使用有限数量的训练样本来产生一组假设的信念;在预测阶段,分类器评估流媒体未标记的观察,并与邻近分类器共享他们的瞬时信仰。我们表明SML策略使得代理能够在这种高度异构的环境下一致地学习,并且即使在预测阶段决定未标记的样本时,即使在预测阶段也允许网络继续学习。预测决策用于以明显不同的方式不断地提高性能,这些方式与大多数现有的静态分类方案不同,在培训之后,未标记数据的决策不会重新用于改善未来的性能。
translated by 谷歌翻译