多标签分类器估计每一组概念标签的二进制标签状态(相关与无关),对于任何给定的实例。概率多标签分类器在此类标签状态(标签的幂列)的所有可能的标签组组合(标签的功能)的所有可能的标签集组合中提供了预测性的后验分布,我们可以通过选择对应于该分布的最大预期准确性的标签集,从而提供最佳的估计值。例如,在最大化精确匹配精度时,我们提供了分布的模式。但是,这与我们在这样的估计中可能拥有的信心有何关系?置信度是多标签分类器(通常在机器学习中)现实世界应用的重要组成部分,并且是解释性和解释性的重要组成部分。但是,如何在多标签上下文中提供信心并与特定准确度量有关,也不清楚如何提供与预期准确性良好相关的信心,这在现实中最有价值 - 世界决策。在本文中,我们将预期准确性视为具有给定精度度量的信心的替代品。我们假设可以从多标签预测分布中估算预期精度。我们检查了七个候选功能,以估计预测分布的预期准确性的能力。我们发现其中三个与预期准确性相关,并且具有稳健性。此外,我们确定可以单独使用每个候选功能来估计锤击相似性,但是候选者的组合最适合预期的jaccard索引和精确匹配。
translated by 谷歌翻译
本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用,最佳决策,成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史,其中几十年来预测机器学习作为学术领域的诞生。然而,校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大,并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节,包括适当的评分规则和其他评估指标,可视化方法,全面陈述二进制和多字数分类的HOC校准方法,以及几个先进的话题。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
The notion of uncertainty is of major importance in machine learning and constitutes a key element of machine learning methodology. In line with the statistical tradition, uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions. Yet, due to the steadily increasing relevance of machine learning for practical applications and related issues such as safety requirements, new problems and challenges have recently been identified by machine learning scholars, and these problems may call for new methodological developments. In particular, this includes the importance of distinguishing between (at least) two different types of uncertainty, often referred to as aleatoric and epistemic. In this paper, we provide an introduction to the topic of uncertainty in machine learning as well as an overview of attempts so far at handling uncertainty in general and formalizing this distinction in particular.
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
Jain等人引入的倾向模型。2016年已成为处理极端多标签分类(XMLC)中缺失和长尾标签的标准方法。在本文中,我们对这种方法进行批判性修订,表明尽管具有理论性,但其在当代XMLC作品中的应用仍是有争议的。我们详尽地讨论了基于倾向的方法的缺陷,并提出了几种食谱,其中一些与搜索引擎和推荐系统中使用的解决方案有关,我们认为这构成了XMLC中遵循的有希望的替代方案。
translated by 谷歌翻译
本文提出了一个贝叶斯模型,以比较任何度量的多个数据集上的多种算法。该模型基于Bradley-Terry模型,该模型计算出一种算法在不同数据集上的性能要好于另一个算法的次数。由于其贝叶斯基础,贝叶斯布拉德利·特里模型(BBT)的特征与经常主义的方法不同,可以比较多个数据集上的多种算法,例如Demsar(2006)对平均等级的测试,以及Benavoli等人。 (2016)多个成对的Wilcoxon测试,具有P-调整程序。特别是,贝叶斯的方法允许对算法发表更多细微的陈述,而不是声称差异是统计学意义的。贝叶斯的方法还允许定义何时出于实际目的或实际等效区域(绳索)等效的何时等效。与Benavoli等人提出的贝叶斯签名的等级比较程序不同。 (2017年),我们的方法可以为任何度量标准定义绳索,因为它基于概率声明,而不是基于该度量的差异。本文还提出了一个局部绳索概念,该概念评估了在某些交叉验证中对某些其他算法的平均值的平均度量之间的正差异是否应真正被视为基于效应大小的第一种算法比第二个算法更好。该局部绳索提案与贝叶斯的使用无关,可以根据等级的常见方式使用。可以使用实现BBT的R软件包和Python程序。
translated by 谷歌翻译
贝叶斯网络是一种图形模型,用于编码感兴趣的变量之间的概率关系。当与统计技术结合使用时,图形模型对数据分析具有几个优点。一个,因为模型对所有变量中的依赖性进行编码,因此它易于处理缺少某些数据条目的情况。二,贝叶斯网络可以用于学习因果关系,因此可以用来获得关于问题域的理解并预测干预的后果。三,因为该模型具有因果和概率语义,因此是结合先前知识(通常出现因果形式)和数据的理想表示。四,贝叶斯网络与贝叶斯网络的统计方法提供了一种有效和原则的方法,可以避免数据过剩。在本文中,我们讨论了从先前知识构建贝叶斯网络的方法,总结了使用数据来改善这些模型的贝叶斯统计方法。关于后一项任务,我们描述了学习贝叶斯网络的参数和结构的方法,包括使用不完整数据学习的技术。此外,我们还联系了贝叶斯网络方法,以学习监督和无监督学习的技术。我们说明了使用真实案例研究的图形建模方法。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
在这项工作中,我们对基本思想和新颖的发展进行了综述的综述,这是基于最小的假设的一种无创新的,无分配的,非参数预测的方法 - 能够以非常简单的方式预测集屈服在有限样本案例中,在统计意义上也有效。论文中提供的深入讨论涵盖了共形预测的理论基础,然后继续列出原始想法的更高级的发展和改编。
translated by 谷歌翻译
While methods for comparing two learning algorithms on a single data set have been scrutinized for quite some time already, the issue of statistical tests for comparisons of more algorithms on multiple data sets, which is even more essential to typical machine learning studies, has been all but ignored. This article reviews the current practice and then theoretically and empirically examines several suitable tests. Based on that, we recommend a set of simple, yet safe and robust non-parametric tests for statistical comparisons of classifiers: the Wilcoxon signed ranks test for comparison of two classifiers and the Friedman test with the corresponding post-hoc tests for comparison of more classifiers over multiple data sets. Results of the latter can also be neatly presented with the newly introduced CD (critical difference) diagrams.
translated by 谷歌翻译
考虑到其协变量$ \ boldsymbol x $的连续或分类响应变量$ \ boldsymbol y $的分布是统计和机器学习中的基本问题。深度神经网络的监督学习算法在预测给定$ \ boldsymbol x $的$ \ boldsymbol y $的平均值方面取得了重大进展,但是他们经常因其准确捕捉预测的不确定性的能力而受到批评。在本文中,我们引入了分类和回归扩散(卡)模型,该模型结合了基于扩散的条件生成模型和预训练的条件估计器,以准确预测给定$ \ boldsymbol y $的分布,给定$ \ boldsymbol x $。我们证明了通过玩具示例和现实世界数据集的有条件分配预测的卡片的出色能力,实验结果表明,一般的卡在一般情况下都优于最先进的方法,包括基于贝叶斯的神经网络的方法专为不确定性估计而设计,尤其是当给定$ \ boldsymbol y $的条件分布给定的$ \ boldsymbol x $是多模式时。
translated by 谷歌翻译
测量黑匣子预测算法中变量重要性的最流行方法是利用合成输入,这些输入结合了来自多个受试者的预测变量。这些输入可能是不可能的,身体上不可能的,甚至在逻辑上是不可能的。结果,对这种情况的预测可以基于数据,这与对黑匣子的训练非常不同。我们认为,当解释使用此类值时,用户不能相信预测算法的决定的解释。取而代之的是,我们主张一种称为同类沙普利的方法,该方法基于经济游戏理论,与大多数其他游戏理论方法不同,它仅使用实际观察到的数据来量化可变重要性。莎普利队的同伙通过缩小判断的主题的缩小,被认为与一个或多个功能上的目标主题相似。如果使用它来缩小队列对队列平均值有很大的不同,则功能很重要。我们在算法公平问题上进行了说明,其中必须将重要性归因于未经训练模型的保护变量。对于每个主题和每个预测变量,我们可以计算该预测因子对受试者的预测响应或对其实际响应的重要性。这些值可以汇总,例如在所有黑色受试者上,我们提出了一个贝叶斯引导程序来量化个人和骨料莎普利值的不确定性。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
在多标签学习中,单个数据点与多个目标标签相关联的多任务学习的特定情况,在文献中广泛假定,为了获得最佳准确性,应明确建模标签之间的依赖性。这个前提导致提供的方法的扩散,以学习和预测标签,例如,一个标签的预测会影响对其他标签的预测。即使现在人们承认,在许多情况下,最佳性能并不需要一种依赖模型,但此类模型在某些情况下继续超越独立模型,这暗示了其对其性能的替代解释以外的标签依赖性,而文献仅是文献才是最近开始解开。利用并扩展了最近的发现,我们将多标签学习的原始前提转移到其头上,并在任务标签之间没有任何可衡量的依赖性的情况下特别处理联合模型的问题;例如,当任务标签来自单独的问题域时。我们将洞察力从这项研究转移到建立转移学习方法,该方法挑战了长期以来的假设,即任务的可转移性来自源和目标域或模型之间相似性的测量。这使我们能够设计和测试一种传输学习方法,该方法是模型驱动的,而不是纯粹的数据驱动,并且它是黑匣子和模型不合时式(可以考虑任何基本模型类)。我们表明,从本质上讲,我们可以根据源模型容量创建任务依赖性。我们获得的结果具有重要的含义,并在多标签和转移学习领域为将来的工作提供了明确的方向。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译