一贯检查实验结果的统计显着性是迈向可再现科学的第一步。本文介绍了搭便车的指南,以严格比较增强学习算法。在介绍了统计测试的概念之后,我们回顾了相关的统计测试,并根据假阳性率和统计能力作为样本量(种子数量)和效应大小的函数进行经验比较。我们进一步研究了这些测试的鲁棒性,以违反最常见的假设(正常分布,相同的分布,相等的方差)。除了模拟外,我们还比较了通过运行软演奏者评论家和双层次的半cheetah的深层确定性政策梯度获得的经验分布。我们通过提供指南和代码来进行RL算法性能的严格比较来结束。
translated by 谷歌翻译
While methods for comparing two learning algorithms on a single data set have been scrutinized for quite some time already, the issue of statistical tests for comparisons of more algorithms on multiple data sets, which is even more essential to typical machine learning studies, has been all but ignored. This article reviews the current practice and then theoretically and empirically examines several suitable tests. Based on that, we recommend a set of simple, yet safe and robust non-parametric tests for statistical comparisons of classifiers: the Wilcoxon signed ranks test for comparison of two classifiers and the Friedman test with the corresponding post-hoc tests for comparison of more classifiers over multiple data sets. Results of the latter can also be neatly presented with the newly introduced CD (critical difference) diagrams.
translated by 谷歌翻译
通过比较它们在大型任务套件上的相对性能来主要评估深度加强学习(RL)算法。大多数已发布的Deep RL基准的结果比较了总体性能的积分估计,如任务的平均值和中位数分数,忽略了使用有限次训练运行所暗示的统计不确定性。从街机学习环境(ALE)开始,转向计算苛刻的基准导致只评估每项任务的少量运行的实践,加剧了点估计中的统计不确定性。在本文中,我们认为,在少数运行深处的RL政权中的可靠评估不能忽视结果中的不确定性,而无需冒着现场降低进展的风险。我们使用对Atari 100k基准测试的案例研究来说明这一点,在那里我们在单独从点估计中汲取的结论之间发现了大量差异与更全面的统计分析。旨在提高现场对报告的据报道的诸如少数经营的业绩的信心,我们倡导报告总绩效的间隔估计,并提出性能概况来解释结果的可变性,以及现在更强大和高效的总数的绩效作为狭隘的平均分数,在结果中取得小的不确定性。使用此类统计工具,我们在包括ALE,Procgen和DeepMind控制套件的其他广泛使用的RL基准测试中仔细审查了现有算法的性能评估,再次在先前的比较中显示差异。我们的调查结果呼吁改变我们如何评估深度RL的性能,我们提出了更严格的评估方法,伴随着开源库的最新,以防止不可靠的结果停滞不前。
translated by 谷歌翻译
本文提出了一个贝叶斯模型,以比较任何度量的多个数据集上的多种算法。该模型基于Bradley-Terry模型,该模型计算出一种算法在不同数据集上的性能要好于另一个算法的次数。由于其贝叶斯基础,贝叶斯布拉德利·特里模型(BBT)的特征与经常主义的方法不同,可以比较多个数据集上的多种算法,例如Demsar(2006)对平均等级的测试,以及Benavoli等人。 (2016)多个成对的Wilcoxon测试,具有P-调整程序。特别是,贝叶斯的方法允许对算法发表更多细微的陈述,而不是声称差异是统计学意义的。贝叶斯的方法还允许定义何时出于实际目的或实际等效区域(绳索)等效的何时等效。与Benavoli等人提出的贝叶斯签名的等级比较程序不同。 (2017年),我们的方法可以为任何度量标准定义绳索,因为它基于概率声明,而不是基于该度量的差异。本文还提出了一个局部绳索概念,该概念评估了在某些交叉验证中对某些其他算法的平均值的平均度量之间的正差异是否应真正被视为基于效应大小的第一种算法比第二个算法更好。该局部绳索提案与贝叶斯的使用无关,可以根据等级的常见方式使用。可以使用实现BBT的R软件包和Python程序。
translated by 谷歌翻译
在现实世界中,非确定性测量很常见:随机优化算法的性能或在混乱环境中加强学习代理人的总奖励只是两个例子,其中不可预测的结果很常见。这些度量可以建模为随机变量,并通过其预期值或更复杂的工具(例如原假设统计检验)相互比较。在本文中,我们提出了一个替代框架,以根据估计的累积分布函数在视觉上比较两个样本。首先,我们为两个随机变量引入了一个优势度量,该变量量化了一个随机变量之一的累积分布函数学术上主导另一个变量的比例。然后,我们提出了一种在分位数中分解的图形方法i)提出的优势度量和ii)一个随机变量之一比另一个变量较低的值的概率。出于说明性目的,我们通过提出的方法重新评估了已经发表的工作的实验,我们表明可以推断出其他结论(通过其余方法错过)。此外,将软件包rvCompare创建为应用和实验建议的框架的一种方便方法。
translated by 谷歌翻译
The kernel Maximum Mean Discrepancy~(MMD) is a popular multivariate distance metric between distributions that has found utility in two-sample testing. The usual kernel-MMD test statistic is a degenerate U-statistic under the null, and thus it has an intractable limiting distribution. Hence, to design a level-$\alpha$ test, one usually selects the rejection threshold as the $(1-\alpha)$-quantile of the permutation distribution. The resulting nonparametric test has finite-sample validity but suffers from large computational cost, since every permutation takes quadratic time. We propose the cross-MMD, a new quadratic-time MMD test statistic based on sample-splitting and studentization. We prove that under mild assumptions, the cross-MMD has a limiting standard Gaussian distribution under the null. Importantly, we also show that the resulting test is consistent against any fixed alternative, and when using the Gaussian kernel, it has minimax rate-optimal power against local alternatives. For large sample sizes, our new cross-MMD provides a significant speedup over the MMD, for only a slight loss in power.
translated by 谷歌翻译
An increasingly important data analytic challenge is understanding the relationships between subpopulations. Various visualization methods that provide many useful insights into those relationships are popular, especially in bioinformatics. This paper proposes a novel and rigorous approach to quantifying subpopulation relationships called the Population Difference Criterion (PDC). PDC is simultaneously a quantitative and visual approach to showing separation of subpopulations. It uses subpopulation centers, the respective variation about those centers and the relative subpopulation sizes. This is accomplished by drawing motivation for the PDC from classical permutation based hypothesis testing, while taking that type of idea into non-standard conceptual territory. In particular, the domain of very small P values is seen to seem to provide useful comparisons of data sets. Simulated permutation variation is carefully investigated, and we found that a balanced permutation approach is more informative in high signal (i.e large subpopulation difference) contexts, than conventional approaches based on all permutations. This result is quite surprising in view of related work done in low signal contexts, which came to the opposite conclusion. This issue is resolved by the proposal of an appropriate adjustment. Permutation variation is also quantified by a proposed bootstrap confidence interval, and demonstrated to be useful in understanding subpopulation relationships with cancer data.
translated by 谷歌翻译
在监视机器学习系统时,均匀性的两样本测试构成了现有的漂移检测构建方法的基础。它们用于测试证据表明,最近部署数据的分布与历史参考数据的基础数据不同。但是,通常,诸如时间诱导的相关性等各种因素意味着,预计最近的部署数据不会形成I.I.D.来自历史数据分布的样本。取而代之的是,我们可能希望测试允许更改的\ textit {Context}条件上的分布差异。为了促进这一点,我们从因果推理域借用机械,以开发出更通用的漂移检测框架,建立在有条件分布治疗效果的两样本测试基础上。我们建议根据最大条件平均差异对框架进行特定的实例化。然后,我们提供了一项实证研究,证明了其对实践感兴趣的各种漂移检测问题的有效性,例如以对其各自的流行率不敏感的方式检测数据基础分布的漂移。该研究还证明了对成像网尺度视力问题的适用性。
translated by 谷歌翻译
因果学习的基本难度是通常不能根据观察数据完全识别因果模型。介入数据,即源自不同实验环境的数据,提高了可识别性。然而,改善统治性取决于每个实验中的干预措施的目标和性质。由于在实际应用实验往往是昂贵的,因此需要执行正确的干预措施,使得尽可能少。在这项工作中,我们提出了一种基于不变因果预测(ICP)的新的主动学习(即实验选择)框架(A-ICP)(Peters等,2016)。对于一般结构因果模型,我们的表征干预对所谓的稳定集的影响,由(Pfister等,2019)引入的概念。我们利用这些结果提出了用于A-ICP的几个干预选择策略,该策略快速揭示了因果图中响应变量的直接原因,同时保持ICP中固有的错误控制。经验上,我们分析了拟议的拟议政策在人口和有限政府实验中的表现。
translated by 谷歌翻译
基于价值的增强学习算法在游戏,机器人技术和其他现实世界应用中表现出了很强的性能。最受欢迎的基于样本的方法是$ q $ - 学习。随后,它通过将当前$ Q $ estimate调整为观察到的奖励和下一个状态的$ Q $估计值来执行更新。该过程引入了最大化偏置,其方法是Double $ Q $ - 学习。我们从统计上构架了偏置问题,并认为它是估计一组随机变量的最大期望值(MEV)的实例。我们根据平均值的两样本测试提出了$ t $估计器(TE),该测试通过调整基本假设检验的显着性水平来灵活地插入过度和低估之间。称为$ k $ estimator(KE)的概括,在依靠几乎任意的内核函数的同时,遵守与TE相同的偏差和差异界限。我们使用TE和KE介绍了$ Q $ - 学习的修改和引导Deep $ Q $ -NETWORK(BDQN)。此外,我们提出了基于TE的BDQN的自适应变体,该变体会动态调整显着性水平,以最大程度地减少绝对估计偏置。所有提出的估计器和算法均经过彻底的测试和验证,并在不同的任务和环境上进行了验证,以说明TE和KE的偏见控制和性能潜力。
translated by 谷歌翻译
推断线性关系是许多实证研究的核心。线性依赖性的度量应正确评估关系的强度,并符合对人群的有意义。 Pearson的相关系数(PCC)是双变量关系的\ textit {De-facto}量度,这两个方面都缺乏。估计的强度$ r $可能是由于样本量有限和数据非正态而可能错误的。在统计显着性测试的背景下,将$ p $值作为后验概率的错误解释导致I型错误 - 这是一个具有显着性测试的一般问题,扩展到PCC。同时测试多个假设时,此类错误会加剧。为了解决这些问题,我们提出了一种基于机器学习的预测数据校准方法,从本质上讲,该方法在预期的线性关系上进行了研究。使用校准数据计算PCC会产生校准的$ P $值,可以将其解释为后验概率以及校准的$ r $估计值,这是其他方法未提供的所需结果。此外,随之而来的对每个测试的独立解释可能会消除对多次测试校正的需求。我们提供了使用多个模拟和对现实世界数据的应用,有利于提出的方法的经验证据。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
近年来,应用深入的强化学习(RL)在解决各种领域的具有挑战性的问题方面取得了重大进展。然而,由于算法的不稳定性和方差以及基准环境中的随机性,各种方法的收敛性遭受了不一致的影响。特别是,尽管该代理商的性能平均可能会有所改善,但在训练的后期阶段可能会突然恶化。在这项工作中,我们通过提供有关所获得的历史或参考基准策略的保守更新来研究增强代理学习过程的方法。我们的方法称为珠穆朗玛峰,通过参考策略的信心范围获得了高度改善的信心。通过广泛的经验分析,我们证明了我们方法在绩效和稳定方面的好处,并在连续控制和ATARI基准方面有了显着改善。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
多机构增强学习(MARL)已成为解决分散决策问题的有用方法。近年来提出的许多突破性算法一直在稳步增长。在这项工作中,我们仔细研究了这一快速发展,重点是在合作Marl的大量研究中采用的评估方法。通过对先前工作进行详细的荟萃分析,涵盖了从2016年至2022年接受出版的75篇论文,我们引起了人们对真正进步率的质疑的令人担忧的趋势。我们在更广泛的背景下进一步考虑了这些趋势,并从单一AGENT RL文献中获得了有关类似问题的灵感,这些建议以及仍然适用于MARL的建议。将这些建议与我们分析的新见解相结合,我们提出了合作MARL的标准化绩效评估方案。我们认为,这样的标准协议,如果被广泛采用,将大大提高未来研究的有效性和信誉,使复制和可重复性更加容易,并提高该领域的能力,通过能够通过能够准确评估进度的速度进行跨不同作品的合理比较。最后,我们在我们的项目网站上公开发布荟萃分析数据,以供未来的评估研究:https://sites.google.com/view/marl-andard-protocol
translated by 谷歌翻译
This paper proposes a new tree-based ensemble method for supervised classification and regression problems. It essentially consists of randomizing strongly both attribute and cut-point choice while splitting a tree node. In the extreme case, it builds totally randomized trees whose structures are independent of the output values of the learning sample. The strength of the randomization can be tuned to problem specifics by the appropriate choice of a parameter. We evaluate the robustness of the default choice of this parameter, and we also provide insight on how to adjust it in particular situations. Besides accuracy, the main strength of the resulting algorithm is computational efficiency. A bias/variance analysis of the Extra-Trees algorithm is also provided as well as a geometrical and a kernel characterization of the models induced.
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
人工智能(AI)的应用围绕着越来越多的人类生活的决定。社会通过对这种自动决策系统(ADSS)的责任制施加法律和社会期望来做出回应。公平是AI问责制的基本组成部分,与个人和敏感群体的治疗(例如,基于性别,种族)有关。尽管许多研究着重于分类任务的公平学习和公平测试,但文献却相当有限地限制了如何检查回归任务中的公平性。这项工作将错误平价作为回归公平概念,并引入了基于统计假设测试程序评估群体公平性的测试方法。错误奇偶校验测试检查预测错误是否在敏感组之间相似地分布,以确定广告是否公平。随后进行了合适的置换测试,以比较几个统计数据的组,以探索差距并确定受影响的群体。提出的方法的有用性和适用性是通过关于美国在美国县一级的COVID-19预测的案例研究来证明的,该研究揭示了基于种族的预测错误的差异。总体而言,拟议的回归公平测试方法学填补了公平机器学习文献中的空白,并且可以作为更大的问责制评估和算法审核的一部分。
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
Sequential testing, always-valid $p$-values, and confidence sequences promise flexible statistical inference and on-the-fly decision making. However, unlike fixed-$n$ inference based on asymptotic normality, existing sequential tests either make parametric assumptions and end up under-covering/over-rejecting when these fail or use non-parametric but conservative concentration inequalities and end up over-covering/under-rejecting. To circumvent these issues, we sidestep exact at-least-$\alpha$ coverage and focus on asymptotically exact coverage and asymptotic optimality. That is, we seek sequential tests whose probability of ever rejecting a true hypothesis asymptotically approaches $\alpha$ and whose expected time to reject a false hypothesis approaches a lower bound on all tests with asymptotic coverage at least $\alpha$, both under an appropriate asymptotic regime. We permit observations to be both non-parametric and dependent and focus on testing whether the observations form a martingale difference sequence. We propose the universal sequential probability ratio test (uSPRT), a slight modification to the normal-mixture sequential probability ratio test, where we add a burn-in period and adjust thresholds accordingly. We show that even in this very general setting, the uSPRT is asymptotically optimal under mild generic conditions. We apply the results to stabilized estimating equations to test means, treatment effects, etc. Our results also provide corresponding guarantees for the implied confidence sequences. Numerical simulations verify our guarantees and the benefits of the uSPRT over alternatives.
translated by 谷歌翻译