该报告介绍了开源软件包,该软件包在过去几年中实现了我们的一系列增强作品。特别是,该软件包主要包括三条技术,其中两个已经是流行的增压树平台中的标准实现:(i)基于直方图的(基于功能 - 固定)方法使树实施方便。在Li等人(2007年)中,开发了一种简单的固定长度自适应分子算法。在本报告中,我们证明,与流行树平台中更复杂的变体相比,如此简单的算法仍然非常有效。 (ii)基于损失函数的二阶导数,在Li(20010)中的显式增益公式通常在一阶方法上通常会大大改善。尽管LI(2010)中的增益公式是用于逻辑回归损失的,但它是具有第二个衍生物的损失函数的通用公式。例如,开源软件包还包括$ p \ geq 1 $的$ L_P $回归。该软件包的主要贡献是用于多类分类的ABC-Boost(自适应基类提升)。 Li(2008)中的最初作品通过指定“基类”来得出了经典多级逻辑回归的一组新衍生物。如果正确选择基类,则可以显着提高准确性。主要的技术挑战是设计搜索策略以选择基类。先前已发布的作品实施了一个详尽的搜索程序,以查找计算上太昂贵的基类。最近,一份新报告(Li and Zhao,20022)提出了一个“快速ABC-Boost”的统一框架,该框架使用户可以为基类有效选择适当的搜索空间。该软件包提供了Linux,Windows,Mac,Matlab,R,Python的接口。
translated by 谷歌翻译
在这项工作中,我们证明了PGMM(Ridge)回归的背景下PGMM(``Powered Persioned Min-Max'')内核的优势。在最近的先前研究中,PGMM内核已广泛评估分类任务,逻辑回归,支持向量机器以及深神经网络。在本文中,我们提供了一项有关脊回归的实验研究,以将PGMM内核回归与普通脊线性回归以及RBF内核脊回归进行比较。也许令人惊讶的是,即使没有调谐参数(即PGMM内核的功率参数$ p = 1 $),PGMM内核的性能已经很好。此外,通过调整参数$ p $,此(看似简单的)PGMM内核甚至与增强的树相当可观。在机器学习实践中,增强和增强的树木非常受欢迎。对于回归任务,通常,从业者使用$ L_2 $ BOOST,即最大程度地减少$ L_2 $损失。有时,出于鲁棒性,$ l_1 $ boost可能是一种选择。在这项研究中,我们实现了$ p \ geq 1 $的$ L_P $ BOOST,并将其包含在``Fast ABC-Boost''的包装中。也许同样令人惊讶的是,最佳性能(就$ L_2 $回归损失而言)通常以$ p> 2 $的价格获得,在某些情况下为$ p \ gg 2 $。 Li等人(UAI 2010)已经在使用$ L_P $ distances的K-nearealt邻居分类的背景下已经证明了这一现象。总而言之,$ L_P $ BOOST的实施为从业者提供了调整促进算法的额外灵活性,以实现在回归应用程序中的更好准确性。
translated by 谷歌翻译
我们开发“广义一致加权采样”(GCWS),用于散列“Powered-Gmm”(PGMM)内核(具有调谐参数$ P $)。事实证明,GCWS提供了一种用于在原始数据上应用功率变换的数字稳定方案,无论$ P $和数据的大小如何。功率变换通常有效地提高性能,在许多情况下大大。我们在各种公共分类数据集中将哈希数据送到神经网络上,并命名我们的方法``gcwsnet''。我们广泛的实验表明,GCWSNet经常提高分类准确性。此外,从GCWSNet收敛得更快的实验中,很明显。事实上,GCW通常仅达到合理的准确性(小于)培训过程的一个时代。此属性很需要,因为许多应用程序,例如广告点击率(CTR)预测模型或数据流(即,只有一次的数据),通常只培训一个时代。另一个有益的副作用是,由于输入数据变为二进制(并且高稀疏),第一层的神经网络的计算变得添加而不是乘法。提供了与(标准化)随机傅里叶特征(NRFF)的经验比较。我们还建议通过Count-Shark减少GCWSNet的模型大小,并开发了分析使用计数素描对GCW的准确性的影响的理论。我们的分析表明,“8位”的策略应该很好地运行,因为我们可以始终在GCWS散列的输出上应用一个8位计数迹象,而不会损害精度。在培训深度神经网络时,还有许多其他方法可以利用GCW。例如,可以在最后一层的输出上应用GCW,以提高受过训练的深神经网络的准确性。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
Bootstrap aggregating (Bagging) and boosting are two popular ensemble learning approaches, which combine multiple base learners to generate a composite model for more accurate and more reliable performance. They have been widely used in biology, engineering, healthcare, etc. This paper proposes BoostForest, which is an ensemble learning approach using BoostTree as base learners and can be used for both classification and regression. BoostTree constructs a tree model by gradient boosting. It increases the randomness (diversity) by drawing the cut-points randomly at node splitting. BoostForest further increases the randomness by bootstrapping the training data in constructing different BoostTrees. BoostForest generally outperformed four classical ensemble learning approaches (Random Forest, Extra-Trees, XGBoost and LightGBM) on 35 classification and regression datasets. Remarkably, BoostForest tunes its parameters by simply sampling them randomly from a parameter pool, which can be easily specified, and its ensemble learning framework can also be used to combine many other base learners.
translated by 谷歌翻译
Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
近年来,在广泛的机器学习应用程序中,在梯度增强决策树(GBDT)方面取得了重大成功。通常,关于GBDT训练算法的共识是梯度,统计数据是根据高精度浮点计算的。在本文中,我们调查了一个本质上重要的问题,该问题在先前的文献中在很大程度上被忽略了:代表培训GBDT的梯度需要多少位?为了解决这个谜团,我们建议在GBDT的培训算法中以非常简单但有效的方式量化所有高精度梯度。令人惊讶的是,我们的理论分析和实证研究都表明,梯度的必要精度而不伤害任何性能可能很低,例如2或3位。对于低精度梯度,GBDT培训中的大多数算术操作可以用8、16或32位的整数操作代替。有希望的是,这些发现可能为从几个方面对GBDT进行更有效训练的方式铺平了道路:(1)加速直方图中梯度统计的计算; (2)在分布式培训期间压缩高精度统计信息的通信成本; (3)使用和开发硬件体系结构的灵感,这些架构很好地支持了用于GBDT培训的低精确计算。与大量数据集中的SOTA GBDT系统相比,我们在CPU,GPU和分布式集群上进行了基准测试,最多可容纳我们简单量化策略的速度,这表明了GBDT低表演培训的有效性和潜力。该代码将发布给LightGBM的官方存储库。
translated by 谷歌翻译
Tree boosting is a highly effective and widely used machine learning method. In this paper, we describe a scalable endto-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges. We propose a novel sparsity-aware algorithm for sparse data and weighted quantile sketch for approximate tree learning. More importantly, we provide insights on cache access patterns, data compression and sharding to build a scalable tree boosting system. By combining these insights, XGBoost scales beyond billions of examples using far fewer resources than existing systems.
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
Gradient Boosting Decision Tree (GBDT) is a popular machine learning algorithm, and has quite a few effective implementations such as XGBoost and pGBRT. Although many engineering optimizations have been adopted in these implementations, the efficiency and scalability are still unsatisfactory when the feature dimension is high and data size is large. A major reason is that for each feature, they need to scan all the data instances to estimate the information gain of all possible split points, which is very time consuming. To tackle this problem, we propose two novel techniques: Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB). With GOSS, we exclude a significant proportion of data instances with small gradients, and only use the rest to estimate the information gain. We prove that, since the data instances with larger gradients play a more important role in the computation of information gain, GOSS can obtain quite accurate estimation of the information gain with a much smaller data size. With EFB, we bundle mutually exclusive features (i.e., they rarely take nonzero values simultaneously), to reduce the number of features. We prove that finding the optimal bundling of exclusive features is NP-hard, but a greedy algorithm can achieve quite good approximation ratio (and thus can effectively reduce the number of features without hurting the accuracy of split point determination by much). We call our new GBDT implementation with GOSS and EFB LightGBM. Our experiments on multiple public datasets show that, LightGBM speeds up the training process of conventional GBDT by up to over 20 times while achieving almost the same accuracy.
translated by 谷歌翻译
发现新的超链接使Web爬网程序能够找到尚未索引的新页面。这对于集中的爬行者来说尤为重要,因为他们努力提供对网络的特定部分的全面分析,从而优先考虑发现内容的变化的新页面。在文献中,通常同​​时考虑超链接和内容的变化。但是,还有证据表明这两种改变不一定是相关的。此外,关于预测变化的许多研究假设页面的长期可用,这在实践中是无法实现的。这项工作的目的是提供一种方法来使用短历史有效地检测新的链接。为此,我们使用一周的间隔使用十个爬网的数据集。我们的研究包括三个部分。首先,我们通过分析新的倒出数量的经验属性来获得数据的洞察力。我们观察到这些属性平均随着时间的推移稳定,但在目标页面内外页面的超链接出现的超链接之间存在很大的差异(分别分别是内部和外部倒降)。接下来,我们为三个目标提供统计模型:链路变化率,新链接的存在以及新链接的数量。这些模型包括文献中早些时候使用的功能,以及在这项工作中引入的新功能。我们分析了特征之间的相关性,并调查了他们的信息。一个值得注意的发现是,如果目标页面的历史不可用,那么我们的新功能,代表相关页面的历史,对于目标页面中的新链接最预测。最后,我们将排名方法作为聚焦爬虫的准则,以有效地发现新页面,这对相应的目标实现了出色的性能。
translated by 谷歌翻译
梯度增强的树木是竞争获奖,通用,非参数回归器,它们利用顺序模型拟合和梯度下降以最大程度地减少特定的损失函数。最受欢迎的实现是针对单变量回归和分类任务量身定制的,排除了捕获多变量目标互相关并将结构性惩罚应用于预测的可能性。在本文中,我们提出了一种用于拟合多元增强树的计算有效算法。我们表明,当预测相关时,多元树可以胜过单变量。此外,该算法允许任意规范预测,以便可以实施平滑度,一致性和功能关系之类的属性。我们提出了与预测和控制有关的应用程序和数值结果。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
This paper presents the key algorithmic techniques behind CatBoost, a new gradient boosting toolkit. Their combination leads to CatBoost outperforming other publicly available boosting implementations in terms of quality on a variety of datasets. Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features. Both techniques were created to fight a prediction shift caused by a special kind of target leakage present in all currently existing implementations of gradient boosting algorithms. In this paper, we provide a detailed analysis of this problem and demonstrate that proposed algorithms solve it effectively, leading to excellent empirical results.
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
在机器学习(ML)社区中,低阶功能方差分析(FAROVA)模型以固有的可解释的机器学习为幌子。可解释的提升机或EBM(Lou等人,2013年)和Gami-Net(Yang等,2021)是最近提出的两种用于拟合功能性主要效应和二阶相互作用的ML算法。我们提出了一种称为Gami-Tree的新算法,类似于EBM,但具有许多可带来更好性能的功能。它使用基于模型的树作为基础学习者,并结合了一种新的交互过滤方法,可以更好地捕获基础交互。此外,我们的迭代训练方法会收敛到具有更好的预测性能的模型,并且嵌入式纯化确保相互作用在层次上是正交的,与主要效应是正交的。该算法不需要广泛的调整,我们的实施是快速有效的。我们使用模拟和真实数据集比较Gami-Tree与EBM和GAMI-NET的性能和解释性。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用,最佳决策,成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史,其中几十年来预测机器学习作为学术领域的诞生。然而,校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大,并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节,包括适当的评分规则和其他评估指标,可视化方法,全面陈述二进制和多字数分类的HOC校准方法,以及几个先进的话题。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译