基于树的合奏以其出色的性能而闻名,其分类和回归问题以特征向量为特征,这些特征向量由来自各个范围和域的混合型变量表示。但是,考虑回归问题,它们主要旨在提供确定性的响应,或者用高斯分布来建模输出的不确定性。在这项工作中,我们介绍了TreeFlow,这是基于树的方法,结合了使用树形合奏和使用标准化流量的灵活概率分布进行建模的功能的好处。该解决方案的主要思想是将基于树的模型用作特征提取器,并将其与标准化流量的条件变体组合。因此,我们的方法能够为回归输出建模复杂分布。我们评估了针对具有不同体积,特征特征和目标维度的挑战回归基准的提议方法。与基于树的回归基线相比,我们在具有非高斯目标分布的数据集上获得了SOTA结果。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
时间变化数量的估计是医疗保健和金融等领域决策的基本组成部分。但是,此类估计值的实际实用性受到它们量化预测不确定性的准确程度的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种基于变压器体系结构的多功能方法,该方法使用基于注意力的解码器估算关节分布,该解码器可被学会模仿非参数Copulas的性质。最终的模型具有多种理想的属性:它可以扩展到数百个时间序列,支持预测和插值,可以处理不规则和不均匀的采样数据,并且可以在训练过程中无缝地适应丢失的数据。我们从经验上证明了这些属性,并表明我们的模型在多个现实世界数据集上产生了最新的预测。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
解决现实数据科学问题的一个关键元素正在选择要使用的模型类型。通常建议使用表格数据的分类和回归问题的树集合模型(如XGBoost)。然而,最近已经提出了几种用于表格数据的深层学习模型,声称对某些用例倾斜XGBoost。本文探讨了这些深度模型是否应该是通过严格将新的深层模型与各种数据集上的XGBoost进行比较来推荐的表格数据。除了系统地比较他们的性能外,我们还考虑他们所需要的调谐和计算。我们的研究表明,XGBoost在数据集中优于这些深度模型,包括提出深层模型的论文中使用的数据集。我们还证明XGBoost需要更少的调整。在积极的一面,我们表明,深层模型和XGBoost的集合在这些数据集上仅仅比XGBoost更好。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
我们提出了TABPFN,这是一种与小型表格数据集上的最新技术竞争性的自动化方法,而更快的速度超过1,000美元。我们的方法非常简单:它完全符合单个神经网络的权重,而单个正向通行证直接产生了对新数据集的预测。我们的AutoML方法是使用基于变压器的先验数据拟合网络(PFN)体系结构进行元学习的,并近似贝叶斯推断,其先验是基于简单性和因果结构的假设。先验包含庞大的结构性因果模型和贝叶斯神经网络,其偏见是小体系结构,因此复杂性较低。此外,我们扩展了PFN方法以在实际数据上校准Prior的超参数。通过这样做,我们将抽象先前的假设与对真实数据的启发式校准分开。之后,修复了校准的超参数,并在按钮按钮时可以将TABPFN应用于任何新的表格数据集。最后,在OpenML-CC18套件的30个数据集上,我们表明我们的方法优于树木,并与复杂的最新Automl系统相同,并且在不到一秒钟内产生的预测。我们在补充材料中提供所有代码和最终训练的TABPFN。
translated by 谷歌翻译
开发准确,灵活和数值有效的不确定性量化(UQ)方法是机器学习中的基本挑战之一。以前,已经提出了一种名为Disco Nets的UQ方法(Bouchacourt等,2016),该方法通过最大程度地减少训练数据中所谓的能量评分来训练神经网络。该方法在计算机视觉中的手姿势估计任务上表现出了出色的性能,但是尚不清楚该方法是否可以很好地对表格数据进行回归,以及它如何与较新的高级UQ方法(例如NGBOOST)竞争。在本文中,我们提出了改进的迪斯科网络神经结构,该建筑接受了更稳定和平稳的训练。我们将这种方法基于其他现实世界表格数据集,并确认它具有竞争力甚至优于标准的UQ基准。我们还为使用能量评分学习预测分布的有效性提供了新的基本证明。此外,我们指出的是,迪斯科的原始形式忽略了认知的不确定性,只捕获了不确定性。我们为这个问题提出了一个简单的解决方案。
translated by 谷歌翻译
尽管对连续数据的归一流流进行了广泛的研究,但直到最近才探索了离散数据的流量。然而,这些先前的模型遭受了与连续流的局限性。最值得注意的是,由于离散函数的梯度不确定或零,因此不能直接优化基于流动的模型。先前的作品近似离散功能的伪级,但不能在基本层面上解决该问题。除此之外,与替代离散算法(例如决策树算法)相比,反向传播可能是计算繁重的。我们的方法旨在减轻计算负担,并通过基于决策树开发离散流程来消除对伪级的需求,这是基于有效的基于树的基于有效的树的方法进行分类和回归的离散数据。我们首先定义了树结构化置换(TSP),该置换量(TSP)紧凑地编码离散数据的排列,其中逆向易于计算;因此,我们可以有效地计算密度值并采样新数据。然后,我们提出了一种决策树算法来构建TSP,该TSP通过新标准在每个节点上学习树结构和排列。我们从经验上证明了我们在多个数据集上方法的可行性。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
考虑到其协变量$ \ boldsymbol x $的连续或分类响应变量$ \ boldsymbol y $的分布是统计和机器学习中的基本问题。深度神经网络的监督学习算法在预测给定$ \ boldsymbol x $的$ \ boldsymbol y $的平均值方面取得了重大进展,但是他们经常因其准确捕捉预测的不确定性的能力而受到批评。在本文中,我们引入了分类和回归扩散(卡)模型,该模型结合了基于扩散的条件生成模型和预训练的条件估计器,以准确预测给定$ \ boldsymbol y $的分布,给定$ \ boldsymbol x $。我们证明了通过玩具示例和现实世界数据集的有条件分配预测的卡片的出色能力,实验结果表明,一般的卡在一般情况下都优于最先进的方法,包括基于贝叶斯的神经网络的方法专为不确定性估计而设计,尤其是当给定$ \ boldsymbol y $的条件分布给定的$ \ boldsymbol x $是多模式时。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
我们为表格数据(门)(门)提出了一种新颖的高性能,参数和计算有效的深度学习体系结构。Gate使用GRU启发的门控机制作为具有内置特征选择机制的功能表示学习单元。我们将其与一组不同的非线性决策树结合在一起,并以简单的自我注意力重新加权,以预测我们所需的输出。我们证明,通过在几个公共数据集(分类和回归)上进行实验,GATE是SOTA方法的竞争替代方法。该纸张一旦审查,该代码将立即上传。
translated by 谷歌翻译
机器学习的许多应用涉及预测模型输出的灵活概率分布。我们提出了自动评级分位式流动,这是一种灵活的概率模型,高维变量,可用于准确地捕获预测的炼膜不确定性。这些模型是根据适当评分规则使用新颖目标培训的自回归流动的情况,这简化了培训期间雅各比亚的计算昂贵的决定因素,并支持新型的神经结构。我们证明这些模型可用于参数化预测条件分布,提高时间序列预测和对象检测的概率预测质量。
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译