目前,最新的表格数据深度学习模型与基于决策树(GBDT)的传统ML模型竞争。与GBDT不同,深层模型可以从训练预处理中受益,这是视觉和NLP的DL的主力。对于表格问题,提出了几种预处理的方法,但是尚不完全清楚训练是否提供一致的明显改进以及应使用哪种方法,因为这些方法通常不相互比较或比较仅限于最简单的MLP体系结构。在这项工作中,我们旨在确定可以将可以普遍应用于不同数据集和体系结构的表格DL模型的最佳实践。在我们的发现中,我们表明,在预训练阶段使用对象目标标签对下游性能是有益的,并提倡几个目标意识到的预处理目标。总体而言,我们的实验表明,正确进行预处理可显着提高表格DL模型的性能,这通常会导致其优越性比GBDT。
translated by 谷歌翻译
关于表格数据深度学习的现有文献提出了广泛的新颖架构,并在各种数据集中报告竞争结果。然而,所提出的模型通常不适合彼此相比,并且现有的作品通常使用不同的基准和实验协议。因此,对于研究人员和从业者来说,目前尚不清楚模特表现最佳。此外,该领域仍然缺乏有效的基线,即易于使用的模型,可以在不同问题上提供竞争性能。在这项工作中,我们通过识别两个简单而强大的深层架构,执行表格数据的DL架构的主要系列的概述。第一个是类似Reset的架构,结果是一个强大的基线,在前的作品中经常丢失。第二种模型是我们简单地适应变压器体系结构的表格数据,这比大多数任务更优于其他解决方案。在相同的培训和调整协议下,这两种模型都与许多现有架构上的许多现有架构进行了比较。我们还将最佳DL模型与渐变提升决策树进行比较,并得出结论仍然没有普遍卓越的解决方案。
translated by 谷歌翻译
对表格数据的深度学习的最新工作表明了深层表格模型的强劲表现,通常会弥合梯度增强的决策树和神经网络之间的差距。除了准确性之外,神经模型的主要优点是它们学习可重复使用的功能,并且在新域中很容易进行微调。该属性通常在计算机视觉和自然语言应用中被利用,在特定于任务的培训数据稀缺时,转移学习是必不可少的。在这项工作中,我们证明上游数据使表格神经网络比广泛使用的GBDT模型具有决定性的优势。我们为表格转移学习提出了一个现实的医学诊断基准,并提出了使用上游数据来通过各种表格神经网络体系结构来提高性能的方法指南。最后,我们为上游和下游特征集不同的情况提出了一种伪特征方法,在现实世界中,特定于表格的问题广泛。我们的代码可在https://github.com/levinroman/tabular-transfer-learning上找到。
translated by 谷歌翻译
表格数据集是深度学习的最后一个“不适应的城堡”,具有传统的ML方法,如梯度提升决策树,甚至对最近的专业神经结构进行强烈表现。在本文中,我们假设提高神经网络性能的关键在于重新思考一大集现代正规化技术的关节和同时应用。结果,我们通过在使用联合优化上搜索每个数据集的最佳组合/混合物,使用联合优化来申请普通的决定以及它们的子公司的超参数来搜索每个数据集的最佳组合/混合物的最佳组合/混合物来规范普通的多层的Perceptron(MLP)网络。我们在包括40个表格数据集的大规模实证研究中,经验统一地评估了这些正则化鸡尾酒对MLP的影响,并证明(i)良好的正则化普通的MLP明显优于最新的最先进的专业神经网络架构,以及( ii)它们甚至优于强大的传统ML方法,如XGBoost。
translated by 谷歌翻译
表格数据(或表格)是机器学习(ML)中最广泛使用的数据格式。但是,ML模型通常假设表结构在训练和测试中保持固定。在ML建模之前,需要进行大量数据清洁以将不同的表与不同的列合并。这种预处理通常会造成大量的数据浪费(例如,删除无与伦比的列和样品)。如何从具有部分重叠列的多个表中学习ML模型?随着更多的列随着时间的推移可用,如何逐步更新ML模型?我们可以利用在多个不同表上预处理的模型吗?如何训练可以在看不见的桌子上预测的ML模型?为了回答所有这些问题,我们建议通过为表引入可转移的表变压器(Transtab)来放松固定桌结构。 transtab的目的是将每个样品(表中的一行)转换为可概括的嵌入向量,然后将堆叠的变压器应用于特征编码。一种方法论的洞察力是将列描述和表单元组合为门控变压器模型的原始输入。另一个见解是引入受监督和自我监督的预告片以提高模型性能。我们将transtab与多种基线方法进行比较,以进行多种基线方法和五个肿瘤学临床试验数据集进行比较。总体而言,transtab分别排名1.00、1.00、1.78,分别是有监督学习,功能增量学习和转移学习方案的12种方法;拟议的预告片会导致在监督学习中平均达到2.3%的AUC提升。
translated by 谷歌翻译
解决现实数据科学问题的一个关键元素正在选择要使用的模型类型。通常建议使用表格数据的分类和回归问题的树集合模型(如XGBoost)。然而,最近已经提出了几种用于表格数据的深层学习模型,声称对某些用例倾斜XGBoost。本文探讨了这些深度模型是否应该是通过严格将新的深层模型与各种数据集上的XGBoost进行比较来推荐的表格数据。除了系统地比较他们的性能外,我们还考虑他们所需要的调谐和计算。我们的研究表明,XGBoost在数据集中优于这些深度模型,包括提出深层模型的论文中使用的数据集。我们还证明XGBoost需要更少的调整。在积极的一面,我们表明,深层模型和XGBoost的集合在这些数据集上仅仅比XGBoost更好。
translated by 谷歌翻译
我们考虑对表格数据的自我监督表示学习(SSL)的任务:表格-SSL。典型的基于学习的SSL方法需要实例数据增强,这对于非结构化表格数据很难设计。现有的表格SSL方法以相对临时的方式设计这种增强性,并且无法捕获基础数据歧管。我们提出了一种新的基于重建的方法,而不是针对表格SSL的基于增强的方法,称为表格数据(MET),不需要增强。 MET基于视觉-SSL的流行MAE方法[He等,2021],并使用两个关键想法:(i)由于表格数据集中的每个坐标都具有独特的含义,因此我们需要为所有坐标使用单独的表示形式,(ii)除了标准损失外,还使用对抗性重建损失。五个不同表格数据集的经验结果表明,MET在所有这些数据集上实现了新的最新技术(SOTA),并且比当前的SOTA方法提高了9%。我们通过实验在精心设计的简单数据集上进行了更多的启示。
translated by 谷歌翻译
使用图神经网络(GNN)提取分子的信息表示,对于AI驱动的药物发现至关重要。最近,图形研究界一直在试图复制自然语言处理预处理的成功,并获得了一些成功。但是,我们发现在许多情况下,自我监督预审计对分子数据的益处可以忽略不计。我们对GNN预处理的关键组成部分进行了彻底的消融研究,包括预处理目标,数据拆分方法,输入特征,预处理数据集量表和GNN体系结构,以决定下游任务的准确性。我们的第一个重要发现是,在许多情况下,自我监督的图表预处理没有统计学上的显着优势。其次,尽管可以通过额外的监督预处理可以观察到改进,但通过更丰富或更平衡的数据拆分,改进可能会减少。第三,实验性超参数对下游任务的准确性具有更大的影响,而不是训练训练的任务。我们假设对分子进行预训练的复杂性不足,从而导致下游任务的可转移知识较低。
translated by 谷歌翻译
我们考虑使用自动监督学习系统的数据表,不仅包含数字/分类列,而且还包含一个或多个文本字段。在这里,我们组装了18个多模式数据表,每个数据表都包含一些文本字段并源于真正的业务应用程序。我们的公开的基准使研究人员能够通过数字,分类和文本功能全面评估自己的监督学习方法。为了确保在所有18个数据集上执行良好的任何单一建模策略将作为多式化文本/表格自动机的实用基础,我们的基准中的不同数据集在:样本大小,问题类型(分类和回归任务组合),功能数量(数据集之间的文本列的数量范围为1到28),以及预测信号如何在文本与数字/分类特征(以及预测相互作用)之间分解。在此基准测试中,我们评估各种直接的流水线来模拟这些数据,包括标准的两阶段方法,其中NLP用于团体化文本,然后可以应用表格数据的自动机。与人类数据科学团队相比,在我们的基准测试(堆叠与各种树模型的堆栈组合多峰变压器的堆栈)的全自动方法也可以在两个机器预测竞赛中符合原始文本/表格数据和第二次在卡格的Mercari价格建议挑战中的地方(2380支球队)。
translated by 谷歌翻译
无需进行任何架构更改的微调审计语言模型(LMS)已成为学习下游任务各种语言的规范。但是,对于非语言下游任务,一种常见的做法是使用特定于任务的设计来进行输入,输出层和损失功能。例如,可以通过用图像补丁嵌入层替换单词嵌入层,带有10向输出层的单词图表输出层以及单词预测丢失,将LM微调为MNIST分类器。 - 分别分类损失。出现一个自然的问题:LM微调可以在不更改模型架构或损失功能的情况下解决非语言的下游任务吗?为了回答这一点,我们提出了语言交织的微调(LIFT),并通过对非语言分类和回归任务的套件进行广泛的经验研究来研究其功效和局限性。 Lift不会对模型体系结构或损失功能进行任何更改,它仅依赖于自然语言界面,从而使“使用LMS进行无代码机”学习。我们发现,在各种低维分类和回归任务中,LIFT的性能相对较好,在许多情况下匹配了最佳基线的性能,尤其是对于分类任务。我们报告了有关升力的基本特性的实验结果,包括其电感偏差,样品效率,推断出外推能力,对异常值的鲁棒性和标签噪声以及概括。我们还分析了一些特定于提升的属性/技术,例如,通过适当提示,预测不确定性量化和两阶段微调,上下文感知学习。我们的代码可从https://github.com/uw-madison-lee-lab/languageinterfacefacefacefinetuning获得。
translated by 谷歌翻译
我们提出了TABPFN,这是一种与小型表格数据集上的最新技术竞争性的自动化方法,而更快的速度超过1,000美元。我们的方法非常简单:它完全符合单个神经网络的权重,而单个正向通行证直接产生了对新数据集的预测。我们的AutoML方法是使用基于变压器的先验数据拟合网络(PFN)体系结构进行元学习的,并近似贝叶斯推断,其先验是基于简单性和因果结构的假设。先验包含庞大的结构性因果模型和贝叶斯神经网络,其偏见是小体系结构,因此复杂性较低。此外,我们扩展了PFN方法以在实际数据上校准Prior的超参数。通过这样做,我们将抽象先前的假设与对真实数据的启发式校准分开。之后,修复了校准的超参数,并在按钮按钮时可以将TABPFN应用于任何新的表格数据集。最后,在OpenML-CC18套件的30个数据集上,我们表明我们的方法优于树木,并与复杂的最新Automl系统相同,并且在不到一秒钟内产生的预测。我们在补充材料中提供所有代码和最终训练的TABPFN。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
我们提出了自适应培训 - 一种统一的培训算法,通过模型预测动态校准并增强训练过程,而不会产生额外的计算成本 - 以推进深度神经网络的监督和自我监督的学习。我们分析了培训数据的深网络培训动态,例如随机噪声和对抗例。我们的分析表明,模型预测能够在数据中放大有用的基础信息,即使在没有任何标签信息的情况下,这种现象也会发生,突出显示模型预测可能会产生培训过程:自适应培训改善了深网络的概括在噪音下,增强自我监督的代表学习。分析还阐明了解深度学习,例如,在经验风险最小化和最新的自我监督学习算法的折叠问题中对最近发现的双重现象的潜在解释。在CIFAR,STL和Imagenet数据集上的实验验证了我们在三种应用中的方法的有效性:用标签噪声,选择性分类和线性评估进行分类。为了促进未来的研究,该代码已在HTTPS://github.com/layneh/Self-Aveptive-训练中公开提供。
translated by 谷歌翻译
以前的工作提出了许多新的损失函数和常规程序,可提高图像分类任务的测试准确性。但是,目前尚不清楚这些损失函数是否了解下游任务的更好表示。本文研究了培训目标的选择如何影响卷积神经网络隐藏表示的可转移性,训练在想象中。我们展示了许多目标在Vanilla Softmax交叉熵上导致想象的精度有统计学意义的改进,但由此产生的固定特征提取器转移到下游任务基本较差,并且当网络完全微调时,损失的选择几乎没有效果新任务。使用居中内核对齐来测量网络隐藏表示之间的相似性,我们发现损失函数之间的差异仅在网络的最后几层中都很明显。我们深入了解倒数第二层的陈述,发现不同的目标和近奇计的组合导致大幅不同的类别分离。具有较高类别分离的表示可以在原始任务上获得更高的准确性,但它们的功能对于下游任务不太有用。我们的结果表明,用于原始任务的学习不变功能与传输任务相关的功能之间存在权衡。
translated by 谷歌翻译
最近无监督的表示学习方法已经通过学习表示不变的数据增强,例如随机裁剪和彩色抖动等数据增强来生效。然而,如果依赖于数据增强的特征,例如,位置或色敏,则这种不变性可能对下游任务有害。这不是一个不监督学习的问题;我们发现即使在监督学习中也会发生这种情况,因为它还学会预测实例所有增强样本的相同标签。为避免此类失败并获得更广泛的表示,我们建议优化辅助自我监督损失,创建的AGESELF,了解两个随机增强样本之间的增强参数(例如,裁剪位置,颜色调整强度)的差异。我们的直觉是,Augelf鼓励在学习的陈述中保留增强信息,这可能有利于其可转让性。此外,Augself可以很容易地纳入最近的最先进的表示学习方法,其额外的培训成本可忽略不计。广泛的实验表明,我们的简单想法一直在各种转移学习情景中始终如一地提高了由监督和无监督方法所学到的表示的可转移性。代码可在https://github.com/hankook/augsfir。
translated by 谷歌翻译
最近,自我监督的蒙面自动编码器(MAE)因其令人印象深刻的表示能力而引起了前所未有的关注。但是,借口任务是掩盖的图像建模(MIM),重建缺失的本地贴片,缺乏对图像的全局理解。本文通过添加有监督的分类部门将MAE扩展到了完全监督的环境,从而使Mae可以从Golden Labels中有效地学习全球功能。所提出的监督MAE(Supmae)仅利用图像贴片的可见子集进行分类,这与使用所有图像贴片的标准监督预训练不同。通过实验,我们证明了Supmae不仅更有效地训练,而且还学会了更健壮和可转移的功能。具体而言,Supmae在使用VIT-B/16模型的ImageNet上评估时仅使用30%的计算来实现MAE的可比性。 Supmae对ImageNet变体的鲁棒性和转移学习绩效优于MAE和标准监督前培训对手。代码将公开可用。
translated by 谷歌翻译
医学计算机视觉的最新自我监督进步利用了在下游任务(例如分割)之前预处理的全球和局部解剖自我相似性。但是,当前方法假设I.I.D.图像采集是在临床研究设计中无效的,其中随访纵向扫描跟踪特定于主体的时间变化。此外,现有的自我监督方法用于医学上相关的图像到图像体系结构仅利用空间或时间自相似性,并且仅通过在单个图像尺度上应用的损失来进行,而天真的多尺度空间时空扩展崩溃了解决方案。对于这些目的,本文做出了两种贡献:(1)它提出了一种局部和多规模的时空表示方法,用于对纵向图像进行训练的图像到图像架构。它利用了学到的多尺度内部主体内特征的时空自相似性来进行训练,并开发出几种特征正规化,以避免崩溃的身份表示。 (2)在填充期间,它提出了一个令人惊讶的简单的自我监督分割一致性正规化以利用受试者内部的相关性。该框架以单次分割设置为基准,该框架的表现优于良好调整的随机定位基线和为I.I.D设计的当前自我监督技术。和纵向数据集。在纵向神经退行性的成年MRI和发育的婴儿脑MRI中,这些改进都得到了证明,并产生了更高的性能和纵向一致性。
translated by 谷歌翻译
Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译