机器学习(ML)研究通常集中在模型上,而最突出的数据集已用于日常的ML任务,而不考虑这些数据集对基本问题的广度,困难和忠诚。忽略数据集的基本重要性已引起了重大问题,该问题涉及现实世界中的数据级联以及数据集驱动标准的模型质量饱和,并阻碍了研究的增长。为了解决此问题,我们提出Dataperf,这是用于评估ML数据集和数据集工作算法的基准软件包。我们打算启用“数据棘轮”,其中培训集将有助于评估相同问题的测试集,反之亦然。这种反馈驱动的策略将产生一个良性的循环,该循环将加速以数据为中心的AI。MLCommons协会将维护Dataperf。
translated by 谷歌翻译
我们研究了与任何已经训练的分类器兼容的简单方法(OOD)图像检测,仅依靠其预测或学会的表示。当使用Resnet-50和Swin Transformer模型使用时,评估各种方法的OOD检测性能,我们找到了仅考虑学会表示的模型预测的方法,可以轻松地胜过模型的预测。基于我们的分析,我们主张在其他研究中忽略了一种死去的方法:仅作为OOD图像标记,其平均距离与他们最近的邻居的平均距离很大(在图像分类器的表示空间中,经过训练的图像分类器的空间分销数据)。
translated by 谷歌翻译
具有数值节点特征和图形结构的图形神经网络(GNNS)作为输入显示出具有图形数据的各种监督学习任务的卓越性能。但是,GNN使用的数值节点特征通常是从大多数真实世界应用中的文本或表格(数字/分类)类型的原始数据中提取的。在大多数标准监督的学习设置中,使用IID(NON-GRAPH)数据的最佳模型不是简单的神经网络层,因此不容易被纳入GNN。在这里,我们提出了一个强大的堆叠框架,该框架将图形感知的传播与用于IID数据的任意模型融合在一起,这些模型是在多层中结合并堆叠的。我们的层面框架利用行李和堆叠策略来享受强有力的概括,从而有效地减轻了标签泄漏和过度拟合的方式。在各种具有表格/文本节点特征的图形数据集中,我们的方法相对于表格/文本和图形神经网络模型以及将两者结合的现有最新混合策略而获得了可比性或卓越的性能。
translated by 谷歌翻译
我们研究了任务不合时宜的持续强化学习方法(tACRL)。 TACRL是一种结合了部分观察RL(任务不可知论的结果)和持续学习的困难(CL)的困难,即在任务的非平稳序列上学习。我们将tACRL方法与以前文献规定的软上限进行比较:多任务学习(MTL)方法,这些方法不必处理非平稳数据分布以及任务感知方法,这些方法可以在完整的情况下进行操作可观察性。我们考虑了先前未开发的基线,用于基于重播的复发性RL(3RL),其中我们增强了具有复发机制的RL算法,以减轻部分可观察性和经验经验的重播机制,以使CL中的灾难性遗忘。通过研究一系列RL任务的经验性能,我们发现3RL匹配并克服MTL和任务感知的软上限的情况令人惊讶。我们提出假设,可以解释不断的和任务不足学习研究的这个拐点。通过对流行的多任务和持续学习基准元世界的大规模研究,我们的假设在连续控制任务中进行了经验检验。通过分析包括梯度冲突在内的不同培训统计数据,我们发现证据表明3RL的表现超出其能够快速推断新任务与以前的任务的关系,从而实现前进的转移。
translated by 谷歌翻译
我们考虑使用自动监督学习系统的数据表,不仅包含数字/分类列,而且还包含一个或多个文本字段。在这里,我们组装了18个多模式数据表,每个数据表都包含一些文本字段并源于真正的业务应用程序。我们的公开的基准使研究人员能够通过数字,分类和文本功能全面评估自己的监督学习方法。为了确保在所有18个数据集上执行良好的任何单一建模策略将作为多式化文本/表格自动机的实用基础,我们的基准中的不同数据集在:样本大小,问题类型(分类和回归任务组合),功能数量(数据集之间的文本列的数量范围为1到28),以及预测信号如何在文本与数字/分类特征(以及预测相互作用)之间分解。在此基准测试中,我们评估各种直接的流水线来模拟这些数据,包括标准的两阶段方法,其中NLP用于团体化文本,然后可以应用表格数据的自动机。与人类数据科学团队相比,在我们的基准测试(堆叠与各种树模型的堆栈组合多峰变压器的堆栈)的全自动方法也可以在两个机器预测竞赛中符合原始文本/表格数据和第二次在卡格的Mercari价格建议挑战中的地方(2380支球队)。
translated by 谷歌翻译
我们在最常用的计算机视觉,自然语言和音频数据集中的10个测试集中识别标签错误,随后研究这些标签错误的可能性影响基准结果。测试集中的错误是众多和广泛的:我们估计10个数据集的至少3.3%的误差,例如标签错误包括至少6%的想象验证集。使用自信的学习算法识别推定的标签错误,然后通过众包(51%的算法上标记的候选者的51%确实错误地标记了数据集)。传统上,机器学习从业者选择基于测试准确性部署哪种模型 - 我们的调查结果在此提出谨慎行事,提出在正确标记的测试集上判断模型可能更有用,特别是对于嘈杂的现实世界数据集。令人惊讶的是,我们发现较低的容量模型可能与现实世界数据集中的更高容量模型几乎更有用,具有高比例的错误标记数据。例如,在具有校正标签的ImageNet上:Reset-18优于Reset-50,如果最初错误标记的测试示例的普及仅增加6%。在具有校正标签的CiFar-10上:VGG-11优于VGG-19,如果最初错误标记的测试示例的患病率达到5%。在HTTPS://labelerrors.com上查看10个数据集中的测试集错误,HTTPS://github.com/cleanlab/labelors可以再现所有标签错误。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译
依赖于太多的实验来学习良好的行动,目前的强化学习(RL)算法在现实世界的环境中具有有限的适用性,这可能太昂贵,无法探索探索。我们提出了一种批量RL算法,其中仅使用固定的脱机数据集来学习有效策略,而不是与环境的在线交互。批量RL中的有限数据产生了在培训数据中不充分表示的状态/行动的价值估计中的固有不确定性。当我们的候选政策从生成数据的候选政策发散时,这导致特别严重的外推。我们建议通过两个直接的惩罚来减轻这个问题:减少这种分歧的政策限制和减少过于乐观估计的价值约束。在全面的32个连续动作批量RL基准测试中,我们的方法对最先进的方法进行了比较,无论如何收集离线数据如何。
translated by 谷歌翻译
图像分类器通常在其测试设置精度上进行评分,但高精度可以屏蔽微妙类型的模型故障。我们发现高分卷积神经网络(CNNS)在流行的基准上表现出令人不安的病理,即使在没有语义突出特征的情况下,即使在没有语义突出特征的情况下也能够显示高精度。当模型提供没有突出的输入功能而无突出的频率决定时,我们说分类器已经过度解释了它的输入,找到了太多的课程 - 以对人类荒谬的模式。在这里,我们展示了在CiFar-10和Imagenet上培训的神经网络患有过度诠释,我们发现CIFAR-10上的模型即使在屏蔽95%的输入图像中,人类不能在剩余像素子集中辨别出突出的特征。我们介绍了批量梯度SIS,一种用于发现复杂数据集的足够输入子集的新方法,并使用此方法显示故事中的边界像素的充分性以进行培训和测试。虽然这些模式在现实世界部署中移植了潜在的模型脆弱性,但它们实际上是基准的有效统计模式,单独就足以实现高测试精度。与对手示例不同,过度解释依赖于未修改的图像像素。我们发现合奏和输入辍学可以帮助缓解过度诠释。
translated by 谷歌翻译
The analysis of network structure is essential to many scientific areas, ranging from biology to sociology. As the computational task of clustering these networks into partitions, i.e., solving the community detection problem, is generally NP-hard, heuristic solutions are indispensable. The exploration of expedient heuristics has led to the development of particularly promising approaches in the emerging technology of quantum computing. Motivated by the substantial hardware demands for all established quantum community detection approaches, we introduce a novel QUBO based approach that only needs number-of-nodes many qubits and is represented by a QUBO-matrix as sparse as the input graph's adjacency matrix. The substantial improvement on the sparsity of the QUBO-matrix, which is typically very dense in related work, is achieved through the novel concept of separation-nodes. Instead of assigning every node to a community directly, this approach relies on the identification of a separation-node set, which -- upon its removal from the graph -- yields a set of connected components, representing the core components of the communities. Employing a greedy heuristic to assign the nodes from the separation-node sets to the identified community cores, subsequent experimental results yield a proof of concept. This work hence displays a promising approach to NISQ ready quantum community detection, catalyzing the application of quantum computers for the network structure analysis of large scale, real world problem instances.
translated by 谷歌翻译