预测具有微观结构的材料的代表性样品的演变是均质化的基本问题。在这项工作中,我们提出了一种图形卷积神经网络,其利用直接初始微结构的离散化表示,而无需分割或聚类。与基于特征和基于像素的卷积神经网络模型相比,所提出的方法具有许多优点:(a)它是深入的,因为它不需要卵容,但可以从中受益,(b)它具有简单的实现使用标准卷积滤波器和层,(c)它在没有插值的非结构化和结构网格数据上本身工作(与基于像素的卷积神经网络不同),并且(d)它可以保留与其他基于图形的卷积神经网络等旋转不变性。我们展示了所提出的网络的性能,并将其与传统的基于像素的卷积神经网络模型和基于传统的像素的卷积神经网络模型进行比较,并且在多个大型数据集上的基于特征的图形卷积神经网络。
translated by 谷歌翻译
广泛观察到的神经缩放定律,其中错误是训练集大小,模型大小或两者兼而有之的误差,从而促进了深度学习的实质性改进。但是,仅通过缩放来进行这些改进就需要计算和能源成本相当大。在这里,我们专注于数据集大小的错误缩放,并展示在理论和实践中如何超越幂律的扩展,并将其减少到指数缩放,如果我们可以访问高质量的数据修剪指标,以将顺序排名为应该丢弃哪些培训示例以实现任何修剪的数据集大小。然后,我们通过经验修剪的数据集大小来测试这一新的指数缩放预测,并且实际上观察到了在CIFAR-10,SVHN和Imagenet训练的重新NET上的功率定律缩放性能。鉴于找到高质量的修剪指标的重要性,我们对ImageNet上十个不同的数据修剪指标进行了第一个大规模的基准测试研究。我们发现大多数现有的高性能指标尺寸较差,而对于ImageNet来说,最佳尺度是计算密集型的,并且需要为每个图像标签。因此,我们开发了一种新的简单,便宜和可扩展的自我监督的修剪指标,该指标与最佳监督指标相当。总体而言,我们的工作表明,发现良好的数据指标可能会为可行的途径提供可行的途径,从而大大改善神经缩放法律,从而降低现代深度学习的资源成本。
translated by 谷歌翻译
贝叶斯改进的姓氏地理编码(BISG)是在不包含它的选民注册文件中代表种族/民族的最流行方法。本文使用来自加利福尼亚州,佛罗里达州,北卡罗来纳州和佐治亚州的自我报告的种族/民族的选民档案,对一系列未经测试的机器学习替代方案进行了基准测试。该分析得出三个关键发现。首先,当给出完全相同的输入时,BISG和机器学习在估计种族/种族组成方面的表现相似。其次,机器学习在种族/种族分类方面的表现优于BISG。第三,所有方法的性能在各州之间有很大的变化。这些结果表明,预训练的机器学习模型比BISG更可取,以进行单个分类。此外,在区域层面和各州之间的混合结果强调了研究人员在凭经验中验证其感兴趣人群中所选择的种族/种族代理的需求。
translated by 谷歌翻译
这是普遍且观察到的,但知之甚少,两个在训练过程中具有相似性能的机器学习模型可能具有非常不同的现实性能特征。这意味着模型内部的难以捉摸的差异,表现为表示多样性(RM)。我们引入了一种概念性和实验设置,用于分析RM,并表明某些训练方法系统地导致RM比其他训练方法更大,这是通过通过单数矢量规范相关分析(SVCCA)激活相似性来衡量的。我们将其进一步与通过I.I.D的方差衡量的预测多样性相关联。在四个通用图像数据集中,分布外测试集预测。我们呼吁模型中的RM系统测量和最大暴露,而不是消除RM。诸如我们的炮板分析之类的定性工具可以促进与利益相关者的RM效应的理解和交流。
translated by 谷歌翻译
最大化模型准确性的常规配方是(1)具有各种超参数的多个模型,以及(2)选择在固定验证集中表现最佳的单个模型,从而丢弃其余部分。在本文中,我们在微调大型预训练的模型的背景下重新审视了该过程的第二步,其中微调模型通常位于单个低误差盆地中。我们表明,平均多种模型的权重以不同的超参数配置进行了微调通常提高准确性和鲁棒性。与传统的合奏不同,我们可能会平均许多模型,而不会产生任何其他推理或记忆成本 - 我们将结果称为“模型汤”。当微调大型预训练的模型,例如夹子,Align和VIT-G在JFT上预先训练的VIT-G时,我们的汤食谱可为ImageNet上的超参数扫描中的最佳模型提供显着改进。所得的VIT-G模型在Imagenet上达到90.94%的TOP-1准确性,实现了新的最新状态。此外,我们表明,模型汤方法扩展到多个图像分类和自然语言处理任务,改善分发性能,并改善新下游任务的零局部性。最后,我们通过分析将权重平衡和与logit浓度的性能相似与预测的损失和信心的平坦度联系起来,并经过经验验证这种关系。代码可从https://github.com/mlfoundations/model-soups获得。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译
大型语言模型在零拍设置中显示出令人鼓舞的结果(Brown等,2020; Radford等,2019)。例如,他们只需在问题上调节并以最高概率选择答案来执行多项选择任务。但是,由于表面竞争的表面形式 - 在不同的表面形式竞争概率质量,即使它们代表相同的基本概念,例如“计算机”和“ PC”。由于概率质量是有限的,因此由于其他是有效答案的字符串的竞争(但不是多项选择选项之一),这会降低正确答案的概率。我们引入域有条件地互相信息,这是一种替代评分函数,可以通过简单地根据特定的零击任务的上下文中的先验可能性重新重新拨出每个选项来直接补偿表面竞争。在校准(Zhao等,2021)和所有GPT-2和GPT-3模型上,在各种多项选择数据集上,它都可以在零击性能方面的一致增长和未校准的评分功能。
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
公开可用的大型预磨语删除媒介(LMS)生成具有显着质量的文本,但仅从左右依次顺序地。因此,它们不会立即适用于打破单向假设的生成任务,例如释放或文本缺陷,需要特定于特定的监督。在本文中,我们呈现反射解码,这是一种新型无监督算法,其允许直接向非顺序任务应用单向LMS。我们的2步方法不需要监督甚至并行对象,只有两个离心的预磨损LMS相反的方向:向前和向后。首先,在上下文化步骤中,我们使用LMS生成过去和未来环境的集合,该上下文共同捕获输入(例如,索引源句)。其次,在反射步骤中,我们在这些“上下文集合”中的条件,生成与它们兼容的输出。综合经验结果表明,反思解码优于涉及释义和绑架文本缺陷的强烈无监督的基线,显着缩小无监督和监督方法之间的差距。反射解码超越了各种度量的多个监督基线,包括人为评估。
translated by 谷歌翻译