语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
人类语言学习者暴露于信息丰富的上下文敏感语言,但要大量的原始感觉数据。通过社会语言的使用和彩排和实践的内部过程,语言学习者能够建立高级的语义表示,以解释他们的看法。在这里,我们从人类中的“内在语音”过程中汲取灵感(Vygotsky,1934年),以更好地理解代理内语言在体现行为中的作用。首先,我们正式地将代理语音作为半监督问题,并开发了两种算法,这些算法能够以很少的标记语言数据进行视觉接地字幕。然后,我们通过实验计算不同量的标记数据的缩放曲线,并将数据效率与监督学习基线进行比较。最后,我们将演讲内部的语音纳入3D虚拟世界中运行的体现的移动操纵剂代理,并表明,只需多达150个附加图像标题,代理语音就可以操纵和回答有关的问题。一个没有任何相关任务经验的新对象(零射)。综上所述,我们的实验表明,对代理内部的语音进行建模有效,可以使体现的代理有效地学习新任务,而无需直接互动经验。
translated by 谷歌翻译
来自科幻小说的普通愿景是机器人将有一天居住在我们的物理空间中,感知世界,才能协助我们的物理劳动力,并通过自然语言与我们沟通。在这里,我们研究如何使用虚拟环境的简化设计如何与人类自然交互的人工代理。我们表明,与自我监督学习的模拟世界中的人类交互的模仿学习足以产生我们称之为MIA的多模式互动剂,这成功与非对抗人类互动75%的时间。我们进一步确定了提高性能的架构和算法技术,例如分层动作选择。完全,我们的结果表明,模仿多模态,实时人类行为可以提供具有丰富的行为的富含性的令人生意的和令人惊讶的有效手段,然后可以为特定目的进行微调,从而铺设基础用于培训互动机器人或数字助理的能力。可以在https://youtu.be/zfgrif7my找到MIA的行为的视频
translated by 谷歌翻译
解释在人类学习中发挥着相当大的作用,特别是在仍然在形成抽象的主要挑战,以及了解世界的关系和因果结构的地区。在这里,我们探索强化学习代理人是否同样可以从解释中受益。我们概述了一系列关系任务,涉及选择一个在一个集合中奇数一个的对象(即,沿许多可能的特征尺寸之一的唯一)。奇数一张任务要求代理在一组对象中的多维关系上推理。我们展示了代理商不会仅从奖励中学习这些任务,但是当它们也培训以生成语言解释对象属性或选择正确或不正确时,实现> 90%的性能。在进一步的实验中,我们展示了预测的解释如何使代理能够从模糊,因果困难的训练中适当地推广,甚至可以学习执行实验干预以识别因果结构。我们表明解释有助于克服代理人来解决简单特征的趋势,并探讨解释的哪些方面使它们成为最有益的。我们的结果表明,从解释中学习是一种强大的原则,可以为培训更强大和一般机器学习系统提供有希望的道路。
translated by 谷歌翻译
自适应方法(例如自适应力矩估计(ADAM)及其变体)的收敛性和收敛速率分析已被广泛研究以进行非convex优化。分析基于假设,即预期或经验的平均损失函数是Lipschitz平滑的(即其梯度是Lipschitz的连续),并且学习率取决于Lipschitz连续梯度的Lipschitz常数。同时,对亚当及其变体的数值评估已经澄清说,使用较小的恒定学习速率而不依赖Lipschitz常数和超级参数($ \ beta_1 $和$ \ beta_2 $)接近一个是有利的,这对于训练深神经网络是有利的。由于计算Lipschitz常数为NP-HARD,因此Lipschitz的平滑度条件是不现实的。本文提供了亚当的理论分析,而没有假设Lipschitz的平滑度条件,以弥合理论和实践之间的差距。主要的贡献是显示理论证据表明,亚当使用较小的学习率和接近一个的超级参数表现良好,而先前的理论结果全部用于接近零的超参数。我们的分析还导致发现亚当在大批量尺寸方面表现良好。此外,我们表明,当亚当使用学习率降低和接近一个的超级参数时,它的表现良好。
translated by 谷歌翻译
自2014年发明以来,亚当优化器得到了巨大的关注。一方面,它已被广泛用于深度学习,并且已经提出了许多变体,而另一方面,他们的理论会聚属性仍然是一个谜。在某种意义上,某些研究需要对更新的强烈假设不一定适用,而其他研究仍然遵循ADAM的原始问题收敛分析,这是令人满意的,而其他研究仍然是确保收敛的原始问题收敛分析。虽然ADAM存在严格的收敛分析,但它们对自适应步长的更新施加了特定的要求,这不足以覆盖亚当的许多其他变体。为了解决这些问题,在这个扩展的摘要中,我们为ADAM样式方法(包括亚当,AMSGRAD,Adabound等)提供了一个简单而通用的融合证明。我们的分析只需要一个增加或大的“动量”参数,用于一阶时刻,这实际上是在实践中使用的情况,以及对阶梯尺寸的自适应因子的界限条件,其适用于在温和下的亚当的所有变体随机梯度的条件。我们还建立了使用随机梯度估计器的差异递减结果。实际上,我们对亚当的分析如此简单,通用,可以利用来建立求解更广泛的非凸优化问题的收敛性,包括最小,组成和彼得优化问题。对于此扩展摘要的完整(早期)版本,请参阅ARXIV:2104.14840。
translated by 谷歌翻译
2014年,Kingma和BA发布了他们的ADAM优化器算法,以及一个旨在帮助证明它的数学论点。2018年,Bock和同事报告说,该参数缺少了一个关键的作品 - 美元我们将调用Bock的猜想。在这里,我们表明,这个猜想是假的,但它的修改版本确实持有,并填补了Bock的adam融合证明的差距。
translated by 谷歌翻译
开发神经网络电位(NNPS)的一个隐藏但重要的问题是培训算法的选择。在这里,我们使用Photl-Parrinello神经网络(BPNN)和两个可公开可访问的液体数据集进行比较两个流行训练算法,自适应力矩估计算法(ADAM)和扩展卡尔曼滤波算法(EKF)的性能。natl。阿卡。SCI。U.S.A. 2016,113,8368-8373和Proc。natl。阿卡。SCI。U.S.A. 2019,116,1110-1115]。这是通过在Tensorflow中实施EKF来实现的。结果发现,与ADAM相比,用EKF培训的NNP对学习率的价值更为可转让和更敏感。在这两种情况下,验证集的错误指标并不总是作为NNP的实际性能的良好指标。相反,我们表明它们的性能很好地与基于Fisher信息的相似度措施相互作用。
translated by 谷歌翻译
优化通常是一个确定性问题,其中通过诸如梯度下降的一些迭代过程找到解决方案。然而,当培训神经网络时,由于样本的子集的随机选择,损耗函数会超过(迭代)时间。该随机化将优化问题转变为随机级别。我们建议将损失视为关于一些参考最优参考的嘈杂观察。这种对损失的解释使我们能够采用卡尔曼滤波作为优化器,因为其递归制剂旨在估计来自嘈杂测量的未知参数。此外,我们表明,用于未知参数的演进的卡尔曼滤波器动力学模型可用于捕获高级方法的梯度动态,如动量和亚当。我们称之为该随机优化方法考拉,对于Kalman优化算法而言,具有损失适应性的缺陷。考拉是一种易于实现,可扩展,高效的方法来训练神经网络。我们提供了通过实验的收敛分析和显示,它产生了与跨多个神经网络架构和机器学习任务的现有技术优化算法的现有状态的参数估计,例如计算机视觉和语言建模。
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译