在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
布雷特认为,神经编码隐喻是大脑所做事情的无效基础。在这里,我们认为这是一个不充分的指南,用于构建人工智能,学习在复杂,不断变化的环境中实现短期和长期目标。
translated by 谷歌翻译
深层强化学习的进步已经导致代理人在各种感觉运动领域中表现出色。在这项工作中,我们研究了一个代理必须学习的设置,以便为在给定的符号指令上处理的各种场景生成程序。最终目标通过场景图像指定为ouragent。符合目标图像的符号指令被用作我们策略的条件输入。由于单个指令对应于一组不同但仍然是一致的目标图像,因此代理需要学习在给定指令的情况下生成分布过程。我们证明,通过对强制对抗性学习目标的简单改变,我们可以学习指导条件政策以实现相应的多样化目标。最重要的是,我们的代理商的随机政策被证明可以比基于固定像素的奖励函数基线更准确地捕捉目标分布的多样性。我们在两个领域中展示了我们的方法的功效:(1)使用以指令为条件的绘图软件绘制MNISTdigits,以及(2)在满足特定指令的3D编辑器中构造。
translated by 谷歌翻译
神经网络可以学习表示和操纵数字信息,但它们很少在训练期间遇到的数值范围之外很好地推广。为了鼓励更系统的数字推理,我们提出了一种架构,它表示数值量是线性激活,使用由学习门控制的原始算术运算符来操纵。我们将此模块称为神经算术逻辑单元(NALU),类似于传统处理器中的算术逻辑单元。实验表明,NALU增强神经网络可以学习全时间,对数字图像进行算术运算,将数字语言转换为实值标量,执行计算机代码,计算对象图像。与传统架构相比,我们在训练期间遇到的数值范围内外都获得了基本上更好的推广,通常推断超出训练数值范围的数量级。
translated by 谷歌翻译
神经网络是否可以学习抽象推理,或者它们是否只是在表面统计上是最近辩论的话题。在这里,我们提出了adataset和挑战,旨在探索抽象推理,受到众所周知的人类智商测试的启发。为了应对这一挑战,模型必须应对各种一般化的“制度”,其中训练和测试数据以不同的方式定义。我们展示了诸如ResNets之类的流行模型,即使在培训和测试集的差别很小的情况下也是如此,并且我们提出了一种新颖的架构,其结构旨在鼓励推理,但效果明显更好。当我们改变测试问题和训练数据的不同方式时,我们发现我们的模型在某些形式的泛化中显然是有效的,但在其他形式上则显着较弱。我们进一步表明,如果模型的预测符合其答案的符号解释,那么该模型的推广能力会显着提高。总而言之,我们引入并探索了在神经网络中测量和诱导更强的抽象推理的方法。我们可自由使用的数据集应该推动这方面的进一步发展。
translated by 谷歌翻译
最近的工作表明,深层强化学习代理可以从不常见的环境奖励中学习类似语言的指令。然而,这给环境设计者带来了设计语言 - 条件向前功能的责任,这些功能可能不容易或易于实现,因为环境的复杂性和语言规模。为了克服这种限制,我们提出了一个框架,在该框架内,使用不是从环境获得的奖励来训练指令条件的RLagents,而是使用从专家示例联合训练的奖励模型。随着奖励模式的改进,他们学会准确地奖励代理人完成任务前环境配置 - 以及指令 - 在专家数据中不存在。该框架有效地将指令所需的表示与它们的执行方式分开。在一个简单的网格世界中,它使代理能够学习一系列需要与块交互并了解空间关系和未指定抽象布置的命令。我们进一步展示了该方法允许我们的代理适应环境中的变化,而无需新的专家示例。
translated by 谷歌翻译
对于自然语言理解(NLU)技术而言,无论是实际上还是作为科学研究对象,它都必须是通用的:它必须能够以不是专门针对任何特定任务或数据集的方式处理语言。为了实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种在各种现有NLU任务中评估和分析模型性能的工具。 GLUE与模型无关,但它可以激励跨任务共享知识,因为某些任务的训练数据非常有限。我们还提供了一个手工制作的诊断测试套件,可以对NLU模型进行详细的语言分析。我们基于多任务和转移学习的当前方法评估基线,并发现它们不会立即对每个任务训练单独模型的总体性能进行实质性改进,这表明改进了一般性和强大的NLU系统的改进空间。
translated by 谷歌翻译
在今天的NLP研究中,用于学习单词的分布式表示的无监督方法是有意义的,但是对于从未标记数据中学习分布式短语或句子表示的最佳方式知之甚少。本文是学习这些表示的模型的系统比较。我们发现最佳方法主要取决于预期的应用。更深入,更复杂的模型更适用于监督系统中使用的表示,但浅对数线性模型最适合构建可以使用简单空间距离度量进行解码的表示空间。我们还提出了两个新的无监督代表性学习目标,旨在优化时间,域可移植性和性能之间的权衡。
translated by 谷歌翻译
We introduce a new test of how well language models capture meaning inchildren's books. Unlike standard language modelling benchmarks, itdistinguishes the task of predicting syntactic function words from that ofpredicting lower-frequency words, which carry greater semantic content. Wecompare a range of state-of-the-art models, each with a different way ofencoding what has been previously read. We show that models which storeexplicit representations of long-term contexts outperform state-of-the-artneural language models at predicting semantic content words, although thisadvantage is not observed for syntactic function words. Interestingly, we findthat the amount of text encoded in a single memory representation is highlyinfluential to the performance: there is a sweet-spot, not too big and not toosmall, between single words and full sentences that allows the most meaningfulinformation in a text to be effectively retained and recalled. Further, theattention over such window-based memories can be trained effectively throughself-supervision. We then assess the generality of this principle by applyingit to the CNN QA benchmark, which involves identifying named entities inparaphrased summaries of news articles, and achieve state-of-the-artperformance.
translated by 谷歌翻译
我们提出了SimLex-999,这是一种用于评估分布式语义模型的黄金标准资源,可以通过几种重要方式改进现有资源。首先,与WordSim-353和MEN等黄金标准相比,它明确地定义了相似性而非关联性或相关性,因此相关但实际上并不相似的实体[弗洛伊德,心理学]评级较低。我们表明,通过对相似性的关注,SimLex-999改进了模型的开发,这些模型具有与反映概念关联的应用程序不同且可以说更广泛的应用程序。其次,SimLex-999包含一系列具体和抽象形容词,名词和动词,以及每对的具体性和(自由)关联强度的独立评级。这种多样性可以对不同类型概念的模型性能进行细粒度分析,从而更深入地了解如何改进体系结构。此外,与现有的黄金标准评估不同,自动方法已达到或超过了注释器间协议上限,现有技术模型在SimLex-999上的表现远低于此上限。因此,SimLex-999有足够的空间量化未来对分布式错误模型的改进,指导下一代代表性学习架构的发展。
translated by 谷歌翻译