在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
大多数机器翻译系统通过从左到右顺序预测令牌来自动生成文本。相反,我们使用蒙板语言建模目标来训练模型以预测目标词的任何子集,以输入文本和部分掩蔽的目标翻译为条件。这种方法允许有效的迭代解码,其中我们首先非自动回归地预测所有目标词,然后重复地屏蔽并重新生成模型最不可信的单词子集。通过将此策略应用于恒定次数的迭代,我们的模式平均超过3 BLEU,为恒定时间转换模型提供了最先进的性能水平。它还能够达到典型的从左到右变压器模型的性能的92-95%,而解码速度明显更快。
translated by 谷歌翻译
我们引入了一个新的实体输入任务:给定一个带有实体的句子,目标是预测一组描述目标实体的适当类型的自由形式短语(例如摩天大楼,词曲作者或罪犯)。这个公式允许我们在大规模使用一种新型的远程监督:头部单词,表示它们出现的名词短语的类型。我们表明这些超精细类型可以是众包的,并引入更加多样化和精细的新评价集。 - 比现有的基准线更好。我们提出了一个可以预测开放类型的模型,并且使用一个多任务目标进行训练,该目标将我们新的头字监督与来自实体链接的priorsupervision汇集在一起​​。实验结果表明,我们的模型可以有效地预测不同粒度的实体类型;它在现有的细粒度实体typesbenchmark上实现了最先进的性能,并为我们新引入的数据集设置了基线。我们的数据和模型可以从http://nlp.cs.washington.edu/entity_type下载
translated by 谷歌翻译
最近基于BIO标记的神经语义角色标记模型具有非常高的性能,但假设黄金谓词是输入的一部分,并且不能包含跨度级特征。我们提出了一种端到端的方法来联合预测所有谓词,参数跨度以及它们之间的关系。该模型独立决定每个可能的单词 - 跨度对之间存在什么关系(如果有的话),并学习为每个决策提供丰富的共享输入特征的情境化跨度表示。实验证明,这种方法在没有金的情况下为PropBank SRL设定了新的技术水平。谓词。
translated by 谷歌翻译
对于自然语言理解(NLU)技术而言,无论是实际上还是作为科学研究对象,它都必须是通用的:它必须能够以不是专门针对任何特定任务或数据集的方式处理语言。为了实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种在各种现有NLU任务中评估和分析模型性能的工具。 GLUE与模型无关,但它可以激励跨任务共享知识,因为某些任务的训练数据非常有限。我们还提供了一个手工制作的诊断测试套件,可以对NLU模型进行详细的语言分析。我们基于多任务和转移学习的当前方法评估基线,并发现它们不会立即对每个任务训练单独模型的总体性能进行实质性改进,这表明改进了一般性和强大的NLU系统的改进空间。
translated by 谷歌翻译
我们提出了一种神经模型,用于将代码片段表示为连续分布向量(“代码嵌入”)。主要思想是将一个代码片段表示为单个固定长度的$ \ textit {代码矢量} $,可以使用它来预测片段的语义属性。这是通过将代码分解为其抽象语法树中的路径集合,并通过学习如何聚合它们的集合来学习每个路径$ \ textit {simultaneous} $的原子表示来执行的。我们通过使用它来从其身体的矢量表示中预测方法的名称来证明我们的方法的有效性。我们通过在14M方法的数据集上训练模型来评估我们的方法。确保在此数据集上训练的代码向量可以从训练期间完全未观察到的文件中预测方法名称。此外,我们展示了我们的模型学习了有用的方法名称向量,捕获语义相似性,组合和类比。通过比较相同数据集的先前技术,我们的方法获得了超过75%的相对改进,成为第一个基于大型跨项目语料库成功预测方法名称的方法。我们训练有素的模型,可视化和矢量相似性可在$ \ href {http://code2vec.org} {\ text {http://code2vec.org}} $中作为交互式在线演示提供。代码,数据和训练模型可在$ \ href {https://github.com/tech-srl/code2vec} {\ text {https://github.com/tech-srl/code2vec}} $中找到。
translated by 谷歌翻译
用于自然语言推理的大规模数据集是通过向拥挤的工人提供一个句子(前提)来创建的,并要求他们生成三个新的句子(假设),这些新的句子包含,矛盾或者在逻辑上是中立的。我们证明,在这些数据的很大一部分中,该协议留下了线索,通过在不遵守前提的情况下通过观察假设来识别标签。具体来说,我们表明一个简单的文本分类模型可以在约67%的SNLI(Bowman等人,2015)和53%的MultiNLI(Williamset。al,2017)中正确地对假设进行分类。我们的分析表明,特定的语言现象,如整合和模糊性与某些推理类高度相关。我们的研究结果表明,自然语言推理模型的成功被高估了,这项任务仍然是一个难以解决的问题。
translated by 谷歌翻译
在电子商务中,产品内容,尤其是产品图像对客户从产品发现到评估以及最终购买决策的过程具有重大影响。由于许多电子商务零售商除了自己以外从其他第三方市场卖家销售商品,因此内部和外部内容创作者发布的内容需要尽可能地进行监控。尽管有指导和警告,但包含令人反感和不合规的图像的产品列表仍会继续进入目录。过度和不合规的内容可能包含各种对象,徽标和横幅,传达暴力,色情,种族主义或促销信息。此类图像可能严重损害客户体验,导致容忍问题,并侵蚀公司品牌。在本文中,我们为超大型电子商务目录提供了机器学习驱动的攻击性和非合规图像检测系统。该系统在将这些内容发布到面向客户的网站之前,主动检测并删除这些内容。本文深入探讨了将机器学习应用于具有数亿产品图像的零售领域的实际数据的独特挑战。我们演示了如何解决出现在数以万计的产品类别中的不合规内容的问题。我们还描述了我们如何处理每个单一不合规情景出现的纯粹多样性。本文展示了一些实用但独特的方法,例如代表性培训数据创建,这对于解决极其严重的问题至关重要。总之,我们的系统结合了最先进的图像分类和对象检测技术,并对内部数据进行了精细调整,以开发针对大规模,多样化和不断发展的产品目录定制的解决方案。
translated by 谷歌翻译
预测是一项经过充分研究的机器学习任务,预测算法是在线产品和服务的核心要素。尽管它们在提供基于预测的产品的在线公司之间的竞争中具有中心地位,但预测算法的\ textit {strategy}使用仍未得到充分的探索。本文的目的是研究预测算法的战略用途。我们引入了一种基于PAC学习框架的新颖的游戏理论设置,其中每个玩家(也称为竞争的预测算法)寻求最大化它产生准确预测的点的总和而其他人不能。我们表明,针对普遍化的算法可能会错误地预测某些点比其他预期更好。我们分析经验博弈,即在给定样本上诱导的博弈,证明它总是具有纯粹的纳什均衡,并且表明每个更好的反应学习过程都会收敛。此外,我们的学习理论分析表明,玩家可以高概率地使用少数样本来学习整个群体的近似纯纳什均衡。
translated by 谷歌翻译
真相发现是广泛的统计方法的通用名称,旨在根据来自嘈杂来源的多个答案提取正确的问题答案。例如,众包平台中的工作人员。在本文中,我们设计了由\ emph {proxyvoting}启发的简单真理发现方法,这些方法对那些答案接近其他工作者的工人给予更高的权重。我们证明,在标准统计假设下,基于代理的真实发现(\ PTD)允许我们估计每个工人的真实能力,工人是否面临问题,其答案是真实的,分类的,orrankings。然后,我们通过对合成和真实数据的广泛实证研究证明,PTD比未加权聚合要好得多,并且在所有上述领域中与其他真实发现方法竞争良好。
translated by 谷歌翻译