在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
我们提出了一个选区解析算法,该算法从单词对齐的背景化特征向量映射到解析树。我们的算法严格从左到右进行,一次处理一个单词,通过从小词汇表中分配标签。我们表明,通过温和的假设,我们的推理过程需要每个单词不变的计算时间。我们的方法在WSJtest集上得到95.4 F1。
translated by 谷歌翻译
当数据非线性嵌入高维空间时,现有的内在维度估计方法通常是不可靠的。在这项工作中,我们表明,对未知支持的几何性质的显式计算导致对内在维数的标准最大似然估计的多项式校正。用于扁平歧管。所提出的算法(GeoMLE)通过对不同大小的邻域的距离最近邻居的标准MLE的回归来实现校正。此外,所提出的方法还有效地处理了歧管的非均匀采样的情况。我们在不同的合成和真实世界数据集上进行了大量实验。结果表明,我们的算法实现了最先进的性能,同时具有计算效率和数据中的噪声。
translated by 谷歌翻译
我们提出了一种模拟Cherenkov探测器响应的方法,使用生成对偶神经网络来绕过低级细节。训练该网络以基于入射粒子的输入可观察量再现模拟检测器事件的高级特征。这样可以大大提高模拟速度。我们证明了这种方法提供了与基线一致的模拟精度,并讨论了这些结果的可能影响。
translated by 谷歌翻译
我们扩展了之前关于选区解析的工作(Kitaev和Klein,2018),结合了其他10种语言的预训练,并比较了没有预训练的好处,ELMo(Peters等,2018)和BERT(Devlin等。 ,2018年)。预训练在所有评估的语言中都是有效的,并且BERTout在很大程度上归功于ELMo,这得益于增加模型容量的好处。我们的解析器获得11种语言的最新结果,包括英语(95.8 F1)和中文(91.8) F1)。
translated by 谷歌翻译
研究了在训练和推理阶段期间最大可能的批量大小(对于更好的运行时间)对图形处理单元(GPU)和张量处理单元(TPU)的性能的影响。在标准MNIST和Fashion-MNIST数据集上进行了大量的这些深度神经网络(DNN)。与极其强大的GPU NVIDIA Tesla K80卡相比,即使极度大规模使用谷歌TPUv2单元(仅8核),也可获得显着的加速,训练阶段的加速可达10倍(不考虑开销)并加速到2x预测阶段(有和没有考虑开销)。 precisespeedup值取决于TPUv2单位的利用水平,并随着处理过程中数据量的增加而增加,但对于这项工作中使用的数据集(MNIST和Fashion-MNIST,图像大小为28x28),批量大小> 512张图像的加速比例用于训练阶段和> 40 000个用于预测阶段的图像。应该注意的是,这些结果是在不损害预测准确度和损失的情况下获得的,GPU和TPU都是相同的,直到MNIST数据集的第3个有效数字,并且直到Fashion-MNIST数据集的第2个有效数字。
translated by 谷歌翻译
深度神经网络(DNN)最近已被广泛应用于各种应用中,并且这种成功主要归功于算法突破,计算资源改进和对大量数据的访问的组合。然而,深度学习所需的大规模数据收集包含敏感信息,因此引发了许多隐私问题。先前的研究表明,在推断敏感训练数据信息方面有几种成功的攻击,例如模型反演,成员推理和基于生成对抗网络(GAN)。针对协作深度学习的漏洞攻击。在本文中,为了实现学习效率以及生成具有隐私保证和高效用的数据,我们提出了基于私有自动编码器的生成模型(DP-AuGM)和基于私有变分自动编码器的生成模型(DP-VaeGM)。我们评估两个提出的模型的稳健性。我们证明了DP-AuGM可以有效抵御模型反转,成员资格和基于GAN的攻击。我们还表明DP-VaeGM对会员推理攻击具有很强的抵抗力。我们推测防御模型反演和基于GAN的攻击的关键不是由于差异隐私而是训练数据的扰动。最后,我们证明了DP-AuGM和DP-VaeGM都可以轻松地与现实世界的机器学习应用程序集成,例如机器学习即服务和联合学习,否则会受到成员推理攻击和基于GAN攻击的威胁。 。
translated by 谷歌翻译
增加随机梯度下降的小批量大小为减少挂钟培训时间提供了显着的机会,但是存在许多阻碍该技术广泛使用的理论和系统挑战。我们通过对跨多个架构和问题域的网络培训进行广泛的实证分析,包括图像分类,图像分割和语言建模,研究这些问题,重点是收敛时间和总计算成本。虽然为了充分利用可用的计算资源来增加批量大小是常见的做法,但我们发现了一个基本上更加丰富的图片。我们的主要发现是,在广泛的网络体系结构和问题域中,将批量大小增加到超过某个特定点时,不会减少挂接时间到\ emph {}}列车或测试丢失的收敛时间。该批量通常大大低于当前系统的容量。我们表明,在我们可以填充所有可用的计算资源之前,大批量优化的流行培训策略开始失败,并且我们表明这些方法分解的点更多地取决于模型体系结构和数据复杂性等属性,而不是直接依赖于模型体系结构和数据复杂性的大小。数据集。
translated by 谷歌翻译
恶意软件,欺诈或垃圾邮件检测等安全关键型应用程序需要机器学习模型,这些模型基于约束离散域的示例。在这些设置中,依赖于添加扰动的基于梯度的攻击通常无法产生满足域约束的对抗性示例,因此无效。我们引入了一个图形框架:(1)形式化离散域中的现有攻击,(2)有效地生成有效的对抗性示例,保证成本最低,(3)可以适应超出常用p-norm的复杂成本函数。我们通过制作对抗性示例来证明这种方法的有效性,该示例使用可证明的最小数量的变化来逃避Twitter机器人检测分类器。
translated by 谷歌翻译
现有的对话框数据集包含一系列话语和响应,没有与之相关的任何明确的背景知识。这已经导致了模型的发展,该模型将会话视为序列生成任务的序列,即,给定一系列话语生成响应序列。这不仅仅是一种过于简单化的对话观,而且与人类在很大程度上依赖于他们对该主题的背景知识相反的方式(与之前依赖于先前的话语序列相反)也显着不同。例如,人们常常(非自愿​​地)产生被复制的话语,这些话语是从他们阅读过的关于该主题的背景文章中修改过来的。为了模仿人类交谈的自然对话模型的发展,我们创建了一个包含电影聊天的新数据集,其中每个响应都是通过复制和/或修改非结构化背景知识(例如关于电影的情节,评论和评论)的显示来明确生成的。我们使用三种不同的模型在该数据集上建立基线结果(来自9K对话的90个基准):(i)基于纯生成的模型忽略背景知识(ii)基于生成的模型,其学习在需要时从背景知识复制信息和(iii)跨度预测基于模型预测背景知识中的适当响应跨度。
translated by 谷歌翻译