当前部署的公钥密码系统将容易受到全面量子计算机的攻击。因此,“抗量子”密码系统的需求量很高,基于晶格的密码系统基于一个被称为学习错误的学习(LWE)的严重问题,已成为标准化的强有力的竞争者。在这项工作中,我们训练变压器执行模块化算术,并将半训练的模型与统计密码分析技术相结合,以提出莎莎:对基于LWE的密码学方案的机器学习攻击。Salsa可以完全恢复具有稀疏二进制秘密的小型至中型LWE实例的秘密,并可能扩展以攻击现实世界中基于LWE的密码系统。
translated by 谷歌翻译
变压器对数学的大多数应用,从整合到定理证明,专注于象征性。在本文中,我们表明,可以培训变压器以高精度地执行数值计算。我们考虑线性代数的问题:矩阵转仓,加法,乘法,特征值和载体,奇异值分解和反转。在随机矩阵的数据集上训练小型变压器(最多六层),我们在所有问题上实现高精度(超过90%)。我们还表明,训练有素的模型可以通过从更多样化的数据集(特别是从具有非独立性和相同分布系数的矩阵训练)来概括他们的训练分配,并且可以大大提高域的域准确度。最后,我们表明,可以利用几枪学习来重新列车模型来解决更大的问题。
translated by 谷歌翻译
我们展示了深度学习模型,特别是像自然语言的变压器那样的架构,可以在随机生成的数据集上培训,以预测代谢网络的定性和定量特征非常高的准确性。使用标准数学技术,我们创建了可以用于训练我们的模型的大型随机网络的大集(40 00万个元素)。这些训练有素的模型可以在超过99%的情况下预测随机图的网络均衡。它们还可以概括与不同结构的图表,而不是在训练时遇到的图表。最后,他们可以预测一小组已知的生物网络的均衡。我们的方法在实验数据中非常经济,并且仅使用小而浅的深度学习模型,远离机器翻译中常用的大型架构。这种结果为更大利用深入学习模型的方法铺平了与定量系统药理学,系统生物学和合成生物学等重点领域相关的问题。
translated by 谷歌翻译
Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.
translated by 谷歌翻译
This paper describes a testing methodology for quantitatively assessing the risk that rare or unique training-data sequences are unintentionally memorized by generative sequence models-a common type of machine-learning model. Because such models are sometimes trained on sensitive data (e.g., the text of users' private messages), this methodology can benefit privacy by allowing deep-learning practitioners to select means of training that minimize such memorization.In experiments, we show that unintended memorization is a persistent, hard-to-avoid issue that can have serious consequences. Specifically, for models trained without consideration of memorization, we describe new, efficient procedures that can extract unique, secret sequences, such as credit card numbers. We show that our testing strategy is a practical and easy-to-use first line of defense, e.g., by describing its application to quantitatively limit data exposure in Google's Smart Compose, a commercial text-completion neural network trained on millions of users' email messages.
translated by 谷歌翻译
中文学习是指模型在及时序列中条件条件的能力,该序列由内部下文示例(输入输出对,与某些任务相对应)以及新的查询输入,并生成相应的输出。至关重要的是,内在学习仅在推理时间发生,而没有任何参数更新模型。尽管大型语言模型(例如GPT-3)具有某种能力来执行中文学习的能力,但尚不清楚任务成功的任务之间的关系以及培训数据中存在的内容。为了取得进步朝着理解文本学习的进步,我们考虑了训练模型的明确定义的问题,以学习函数类(例如,线性函数):也就是说,给定的数据从类中的某些功能衍生而成,可以我们训练一个模型以在此课程中学习“大多数”功能?我们从经验上表明,可以从头开始训练标准变压器,以执行线性函数的文本学习 - 也就是说,训练有素的模型能够从具有与最佳最小二乘估计器相当的性能的示例中学习看不见的线性函数。实际上,即使在两种形式的分配变化下,也可能进行中文学习:(i)模型的训练数据和推理时间提示之间,以及(ii)在推理过程中的内在示例和查询输入之间。我们还表明,我们可以训练变形金刚在文本中学习更多复杂的功能类,即稀疏线性功能,两层神经网络和决策树 - 具有匹配或超过特定于任务特定的学习算法的性能。我们的代码和模型可在https://github.com/dtsip/in-context-learning上找到。
translated by 谷歌翻译
我们介绍了一种新型的格式转换加密,其中密文的格式隐含在机器学习的生成模型中。在这个原始的周围,我们构建了一个用于大型公共互联网平台(例如Twitter)上的秘密消息传递的系统。宽松地,我们的系统构成了经过身份验证的加密方案,一种方法是将随机密文钻头编码为生成模型的种子索引令牌分布的样品中的样品。通过修复部署方案,我们被迫考虑系统级和算法解决方案,以应对真正的挑战 - 例如接收者端解析的歧义,以及实际的代币发行的低信息携带能力〜-先前的工作。我们将GPT-2用作生成模型,以便我们的系统加密将明文Bitsring转换为适合发布公共平台的自然语言封面。我们考虑了对互联网平台内容的全面视图的对手,其目标是表面使用我们的系统进行秘密消息传递的帖子。我们进行了一套实验,以提供安全性证据,并探索运营效率和可检测性之间的权衡。
translated by 谷歌翻译
“感应头”是注意力头,它实现了一种简单的算法来完成令牌序列,例如[a] [b] ... [a] - > [b]。在这项工作中,我们提供了一个假设的初步和间接证据,即诱导头可能构成大型大型变压器模型中所有“文本学习”中大多数的机制(即减少在增加代币指数时损失的损失)。我们发现,诱导头在与秘密学习能力突然急剧上的急剧上升的位置完全相同,这是训练损失的颠簸。我们提出了六种互补的证据,认为诱导头可能是任何大小的变压器模型中一般性内部学习的机理来源。对于仅关注的小型模型,我们提供了有力的因果证据。对于具有MLP的较大模型,我们提供相关证据。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
当我们扩大数据集,模型尺寸和培训时间时,深入学习方法的能力中存在越来越多的经验证据。尽管有一些关于这些资源如何调节统计能力的说法,但对它们对模型培训的计算问题的影响知之甚少。这项工作通过学习$ k $ -sparse $ n $ bits的镜头进行了探索,这是一个构成理论计算障碍的规范性问题。在这种情况下,我们发现神经网络在扩大数据集大小和运行时间时会表现出令人惊讶的相变。特别是,我们从经验上证明,通过标准培训,各种体系结构以$ n^{o(k)} $示例学习稀疏的平等,而损失(和错误)曲线在$ n^{o(k)}后突然下降。 $迭代。这些积极的结果几乎匹配已知的SQ下限,即使没有明确的稀疏性先验。我们通过理论分析阐明了这些现象的机制:我们发现性能的相变不到SGD“在黑暗中绊倒”,直到它找到了隐藏的特征集(自然算法也以$ n^中的方式运行{o(k)} $ time);取而代之的是,我们表明SGD逐渐扩大了人口梯度的傅立叶差距。
translated by 谷歌翻译
神经网络经常将许多无关的概念包装到一个神经元中 - 一种令人困惑的现象被称为“多疾病”,这使解释性更具挑战性。本文提供了一个玩具模型,可以完全理解多义,这是由于模型在“叠加”中存储其他稀疏特征的结果。我们证明了相变的存在,与均匀多型的几何形状的令人惊讶的联系以及与对抗性例子联系的证据。我们还讨论了对机械解释性的潜在影响。
translated by 谷歌翻译
安全的多方计算(MPC)允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力:它促进了对不同政党拥有的私人数据集的机器学习模型的培训,使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型,此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用,我们提出了Crypten:一个软件框架,该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语,例如张量计算,自动分化和模块化神经网络。本文描述了隐秘的设计,并在最新的文本分类,语音识别和图像分类的模型上衡量其性能。我们的基准表明,Crypten的GPU支持和(任意数量)各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如,使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。
translated by 谷歌翻译
高维计算(HDC)是用于数据表示和学习的范式,起源于计算神经科学。HDC将数据表示为高维,低精度向量,可用于学习或召回等各种信息处理任务。高维空间的映射是HDC中的一个基本问题,现有方法在输入数据本身是高维时会遇到可伸缩性问题。在这项工作中,我们探索了一个基于哈希的流媒体编码技术。我们正式表明,这些方法在学习应用程序的性能方面具有可比的保证,同时比现有替代方案更有效。我们在一个流行的高维分类问题上对这些结果进行了实验验证,并表明我们的方法很容易扩展到非常大的数据集。
translated by 谷歌翻译
我们开发了一种新的原则性算法,用于估计培训数据点对深度学习模型的行为的贡献,例如它做出的特定预测。我们的算法估计了AME,该数量量衡量了将数据点添加到训练数据子集中的预期(平均)边际效应,并从给定的分布中采样。当从均匀分布中采样子集时,AME将还原为众所周知的Shapley值。我们的方法受因果推断和随机实验的启发:我们采样了训练数据的不同子集以训练多个子模型,并评估每个子模型的行为。然后,我们使用套索回归来基于子集组成共同估计每个数据点的AME。在稀疏假设($ k \ ll n $数据点具有较大的AME)下,我们的估计器仅需要$ O(k \ log n)$随机的子模型培训,从而改善了最佳先前的Shapley值估算器。
translated by 谷歌翻译
聚类函数(例如对数或差异)满足了许多代数身份。对于对数,所有身份都来自产品规则。对于Diologarithm和更高的经典细分线虫,这些身份可能涉及五个或更多功能。在与粒子物理学相关的许多计算中,聚集体的复杂组合通常来自Feynman积分。尽管集成产生的初始表达通常简化,但通常很难知道要应用哪些身份以及按什么顺序应用。为了解决这种瓶颈,我们探索机器学习方法可以帮助您。我们考虑了一种强化学习方法,在该方法中,身份类似于游戏中的动作,也是变压器网络方法,在该方法中,该问题类似于语言翻译任务。尽管这两种方法都是有效的,但变压器网络似乎更强大,并且在数学物理学中的符号操纵任务中实现了实际使用的希望。
translated by 谷歌翻译
量子计算有可能彻底改变和改变我们的生活和理解世界的方式。该审查旨在提供对量子计算的可访问介绍,重点是统计和数据分析中的应用。我们从介绍了了解量子计算所需的基本概念以及量子和经典计算之间的差异。我们描述了用作量子算法的构建块的核心量子子程序。然后,我们审查了一系列预期的量子算法,以便在统计和机器学习中提供计算优势。我们突出了将量子计算应用于统计问题的挑战和机遇,并讨论潜在的未来研究方向。
translated by 谷歌翻译
现实世界中的数据是高维的:即使在压缩后,书籍,图像或音乐表演也很容易包含数十万个元素。但是,最常用的自回归模型,变压器非常昂贵,以缩放捕获这种远程结构所需的输入和层数。我们开发了感知者AR,这是一种自回归的模态 - 不合骨架构,它使用交叉注意力将远程输入映射到少数潜在的潜在,同时还可以维护端到端的因果关系掩盖。感知器AR可以直接进行十万个令牌,从而实现了实用的长篇小写密度估计,而无需手工制作的稀疏模式或记忆机制。当对图像或音乐进行培训时,感知器AR会生成具有清晰长期连贯性和结构的输出。我们的架构还获得了长期基准测试的最新可能性,包括64 x 64个Imagenet图像和PG-19书籍。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
时间变化数量的估计是医疗保健和金融等领域决策的基本组成部分。但是,此类估计值的实际实用性受到它们量化预测不确定性的准确程度的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种基于变压器体系结构的多功能方法,该方法使用基于注意力的解码器估算关节分布,该解码器可被学会模仿非参数Copulas的性质。最终的模型具有多种理想的属性:它可以扩展到数百个时间序列,支持预测和插值,可以处理不规则和不均匀的采样数据,并且可以在训练过程中无缝地适应丢失的数据。我们从经验上证明了这些属性,并表明我们的模型在多个现实世界数据集上产生了最新的预测。
translated by 谷歌翻译
虽然注意力成为深度学习的重要机制,但仍然有限的直觉,为什么它工作得很好。在这里,我们表明,在某些数据条件下,变压器注意力与Kanerva稀疏分布式内存(SDM)的某些数据条件密切相关,一种生物合理的关联内存模型。我们确认在预先培训的GPT2变压器模型中满足这些条件。我们讨论了注意力SDM地图的影响,并提供了对关注的新计算和生物学解释。
translated by 谷歌翻译