Differentially private deep learning has recently witnessed advances in computational efficiency and privacy-utility trade-off. We explore whether further improvements along the two axes are possible and provide affirmative answers leveraging two instantiations of \emph{group-wise clipping}. To reduce the compute time overhead of private learning, we show that \emph{per-layer clipping}, where the gradient of each neural network layer is clipped separately, allows clipping to be performed in conjunction with backpropagation in differentially private optimization. This results in private learning that is as memory-efficient and almost as fast per training update as non-private learning for many workflows of interest. While per-layer clipping with constant thresholds tends to underperform standard flat clipping, per-layer clipping with adaptive thresholds matches or outperforms flat clipping under given training epoch constraints, hence attaining similar or better task performance within less wall time. To explore the limits of scaling (pretrained) models in differentially private deep learning, we privately fine-tune the 175 billion-parameter GPT-3. We bypass scaling challenges associated with clipping gradients that are distributed across multiple devices with \emph{per-device clipping} that clips the gradient of each model piece separately on its host device. Privately fine-tuning GPT-3 with per-device clipping achieves a task performance at $\epsilon=1$ better than what is attainable by non-privately fine-tuning the largest GPT-2 on a summarization task.
translated by 谷歌翻译
自适应力矩估计(ADAM)优化器由于其快速收敛属性而广泛用于深度学习任务。但是,亚当的融合仍然不太了解。特别是,对亚当的现有分析不能清楚地证明亚当比SGD的优势。我们将这种理论上的尴尬归因于$ l $ -smooth的条件(即,假设梯度在全球lipschitz连续且常数$ l $)中被文献所采用,而文献经常指出,在实用的神经网络中经常失败。为了解决这一尴尬,我们分析了亚当在轻松的条件下的融合,称为$(l_0,l_1)$平滑度条件,这使梯度Lipschitz常数可以随地梯度规范而变化。 $(l_0,l_1)$严格弱于$ l $ -Smooth条件,并且已经过经验证明可以保留实用的深神经网络。在$(L_0,L_1)$平滑度条件下,我们为Adam建立了与实用的超参数的收敛性。具体而言,我们认为亚当可以适应局部平滑度条件,证明亚当的\ emph {Adpativity}是合理的。相反,在这种情况下,SGD可以任意放慢。我们的结果可能会阐明自适应梯度方法比非自适应方法的好处。
translated by 谷歌翻译
通过确保学习算法中的差异隐私,可以严格降低大型模型记忆敏感培训数据的风险。在本文中,我们为此目的研究了两种算法,即DP-SGD和DP-NSGD,它们首先剪辑或归一化\ textIt \ textIt {每样本}梯度以绑定灵敏度,然后添加噪声以使精确信息混淆。我们通过两个常见的假设分析了非凸优化设置中这两种算法的收敛行为,并实现了$ \ nathcal {o} \ left(\ sqrt [4] {\ frac {\ frac {d \ log(1/\ delta) )} {n^2 \ epsilon^2}} \ right)$ $ d $ - 二维模型,$ n $ samples和$(\ epsilon,\ delta)$ - dp,它改进了以前的改进在较弱的假设下的界限。具体而言,我们在DP-NSGD中引入了一个正规化因素,并表明它对融合证明至关重要,并巧妙地控制了偏见和噪声权衡。我们的证明故意处理针对私人环境指定的按样本梯度剪辑和标准化。从经验上讲,我们证明这两种算法达到了相似的最佳准确性,而DP-NSGD比DP-SGD更容易调整,因此在计算调整工作时可能有助于进一步节省隐私预算。
translated by 谷歌翻译
通常针对具有特定模型的特定输入而生成的对抗性示例,对于神经网络而言是无处不在的。在本文中,我们揭示了对抗声音的令人惊讶的属性,即,如果配备了相应的标签,则通过一步梯度方法制作的对抗性噪声是线性分离的。从理论上讲,我们为具有随机初始化条目的两层网络和神经切线内核设置证明了此属性,其中参数远离初始化。证明的想法是显示标签信息可以有效地反向输入,同时保持线性可分离性。我们的理论和实验证据进一步表明,对训练数据的对抗噪声进行训练的线性分类器可以很好地对测试数据的对抗噪声进行分类,这表明对抗性噪声实际上将分布扰动注入了原始数据分布。此外,我们从经验上证明,当上述条件受到损害时,在它们仍然比原始功能更容易分类时,对抗性的噪声可能会变得线性分离。
translated by 谷歌翻译
私人随机梯度下降(DP-SGD)是私人深度学习最新进展的主力算法。它为数据集中的所有数据点提供了单个隐私保证。我们提出了一种有效的算法,以在释放由DP-SGD培训的模型时计算单个示例的隐私保证。我们使用算法来研究许多数据集中的个人隐私参数。我们发现,大多数示例比最严重的案例拥有更强的隐私保证。我们进一步发现,训练损失和示例的隐私参数是非常相关的。这意味着在模型效用方面服务不足的群体在隐私保证方面同时服务不足。例如,在CIFAR-10上,测试准确性最低的课程的平均$ \ epsilon $比班级的平均$ \ epsilon $高26.3%。我们还运行会员推理攻击,以表明这反映了不同的经验隐私风险。
translated by 谷歌翻译
不分青红皂白血管中毒攻击,它为训练数据添加了不可察觉的扰动,以最大化训练有素的模型的测试错误,已成为一个时尚的主题,因为它们被认为能够防止未经授权使用数据。在这项工作中,我们调查为什么这些扰动原则上的工作。我们发现,当分配了相应样本的目标标签时,高级中毒攻击的扰动几乎是\ textBF {线性分离},因此可以为学习目标作为\ emph {快捷方式}工作。这个重要的人口财产尚未在之前揭幕。此外,我们进一步验证了线性可分性确实是中毒攻击的摩擦。我们将线性可分离数据综合为扰动,表明这种合成扰动与故意制作的攻击一样强大。我们的发现表明,\ emph {捷径学习}问题比以前认为深入学习依赖于快捷方式,即使它们与正常特征相混合,也会依赖于捷径。这一发现还建议预审训练的特征提取器会有效地禁用这些中毒攻击。
translated by 谷歌翻译
最近,已经证明了信息理论框架可以获得具有随机噪声的随机梯度Langevin Dynamics(SGLD)训练的大型型号的非持续泛化界限。在本文中,我们通过操纵SGLD中的噪声结构来优化信息 - 理论概括。我们证明,由于限制以保证低经验风险,最佳噪声协方差是预期梯度协方差的平方根,如果先前和后部都是联合优化的。这验证了最佳噪声非常接近经验梯度协方差。从技术上讲,我们开发了一种新的信息 - 理论界,其能够实现这种优化分析。然后,我们应用矩阵分析以导出最佳噪声协方差的形式。呈现的制约和结果是通过经验观察验证的。
translated by 谷歌翻译
我们为大规模训练的大规模训练语言模型提供了更简单,更稀疏,更快的算法,这些算法在许多标准的NLP任务上实现了最新的隐私与实用性权衡。我们为此问题提出了一个元框架,这是受高度参数效率方法进行微调成功的启发。我们的实验表明,这些方法的差异化适应能力在三个重要方面优于以前的私人算法:实用程序,隐私以及私人培训的计算和记忆成本。在许多经常研究的数据集中,私人模型的实用性接近了非私人模型的方法。例如,在MNLI数据集上,我们使用Roberta-large的准确度为87.8 \%$,使用Roberta-Base $ 83.5 \%$,其隐私预算为$ \ Epsilon = 6.7 $。相比之下,缺乏隐私限制,罗伯塔·莱格(Roberta-Large)的准确度为$ 90.2 \%$。我们的发现对于自然语言生成任务类似。与DART,GPT-2-SMALL,GPT-2中,GPT-2-MEDIUM,GPT-2-LARGE和GPT-2-XL的私人微调达到38.5、42.0、43.1和43.8($ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 43.8) epsilon = 6.8,\ delta = $ 1E-5),而非私人基线为$ 48.1 $。我们所有的实验都表明,较大的模型更适合私人微调:虽然众所周知,它们旨在非优先实现卓越的准确性,但我们发现当引入隐私时,它们也更好地保持其准确性。
translated by 谷歌翻译
我们提出了一种重新制定方案,解决了在大型神经网络上应用差异私有SGD的挑战,这是1)存储个体梯度的巨大内存成本,2)增加令人臭名昭着的尺寸依赖的噪声。具体地,我们用两个\ emph {梯度 - 载波}的每个权重矩阵重新定位小维度的矩阵和一个\ emph {残差}矩阵。我们认为,这种重新游离的游离过程保持不变,同时使我们能够计算投影梯度而不计算梯度本身。为了学习差异隐私,我们设计\ emph {Reparamiratized梯度扰动(RGP)},其覆盖梯度载波矩阵上的梯度,并从嘈杂的渐变重新计算原始权重的更新。重要的是,我们使用历史更新来查找渐变 - 载波矩阵,其最优性在线性回归下严格合理,并经过深入学习任务。 RGP显着降低了内存成本并改善了该实用程序。例如,我们是第一个能够在BERT模型上应用差异隐私,并在四个下游任务中实现83.9 \%$ 83.9 = 8 $的平均准确性,而与非 - 私人基线,但享有更低的隐私泄漏风险。
translated by 谷歌翻译
正确分类对抗性示例是安全部署机器学习模型的必不可少但具有挑战性的要求。据抢救模型甚至是最先进的离职训练的模型,在CIFAR-10上努力超过67%的强大测试精度,这远非实用。互动的互补方法是引入拒绝选项,允许模型不返回对不确定输入的预测,自信是常用的确定性代理。随着这个例程,我们发现置信度和纠正的置信度(R-Con)可以形成两个耦合的拒绝度量,这可以从正确分类的次数中可以证明错误分类的输入。这种有趣的属性揭示了使用偶联策略来更好地检测和抑制对抗性实例。我们在包括自适应攻击的若干攻击下,在CiFar-10,CiFar-10-C和CiFar-100上评估我们的整流拒绝(RR)模块,并证明RR模块与改善稳健性的不同的对抗训练框架兼容额外的计算。代码可在https://github.com/p2333/Rectified-re注意到。
translated by 谷歌翻译