智能论文笔记

The Interpolated MVU Mechanism For Communication-efficient Private Federated Learning

Chuan Guo , Kamalika Chaudhuri , Pierre Stock , Mike Rabbat

分类：机器学习

2022-11-08

We consider private federated learning (FL), where a server aggregates differentially private gradient updates from a large number of clients in order to train a machine learning model. The main challenge is balancing privacy with both classification accuracy of the learned model as well as the amount of communication between the clients and server. In this work, we build on a recently proposed method for communication-efficient private FL -- the MVU mechanism -- by introducing a new interpolation mechanism that can accommodate a more efficient privacy analysis. The result is the new Interpolated MVU mechanism that provides SOTA results on communication-efficient private FL on a variety of datasets.

translated by 谷歌翻译

Measuring and Controlling Split Layer Privacy Leakage Using Fisher Information

Kiwan Maeng , Chuan Guo , Sanjay Kariyappa , Edward Suh

分类：机器学习

2022-09-21

拆分学习和推理建议运行跨客户设备和云的大型模型的培训/推理。但是，这样的模型拆分引起了隐私问题，因为流过拆分层的激活可能会泄漏有关客户端私人输入数据的信息。当前，没有一个好方法可以量化通过分层泄漏多少私人信息，也没有一种将隐私提高到所需级别的好方法。在这项工作中，我们建议将Fisher信息用作隐私指标来衡量和控制信息泄漏。我们表明，Fisher信息可以直观地理解以无偏重建攻击者的限制的错误形式通过拆分层泄漏了多少私人信息。然后，我们提出了一种增强隐私的技术REFIL，可以在拆分层上强制使用用户呈现的Fisher信息泄漏，以实现高隐私，同时保持合理的实用程序。

translated by 谷歌翻译

Cocktail Party Attack: Breaking Aggregation-Based Privacy in Federated Learning using Independent Component Analysis

Sanjay Kariyappa , Chuan Guo , Kiwan Maeng , Wenjie Xiong , G. Edward Suh , Moinuddin K Qureshi , Hsien-Hsin S. Lee

分类：机器学习 | 人工智能

2022-09-12

联合学习（FL）旨在对多个数据所有者持有的分布式数据执行隐私的机器学习。为此，FL要求数据所有者在本地执行培训，并与中央服务器共享梯度更新（而不是私人输入），然后将其安全地汇总在多个数据所有者上。尽管汇总本身并不能证明提供隐私保护，但先前的工作表明，如果批处理大小足够大，则足够了。在本文中，我们提出了鸡尾酒会攻击（CPA），与先前的信念相反，能够从汇总的渐变中恢复私人输入，这是批量较大的大小。 CPA利用了至关重要的见解，即来自完全连接的层的总梯度是其输入的线性组合，这使我们将梯度反演作为盲源分离（BSS）问题（非正式地称为鸡尾酒会问题）。我们适应独立的组件分析（ICA） - BSS问题的经典解决方案 - 恢复针对完全连接和卷积网络的私人输入，并表明CPA明显优于先前的梯度反转攻击，对成像网的输入量表，并表现出Imagenet大小的输入的范围最高可达1024的大批量。

translated by 谷歌翻译

TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts

Chuan Guo , Xinxin Xuo , Sen Wang , Li Cheng

分类：计算机视觉

2022-07-04

受到远见与语言之间的牢固联系的启发，我们的论文旨在探索文本中的3D人类全身动作的产生，以及其互惠任务，分别用于文本2Motion和Motion2Text，。为了应对现有的挑战，尤其是为了使同一文本产生多个不同的动作，并避免了不良生产的琐碎的静止姿势序列，我们提出了使用运动令牌（一种离散和紧凑的运动表示）的使用。当将动作和文本信号视为运动和文本令牌时，这提供了一个级别的游戏地面。此外，我们的Motion2Text模块被整合到我们的文本2Motion训练管道的反对准过程中，在该管道中，合成文本与输入文本的显着偏差将受到较大的培训损失的惩罚；从经验上讲，这证明可以有效地提高性能。最后，通过将神经模型调整为机器翻译（NMT）的两种动作方式和文本之间的映射，可以促进。离散运动令牌上分布的这种自回归建模进一步使来自输入文本的姿势序列（可变长度）的非确定性产生。我们的方法是灵活的，可以用于Text2Motion和Motion2Text任务。在两个基准数据集上进行的经验评估证明了我们在这两个任务上的卓越性能在各种最新方法上。项目页面：https：//ericguo5513.github.io/tm2t/

translated by 谷歌翻译

Origins of Low-dimensional Adversarial Perturbations

Elvis Dohmatob , Chuan Guo , Morgane Goibert

分类： (统计)机器学习 | 机器学习

2022-03-25

在本文中，我们启动了对分类中低维对逆动力（LDAP）现象的严格研究。与经典设置不同，这些扰动仅限于尺寸$ k $的子空间，该子空间比功能空间的尺寸$ d $小得多。 $ k = 1 $的情况对应于所谓的通用对抗扰动（UAPS; Moosavi-Dezfooli等，2017）。首先，我们考虑在通用规律条件（包括RELU网络）下的二进制分类器，并根据任何子空间的愚蠢率计算分析下限。这些界限明确强调了愚蠢率对模型的点缘的依赖性（即，在测试点的输出与其梯度的$ L_2 $ norm的比率），以及给定子空间与该梯度的对齐模型W.R.T.的梯度输入。我们的结果为启发式方法的最新成功提供了有效产生低维对对抗性扰动的严格解释。最后，我们表明，如果决策区域紧凑，那么它将接受通用的对抗性扰动，其$ l_2 $ norm，比典型的$ \ sqrt {d} $倍乘以数据点的典型$ l_2 $ norm。我们的理论结果通过对合成和真实数据的实验证实。

translated by 谷歌翻译

Privacy-Aware Compression for Federated Data Analysis

Kamalika Chaudhuri , Chuan Guo , Mike Rabbat

分类：机器学习

2022-03-15

联合数据分析是一个用于分布式数据分析的框架，其中服务器从一组分布式的低型带宽用户设备中编译了嘈杂的响应，以估算总统计信息。该框架中的两个主要挑战是隐私，因为用户数据通常很敏感，并且压缩，因为用户设备的网络带宽较低。先前的工作通过将标准压缩算法与已知的隐私机制相结合，从而分别解决了这些挑战。在这项工作中，我们对问题进行了整体研究，并设计了一个适合任何给定沟通预算的隐私感知压缩机制。我们首先提出了一种在某些条件下传输具有最佳方差的单个实数的机制。然后，我们展示如何将其扩展到位置隐私用例以及向量的指标差异隐私，以应用于联合学习。我们的实验表明，在许多设置中，我们的机制可以导致更好的实用性与压缩权衡。

translated by 谷歌翻译

Bounding Training Data Reconstruction in Private (Deep) Learning

Chuan Guo , Brian Karrer , Kamalika Chaudhuri , Laurens van der Maaten

分类：机器学习

2022-01-28

差异隐私被广泛接受为预防ML数据泄漏的事实方法，传统观念表明，它为隐私攻击提供了强烈的保护。但是，现有的语义保证DP专注于会员推理，这可能高估了对手的能力，并且当成员身份本身不敏感时不适用。在本文中，我们得出了针对正式威胁模型下培训数据重建攻击的DP机制的第一个语义保证。我们表明，两种截然不同的隐私会计方法 - Renyi差异隐私和Fisher信息泄漏 - 都提供了针对数据重建攻击的强烈语义保护。

translated by 谷歌翻译

Submix: Practical Private Prediction for Large-Scale Language Models

Antonio Ginart , Laurens van der Maaten , James Zou , Chuan Guo

分类：机器学习 | 人工智能 | 自然语言处理

2022-01-04

最近的数据提取攻击暴露了语言模型可以记住一些培训样本逐字。这是一种漏洞，可以损害模型培训数据的隐私。在这项工作中，我们介绍了子句：私人私人下一象征预测的实用协议，旨在防止在公共语料库预训练后在私人语料库中进行微调的语言模型的隐私违规。我们展示子子句通过放松差异私密预测，限制了私人语料库中的任何单独用户所唯一的信息的泄漏。重要的是，子提M允许一个紧张，数据相关的隐私会计机制，它允许它挫败现有的数据提取攻击，同时保持语言模型的效用。子句是即使在公开释放由大型变压器的模型等基于GPT-2的基于大型变换器的模型制作的数千个下一令牌预测，也是第一个维护隐私的协议。

translated by 谷歌翻译

BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and Preprocessing

Tianfeng Liu , Yangrui Chen , Dan Li , Chuan Wu , Yibo Zhu , Jun He , Yanghua Peng , Hongzheng Chen , Hongzhi Chen , Chuanxiong Guo

分类：机器学习

2021-12-16

图形神经网络（GNNS）将深度神经网络（DNN）的成功扩展到非欧几里德图数据，实现了各种任务的接地性能，例如节点分类和图形属性预测。尽管如此，现有系统效率低，培训数十亿节点和GPU的节点和边缘训练大图。主要瓶颈是准备GPU数据的过程 - 子图采样和特征检索。本文提出了一个分布式GNN培训系统的BGL，旨在解决一些关键思想的瓶颈。首先，我们提出了一种动态缓存引擎，以最小化特征检索流量。通过协同设计缓存政策和抽样顺序，我们发现低开销和高缓存命中率的精美斑点。其次，我们改善了曲线图分区算法，以减少子图采样期间的交叉分区通信。最后，仔细资源隔离减少了不同数据预处理阶段之间的争用。关于各种GNN模型和大图数据集的广泛实验表明，BGL平均明显优于现有的GNN训练系统20.68倍。

translated by 谷歌翻译

ReAct: Out-of-distribution Detection With Rectified Activations

Yiyou Sun , Chuan Guo , Yixuan Li

分类：机器学习

2021-11-24

由于其实际重要性，在提高神经网络安全部署方面的实际重要性，最近经济分配（OOD）检测最近受到了很大的关注。其中一个主要挑战是模型往往会对OOD数据产生高度自信的预测，这在ood检测中破坏了驾驶原理，即该模型应该仅对分布式样品充满信心。在这项工作中，我们提出了反应 - 一种简单有效的技术，用于减少对数据数据的模型过度限制。我们的方法是通过关于神经网络内部激活的新型分析，其为OOD分布显示出高度独特的签名模式。我们的方法可以有效地拓展到不同的网络架构和不同的OOD检测分数。我们经验证明，反应在全面的基准数据集套件上实现了竞争检测性能，并为我们的方法进行了理论解释。与以前的最佳方法相比，在ImageNet基准测试中，反应将假阳性率（FPR95）降低25.05％。

translated by 谷歌翻译