Federated embodied agent learning protects the data privacy of individual visual environments by keeping data locally at each client (the individual environment) during training. However, since the local data is inaccessible to the server under federated learning, attackers may easily poison the training data of the local client to build a backdoor in the agent without notice. Deploying such an agent raises the risk of potential harm to humans, as the attackers may easily navigate and control the agent as they wish via the backdoor. Towards Byzantine-robust federated embodied agent learning, in this paper, we study the attack and defense for the task of vision-and-language navigation (VLN), where the agent is required to follow natural language instructions to navigate indoor environments. First, we introduce a simple but effective attack strategy, Navigation as Wish (NAW), in which the malicious client manipulates local trajectory data to implant a backdoor into the global model. Results on two VLN datasets (R2R and RxR) show that NAW can easily navigate the deployed VLN agent regardless of the language instruction, without affecting its performance on normal test sets. Then, we propose a new Prompt-Based Aggregation (PBA) to defend against the NAW attack in federated VLN, which provides the server with a ''prompt'' of the vision-and-language alignment variance between the benign and malicious clients so that they can be distinguished during training. We validate the effectiveness of the PBA method on protecting the global model from the NAW attack, which outperforms other state-of-the-art defense methods by a large margin in the defense metrics on R2R and RxR.
translated by 谷歌翻译
Since the recent success of Vision Transformers (ViTs), explorations toward transformer-style architectures have triggered the resurgence of modern ConvNets. In this work, we explore the representation ability of DNNs through the lens of interaction complexities. We empirically show that interaction complexity is an overlooked but essential indicator for visual recognition. Accordingly, a new family of efficient ConvNets, named MogaNet, is presented to pursue informative context mining in pure ConvNet-based models, with preferable complexity-performance trade-offs. In MogaNet, interactions across multiple complexities are facilitated and contextualized by leveraging two specially designed aggregation blocks in both spatial and channel interaction spaces. Extensive studies are conducted on ImageNet classification, COCO object detection, and ADE20K semantic segmentation tasks. The results demonstrate that our MogaNet establishes new state-of-the-art over other popular methods in mainstream scenarios and all model scales. Typically, the lightweight MogaNet-T achieves 80.0\% top-1 accuracy with only 1.44G FLOPs using a refined training setup on ImageNet-1K, surpassing ParC-Net-S by 1.4\% accuracy but saving 59\% (2.04G) FLOPs.
translated by 谷歌翻译
Recent works on Lottery Ticket Hypothesis have shown that pre-trained language models (PLMs) contain smaller matching subnetworks(winning tickets) which are capable of reaching accuracy comparable to the original models. However, these tickets are proved to be notrobust to adversarial examples, and even worse than their PLM counterparts. To address this problem, we propose a novel method based on learning binary weight masks to identify robust tickets hidden in the original PLMs. Since the loss is not differentiable for the binary mask, we assign the hard concrete distribution to the masks and encourage their sparsity using a smoothing approximation of L0 regularization.Furthermore, we design an adversarial loss objective to guide the search for robust tickets and ensure that the tickets perform well bothin accuracy and robustness. Experimental results show the significant improvement of the proposed method over previous work on adversarial robustness evaluation.
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私模型(NLDP)中PAC学习半空间的问题。为了违反指数样本复杂性的障碍,先前的结果研究了一个轻松的设置,在该设置中,服务器可以访问一些其他公共但未标记的数据。我们继续朝这个方向前进。具体来说,我们考虑了标准设置下的问题,而不是以前研究的较大的保证金设置。在对基础数据分布的不同温和假设下,我们提出了两种基于Massart噪声模型和自我监督学习的方法,并表明可以实现仅在维度和多项式中线性的样本复杂性,而其他术语则是线性的。私人数据和公共数据都大大改善了先前的结果。我们的方法也可以用于其他私人PAC学习问题。
translated by 谷歌翻译
在本文中,我们研究了代理人(个人)具有战略性或自我利益的情况,并且在报告数据时关注其隐私。与经典环境相比,我们的目标是设计机制,这些机制既可以激励大多数代理来真实地报告他们的数据并保留个人报告的隐私,而它们的输出也应接近基础参数。在本文的第一部分中,我们考虑了协变量是次高斯的情况,并且在他们只有有限的第四瞬间的情况下进行了重尾。首先,我们是受可能性功能最大化器的固定条件的动机,我们得出了一种新颖的私人和封闭式估计量。基于估算器,我们提出了一种机制,该机制通过对几种规范模型的计算和付款方案进行一些适当的设计具有以下属性,例如线性回归,逻辑回归和泊松回归:(1)机制为$ O(1) $ - 接点差异私有(概率至少$ 1-O(1)$); (2)这是一个$ o(\ frac {1} {n})$ - 近似于$(1-o(1))$的代理的近似贝叶斯nash平衡,以真实地报告其数据,其中$ n $是代理人的数量; (3)输出可能会达到基础参数的$ O(1)$; (4)对于机制中的$(1-o(1))$的代理分数是个人合理的; (5)分析师运行该机制所需的付款预算为$ O(1)$。在第二部分中,我们考虑了在更通用的环境下的线性回归模型,在该设置中,协变量和响应都是重尾,只有有限的第四次矩。通过使用$ \ ell_4 $ -norm收缩运算符,我们提出了一种私人估算器和付款方案,该方案具有与次高斯案例相似的属性。
translated by 谷歌翻译
神经文本排名模型已经见证了显着的进步,并越来越多地在实践中部署。不幸的是,它们还继承了一般神经模型的对抗性脆弱性,这些神经模型已被检测到,但仍未被先前的研究所忽视。此外,Blackhat SEO可能会利用继承的对抗性漏洞来击败受保护的搜索引擎。在这项研究中,我们提出了对黑盒神经通道排名模型的模仿对抗攻击。我们首先表明,可以通过列举关键查询/候选者,然后训练排名模仿模型来透明和模仿目标段落排名模型。利用排名模仿模型,我们可以精心操纵排名结果并将操纵攻击转移到目标排名模型。为此,我们提出了一种由成对目标函数授权的基于创新的基于梯度的攻击方法,以产生对抗性触发器,该触发器会导致有预谋的混乱,而具有很少的令牌。为了配备触发器的伪装,我们将下一个句子预测损失和语言模型流利度限制添加到目标函数中。对通过排名的实验结果证明了对各种SOTA神经排名模型的排名模仿攻击模型和对抗触发器的有效性。此外,各种缓解分析和人类评估表明,在面对潜在的缓解方法时,伪装的有效性。为了激励其他学者进一步研究这一新颖和重要的问题,我们将实验数据和代码公开可用。
translated by 谷歌翻译
随着计算机视觉中深神经网络的显着进展,广泛研究了数据混合技术,以减轻培训数据量有限时降解概括的问题。但是,当前视觉工具箱中的混合策略尚未得到很好的组装。在本文中,我们建议\ texttt {OpenMixup},这是一个开放源代码的多合一工具箱,用于使用混音,用于监督,半手术和自我监督的视觉表示学习。它提供了一个集成的模型设计和培训平台,包括一系列主要的网络体系结构和模块,数据混合增强方法的集合以及实用的模型分析工具。此外,我们还在各种数据集上提供标准的混合图像分类基准,这加快了从业者在同一设置下的最新方法中进行公平比较。源代码和用户文档可在\ url {https://github.com/westlake-ai/openmixup}上获得。
translated by 谷歌翻译
当前的骨架动作表示方法学习的方法通常集中在受约束的场景上,其中在实验室环境中记录了视频和骨骼数据。在处理现实世界视频中估计的骨骼数据时,由于受试者和摄像机观点之间的差异很大,因此此类方法的性能差。为了解决这个问题,我们通过一种新颖的视图自动编码器介绍了自我监视的骨架动作表示学习。通过Leverage在不同的人类表演者之间进行运动重新定位作为借口任务,以便在2D或3D骨架序列的视觉表示之上删除潜在的动作特异性“运动”特征。这种“运动”功能对于骨架几何和相机视图是不变的,并允许通过辅助,跨视图和跨视图动作分类任务。我们进行了一项研究,重点是针对基于骨架的动作识别的转移学习,并在现实世界数据(例如Posetics)上进行自我监督的预训练。我们的结果表明,从VIA中学到的骨架表示足以提高最新动作分类精度,不仅在3D实验室数据集(例如NTU-RGB+D 60和NTU-RGB+D 120)上,而且还在在仅准确估计2D数据的现实数据集中,例如Toyota Smarthome,UAV-Human和Penn Action。
translated by 谷歌翻译
在线广告最近已发展成为一个竞争激烈且复杂的数十亿美元行业,广告商在大型和高频上竞标广告插槽。这导致对有效的“自动招标”算法的需求日益增长,这些算法确定了传入查询的投标,以最大程度地提高广告商的目标,但受其指定的约束。这项工作探讨了在日益流行的约束下,为单个价值最大化广告商提供有效的在线算法:返回式增长(ROS)。相对于最佳算法,我们对遗憾进行了量化效率,该算法知道所有查询所有查询都是先验的。我们贡献了一种简单的在线算法,该算法在期望中实现了近乎最佳的遗憾,同时始终尊重指定的ROS约束,当查询的输入顺序为i.i.d.来自某些分布的样本。我们还将结果与Balseiro,Lu和Mirrokni [BLM20]的先前工作相结合,以实现近乎最佳的遗憾,同时尊重ROS和固定的预算限制。我们的算法遵循原始的二重式框架,并使用在线镜像下降(OMD)进行双重更新。但是,我们需要使用非典型的OMD设置,因此需要使用OMD的经典低rebret保证,该保证是用于在线学习中的对抗性环境的,不再存在。尽管如此,在我们的情况下,在更普遍的情况下,在算法设计中应用低纤维动力学的情况下,OMD遇到的梯度可能远非对抗性,但受我们的算法选择的影响。我们利用这一关键见解来显示我们的OMD设置在我们的算法领域中造成了低落的遗憾。
translated by 谷歌翻译