Since the recent success of Vision Transformers (ViTs), explorations toward transformer-style architectures have triggered the resurgence of modern ConvNets. In this work, we explore the representation ability of DNNs through the lens of interaction complexities. We empirically show that interaction complexity is an overlooked but essential indicator for visual recognition. Accordingly, a new family of efficient ConvNets, named MogaNet, is presented to pursue informative context mining in pure ConvNet-based models, with preferable complexity-performance trade-offs. In MogaNet, interactions across multiple complexities are facilitated and contextualized by leveraging two specially designed aggregation blocks in both spatial and channel interaction spaces. Extensive studies are conducted on ImageNet classification, COCO object detection, and ADE20K semantic segmentation tasks. The results demonstrate that our MogaNet establishes new state-of-the-art over other popular methods in mainstream scenarios and all model scales. Typically, the lightweight MogaNet-T achieves 80.0\% top-1 accuracy with only 1.44G FLOPs using a refined training setup on ImageNet-1K, surpassing ParC-Net-S by 1.4\% accuracy but saving 59\% (2.04G) FLOPs.
translated by 谷歌翻译
有关后门毒物攻击的广泛文献研究了使用“数字触发图案”的后门攻击和防御措施。相比之下,“物理后门”使用物理对象作为触发器,直到最近才被确定,并且在质量上足够不同,可以抵抗针对数字触发后门的所有防御。对物理后门的研究受到了访问大型数据集的限制,该数据集包含包含与分类目标共同位置的物理对象的真实图像。构建这些数据集是时间和劳动力密集的。这项工作旨在应对有关物理后门攻击研究的可访问性挑战。我们假设在流行数据集(例如Imagenet)中可能存在天然存在的物理共同存在的对象。一旦确定,这些数据的仔细重新标记可以将它们转化为训练样本,以进行物理后门攻击。我们提出了一种方法,可以通过在现有数据集中识别这些潜在触发器的这些亚集,以及它们可能毒害的特定类别。我们称这些天然存在的触发级子集自然后门数据集。我们的技术成功地识别了广泛可用的数据集中的自然后门,并在行为上等同于在手动策划数据集中训练的模型。我们发布我们的代码,以使研究社区可以创建自己的数据集,以研究物理后门攻击。
translated by 谷歌翻译
后门是针对深神经网络(DNN)的强大攻击。通过中毒训练数据,攻击者可以将隐藏的规则(后门)注入DNN,该规则仅在包含攻击特异性触发器的输入上激活。尽管现有工作已经研究了各种DNN模型的后门攻击,但它们仅考虑静态模型,这些模型在初始部署后保持不变。在本文中,我们研究了后门攻击对时变DNN模型更现实的情况的影响,其中定期更新模型权重以处理数据分布的漂移。具体而言,我们从经验上量化了后门针对模型更新的“生存能力”,并检查攻击参数,数据漂移行为和模型更新策略如何影响后门生存能力。我们的结果表明,即使攻击者会积极增加触发器的大小和毒药比,即使在几个模型更新中,一次射击后门攻击(即一次仅中毒训练数据)也无法幸免。为了保持模型更新影响,攻击者必须不断将损坏的数据引入培训管道。这些结果共同表明,当模型更新以学习新数据时,它们也将后门“忘记”为隐藏的恶意功能。旧培训数据之间的分配变化越大,后门被遗忘了。利用这些见解,我们应用了智能学习率调度程序,以进一步加速模型更新期间的后门遗忘,这阻止了单发后门在单个模型更新中幸存下来。
translated by 谷歌翻译
近年来政府和商业实体的面部识别(FR)技术的快速采用提出了对公民自由和隐私的担忧。作为回应,已经开发了一套广泛的所谓“反面部识别”(AFR)工具,以帮助用户避免不需要的面部识别。在过去几年中提出的一组AFR工具是广泛的,快速发展,需要退回措施,以考虑AFR系统的更广泛的设计空间和长期挑战。本文旨在填补该差距,并提供对AFR研究景观的第一次综合分析。使用FR系统的运营级作为起点,我们创建了一个系统框架,用于分析不同AFR方法的益处和权衡。然后,我们考虑到AFR工具面临的技术和社会挑战,并提出在该领域的未来研究方向。
translated by 谷歌翻译
图形神经网络(GNNS)在具有图形结构数据的各种任务中取得了巨大成功,其中节点分类是必不可少的。无监督的图形域适应(UGDA)显示了其降低节点分类标签成本的实用价值。它利用标记图(即源域)的知识来解决另一个未标记的图形(即目标域)的相同任务。大多数现有的UGDA方法严重依赖于源域中的标记图。它们利用来自源域的标签作为监控信号,并在源图和目标图中共同培训。但是,在一些真实的场景中,由于无法使用或隐私问题,源图无法访问。因此,我们提出了一种名为Source Firect Insuperved Graph域适应(SFUGDA)的新颖情景。在这种情况下,我们可以从源域中杠杆的唯一信息是训练有素的源模型,而不会曝光源图和标签。结果,现有的UGDA方法不再可行。为了解决本实际情况的非琐碎的适应挑战,我们提出了一种模型 - 无话学算法,用于域适应,以充分利用源模型的辨别能力,同时保留目标图上的结构接近度的一致性。我们在理论和经验上证明了所提出的算法的有效性。四个跨域任务的实验结果显示了宏F1得分的一致性改进,高达0.17。
translated by 谷歌翻译
在对抗机器学习中,防止对深度学习系统的攻击的新防御能力在释放更强大的攻击后不久就会破坏。在这种情况下,法医工具可以通过追溯成功的根本原因来为现有防御措施提供宝贵的补充,并为缓解措施提供前进的途径,以防止将来采取类似的攻击。在本文中,我们描述了我们为开发用于深度神经网络毒物攻击的法医追溯工具的努力。我们提出了一种新型的迭代聚类和修剪解决方案,该解决方案修剪了“无辜”训练样本,直到所有剩余的是一组造成攻击的中毒数据。我们的方法群群训练样本基于它们对模型参数的影响,然后使用有效的数据解读方法来修剪无辜簇。我们从经验上证明了系统对三种类型的肮脏标签(后门)毒物攻击和三种类型的清洁标签毒药攻击的功效,这些毒物跨越了计算机视觉和恶意软件分类。我们的系统在所有攻击中都达到了98.4%的精度和96.8%的召回。我们还表明,我们的系统与专门攻击它的四种抗纤维法措施相对强大。
translated by 谷歌翻译
开发深度神经网络以生成3D场景是神经综合的基本问题,其立即应用于架构CAD,计算机图形,以及生成虚拟机器人训练环境。这项任务是具有挑战性的,因为3D场景呈现不同的模式,从连续的模式等等,例如对象尺寸和成对对之间的相对姿势,以离散模式,例如具有对称关系的对象的发生和共发生。本文介绍了一种新型神经场景综合方法,可以捕获3D场景的不同特征模式。我们的方法结合了神经网络和传统场景合成方法的强度。我们使用从训练数据中学到的参数上的分布,这提供了对象属性和相对属性的不确定性,以规范前馈神经模型的输出。此外,我们的方法不仅仅是预测场景布局,而不是预测场景布局。该方法允许我们利用预测属性之间的底层一致性约束来修剪不可行的预测。实验结果表明,我们的方法显着优于现有方法。生成的3D场景在保留连续和离散特征模式的同时忠实地插入训练数据。
translated by 谷歌翻译
已知深度学习系统容易受到对抗例子的影响。特别是,基于查询的黑框攻击不需要深入学习模型的知识,而可以通过提交查询和检查收益来计算网络上的对抗示例。最近的工作在很大程度上提高了这些攻击的效率,证明了它们在当今的ML-AS-A-Service平台上的实用性。我们提出了Blacklight,这是针对基于查询的黑盒对抗攻击的新防御。推动我们设计的基本见解是,为了计算对抗性示例,这些攻击在网络上进行了迭代优化,从而在输入空间中产生了非常相似的图像查询。 Blacklight使用在概率内容指纹上运行的有效相似性引擎来检测高度相似的查询来检测基于查询的黑盒攻击。我们根据各种模型和图像分类任务对八次最先进的攻击进行评估。 Blacklight通常只有几次查询后,都可以识别所有这些。通过拒绝所有检测到的查询,即使攻击者在帐户禁令或查询拒绝之后持续提交查询,Blacklight也可以防止任何攻击完成。 Blacklight在几个强大的对策中也很强大,包括最佳的黑盒攻击,该攻击近似于效率的白色框攻击。最后,我们说明了黑光如何推广到其他域,例如文本分类。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译