随着变压器在计算机视觉中普及的激增,一些研究试图确定它们是否可以比卷积神经网络(CNN)更适合分配变化并提供更好的不确定性估计。几乎一致的结论是它们是,并且通常或多或少地明确地认为这种所谓优势的原因是归因于自我注意力的机制。在本文中,我们进行了广泛的经验分析,表明最近最新的CNN(尤其是Convnext)可以比当前的最新变压器更强大,可靠,甚至有时甚至更多。但是,没有明显的赢家。因此,尽管它很容易陈述一个建筑家族比另一种建筑的明确优势,但他们似乎在各种任务上享有类似的非凡表演,同时也遭受了类似的脆弱性,例如纹理,背景和简单性偏见。
translated by 谷歌翻译
部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
在本文中,我们介绍了Siammask,这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失,从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后,SiamMask只需要一个单个边界框来初始化,并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外,我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明,我们的方法具有较高的处理效率,每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果,同时以高速进行视频对象分割基准测试以高速显示竞争性能。
translated by 谷歌翻译
我们表明,著名的混音的有效性[Zhang等,2018],如果而不是将其用作唯一的学习目标,就可以进一步改善它,而是将其用作标准跨侧面损失的附加规则器。这种简单的变化不仅提供了太大的准确性,而且在大多数情况下,在各种形式的协变量转移和分布外检测实验下,在大多数情况下,混合量的预测不确定性估计质量都显着提高了。实际上,我们观察到混合物在检测出分布样本时可能会产生大量退化的性能,因为我们在经验上表现出来,因为它倾向于学习在整个过程中表现出高渗透率的模型。很难区分分布样本与近分离样本。为了显示我们的方法的功效(RegMixup),我们在视觉数据集(Imagenet&Cifar-10/100)上提供了详尽的分析和实验,并将其与最新方法进行比较,以进行可靠的不确定性估计。
translated by 谷歌翻译
机器学习模型与虚假相关性的脆弱性主要在监督学习(SL)的背景下进行了讨论。但是,缺乏对虚假相关性如何影响流行的自学学习(SSL)和基于自动编码器模型(AE)的表现的见解。在这项工作中,我们通过评估这些模型在现实世界和合成分配变化数据集上的性能来阐明这一点。在观察到线性头可能容易受到虚假相关性的观察之后,我们使用对分布外(OOD)数据训练的线性头制定了一种新颖的评估方案,以将预训练模型的性能隔离为潜在的偏差用于评估的线性头。通过这种新方法,我们表明SSL模型始终比AE和SL模型在OOD概括方面始终更健壮,因此在OOD概括方面更好。
translated by 谷歌翻译
尽管在构建强大的神经网络方面具有明显的计算优势,但使用单步方法的对抗训练(AT)是不稳定的,因为它遭受了灾难性的过度拟合(CO):网络在对抗性训练的第一阶段获得了非平凡的鲁棒性,但突然达到了一个阶段在几次迭代中,他们很快失去了所有鲁棒性。尽管有些作品成功地预防了CO,但导致这种显着失败模式的不同机制仍然很少理解。但是,在这项工作中,我们发现数据结构与AT动力学之间的相互作用在CO中起着基本作用。特别是,通过对自然图像的典型数据集进行主动干预,我们建立了一个因果关系。在方法上单步中的数据和CO的发作。这种新的观点提供了对导致CO的机制的重要见解,并为更好地理解强大模型构建的一般动态铺平了道路。可以在https://github.com/gortizji/co_features上找到复制本文实验的代码。
translated by 谷歌翻译
最近,Wong等人。表明,使用单步FGSM的对抗训练导致一种名为灾难性过度拟合(CO)的特征故障模式,其中模型突然变得容易受到多步攻击的影响。他们表明,在FGSM(RS-FGSM)之前添加随机扰动似乎足以防止CO。但是,Andriushchenko和Flammarion观察到RS-FGSM仍会导致更大的扰动,并提出了一个昂贵的常规化器(Gradalign),DEMATER(GARGALIGN)DES昂贵(Gradalign)Dust Forrasiniger(Gradalign)Dust co避免在这项工作中,我们有条不紊地重新审视了噪声和剪辑在单步对抗训练中的作用。与以前的直觉相反,我们发现在干净的样品周围使用更强烈的噪声与不剪接相结合在避免使用大扰动半径的CO方面非常有效。基于这些观察结果,我们提出了噪声-FGSM(N-FGSM),尽管提供了单步对抗训练的好处,但在大型实验套件上没有经验分析,这表明N-FGSM能够匹配或超越以前的单步方法的性能,同时达到3 $ \ times $加速。代码可以在https://github.com/pdejorge/n-fgsm中找到
translated by 谷歌翻译
我们提出了Adios,这是一个用于自我监督学习的遮罩图像模型(MIM)框架,同时使用对抗性目标学习掩盖功能和图像编码器。对图像编码器进行了训练,以最大程度地减少原始图像的表示形式与蒙版图像的表示之间的距离。相反,掩蔽函数旨在最大化此距离。阿迪奥斯(Adios)始终改进有关各种任务和数据集的最先进的自我监督学习(SSL)方法 - 包括Imagenet100和STL10上的分类,CIFAR10/100上的转移学习,Flowers102和Inaturalist,以及鲁棒性在背景挑战中进行了评估(Xiao等,2021) - 同时产生语义意义的面具。与MAE,BEIT和IBOT等现代MIM模型不同,Adios不依赖视觉变压器的图像斑点令牌构造,并且可以用卷积的骨架来实现。我们进一步证明,与对流行MIM模型中使用的掩盖方案相比,阿迪奥斯学到的面具在改善SSL方法的表示方面更有效。
translated by 谷歌翻译
引用图像分割是一种基本愿景 - 语言任务,旨在分割由图像中的自然语言表达式引用的对象。这项任务背后的一个关键挑战是利用引用表达式来突出显示图像中的相关位置。解决此问题的范例是利用强大的视觉语言(“跨模型”)解码器到从视觉编码器和语言编码器独立提取的保险丝特征。最近的方法通过利用变换器作为跨模型解码器,并将变换器在许多其他视觉语言任务中的压倒性成功的同时进行了显着的进步。在这项工作中采用不同的方法,我们表明,通过在视觉变压器编码器网络的中间层中的语言和视觉特征的早期融合,可以实现更好的跨模型对准。通过在视觉特征编码阶段进行跨模型特征融合,我们可以利用变压器编码器的良好相关建模功率,以便挖掘有用的多模态上下文。通过这种方式,用轻型掩模预测器容易地收获精确的分段结果。没有钟声和口哨,我们的方法超越了在Refcoco,Refcoco +和G-Ref上的先前最先进的方法。
translated by 谷歌翻译
网络攻击幅度越来越大,频率和复杂性增加。作为回应,安全社区正在通过机器学习来全自动自动化网络防御系统。然而,到目前为止,尚未审查对攻击者和防守者共施工动力学的产生影响。在这个白皮书中,我们假设两侧的自动化增加将加速共同循环,从而求求出是否有任何所产生的固定点,以及它们的特征方式。在欧洲最大的网络统计学运动中锁定盾牌威胁模型,我们研究了对网络分类器的黑箱对抗攻击。给予已经存在的攻击能力,我们质疑基于最小逃避距离的最佳逃避攻击框架的效用。相反,我们建议一种新颖的加强学习设置,可用于有效地产生任意的对抗性扰动。然后,我们认为攻击者 - 后卫固定点本身是具有复杂相转换的普通和游戏,并引入了一个时间扩展的多智能体增强学习框架,其中可以研究所得到的动态。我们假设AI-NID的一个合理的固定点可能是防御策略严重依赖于白名单特征流子空间的情况。最后,我们证明需要持续的学习方法来研究暂时扩展的普通和游戏中的攻击者 - 后卫动态。
translated by 谷歌翻译