视力转换器被广泛用于各种视觉任务。同时,从MLP-Mixer开始尝试使用基于MLP的体系结构实现类似性能的一系列作品。有趣的是,到目前为止,没有人报告使用它们执行NLP任务,此外,直到现在,这些基于MLP的架构却没有声称可以实现视觉任务最新的架构。在本文中,我们分析了基于MLP的体系结构同时在多个不同输入之间建模依赖性中的表达能力,并显示了注意力与基于MLP的机制之间的指数差距。我们的结果表明,MLP无法与NLP问题中的基于注意力的机制竞争的理论解释,他们还表明,视觉任务的性能差距可能是由于MLP相对弱点在多个不同位置之间的建模依赖性中的相对弱点所致,并且结合在一起。对MLP体系结构的智能输入排列可能不足以缩小性能差距。
translated by 谷歌翻译
高参数调整是改善神经网络性能的常见技术。大多数用于超参数搜索的技术都涉及一个迭代过程,在该过程中,在每次迭代中都会重新训练模型。但是,每次其他搜索迭代的预期准确性提高,仍然未知。计算预期的改进可以帮助创建超参数调整规则,并允许对项目的计算预算进行更明智的分配。在本文中,我们从额外的超参数搜索迭代中提高了预期准确性提高的经验估计。我们的结果适用于基于随机搜索\ cite {bergstra2012random}的任何超参数调整方法,并从固定分布中采样超参数。我们以$ o \ left的错误(\ sqrt {\ frac {\ log k} {k}}} \ right)$ o \ left(\ sqrt {\ frac {\ frac {\ frac {\ right)$ w.h.p.其中$ k $是当前的迭代次数。据我们所知,这是从额外的超参数搜索迭代中获得预期增益的第一键。最后,我们证明了预期准确性的最佳估计值仍将具有$ \ frac {1} {k} $的错误。
translated by 谷歌翻译
深神经网络(DNN)对不可感知的恶意扰动高度敏感,称为对抗性攻击。在实际成像和视觉应用中发现了这种脆弱性之后,相关的安全问题引起了广泛的研究关注,并且已经开发出许多防御技术。这些防御方法中的大多数都依赖于对抗性训练(AT) - 根据特定威胁模型对图像的分类网络进行训练,该模型定义了允许修改的幅度。尽管在带来有希望的结果的情况下,对特定威胁模型的培训未能推广到其他类型的扰动。一种不同的方法利用预处理步骤从受攻击的图像中删除对抗性扰动。在这项工作中,我们遵循后一条路径,并旨在开发一种技术,从而导致在威胁模型各种实现中的强大分类器。为此,我们利用了随机生成建模的最新进展,并将其利用它们用于从条件分布中进行采样。我们的辩护依赖于在受攻击的图像中添加高斯i.i.d噪声,然后进行了预验证的扩散过程 - 一种在脱氧网络上执行随机迭代过程的体系结构,从而产生了高感知质量质量的结果。通过在CIFAR-10数据集上进行的广泛实验,通过此随机预处理步骤获得的鲁棒性得到了验证,这表明我们的方法在各种威胁模型下都优于领先的防御方法。
translated by 谷歌翻译
已知深层神经网络容易受到对抗扰动的影响 - 较小的扰动会改变网络的输出并存在于严格的规范限制下。虽然通常将这种扰动讨论为针对特定输入量身定制,但可以构建通用扰动以更改模型在一组输入上的输出。普遍的扰动呈现出更现实的对抗攻击案例,因为不需要对模型的确切输入的认识。此外,通用攻击设置将泛化的主题提高到看不见的数据,在给定一组输入的情况下,通用扰动旨在改变模型在样本外数据上的输出。在这项工作中,我们研究了基于视觉探测器的自主导航系统的物理被动补丁对抗攻击。视觉轨道测定系统旨在推断两个相应的观点之间的相对摄像机运动,并经常被基于视觉的自主导航系统使用以估计其状态。对于此类导航系统,贴片对抗扰动构成了严重的安全问题,因为它可以用来误导系统到某些碰撞过程中。据我们所知,我们首次表明,通过在场景中部署补丁的对抗攻击,可以显着增加视觉探针模型的错误差。我们提供有关合成闭环无人机导航数据的评估,并证明实际数据中存在可比漏洞。在https://github.com/patchadversarialattacks/patchardversarialateacks上提供了提出方法和报告实验的参考实现。
translated by 谷歌翻译
分位数回归(QR)是一个强大的工具,用于估计目标变量$ \ mathrm {y} $的一个或多个条件分位数给定的解释功能$ \ boldsymbol {\ mathrm {x}}} $。 QR的一个限制是,由于其目标函数的提出,它仅针对标量目标变量定义,并且由于分位数的概念对多元分布没有标准定义。最近,由于通过最佳传输将分位数概念对多变量分布的有意义的概括,提出了矢量分位数回归(VQR)作为矢量值目标变量的QR扩展。尽管它优雅,但VQR可以说是由于几个限制而在实践中不适用:(i)假设目标$ \ boldsymbol {\ mathrm {y}} $给定功能$ \ boldsymbol {\ mathrm {\ mathrm {\ mathrm {\ mathrm { {x}} $; (ii)即使在目标维度,回归分位数或特征数量的数量方面,它的确切配方也是棘手的,即使对于适度的问题,并且其放松的双重配方可能违反了估计的分位数的单调性; (iii)当前不存在VQR的快速或可扩展求解器。在这项工作中,我们完全解决了这些局限性,即:(i)将VQR扩展到非线性情况,显示出对线性VQR的实质性改进; (ii)我们提出{矢量单调重排},该方法可确保VQR估计的分位数函数是单调函数; (iii)我们为线性和非线性VQR提供快速的GPU加速求解器,这些求解器保持固定的内存足迹,并证明它们扩展到数百万个样品和数千个分位数; (iv)我们发布了求解器的优化Python软件包,以广泛使用VQR在现实世界应用中的使用。
translated by 谷歌翻译
建立机器人假体的核心挑战是创建基于传感器的系统,能够从下肢读取生理信号,并指示机器人手执行各种任务。现有系统通常通过采用肌电图(EMG)或超声(US)技术来分析肌肉状态,进行诸如指向或抓握之类的离散手势。虽然过去通过检测突出的手势来估算手势手势,但我们对检测或推理感兴趣,在随着时间的流逝而发展的精细运动的背景下进行。示例包括执行精细且灵巧的任务(例如键盘打字或钢琴弹奏)时发生的动作。我们将这项任务视为朝着臂截肢者中机器人假体提高采用率的重要一步,因为它有可能显着提高执行日常任务的功能。为此,我们提出了一个端到端的机器人系统,可以成功推断出精细的手指运动。这是通过将手作为机器人操纵器建模并将其用作中间表示来实现的,以从美国图像序列中编码肌肉的动力学。我们通过收集一组主题的数据来评估我们的方法,并演示如何使用它来重播播放或键入文字。据我们所知,这是第一个研究端到端系统中这些下游任务的第一项研究。
translated by 谷歌翻译
量子光学器件中的自发参数下转换是实现具有空间光模式的高维QUITIES的宝贵资源。主要开放挑战之一是如何在SPDC过程中直接生成所需的Qudit状态。通过高级计算学习方法可以解决这个问题;然而,由于通过考虑所有互动效应的完全可分辨率算法对SPDC过程建模的困难,进展有限。在这里,我们克服了这些限制并引入了物理受约束和可微分的模型,验证了针对形状泵浦梁和结构晶体的实验结果,能够在过程中学习每个交互参数。我们避免了我们物理模型随机性质引起的任何限制,并整合了在SPDC Hamiltonian下的演变的动态方程。我们解决了设计非线性量子光学系统的逆问题,该系统实现了降低的光子对的所需量子状态。使用不同空间模式之间的二阶相关性或通过指定所需的密度矩阵来定义所需状态。通过学习非线性卷全息图以及不同的泵形状,我们成功地展示了如何生成最大纠缠的状态。此外,我们通过主动改变泵浦光束的轮廓来模拟产生的量子状态的全光相干控制。我们的工作对于高维量子密钥分布和量子信息处理协议等新颖设计有用。此外,我们的方法可以容易地应用于控制SPDC过程中的其他光度的其他光度,例如光谱和时间特性,甚至可以用于具有类似相互作用Hamiltonian的冷凝物系统。
translated by 谷歌翻译
低估和控制生成模型的潜像是一个复杂的任务。在本文中,我们提出了一种新的学习方法,用于在预先训练的GaN的潜在空间中控制任何所需属性,以便相应地编辑合成和现实世界数据样本。我们执行SIM2REAL学习,依靠最小的样品来实现无限量的连续精确编辑。我们介绍了一种基于AutoEncoder的模型,该模型学习以编码图像之间的变化的语义作为编辑稍后编辑新样本的基础,实现了精确的期望结果 - 图1所示的示例。虽然先前的编辑方法依赖于潜伏的已知结构空格(例如,样式中的某些语义的线性),我们的方法本身不需要任何结构约束。我们在面部图像的域中演示了我们的方法:编辑不同的表达式,姿势和照明属性,实现最先进的结果。
translated by 谷歌翻译
我们提出了自我分类器 - 一种新型自我监督的端到端分类学习方法。自我分级器通过优化同一样本的两个增强视图的同级课程预测,以单级端到端的方式同时使用标签和表示。为了保证非退化解决方案(即,所有标签分配给同一类别的解决方案)我们提出了一种数学上促进的跨熵损失变体,其在预测标签上具有均匀的先前被断言。在我们的理论分析中,我们证明了堕落的解决方案不是我们方法的最佳解决方案。自我分级器可以实现和可扩展。与其他流行的无监督分类和对比表示学习方法不同,它不需要任何形式的预训练,期望最大化,伪标签,外部聚类,第二网络,停止梯度操作或负对对。尽管其简单性,但我们的方法为想象成的无人监督分类设定了新的艺术状态;甚至实现了无监督的代表学习的最先进结果的效果。代码:https://github.com/elad-amrani/self-classifier
translated by 谷歌翻译
如今,捕获的许多图像仅被机器或人类“观察到”,例如机器人或自动驾驶汽车的摄像机。高级机器视觉模型(例如对象识别或语义分割)假设图像通过相机ISP转换为某些规范的图像空间。但是,相机ISP已优化,用于为人类观察员而不是机器生成视觉上令人愉悦的图像,因此,可以节省ISP计算时间并直接将视觉模型应用于原始数据。然而,已经表明,直接在原始图像上训练这样的模型会导致性能下降。为了减轻性能下降(无需注释原始数据),我们使用了RAW和RGB图像对的数据集,可以轻松获取无人标记的情况。然后,我们通过使用知识蒸馏来训练直接应用于原始数据的模型,以便将原始图像的模型预测与处理后的RGB图像的现成预训练的模型的预测对齐。我们的实验表明,我们在原始图像上进行对象分类和语义分割的性能要比在标记的原始图像上训练的模型要好得多。它还合理地匹配了处理后的RGB图像上预训练模型的预测,同时保存ISP计算开销。
translated by 谷歌翻译