我们研究视觉变压器(VIT)的半监督学习(SSL),尽管VIT架构广泛采用了不同的任务,但视觉变形金刚(VIT)还是一个不足的主题。为了解决这个问题,我们提出了一条新的SSL管道,该管道由第一个联合国/自制的预训练组成,然后是监督的微调,最后是半监督的微调。在半监督的微调阶段,我们采用指数的移动平均线(EMA) - 教师框架,而不是流行的FixMatch,因为前者更稳定,并且为半手不见的视觉变压器提供了更高的准确性。此外,我们提出了一种概率的伪混合机制来插入未标记的样品及其伪标签以改善正则化,这对于训练电感偏差较弱的训练VIT很重要。我们所提出的方法被称为半vit,比半监督分类设置中的CNN对应物获得可比性或更好的性能。半vit还享受VIT的可伸缩性优势,可以很容易地扩展到具有越来越高的精度的大型模型。例如,半效率总数仅使用1%标签在Imagenet上获得令人印象深刻的80%TOP-1精度,使用100%ImageNet标签与Inception-V4相当。
translated by 谷歌翻译
在本文中,我们研究了如何在视觉和语言(V+L)表示学习中使用蒙版的信号建模。与其独立开发蒙面语言建模(MLM)和蒙面图像建模(MIM),我们建议建立关节蒙面的视觉和语言建模,其中一种模态的掩盖信号是在另一种方式的帮助下重建的。这是由图像文本配对数据的性质和文本传达几乎相同的信息但以不同格式传达的。在另一种模态下进行的一种模式的掩盖信号重建也可以隐式学习语言令牌和图像贴片之间的跨模式对齐。我们对各种V+L任务的实验表明,该建议的方法不仅可以通过使用大量数据来实现最先进的性能,而且还可以通过有限的培训数据的制度优于其他竞争对手。
translated by 谷歌翻译
根据深层神经网络生成逼真的合成数据的显着能力,我们重新审视了经典的信号到符号屏障。深层和欺骗强调了物理现实与其抽象表示之间的联系,无论是由数字计算机学到的还是生物剂。从广泛适用的抽象概念定义开始,我们表明,尽管具有非常有效的分类器,但无论体重的数量和培训数据的数量如何,标准的馈送架构都无法捕获琐碎的概念。另一方面,结合递归的体系结构可以代表更大的概念类别,但仍然无法从有限数据集中学习它们。我们定性地描述了可以使用(自由能)Lagrangian来衡量信息复杂性的现代体系结构可以“理解”的概念类别。但是,即使已经理解了一个概念,除非通过持续的互动和验证,否则网络也没有将其理解传达给外部代理的方法。然后,我们将物理对象描述为抽象概念,并使用先前的分析表明可以通过有限体系结构对物理对象进行编码。但是,要了解物理概念,传感器必须提供持续令人兴奋的观察结果,以控制数据采集过程是必不可少的(主动感知)。控制的重要性取决于模态,比声学或化学感知更受视觉效果。最后,我们得出的结论是,在有限资源的有限时间内,将物理实体绑定到数字身份是可能的,原则上解决了信号到符号屏障问题,但我们强调了需要进行连续验证的必要性。
translated by 谷歌翻译
我们基于新的有条件共同信息(LOO-CMI)的新量度来得出有关监督学习算法的理论概括界。与其他不利于问题结构的黑框界面相反,在实践中可能很难评估,我们的loo-CMI界限可以轻松计算,并且可以通过与其他概念(例如经典的一对一的交叉验证,优化算法的稳定性和损失景观的几何形状。它既适用于训练算法的输出及其预测。我们从经验上通过评估其在深度学习的情况下评估其预测的概括差距来验证界限的质量。特别是,我们的界限在大规模的图像分类任务上是无效的。
translated by 谷歌翻译
我们提出了一个大规模的真实世界和干净的图像对数据集,以及一种从图像中降低降解的方法,从图像中降低了降解。由于没有用于降低的现实世界数据集,因此当前的最新方法依赖于合成数据,因此受SIM2REAL域间隙的限制。此外,由于没有真实的配对数据集,严格的评估仍然是一个挑战。我们通过通过对非鼻子变化的细致控制收集第一个真实的配对数据集来填补这一空白。我们的数据集对各种现实世界的雨水现象(例如雨条和雨水积累)进行了配对的培训和定量评估。为了学习对雨现象不变的代表,我们提出了一个深层神经网络,该网络通过最大程度地减少雨水和干净图像之间的雨水不变损失来重建基础场景。广泛的实验表明,所提出的数据集使现有的DERAINER受益,我们的模型可以在各种条件下对真实雨水图像的最先进方法优于最先进的方法。
translated by 谷歌翻译
在从少数类(基类)开始的情况下,已经广泛研究了课堂学习学习(CIL)。取而代之的是,我们探索了一个研究不足的CIL现实环境,该设置是从在大量基类中进行预训练的强大模型开始。我们假设强大的基本模型可以为新颖的类别提供良好的表示,并且可以通过小型适应来进行渐进的学习。我们提出了一个2阶段的训练方案,i)功能增强 - 将部分的克隆部分克隆并在新型数据上进行微调,ii)融合 - 将基础和新型分类器组合到统一的分类器中。实验表明,所提出的方法在大型成像网数据集上的最先进的CIL方法明显优于最先进的CIL方法(例如,总体准确度 +最佳 +最佳精度为10%)。我们还建议和分析研究研究的实际CIL方案,例如与分布转移的基础新颖性重叠。我们提出的方法是鲁棒的,并概括了所有分析的CIL设置。代码可从https://github.com/amazon-research/sp-cil获得。
translated by 谷歌翻译
我们呈现了对比邻域对准(CNA),一种歧管学习方法来维持学习特征的拓扑,由此映射到源(教师)模型的附近表示的数据点也被目标(学生)模型映射到邻居。目标模型旨在模拟使用对比损耗来模拟源代表空间的局部结构。CNA是一种无人监督的学习算法,不需要对各个样本的地面真理标签。CNA在三种情况下示出:歧管学习,其中模型在尺寸减小空间中保持原始数据的本地拓扑;模型蒸馏,其中小学生模型培训以模仿更大的老师;和遗留模型更新,其中旧模型被更强大的更强大的型号。实验表明,CNA能够在高维空间中捕获歧管,并与其域中的竞争方法相比提高性能。
translated by 谷歌翻译
我们研究了对差距估计任务的深层立体声匹配网络对抗图像对抗的影响。我们介绍了一种方法来制作一组扰动,当添加到数据集中的任何立体声图像对时,可以欺骗立体声网络,从而显着改变感知场景几何形状。我们的扰动图像是“通用”的,因为它们不仅损坏了它们在优化的数据集上的网络上的估计,而且还概括到不同数据集中不同架构的立体网络。我们在多个公共基准数据集中评估我们的方法,并显示我们的扰动可以将最先进的立体网络的D1错误(类似于愚蠢)增加1%至高达87%。我们调查扰动对估计场景几何的影响,并确定最脆弱的对象类。我们对左右图像之间的注册点激活的分析导致我们发现某些架构组件,即可变形卷积和明确匹配,可以增加对对手的鲁棒性。我们证明,通过简单地使用这些组件设计网络,可以将对手的效果降低到60.5%,这竞争于网络的稳健性与昂贵的对抗性数据增强进行了微调。
translated by 谷歌翻译
我们介绍了一种计算关于数据集的学习任务的导数的方法。学习任务是从训练设置到验证错误的函数,可以由培训的深神经网络(DNN)表示。 “数据集导数”是一个线性运算符,围绕培训的模型计算,它通知每个训练样本的权重的扰动如何影响验证误差,通常在单独的验证数据集上计算。我们的方法,DIVA(可微分验证)铰接在预先训练的DNN周围的休假交叉验证误差的闭合形式微分表达上。这种表达构成数据集衍生物。 Diva可用于数据集自动策策,例如用错误的注释删除样本,使用其他相关样本增强数据集或重新平衡。更一般地,DIVA可用于优化数据集,以及模型的参数,作为培训过程的一部分,而无需单独的验证数据集,与AutomL的双层优化方法不同。为了说明DIVA的灵活性,我们向样本自动策展任务报告实验,如异常值拒绝,数据集扩展和多模态数据的自动聚合。
translated by 谷歌翻译
我们提出了一个新的框架,在增强的自然语言(TANL)之间的翻译,解决了许多结构化预测语言任务,包括联合实体和关系提取,嵌套命名实体识别,关系分类,语义角色标记,事件提取,COREREFED分辨率和对话状态追踪。通过培训特定于特定于任务的鉴别分类器来说,我们将其作为一种在增强的自然语言之间的翻译任务,而不是通过培训问题,而不是解决问题,而是可以轻松提取任务相关信息。我们的方法可以匹配或优于所有任务的特定于任务特定模型,特别是在联合实体和关系提取(Conll04,Ade,NYT和ACE2005数据集)上实现了新的最先进的结果,与关系分类(偶尔和默示)和语义角色标签(Conll-2005和Conll-2012)。我们在使用相同的架构和超参数的同时为所有任务使用相同的架构和超级参数,甚至在培训单个模型时同时解决所有任务(多任务学习)。最后,我们表明,由于更好地利用标签语义,我们的框架也可以显着提高低资源制度的性能。
translated by 谷歌翻译