大规模的视觉预训练在各种下游任务中都表现出了令人印象深刻的进步。现有方法主要是通过图像和文本的全局表示形式的相似性或对图像和文本特征上的高级交叉模式关注来对跨模式对齐进行建模。但是,由于只有全局图像文本对齐信息,因此他们无法明确学习视觉区域和文本短语之间的细粒语义对齐。在本文中,我们介绍了Loupe,这是一种精细的语义一致性视觉语言预训练框架,该框架从新颖的游戏理论互动的角度学习了细粒度的语义对齐。为了有效地计算游戏理论相互作用,我们进一步提出了一种不确定性感知的神经Shapley交互学习模块。实验表明,Loupe在图像文本检索基准测试中实现了最新的。如果没有任何对象级的人类注释和微调,Loupe就可以在对象检测和视觉接地方面实现竞争性能。更重要的是,Loupe从大规模的原始图像文本对学习细粒语义的新方向。
translated by 谷歌翻译
了解人类情绪是智能机器人提供更好的人类机器人相互作用的关键能力。现有作品仅限于修剪视频级别的情感分类,无法找到与情感相对应的时间窗口。在本文中,我们介绍了一项新任务,称为视频中的时间情感本地化(TEL),该任务旨在检测人类的情感并将其相应的时间边界定位在带有校准字幕的未修剪视频中。与时间动作本地化相比,TEL提出了三个独特的挑战:1)情绪的时间动态极为多样; 2)情绪提示都嵌入了外观和复杂的情节中; 3)细粒度的时间注释是复杂且劳动密集型的。为了应对前两个挑战,我们提出了一个新颖的扩张上下文集成网络,该网络与粗细的两流体系结构。粗流通过建模多粒性时间上下文来捕获各种时间动力学。细流通过推理从粗流的多晶格时间上下文之间的依赖性来实现复杂的理解,并将它们自适应地集成到细粒度的视频段特征中。为了应对第三个挑战,我们引入了跨模式共识学习范式,该范式利用了对齐视频和字幕之间的固有语义共识,以实现弱监督的学习。我们为新的测试集提供了3,000个手动注释的时间边界,因此可以对TEL问题进行未来的研究进行定量评估。广泛的实验显示了我们方法对时间情绪定位的有效性。这项工作的存储库位于https://github.com/yyjmjc/temporal-emotion-localization-in-videos。
translated by 谷歌翻译
基于内容的图像检索(CIR)旨在通过同时理解示例图像和互补文本的组成来搜索目标图像,这可能会影响各种各样的现实世界应用,例如互联网搜索和时尚检索。在这种情况下,输入图像是搜索的直观上下文和背景,而相应的语言明确请求有关如何修改查询图像的特定特征以获取预期目标图像的新特征。此任务具有挑战性,因为它需要通过合并跨粒度语义更新来学习和理解复合图像文本表示。在本文中,我们通过小说\下划线{\ textbf {b}}来解决此任务\ textbf {s}} ition(\ textbf {boss})带有混合反事实训练框架,通过从两个先前被忽视的角度研究它,从而为CIR任务提供了新的启示:\ emph {隐式自下而上的自下而上的sisitiol语言表示}和sisiol语言表示}和\ emph {显式晶状体构造的明显细粒度对应}。一方面,我们利用了从底部本地特征到顶部全局语义的跨模式嵌入的隐式相互作用和组成,从而保留和转换视觉表示在多个连续步骤中以语言语义为条件的视觉表示,以进行有效的目标图像搜索。另一方面,我们设计了一种混合反事实培训策略,可以减少模型对类似查询的歧义。
translated by 谷歌翻译
虽然注释大量的数据以满足复杂的学习模型,但对于许多现实世界中的应用程序可能会过于良好。主动学习(AL)和半监督学习(SSL)是两个有效但经常被隔离的方法,可以减轻渴望数据的问题。最近的一些研究探索了将AL和SSL相结合以更好地探测未标记数据的潜力。但是,几乎所有这些当代的SSL-AL作品都采用了简单的组合策略,忽略了SSL和AL的固有关系。此外,在处理大规模,高维数据集时,其他方法则遭受高计算成本。通过标记数据的行业实践的激励,我们提出了一种基于创新的基于不一致的虚拟对抗性积极学习(理想)算法,以进一步研究SSL-AL的潜在优势,并实现Al和SSL的相互增强,即SSL,即SSL宣传标签信息,以使标签信息无标记的样本信息并为Al提供平滑的嵌入,而AL排除了具有不一致的预测和相当不确定性的样品。我们通过不同粒度的增强策略(包括细粒度的连续扰动探索和粗粒数据转换)来估计未标记的样品的不一致。在文本和图像域中,广泛的实验验证了所提出的算法的有效性,并将其与最先进的基线进行了比较。两项实际案例研究可视化应用和部署所提出的数据采样算法的实际工业价值。
translated by 谷歌翻译
培训RGB-D突出物体检测(SOD)的深层模型通常需要大量标记的RGB-D图像。然而,不容易获取RGB-D数据,这限制了RGB-D SOD技术的发展。为了减轻这个问题,我们介绍了双半RGB-D突出物体检测网络(DS-Net),以利用未标记的RGB图像来提高RGB-D显着性检测。我们首先设计了深度去耦卷积神经网络(DDCNN),其包含深度估计分支和显着性检测分支。深度估计分支用RGB-D图像训练,然后用于估计所有未标记的RGB图像的伪深度映射以形成配对数据。显着性检测分支用于熔断RGB特征和深度特征以预测RGB-D显着性。然后,整个DDCNN被分配为师生学生框架中的骨干,用于半监督学习。此外,我们还引入了对未标记数据的中间注意力和显着性图的一致性损失,以及标记数据的监督深度和显着性损失。七种广泛使用的基准数据集上的实验结果表明,我们的DDCNN定量和定性地优于最先进的方法。我们还证明,即使在使用具有伪深度图的RGB图像时,我们的半监控DS-Net也可以进一步提高性能。
translated by 谷歌翻译
当代视觉标题模型通常是幻觉的对象,其实际上并不是一种场景,因为目视错误分类或过度依赖导致视觉信息与目标词汇词之间的语义不一致。最常见的方式是鼓励标题模型将生成的对象字或短语动态链接到图像的适当区域,即接地图像标题(GIC)。然而,GIC利用辅助任务(接地对象),这些任务(接地对象)没有解决对象幻觉的关键问题,即语义不一致。在本文中,我们对上面的问题进行了一种小说 - 利用视觉和语言模式之间的语义一致性。具体而言,我们提出了与GIC的共识RRAPH表示学习框架(CGRL),其纳入接地标题管道的共识表示。通过将可视图(例如,场景图)对准到图表中的节点和边的语言图来学习共识。通过对齐的共识,标题模型可以捕获正确的语言特征和视觉相关性,然后进一步接地适当的图像区域。我们验证了我们模型的有效性,对象幻觉(-9%主席)在Flickr30k实体数据集中显着下降。此外,我们的CGR还通过多种自动度量和人体评估评估,结果表明,该方法可以同时提高图像标题(+2.9苹果酒)和接地的性能(+2.3 f1loc)。
translated by 谷歌翻译
接地视频描述(GVD)促使标题模型动态地参加适当的视频区域(例如,对象)并生成描述。这样的设置可以帮助解释标题模型的决策,并防止模型在其描述中幻觉的对象词。然而,这种设计主要侧重于对象词生成,因此可能忽略细粒度信息并遭受缺失的视觉概念。此外,关系词(例如,“左转或右”)是通常的时空推断结果,即,这些单词不能在某些空间区域接地。为了解决上述限制,我们设计了GVD的新型关系图学习框架,其中旨在探索细粒度的视觉概念。此外,精细图可以被视为关系归纳知识,以帮助标题模型选择所需的相关信息来生成正确的单词。我们通过自动指标和人类评估验证我们模型的有效性,结果表明,我们的方法可以产生更细粒度和准确的描述,并解决了物体幻觉的问题。
translated by 谷歌翻译
现有类增量学习(CIL)方法基于对数据标签敏感的监督分类框架。根据新类数据更新它们时,它们会遭受灾难性忘记:该模型无法清楚地从新的旧数据数据中清晰地辨别旧类数据。在本文中,我们第一次探讨了类增量学习(SSCIL)中自我监督表示学习的性能,丢弃了数据标签和模型的分类器。为了全面讨论CIL中监督和自我监督方法之间的性能差异,我们设置了三种不同的类增量方案:随机类方案,语义类方案和群集方案,以模拟各种类增量学习方案。此外,我们提出了线性评估协议(LEP)和泛化评估协议(GEP),以降低模型的代表性分类能力和CIL泛化。我们的实验(在ImageNet-100和Imagenet上)表明SSCIL具有比CIL中的监督策略更好的反忘记能力和鲁棒性。要了解什么,可以缓解SSCIL中的灾难性遗忘,我们研究SSCIL的主要组成部分并得出结论(1)不同数据增强的组成提高了模型的表示的质量,\ extent {GrayScale}操作会降低数据的系统噪声在SSCIL中增强。 (2)投影仪(如缓冲区)降低了SSCIL中模型的不必要参数更新,并增加了模型的稳健性。虽然SSCIL的性能明显高于CIL中的监督方法,但仍然有一个明显的差距,具有联合学习。我们的探索为大规模数据集提供了自我监督课程增量学习的基线,有助于减轻CIL灾难遗忘的一些前进策略。
translated by 谷歌翻译
在自我监督对比度学习范式下,小型模型表现得很差。现有方法通常采用大型现成模型,通过蒸馏将知识转移到小型。尽管有效率,但由于部署大型模型的巨大计算费用,蒸馏基方法可能不适合某些资源限制方案。在本文中,我们研究了没有蒸馏信号的自我监督小型模型的问题。我们首先评估小型模型的代表空间,并进行两个不可忽略的观察:(i)小型型号可以完成借口任务,而无需过度拟合,尽管它们有限,并且(ii)他们普遍遭受聚类问题的问题。然后我们验证了多个被认为减轻过分聚类现象的假设。最后,我们结合了验证的技术,提高了五种小型架构的基线性能,具有相当大的边缘,这表明即使没有蒸馏信号,培训小自我监督的对比模型也是可行的。该代码可在\ texit {https://github.com/wodeice/sl-small}中获得。
translated by 谷歌翻译
虽然灾难性遗忘的概念是直截了当的,但缺乏对其原因的研究。在本文中,我们系统地探索并揭示了课堂增量学习中灾难性遗忘的三个原因(CIL)。从代表学习的角度来看,(i)当学习者未能正确对准相同相位数据时,逐步忘记在训练所得和(ii)当学习者混淆当前相数据时发生相互相互混淆上一阶段。从特定于任务特定的角度来看,CIL模型遭受了(iii)分类器偏差的问题。在调查现有策略后,我们观察到缺乏关于如何防止相互局部混淆的研究。要启动对该具体问题的研究,我们提出了一种简单但有效的框架,CIL(C4IL)的对比阶级浓度。我们的框架利用了对比度学习的阶级集中效应,产生了具有更好的级别的紧凑性和阶级间可分离的表示分布。经验上,我们观察到C4IL显着降低了相互相连的概率,并且结果提高了多个数据集的多个CIL设置的性能。
translated by 谷歌翻译