本文介绍了用于学习对象级别,语言感知和富含语义的视觉表示的接地语言图像预培训(GLIP)模型。 Glip统一对象检测和短语进行预培训。统一带来了两个好处:1)它允许GLIP从检测和接地数据中学习,以改善两个任务和引导良好的接地模型; 2)GLIP可以通过以自培训方式产生接地盒来利用大规模的图像文本对,使学习的表示是语义丰富的。在我们的实验中,我们在27M的接地数据上预先列车触胶,包括3M人的注释和24M Web爬网的图像文本对。学习的表示表明了强烈的零射击和对各种对象识别任务的可转换性。 1)直接在Coco和LVIS上评估(在训练期间没有在Coco中看到任何图像)时,Plip分别达到49.8 AP和26.9 AP,超过许多监督基线。 2)在COCO上微调后,GLIP在Val和61.5 AP上实现60.8 AP在测试开发上,超过先前的SOTA。 3)当转移到下游对象检测任务时,具有完全监控动态头的1次触发器竞争对手。代码将在https://github.com/microsoft/glip发布。
translated by 谷歌翻译
我们提出了Clip-Lite,一种通过与文本注释的特征对齐方式进行视觉表示学习的信息有效方法。与先前提出的剪辑模型相比,剪辑液在优化其对比学学习目标期间只需要一个负图像文本样本对。我们通过利用信息有效的较低限制来实现这一点,以最大化两个输入模态之间的相互信息。这允许剪辑Lite培训,在获得比夹子的更好的性能的同时具有显着减少的数据和批量尺寸。我们通过在Coco-Tablions数据集上预先绘制来评估剪贴画并对其他数据集进行测试传输。 Clip-Lite在Pascal VOC分类上获得+ 15.4%的映射绝对增益,并在ImageNet上获得A + 22.1%的前1个精度增益,同时与其他更复杂,文本监督模型相当或优越。 Clip-Lite还优于剪辑图像和文本检索,零拍分类和视觉接地。最后,通过在表示学习期间执行显式图像文本对齐,我们显示Clip-Lite可以利用语言语义来鼓励可以在下游任务中使用的无偏见的视觉表示。
translated by 谷歌翻译
最近的文本到图像匹配模型对大型图像和句子的大公司进行了对比学习。虽然这些模型可以提供用于匹配和随后的零拍任务的强大分数,但它们不能给出给定图像的标题。在这项工作中,我们重新利用这些模型来生成在推理时间的图像时生成描述性文本,而无需进一步的训练或调整步骤。这是通过将具有大语言模型的视觉语义模型组合,从两种网络级模型中的知识中获益。由受监督标题方法获得的标题的限制性较小。此外,作为零射击学习方法,它非常灵活,我们展示了执行图像算法的能力,其中输入可以是图像或文本,输出是句子。这使得新颖的高级视觉能力,例如比较两个图像或解决视觉类比测试。
translated by 谷歌翻译
我们提出Valse(视觉和语言结构化评估),这是一种新的基准,专为测试通用净化的视觉和语言(V&L)模型而设计,用于对特定语言现象的视野 - 语言接地能力。Valse提供涵盖各种语言构建体的六种测试套件。解决这些需要模型在视觉模型中地对语言现象,允许比迄今为止更细粒度的评估。我们使用支持有效箔的构造的方法构建Valse,并通过评估五种广泛使用的V&L模型的报告结果。我们的实验表明,目前的模型有很大的困难解决了大多数现象。因此,我们预计Valse就可以作为一种重要的基准,从语言角度来衡量预训过的V&L模型的未来进展,补充规范任务为中心的V&L评价。
translated by 谷歌翻译
使用图像文本对的对比语言图像预测(剪辑)在零拍摄和传输学习设置中的图像分类中取得了令人印象深刻的结果。但是,我们表明,直接应用此类模型以识别对象检测的图像区域导致由于域移位导致的性能差:剪辑训练以与文本描述的整体匹配,而不捕获图像之间的细粒度对齐地区和文本跨度。为了缓解此问题,我们提出了一种称为RegionClip的新方法,可显着扩展剪辑以学习区域级视觉表示,从而在图像区域和文本概念之间实现细粒度对齐。我们的方法利用剪辑模型将图像区域与模板标题匹配,然后预先列出我们的模型以对准要素空间中的这些区域文本对。将预磨料模型转移到开放词汇对象检测任务时,我们的方法显着优于3.8 AP50和2.2 AP的最新技术,分别用于COCO和LVIS数据集的新型类别。更多,学习区域表示支持对象检测的零拍摄推断,显示了对COCO和LVIS数据集的有希望的结果。我们的代码可在https://github.com/microsoft/regionclip上获得。
translated by 谷歌翻译
视频和语言预培训表明对各种下游任务有望改善。最先前的方法捕获与基于变换器的多模式编码器的跨模型交互,不完全解决单向视频和文本特征之间的错位。此外,学习细粒度的视觉语言对准通常需要离上的对象检测器来提供对象信息,这是由检测器有限的词汇和昂贵的计算成本的瓶颈。我们建议对齐和提示:一种高效有效的视频和语言预训练框架,具有更好的跨模型对齐。首先,我们介绍了一个视频文本对比(VTC)丢失,以对准实例级别的单峰视频文本功能,从而缓解跨模型交互的建模。然后,我们提出了一种新的视觉接地预训练任务,提示实体建模(PEM),旨在学习细粒度的区域实体对齐。为实现这一目标,我们首先介绍一个实体发射模块,该模块用VTC培训,以产生与实体名称实例化的视频裁剪和文本提示之间的相似性。 PEM任务然后询问模型以预测随机选择的视频作物的实体伪标签(I.E〜归一化相似度分数)。由此产生的预先训练的模型在文本 - 视频检索和VideoQ上实现了最先进的性能,通过大幅度的边距表现优于现有的工作。我们的代码和预先训练的型号将被释放。
translated by 谷歌翻译
最近,对建立问题的兴趣越来越兴趣,其中跨多种模式(如文本和图像)的原因。但是,使用图像的QA通常仅限于从预定义的选项集中挑选答案。此外,在现实世界中的图像,特别是在新闻中,具有与文本共同参考的对象,其中来自两个模态的互补信息。在本文中,我们提出了一种新的QA评估基准,并在新闻文章中提出了1,384个问题,这些文章需要跨媒体接地图像中的物体接地到文本上。具体地,该任务涉及需要推理图像标题对的多跳问题,以识别接地的视觉对象,然后从新闻正文文本中预测跨度以回答问题。此外,我们介绍了一种新颖的多媒体数据增强框架,基于跨媒体知识提取和合成问题答案生成,自动增强可以为此任务提供弱监管的数据。我们在我们的基准测试中评估了基于管道和基于端到端的预先预测的多媒体QA模型,并表明他们实现了有希望的性能,而在人类性能之后大幅滞后,因此留下了未来工作的大型空间,以便在这一具有挑战性的新任务上的工作。
translated by 谷歌翻译
作为人类,我们通过我们所有的感官来驾驭世界,使用每个人从每个人纠正其他人。我们介绍了Merlot Reserve,一个模型,该模型是联合随着时间的推移而表示视频的模型 - 通过从音频,字幕和视频帧学习的新培训目标。给出了一个视频,我们用掩模令牌替换文本和音频的片段;该模型通过选择正确的蒙版片段来学习。我们的目标比替代方面更快地学习,并在规模上表现良好:我们预先逼近2000万YouTube视频。经验结果表明,Merlot Reserve学会通过所有组成模式的视频的强烈陈述。在FineTuned时,它在VCR和TVQA上为VCR和TVQA进行了新的最先进,优先于前勤工作分别为5%和7%。消融表明,两个任务都受益于音频预制 - 甚至录像机,围绕图像中心的QA任务(没有声音)。此外,我们的客观使开箱即用的预测,揭示了强大的多式联合致辞理解。在一个完全零拍摄的环境中,我们的模型在四个视频理解任务中获得竞争结果,甚至优于最近提出的定位推理(星)基准的监督方法。我们分析为什么包含音频导致更好的视觉语言表示,这表明未来研究的重要机会。我们通过讨论多式联运预测的道德和社会影响来得出结论。
translated by 谷歌翻译
回答有关图像的复杂问题是机器智能的雄心勃勃的目标,这需要联合了解图像,文本和致料知识,以及强烈的推理能力。最近,多模式变压器通过联合了解视觉对象和文本令牌,通过跨模型关注的层次,通过跨模板的关注来实现了巨大的进展。然而,这些方法不利用现场的丰富结构和对象之间的相互作用,这在回答复杂的致辞问题方面至关重要。我们提出了一个场景图,增强了图像文本学习(SGEITL)框架,以在致辞中合并视觉场景图。为了利用场景图结构,在模型结构级别,我们提出了一个多彩色图形变压器,用于规范跳跃之间的注意力。至于预训练,提出了一种场景图感知的预训练方法,以利用在视觉场景图中提取的结构知识。此外,我们介绍一种以虚弱的方式使用文本注释训练和生成域相关视野图的方法。与最先进的方法相比,对VCR和其他任务的广泛实验表明了显着的性能提升,并证明了每个提出的组分的功效。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
视频标题旨在根据内容生成自然语言描述,其中表示学习起到至关重要的作用。现有方法主要通过对地理文本的生成标题的字词比较来在监督学习框架内开发,而不会完全利用语言语义。在这项工作中,我们提出了一个分层模块化网络,在生成字幕之前从三个级别桥接视频表示和语言语义。特别是,层次结构由以下组成:(i)实体级别,其突出显示最有可能在字幕中提及的对象。 (ii)谓词级别,它学习在突出显示的对象上调节的行动,并由标题中的谓词进行监督。 (iii)句子级别,了解全局语义表示,并受到整个标题的监督。每个级别由一个模块实现。广泛的实验结果表明,该方法对两个广泛使用的基准测试的最先进模型有利地表现出:MSVD 104.0%和苹果酒评分中的MSR-VTT 51.5%。
translated by 谷歌翻译
最先进的愿景和愿景和语言模型依靠大规模的Visio-linguisting预借鉴,以获得各种下游任务的良好性能。通常,这种模型通常是跨模态(对比)或多模态(具有早期融合)但不是两者;它们通常只针对特定的方式或任务。有希望的方向将是使用单一整体普遍模型,作为“基础”,目标是一次性的所有方式 - 真正的视觉和语言基础模型应该擅长视力任务,语言任务和交叉和多数模态视觉和语言任务。我们将Flava介绍在这样的模型中,并在跨越这些目标模式的广泛的35个任务上展示令人印象深刻的性能。
translated by 谷歌翻译
可以代表和描述环境声音的机器具有实际潜力,例如,用于音频标记和标题系统。普遍的学习范式已经依赖于并行音频文本数据,但是,Web上几乎没有可用。我们提出了vip-ant,它在不使用任何并行音频文本数据的情况下诱导\ textbf {a} udio- \ textBF {t} EXT对齐。我们的主要思想是在双模形图像文本表示和双模态图像 - 音频表示之间共享图像模型;图像模态用作枢轴,并将音频和文本连接在三模态嵌入空间中。在没有配对的音频文本数据的困难零拍设置中,我们的模型在ESC50和US8K音频分类任务上展示了最先进的零点性能,甚至超过了披肩标题的领域的监督状态检索(带音频查询)2.2 \%R @ 1。我们进一步调查了最小音频监控的情况,发现,例如,只有几百个监督的音频文本对将零拍音频分类精度提高8 \%US8K。然而,为了匹配人类奇偶校验,我们的经验缩放实验表明我们需要大约2米$ 2 ^ {21} \约2M $监督的音频标题对。我们的工作开辟了新的途径,用于学习音频文本连接,几乎没有并行音频文本数据。
translated by 谷歌翻译
最近,通过引入大规模的数据集和强大的变压器网络,视频预培训表明尤其是检索的巨大成功。然而,现有的视频语言变压器模型没有明确细粒度的语义对齐。在这项工作中,我们呈现了对象感知的变换器,以对象为中心的方法,该对象方法扩展了视频语言变压器来合并对象表示。关键的想法是利用边界框和对象标签来指导培训过程。我们在四个广泛使用的基准测试中评估了我们的三个标准子任务的模型。我们还提供了深入的分析和详细消融关于所提出的方法。我们在考虑的所有任务和数据集中表现出清晰的性能,展示将对象表示的模型中的型号集成到视频架构中。代码将以\ URL {https://github.com/fingerrec/oa -transformer}释放。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
预先培训用于学习可转让的视频文本表示的模型,以近年来引起了很多关注。以前的主导作品主要采用两个独立的编码器来有效检索,但忽略视频和文本之间的本地关联。另一种研究使用联合编码器与文本交互视频,但是由于每个文本视频对需要馈送到模型中的低效率。在这项工作中,我们能够通过新颖的借口任务进行微粒视频文本交互,以便通过新颖的借口任务进行检索,称为多项选择题(MCQ),其中参数模块BridgeFormer培训以接受由此构建的“问题”。文本功能通过诉诸视频功能。具体来说,我们利用了文本的丰富语义(即,名词和动词)来构建问题,可以培训视频编码器以捕获更多区域内容和时间动态。以问题和答案的形式,可以正确建立本地视频文本功能之间的语义关联。 BridgeFormer能够删除下游检索,只有两个编码器渲染高效且灵活的模型。我们的方法在具有不同实验设置(即零拍摄和微调)的五个数据集中,在五个数据集中优于最先进的方法,包括不同的实验设置(即零拍摄和微调),包括HOWTO100M(一百万个视频)。我们进一步开展零射击动作识别,可以作为视频到文本检索,我们的方法也显着超越了其对应物。作为额外的好处,我们的方法在单模下游任务中实现了竞争力,在单模下游任务上具有更短的预训练视频,例如,使用线性评估的动作识别。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
视觉语言预培训对从大规模Web数据学习联合视觉文本表示的巨大成功,展示了零拍广泛的显着能力。本文介绍了一种简单的方法,可以将一个预先训练的视觉语言模型有效地调整到具有最小培训的新型任务,以及这里,我们考虑视频了解任务。具体而言,我们建议优化几个随机向量,称为连续提示向量,将新颖任务转换为与预培训目标相同的格式。此外,为了弥合静态图像和视频之间的差距,用堆叠在框架明智的视觉特征之上的轻量压变压器编码时分信息。在实验上,我们进行广泛的消融研究,以分析关键组成部分和必需品。在9个公共基准的行动认可,行动本地化和文本 - 视频检索,跨封闭式,几次射击,开放式场景,我们为现有方法实现了竞争或最先进的性能,尽管培训显着更少的参数。
translated by 谷歌翻译
大规模预制速度迅速成为视觉语言(VL)建模中的规范。然而,普遍的VL方法受标记数据的要求和复杂的多步预介质目标的要求受限。我们呈现Magma - 使用基于适配器的FineTuning使用额外的方式增强生成语言模型的简单方法。在冻结的情况下,我们培训一系列VL模型,从视觉和文本输入的任意组合自动生成文本。使用单一语言建模目的,预先预测完全结束于结束,与先前的方法相比,简化优化。重要的是,在培训期间,语言模型权重保持不变,允许从语言预磨练转移百科全书知识和内心的学习能力。 Magma在开放式生成任务上冻结的岩浆,实现了最先进的状态,结果在Okvqa基准和竞争结果上的一系列其他流行的VL基准测试中,同时预先训练用于培训SIMVLM的样本数量的0.2%。
translated by 谷歌翻译
对于视频标题,“预培训和微调”已成为事实上的范式,其中想象成预训练(InP)通常用于帮助编码视频内容,并且从头开始进行任务导向的网络应对标题一代。将InP与最近提出的剪辑(对比语言图像预培训)进行比较,研究了INP的潜在缺陷,用于视频标题,并探索产生准确描述的关键。具体而言,我们对INP与剪辑的实证研究表明,INP使视频标题模型棘手捕获属性的语义和对无关背景信息的敏感。相比之下,剪辑在标题质量中的显着提升突出了属性感知表示学习的重要性。因此,我们被激励引入双属性预测,需要一个辅助任务,需要视频字幕模型来学习视频内容和属性之间的对应关系以及属性之间的共同发生关系。基准数据集的广泛实验表明,我们的方法能够更好地学习属性感知的表示,这对具有不同架构和解码算法的模型带来了一致的改进。
translated by 谷歌翻译