Multimodal learning pipelines have benefited from the success of pretrained language models. However, this comes at the cost of increased model parameters. In this work, we propose Adapted Multimodal BERT (AMB), a BERT-based architecture for multimodal tasks that uses a combination of adapter modules and intermediate fusion layers. The adapter adjusts the pretrained language model for the task at hand, while the fusion layers perform task-specific, layer-wise fusion of audio-visual information with textual BERT representations. During the adaptation process the pre-trained language model parameters remain frozen, allowing for fast, parameter-efficient training. In our ablations we see that this approach leads to efficient models, that can outperform their fine-tuned counterparts and are robust to input noise. Our experiments on sentiment analysis with CMU-MOSEI show that AMB outperforms the current state-of-the-art across metrics, with 3.4% relative reduction in the resulting error and 2.1% relative improvement in 7-class classification accuracy.
translated by 谷歌翻译
识别和理解文本中的潜在情绪或情绪是多种自然语言处理应用程序的关键组成部分。虽然简单的极性情感分析是一个良好研究的主题,但在识别使用文本数据的更复杂,更精细的情绪方面取得了更少的进步。在本文中,我们介绍了一种基于变压器的模型,具有适配器层的融合,它利用更简单的情绪分析任务来改善大规模数据集(例如CMU-MOSEI)上的情绪检测任务,仅使用文本方式。结果表明,我们的建议方法与其他方法具有竞争力。即使使用仅使用文本方式,我们也能为CMU-MOSEI的情感识别获得最先进的结果。
translated by 谷歌翻译
Vision transformers (ViTs) have achieved impressive results on various computer vision tasks in the last several years. In this work, we study the capability of frozen ViTs, pretrained only on visual data, to generalize to audio-visual data without finetuning any of its original parameters. To do so, we propose a latent audio-visual hybrid (LAVISH) adapter that adapts pretrained ViTs to audio-visual tasks by injecting a small number of trainable parameters into every layer of a frozen ViT. To efficiently fuse visual and audio cues, our LAVISH adapter uses a small set of latent tokens, which form an attention bottleneck, thus, eliminating the quadratic cost of standard cross-attention. Compared to the existing modality-specific audio-visual methods, our approach achieves competitive or even better performance on various audio-visual tasks while using fewer tunable parameters and without relying on costly audio pretraining or external audio encoders. Our code is available at https://genjib.github.io/project_page/LAVISH/
translated by 谷歌翻译
微调下游任务的大型预训练语言模型已成为NLP中的事实上学习范式。然而,常规方法微调预先训练模型的所有参数,这变得越来越稳定,因为模型尺寸和增长的任务数量。最近的工作提出了各种参数有效的转移学习方法,只需微调少数(额外)参数以获得强大的性能。虽然有效,但各种方法中的成功和联系的关键成分尚不清楚。在本文中,我们分解了最先进的参数有效的传输学习方法的设计,并提出了一个在它们之间建立连接的统一框架。具体而言,我们将它们重新框架作为预先训练的模型对特定隐藏状态的修改,并定义了一组设计尺寸,不同的方法变化,例如计算修改的功能和应用修改的位置。通过跨机翻译的全面实证研究,文本摘要,语言理解和文本分类基准,我们利用统一的视图来确定以前的方法中的重要设计选择。此外,我们的统一框架使得能够在不同的方法中传输设计元素,因此我们能够实例化新的参数高效的微调方法,该方法比以前的方法更加有效,而是更有效,实现可比的结果在所有四个任务上调整所有参数。
translated by 谷歌翻译
最近,在大型文本语料库上预先培训的微调语言模型已经为Vision-and Langual(V&L)任务以及纯语言任务提供了巨大的改进。但是,微调预训练模型的整个参数集变得不切实际,因为模型大小正在快速增长。因此,在本文中,我们将基于适配器的参数高效转移学习技术引入VL-BART和VL-T5等V&L型号。我们在四个不同V&L任务的统一多任务设置中评估我们的方法:VQAV2,GQA,NLVR2和MSCOCO图像标题。通过仔细的培训和彻底的实验,我们将三种流行的基于适配器的方法(适配器,Hyperformer,Compacter)基准,抵御标准的全部微调和最近提出的及时调整方法。我们还通过分享其权重以获得跨任务的知识来增强适配器的效率和性能。我们的结果表明,使用权重共享技术(总参数的4.4%)培训适配器可以匹配微调整个模型的性能。最后,我们提出了一个全面的分析,包括适配器和任务特定提示的组合以及V&L对适配器进行培训的影响。我们的代码可用于:https://github.com/ylsung/vl_adapter。
translated by 谷歌翻译
利用在大规模图像文本对中预先训练的视觉和语言模型(VLM)成为开放式视觉识别的有希望的范式。在这项工作中,我们通过利用视频中自然存在的运动和音频来扩展这种范式。我们提出\ textbf {mov},这是\ textbf {m} ult-imodal \ textbf {o} pen- \ textbf {v} ocabulary视频分类的简单而有效的方法。在MOV中,我们直接使用具有最小修改的预训练VLM的视觉编码器来编码视频,光流和音频频谱图。我们设计一种跨模式融合机制来汇总免费的多模式信息。 Kinetics-700和VGGSOUND的实验表明,引入流量或音频模态会带来预先训练的VLM和现有方法的大量性能增长。具体而言,MOV极大地提高了基础类别的准确性,而在新颖的课程上则更好地概括了。 MOV在UCF和HMDB零摄像视频分类基准上实现了最新结果,从而极大地超过了基于VLMS的传统零摄像方法和最新方法。代码和模型将发布。
translated by 谷歌翻译
Fine-tuning large pre-trained models is an effective transfer mechanism in NLP. However, in the presence of many downstream tasks, fine-tuning is parameter inefficient: an entire new model is required for every task. As an alternative, we propose transfer with adapter modules. Adapter modules yield a compact and extensible model; they add only a few trainable parameters per task, and new tasks can be added without revisiting previous ones. The parameters of the original network remain fixed, yielding a high degree of parameter sharing. To demonstrate adapter's effectiveness, we transfer the recently proposed BERT Transformer model to 26 diverse text classification tasks, including the GLUE benchmark. Adapters attain near state-of-the-art performance, whilst adding only a few parameters per task. On GLUE, we attain within 0.4% of the performance of full fine-tuning, adding only 3.6% parameters per task. By contrast, fine-tuning trains 100% of the parameters per task.
translated by 谷歌翻译
在单独或多任务设置中评估了当前最新的视觉和语言模型,从而忽略了持续学习(CL)任务到达时的挑战。现有的CLENG分类促进了有关调整任务和减轻“灾难性遗忘”的研究,但仅限于仅视觉和仅语言的任务。我们提出了攀登,这是研究CL设置中学习多模式任务的挑战的基准,并系统地评估上游持续学习如何迅速概括为新的多模式和单峰任务。攀登包括几种CL算法的实现以及可以在多模式和单峰任务上部署的修改视觉语言变压器(VILT)模型。我们发现,常见的CL方法可以帮助减轻多模式任务学习期间的遗忘,但不要实现交叉任务知识转移。我们设想,攀登将有助于针对这种具有挑战性的多模式环境的新的CL算法进行研究。
translated by 谷歌翻译
视频问题回答(VideoQA)是一项复杂的任务,需要多种模式数据进行培训。但是,对视频的问题和答案的手动注释是乏味的,禁止可扩展性。为了解决这个问题,最近的方法考虑了零拍设置,而无需手动注释视觉问题。特别是,一种有前途的方法调整了在网络级文本数据中预测的冻结自回归语言模型,以适应多模式输入。相比之下,我们在这里建立在冷冻双向语言模型(BILM)的基础上,并表明这种方法为零拍出的VideoQA提供了更强大,更便宜的替代方案。特别是(i)我们使用轻型训练模块将视觉输入与冷冻的BILM结合在一起,(ii)我们使用Web-Scrafe Multi-Mododal数据训练此类模块,最后(iii)我们通过掩盖语言执行零声录像带推断建模,其中蒙版文本是给定问题的答案。我们提出的方法Frozenbilm在零摄影的视频中的表现优于最高的,包括LSMDC-FIB,包括LSMDC-FIB,IVQA,MSRVTT-QA,MSVD-QA,ActivityNet-QA,TGIF-FRAMEQA,TGIF-FRAMEQA,,TGIF-FRAMEQA,,TGIF-FRAMEQA,,,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,,均优于最新技术。 How2QA和TVQA。它还在几次且完全监督的环境中展示了竞争性能。我们的代码和模型将在https://antoyang.github.io/frozenbilm.html上公开提供。
translated by 谷歌翻译
尽管视听模型与仅限音频模型相比可以产生卓越的性能和鲁棒性,但由于缺乏标记和未标记的视听数据以及每种方式部署一个模型的成本,它们的开发和采用受到阻碍。在本文中,我们提出了U-Hubert,这是一个自制的预训练框架,可以通过统一的蒙版群集预测目标来利用多模式和单峰语音。通过在预训练期间利用模态辍学,我们证明了一个微调模型可以在PAR上取得比较的性能或比最先进的模态特异性模型更好。此外,我们仅在音频上进行微调的模型可以通过视听和视觉语音输入来表现良好,从而实现了零击的模态概括,以实现语音识别和扬声器验证。特别是,我们的单个模型在带有音频/视听/视觉输入的LRS3上产生1.2%/1.4%/27.2%的语音识别单词错误率。
translated by 谷歌翻译
多模式情感分析是一项重要的研究任务,可以根据特定意见视频的不同模式数据来预测情绪得分。以前的许多研究都证明了利用不同模式的共享和独特信息的重要性。但是,来自多模式数据的高阶组合信号也将有助于提取满足表示形式。在本文中,我们提出了CMGA,这是MSA的跨模式门控注意融合模型,倾向于在不同的模态对上进行足够的相互作用。CMGA还添加了一个忘记的门来过滤交互过程中引入的嘈杂和冗余信号。我们在MSA,MOSI和MOSEI的两个基准数据集上进行了实验,以说明CMGA在几种基线模型上的性能。我们还进行了消融研究,以证明CMGA内部不同组件的功能。
translated by 谷歌翻译
具有数百万参数的基于变压器的预训练模型需要大量存储。最近的方法通过培训适配器解决了这一缺点,但是这些方法仍然需要相对较大的参数。在这项研究中,提出了一种令人惊讶的简单但有效的适配器体系结构的Adapterbias。AdapterBias向变压器层的隐藏输出添加了代币依赖性转移,以适应仅使用向量和线性层的下游任务。进行了广泛的实验,以证明适配性的有效性。实验表明,与先前的作品相比,我们提出的方法可以大大减少可训练的参数,而任务性能与微调的预训练模型相比最小。我们进一步发现,适应性比亚斯自动学习以将更重要的表示形式分配给与任务相关的代币转移。
translated by 谷歌翻译
本文探讨了时间视频接地(TVG)的任务,在该任务中,给定未修剪的视频和查询句子,目标是在提供的自然语言查询描述的视频中识别和确定动作实例的时间界。最近的作品通过使用大型预训练的语言模型(PLM)直接编码查询来解决此任务。但是,很难隔离改进的语言表示的影响,因为这些作品还提出了视觉输入的改进。此外,这些PLM大大增加了训练TVG模型的计算成本。因此,本文研究了PLM在TVG任务中的影响,并根据适配器评估了NLP参数效率培训替代方案的适用性。我们将流行的PLM与选择现有方法和测试不同的适配器相结合,以减少其他参数的影响。我们在三个具有挑战性的数据集上的结果表明,当TVG模型对该任务进行微调时,可以从PLM中受益匪浅,并且适配器是完全微调的有效替代方法,即使它们并不适合我们的任务。具体而言,适配器有助于节省计算成本,从而使PLM集成在较大的TVG模型中,并提供与最先进模型相当的结果。最后,通过对TVG中不同类型的适配器进行基准测试,我们的结果阐明了哪种适配器最适合每个研究的情况。
translated by 谷歌翻译
动物的生物智能系统通过将信息与各种任务同时整合在不同的方式和处理中的信息。相比之下,当前的机器学习研究遵循一个特定于任务的范例,导致任务与开发新任务的感知模型的高度边际成本之间的负面合作。在本文中,我们展示了一个名为Uni-Perceiver的通用感知体系结构,其处理各种模型和任务,具有统一的建模和共享参数。具体而言,UNI-Perceiver将从任意模态的不同的任务输入和目标进行编码为具有模态 - 不可变换器编码器和轻量级模式特定标记的统一表示空间。不同的感知任务被建模为相同的配方,即通过其表示的相似性找到每个输入的最大可能性目标。该模型在多个单模和多模态任务上预先培训,并在各种下游任务上进行评估,包括在预训练阶段中未出现的新任务。结果表明,我们没有任何调整的预先训练的模型即使在新的任务上也可以实现合理的性能。通过在下游任务数据的1%上进行提示调整,可以将性能提高到接近最先进的方法的水平。全数据微调进一步提供结果与最先进的结果相提并论。代码应释放。
translated by 谷歌翻译
Conventional fine-tuning encounters increasing difficulties given the size of current Pre-trained Language Models, which makes parameter-efficient tuning become the focal point of frontier research. Previous methods in this field add tunable adapters into MHA or/and FFN of Transformer blocks to enable PLMs achieve transferability. However, as an important part of Transformer architecture, the power of layer normalization for parameter-efficent tuning is ignored. In this paper, we first propose LN-tuning, by tuning the gain and bias term of Layer Normalization module with only 0.03\% parameters, which is of high time-efficency and significantly superior to baselines which are less than 0.1\% tunable parameters. Further, we study the unified framework of combining LN-tuning with previous ones and we find that: (1) the unified framework of combining prefix-tuning, the adapter-based method working on MHA, and LN-tuning achieves SOTA performance. (2) unified framework which tunes MHA and LayerNorm simultaneously can get performance improvement but those which tune FFN and LayerNorm simultaneous will cause performance decrease. Ablation study validates LN-tuning is of no abundant parameters and gives a further understanding of it.
translated by 谷歌翻译
融合技术是多模式情绪分析中的关键研究主题。最近的关注的融合表明了基于简单的操作融合的进步。然而,这些融合作品采用单规模,即令牌级或话语水平,单峰代表。这种单尺度融合是次优,因为不同的模态应该以不同的粒度对齐。本文提出了名为Scalevlad的融合模型,从文本,视频和音频中收集多尺度表示,与本地聚合描述符的共享向量,以改善未对准的多模式情绪分析。这些共享向量可以被视为共享主题以对齐不同的模态。此外,我们提出了一种自我监督的移位聚类损失,以保持样本之间的融合特征差异化。底部是对应于三个模态的三个变压器编码器,并且从融合模块产生的聚合特征将馈送到变压器加上完成任务预测的完全连接。在三个流行的情感分析基准,IEMocap,MOSI和MOSEI的实验,证明了基准的显着收益。
translated by 谷歌翻译
最近出现了有希望的表现,利用大型预训练的模型来实现各种感兴趣的下游任务。由于模型的规模不断增长,因此,在模型培训和存储方面,基于标准的完整任务适应策略的成本高昂。这导致了参数有效传输学习的新研究方向。但是,现有的尝试通常集中在预训练模型的相同模式(例如图像理解)的下游任务上。这会产生限制,因为在某些特定的方式(例如,视频理解)中,具有足够知识的强大预训练模型较少或不可用。在这项工作中,我们研究了这样一种新型的跨模式转移学习设置,即参数有效的图像到视频传输学习。为了解决此问题,我们为每个视频任务提出了一个新的时空适配器(ST-ADAPTER),以进行参数有效调整。凭借紧凑设计中的内置时空推理能力,ST-ADAPTER可以实现预训练的图像模型,而无需时间知识,以小(〜8%)的每任务参数成本来理解动态视频内容,以大约需要与以前的工作相比,更新参数少20倍。在视频动作识别任务上进行的广泛实验表明,我们的ST-ADAPTER可以匹配甚至优于强大的完整微调策略和最先进的视频模型,同时享受参数效率的优势。
translated by 谷歌翻译
当前的Modus Operandi在改编预训练的模型中涉及更新所有骨干参数,即,完整的微调。本文介绍了视觉及时调整(VPT),作为视觉中大规模变压器模型的全面微调的有效替代方案。VPT从最近有效地调整大型语言模型的最新进展中汲取灵感,在输入空间中仅引入了少量的可训练参数(少于模型参数),同时保持模型骨架冻结。通过对各种下游识别任务的广泛实验,我们表明VPT与其他参数有效调整协议相比获得了显着的性能增长。最重要的是,在许多情况下,VPT甚至在模型能力和培训数据量表的许多情况下都胜过全面的微调,同时降低了每任务的存储成本。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
随着用户生成的在线视频的扩散,多模式情感分析(MSA)最近引起了越来越多的关注。尽管取得了重大进展,但在稳健的MSA方面仍然存在两个主要挑战:1)在未对准的多模式数据中对跨模式相互作用进行建模时效率低下; 2)通常在现实设置中出现的随机模态特征的脆弱性。在本文中,我们提出了一个通用和统一的框架来解决它们,以双级特征恢复(EMT-DLFR)为有效的多模式变压器。具体而言,EMT采用了从每种模式的语音级表示作为全球多模式上下文,以与局部单峰特征相互作用并相互促进。它不仅避免了以前本地局部跨模式相互作用方法的二次缩放成本,而且还可以提高性能。一方面,为了提高模型鲁棒性,DLFR执行低级功能重建,以隐式鼓励模型从不完整的数据中学习语义信息。另一方面,它是一种创新的,将完整的数据视为一个样本的两个不同视图,并利用暹罗代表学学习明确吸引其高级表示。在三个流行数据集上进行的全面实验表明,我们的方法在完整和不完整的模态设置中都能达到卓越的性能。
translated by 谷歌翻译