已知视觉问题答案(VQA)的任务受到VQA模型的问题的困扰,从而利用数据集中的偏见来做出最终预测。已经提出了许多先前基于合奏的偏数方法,其中有目的地训练了一个额外的模型以帮助训练强大的目标模型。但是,这些方法从训练数据的标签统计数据或直接从单局分支中计算出模型的偏差。相反,在这项工作中,为了更好地了解目标VQA模型的偏见,我们提出了一种生成方法来训练偏差模型\ emph {直接来自目标模型},称为GenB。特别是,GENB采用生成网络来通过对抗目标和知识蒸馏的结合来学习偏见。然后,我们将目标模型以GENB作为偏置模型为单位,并通过广泛的实验显示了我们方法对包括VQA CP2,VQA-CP1,VQA-CP1,GQA-OOD和VQA-CE在内的各种VQA偏置数据集的影响。
translated by 谷歌翻译
尽管视觉问题答案取得了长足的进步(VQA),但当前的VQA模型严重依赖问题类型及其相应的频繁答案(即语言先验)之间的表面相关性来做出预测,而无需真正理解输入。在这项工作中,我们用相同的问题类型定义了培训实例,但与\ textit {表面上相似的实例}定义了不同的答案,并将语言先验归因于VQA模型在此类情况下的混淆。为了解决这个问题,我们提出了一个新颖的培训框架,该培训框架明确鼓励VQA模型区分表面上相似的实例。具体而言,对于每个培训实例,我们首先构建一个包含其表面上相似的对应物的集合。然后,我们利用所提出的区分模块增加了答案空间中实例及其对应物之间的距离。这样,VQA模型被迫进一步关注问题类型的输入的其他部分,这有助于克服语言先验。实验结果表明,我们的方法在VQA-CP V2上实现了最新性能。代码可在\ href {https://github.com/wyk-nku/distinguishing-vqa.git} {sickithing-vqa}中获得。
translated by 谷歌翻译
神经网络通常使预测依赖于数据集的虚假相关性,而不是感兴趣的任务的内在特性,面对分布外(OOD)测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差,它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置,但在训练和测试数据来自相同分布时,它们会降低。在本文中,我们提出了一般的贪婪去偏见学习框架(GGD),它贪婪地训练偏置模型和基础模型,如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例,从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力,但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程,并将课程正规化为由课程学习启发的GGD,这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验,对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型,其中具有现有知识和自组合偏置模型而无需先验知识。
translated by 谷歌翻译
在现实世界中构建大规模标记的数据集,特别是对于高级任务(例如,视觉问题应答),可能是昂贵且耗时的。此外,随着越来越多的数据和架构复杂程度,积极学习已成为计算机视觉研究的一个重要方面。在这项工作中,我们在Visual问题的多模态设置(VQA)中解决了主动学习。鉴于多模态输入,图像和问题,我们提出了一种通过使用Ad Hoc单模分支来利用其信息来利用其信息来提出一种有效的样本采集的新方法。我们的互信息采集策略单模熵措施(SMEM)除了我们的自蒸馏技术之外,还可以利用所有现有方式,找到最具信息的样本。我们的新颖思想易于实施,成本效益,易于适应其他多模态任务。我们通过与现有的主动学习基线进行比较,通过最先进的性能确认我们的各种VQA数据集。
translated by 谷歌翻译
问题答案(QA)模型是众所周知的,用于利用数据偏差,例如在Visual QA之前的语言和阅读理解中的位置偏差。最近的脱叠方法实现了良好的分配(OOD)概括性,具有相当大的牺牲,对分销(ID)性能。因此,它们仅适用于预先已知测试分配的域。在本文中,我们提出了一种称为内省蒸馏的新型脱达方法(介绍),以充分为QA的世界。我们的主要技术贡献是通过省略培训样本是否适合事实ID世界或反事实_一种策略来融合OOD和ID的归纳偏差。在Visual QA Datasets VQA V2,VQA-CP和阅读理解数据集小队的实验表明,与其他脱叠方法相比,我们的提议介绍了竞争性的ood性能,同时与非脱叠相比牺牲很少甚至实现更好的ID性能。
translated by 谷歌翻译
使多模式数据中的每种模式贡献贡献至关重要,对于学习多功能多模式模型至关重要。但是,现有的方法通常在模型训练过程中由一种或几种模式主导,从而导致次优性能。在本文中,我们将此问题称为模态偏见,并试图在多模式分类的背景下进行系统,全面地进行研究。在进行了几个经验分析之后,我们认识到一种模式会影响模型预测,因为这种模式与实例标签具有虚假的相关性。为了主要促进对模式偏差问题的评估,我们分别构建了两个数据集,以根据分布式(OOD)协议一致的彩色数字识别和视频动作识别任务。在视觉问题回答任务中与基准合作,我们经验证明了这些OOD数据集中现有方法的性能退化是合理的,这是证明模式偏见学习合理的证据。此外,为了克服这个问题,我们提出了一种插件损失功能方法,从而根据训练集统计数据可以自适应地学习每个标签的特征空间。此后,我们将此方法应用于八个基准,以测试其有效性。从四个数据集的结果有关上述三个任务的结果,我们的方法与基准相比产生了显着的性能改进,这表明其在减少模态偏差问题上的优势。
translated by 谷歌翻译
最近的研究表明,许多发达的视觉问题的答案(VQA)模型受到先前问题的严重影响,这是指基于文本问题和答案之间的共同发生模式来提出预测而不是推理视觉内容。为了解决它,大多数现有方法都侧重于增强视觉特征学习,以减少对VQA模型决策的这种肤浅的快捷方式影响。然而,有限的努力已经致力于为其固有原因提供明确的解释。因此,缺乏以有目的的方式向前迈出前进的良好指导,导致模型构建困惑在克服这种非琐碎问题时。在本文中,我们建议从类 - 不平衡视图中解释VQA中的语言。具体地,我们设计了一种新颖的解释方案,从而在晚期训练阶段明显展出了误差频繁和稀疏答案的丢失。它明确揭示了为什么VQA模型倾向于产生频繁但是明显的错误答案,给出的给定问题,其正确答案在训练集中稀疏。基于此观察,我们进一步开发了一种新的损失重新缩放方法,以基于计算最终损失的训练数据统计来为每个答案分配不同权重。我们将我们的方法应用于三个基线,两个VQA-CP基准数据集的实验结果明显证明了其有效性。此外,我们还可以证明在其他计算机视觉任务上的类别不平衡解释方案的有效性,例如面部识别和图像分类。
translated by 谷歌翻译
视觉问题的视觉关注在视觉问题上应答(VQA)目标在定位有关答案预测的右图像区域,提供强大的技术来促进多模态理解。然而,最近的研究指出,来自视觉关注的突出显示的图像区域通常与给定的问题和答案无关,导致模型混淆正确的视觉推理。为了解决这个问题,现有方法主要是为了对准人类关注的视觉注意力。尽管如此,收集这种人类数据是费力且昂贵的,使其在数据集中调整良好开发的模型。为了解决这个问题,在本文中,我们设计了一种新的视觉关注正规化方法,即attreg,以便在VQA中更好地视觉接地。具体而言,attraT首先识别了由骨干模型出乎意料地忽略(即,分配低注意重量)的问题所必需的图像区域。然后,利用掩模引导的学习方案来规范视觉注意力,以便更多地关注这些忽略的关键区域。所提出的方法是非常灵活的,模型不可知,可以集成到基于大多数基于视觉关注的VQA模型中,并且不需要人类注意监督。已经进行了三个基准数据集,即VQA-CP V2,VQA-CP V1和VQA V2的广泛实验,以评估attreg的有效性。作为副产品,将Attreg纳入强基线LMH时,我们的方法可以实现新的最先进的准确性为60.00%,在VQA-CP V2基准数据集上绝对性能增益为7.01%。 。
translated by 谷歌翻译
数据增强(DA) - 在原始培训集中生成额外的培训样本 - 在当今无偏见的VQA模型中已广泛使用,以减轻语言偏见。当前的主流DA策略是基于合成的方法,它通过编辑某些视觉区域/单词或从头开始重新生成它们来合成新样本。但是,这些合成样品始终是不自然的和错误的。为了避免此问题,最近的DA工作通过随机配对原始图像和其他人为编写的问题来构成新的增强样品。不幸的是,为了确保增强样品具有合理的基础答案,他们手动为几种问题类型设计了一套启发式规则,这极大地限制了其概括能力。为此,我们提出了一种新的基于知识蒸馏的数据增强,以称为Kddaug。具体而言,我们首先放松合理图像问题对的要求,可以轻松地应用于任何问题类型。然后,我们设计了一个基于知识蒸馏(KD)的答案分配,以生成所有组成图像问题对的伪答案,这些答案对内域和分布外设置都很健壮。由于Kddaug是一种模型不合时宜的DA策略,因此可以将其无缝合并到任何VQA架构中。关于多个骨干和基准测试的大量消融研究证明了Kddaug的有效性和概括能力。
translated by 谷歌翻译
视觉问题应答(VQA)是一个具有挑战性的任务,在计算机视觉和自然语言处理领域中引起了越来越多的关注。然而,目前的视觉问题回答具有语言偏差问题,这减少了模型的稳健性,对视觉问题的实际应用产生了不利影响。在本文中,我们首次对该领域进行了全面的审查和分析,并根据三个类别对现有方法进行分类,包括增强视觉信息,弱化语言前瞻,数据增强和培训策略。与此同时,依次介绍相关的代表方法,依次汇总和分析。揭示和分类语言偏见的原因。其次,本文介绍了主要用于测试的数据集,并报告各种现有方法的实验结果。最后,我们讨论了该领域的可能的未来研究方向。
translated by 谷歌翻译
最近的几项研究指出,现有的视觉问题回答(VQA)模型严重遭受了先前的问题的困扰,这是指捕获问题类型和答案之间的表面统计相关性,而忽略了图像内容。通过创建精致的模型或引入额外的视觉注释,已经致力于加强图像依赖性。但是,这些方法无法充分探索视觉提示如何显式影响学习的答案表示,这对于减轻语言的依赖至关重要。此外,他们通常强调对学习的答案表示形式的班级歧视,这忽略了更精细的实例级别模式,并要求进一步优化。在本文中,我们从视觉扰动校准的角度提出了一种新颖的协作学习方案,该方案可以更好地研究细粒度的视觉效果,并通过学习实例级别的特征来减轻语言的先验问题。具体而言,我们设计了一个视觉控制器来构建具有不同扰动范围的两种策划图像,基于该图像的协作学习内置不变性和实体歧视的协作学习由两个精心设计的歧视者实现。此外,我们在潜在空间上实施信息瓶颈调制器,以进一步减轻偏见和表示校准。我们将视觉扰动感知框架强加于三个正统基准,并将实验结果对两个诊断性VQA-CP基准数据集进行了实验结果,显然表明了其有效性。此外,我们还证明了它在平衡的VQA基准上的鲁棒性是合理的。
translated by 谷歌翻译
Visual question answering (VQA) is challenging not only because the model has to handle multi-modal information, but also because it is just so hard to collect sufficient training examples -- there are too many questions one can ask about an image. As a result, a VQA model trained solely on human-annotated examples could easily over-fit specific question styles or image contents that are being asked, leaving the model largely ignorant about the sheer diversity of questions. Existing methods address this issue primarily by introducing an auxiliary task such as visual grounding, cycle consistency, or debiasing. In this paper, we take a drastically different approach. We found that many of the "unknowns" to the learned VQA model are indeed "known" in the dataset implicitly. For instance, questions asking about the same object in different images are likely paraphrases; the number of detected or annotated objects in an image already provides the answer to the "how many" question, even if the question has not been annotated for that image. Building upon these insights, we present a simple data augmentation pipeline SimpleAug to turn this "known" knowledge into training examples for VQA. We show that these augmented examples can notably improve the learned VQA models' performance, not only on the VQA-CP dataset with language prior shifts but also on the VQA v2 dataset without such shifts. Our method further opens up the door to leverage weakly-labeled or unlabeled images in a principled way to enhance VQA models. Our code and data are publicly available at https://github.com/heendung/simpleAUG.
translated by 谷歌翻译
我们介绍了视觉问题应答(VQA)的评估方法,以更好地诊断捷径学习案例。当模型利用虚假统计规则产生正确答案但实际上没有部署所需的行为时,会发生这些情况。需要在数据集中识别可能的快捷方式,并在部署现实世界中的模型之前评估它们的使用。 VQA的研究界专注于基于问题的快捷方式,其中模型可能是通过依赖于先前的问题条件培训并提供重量的问题条件培训来回答“天空的颜色”。视觉证据。我们进一步逐步,考虑涉及两个问题和图像的多模式捷径。我们首先通过挖掘琐碎的预测规则,例如诸如单词和视觉元素的共同发生的琐碎的预测规则来确定流行的VQA V2培训中的潜在捷径。然后,我们将介绍VQA-Consterexamples(VQA-CE),一个评估协议,基于我们的反例等的子集i.e.图像 - 问题答案三胞胎,我们的规则导致错误的答案。我们在大规模研究VQA现有方法中使用这一新评估。我们表明即使是最先进的模型也表现不佳,并且在这种情况下,降低偏差的现有技术在很大程度上无效。我们的研究结果表明,过去的vqa中的基于问题的偏差的工作仅签署了一个复杂问题的一个方面。我们方法的代码可在https://github.com/cdancette/detect-shortcut中获得。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以在没有直接监督或对困难的注释的情况下确定视觉问题回答(VQA)的难度。先前的工作已经考虑了人类注释者的基础答案的多样性。相反,我们根据多个不同VQA模型的行为分析了视觉问题的难度。我们建议通过三个不同的模型获得预测的答案分布的熵值:一种基线方法,该方法将作为输入图像和问题采用,以及两个仅作为输入图像和仅提出问题的变体。我们使用简单的K-均值来聚集VQA V2验证集的视觉问题。然后,我们使用最先进的方法来确定每个集群的答案分布的准确性和熵。提出的方法的一个好处是,不需要对难度的注释,因为每个集群的准确性反映了属于它的视觉问题的难度。我们的方法可以识别出难以通过最新方法正确回答的困难视觉问题的集群。对VQA V2数据集的详细分析表明,1)所有方法在最困难的群集上表现出较差的性能(大约10 \%精度),2)随着群集难度的增加,不同方法预测的答案开始差异,3 )聚类熵的值与群集精度高度相关。我们表明,我们的方法具有能够在没有地面真相的情况下评估视觉问题的难度(\ ie,VQA V2的测试集),通过将它们分配给其中一个簇来评估视觉问题的难度。我们希望这可以刺激研究和新算法的新方向发展。
translated by 谷歌翻译
A number of studies have found that today's Visual Question Answering (VQA) models are heavily driven by superficial correlations in the training data and lack sufficient image grounding. To encourage development of models geared towards the latter, we propose a new setting for VQA where for every question type, train and test sets have different prior distributions of answers. Specifically, we present new splits of the VQA v1 and VQA v2 datasets, which we call Visual Question Answering under Changing Priors (VQA-CP v1 and VQA-CP v2 respectively). First, we evaluate several existing VQA models under this new setting and show that their performance degrades significantly compared to the original VQA setting. Second, we propose a novel Grounded Visual Question Answering model (GVQA) that contains inductive biases and restrictions in the architecture specifically designed to prevent the model from 'cheating' by primarily relying on priors in the training data. Specifically, GVQA explicitly disentangles the recognition of visual concepts present in the image from the identification of plausible answer space for a given question, enabling the model to more robustly generalize across different distributions of answers. GVQA is built off an existing VQA model -Stacked Attention Networks (SAN). Our experiments demonstrate that GVQA significantly outperforms SAN on both VQA-CP v1 and VQA-CP v2 datasets. Interestingly, it also outperforms more powerful VQA models such as Multimodal Compact Bilinear Pooling (MCB) in several cases. GVQA offers strengths complementary to SAN when trained and evaluated on the original VQA v1 and VQA v2 datasets. Finally, GVQA is more transparent and interpretable than existing VQA models.
translated by 谷歌翻译
许多过去的作品旨在通过监督特征重要性(通过模型解释技术估算)通过人类注释(例如重要图像区域的亮点)来改善模型中的视觉推理。但是,最近的工作表明,即使在随机的监督下,对视觉问题答案(VQA)任务的特征重要性(FI)监督的绩效收益也会持续下去,这表明这些方法不会有意义地将模型FI与人类FI保持一致。在本文中,我们表明模型FI监督可以有意义地提高VQA模型的准确性,并通过优化四个关键模型目标来提高几个正确的右季节(RRR)指标的性能:(1)给出的准确预测有限。但是足够的信息(足够); (2)没有重要信息(不确定性)的最大 - 凝集预测; (3)预测不重要的特征变化(不变性)的不变性; (4)模型FI解释与人类FI解释(合理性)之间的对齐。我们的最佳性能方法,视觉功能重要性监督(Visfis),就分布和分布的精度而言,在基准VQA数据集上优于基准VQA数据集的强大基准。尽管过去的工作表明,提高准确性的机制是通过改善解释的合理性,但我们表明这种关系取决于忠诚的解释(解释是否真的代表了模型的内部推理)。当解释是合理的和忠实的,而不是当它们是合理而不是忠实的时候,预测更为准确。最后,我们表明,令人惊讶的是,在控制模型的分布精度时,RRR指标不能预测分布模型的准确性,这使这些指标的价值质疑评估模型推理的价值。所有支持代码均可在https://github.com/zfying/disfis上获得
translated by 谷歌翻译
由于自然语言处理和基于计算机视觉模型的显着进步,视觉问题应答(VQA)系统变得越来越聪明,高级。然而,在处理相对复杂的问题时,它们仍然易于出错。因此,在采用结果之前了解VQA模型的行为非常重要。在本文中,我们通过生成反事实图像来引入VQA模型的可解释方法。具体地,所生成的图像应该具有对原始图像具有最小可能的改变,并引导VQA模型来提供不同的答案。此外,我们的方法确保生成的图像是逼真的。由于无法使用定量度量来评估模型的可解释性,因此我们进行了用户学习,以评估我们方法的不同方面。除了在单个图像上解释VQA模型的结果,所获得的结果和讨论还提供了对VQA模型的行为的广泛解释。
translated by 谷歌翻译
文本VQA旨在回答需要了解图像中文本提示的问题。尽管现有的文本VQA方法取得了长足的进步,但它们的性能仍遭受了人类标记的问题解答(QA)对不足。但是,我们观察到,通常在现有数据集中没有完全利用场景文本 - 每个图像中只有一小部分文本参与了带注释的QA活动。这导致大量有用的信息浪费。为了解决这种缺陷,我们开发了一种新方法来通过明确利用每个图像的场景上下文中可用的现有文本来生成高质量和多样化的质量质量对。具体而言,我们建议,TAG是一种文本感知的视觉问题 - 答案生成的结构,该结构学会使用多模式变压器来生成有意义且准确的QA样品。该体系结构通过将生成的QA对与初始培训数据相结合,从而利用了未充满激光的场景文本信息,并增强了文本VQA模型的场景理解。对两个众所周知的Text-VQA基准(TextVQA和ST-VQA)的广泛实验结果表明,我们提议的标签有效地扩大了训练数据,有助于提高文本VQA性能而无需额外的标签努力。此外,我们的模型优于预先通过大规模数据进行训练的最先进方法。代码将公开可用。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译