组成零射击学习(CZSL)旨在使用从训练集中的属性对象组成中学到的知识来识别新的构图。先前的作品主要将图像和组合物投影到共同的嵌入空间中,以衡量其兼容性得分。但是,属性和对象都共享上面学到的视觉表示,导致模型利用虚假的相关性和对可见对的偏见。取而代之的是,我们重新考虑CZSL作为分布的概括问题。如果将对象视为域,我们可以学习对象不变的功能,以识别任何对象附加的属性。同样,当识别具有属性为域的对象时,还可以学习属性不变的功能。具体而言,我们提出了一个不变的特征学习框架,以在表示和梯度级别上对齐不同的域,以捕获与任务相关的内在特征。对两个CZSL基准测试的实验表明,所提出的方法显着优于先前的最新方法。
translated by 谷歌翻译
广义的组成零射限学习意味着学习零射时的属性对象对的概念,其中模型在一组看到的概念上培训并在一组组合和看不见的概念上测试。此任务非常具有挑战性,因为不仅是所见和看不见的概念之间的差距,而且是属性和对象之间的上下文依赖性。本文介绍了一种新的方法,称为翻译概念嵌入,解决统一框架中的这两个困难。它模拟将属性应用于对象的效果,如将翻译属性要素添加到对象原型。通过生成有条件地依赖于对象原型的翻译属性功能,我们显式明确地考虑了属性和对象之间的上下文依赖性。此外,我们设计了一个比率方差约束损失,以促进模型对看不见的概念的泛化能力。它通过利用预训练字嵌入的知识来规范概念之间的距离。我们根据无偏见和偏见的概念分类任务评估我们模型的表现,并表明我们的模型能够在预测看不见和看到的概念方面实现良好的平衡。
translated by 谷歌翻译
我们解决了几次拍摄语义分割(FSS)的问题,该问题旨在通过一些带有一些注释的样本分段为目标图像中的新型类对象。尽管通过结合基于原型的公制学习来进行最近的进步,但由于其特征表示差,现有方法仍然显示出在极端内部对象变化和语义相似的类别对象下的有限性能。为了解决这个问题,我们提出了一种针对FSS任务定制的双重原型对比学习方法,以有效地捕获代表性的语义。主要思想是通过增加阶级距离来鼓励原型更差异,同时减少了原型特征空间中的课堂距离。为此,我们首先向类别特定的对比丢失丢失具有动态原型字典,该字典字典存储在训练期间的类感知原型,从而实现相同的类原型和不同的类原型是不同的。此外,我们通过压缩每集内语义类的特征分布来提高类别无话的对比损失,以提高未经看不见的类别的概念能力。我们表明,所提出的双重原型对比学习方法优于Pascal-5i和Coco-20i数据集的最先进的FSS方法。该代码可用于:https://github.com/kwonjunn01/dpcl1。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
零击学习(ZSL)旨在识别培训集中没有样本的类。一种代表性的解决方案是直接学习将视觉特征与相应的类语义相关联的嵌入函数,以识别新类。许多方法扩展了这种解决方案,最近的方法特别热衷于从图像中提取丰富的特征,例如属性功能。这些属性特征通常在每个单独的图像中提取;但是,不强调跨图像的特征的共同特征。在本文中,我们提出了一个新的框架来通过明确学习原型超出图像来提高ZSL,并用图像中的属性级特征对其进行对比优化它们。除了新颖的体系结构外,还针对属性表示强调了两个元素:新的原型生成模块旨在从属性语义生成属性原型;引入了基于硬示例的对比优化方案,以增强嵌入空间中的属性级特征。我们探索了两个基于CNN的替代骨干,基于CNN的骨干,以在三个标准基准测试(Cub,Sun,Awa2)上构建我们的框架并进行实验。这些基准测试的结果表明,我们的方法通过相当大的利润来改善艺术的状态。我们的代码将在https://github.com/dyabel/coar-zsl.git上找到
translated by 谷歌翻译
本文解决了新型类别发现(NCD)的问题,该问题旨在区分大规模图像集中的未知类别。 NCD任务由于与现实世界情景的亲密关系而具有挑战性,我们只遇到了一些部分类和图像。与NCD上的其他作品不同,我们利用原型强调类别歧视的重要性,并减轻缺少新颖阶级注释的问题。具体而言,我们提出了一种新型的适应性原型学习方法,该方法由两个主要阶段组成:原型表示学习和原型自我训练。在第一阶段,我们获得了一个可靠的特征提取器,该功能提取器可以为所有具有基础和新颖类别的图像提供。该功能提取器的实例和类别歧视能力通过自我监督的学习和适应性原型来提高。在第二阶段,我们再次利用原型来整理离线伪标签,并训练类别聚类的最终参数分类器。我们对四个基准数据集进行了广泛的实验,并证明了该方法具有最先进的性能的有效性和鲁棒性。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
零拍摄对象检测旨在结合类语义向量,以实现给定鉴定无约束测试图像的(两​​者)的检测。在这项研究中,我们揭示了本研究领域的核心挑战:如何合成那种塑造的强大区域特征(对于看不见的物体),作为类别的多样化和阶级作为真实样本,因此可以是强大的看不见的对象探测器训练在他们身上。为了解决这些挑战,我们构建了一种新颖的零射对对象检测框架,该框架包含类中的语义发散组件和帧间结构保存组件。前者用于实现一对一的映射,以获得来自每个类语义矢量的不同视觉功能,防止错误分类真正的未经证实的对象作为图像背景。虽然后者用于避免合成的特征太散,以混合阶级和前景背景关系。为了证明所提出的方法的有效性,对Pascal VOC,COCO和Dior数据集进行了综合实验。值得注意的是,我们的方法在Pascal VOC和Coco实现了新的最先进的性能,并且是第一次在遥感图像中进行零射对对象检测的研究。
translated by 谷歌翻译
零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
广义零射击学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类别的数据中识别源和目标类别。为了仅使用来自源类数据的数据训练,源和目标类之间的语义关系,我们解决了从信息理论观点的广告传输和语义关系的量化。为此,我们遵循原型模型,并将关注的变量格式化为概率向量。利用所提出的概率矢量表示,可以通过简单的封闭形式有效地评估诸如相互信息和熵的信息测量。我们讨论使用原型模型时常见的嵌入空间和距离功能的选择。然后我们提出了三个信息 - 理论丢失函数,用于确定性GZSL模型:桥接数据和目标类别的相互信息丢失;不确定性感知熵约束丢失,以防止使用后的数据学习嵌入目标类别时;在将语义表示映射到公共空间时,语义保留交叉熵损失以保留语义关系。仿真结果表明,作为确定性模型,我们所提出的方法获得了GZSL基准数据集的最新状态。我们通过基线模型 - 深度校准网络(DCN)实现了21%-64%的改进,并且首次证明了确定性模型可以执行和生成的模型。此外,我们提出的模型与生成模型兼容。仿真研究表明,通过与F-CLSWAN结合,与先进的生成模型相比,我们获得了可比的结果。
translated by 谷歌翻译
视频中的动作通常涉及人类与物体的相互作用。动作标签通常由动词和名词的各种组合组成,但我们可能没有所有可能组合的培训数据。在本文中,我们旨在通过利用知识图的力量来提高组成动作识别模型在训练时间期间看不见的新型动词或新名词的概括能力。先前的工作利用了知识图中的动词 - 单词组成动作节点,因此比效率低下,因为相对于动词和名词的数量,组成动作节点的数量在四倍上增长。为了解决这个问题,我们提出了我们的方法:通过知识掩盖(黑暗)的解开行动识别,它利用了动作的固有组成。黑暗训练一个分解模型,首先提取动词和名词的解开特征表示,然后使用外部知识图中的关系预测分类权重。动词和名词之间的类型约束是从外部知识库中提取的,并在组成动作时最终应用。黑暗的对象和动词数量具有更好的可伸缩性,并在Charades数据集中实现了最新性能。我们进一步根据Epic-Kitchen数据集提出了一个新的基准分配,该数据集的类别和样本数量更大,并且该基准测试了各种模型。
translated by 谷歌翻译
在元学习框架下设计了许多射门学习方法,这些方法从各种学习任务中学习并推广到新任务。这些元学习方法在从同一分布(I.I.D.观察)中绘制的所有样本中的情况下实现了预期的性能。然而,在现实世界应用中,很少拍摄的学习范式往往遭受数据转移,即,即使在相同的任务中,也可以从各种数据分布中汲取不同任务中的示例。大多数现有的几次拍摄方法不考虑数据班次,因此在数据分布换档时显示降级性能。然而,由于每个任务中的标记样本数量有限的标记样本,因此在几次拍摄学习中解决数据转换问题是不普遍的。针对解决此问题,我们提出了一种新的基于度量的元学习框架,以便在知识图表的帮助下提取任务特定的表示和任务共享表示。因此,任务内的数据偏移可以通过任务共享和特定于任务的表示的组合来组合。拟议的模型是对流行的基准测试和两个构造的新具有挑战性的数据集。评估结果表明了其显着性能。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在识别具有辅助语义信息的新类别,例如,类别属性。在本文中,我们通过逐步提高视觉表现的跨域可转换性和类别辨认性,处理域移位问题的临界问题,即观看和看不见的类别之间的困惑。我们命名为双渐进式原型网络(DPPN)的方法构造了两种类型的原型,分别为属性和类别记录原型视觉模式。使用属性原型,DPPN交替地搜索与属性相关的本地区域并更新相应的属性原型以逐步探索准确的属性区域对应。这使DPPN能够产生具有精确属性定位能力的可视表示,这有利于语义 - 视觉对齐和表示转换性。此外,除了渐进属性本地化之外,DPPN还将项目类别原型进一步投影到多个空间中,以逐步排斥来自不同类别的视觉表示,这提高了类别辨别性。属性和类别原型都在统一的框架中进行了协作学习,这使得DPPN可转移和独特的视觉表示。四个基准测试的实验证明,DPPN有效地减轻了GZSL中的域移位问题。
translated by 谷歌翻译
以前的人类解析模型仅限于将人类解析为预定义的类,这对于通常具有新时尚项目类的实用时尚应用是不灵活的。在本文中,我们定义了一个新颖的单次人类解析(OSHP)任务,该任务需要将人解析为任何测试示例定义的一组开放式类别。在培训期间,仅公开基础课程,这仅与一部分测试时间类别重叠。为了解决OSHP中的三个主要挑战,即小型,测试偏见和类似部分,我们设计了一个端到端的一击人类解析网络(EOP-NET)。首先,提出了一个端到端的人解析框架,以将查询图像解析为粗粒和细粒度的人类类别,该框架建立了一个强大的嵌入网络,具有在不同粒度上共享的丰富语义信息,从人类阶级。然后,我们通过逐步平滑训练时间静态原型来提出学习势头更新的原型,这有助于稳定训练并学习健壮的功能。此外,我们设计了一种双重度量学习方案,该方案鼓励网络增强特征的表示能力和可传递性。因此,我们的EOP-NET可以学习代表性功能,这些功能可以快速适应新颖的类并减轻测试偏置问题。此外,我们在原型水平上采用了对比损失,从而在细粒度度量空间中执行了类别之间的距离,以区分相似的部分。我们根据OSHP任务量身定制了三个现有的人类解析基准。新基准测试的实验表明,EOP-NET的表现优于大量边缘的代表性单次分割模型,这是进一步研究这项新任务的强大基线。源代码可从https://github.com/charleshhy/one-shot-human-parsing获得。
translated by 谷歌翻译
零击学习(ZSL)旨在预测看不见的课程,其样本在培训期间从未出现过,经常利用其他语义信息(又称侧信息)来桥接培训(见过)课程和看不见的课程。用于零拍图像分类的最有效且最广泛使用的语义信息之一是属性,是类级视觉特征的注释。但是,由于细粒度的注释短缺,属性不平衡和同时出现,当前方法通常无法区分图像之间的那些微妙的视觉区别,从而限制了它们的性能。在本文中,我们提出了一种名为Duet的基于变压器的端到端ZSL方法,该方法通过自我监督的多模式学习范式从审前的语言模型(PLM)中整合了潜在的语义知识。具体而言,我们(1)开发了一个跨模式的语义接地网络,以研究模型从图像中解开语义属性的能力,(2)应用了属性级的对比度学习策略,以进一步增强模型对细粒视觉特征的歧视反对属性的共同出现和不平衡,(3)提出了一个多任务学习策略,用于考虑多模型目标。通过对三个标准ZSL基准测试和配备ZSL基准的知识图进行广泛的实验,我们发现二重奏通常可以实现最新的性能,其组件是有效的,并且其预测是可以解释的。
translated by 谷歌翻译
零拍摄学习(ZSL)旨在将知识从看见课程转移到语义相关的看不见的看不见的类,这在训练期间不存在。 ZSL的有希望的策略是在语义侧信息中综合未经调节的视野类的视觉特征,并结合元学习,以消除模型对所看到的课程的固有偏差。虽然现有的元生成方法追求跨任务分布的共同模型,但我们的目标是构建适应任务特征的生成网络。为此,我们提出了一个属性调制的生成元模型,用于零射击学习(Amaz)。我们的模型包括属性感知调制网络,属性增强生成网络和属性加权分类器。给定看不见的类,调制网络通过应用特定任务的变换自适应地调制发电机,使得生成网络可以适应高度多样化的任务。加权分类器利用数据质量来增强培训过程,进一步提高模型性能。我们对四种广泛使用的基准测试的实证评估表明,Amaz优先效仿最先进的方法在ZSL和广义ZSL设置中,展示了我们方法的优越性。我们对零拍摄图像检索任务的实验表明了Amaz的合成描绘真实视觉特征的情况的能力。
translated by 谷歌翻译
零件代表不同对象的几何和语义相似性的基本单位。我们争辩说,部分知识应与观察到的对象课程中有款组合。对此,我们将3D组成零射击学习作为从看作识的零件泛化的问题,从而看成了语义分割。我们通过将任务与所提出的组成部分数据集进行基准测试,提供结构化研究。该数据集是通过处理原始PartNet来创建的,以最大化不同对象的部分重叠。现有点云部分段方法未能在此设置中概括到未遵守的对象类。作为解决方案,我们提出了分解共识,其将零件分割网络与部分评分网络相结合。我们方法的关键直觉是某些部件的分割掩码应该具有与其部分分数分开的零件分数的共识。在生成最合适的分割掩模之前在每个对象部分中定义的不同部分组合的两个网络原因。我们展示了我们的方法允许组成零射分段和广义零拍分类,并在两个任务中建立最先进的状态。
translated by 谷歌翻译