广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
零拍摄学习(ZSL)旨在将知识从看见课程转移到语义相关的看不见的看不见的类,这在训练期间不存在。 ZSL的有希望的策略是在语义侧信息中综合未经调节的视野类的视觉特征,并结合元学习,以消除模型对所看到的课程的固有偏差。虽然现有的元生成方法追求跨任务分布的共同模型,但我们的目标是构建适应任务特征的生成网络。为此,我们提出了一个属性调制的生成元模型,用于零射击学习(Amaz)。我们的模型包括属性感知调制网络,属性增强生成网络和属性加权分类器。给定看不见的类,调制网络通过应用特定任务的变换自适应地调制发电机,使得生成网络可以适应高度多样化的任务。加权分类器利用数据质量来增强培训过程,进一步提高模型性能。我们对四种广泛使用的基准测试的实证评估表明,Amaz优先效仿最先进的方法在ZSL和广义ZSL设置中,展示了我们方法的优越性。我们对零拍摄图像检索任务的实验表明了Amaz的合成描绘真实视觉特征的情况的能力。
translated by 谷歌翻译
Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-theart approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental resultsdemonstrate a significant boost in accuracy over the state of the art on five challenging datasets -CUB, FLO, SUN, AWA and ImageNet -in both the zero-shot learning and generalized zero-shot learning settings.
translated by 谷歌翻译
零拍学习方法依赖于固定的视觉和语义嵌入,从独立视觉和语言模型中提取,都是预先培训的其他大型任务。这是当前零拍摄学习框架的弱点,因为这种不相交的嵌入不能充分将可视化和文本信息与其共享语义内容充分相关联。因此,我们建议通过在代理任务上计算带有双流网络的联合图像和文本模型来学习语义接地和丰富的视觉信息。为了改善由属性提供的图像和文本表示之间的这种对齐,我们利用辅助标题提供接地的语义信息。我们的方法,在若干基准数据集中评估了零射击学习的关节嵌入,提高了标准(APY $ + 1.6 $ \%的现有最先进方法的性能($ + 2.6 \%$在FLO)上)和AWA $ 2 $ + 2.1 \%$ 2 $ 2 $ 2美元,幼崽+ 2.2 \%$ 2。幼崽)零射击识别。
translated by 谷歌翻译
零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
基于世代的方法已在零拍学习研究中吸引了大部分最近的关注。在本文中,我们试图解构生成器分类器框架以指导其改进和扩展。我们首先通过将发电机学习的实例级分布与高斯分布交替进行分析。然后,我们通过分解分类器梯度来揭示生成器在分类器训练中学习的类级分布和实例级分布的作用。我们最终以从生成器和分类器的解构(即(i)ZSL Generator的键是属性通用化的关键)来改进生成器分类器框架的指南; (ii)分类器学习强调伪伪样本对训练过程中可见类之间的决策界限的影响,并减少可见的未见偏见。我们根据准则提出了一种简单的方法。没有复杂的设计,该提出的方法在四个公共ZSL数据集上优于最新技术,这证明了拟议准则的有效性。在用属性到视觉中心单映射模型代替生成模型时,提出的方法仍然有效,证明其强大的可传递性。接受后,代码将在接受后公开。
translated by 谷歌翻译
广义零射门学习(GZSL)是有希望在许多实际场景前景具有挑战性的课题。使用门控机构,其判别从看出样品看不见的样品可以分解GZSL问题常规的零铅球学习(ZSL)问题和监督分类问题。然而,培养的栅极通常是由于具有挑战性在看不见的域中的数据缺乏。要解决这个问题,在本文中,我们提出了一种基于外的分布(OOD)分类器只使用看过样本训练分类看不见,看到域的边界。首先,我们学上的单位超球,其中的视觉特征和语义属性潜分布对准类明智地共享潜在空间。随后,我们发现边界和歧管每个类的中心。通过利用类中心和边界,看不见的样品可以从样品可见分开。在那之后,我们使用了两个专家来看到和看不见的样本分别进行分类。我们广泛验证我们的五个流行的基准数据集,包括AWA1,AWA2,CUB,FLO和SUN的做法。实验结果表明,我们对国家的最先进的方法,方法的优点。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
最近深入生成模型的进步概述了零拍学习(ZSL)领域的有希望的角度。大多数生成ZSL方法使用类别语义属性加上高斯噪声来生成可视化功能。在生成看不见的样本后,这家族方法有效地将ZSL问题转变为监督分类方案。但是,现有模型使用单个语义属性,其中包含类别的完整属性信息。生成的数据还携带完整的属性信息,但实际上,视觉样本通常具有有限的属性。因此,来自属性的生成数据可能具有不完整的语义。基于这一事实,我们提出了一种新颖的框架来通过综合各种功能来提升ZSL。此方法使用增强语义属性来培训生成模型,以便模拟视觉功能的真实分布。我们在四个基准数据集中评估提出的模型,观察到最先进的显着性能改善。
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
零拍学习(ZSL)旨在通过利用所见类和看不见的类之间共享的语义描述来识别看不见的类。当前的方法表明,通过将语义嵌入将视觉空间投射到视觉空间中是类原型,从而有效地学习视觉语义对齐是有效的。但是,这样的投影函数仅与可见的类有关。当应用于看不见的类时,原型通常由于域移位而次优。在本文中,我们建议通过称为LPL的占位符学习原型,以消除看到和看不见的阶级之间的域转移。具体来说,我们将看到的课程结合在一起,以使新课程成为视觉和语义空间中看不见的班级的占位符。占位持有人放置在看到的班级之间,鼓励人们高度分散所见类的原型。插入良好的看不见的空间也可以保留更多的空间。从经验上讲,分离良好的原型有助于抵消由域转移引起的视觉声音错位。此外,我们利用一种新颖的面向语义的微调来保证占位符的语义可靠性。在五个基准数据集上进行的广泛实验证明了LPL在最新方法上的显着性能提高。代码可在https://github.com/zaiquanyang/lpl上找到。
translated by 谷歌翻译
零击学习(ZSL)旨在识别培训集中没有样本的类。一种代表性的解决方案是直接学习将视觉特征与相应的类语义相关联的嵌入函数,以识别新类。许多方法扩展了这种解决方案,最近的方法特别热衷于从图像中提取丰富的特征,例如属性功能。这些属性特征通常在每个单独的图像中提取;但是,不强调跨图像的特征的共同特征。在本文中,我们提出了一个新的框架来通过明确学习原型超出图像来提高ZSL,并用图像中的属性级特征对其进行对比优化它们。除了新颖的体系结构外,还针对属性表示强调了两个元素:新的原型生成模块旨在从属性语义生成属性原型;引入了基于硬示例的对比优化方案,以增强嵌入空间中的属性级特征。我们探索了两个基于CNN的替代骨干,基于CNN的骨干,以在三个标准基准测试(Cub,Sun,Awa2)上构建我们的框架并进行实验。这些基准测试的结果表明,我们的方法通过相当大的利润来改善艺术的状态。我们的代码将在https://github.com/dyabel/coar-zsl.git上找到
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译
广义零射击学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类别的数据中识别源和目标类别。为了仅使用来自源类数据的数据训练,源和目标类之间的语义关系,我们解决了从信息理论观点的广告传输和语义关系的量化。为此,我们遵循原型模型,并将关注的变量格式化为概率向量。利用所提出的概率矢量表示,可以通过简单的封闭形式有效地评估诸如相互信息和熵的信息测量。我们讨论使用原型模型时常见的嵌入空间和距离功能的选择。然后我们提出了三个信息 - 理论丢失函数,用于确定性GZSL模型:桥接数据和目标类别的相互信息丢失;不确定性感知熵约束丢失,以防止使用后的数据学习嵌入目标类别时;在将语义表示映射到公共空间时,语义保留交叉熵损失以保留语义关系。仿真结果表明,作为确定性模型,我们所提出的方法获得了GZSL基准数据集的最新状态。我们通过基线模型 - 深度校准网络(DCN)实现了21%-64%的改进,并且首次证明了确定性模型可以执行和生成的模型。此外,我们提出的模型与生成模型兼容。仿真研究表明,通过与F-CLSWAN结合,与先进的生成模型相比,我们获得了可比的结果。
translated by 谷歌翻译
合成伪样品当前是解决广义零局学习(GZSL)问题的最有效方法。大多数模型都达到了竞争性能,但仍然遇到两个问题:(1)功能令人困惑,整体表示混淆了与任务相关和与任务无关的功能,并且现有模型以生成的方式将它们分解,但是它们是不合理的,无法合成可靠的可靠伪样品样本样品有限; (2)分布不确定性,当现有模型合成不确定分布的样本时,需要大量数据,这在有限的可见类样品中导致性能差。在本文中,我们提出了一个非生成模型,以在两个模块中相应地解决这些问题:(1)与任务相关的功能分离,将任务相关的功能从任务无关的功能中排除,通过对域的对抗性学习域对合理合成的适应性; (2)可控的伪样品合成,以合成具有某些特征的边缘伪钉和中心假样品,以产生更多的多样性和直观的传递。此外,为了描述在培训过程中看到的限制类样本的新场景,我们进一步制定了一个新的ZSL任务,名为“几乎看不见的类别和零射门的唯一类别学习”(FSZU)(FSZU)。对四个基准测试的广泛实验验证了所提出的方法在GZSL和FSZU任务中具有竞争力。
translated by 谷歌翻译
零拍分类问题的大多数现有算法通常依赖于类别之间基于属性的语义关系,以实现新型类别的分类而不观察其任何实例。但是,训练零拍分类模型仍然需要训练数据集中的每个类(甚至是实例)的属性标记,这也是昂贵的。为此,在本文中,我们提出了一个新的问题场景:“我们是否能够为新颖的属性探测器/分类器获得零射击学习,并使用它们自动注释数据集以进行标记效率?”基本上,仅给予一小组探测器,这些探测器都学会了识别一些手动注释的属性(即,所见属性),我们的目标是以零射学学习方式综合新颖属性的探测器。我们所提出的方法,零拍摄的属性(ZSLA),这是我们最好的知识中的第一个,通过应用SET操作首先将所看到的属性分解为基本属性,然后重新组合地解决这一新的研究问题。这些基本属性进入了新颖的属性。进行广泛的实验以验证我们合成探测器的能力,以便准确地捕获新颖性的语义,并与其他基线方法相比,在检测和定位方面表现出优越的性能。此外,在CALTECH-UCSD鸟类-200-2011 DataSet上使用仅32个属性,我们所提出的方法能够合成其他207个新颖的属性,而在由我们合成重新注释的数据集上培训的各种广义零拍分类算法属性探测器能够提供可比性的性能与手动地理注释有关的那些。
translated by 谷歌翻译