零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-theart approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental resultsdemonstrate a significant boost in accuracy over the state of the art on five challenging datasets -CUB, FLO, SUN, AWA and ImageNet -in both the zero-shot learning and generalized zero-shot learning settings.
translated by 谷歌翻译
零拍摄学习(ZSL)旨在将知识从看见课程转移到语义相关的看不见的看不见的类,这在训练期间不存在。 ZSL的有希望的策略是在语义侧信息中综合未经调节的视野类的视觉特征,并结合元学习,以消除模型对所看到的课程的固有偏差。虽然现有的元生成方法追求跨任务分布的共同模型,但我们的目标是构建适应任务特征的生成网络。为此,我们提出了一个属性调制的生成元模型,用于零射击学习(Amaz)。我们的模型包括属性感知调制网络,属性增强生成网络和属性加权分类器。给定看不见的类,调制网络通过应用特定任务的变换自适应地调制发电机,使得生成网络可以适应高度多样化的任务。加权分类器利用数据质量来增强培训过程,进一步提高模型性能。我们对四种广泛使用的基准测试的实证评估表明,Amaz优先效仿最先进的方法在ZSL和广义ZSL设置中,展示了我们方法的优越性。我们对零拍摄图像检索任务的实验表明了Amaz的合成描绘真实视觉特征的情况的能力。
translated by 谷歌翻译
零拍学习(ZSL)旨在通过利用所见类和看不见的类之间共享的语义描述来识别看不见的类。当前的方法表明,通过将语义嵌入将视觉空间投射到视觉空间中是类原型,从而有效地学习视觉语义对齐是有效的。但是,这样的投影函数仅与可见的类有关。当应用于看不见的类时,原型通常由于域移位而次优。在本文中,我们建议通过称为LPL的占位符学习原型,以消除看到和看不见的阶级之间的域转移。具体来说,我们将看到的课程结合在一起,以使新课程成为视觉和语义空间中看不见的班级的占位符。占位持有人放置在看到的班级之间,鼓励人们高度分散所见类的原型。插入良好的看不见的空间也可以保留更多的空间。从经验上讲,分离良好的原型有助于抵消由域转移引起的视觉声音错位。此外,我们利用一种新颖的面向语义的微调来保证占位符的语义可靠性。在五个基准数据集上进行的广泛实验证明了LPL在最新方法上的显着性能提高。代码可在https://github.com/zaiquanyang/lpl上找到。
translated by 谷歌翻译
零拍学习方法依赖于固定的视觉和语义嵌入,从独立视觉和语言模型中提取,都是预先培训的其他大型任务。这是当前零拍摄学习框架的弱点,因为这种不相交的嵌入不能充分将可视化和文本信息与其共享语义内容充分相关联。因此,我们建议通过在代理任务上计算带有双流网络的联合图像和文本模型来学习语义接地和丰富的视觉信息。为了改善由属性提供的图像和文本表示之间的这种对齐,我们利用辅助标题提供接地的语义信息。我们的方法,在若干基准数据集中评估了零射击学习的关节嵌入,提高了标准(APY $ + 1.6 $ \%的现有最先进方法的性能($ + 2.6 \%$在FLO)上)和AWA $ 2 $ + 2.1 \%$ 2 $ 2 $ 2美元,幼崽+ 2.2 \%$ 2。幼崽)零射击识别。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
最近深入生成模型的进步概述了零拍学习(ZSL)领域的有希望的角度。大多数生成ZSL方法使用类别语义属性加上高斯噪声来生成可视化功能。在生成看不见的样本后,这家族方法有效地将ZSL问题转变为监督分类方案。但是,现有模型使用单个语义属性,其中包含类别的完整属性信息。生成的数据还携带完整的属性信息,但实际上,视觉样本通常具有有限的属性。因此,来自属性的生成数据可能具有不完整的语义。基于这一事实,我们提出了一种新颖的框架来通过综合各种功能来提升ZSL。此方法使用增强语义属性来培训生成模型,以便模拟视觉功能的真实分布。我们在四个基准数据集中评估提出的模型,观察到最先进的显着性能改善。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
在许多现实世界的医学图像分类设置中,我们无法访问所有可能的疾病类别的样本,而强大的系统有望在识别新型测试数据方面具有高性能。我们提出了一种通用的零射击学习(GZSL)方法,该方法使用自我监督学习(SSL)用于:1)选择不同疾病类别的锚定向量;2)训练功能生成器。我们的方法不需要类属性向量,这些向量可用于自然图像,但不适合医学图像。SSL确保锚向量代表每个类别。SSL还用于生成看不见类的合成特征。使用更简单的架构,我们的方法与基于SSL的最先进的GZSL方法匹配自然图像,并优于医学图像的所有方法。我们的方法足够适应于自然图像时可容纳类属性向量。
translated by 谷歌翻译
专注于歧视性零射击学习,在这项工作中,我们介绍了一种新的机制,在培训一组课程期间动态增强以产生额外的虚构课程。这些虚构的类在培训集中出现的属性相关性期间对模型进行固定的模型的趋势减少,但不会出现在新公开的课程中。所提出的模型在零射击学习框架的两种配方中进行测试;即,广义零射击学习(GZSL)和古典零射击学习(CZSL)。我们的模型可以提高CUB数据集的最先进的性能,并在其他常见数据集,AWA2和Sun上达到可比结果。我们调查我们方法的优点和弱点,包括在训练端到端零拍模型时灾难性忘记的影响。
translated by 谷歌翻译
广义零射击学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类别的数据中识别源和目标类别。为了仅使用来自源类数据的数据训练,源和目标类之间的语义关系,我们解决了从信息理论观点的广告传输和语义关系的量化。为此,我们遵循原型模型,并将关注的变量格式化为概率向量。利用所提出的概率矢量表示,可以通过简单的封闭形式有效地评估诸如相互信息和熵的信息测量。我们讨论使用原型模型时常见的嵌入空间和距离功能的选择。然后我们提出了三个信息 - 理论丢失函数,用于确定性GZSL模型:桥接数据和目标类别的相互信息丢失;不确定性感知熵约束丢失,以防止使用后的数据学习嵌入目标类别时;在将语义表示映射到公共空间时,语义保留交叉熵损失以保留语义关系。仿真结果表明,作为确定性模型,我们所提出的方法获得了GZSL基准数据集的最新状态。我们通过基线模型 - 深度校准网络(DCN)实现了21%-64%的改进,并且首次证明了确定性模型可以执行和生成的模型。此外,我们提出的模型与生成模型兼容。仿真研究表明,通过与F-CLSWAN结合,与先进的生成模型相比,我们获得了可比的结果。
translated by 谷歌翻译
在过去的几年里,几年枪支学习(FSL)引起了极大的关注,以最大限度地减少标有标记的训练示例的依赖。FSL中固有的困难是处理每个课程的培训样本太少的含糊不清的歧义。为了在FSL中解决这一基本挑战,我们的目标是培训可以利用关于新颖类别的先前语义知识来引导分类器合成过程的元学习模型。特别是,我们提出了语义调节的特征注意力和样本注意机制,估计表示尺寸和培训实例的重要性。我们还研究了FSL的样本噪声问题,以便在更现实和不完美的环境中利用Meta-Meverys。我们的实验结果展示了所提出的语义FSL模型的有效性,而没有样品噪声。
translated by 谷歌翻译
合成伪样品当前是解决广义零局学习(GZSL)问题的最有效方法。大多数模型都达到了竞争性能,但仍然遇到两个问题:(1)功能令人困惑,整体表示混淆了与任务相关和与任务无关的功能,并且现有模型以生成的方式将它们分解,但是它们是不合理的,无法合成可靠的可靠伪样品样本样品有限; (2)分布不确定性,当现有模型合成不确定分布的样本时,需要大量数据,这在有限的可见类样品中导致性能差。在本文中,我们提出了一个非生成模型,以在两个模块中相应地解决这些问题:(1)与任务相关的功能分离,将任务相关的功能从任务无关的功能中排除,通过对域的对抗性学习域对合理合成的适应性; (2)可控的伪样品合成,以合成具有某些特征的边缘伪钉和中心假样品,以产生更多的多样性和直观的传递。此外,为了描述在培训过程中看到的限制类样本的新场景,我们进一步制定了一个新的ZSL任务,名为“几乎看不见的类别和零射门的唯一类别学习”(FSZU)(FSZU)。对四个基准测试的广泛实验验证了所提出的方法在GZSL和FSZU任务中具有竞争力。
translated by 谷歌翻译
Despite significant progress in object categorization, in recent years, a number of important challenges remain; mainly, the ability to learn from limited labeled data and to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot, generalized zero-shot and open set recognition using a unified framework. Specifically, we propose a weighted maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms. Distance constraints ensure that labeled samples are projected closer to their correct prototypes, in the embedding space, than to others. We illustrate that resulting model shows improvements in supervised, zero-shot, generalized zero-shot, and large open set recognition, with up to 310K class vocabulary on Animal with Attributes and ImageNet datasets.
translated by 谷歌翻译
很少拍摄的学习解决了学习如何解决不仅仅是有限的监督而且有限的数据的挑战。有吸引力的解决方案是合成数据生成。然而,大多数此类方法过于复杂,专注于输入空间中的高质量现实数据。目前尚不清楚是否将它们适应少次拍摄的制度并使用它们在分类的下游任务中是正确的方法。以前关于综合数据生成的工作,用于几次分类专注于利用复杂模型,例如,具有多个常规方或网络的Wasserstein GaN,可从新颖的课程中传输潜在的分集。我们遵循不同的方法,并调查如何有效地使用简单和简单的合成数据生成方法。我们提出了两个贡献,即我们表明:(1)使用简单的损失函数足以训练几次拍摄设置中的一个特征生成器; (2)学习生成张量特征而不是矢量特征是优越的。在MiniimAgenet,Cub和CiFar-FS数据集上的广泛实验表明,我们的方法设置了新的最新状态,优于更复杂的少量数据增强方法。源代码可以在https://github.com/michalislazarou/tfh_fewshot找到。
translated by 谷歌翻译
零击学习(ZSL)旨在识别培训集中没有样本的类。一种代表性的解决方案是直接学习将视觉特征与相应的类语义相关联的嵌入函数,以识别新类。许多方法扩展了这种解决方案,最近的方法特别热衷于从图像中提取丰富的特征,例如属性功能。这些属性特征通常在每个单独的图像中提取;但是,不强调跨图像的特征的共同特征。在本文中,我们提出了一个新的框架来通过明确学习原型超出图像来提高ZSL,并用图像中的属性级特征对其进行对比优化它们。除了新颖的体系结构外,还针对属性表示强调了两个元素:新的原型生成模块旨在从属性语义生成属性原型;引入了基于硬示例的对比优化方案,以增强嵌入空间中的属性级特征。我们探索了两个基于CNN的替代骨干,基于CNN的骨干,以在三个标准基准测试(Cub,Sun,Awa2)上构建我们的框架并进行实验。这些基准测试的结果表明,我们的方法通过相当大的利润来改善艺术的状态。我们的代码将在https://github.com/dyabel/coar-zsl.git上找到
translated by 谷歌翻译
零拍分类问题的大多数现有算法通常依赖于类别之间基于属性的语义关系,以实现新型类别的分类而不观察其任何实例。但是,训练零拍分类模型仍然需要训练数据集中的每个类(甚至是实例)的属性标记,这也是昂贵的。为此,在本文中,我们提出了一个新的问题场景:“我们是否能够为新颖的属性探测器/分类器获得零射击学习,并使用它们自动注释数据集以进行标记效率?”基本上,仅给予一小组探测器,这些探测器都学会了识别一些手动注释的属性(即,所见属性),我们的目标是以零射学学习方式综合新颖属性的探测器。我们所提出的方法,零拍摄的属性(ZSLA),这是我们最好的知识中的第一个,通过应用SET操作首先将所看到的属性分解为基本属性,然后重新组合地解决这一新的研究问题。这些基本属性进入了新颖的属性。进行广泛的实验以验证我们合成探测器的能力,以便准确地捕获新颖性的语义,并与其他基线方法相比,在检测和定位方面表现出优越的性能。此外,在CALTECH-UCSD鸟类-200-2011 DataSet上使用仅32个属性,我们所提出的方法能够合成其他207个新颖的属性,而在由我们合成重新注释的数据集上培训的各种广义零拍分类算法属性探测器能够提供可比性的性能与手动地理注释有关的那些。
translated by 谷歌翻译