在许多现实世界的医学图像分类设置中,我们无法访问所有可能的疾病类别的样本,而强大的系统有望在识别新型测试数据方面具有高性能。我们提出了一种通用的零射击学习(GZSL)方法,该方法使用自我监督学习(SSL)用于:1)选择不同疾病类别的锚定向量;2)训练功能生成器。我们的方法不需要类属性向量,这些向量可用于自然图像,但不适合医学图像。SSL确保锚向量代表每个类别。SSL还用于生成看不见类的合成特征。使用更简单的架构,我们的方法与基于SSL的最先进的GZSL方法匹配自然图像,并优于医学图像的所有方法。我们的方法足够适应于自然图像时可容纳类属性向量。
translated by 谷歌翻译
组织病理学图像的Glason分级对于准确的前列腺癌(PCA)诊断至关重要。由于在侵入式组织切除后获得了这种图像,因此在现有范式下挑战。我们提出了一种方法来预测来自磁共振(MR)图像的肠胃胺等级,这些图像是非介入和容易获得的。我们在广义零射击学习(GZSL)设置中解决了问题,因为我们可能无法访问每种疾病等级的培训图像。通过条件变分性Autiachoder(CVAE)利用Greneason等级的订购性质来生成看不见等级(类)的合成MRI特征向量通过包含自我监督学习的条件变分性的自动化器来生成。使用循环GAN产生相应的组织病理学特征,并结合MR特征来预测GREASES的测试图像等级。实验结果表明,我们的方法优于GZSL的竞争功能,并接近完全监督方法的性能。
translated by 谷歌翻译
Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-theart approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental resultsdemonstrate a significant boost in accuracy over the state of the art on five challenging datasets -CUB, FLO, SUN, AWA and ImageNet -in both the zero-shot learning and generalized zero-shot learning settings.
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
零拍摄学习(ZSL)旨在将知识从看见课程转移到语义相关的看不见的看不见的类,这在训练期间不存在。 ZSL的有希望的策略是在语义侧信息中综合未经调节的视野类的视觉特征,并结合元学习,以消除模型对所看到的课程的固有偏差。虽然现有的元生成方法追求跨任务分布的共同模型,但我们的目标是构建适应任务特征的生成网络。为此,我们提出了一个属性调制的生成元模型,用于零射击学习(Amaz)。我们的模型包括属性感知调制网络,属性增强生成网络和属性加权分类器。给定看不见的类,调制网络通过应用特定任务的变换自适应地调制发电机,使得生成网络可以适应高度多样化的任务。加权分类器利用数据质量来增强培训过程,进一步提高模型性能。我们对四种广泛使用的基准测试的实证评估表明,Amaz优先效仿最先进的方法在ZSL和广义ZSL设置中,展示了我们方法的优越性。我们对零拍摄图像检索任务的实验表明了Amaz的合成描绘真实视觉特征的情况的能力。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
最近深入生成模型的进步概述了零拍学习(ZSL)领域的有希望的角度。大多数生成ZSL方法使用类别语义属性加上高斯噪声来生成可视化功能。在生成看不见的样本后,这家族方法有效地将ZSL问题转变为监督分类方案。但是,现有模型使用单个语义属性,其中包含类别的完整属性信息。生成的数据还携带完整的属性信息,但实际上,视觉样本通常具有有限的属性。因此,来自属性的生成数据可能具有不完整的语义。基于这一事实,我们提出了一种新颖的框架来通过综合各种功能来提升ZSL。此方法使用增强语义属性来培训生成模型,以便模拟视觉功能的真实分布。我们在四个基准数据集中评估提出的模型,观察到最先进的显着性能改善。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or "views") of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a "swapped" prediction mechanism where we predict the code of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
translated by 谷歌翻译
广义零射击学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类别的数据中识别源和目标类别。为了仅使用来自源类数据的数据训练,源和目标类之间的语义关系,我们解决了从信息理论观点的广告传输和语义关系的量化。为此,我们遵循原型模型,并将关注的变量格式化为概率向量。利用所提出的概率矢量表示,可以通过简单的封闭形式有效地评估诸如相互信息和熵的信息测量。我们讨论使用原型模型时常见的嵌入空间和距离功能的选择。然后我们提出了三个信息 - 理论丢失函数,用于确定性GZSL模型:桥接数据和目标类别的相互信息丢失;不确定性感知熵约束丢失,以防止使用后的数据学习嵌入目标类别时;在将语义表示映射到公共空间时,语义保留交叉熵损失以保留语义关系。仿真结果表明,作为确定性模型,我们所提出的方法获得了GZSL基准数据集的最新状态。我们通过基线模型 - 深度校准网络(DCN)实现了21%-64%的改进,并且首次证明了确定性模型可以执行和生成的模型。此外,我们提出的模型与生成模型兼容。仿真研究表明,通过与F-CLSWAN结合,与先进的生成模型相比,我们获得了可比的结果。
translated by 谷歌翻译
与其2D图像对应物相比,3D点云数据上的零射击学习是一个相关的未置换问题。 3D数据由于不可用的预训练特征提取模型而带来了ZSL的新挑战。为了解决这个问题,我们提出了一种及时引导的3D场景生成和监督方法,该方法可以增强3D数据以更好地学习网络,从而探索可见和看不见的对象的复杂相互作用。首先,我们以提示描述的某些方式合并了两个3D模型的点云。提示的行为就像描述每个3D场景的注释一样。后来,我们进行对比学习,以端到端的方式培训我们所提出的建筑。我们认为,与单​​个对象相比,3D场景可以更有效地关联对象,因为当对象出现在上下文中时,流行的语言模型(如Bert)可以实现高性能。我们提出的及时引导场景生成方法封装了数据扩展和基于及时的注释/字幕,以提高3D ZSL性能。我们已经在合成(ModelNet40,ModelNet10)和实扫描(ScanoJbectnn)3D对象数据集上实现了最新的ZSL和广义ZSL性能。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译