现实世界中的数据通常遵循长尾巴的分布,其中一些多数类别占据了大多数数据,而大多数少数族裔类别都包含有限数量的样本。分类模型最小化跨凝结的努力来代表和分类尾部类别。尽管已经对学习无偏分类器的学习问题进行了充分的研究,但代表不平衡数据的方法却没有探索。在本文中,我们专注于表示不平衡数据的表示。最近,受到监督的对比学习最近在平衡数据上表现出了有希望的表现。但是,通过我们的理论分析,我们发现对于长尾数据,它未能形成常规的单纯形,这是代表学习的理想几何配置。为了纠正SCL的优化行为并进一步改善了长尾视觉识别的性能,我们提出了平衡对比度学习(BCL)的新型损失。与SCL相比,我们在BCL:类平均水平方面有两个改进,可以平衡负类的梯度贡献。课堂组合,允许所有类都出现在每个迷你批次中。提出的平衡对比度学习(BCL)方法满足形成常规单纯形的条件并有助于跨透明拷贝的优化。配备了BCL,提出的两分支框架可以获得更强的特征表示,并在诸如CIFAR-10-LT,CIFAR-100-LT,Imagenet-LT和Inaturalist2018之类的长尾基准数据集上实现竞争性能。我们的代码可在\ href {https://github.com/flamiezhu/bcl} {this url}中获得。
translated by 谷歌翻译
深度神经网络在严重的类不平衡数据集上的表现不佳。鉴于对比度学习的有希望的表现,我们提出了重新平衡的暹罗对比度采矿(RESCOM)来应对不平衡的识别。基于数学分析和仿真结果,我们声称监督的对比学习在原始批次和暹罗批次水平上都遭受双重失衡问题,这比长尾分类学习更为严重。在本文中,在原始批处理水平上,我们引入了级别平衡的监督对比损失,以分配不同类别的自适应权重。在暹罗批次级别,我们提出了一个级别平衡的队列,该队列维持所有类的键相同。此外,我们注意到,相对于对比度逻辑的不平衡对比损失梯度可以将其分解为阳性和负面因素,易于阳性和易于负面因素将使对比度梯度消失。我们建议有监督的正面和负面对挖掘,以获取信息对的对比度计算并改善表示形式学习。最后,为了大致最大程度地提高两种观点之间的相互信息,我们提出了暹罗平衡的软性软件,并与一阶段训练的对比损失结合。广泛的实验表明,在多个长尾识别基准上,RESCON优于先前的方法。我们的代码和模型可公开可用:https://github.com/dvlab-research/rescom。
translated by 谷歌翻译
在本文中,我们提出了广义参数对比度学习(GPACO/PACO),该学习在不平衡和平衡数据上都很好地工作。基于理论分析,我们观察到,受监督的对比损失倾向于偏向高频类别,从而增加了学习不平衡的学习难度。我们从优化的角度介绍了一组参数班的可学习中心,以重新平衡。此外,我们在平衡的环境下分析了GPACO/PACO损失。我们的分析表明,GPACO/PACO可以适应地增强同一等级样品的强度,因为将更多的样品与相应的中心一起拉在一起并有益于艰难的示例学习。长尾基准测试的实验表明了长尾识别的新最先进。在完整的Imagenet上,与MAE模型相比,从CNN到接受GPACO损失训练的视觉变压器的模型显示出更好的泛化性能和更强的鲁棒性。此外,GPACO可以应用于语义分割任务,并在4个最受欢迎的基准测试中观察到明显的改进。我们的代码可在https://github.com/dvlab-research/parametric-contrastive-learning上找到。
translated by 谷歌翻译
现实世界数据往往展现出长期分布,重量级别不平衡,其中大多数课程可以主导培训过程并改变少数阶层的决策边界。最近,研究人员调查了监督对长尾识别的对比学习的潜力,并证明它提供了强大的性能增益。在本文中,我们表明,虽然监督对比学习可以有助于提高性能,但过去的基线通过不平衡数据分布引入的均匀性差。这种差的均匀性在来自特征空间中具有差的少数阶级的样品中表现出来。为了解决这个问题,我们提出了有针对性的监督对比学习(TSC),从而提高了极度上的特征分布的均匀性。 TSC首先生成一组均匀分布在极度上的目标。然后,在训练期间使不同类别的特征会聚到这些不同的和均匀分布的目标。这迫使所有类别,包括少数群体类别,以维持特征空间中的统一分布,改善了类边界,即使在存在长尾数据的情况下也能提供更好的泛化。多个数据集的实验表明,TSC在长尾识别任务上实现了最先进的性能。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
长尾分布是现实世界中的常见现象。提取的大规模图像数据集不可避免地证明了长尾巴的属性和经过不平衡数据训练的模型可以为代表性过多的类别获得高性能,但为代表性不足的类别而苦苦挣扎,导致偏见的预测和绩效降低。为了应对这一挑战,我们提出了一种名为“逆图像频率”(IIF)的新型偏差方法。 IIF是卷积神经网络分类层中逻辑的乘法边缘调整转换。我们的方法比类似的作品实现了更强的性能,并且对于下游任务(例如长尾实例分割)特别有用,因为它会产生较少的假阳性检测。我们的广泛实验表明,IIF在许多长尾基准的基准(例如Imagenet-lt,cifar-lt,ploce-lt和lvis)上超过了最先进的现状,在Imagenet-lt上,Resnet50和26.2%达到了55.8%的TOP-1准确性LVIS上使用MaskRCNN分割AP。代码可在https://github.com/kostas1515/iif中找到
translated by 谷歌翻译
视觉识别任务中的长尾类分布对于如何处理头部和尾部类之间的偏置预测,即,模型倾向于将尾部类作为头部类进行分类。虽然现有的研究专注于数据重采采样和损失函数工程,但在本文中,我们采取了不同的视角:分类利润率。我们研究边距和注册之间的关系(分类得分)并经验遵守偏置边缘,并且偏置的Logits是正相关的。我们提出MARC,一个简单但有效的边缘校准函数,用于动态校准偏置边缘的偏置利润。我们通过对普通的长尾基准测试进行了广泛的实验,包括CIFAR-LT,Imagenet-LT,LT,以及不适物 - LT的广泛实验。实验结果表明,我们的MARC在这些基准上实现了有利的结果。此外,Marc只需三行代码即可实现。我们希望这种简单的方法能够激励人们重新思考偏置的边距和偏见的长尾视觉识别标识。
translated by 谷歌翻译
联合学习(FL),使不同的医疗机构或客户能够在没有数据隐私泄漏的情况下进行协作培训模型,最近在医学成像社区中引起了极大的关注。尽管已经对客户间数据异质性进行了彻底的研究,但由于存在罕见疾病,阶级失衡问题仍然不足。在本文中,我们提出了一个新型的FL框架,用于医学图像分类,尤其是在处理罕见疾病的数据异质性方面。在Fedrare中,每个客户在本地训练一个模型,以通过客户内部监督对比度学习提取高度分离的潜在特征,以进行分类。考虑到有限的稀有疾病数据,我们建立了积极的样本队列以进行增强(即数据重采样)。 Fedrare中的服务器将从客户端收集潜在功能,并自动选择最可靠的潜在功能作为发送给客户的指南。然后,每个客户都会通过局部间的对比损失共同训练,以使其潜在特征与完整课程的联合潜在特征保持一致。通过这种方式,跨客户的参数/特征差异有效地最小化,从而可以更好地收敛和性能改进。关于皮肤病变诊断的公共可用数据集的实验结果表明,Fedrare的表现出色。在四个客户没有罕见病样本的10客户联合环境下,Fedrare的平均水平准确度平均增长了9.60%和5.90%,与FedAvg和FedAvg的基线框架和FedArt方法分别相比。考虑到在临床情况下存在罕见疾病的董事会,我们认为Fedrare将使未来的FL框架设计受益于医学图像分类。本文的源代码可在https://github.com/wnn2000/fedrare上公开获得。
translated by 谷歌翻译
自我监督的学习在表示视觉和文本数据的表示方面取得了巨大的成功。但是,当前的方法主要在经过良好策划的数据集中验证,这些数据集未显示现实世界的长尾分布。在损失的角度或模型观点中,重新平衡的重新平衡是为了考虑自我监督的长尾学习的最新尝试,类似于被监督的长尾学习中的范式。然而,没有标签的帮助,由于尾巴样品发现或启发式结构设计的限制,这些探索并未显示出预期的明显希望。与以前的作品不同,我们从替代角度(即数据角度)探索了这个方向,并提出了一种新颖的增强对比度学习(BCL)方法。具体而言,BCL利用深神经网络的记忆效果自动推动对比度学习中样本视图的信息差异,这更有效地增强了标签 - unaware环境中的长尾学习。对一系列基准数据集进行的广泛实验证明了BCL对几种最新方法的有效性。我们的代码可在https://github.com/mediabrain-sjtu/bcl上找到。
translated by 谷歌翻译
Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the Ima-geNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions, and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement and reference TensorFlow code is released at https://t.ly/supcon 1 .
translated by 谷歌翻译
现有的深度聚类方法依赖于对比学习的对比学习,这需要否定例子来形成嵌入空间,其中所有情况都处于良好分离状态。但是,否定的例子不可避免地引起阶级碰撞问题,损害了群集的表示学习。在本文中,我们探讨了对深度聚类的非对比表示学习,被称为NCC,其基于Byol,一种没有负例的代表性方法。首先,我们建议将一个增强的实例与嵌入空间中的另一个视图的邻居对齐,称为正抽样策略,该域避免了由否定示例引起的类碰撞问题,从而提高了集群内的紧凑性。其次,我们建议鼓励在所有原型中的一个原型和均匀性的两个增强视图之间的对准,命名的原型是原型的对比损失或protocl,这可以最大化簇间距离。此外,我们在期望 - 最大化(EM)框架中制定了NCC,其中E-Step利用球面K手段来估计实例的伪标签和来自目标网络的原型的分布,并且M-Step利用了所提出的损失优化在线网络。结果,NCC形成了一个嵌入空间,其中所有集群都处于分离良好,而内部示例都很紧凑。在包括ImageNet-1K的几个聚类基准数据集上的实验结果证明了NCC优于最先进的方法,通过显着的余量。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
视觉世界自然地展现了一个长尾的开放类分布,这对现代视觉系统带来了巨大挑战。现有方法可以执行类重新平衡策略或直接改进网络模块以解决问题。然而,他们仍然用有限一套预定义标签训练模型,限制了他们的监督信息并限制了他们对新颖实例的可转移性。新途径上的大型对比视觉普瑞宁普雷宁闪光灯的最新进展,可视识别。利用开放词汇监督,预先染色的对比视觉语言模型学习强大的多模式表示,这是对处理数据缺陷和看不见的概念。通过计算视觉和文本输入之间的语义相似性,可视识别被转换为vision语言匹配问题。灵感来自于此,我们提出了民谣,利用了对比尾识别的对比视觉模型。我们首先通过对特定的长尾目标数据集进行对比学习继续预先预留视觉语言骨干。之后,我们冻结了骨干,进一步采用了额外的适配器层,以增强通过重新采样策略构建的平衡训练样本上的尾级课程的表示。已经在三个流行的长尾识别基准测试中进行了广泛的实验。因此,我们简单有效的方法设定了新的最先进的表演,优于具有大边距的竞争基础。代码在https://github.com/gaopengcuhk/ballad发布。
translated by 谷歌翻译
不平衡的数据对基于深度学习的分类模型构成挑战。解决不平衡数据的最广泛使用的方法之一是重新加权,其中训练样本与损失功能的不同权重相关。大多数现有的重新加权方法都将示例权重视为可学习的参数,并优化了元集中的权重,因此需要昂贵的双重优化。在本文中,我们从分布的角度提出了一种基于最佳运输(OT)的新型重新加权方法。具体而言,我们将训练集视为其样品上的不平衡分布,该分布由OT运输到从元集中获得的平衡分布。训练样品的权重是分布不平衡的概率质量,并通过最大程度地减少两个分布之间的ot距离来学习。与现有方法相比,我们提出的一种方法可以脱离每次迭代时的体重学习对相关分类器的依赖性。图像,文本和点云数据集的实验表明,我们提出的重新加权方法具有出色的性能,在许多情况下实现了最新的结果,并提供了一种有希望的工具来解决不平衡的分类问题。
translated by 谷歌翻译
长尾数据集(Head Class)组成的培训样本比尾巴类别多得多,这会导致识别模型对头等舱有偏见。加权损失是缓解此问题的最受欢迎的方法之一,最近的一项工作表明,班级难度可能比常规使用的类频率更好地决定了权重的分布。在先前的工作中使用了一种启发式公式来量化难度,但是我们从经验上发现,最佳公式取决于数据集的特征。因此,我们提出了困难网络,该难题学习在元学习框架中使用模型的性能来预测类的难度。为了使其在其他班级的背景下学习班级的合理难度,我们新介绍了两个关键概念,即相对难度和驾驶员损失。前者有助于困难网络在计算班级难度时考虑其他课程,而后者对于将学习指向有意义的方向是必不可少的。对流行的长尾数据集进行了广泛的实验证明了该方法的有效性,并且在多个长尾数据集上实现了最先进的性能。
translated by 谷歌翻译
大多数现有的最新视频分类方法假设训练数据遵守统一的分布。但是,现实世界中的视频数据通常会表现出不平衡的长尾巴分布,从而导致模型偏见对头等阶层,并且在尾巴上的性能相对较低。虽然当前的长尾分类方法通常集中在图像分类上,但将其调整到视频数据并不是微不足道的扩展。我们提出了一种端到端的多专家分布校准方法,以基于两级分布信息来应对这些挑战。该方法共同考虑了每个类别中样品的分布(类内部分布)和各种数据(类间分布)的总体分布,以解决在长尾分布下数据不平衡数据的问题。通过对两级分布信息进行建模,该模型可以共同考虑头等阶层和尾部类别,并将知识从头等阶层显着转移,以提高尾部类别的性能。广泛的实验验证了我们的方法是否在长尾视频分类任务上实现了最先进的性能。
translated by 谷歌翻译
对比性自我监督学习(CSL)是一种实用解决方案,它以无监督的方法从大量数据中学习有意义的视觉表示。普通的CSL将从神经网络提取的特征嵌入到特定的拓扑结构上。在训练进度期间,对比度损失将同一输入的不同视图融合在一起,同时将不同输入分开的嵌入。 CSL的缺点之一是,损失项需要大量的负样本才能提供更好的相互信息理想。但是,通过较大的运行批量大小增加负样本的数量也增强了错误的负面影响:语义上相似的样品与锚分开,因此降低了下游性能。在本文中,我们通过引入一个简单但有效的对比学习框架来解决这个问题。关键的见解是使用暹罗风格的度量损失来匹配原型内特征,同时增加了原型间特征之间的距离。我们对各种基准测试进行了广泛的实验,其中结果证明了我们方法在提高视觉表示质量方面的有效性。具体而言,我们使用线性探针的无监督预训练的Resnet-50在Imagenet-1K数据集上超过了受访的训练有素的版本。
translated by 谷歌翻译
The real-world data tends to be heavily imbalanced and severely skew the data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a massive challenging task. Existing LTR methods seldom train Vision Transformers (ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of ViTs always leads to unfair comparisons. In this paper, we systematically investigate the ViTs' performance in LTR and propose LiVT to train ViTs from scratch only with LT data. With the observation that ViTs suffer more severe LTR problems, we conduct Masked Generative Pretraining (MGP) to learn generalized features. With ample and solid evidence, we show that MGP is more robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss, which shows conspicuous performance with ViTs, encounters predicaments in LTR. We further propose the balanced BCE to ameliorate it with strong theoretical groundings. Specially, we derive the unbiased extension of Sigmoid and compensate extra logit margins to deploy it. Our Bal-BCE contributes to the quick convergence of ViTs in just a few epochs. Extensive experiments demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well without any additional data and outperforms comparable state-of-the-art methods significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist 2018 without bells and whistles. Code is available at https://github.com/XuZhengzhuo/LiVT.
translated by 谷歌翻译
旨在从长尾数据培训类平衡模型的现有长尾识别方法,通常假设将在均匀的测试类分布上进行评估模型。然而,实际的测试类分布通常违反了这种假设(例如,长尾甚至是长尾的),这将导致现有的方法在现实世界中失败。在这项工作中,我们研究了一个更实用的任务设置,称为测试不稳定的长尾识别,其中训练类分布在测试类分布未知时长尾,可以任意偏斜。除了类别不平衡的问题外,这项任务造成了另一个挑战:培训和测试样本之间的班级分布转移是未识别的。为了处理这项任务,我们提出了一种新的方法,称为测试时间聚合各种专家,提供了两种解决方案策略:(1)一种新的技能 - 多样化专家学习策略,将各种专家培训从单一的处理不同的类分布时颁发不同的专家。长尾训练分配; (2)一种新的测试时间专家聚合策略,利用自我监督来汇总多个专家来处理各种未知的测试分布。理论上我们表明我们的方法具有模拟测试类分布的可提供能力。广泛的实验验证了我们的方法在香草和测试不可知的长尾识别上实现了新的最先进的性能,其中只有三个专家足以处理任意变化的测试级分布。代码可在https://github.com/vanint/tade-agnosticlt获得。
translated by 谷歌翻译
医学图像分类已在医学图像分析中广泛采用。但是,由于难以在医疗领域收集和标记数据,医疗图像数据集通常受到高度影响。为了解决这个问题,先前的工作利用类样本作为重新加权或重新采样的先验,但特征表示通常仍然不够歧视。在本文中,我们采用对比度学习来解决长尾医疗失衡问题。具体而言,我们首先提出类别原型和对抗性原型,以产生代表性的对比对。然后,提出了原型重新校准策略来解决高度不平衡的数据分布。最后,统一的原始损失旨在训练我们的框架。总体框架,即作为原型的对比学习(PROCO),以端到端方式统一为单级管道,以减轻医学图像分类中的不平衡问题,这也是与现有作品的独特进步当他们遵循传统的两阶段管道时。对两个高度平衡的医学图像分类数据集进行了广泛的实验表明,我们的方法的表现优于现有的最新方法。
translated by 谷歌翻译