真实世界的图像通常是通过对每级图像数量的显着不平衡的特征,导致长尾的分布。长尾视觉识别的有效和简单的方法是分别学习特征表示和分类器,分别使用实例和类平衡采样。在这项工作中,我们介绍一个新的框架,通过键观察,即使用实例采样学习的特征表示远远不受长尾设置的最佳选择。我们的主要贡献是一种新的培训方法,称为类别平衡蒸馏(CBD),其利用知识蒸馏来增强特征表示。 CBD允许特征表示在第二阶段的老师指导的第二次培训阶段演变。第二阶段使用类平衡的采样,以专注于非代表性的类。此框架可以自然地适应多个教师的使用,从模型的集合中解锁信息以增强识别能力。我们的实验表明,所提出的技术始终如一地优于本领域的长尾识别基准,例如想象群 - LT,Inaturatibry17和Inaturation18。
translated by 谷歌翻译
The long-tail distribution of the visual world poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balancing strategies, e.g. by loss re-weighting, data re-sampling, or transfer learning from head-to tail-classes, but most of them adhere to the scheme of jointly learning representations and classifiers. In this work, we decouple the learning procedure into representation learning and classification, and systematically explore how different balancing strategies affect them for long-tailed recognition. The findings are surprising: (1) data imbalance might not be an issue in learning high-quality representations; (2) with representations learned with the simplest instance-balanced (natural) sampling, it is also possible to achieve strong long-tailed recognition ability by adjusting only the classifier. We conduct extensive experiments and set new state-of-the-art performance on common long-tailed benchmarks like ImageNet-LT, Places-LT and iNaturalist, showing that it is possible to outperform carefully designed losses, sampling strategies, even complex modules with memory, by using a straightforward approach that decouples representation and classification. Our code is available at https://github.com/facebookresearch/classifier-balancing.
translated by 谷歌翻译
视觉世界自然地在目标或场景实例的数量中表现出不平衡,导致\ EMPH {长​​尾分布}。这种不平衡对基于深度学习的分类模式构成了重大挑战。尾课的过采样实例试图解决这种不平衡。然而,有限的视觉多样性导致具有差的呈现能力差的网络。一个简单的计数器到此是解耦表示和分类器网络,并使用过采样仅用于培训分类器。在本文中,而不是反复重新采样相同的图像(以及由此特征),我们探索通过估计尾类分布来生成有意义特征的方向。灵感来自于近期工作的思想,我们创建校准的分布,以对随后用于训练分类器的其他功能。通过在CiFar-100-LT(长尾)数据集上的几个实验,具有不同的不平衡因子和迷你想象 - LT(长尾),我们展示了我们的方法的功效并建立了新的状态 - 艺术。我们还使用T-SNE可视化对生成功能进行了定性分析,并分析了用于校准尾级分布的最近邻居。我们的代码可在https://github.com/rahulvigneswaran/tailcalibx获得。
translated by 谷歌翻译
现实世界数据通常存在长尾分布。对不平衡数据的培训倾向于呈现神经网络在头部上表现良好,而尾部课程则更加差。尾班的培训实例的严重稀疏性是主要挑战,这导致培训期间的偏见分配估计。丰富的努力已经致力于改善挑战,包括数据重新采样和综合尾班的新培训实例。然而,没有先前的研究已经利用了从头课程转移到尾班的可转让知识,以校准尾舱的分布。在本文中,我们假设可以通过类似的头部级别来丰富尾部类,并提出一种名为标签感知分布校准Ladc的新型分布校准方法。 Ladc从相关的头部课程转移统计数据以推断尾部课程的分布。从校准分布的采样进一步促进重新平衡分类器。图像和文本的实验和文本长尾数据集表明,LADC显着优于现有方法。可视化还显示LADC提供更准确的分布估计。
translated by 谷歌翻译
在现实世界中,医疗数据集通常表现出长尾数据分布(即,一些类占据大多数数据,而大多数类都很少有一些样本),这导致挑战的不平衡学习场景。例如,估计有超过40种不同的视网膜疾病,无论发生了多种发病率,然而,来自全球患者队列的超过30多种条件非常罕见,这导致基于深度学习的筛选典型的长尾学习问题楷模。此外,视网膜中可能存在多种疾病,这导致多标签情景并为重新采样策略带来标签共生问题。在这项工作中,我们提出了一种新颖的框架,利用了视网膜疾病的先验知识,以便在等级 - 明智的约束下培训模型的更强大的代表。然后,首先引入了一个实例 - 明智的类平衡的采样策略和混合知识蒸馏方式,以从长尾的多标签分布中学习。我们的实验培训超过一百万个样品的视网膜数据集展示了我们所提出的方法的优越性,这些方法优于所有竞争对手,并显着提高大多数疾病的识别准确性,特别是那些罕见的疾病。
translated by 谷歌翻译
The focus of recent meta-learning research has been on the development of learning algorithms that can quickly adapt to test time tasks with limited data and low computational cost. Few-shot learning is widely used as one of the standard benchmarks in meta-learning. In this work, we show that a simple baseline: learning a supervised or selfsupervised representation on the meta-training set, followed by training a linear classifier on top of this representation, outperforms state-of-the-art few-shot learning methods. An additional boost can be achieved through the use of selfdistillation. This demonstrates that using a good learned embedding model can be more effective than sophisticated meta-learning algorithms. We believe that our findings motivate a rethinking of few-shot image classification benchmarks and the associated role of meta-learning algorithms.
translated by 谷歌翻译
长尾数据集(Head Class)组成的培训样本比尾巴类别多得多,这会导致识别模型对头等舱有偏见。加权损失是缓解此问题的最受欢迎的方法之一,最近的一项工作表明,班级难度可能比常规使用的类频率更好地决定了权重的分布。在先前的工作中使用了一种启发式公式来量化难度,但是我们从经验上发现,最佳公式取决于数据集的特征。因此,我们提出了困难网络,该难题学习在元学习框架中使用模型的性能来预测类的难度。为了使其在其他班级的背景下学习班级的合理难度,我们新介绍了两个关键概念,即相对难度和驾驶员损失。前者有助于困难网络在计算班级难度时考虑其他课程,而后者对于将学习指向有意义的方向是必不可少的。对流行的长尾数据集进行了广泛的实验证明了该方法的有效性,并且在多个长尾数据集上实现了最先进的性能。
translated by 谷歌翻译
The real-world data tends to be heavily imbalanced and severely skew the data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a massive challenging task. Existing LTR methods seldom train Vision Transformers (ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of ViTs always leads to unfair comparisons. In this paper, we systematically investigate the ViTs' performance in LTR and propose LiVT to train ViTs from scratch only with LT data. With the observation that ViTs suffer more severe LTR problems, we conduct Masked Generative Pretraining (MGP) to learn generalized features. With ample and solid evidence, we show that MGP is more robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss, which shows conspicuous performance with ViTs, encounters predicaments in LTR. We further propose the balanced BCE to ameliorate it with strong theoretical groundings. Specially, we derive the unbiased extension of Sigmoid and compensate extra logit margins to deploy it. Our Bal-BCE contributes to the quick convergence of ViTs in just a few epochs. Extensive experiments demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well without any additional data and outperforms comparable state-of-the-art methods significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist 2018 without bells and whistles. Code is available at https://github.com/XuZhengzhuo/LiVT.
translated by 谷歌翻译
Significant progress has been made in learning image classification neural networks under long-tail data distribution using robust training algorithms such as data re-sampling, re-weighting, and margin adjustment. Those methods, however, ignore the impact of data imbalance on feature normalization. The dominance of majority classes (head classes) in estimating statistics and affine parameters causes internal covariate shifts within less-frequent categories to be overlooked. To alleviate this challenge, we propose a compound batch normalization method based on a Gaussian mixture. It can model the feature space more comprehensively and reduce the dominance of head classes. In addition, a moving average-based expectation maximization (EM) algorithm is employed to estimate the statistical parameters of multiple Gaussian distributions. However, the EM algorithm is sensitive to initialization and can easily become stuck in local minima where the multiple Gaussian components continue to focus on majority classes. To tackle this issue, we developed a dual-path learning framework that employs class-aware split feature normalization to diversify the estimated Gaussian distributions, allowing the Gaussian components to fit with training samples of less-frequent classes more comprehensively. Extensive experiments on commonly used datasets demonstrated that the proposed method outperforms existing methods on long-tailed image classification.
translated by 谷歌翻译
我们在现有的长尾分类方法中解决了被忽视的无偏见:我们发现它们的整体改善主要归因于尾部过度的偏置偏好,因为假设测试分配是平衡的;但是,当测试与长尾训练数据一样不平衡 - 让测试尊重ZIPF的自然定律 - 尾巴偏差不再有益,因为它伤害了大多数人。在本文中,我们提出了跨域经验风险最小化(XIM)来训练一个非偏见模型,以实现对两个测试分布的强大性能,经验证明Xerm通过学习更好的特征表示而不是头部与头部来改善分类。游戏。基于因果关系,我们进一步理论上解释了Xerm实现了非偏见的原因:通过调整不平衡域和平衡但不合形的结构域的经验风险来消除由域选择引起的偏差。代码可在https://github.com/beierzhu/xerm获得。
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译
视觉识别任务中的长尾类分布对于如何处理头部和尾部类之间的偏置预测,即,模型倾向于将尾部类作为头部类进行分类。虽然现有的研究专注于数据重采采样和损失函数工程,但在本文中,我们采取了不同的视角:分类利润率。我们研究边距和注册之间的关系(分类得分)并经验遵守偏置边缘,并且偏置的Logits是正相关的。我们提出MARC,一个简单但有效的边缘校准函数,用于动态校准偏置边缘的偏置利润。我们通过对普通的长尾基准测试进行了广泛的实验,包括CIFAR-LT,Imagenet-LT,LT,以及不适物 - LT的广泛实验。实验结果表明,我们的MARC在这些基准上实现了有利的结果。此外,Marc只需三行代码即可实现。我们希望这种简单的方法能够激励人们重新思考偏置的边距和偏见的长尾视觉识别标识。
translated by 谷歌翻译
与其他类别(称为少数族裔或尾巴类)相比,很少的类或类别(称为多数或头等类别的类别)具有更高的数据样本数量,在现实世界中,长尾数据集经常遇到。在此类数据集上培训深层神经网络会给质量级别带来偏见。到目前为止,研究人员提出了多种加权损失和数据重新采样技术,以减少偏见。但是,大多数此类技术都认为,尾巴类始终是最难学习的类,因此需要更多的重量或注意力。在这里,我们认为该假设可能并不总是成立的。因此,我们提出了一种新颖的方法,可以在模型的训练阶段动态测量每个类别的瞬时难度。此外,我们使用每个班级的难度度量来设计一种新型的加权损失技术,称为“基于阶级难度的加权(CDB-W)损失”和一种新型的数据采样技术,称为“基于类别难度的采样)(CDB-S )'。为了验证CDB方法的广泛可用性,我们对多个任务进行了广泛的实验,例如图像分类,对象检测,实例分割和视频操作分类。结果验证了CDB-W损失和CDB-S可以在许多类似于现实世界中用例的类别不平衡数据集(例如Imagenet-LT,LVIS和EGTEA)上实现最先进的结果。
translated by 谷歌翻译
大多数现有的最新视频分类方法假设训练数据遵守统一的分布。但是,现实世界中的视频数据通常会表现出不平衡的长尾巴分布,从而导致模型偏见对头等阶层,并且在尾巴上的性能相对较低。虽然当前的长尾分类方法通常集中在图像分类上,但将其调整到视频数据并不是微不足道的扩展。我们提出了一种端到端的多专家分布校准方法,以基于两级分布信息来应对这些挑战。该方法共同考虑了每个类别中样品的分布(类内部分布)和各种数据(类间分布)的总体分布,以解决在长尾分布下数据不平衡数据的问题。通过对两级分布信息进行建模,该模型可以共同考虑头等阶层和尾部类别,并将知识从头等阶层显着转移,以提高尾部类别的性能。广泛的实验验证了我们的方法是否在长尾视频分类任务上实现了最先进的性能。
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译
长尾分布是现实世界中的常见现象。提取的大规模图像数据集不可避免地证明了长尾巴的属性和经过不平衡数据训练的模型可以为代表性过多的类别获得高性能,但为代表性不足的类别而苦苦挣扎,导致偏见的预测和绩效降低。为了应对这一挑战,我们提出了一种名为“逆图像频率”(IIF)的新型偏差方法。 IIF是卷积神经网络分类层中逻辑的乘法边缘调整转换。我们的方法比类似的作品实现了更强的性能,并且对于下游任务(例如长尾实例分割)特别有用,因为它会产生较少的假阳性检测。我们的广泛实验表明,IIF在许多长尾基准的基准(例如Imagenet-lt,cifar-lt,ploce-lt和lvis)上超过了最先进的现状,在Imagenet-lt上,Resnet50和26.2%达到了55.8%的TOP-1准确性LVIS上使用MaskRCNN分割AP。代码可在https://github.com/kostas1515/iif中找到
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
现代ML方法在培训数据是IID,大规模和良好标记的时候Excel。在不太理想的条件下学习仍然是一个开放的挑战。在不利条件下,几次射击,持续的,转移和代表学习的子场在学习中取得了很大的进步;通过方法和见解,每个都提供了独特的优势。这些方法解决了不同的挑战,例如依次到达的数据或稀缺的训练示例,然而,在部署之前,ML系统将面临困难的条件。因此,需要可以处理实际设置中许多学习挑战的一般ML系统。为了促进一般ML方法目标的研究,我们介绍了一个新的统一评估框架 - 流体(灵活的顺序数据)。流体集成了几次拍摄,持续的,转移和表示学习的目标,同时能够比较和整合这些子场的技术。在流体中,学习者面临数据流,并且必须在选择如何更新自身时进行顺序预测,快速调整到新颖的类别,并处理更改的数据分布;虽然会计计算总额。我们对广泛的方法进行实验,这些方法阐述了新的洞察当前解决方案的优缺点并表明解决了新的研究问题。作为更一般方法的起点,我们展示了两种新的基线,其在流体上优于其他评估的方法。项目页面:https://raivn.cs.washington.edu/projects/fluid/。
translated by 谷歌翻译
Deep neural networks still struggle on long-tailed image datasets, and one of the reasons is that the imbalance of training data across categories leads to the imbalance of trained model parameters. Motivated by the empirical findings that trained classifiers yield larger weight norms in head classes, we propose to reformulate the recognition probabilities through included angles without re-balancing the classifier weights. Specifically, we calculate the angles between the data feature and the class-wise classifier weights to obtain angle-based prediction results. Inspired by the performance improvement of the predictive form reformulation and the outstanding performance of the widely used two-stage learning framework, we explore the different properties of this angular prediction and propose novel modules to improve the performance of different components in the framework. Our method is able to obtain the best performance among peer methods without pretraining on CIFAR10/100-LT and ImageNet-LT. Source code will be made publicly available.
translated by 谷歌翻译
类别不平衡数据的问题在于,由于少数类别的数据缺乏数据,分类器的泛化性能劣化。在本文中,我们提出了一种新的少数民族过度采样方法,通过利用大多数类作为背景图像的丰富背景来增加多元化的少数民族样本。为了使少数民族样本多样化,我们的主要思想是将前景补丁从少数级别粘贴到来自具有富裕环境的多数类的背景图像。我们的方法很简单,可以轻松地与现有的长尾识别方法结合。我们通过广泛的实验和消融研究证明了提出的过采样方法的有效性。如果没有任何架构更改或复杂的算法,我们的方法在各种长尾分类基准上实现了最先进的性能。我们的代码将在链接上公开提供。
translated by 谷歌翻译