在现实世界中,医疗数据集通常表现出长尾数据分布(即,一些类占据大多数数据,而大多数类都很少有一些样本),这导致挑战的不平衡学习场景。例如,估计有超过40种不同的视网膜疾病,无论发生了多种发病率,然而,来自全球患者队列的超过30多种条件非常罕见,这导致基于深度学习的筛选典型的长尾学习问题楷模。此外,视网膜中可能存在多种疾病,这导致多标签情景并为重新采样策略带来标签共生问题。在这项工作中,我们提出了一种新颖的框架,利用了视网膜疾病的先验知识,以便在等级 - 明智的约束下培训模型的更强大的代表。然后,首先引入了一个实例 - 明智的类平衡的采样策略和混合知识蒸馏方式,以从长尾的多标签分布中学习。我们的实验培训超过一百万个样品的视网膜数据集展示了我们所提出的方法的优越性,这些方法优于所有竞争对手,并显着提高大多数疾病的识别准确性,特别是那些罕见的疾病。
translated by 谷歌翻译
真实世界的图像通常是通过对每级图像数量的显着不平衡的特征,导致长尾的分布。长尾视觉识别的有效和简单的方法是分别学习特征表示和分类器,分别使用实例和类平衡采样。在这项工作中,我们介绍一个新的框架,通过键观察,即使用实例采样学习的特征表示远远不受长尾设置的最佳选择。我们的主要贡献是一种新的培训方法,称为类别平衡蒸馏(CBD),其利用知识蒸馏来增强特征表示。 CBD允许特征表示在第二阶段的老师指导的第二次培训阶段演变。第二阶段使用类平衡的采样,以专注于非代表性的类。此框架可以自然地适应多个教师的使用,从模型的集合中解锁信息以增强识别能力。我们的实验表明,所提出的技术始终如一地优于本领域的长尾识别基准,例如想象群 - LT,Inaturatibry17和Inaturation18。
translated by 谷歌翻译
我们提出了一种称为分配 - 均衡损失的新损失功能,用于展示长尾类分布的多标签识别问题。与传统的单标分类问题相比,由于两个重要问题,多标签识别问题通常更具挑战性,即标签的共同发生以及负标签的主导地位(当被视为多个二进制分类问题时)。分配 - 平衡损失通过对标准二进制交叉熵丢失的两个关键修改来解决这些问题:1)重新平衡考虑标签共发生造成的影响的重量的新方法,以及2)负耐受规则化以减轻负标签的过度抑制。 Pascal VOC和Coco的实验表明,使用这种新损失功能训练的模型可实现现有方法的显着性能。代码和型号可在:https://github.com/wutong16/distributionbalancedloss。
translated by 谷歌翻译
成像检查(例如胸部X射线照相)将产生一小部分常见发现和一组少数罕见的发现。虽然训练有素的放射科医生可以通过研究一些代表性的例子来学习罕见条件的视觉呈现,但是教机器从这种“长尾”分布中学习的情况更加困难,因为标准方法很容易偏向最常见的类别。在本文中,我们介绍了胸部X射线胸腔疾病特定领域的长尾学习问题的全面基准研究。我们专注于从自然分布的胸部X射线数据中学习,不仅优化了分类精度,不仅是常见的“头”类,而且还优化了罕见但至关重要的“尾巴”类。为此,我们引入了一个具有挑战性的新长尾X射线基准,以促进开发长尾学习方法进行医学图像分类。该基准由两个用于19-和20向胸部疾病分类的胸部X射线数据集组成,其中包含多达53,000的类别,只有7个标记的训练图像。我们在这种新的基准上评估了标准和最先进的长尾学习方法,分析这些方法的哪些方面对长尾医学图像分类最有益,并总结了对未来算法设计的见解。数据集,训练有素的模型和代码可在https://github.com/vita-group/longtailcxr上找到。
translated by 谷歌翻译
深度学习模型在逐步学习新任务时遭受灾难性遗忘。已经提出了增量学习,以保留旧课程的知识,同时学习识别新课程。一种典型的方法是使用一些示例来避免忘记旧知识。在这种情况下,旧类和新课之间的数据失衡是导致模型性能下降的关键问题。由于数据不平衡,已经设计了几种策略来纠正新类别的偏见。但是,他们在很大程度上依赖于新旧阶层之间偏见关系的假设。因此,它们不适合复杂的现实世界应用。在这项研究中,我们提出了一种假设不足的方法,即多粒性重新平衡(MGRB),以解决此问题。重新平衡方法用于减轻数据不平衡的影响;但是,我们从经验上发现,他们将拟合新的课程。为此,我们进一步设计了一个新颖的多晶正式化项,该项使模型还可以考虑除了重新平衡数据之外的类别的相关性。类层次结构首先是通过将语义或视觉上类似类分组来构建的。然后,多粒性正则化将单热标签向量转换为连续的标签分布,这反映了基于构造的类层次结构的目标类别和其他类之间的关系。因此,该模型可以学习类间的关系信息,这有助于增强新旧课程的学习。公共数据集和现实世界中的故障诊断数据集的实验结果验证了所提出的方法的有效性。
translated by 谷歌翻译
早期发现视网膜疾病是预防患者部分或永久失明的最重要手段之一。在这项研究中,提出了一种新型的多标签分类系统,用于使用从各种来源收集的眼底图像来检测多种视网膜疾病。首先,使用许多公开可用的数据集来构建一个新的多标签视网膜疾病数据集,即梅里德数据集。接下来,应用了一系列后处理步骤,以确保图像数据的质量和数据集中存在的疾病范围。在眼底多标签疾病分类中,首次通过大量实验优化的基于变压器的模型用于图像分析和决策。进行了许多实验以优化所提出的系统的配置。结果表明,在疾病检测和疾病分类方面,该方法的性能比在同一任务上的最先进作品要好7.9%和8.1%。获得的结果进一步支持了基于变压器的架构在医学成像领域的潜在应用。
translated by 谷歌翻译
现有的图形神经网络(GNNS)通常会在平衡的情况下平衡,节点分布平衡。但是,在现实情况下,我们经常遇到一些案例,使几个类(即头等阶层)主导其他类(即尾巴类)以及节点学位的观点,因此天真地应用现有GNN最终最终落在概括尾巴案例。尽管最近的研究提出了处理图表上长尾情况的方法,但它们仅着眼于班级长尾或长尾巴。在本文中,我们为培训GNN的新框架提出了一个新的框架,称为图形长尾专家(LTE4G),该框架共同考虑了长尾级别的长尾和节点分类的长尾。核心思想是将专家GNN模型分配给以平衡方式分配的节点的每个子集,考虑到班级和程度的长尾。在为每个平衡子集培训了专家之后,我们采用知识蒸馏来获得两名班级学生,即校学生和尾巴班级学生,每个学生分别负责在校课和尾部课程中分别对节点进行分类。我们证明,LTE4G的表现优于在手动和自然不平衡图上评估的节点分类中的各种最新方法。可以在https://github.com/sukwonyun/lte4g上找到LTE4G的源代码。
translated by 谷歌翻译
与其他类别(称为少数族裔或尾巴类)相比,很少的类或类别(称为多数或头等类别的类别)具有更高的数据样本数量,在现实世界中,长尾数据集经常遇到。在此类数据集上培训深层神经网络会给质量级别带来偏见。到目前为止,研究人员提出了多种加权损失和数据重新采样技术,以减少偏见。但是,大多数此类技术都认为,尾巴类始终是最难学习的类,因此需要更多的重量或注意力。在这里,我们认为该假设可能并不总是成立的。因此,我们提出了一种新颖的方法,可以在模型的训练阶段动态测量每个类别的瞬时难度。此外,我们使用每个班级的难度度量来设计一种新型的加权损失技术,称为“基于阶级难度的加权(CDB-W)损失”和一种新型的数据采样技术,称为“基于类别难度的采样)(CDB-S )'。为了验证CDB方法的广泛可用性,我们对多个任务进行了广泛的实验,例如图像分类,对象检测,实例分割和视频操作分类。结果验证了CDB-W损失和CDB-S可以在许多类似于现实世界中用例的类别不平衡数据集(例如Imagenet-LT,LVIS和EGTEA)上实现最先进的结果。
translated by 谷歌翻译
大多数现有的最新视频分类方法假设训练数据遵守统一的分布。但是,现实世界中的视频数据通常会表现出不平衡的长尾巴分布,从而导致模型偏见对头等阶层,并且在尾巴上的性能相对较低。虽然当前的长尾分类方法通常集中在图像分类上,但将其调整到视频数据并不是微不足道的扩展。我们提出了一种端到端的多专家分布校准方法,以基于两级分布信息来应对这些挑战。该方法共同考虑了每个类别中样品的分布(类内部分布)和各种数据(类间分布)的总体分布,以解决在长尾分布下数据不平衡数据的问题。通过对两级分布信息进行建模,该模型可以共同考虑头等阶层和尾部类别,并将知识从头等阶层显着转移,以提高尾部类别的性能。广泛的实验验证了我们的方法是否在长尾视频分类任务上实现了最先进的性能。
translated by 谷歌翻译
当前的场景图生成研究(SGG)着重于解决生成无偏见的场景图的长尾问题。但是,大多数偏见的方法都过度强调了尾巴谓词,并低估了整个训练的头部,从而破坏了头部谓词特征的表示能力。此外,这些头部谓词的受损特征会损害尾巴谓词的学习。实际上,尾巴谓词的推论在很大程度上取决于从头部谓词中学到的一般模式,例如“站在”上“依赖”。因此,这些偏见的SGG方法既不能在尾巴谓词上实现出色的性能,也不能满足头部的行为。为了解决这个问题,我们提出了一个双分支混合学习网络(DHL),以照顾SGG的头部谓词和尾巴,包括粗粒度的学习分支(CLB)和细粒度的学习分支(FLB) 。具体而言,CLB负责学习专业知识和头部谓词的鲁棒特征,而FLB有望预测信息丰富的尾巴谓词。此外,DHL配备了分支课程时间表(BCS),以使两个分支机构一起工作。实验表明,我们的方法在VG和GQA数据集上实现了新的最新性能,并在尾巴谓词和头部的性能之间进行了权衡。此外,对两个下游任务(即图像字幕和句子到刻画检索)进行了广泛的实验,进一步验证了我们方法的概括和实用性。
translated by 谷歌翻译
The long-tail distribution of the visual world poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balancing strategies, e.g. by loss re-weighting, data re-sampling, or transfer learning from head-to tail-classes, but most of them adhere to the scheme of jointly learning representations and classifiers. In this work, we decouple the learning procedure into representation learning and classification, and systematically explore how different balancing strategies affect them for long-tailed recognition. The findings are surprising: (1) data imbalance might not be an issue in learning high-quality representations; (2) with representations learned with the simplest instance-balanced (natural) sampling, it is also possible to achieve strong long-tailed recognition ability by adjusting only the classifier. We conduct extensive experiments and set new state-of-the-art performance on common long-tailed benchmarks like ImageNet-LT, Places-LT and iNaturalist, showing that it is possible to outperform carefully designed losses, sampling strategies, even complex modules with memory, by using a straightforward approach that decouples representation and classification. Our code is available at https://github.com/facebookresearch/classifier-balancing.
translated by 谷歌翻译
我们在现有的长尾分类方法中解决了被忽视的无偏见:我们发现它们的整体改善主要归因于尾部过度的偏置偏好,因为假设测试分配是平衡的;但是,当测试与长尾训练数据一样不平衡 - 让测试尊重ZIPF的自然定律 - 尾巴偏差不再有益,因为它伤害了大多数人。在本文中,我们提出了跨域经验风险最小化(XIM)来训练一个非偏见模型,以实现对两个测试分布的强大性能,经验证明Xerm通过学习更好的特征表示而不是头部与头部来改善分类。游戏。基于因果关系,我们进一步理论上解释了Xerm实现了非偏见的原因:通过调整不平衡域和平衡但不合形的结构域的经验风险来消除由域选择引起的偏差。代码可在https://github.com/beierzhu/xerm获得。
translated by 谷歌翻译
Object recognition techniques using convolutional neural networks (CNN) have achieved great success. However, state-of-the-art object detection methods still perform poorly on large vocabulary and long-tailed datasets, e.g. LVIS.In this work, we analyze this problem from a novel perspective: each positive sample of one category can be seen as a negative sample for other categories, making the tail categories receive more discouraging gradients. Based on it, we propose a simple but effective loss, named equalization loss, to tackle the problem of long-tailed rare categories by simply ignoring those gradients for rare categories. The equalization loss protects the learning of rare categories from being at a disadvantage during the network parameter updating. Thus the model is capable of learning better discriminative features for objects of rare classes. Without any bells and whistles, our method achieves AP gains of 4.1% and 4.8% for the rare and common categories on the challenging LVIS benchmark, compared to the Mask R-CNN baseline. With the utilization of the effective equalization loss, we finally won the 1st place in the LVIS Challenge 2019. Code has been made available at: https: //github.com/tztztztztz/eql.detectron2
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译
Our work focuses on tackling the challenging but natural visual recognition task of long-tailed data distribution (i.e., a few classes occupy most of the data, while most classes have rarely few samples). In the literature, class re-balancing strategies (e.g., re-weighting and re-sampling) are the prominent and effective methods proposed to alleviate the extreme imbalance for dealing with long-tailed problems. In this paper, we firstly discover that these rebalancing methods achieving satisfactory recognition accuracy owe to that they could significantly promote the classifier learning of deep networks. However, at the same time, they will unexpectedly damage the representative ability of the learned deep features to some extent. Therefore, we propose a unified Bilateral-Branch Network (BBN) to take care of both representation learning and classifier learning simultaneously, where each branch does perform its own duty separately. In particular, our BBN model is further equipped with a novel cumulative learning strategy, which is designed to first learn the universal patterns and then pay attention to the tail data gradually. Extensive experiments on four benchmark datasets, including the large-scale iNaturalist ones, justify that the proposed BBN can significantly outperform state-of-the-art methods. Furthermore, validation experiments can demonstrate both our preliminary discovery and effectiveness of tailored designs in BBN for long-tailed problems. Our method won the first place in the iNaturalist 2019 large scale species classification competition, and our code is open-source and available at https://github.com/Megvii-Nanjing/BBN . * Q. Cui and Z.-M. Chen's contribution was made when they were interns in Megvii Research Nanjing, Megvii Technology, China. X.
translated by 谷歌翻译
表面缺陷检测是工业质量检查最重要的过程之一。基于深度学习的表面缺陷检测方法已显示出巨大的潜力。但是,表现出色的模型通常需要大量的训练数据,并且只能检测出在训练阶段出现的缺陷。当面对少量数据数据时,缺陷检测模型不可避免地会遭受灾难性遗忘和错误分类问题的困扰。为了解决这些问题,本文提出了一个新的知识蒸馏网络,称为双知识对齐网络(DKAN)。提出的DKAN方法遵循预处理的转移学习范式,并设计了用于微调的知识蒸馏框架。具体而言,提出了增量RCNN以实现不同类别的分离稳定特征表示。在此框架下,设计特征知识对齐(FKA)的损失是在类不足的特征图之间设计的,以解决灾难性的遗忘问题,而logit知识对准(LKA)损失在logit分布之间部署以解决错误分类问题。实验已经在递增的几个neu-det数据集上进行,结果表明,DKAN在各种几个场景上的其他方法都优于其他方法,对平均平均精度度量指标最高可达6.65%,这证明了该方法的有效性。
translated by 谷歌翻译
少数族裔类的数据增强是长尾识别的有效策略,因此开发了大量方法。尽管这些方法都确保了样本数量的平衡,但是增强样品的质量并不总是令人满意的,识别且容易出现过度拟合,缺乏多样性,语义漂移等问题。对于这些问题,我们建议班级感知的大学启发了重新平衡学习(CAUIRR),以进行长尾识别,这使Universum具有班级感知的能力,可以从样本数量和质量中重新平衡个人少数族裔。特别是,我们从理论上证明,凯尔学到的分类器与从贝叶斯的角度从平衡状态下学到的那些人一致。此外,我们进一步开发了一种高阶混合方法,该方法可以自动生成类感知的Universum(CAU)数据,而无需诉诸任何外部数据。与传统的大学不同,此类产生的全球还考虑了域的相似性,阶级可分离性和样本多样性。基准数据集的广泛实验证明了我们方法的令人惊讶的优势,尤其是与最先进的方法相比,少数族裔类别的TOP1准确性提高了1.9%6%。
translated by 谷歌翻译
医学图像分类已在医学图像分析中广泛采用。但是,由于难以在医疗领域收集和标记数据,医疗图像数据集通常受到高度影响。为了解决这个问题,先前的工作利用类样本作为重新加权或重新采样的先验,但特征表示通常仍然不够歧视。在本文中,我们采用对比度学习来解决长尾医疗失衡问题。具体而言,我们首先提出类别原型和对抗性原型,以产生代表性的对比对。然后,提出了原型重新校准策略来解决高度不平衡的数据分布。最后,统一的原始损失旨在训练我们的框架。总体框架,即作为原型的对比学习(PROCO),以端到端方式统一为单级管道,以减轻医学图像分类中的不平衡问题,这也是与现有作品的独特进步当他们遵循传统的两阶段管道时。对两个高度平衡的医学图像分类数据集进行了广泛的实验表明,我们的方法的表现优于现有的最新方法。
translated by 谷歌翻译
现实世界数据通常存在长尾分布。对不平衡数据的培训倾向于呈现神经网络在头部上表现良好,而尾部课程则更加差。尾班的培训实例的严重稀疏性是主要挑战,这导致培训期间的偏见分配估计。丰富的努力已经致力于改善挑战,包括数据重新采样和综合尾班的新培训实例。然而,没有先前的研究已经利用了从头课程转移到尾班的可转让知识,以校准尾舱的分布。在本文中,我们假设可以通过类似的头部级别来丰富尾部类,并提出一种名为标签感知分布校准Ladc的新型分布校准方法。 Ladc从相关的头部课程转移统计数据以推断尾部课程的分布。从校准分布的采样进一步促进重新平衡分类器。图像和文本的实验和文本长尾数据集表明,LADC显着优于现有方法。可视化还显示LADC提供更准确的分布估计。
translated by 谷歌翻译
由于癌症样品收集和注释的难度,宫颈癌数据集通常表现出长尾数据分布。当训练检测器以检测WSI(整个切片图像)中的癌细胞时,从TCT(ThinPrep细胞学测试)样品捕获的样品时,头部类别(例如正常细胞和炎性细胞)通常比尾巴类别数量更大。 (例如癌细胞)。对象检测中的大多数现有最新的长尾学习方法将重点放在类别分布统计上,以解决长尾方案中的问题,而无需考虑每个样本的“硬度”。为了解决这个问题,在这项工作中,我们提出了一个Grad-libra损失,该损失利用梯度动态校准每个样品的硬度程度,以使不同类别的硬度度重新平衡正面和负样品的梯度。因此,我们的损失可以帮助探测器更加重视头部和尾部类别中的这些硬样品。在长尾的TCT WSI图像数据集上进行了广泛的实验表明,主流检测器,例如对使用我们建议的梯度损失训练的训练,重新点,FCO,ATSS,YOLOF等的地图比使用跨透明分类损失训练的地图要高得多(7.8%)。
translated by 谷歌翻译