智能论文笔记

Less is More: Adaptive Curriculum Learning for Thyroid Nodule Diagnosis

Haifan Gong , Hui Cheng , Yifan Xie , Shuangyi Tan , Guanqi Chen , Fei Chen , Guanbin Li

分类：计算机视觉

2022-07-02

甲状腺结节分类旨在根据给定的超声图像确定结节是良性还是恶性。但是，通过细胞学活检获得的标签是临床医学的黄金标准，并不总是与超声成像TI-RADS标准一致。两者之间的信息差异导致现有的基于深度学习的分类方法具有优柔寡断。为了解决不一致的标签问题，我们提出了一个自适应课程学习（ACL）框架，该框架可以自适应地发现并用不一致的标签丢弃样品。具体而言，ACL同时考虑了硬样品和模型确定性，并且可以准确确定用不一致的标签区分样品的阈值。此外，我们贡献了TNCD：甲状腺结节分类数据集，以促进对甲状腺结节的未来相关研究。基于三个不同的骨干网络的TNCD的广泛实验结果不仅证明了我们方法的优势，而且证明了较少的IS原理在战略上以不一致的标签抛弃样品可以产生性能提高。源代码和数据可从https://github.com/chenghui-666/acl/获得。

translated by 谷歌翻译

Hard Sample Aware Noise Robust Learning for Histopathology Image Classification

Chuang Zhu , Wenkai Chen , Ting Peng , Ying Wang , Mulan Jin

分类：人工智能 | 计算机视觉 | 机器学习

2021-12-05

基于深度学习的组织病理学图像分类是帮助医生提高癌症诊断的准确性和迅速性的关键技术。然而，在复杂的手动注释过程中，嘈杂的标签通常是不可避免的，因此误导了分类模型的培训。在这项工作中，我们介绍了一种用于组织病理学图像分类的新型硬样本感知噪声稳健学习方法。为了区分来自有害嘈杂的内容漏洞，我们通过使用样本培训历史来构建一个简单/硬/噪声（EHN）检测模型。然后，我们将EHN集成到自动训练架构中，通过逐渐校正降低噪声速率。通过获得的几乎干净的数据集，我们进一步提出了一种噪声抑制和硬增强（NSHE）方案来训练噪声鲁棒模型。与以前的作品相比，我们的方法可以节省更多清洁样本，并且可以直接应用于实际嘈杂的数据集场景，而无需使用清洁子集。实验结果表明，该方案在合成和现实世界嘈杂的数据集中优于当前最先进的方法。源代码和数据可在https://github.com/bupt-ai-cz/hsa-nrl/处获得。

translated by 谷歌翻译

Learning Robust Representation for Joint Grading of Ophthalmic Diseases via Adaptive Curriculum and Feature Disentanglement

Haoxuan Che , Haibo Jin , Hao Chen

分类：计算机视觉

2022-07-09

糖尿病性视网膜病（DR）和糖尿病黄斑水肿（DME）是全球永久失明的主要原因。在临床实践中设计具有良好泛化能力的自动分级系统至关重要。但是，先前的工作是独立的DR或DME等级，而无需考虑它们之间的内部相关性，或者通过共享特征表示共同对其进行分级，但忽略了由困难的样本和数据偏见引起的潜在概括问题。为了解决这些问题，我们提出了一个与动态难度意识的加权损失（DAW）和双流式分离的学习体系结构（分离）的框架。受课程学习的启发，DAW通过适应性地测量难度从简单的样本学习到困难样本。分离分离分级任务的特征，以避免潜在地强调偏见。通过添加DAW和Decarach，该模型学习了鲁棒的分离特征表示，以探索DR和DME之间的内部相关性并实现更好的分级性能。在三个基准测试的实验显示了我们框架内框架和跨数据库测试的有效性和鲁棒性。

translated by 谷歌翻译

PLMCL: Partial-Label Momentum Curriculum Learning for Multi-Label Image Classification

Rabab Abdelfattah , Xin Zhang , Zhenyao Wu , Xinyi Wu , Xiaofeng Wang , Song Wang

分类：计算机视觉

2022-08-22

多标签图像分类旨在预测图像中的所有可能标签。考虑到在每个培训图像中注释所有标签可能是昂贵的，通常将其作为部分标签的学习问题。关于部分标签学习的现有作品集中在每个训练图像只有其标签的子集注释的情况下。一种特殊情况是在每个训练图像中仅注释一个正标签。为了进一步减轻注释负担并增强了分类器的性能，本文提出了一个新的部分标签设置，其中仅标记了训练图像的一个子集，每个图像只有一个正面标签，而其余的培训图像仍保留未标记。为了处理这个新设置，我们建议一个端到端的深层网络PLMCL（部分标签动量课程学习），可以学会为部分标记和未标记的培训图像生成自信的伪标签。基于动量的新法律通过考虑更新伪标签的速度，更新每个训练图像上的软伪标签，这些标签的更新有助于避免捕获到低信心的本地最低限度，尤其是在培训的早期阶段，由于缺乏观察到的标签和培训的早期阶段对伪标签的信心。此外，我们还提出了一个信心的调度程序，以适应性地对不同标签进行易于锻炼的学习。广泛的实验表明，我们提出的PLMCL在三个不同数据集上的各个部分标签设置下优于许多最先进的多标签分类方法。

translated by 谷歌翻译

Confidence-Aware Paced-Curriculum Learning by Label Smoothing for Surgical Scene Understanding

Mengya Xu , Mobarakol Islam , Ben Glocker , Hongliang Ren

分类：计算机视觉

2022-12-22

Curriculum learning and self-paced learning are the training strategies that gradually feed the samples from easy to more complex. They have captivated increasing attention due to their excellent performance in robotic vision. Most recent works focus on designing curricula based on difficulty levels in input samples or smoothing the feature maps. However, smoothing labels to control the learning utility in a curriculum manner is still unexplored. In this work, we design a paced curriculum by label smoothing (P-CBLS) using paced learning with uniform label smoothing (ULS) for classification tasks and fuse uniform and spatially varying label smoothing (SVLS) for semantic segmentation tasks in a curriculum manner. In ULS and SVLS, a bigger smoothing factor value enforces a heavy smoothing penalty in the true label and limits learning less information. Therefore, we design the curriculum by label smoothing (CBLS). We set a bigger smoothing value at the beginning of training and gradually decreased it to zero to control the model learning utility from lower to higher. We also designed a confidence-aware pacing function and combined it with our CBLS to investigate the benefits of various curricula. The proposed techniques are validated on four robotic surgery datasets of multi-class, multi-label classification, captioning, and segmentation tasks. We also investigate the robustness of our method by corrupting validation data into different severity levels. Our extensive analysis shows that the proposed method improves prediction accuracy and robustness.

translated by 谷歌翻译

Lesion-Aware Contrastive Representation Learning for Histopathology Whole Slide Images Analysis

Jun Li , Yushan Zheng , Kun Wu , Jun Shi , Fengying Xie , Zhiguo Jiang

分类：计算机视觉

2022-06-27

局部表示学习是促进组织病理学整体幻灯片图像分析的性能的关键挑战。先前的表示学习方法遵循监督学习范式。但是，大规模WSIS的手动注释是耗时且劳动力密集的。因此，自我监督的对比学习最近引起了密集的关注。目前的对比学习方法将每个样本视为一个类别，这遭受了类碰撞问题，尤其是在组织病理学图像分析的领域。在本文中，我们提出了一个新颖的对比表示学习框架，称为病变感染对比学习（LACL），用于组织病理学整个幻灯片图像分析。我们基于内存库结构建立了病变队列，以存储不同类别WSIS的表示形式，这使对比模型可以在训练过程中选择性定义负面对。此外，我们设计了一个队列改进策略，以净化病变队列中存储的表示形式。实验结果表明，LACL在不同数据集上学习在组织病理学图像表示学习中的最佳性能，并且在不同的WSI分类基准下的最先进方法优于最先进的方法。该代码可在https://github.com/junl21/lacl上获得。

translated by 谷歌翻译

Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition

Zhisheng Zhong , Jiequan Cui , Zeming Li , Eric Lo , Jian Sun , Jiaya Jia

分类：计算机视觉

2022-03-22

深度神经网络在严重的类不平衡数据集上的表现不佳。鉴于对比度学习的有希望的表现，我们提出了重新平衡的暹罗对比度采矿（RESCOM）来应对不平衡的识别。基于数学分析和仿真结果，我们声称监督的对比学习在原始批次和暹罗批次水平上都遭受双重失衡问题，这比长尾分类学习更为严重。在本文中，在原始批处理水平上，我们引入了级别平衡的监督对比损失，以分配不同类别的自适应权重。在暹罗批次级别，我们提出了一个级别平衡的队列，该队列维持所有类的键相同。此外，我们注意到，相对于对比度逻辑的不平衡对比损失梯度可以将其分解为阳性和负面因素，易于阳性和易于负面因素将使对比度梯度消失。我们建议有监督的正面和负面对挖掘，以获取信息对的对比度计算并改善表示形式学习。最后，为了大致最大程度地提高两种观点之间的相互信息，我们提出了暹罗平衡的软性软件，并与一阶段训练的对比损失结合。广泛的实验表明，在多个长尾识别基准上，RESCON优于先前的方法。我们的代码和模型可公开可用：https：//github.com/dvlab-research/rescom。

translated by 谷歌翻译

DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples Discrimination

Tingting Wu , Xiao Ding , Hao Zhang , Jinglong Gao , Li Du , Bing Qin , Ting Liu

分类：机器学习 | 人工智能 | 计算机视觉

2022-08-21

给定标签噪声的数据（即数据不正确），深神经网络将逐渐记住标签噪声和损害模型性能。为了减轻此问题，提出了课程学习，以通过在有意义的（例如，易于硬）序列中订购培训样本来提高模型性能和概括。先前的工作将错误的样本作为通用的硬性样本，而无需区分硬样品（即正确数据中的硬样品）和不正确的样本。确实，模型应该从硬样本中学习，以促进概括而不是过度拟合错误。在本文中，我们通过在现有的任务损失之外附加新颖的损失函数Indimloss来解决此问题。它的主要影响是在训练的早期阶段自动，稳定地估计简易样品和困难样本（包括硬和不正确的样品）的重要性，以改善模型性能。然后，在以下阶段中，歧视专门用于区分硬性和不正确样本以改善模型的概括。这种培训策略可以以自我监督的方式动态制定，从而有效地模仿课程学习的主要原则。关于图像分类，图像回归，文本序列回归和事件关系推理的实验证明了我们方法的多功能性和有效性，尤其是在存在多样化的噪声水平的情况下。

translated by 谷歌翻译

Dynamic Curriculum Learning for Great Ape Detection in the Wild

Xinyu Yang , Tilo Burghardt , Majid Mirmehdi

分类：计算机视觉

2022-04-30

We propose a novel end-to-end curriculum learning approach for sparsely labelled animal datasets leveraging large volumes of unlabelled data to improve supervised species detectors. We exemplify the method in detail on the task of finding great apes in camera trap footage taken in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach adjusts learning parameters dynamically over time and gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with curriculum learning policies and show how learning collapse can be avoided. We discuss theoretical arguments, ablations, and significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding approx. 1.8M frames. We also demonstrate our method can outperform supervised baselines with significant margins on sparse label versions of other animal datasets such as Bees and Snapshot Serengeti. We note that performance advantages are strongest for smaller labelled ratios common in ecological applications. Finally, we show that our approach achieves competitive benchmarks for generic object detection in MS-COCO and PASCAL-VOC indicating wider applicability of the dynamic learning concepts introduced. We publish all relevant source code, network weights, and data access details for full reproducibility. The code is available at https://github.com/youshyee/DCL-Detection.

translated by 谷歌翻译

Confidence-Guided Learning Process for Continuous Classification of Time Series

Chenxi Sun , Moxian Song , Derun Can , Baofeng Zhang , Shenda Hong , Hongyan Li

分类：机器学习

2022-08-14

在现实世界中，时间序列的课程通常在最后一次标记，但是许多应用程序需要在每个时间点进行分类时间序列。例如关键患者的结果仅在最后确定，但应始终诊断出他以及时治疗。因此，我们提出了一个新概念：时间序列的连续分类（CCT）。它要求模型在不同的时间阶段学习数据。但是时间序列动态发展，导致不同的数据分布。当模型学习多分布时，它总是会忘记或过度贴身。我们建议，有意义的学习计划是由于一个有趣的观察而潜在的：通过信心来衡量，模型学习多个分布的过程类似于人类学习的过程多重知识。因此，我们提出了一种新型的CCT（C3T）的置信度引导方法。它可以模仿邓宁·克鲁格效应所描述的交替人类信心。我们定义了安排数据的客观信心，以及控制学习持续时间的自信。四个现实世界数据集的实验表明，C3T比CCT的所有基准更准确。

translated by 谷歌翻译

RadFormer: Transformers with Global-Local Attention for Interpretable and Accurate Gallbladder Cancer Detection

Soumen Basu , Mayank Gupta , Pratyaksha Rana , Pankaj Gupta , Chetan Arora

分类：计算机视觉

2022-11-09

We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer

translated by 谷歌翻译

Generating and Weighting Semantically Consistent Sample Pairs for Ultrasound Contrastive Learning

Yixiong Chen , Chunhui Zhang , Chris H. Q. Ding , Li Liu

分类：计算机视觉 | 机器学习

2022-12-08

Well-annotated medical datasets enable deep neural networks (DNNs) to gain strong power in extracting lesion-related features. Building such large and well-designed medical datasets is costly due to the need for high-level expertise. Model pre-training based on ImageNet is a common practice to gain better generalization when the data amount is limited. However, it suffers from the domain gap between natural and medical images. In this work, we pre-train DNNs on ultrasound (US) domains instead of ImageNet to reduce the domain gap in medical US applications. To learn US image representations based on unlabeled US videos, we propose a novel meta-learning-based contrastive learning method, namely Meta Ultrasound Contrastive Learning (Meta-USCL). To tackle the key challenge of obtaining semantically consistent sample pairs for contrastive learning, we present a positive pair generation module along with an automatic sample weighting module based on meta-learning. Experimental results on multiple computer-aided diagnosis (CAD) problems, including pneumonia detection, breast cancer classification, and breast tumor segmentation, show that the proposed self-supervised method reaches state-of-the-art (SOTA). The codes are available at https://github.com/Schuture/Meta-USCL.

translated by 谷歌翻译

Curriculum learning for improved femur fracture classification: scheduling data with prior knowledge and uncertainty

Amelia Jiménez-Sánchez , Diana Mateus , Sonja Kirchhoff , Chlodwig Kirchhoff , Peter Biberthaler , Nassir Navab , Miguel A. González Ballester , Gemma Piella

分类：计算机视觉

2020-07-31

来自X射线图像的近端股骨骨折的足够分类对于治疗选择和患者的临床结果至关重要。我们依赖于常用的AO系统，该系统描述了将图像分类为类型和亚型的分层知识树根据裂缝的位置和复杂性。在本文中，我们提出了一种基于卷积神经网络（CNN）自动分类近端股骨骨折的近端骨折分类为3和7 AO类。如已知所知，CNNS需要具有可靠标签的大型和代表性数据集，这很难收集手头的应用。在本文中，我们设计了一个课程学习（CL）方法，在这种情况下通过基本的CNNS性能提高。我们的小说配方团结了三个课程策略：单独加权培训样本，重新排序培训集，以及数据采样子集。这些策略的核心是评分函数排名训练样本。我们定义了两种小说评分函数：一个来自域的特定于域的先前知识和原始的自我节奏的不确定性分数。我们对近端股骨射线照片的临床数据集进行实验。课程改善了近端股骨骨折分类，达到了经验丰富的创伤外科医生的性能。最佳课程方法根据现有知识重新排列培训集，从而达到15％的分类提高。使用公开可用的MNIST DataSet，我们进一步讨论并展示了我们统一的CL配方对三个受控和具有挑战性的数字识别方案的好处：具有有限的数据，在类别 - 不平衡下以及在标签噪声存在下。我们的工作代码可在：https://github.com/ameliajimenez/curriculum-learning-prior -unctainty。

translated by 谷歌翻译

Contextual Similarity is More Valuable than Character Similarity: Curriculum Learning for Chinese Spell Checking

Ding Zhang , Yinghui Li , Qingyu Zhou , Shirong Ma , Yangning Li , Yunbo Cao , Hai-Tao Zheng

分类：自然语言处理

2022-07-17

中文拼写检查（CSC）任务旨在检测和纠正中文拼写错误。近年来，相关研究的重点是引入“混乱设置”以增强CSC模型的角色相似性，忽略了包含更丰富信息的字符的上下文。为了更好地利用上下文相似性，我们为CSC任务提供了一个简单而有效的课程学习框架。借助我们设计的模型不足框架，现有的CSC型号将从人类学习汉字并取得进一步改进的培训。对广泛使用的Sighan数据集进行了广泛的实验和详细分析表明，我们的方法的表现优于先前的最新方法。

translated by 谷歌翻译

General Greedy De-bias Learning

Xinzhe Han , Shuhui Wang , Chi Su , Qingming Huang , Qi Tian

分类：机器学习 | 计算机视觉

2021-12-20

神经网络通常使预测依赖于数据集的虚假相关性，而不是感兴趣的任务的内在特性，面对分布外（OOD）测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差，它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置，但在训练和测试数据来自相同分布时，它们会降低。在本文中，我们提出了一般的贪婪去偏见学习框架（GGD），它贪婪地训练偏置模型和基础模型，如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例，从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力，但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程，并将课程正规化为由课程学习启发的GGD，这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验，对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型，其中具有现有知识和自组合偏置模型而无需先验知识。

translated by 谷歌翻译

Sample Prior Guided Robust Model Learning to Suppress Noisy Labels

Wenkai Chen , Chuang Zhu , Yi Chen

分类：计算机视觉 | 机器学习

2021-12-02

不完美的标签在现实世界数据集中无处不在，严重损害了模型性能。几个最近处理嘈杂标签的有效方法有两个关键步骤：1）将样品分开通过培训丢失，2）使用半监控方法在错误标记的集合中生成样本的伪标签。然而，由于硬样品和噪声之间的类似损失分布，目前的方法总是损害信息性的硬样品。在本文中，我们提出了PGDF（先前引导的去噪框架），通过生成样本的先验知识来学习深层模型来抑制噪声的新框架，这被集成到分割样本步骤和半监督步骤中。我们的框架可以将更多信息性硬清洁样本保存到干净标记的集合中。此外，我们的框架还通过抑制当前伪标签生成方案中的噪声来促进半监控步骤期间伪标签的质量。为了进一步增强硬样品，我们在训练期间在干净的标记集合中重新重量样品。我们使用基于CiFar-10和CiFar-100的合成数据集以及现实世界数据集WebVision和服装1M进行了评估了我们的方法。结果表明了最先进的方法的大量改进。

translated by 谷歌翻译

Learning from Noisy Labels with Coarse-to-Fine Sample Credibility Modeling

Boshen Zhang , Yuxi Li , Yuanpeng Tu , Jinlong Peng , Yabiao Wang , Cunlin Wu , Yang Xiao , Cairong Zhao

分类：计算机视觉

2022-08-23

带有嘈杂标签的训练深神经网络（DNN）实际上是具有挑战性的，因为不准确的标签严重降低了DNN的概括能力。以前的努力倾向于通过识别带有粗糙的小损失标准来减轻嘈杂标签的干扰的嘈杂数据来处理统一的denoising流中的零件或完整数据，而忽略了嘈杂样本的困难是不同的，因此是刚性和统一的。数据选择管道无法很好地解决此问题。在本文中，我们首先提出了一种称为CREMA的粗到精细的稳健学习方法，以分裂和串扰的方式处理嘈杂的数据。在粗糙水平中，干净和嘈杂的集合首先从统计意义上就可信度分开。由于实际上不可能正确对所有嘈杂样本进行分类，因此我们通过对每个样本的可信度进行建模来进一步处理它们。具体而言，对于清洁集，我们故意设计了一种基于内存的调制方案，以动态调整每个样本在训练过程中的历史可信度顺序方面的贡献，从而减轻了错误地分组为清洁集中的嘈杂样本的效果。同时，对于分类为嘈杂集的样品，提出了选择性标签更新策略，以纠正嘈杂的标签，同时减轻校正错误的问题。广泛的实验是基于不同方式的基准，包括图像分类（CIFAR，Clothing1M等）和文本识别（IMDB），具有合成或自然语义噪声，表明CREMA的优势和普遍性。

translated by 谷歌翻译

Dynamic Adaptive Threshold based Learning for Noisy Annotations Robust Facial Expression Recognition

Darshan Gera , Naveen Siva Kumar Badveeti , Bobbili Veerendra Raj Kumar , S Balasubramanian

分类：计算机视觉 | 人工智能

2022-08-22

现实世界的面部表达识别（FER）数据集遭受吵闹的注释，由于众包，表达式的歧义，注释者的主观性和类间的相似性。但是，最近的深层网络具有强大的能力，可以记住嘈杂的注释导致腐蚀功能嵌入和泛化不良的能力。为了处理嘈杂的注释，我们提出了一个动态FER学习框架（DNFER），其中根据训练过程中的动态类特定阈值选择了干净的样品。具体而言，DNFER基于使用选定的干净样品和使用所有样品的无监督培训的监督培训。在训练过程中，每个微型批次的平均后类概率被用作动态类特异性阈值，以选择干净的样品进行监督训练。该阈值与噪声率无关，与其他方法不同，不需要任何干净的数据。此外，要从所有样品中学习，使用无监督的一致性损失对齐弱调节图像和强大图像之间的后验分布。我们证明了DNFER在合成和实际噪声注释的FER数据集（如RaFDB，Ferplus，Sfew和altimpnet）上的鲁棒性。

translated by 谷歌翻译

How to Teach: Learning Data-Free Knowledge Distillation from Curriculum

Jingru Li , Sheng Zhou , Liangcheng Li , Xifeng Yan , Zhi Yu , Jiajun Bu

分类：计算机视觉

2022-08-29

无数据知识蒸馏（DFKD）的目的是在没有培训数据的情况下培训从教师网络的轻量级学生网络。现有方法主要遵循生成信息样本的范式，并通过针对数据先验，边界样本或内存样本来逐步更新学生模型。但是，以前的DFKD方法很难在不同的训练阶段动态调整生成策略，这反过来又很难实现高效且稳定的训练。在本文中，我们探讨了如何从课程学习（CL）的角度来教学学生，并提出一种新方法，即“ CUDFKD”，即“使用课程的无数据知识蒸馏”。它逐渐从简单的样本到困难的样本学习，这类似于人类学习的方式。此外，我们还提供了对主要化最小化（MM）算法的理论分析，并解释了CUDFKD的收敛性。在基准数据集上进行的实验表明，使用简单的课程设计策略，CUDFKD可以在最先进的DFKD方法和不同的基准测试中实现最佳性能，例如CIFAR10上RESNET18模型的95.28 \％TOP1的精度，这是更好的而不是从头开始培训数据。训练很快，在30个时期内达到90 \％的最高精度，并且训练期间的差异稳定。同样在本文中，还分析和讨论了CUDFKD的适用性。

translated by 谷歌翻译

HTML版本

Curriculum Temperature for Knowledge Distillation

Zheng Li , Xiang Li , Lingfeng Yang , Borui Zhao , Renjie Song , Lei Luo , Jun Li , Jian Yang

分类：计算机视觉

2022-11-29

Most existing distillation methods ignore the flexible role of the temperature in the loss function and fix it as a hyper-parameter that can be decided by an inefficient grid search. In general, the temperature controls the discrepancy between two distributions and can faithfully determine the difficulty level of the distillation task. Keeping a constant temperature, i.e., a fixed level of task difficulty, is usually sub-optimal for a growing student during its progressive learning stages. In this paper, we propose a simple curriculum-based technique, termed Curriculum Temperature for Knowledge Distillation (CTKD), which controls the task difficulty level during the student's learning career through a dynamic and learnable temperature. Specifically, following an easy-to-hard curriculum, we gradually increase the distillation loss w.r.t. the temperature, leading to increased distillation difficulty in an adversarial manner. As an easy-to-use plug-in technique, CTKD can be seamlessly integrated into existing knowledge distillation frameworks and brings general improvements at a negligible additional computation cost. Extensive experiments on CIFAR-100, ImageNet-2012, and MS-COCO demonstrate the effectiveness of our method. Our code is available at https://github.com/zhengli97/CTKD.

translated by 谷歌翻译