多标签图像分类允许从给定图像预测一组标签。与多类分类不同,每个图像只有一个标签,此类设置适用于更广泛的应用程序。在这项工作中,我们重新审视了多标签分类的两种流行方法:基于变压器的头和标签关系信息信息图处理分支。尽管基于变压器的头被认为比基于图基的分支更好地取得了更好的结果,但我们认为,使用适当的训练策略,基于图形的方法可以证明精确度的较小,同时将计算资源减少到推理上。在我们的训练策略中,我们在角度空间中引入了其修饰作用,而不是非对称损失(ASL)(ASL),而不是非对称损失(ASL)。与二进制跨熵损失相比,它隐含地学习了每个班级单位超球的代理特征向量,从而提供更好的歧视能力。根据提出的损失和训练策略,我们在单个模态方法中获得SOTA结果,以广泛的多标签分类基准,例如MS-Coco,Pascal-Voc,Nus wide和Visual Genome 500。 OpenVino培训扩展https://github.com/openvinotoolkit/deep-object-reid/tree/tree/multilabel
translated by 谷歌翻译
在本文中,我们介绍了ML-解码器,是一种基于新的关注的分类头。 ML-解码器通过查询预测类标签的存在,与全局平均池相比,能够更好地利用空间数据。通过重新设计解码器架构,并使用新颖的组解码方案,ML-Decoder是高效的,并且可以缩放到数千个类。与使用较大的骨架相比,ML-解码器一致地提供更好的速度准确性权衡。 ML-Decoder也是多功能的 - 它可以用作各种分类头的替代品,并在用Word查询操作时概括到未经看的类。新型查询增强进一步提高了其泛化能力。使用ML-Decoder,我们实现了最先进的结果:在MS-Coco多标签上,我们达到91.4%地图;在Nus宽零点上,我们达到31.1%ZSL地图;在Imagenet单一标签上,我们与Vanilla Reset50骨干骨架达到80.7%的新顶级得分,无需额外的数据或蒸馏。公共代码可在:https://github.com/alibaba-miil/ml_decoder
translated by 谷歌翻译
The task of multi-label image recognition is to predict a set of object labels that present in an image. As objects normally co-occur in an image, it is desirable to model the label dependencies to improve the recognition performance. To capture and explore such important dependencies, we propose a multi-label classification model based on Graph Convolutional Network (GCN). The model builds a directed graph over the object labels, where each node (label) is represented by word embeddings of a label, and GCN is learned to map this label graph into a set of inter-dependent object classifiers. These classifiers are applied to the image descriptors extracted by another sub-net, enabling the whole network to be end-to-end trainable. Furthermore, we propose a novel re-weighted scheme to create an effective label correlation matrix to guide information propagation among the nodes in GCN. Experiments on two multi-label image recognition datasets show that our approach obviously outperforms other existing state-of-the-art methods. In addition, visualization analyses reveal that the classifiers learned by our model maintain meaningful semantic topology.
translated by 谷歌翻译
在缺少标签(MLML)的情况下,多标签学习是一个具有挑战性的问题。现有方法主要关注网络结构或培训方案的设计,这提高了实现的复杂性。这项工作旨在满足MLML中的损失函数的潜力,而不增加程序和复杂性。为此,我们通过鲁棒损失设计提出了两种简单但有效的方法,基于观察到模型可以在高精度训练期间识别丢失的标签。首先是对底层的良好损失,即山损,重量底部以山的形状重量否定,以减轻虚假底片的效果。第二个是自定步损耗校正(SPLC)方法,其利用缺失标签的近似分布下的最大似然标准导出的丢失。在各种多标签图像分类数据集上的综合实验表明,我们的方法可以显着提高MLML的性能,并在MLML中实现新的最先进的损失函数。
translated by 谷歌翻译
Although various methods have been proposed for multi-label classification, most approaches still follow the feature learning mechanism of the single-label (multi-class) classification, namely, learning a shared image feature to classify multiple labels. However, we find this One-shared-Feature-for-Multiple-Labels (OFML) mechanism is not conducive to learning discriminative label features and makes the model non-robustness. For the first time, we mathematically prove that the inferiority of the OFML mechanism is that the optimal learned image feature cannot maintain high similarities with multiple classifiers simultaneously in the context of minimizing cross-entropy loss. To address the limitations of the OFML mechanism, we introduce the One-specific-Feature-for-One-Label (OFOL) mechanism and propose a novel disentangled label feature learning (DLFL) framework to learn a disentangled representation for each label. The specificity of the framework lies in a feature disentangle module, which contains learnable semantic queries and a Semantic Spatial Cross-Attention (SSCA) module. Specifically, learnable semantic queries maintain semantic consistency between different images of the same label. The SSCA module localizes the label-related spatial regions and aggregates located region features into the corresponding label feature to achieve feature disentanglement. We achieve state-of-the-art performance on eight datasets of three tasks, \ie, multi-label classification, pedestrian attribute recognition, and continual multi-label learning.
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
我们提出了一种称为分配 - 均衡损失的新损失功能,用于展示长尾类分布的多标签识别问题。与传统的单标分类问题相比,由于两个重要问题,多标签识别问题通常更具挑战性,即标签的共同发生以及负标签的主导地位(当被视为多个二进制分类问题时)。分配 - 平衡损失通过对标准二进制交叉熵丢失的两个关键修改来解决这些问题:1)重新平衡考虑标签共发生造成的影响的重量的新方法,以及2)负耐受规则化以减轻负标签的过度抑制。 Pascal VOC和Coco的实验表明,使用这种新损失功能训练的模型可实现现有方法的显着性能。代码和型号可在:https://github.com/wutong16/distributionbalancedloss。
translated by 谷歌翻译
深神网络的对象探测器正在不断发展,并用于多种应用程序,每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性,但低延迟任务需要资源和节能网络。不断提出了实时探测器,在高影响现实世界中是必需的,但是它们过分强调了准确性和速度的提高,而其他功能(例如多功能性,鲁棒性,资源和能源效率)则被省略。现有网络的参考基准不存在,设计新网络的标准评估指南也不存在,从而导致比较模棱两可和不一致的比较。因此,我们对广泛的数据集进行了多个实时探测器(基于锚点,关键器和变压器)的全面研究,并报告了一系列广泛指标的结果。我们还研究了变量,例如图像大小,锚固尺寸,置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性,以防止分配变化,自然腐败和对抗性攻击。此外,我们提供了校准分析来评估预测的可靠性。最后,为了强调现实世界的影响,我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力,我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向,该网络着重于更大而整体的概述,以实现深远的影响。
translated by 谷歌翻译
在低标签制度中,解决图像的多标签识别(MLR)是许多现实世界应用的一项艰巨任务。最近的工作学会了文本和视觉空间之间的一致性,以补偿图像标签不足,但由于可用的MLR注释量有限,因此失去了准确性。在这项工作中,我们利用数百万辅助图像文本对预测的文本和视觉特征的牢固对齐,并提出双背景优化(dualCoop)作为部分标签MLR和零发射MLR的统一框架。 DualCoop用类名来编码正面和负面的上下文,作为语言输入的一部分(即提示)。由于DualCoop仅在验证的视觉语言框架上引入了非常轻松的开销,因此它可以迅速适应具有有限的注释甚至看不见的类别的多标签识别任务。对两个挑战性低标签设置的标准多标签识别基准测试的实验证明了我们方法比最新方法的优势。
translated by 谷歌翻译
多标签图像识别是一个基本又实用的任务,因为真实世界的图像固有地拥有多个语义标签。然而,由于输入图像和输出标签空间的复杂性,难以收集大规模的多标签注释。为了降低注释成本,我们提出了一种结构化语义传输(SST)框架,使得能够培训具有部分标签的多标签识别模型,即,仅在每个图像中丢失其他标签(也称为未知标签)。该框架由两个互补传输模块组成,探索图像内和交叉图像语义相关性,以传输已知标签的知识,以为未知标签生成伪标签。具体地,一个图像内语义传输模块学习特定于图像的标签共出矩阵,并将已知的标签映射到基于该矩阵的补充未知标签。同时,交叉图像传输模块学习特定于类别的特征相似性,并帮助您具有高相似之处的补充未知标签。最后,已知和生成的标签都用于训练多标签识别模型。对Microsoft Coco,Visual Genome和Pascal VOC数据集的广泛实验表明,所提出的SST框架在当前最先进的算法上获得了卓越的性能。代码可用于\ url {https:/github.com/hcplab-sysu/sst-ml -pl
translated by 谷歌翻译
在计算机视觉中,多标签分类(包括零击的多标签分类)是具有许多真实应用程序的重要任务。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),具有视觉和文本特征之间的对齐方式,用于多标签分类任务。此外,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能。在标准的多标签基准数据集(MS-Coco和NUS范围内)进行的广泛实验表明,我们的方法显着胜过以前的方法,并为常规多标签分类,零发射的多标签提供最先进的性能分类和一种称为单一标签分类的极端情况,其中在单标签数据集(Imagenet-1K,Imagenet-21K)上训练的模型在多标签的模型(MS-Coco和NUS范围内)进行了测试。我们还分析了视觉文本一致性如何有助于提出的方法,验证DM码头的重要性,并证明了金字塔 - 反向视觉变压器的有效性。
translated by 谷歌翻译
零拍的学习依赖于语义类表示,例如手工设计的属性或学习的嵌入方式来预测类,而无需任何标记的示例。我们建议通过将节点从矢量空间中的常识知识图中嵌入节点来学习班级表示。常识知识图是未开发的明确高级知识的来源,几乎不需要人类的努力才能应用于一系列任务。为了捕获图中的知识,我们引入了ZSL-KG,这是一种具有新型变压器图卷积网络(TRGCN)的通用框架,用于生成类表示。我们提出的TRGCN体系结构计算节点社区的非线性组合。我们的结果表明,ZSL-KG在语言和视觉中的六个零弹药基准数据集中有五个基于WordNet的方法改进了基于WordNet的方法。
translated by 谷歌翻译
We propose a novel end-to-end curriculum learning approach for sparsely labelled animal datasets leveraging large volumes of unlabelled data to improve supervised species detectors. We exemplify the method in detail on the task of finding great apes in camera trap footage taken in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach adjusts learning parameters dynamically over time and gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with curriculum learning policies and show how learning collapse can be avoided. We discuss theoretical arguments, ablations, and significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding approx. 1.8M frames. We also demonstrate our method can outperform supervised baselines with significant margins on sparse label versions of other animal datasets such as Bees and Snapshot Serengeti. We note that performance advantages are strongest for smaller labelled ratios common in ecological applications. Finally, we show that our approach achieves competitive benchmarks for generic object detection in MS-COCO and PASCAL-VOC indicating wider applicability of the dynamic learning concepts introduced. We publish all relevant source code, network weights, and data access details for full reproducibility. The code is available at https://github.com/youshyee/DCL-Detection.
translated by 谷歌翻译
深度学习的繁荣有助于场景文本检测的快速进步。在所有具有卷积网络的方法中,基于细分的方法在检测任意形状和极端纵横比的文本实例方面的优越性,引起了广泛的关注。但是,自下而上的方法仅限于其分割模型的性能。在本文中,我们提出了DPTNET(双路线变压器网络),这是一种简单而有效的体系结构,可为场景文本检测任务建模全局和本地信息。我们进一步提出了一种平行的设计,将卷积网络与强大的自我发场机制相结合,以在注意力路径和卷积路径之间提供互补的线索。此外,开发了两个路径上的双向相互作用模块,以提供通道和空间尺寸的互补线索。我们还通过向其添加额外的多头注意力层来升级集中操作。我们的DPTNET在MSRA-TD500数据集上实现了最先进的结果,并就检测准确性和速度提供了其他标准基准的竞争结果。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
在本文中,我们提出了一种基于补丁的体系结构,用于多标签分类问题,其中仅在数据集图像中观察到一个正面标签。我们的贡献是双重的。首先,我们根据注意机制介绍了一个轻斑架构。接下来,利用嵌入自相似性的补丁,我们提供了一种新颖的策略来估计负面示例并处理积极和未标记的学习问题。实验表明,我们的体系结构可以从头开始训练,而在文献中相关方法需要进行类似数据库的预培训。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there have been significant advances in representation capabilities of the models and computational capabilities of GPUs. But the size of the biggest dataset has surprisingly remained constant. What will happen if we increase the dataset size by 10× or 100×? This paper takes a step towards clearing the clouds of mystery surrounding the relationship between 'enormous data' and visual deep learning. By exploiting the JFT-300M dataset which has more than 375M noisy labels for 300M images, we investigate how the performance of current vision tasks would change if this data was used for representation learning. Our paper delivers some surprising (and some expected) findings. First, we find that the performance on vision tasks increases logarithmically based on volume of training data size. Second, we show that representation learning (or pretraining) still holds a lot of promise. One can improve performance on many vision tasks by just training a better base model. Finally, as expected, we present new state-of-theart results for different vision tasks including image classification, object detection, semantic segmentation and human pose estimation. Our sincere hope is that this inspires vision community to not undervalue the data and develop collective efforts in building larger datasets.
translated by 谷歌翻译