广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
使用文本,图像,音频,视频等多种方式的多模式深度学习系统,与单独的方式(即单向)系统相比,显示出更好的性能。多式联机学习涉及多个方面:表示,翻译,对齐,融合和共同学习。在当前多式联机学习状态下,假设是在训练和测试时间期间存在,对齐和无噪声。然而,在现实世界的任务中,通常,观察到一个或多个模式丢失,嘈杂,缺乏注释数据,具有不可靠的标签,并且在训练或测试中稀缺,或两者都稀缺。这种挑战是由称为多式联合学习的学习范例解决的。通过使用模态之间的知识传输,包括其表示和预测模型,通过从另一个(资源丰富的)方式利用来自另一(资源丰富的)模型的知识来帮助实现(资源差)模型的建模。共同学习是一个新兴地区,没有专注的评论,明确地关注共同学习所解决的所有挑战。为此,在这项工作中,我们对新兴的多式联合学习领域提供了全面的调查,尚未完整探讨。我们审查实施的实施,以克服一个或多个共同学习挑战,而不明确地将它们视为共同学习挑战。我们基于共同学习和相关实施解决的挑战,展示了多式联合学习的综合分类。用于包括最新的技术与一些应用程序和数据集一起审查。我们的最终目标是讨论挑战和观点以及未来工作的重要思想和方向,我们希望对整个研究界的有益,重点关注这一令人兴奋的领域。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
人类每天产生的exabytes数据,导致越来越需要对大数据带来的多标签学习的大挑战的新努力。例如,极端多标签分类是一个有效且快速增长的研究区域,可以处理具有极大数量的类或标签的分类任务;利用具有有限监督的大规模数据构建一个多标签分类模型对实际应用变得有价值。除此之外,如何收获深度学习的强大学习能力,有巨大努力,以更好地捕获多标签的标签依赖性学习,这是深入学习解决现实世界分类任务的关键。然而,有人指出,缺乏缺乏系统性研究,明确关注分析大数据时代的多标签学习的新兴趋势和新挑战。呼吁综合调查旨在满足这项任务和描绘未来的研究方向和新应用。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
Deep domain adaptation has emerged as a new learning technique to address the lack of massive amounts of labeled data. Compared to conventional methods, which learn shared feature subspaces or reuse important source instances with shallow representations, deep domain adaptation methods leverage deep networks to learn more transferable representations by embedding domain adaptation in the pipeline of deep learning. There have been comprehensive surveys for shallow domain adaptation, but few timely reviews the emerging deep learning based methods. In this paper, we provide a comprehensive survey of deep domain adaptation methods for computer vision applications with four major contributions. First, we present a taxonomy of different deep domain adaptation scenarios according to the properties of data that define how two domains are diverged. Second, we summarize deep domain adaptation approaches into several categories based on training loss, and analyze and compare briefly the state-of-the-art methods under these categories. Third, we overview the computer vision applications that go beyond image classification, such as face recognition, semantic segmentation and object detection. Fourth, some potential deficiencies of current methods and several future directions are highlighted.
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
Transfer learning aims at improving the performance of target learners on target domains by transferring the knowledge contained in different but related source domains. In this way, the dependence on a large number of target domain data can be reduced for constructing target learners. Due to the wide application prospects, transfer learning has become a popular and promising area in machine learning. Although there are already some valuable and impressive surveys on transfer learning, these surveys introduce approaches in a relatively isolated way and lack the recent advances in transfer learning. Due to the rapid expansion of the transfer learning area, it is both necessary and challenging to comprehensively review the relevant studies. This survey attempts to connect and systematize the existing transfer learning researches, as well as to summarize and interpret the mechanisms and the strategies of transfer learning in a comprehensive way, which may help readers have a better understanding of the current research status and ideas. Unlike previous surveys, this survey paper reviews more than forty representative transfer learning approaches, especially homogeneous transfer learning approaches, from the perspectives of data and model. The applications of transfer learning are also briefly introduced. In order to show the performance of different transfer learning models, over twenty representative transfer learning models are used for experiments. The models are performed on three different datasets, i.e., Amazon Reviews, Reuters-21578, and Office-31. And the experimental results demonstrate the importance of selecting appropriate transfer learning models for different applications in practice.
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
零拍摄学习(ZSL)旨在将知识从看见课程转移到语义相关的看不见的看不见的类,这在训练期间不存在。 ZSL的有希望的策略是在语义侧信息中综合未经调节的视野类的视觉特征,并结合元学习,以消除模型对所看到的课程的固有偏差。虽然现有的元生成方法追求跨任务分布的共同模型,但我们的目标是构建适应任务特征的生成网络。为此,我们提出了一个属性调制的生成元模型,用于零射击学习(Amaz)。我们的模型包括属性感知调制网络,属性增强生成网络和属性加权分类器。给定看不见的类,调制网络通过应用特定任务的变换自适应地调制发电机,使得生成网络可以适应高度多样化的任务。加权分类器利用数据质量来增强培训过程,进一步提高模型性能。我们对四种广泛使用的基准测试的实证评估表明,Amaz优先效仿最先进的方法在ZSL和广义ZSL设置中,展示了我们方法的优越性。我们对零拍摄图像检索任务的实验表明了Amaz的合成描绘真实视觉特征的情况的能力。
translated by 谷歌翻译
虽然在许多域内生成并提供了大量的未标记数据,但对视觉数据的自动理解的需求高于以往任何时候。大多数现有机器学习模型通常依赖于大量标记的训练数据来实现高性能。不幸的是,在现实世界的应用中,不能满足这种要求。标签的数量有限,手动注释数据昂贵且耗时。通常需要将知识从现有标记域传输到新域。但是,模型性能因域之间的差异(域移位或数据集偏差)而劣化。为了克服注释的负担,域适应(DA)旨在在将知识从一个域转移到另一个类似但不同的域中时减轻域移位问题。无监督的DA(UDA)处理标记的源域和未标记的目标域。 UDA的主要目标是减少标记的源数据和未标记的目标数据之间的域差异,并在培训期间在两个域中学习域不变的表示。在本文中,我们首先定义UDA问题。其次,我们从传统方法和基于深度学习的方法中概述了不同类别的UDA的最先进的方法。最后,我们收集常用的基准数据集和UDA最先进方法的报告结果对视觉识别问题。
translated by 谷歌翻译
深度学习已成为解决不同领域中现实世界中问题的首选方法,部分原因是它能够从数据中学习并在广泛的应用程序上实现令人印象深刻的性能。但是,它的成功通常取决于两个假设:(i)精确模型拟合需要大量标记的数据集,并且(ii)培训和测试数据是独立的且分布相同的。因此,不能保证它在看不见的目标域上的性能,尤其是在适应阶段遇到分布数据的数据时。目标域中数据的性能下降是部署深层神经网络的关键问题,这些网络已成功地在源域中的数据训练。通过利用标记的源域数据和未标记的目标域数据来执行目标域中的各种任务,提出了无监督的域适应(UDA)来对抗这一点。 UDA在自然图像处理,视频分析,自然语言处理,时间序列数据分析,医学图像分析等方面取得了令人鼓舞的结果。在本综述中,作为一个快速发展的主题,我们对其方法和应用程序进行了系统的比较。此外,还讨论了UDA与其紧密相关的任务的联系,例如域的概括和分布外检测。此外,突出显示了当前方法和可能有希望的方向的缺陷。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译