在人工智能的许多应用中,细粒度的变化检测和回归分析至关重要。实际上,由于缺乏可靠的基础真理信息和复杂性,因此这项任务通常是有挑战性的。因此,开发一个可以代表多个信息源的相关性和可靠性至关重要的框架。在本文中,我们调查了如何将多任务指标学习中的技术应用于实际数据中的细粒度变化。关键思想是,如果我们将一个单个对象的特定实例之间的兴趣指标中的增量变化纳入作为多任务指标学习框架中的一项任务,然后解释该限制将使用户被警报以对整体度量的整体度量不变。研究的技术是专门针对处理异质数据源的专门量身定制的。每个任务的输入数据可能包含缺失的值,该值的比例和分辨率在任务之间不存在,并且数据包含非独立且相同分布的(非IID)实例。根据我们最初的实验实施结果的结果,并讨论了该域中的相关研究,这可能为进一步的研究提供了方向。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
深度度量学习算法旨在学习有效的嵌入空间,以保持输入数据之间的相似性关系。尽管这些算法在广泛的任务中取得了显着的性能增长,但它们也未能考虑并增加全面的相似性约束。因此,在嵌入空间中学习了亚最佳度量。而且,到目前为止;关于它们在嘈杂标签的存在方面的研究很少。在这里,我们通过设计一个新颖而有效的深层差异损失(DCDL)功能来解决学习歧视性深层嵌入空间的关注和每个班级。在存在和没有噪声的情况下,我们在三个标准图像分类数据集和两个细粒图像识别数据集中的经验结果清楚地表明,在学习歧视性嵌入空间的同时,需要将这种类似的相似性关系以及传统算法结合在一起。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
学习遥感(RS)图像之间的相似性形成基于内容的RS图像检索(CBIR)的基础。最近,将图像的语义相似性映射到嵌入(度量标准)空间的深度度量学习方法已经发现非常流行。学习公制空间的常见方法依赖于将与作为锚称为锚的参考图像的类似(正)和不同(负)图像的三胞胎的选择。选择三胞胎是一个难以为多标签RS CBIR的困难任务,其中每个训练图像由多个类标签注释。为了解决这个问题,在本文中,我们提出了一种在为多标签RS CBIR问题定义的深神经网络(DNN)的框架中提出了一种新颖的三联样品采样方法。该方法基于两个主要步骤选择一小部分最多代表性和信息性三元组。在第一步中,使用迭代算法从当前迷你批量选择在嵌入空间中彼此多样化的一组锚。在第二步中,通过基于新颖的策略评估彼此之间的图像的相关性,硬度和多样性来选择不同的正面和负图像。在两个多标签基准档案上获得的实验结果表明,在DNN的上下文中选择最具信息丰富和代表性的三胞胎,导致:i)降低DNN训练阶段的计算复杂性,而性能没有任何显着损失; ii)由于信息性三元组允许快速收敛,因此学习速度的增加。所提出的方法的代码在https://git.tu-berlin.de/rsim/image-reetrieval-from-tropls上公开使用。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
Data in vision domain often exhibit highly-skewed class distribution, i.e., most data belong to a few majority classes, while the minority classes only contain a scarce amount of instances. To mitigate this issue, contemporary classification methods based on deep convolutional neural network (CNN) typically follow classic strategies such as class re-sampling or cost-sensitive training. In this paper, we conduct extensive and systematic experiments to validate the effectiveness of these classic schemes for representation learning on class-imbalanced data. We further demonstrate that more discriminative deep representation can be learned by enforcing a deep network to maintain both intercluster and inter-class margins. This tighter constraint effectively reduces the class imbalance inherent in the local data neighborhood. We show that the margins can be easily deployed in standard deep learning framework through quintuplet instance sampling and the associated triple-header hinge loss. The representation learned by our approach, when combined with a simple k-nearest neighbor (kNN) algorithm, shows significant improvements over existing methods on both high-and low-level vision classification tasks that exhibit imbalanced class distribution.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
许多度量学习任务,例如三胞胎学习,最近的邻居检索和可视化,主要是将最终度量是欧几里得距离的某种变体(例如余弦或玛哈拉诺省)的嵌入任务,并且算法必须学会嵌入点进入预选空间。通常不探索对非欧国人几何形状或适当性的研究,我们认为这是由于缺乏学习非欧盟距离距离的工具所致。在认为使用不对称方法特别研究的情况下,我们提出了一种通过输入凸神经网络以可微分方式学习任意伯格曼分歧的新方法。在一组新的和先前研究的任务中,包括不对称回归,排名和聚类,我们证明我们的方法比以前的布雷格曼学习方法更忠实地学习分歧。为此,我们获得了学习神经差异的第一种方法,并继承了布雷格曼分歧的许多不错的数学特性,为更好地发展和研究不对称距离学习提供了基础和工具。
translated by 谷歌翻译
Graph is an important data representation which appears in a wide diversity of real-world scenarios. Effective graph analytics provides users a deeper understanding of what is behind the data, and thus can benefit a lot of useful applications such as node classification, node recommendation, link prediction, etc. However, most graph analytics methods suffer the high computation and space cost. Graph embedding is an effective yet efficient way to solve the graph analytics problem. It converts the graph data into a low dimensional space in which the graph structural information and graph properties are maximumly preserved. In this survey, we conduct a comprehensive review of the literature in graph embedding. We first introduce the formal definition of graph embedding as well as the related concepts. After that, we propose two taxonomies of graph embedding which correspond to what challenges exist in different graph embedding problem settings and how the existing work address these challenges in their solutions. Finally, we summarize the applications that graph embedding enables and suggest four promising future research directions in terms of computation efficiency, problem settings, techniques and application scenarios.
translated by 谷歌翻译
Learning the distance metric between pairs of examples is of great importance for learning and visual recognition. With the remarkable success from the state of the art convolutional neural networks, recent works [1, 31] have shown promising results on discriminatively training the networks to learn semantic feature embeddings where similar examples are mapped close to each other and dissimilar examples are mapped farther apart. In this paper, we describe an algorithm for taking full advantage of the training batches in the neural network training by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. This step enables the algorithm to learn the state of the art feature embedding by optimizing a novel structured prediction objective on the lifted problem. Additionally, we collected Online Products dataset: 120k images of 23k classes of online products for metric learning. Our experiments on the CUB-200-2011 [37], CARS196 [19], and Online Products datasets demonstrate significant improvement over existing deep feature embedding methods on all experimented embedding sizes with the GoogLeNet [33] network.
translated by 谷歌翻译
人类每天产生的exabytes数据,导致越来越需要对大数据带来的多标签学习的大挑战的新努力。例如,极端多标签分类是一个有效且快速增长的研究区域,可以处理具有极大数量的类或标签的分类任务;利用具有有限监督的大规模数据构建一个多标签分类模型对实际应用变得有价值。除此之外,如何收获深度学习的强大学习能力,有巨大努力,以更好地捕获多标签的标签依赖性学习,这是深入学习解决现实世界分类任务的关键。然而,有人指出,缺乏缺乏系统性研究,明确关注分析大数据时代的多标签学习的新兴趋势和新挑战。呼吁综合调查旨在满足这项任务和描绘未来的研究方向和新应用。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
在本文中,我们提出了一种强大的样本生成方案来构建信息性三联网。所提出的硬样品生成是一种两级合成框架,通过两个阶段的有效正和负样品发生器产生硬样品。第一阶段将锚定向对具有分段线性操作,通过巧妙地设计条件生成的对抗网络来提高产生的样本的质量,以降低模式崩溃的风险。第二阶段利用自适应反向度量约束来生成最终的硬样本。在几个基准数据集上进行广泛的实验,验证了我们的方法比现有的硬样生成算法达到卓越的性能。此外,我们还发现,我们建议的硬样品生成方法结合现有的三态挖掘策略可以进一步提高深度度量学习性能。
translated by 谷歌翻译
我们分析了含有100,000个补丁的结直肠癌(CRC)组织病理学数据集的离线和在线三胞胎挖掘的效果。我们认为在线和离线采矿中,极端,即与给定锚的最远和最近的补丁。尽管许多工作仅着眼于在线选择三胞胎(批次),但我们还研究了以离线方式训练之前的极端距离和邻居补丁的效果。我们分析了极端案例的嵌入离线距离与在线采矿的影响,包括易于正面的,批处理半硬度,批处理硬线挖掘,邻里组件分析损失,其代理版本和距离加权采样。我们还根据极端距离进行了在线方法,并根据数据模式进行了全面比较离线和在线挖掘绩效,并将离线挖掘解释为具有大型迷你批量大小的在线挖掘的可拖延概括。同样,我们讨论了不同结直肠组织类型的关系。我们发现,离线和在线挖掘方法在本研究中具有可比的特定体系结构(例如RESNET-18)具有可比性的性能。此外,我们发现包括不同的极端距离在内的各种情况是有希望的,尤其是在在线方法中。
translated by 谷歌翻译