本文提出了一种新的方法,该方法结合了卷积层(CLS)和大规模的度量度量,用于在小数据集上进行培训模型以进行纹理分类。这种方法的核心是损失函数,该函数计算了感兴趣的实例和支持向量之间的距离。目的是在迭代中更新CLS的权重,以学习一类之间具有较大利润的表示形式。每次迭代都会产生一个基于这种表示形式的支持向量表示的大细边缘判别模型。拟议方法的优势W.R.T.卷积神经网络(CNN)为两倍。首先,由于参数数量减少,与等效的CNN相比,它允许用少量数据进行表示。其次,自返回传播仅考虑支持向量以来,它的培训成本较低。关于纹理和组织病理学图像数据集的实验结果表明,与等效的CNN相比,所提出的方法以较低的计算成本和更快的收敛性达到了竞争精度。
translated by 谷歌翻译
卷积神经网络已在图像分类方面取得了成功的结果,从而实现了超过人类水平的实时结果。但是,纹理图像仍然对这些模型构成一些挑战,例如,在出现这些图像,高层间相似性,没有代表对象的全局观点的几个问题中,培训的数据可用性有限,并且其他。在这种情况下,本文的重点是提高纹理分类中卷积神经网络的准确性。这是通过从验证的神经网络的多个卷积层中提取特征并使用Fisher载体聚集此类特征来完成的。使用较早卷积层的特征的原因是获得了较少域的信息。我们验证方法对基准数据集的纹理分类以及巴西植物物种识别的实际任务的有效性。在这两种情况下,在多层上计算出的Fisher矢量都优于制作方法,证实早期卷积层提供了有关分类纹理图像的重要信息。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
Although deep learning approaches have stood out in recent years due to their state-of-the-art results, they continue to suffer from catastrophic forgetting, a dramatic decrease in overall performance when training with new classes added incrementally. This is due to current neural network architectures requiring the entire dataset, consisting of all the samples from the old as well as the new classes, to update the model-a requirement that becomes easily unsustainable as the number of classes grows. We address this issue with our approach to learn deep neural networks incrementally, using new data and only a small exemplar set corresponding to samples from the old classes. This is based on a loss composed of a distillation measure to retain the knowledge acquired from the old classes, and a cross-entropy loss to learn the new classes. Our incremental training is achieved while keeping the entire framework end-to-end, i.e., learning the data representation and the classifier jointly, unlike recent methods with no such guarantees. We evaluate our method extensively on the CIFAR-100 and Im-ageNet (ILSVRC 2012) image classification datasets, and show state-of-the-art performance.
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
本文解决了对象识别的问题,给出了一组图像作为输入(例如,多个相机源和视频帧)。基于卷积神经网络(CNN)的框架不会有效地利用这些集合,处理如观察到的模式,而不是捕获基础特征分布,因为它不考虑集合中的图像的方差。为了解决这个问题,我们提出了基于基于CNNS的CNNS作为分类器的NN层,作为分类器的NN层,可以更有效地处理图像,并且可以以端到端的方式训练。图像集由低维输入子空间表示;并且此输入子空间与参考子空间匹配,通过其规范角度的相似性,可解释和易于计算度量。 G-LMSM的关键思想是参考子空间被学习为基层歧管的点,用黎曼随机梯度下降而优化。这种学习是稳定,高效,理论上的接地。我们展示了我们提出的方法在手工形状识别,面部识别和面部情感识别方面的有效性。
translated by 谷歌翻译
深度学习模型记住培训数据,这损害了他们推广到代表性不足的课程的能力。我们从经验上研究了卷积神经网络对图像数据不平衡数据的内部表示,并测量了训练和测试集中模型特征嵌入之间的概括差距,这表明该差距对于少数类别的差异更大。这个洞察力使我们能够为不平衡数据设计有效的三相CNN培训框架。该框架涉及训练网络端到端的数据不平衡数据以学习准确的功能嵌入,在学习的嵌入式空间中执行数据增强以平衡火车分布,并在嵌入式平衡的培训数据上微调分类器头。我们建议在培训框架中使用广泛的过采样(EOS)作为数据增强技术。 EOS形成合成训练实例,作为少数族类样本与其最近的敌人之间的凸组合,以减少概括差距。提出的框架提高了与不平衡学习中常用的领先成本敏感和重新采样方法的准确性。此外,它比标准数据预处理方法(例如SMOTE和基于GAN的过采样)更有效,因为它需要更少的参数和更少的训练时间。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
无线电星系的连续排放通常可以分为不同的形态学类,如FRI,Frii,弯曲或紧凑。在本文中,我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务($ \ SIM 2000 $ Samples)。我们基于双网络应用了几次射击学习技术,并使用预先培训的DENSENET模型进行了先进技术的传输学习技术,如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \%的分类准确性,其中最大的混乱来源是弯曲和周五型星系。我们的结果表明,专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要,这预计将在不久的将来检测数十万个新的无线电星系。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
本文介绍了视觉表示(GEOCLR)的地理化对比度学习,以有效地训练深度学习卷积神经网络(CNN)。该方法通过使用附近位置拍摄的图像生成相似的图像对来利用地理网络信息,并将这些图像与相距遥远的图像对进行对比。基本的假设是,在近距离内收集的图像更可能具有相似的视觉外观,在海底机器人成像应用中可以合理地满足图像,在这些应用中,图像足迹仅限于几米的边缘长度,并将其重叠以使其重叠沿着车辆的轨迹,而海底底物和栖息地的斑块大小要大得多。这种方法的一个关键优点是它是自我监督的,并且不需要任何人类的CNN培训投入。该方法在计算上是有效的,可以使用在大多数海洋现场试验中可以访问的计算资源在多天AUV任务中之间的潜水之间产生结果。我们将GEOCLR应用于数据集上的栖息地分类,该数据集由使用自动水下车辆(AUV)收集的〜86K图像组成。我们演示了GEOCLR产生的潜在表示如何有效地指导人类注释工作,而与使用相同的CNN和同一CNN和最先进的SIMCLR相比,半监督框架平均将分类精度提高了10.2%。等效的人类注释培训。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
基于电动机图像(MI)的脑电脑界面(BCIS)允许通过解码神经生理现象来控制几种应用,这些现象通常通过使用非侵入性技术被脑电图(EEG)记录。尽管在基于MI的BCI的进展方面很大,但脑电图有特定于受试者和各种变化随时间。这些问题指出了提高分类绩效的重大挑战,特别是在独立的方式。为了克服这些挑战,我们提出了Min2Net,这是一个新的端到端多任务学习来解决这项任务。我们将深度度量学习集成到多任务AutoEncoder中,以从脑电图中学习紧凑且识别的潜在表示,并同时执行分类。这种方法降低了预处理的复杂性,导致EEG分类的显着性能改善。实验结果以本语独立的方式表明,MIN2Net优于最先进的技术,在SMR-BCI和OpenBMI数据集中分别实现了6.72%的F1分数提高,以及2.23%。我们证明MIN2NET在潜在代表中提高了歧视信息。本研究表明使用此模型的可能性和实用性为新用户开发基于MI的BCI应用,而无需校准。
translated by 谷歌翻译