卷积神经网络(CNN)的一个问题是,它们需要大型数据集来获得足够的鲁棒性。在小型数据集上,它们容易过度拟合。已经提出了许多方法来克服CNN的缺点。如果无法轻易收集其他样本,则一种常见的方法是使用增强技术从现有数据中生成更多数据点。在图像分类中,许多增强方法都使用简单的图像操纵算法。在这项工作中,我们通过添加通过组合14种增强方法生成的图像来构建合奏,其中第一次提出了其中三种。这些新型方法基​​于傅立叶变换(FT),ra transform(RT)和离散余弦变换(DCT)。预处理的RESNET50网络在训练集上进行了填充,其中包括从每种增强方法中得出的图像。这些网络和几个融合均在11个基准测试中进行了评估和比较。结果表明,通过组合不同的数据增强方法来产生分类器,这些分类器不仅可以与最新技术竞争,而且经常超过文献中报告的最佳方法,从而在数据级上建立合奏。
translated by 谷歌翻译
时间序列数据是数据驱动技术中使用的原始数据表示的基本类型之一。在机器状态监测中,时间序列振动数据用于深度神经网络的数据挖掘中。通常,振动数据被转换为使用深神经网络(DNN)进行分类的图像,并且缩放是图像表示最有效的形式。然而,DNN分类器需要大量标记的训练样本来达到最佳性能。因此,将多种形式的数据增强技术应用于分类器以补偿缺乏训练样本。然而,缩放图是现有增强技术受到的图形表示,因为它们要么改变图形含义,要么在改变物理含义的样本中有太多的噪声。在本研究中,提出了一种名为集合增强的数据增强技术来克服这种限制。该增强方法使用集合中添加的白噪声的功率到原始样本以产生真实样本。在使用集合平均信号之后,获得包含原始信号特性的新信号。使用模拟信号验证集合增强的参数。使用三种轴承振动数据使用三种最先进的传输学习(TL)模型来评估所提出的方法,即Inception-V3,MobileNet-V2和Reset50。增强的增量产生了增量:第一个增量产生与训练样本相同数量的假样本,并且在第二个增量中,样本的数量逐渐增加。所提出的方法的输出与使用深度卷积生成的对冲网络(DCGAN)的增强,增强,以及几何变换基的增强......
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Multilabel学习解决与多个类标签相关联的问题。这项工作提出了一种用于管理Multilabel分类的新集合方法:所提出的方法的核心结合了一组门控经常性单元和临时卷曲的临时卷积神经网络,这些单位与ADAM优化方法的变体训练。比较和测试的多个ADAM变体,包括在此提出的新颖之一;这些变型基于当前和过去梯度之间的差异,对于每个参数调整步长调整。所提出的神经网络方法也与包含多个聚类中心(IMCC)结合,这进一步提升了分类性能。九种数据集的多个实验代表各种多标签任务的多种实验证明了我们最好的合奏的稳健性,这被证明可以优于最先进的。用于在实验部分中生成最佳合奏的MATLAB代码将在https://github.com/lorisnanni获得。
translated by 谷歌翻译
自我监督的学习是一个强大的范例,用于在未标记的图像上学习。基于实例匹配的大量有效的新方法依赖于数据增强来推动学习,这些方法达成了优化流行识别基准的增强方案的粗略协议。但是,有强有力的理由可疑计算机视觉中的不同任务需要对不同(IN)差异进行编码的功能,因此可能需要不同的增强策略。在本文中,我们衡量了对比方法学到的修正学知识,并确认他们确实学会了与使用的增强的不变性,进一步表明,这一不变性大大转移到与姿势和照明的相关真实变化的变化很大程度上转移。我们展示了学习的InorRARCES强烈影响下游任务性能,并确认不同的下游任务从极性相反(IN)差异中受益,导致使用标准增强策略时的性能损失。最后,我们证明,具有互补的修正条件的表现简单融合可确保对所考虑的所有不同下游任务进行广泛的可转换性。
translated by 谷歌翻译
Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.
translated by 谷歌翻译
In recent years, Speech Emotion Recognition (SER) has been investigated mainly transforming the speech signal into spectrograms that are then classified using Convolutional Neural Networks pretrained on generic images and fine tuned with spectrograms. In this paper, we start from the general idea above and develop a new learning solution for SER, which is based on Compact Convolutional Transformers (CCTs) combined with a speaker embedding. With CCTs, the learning power of Vision Transformers (ViT) is combined with a diminished need for large volume of data as made possible by the convolution. This is important in SER, where large corpora of data are usually not available. The speaker embedding allows the network to extract an identity representation of the speaker, which is then integrated by means of a self-attention mechanism with the features that the CCT extracts from the spectrogram. Overall, the solution is capable of operating in real-time showing promising results in a cross-corpus scenario, where training and test datasets are kept separate. Experiments have been performed on several benchmarks in a cross-corpus setting as rarely used in the literature, with results that are comparable or superior to those obtained with state-of-the-art network architectures. Our code is available at https://github.com/JabuMlDev/Speaker-VGG-CCT.
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN)占据了计算机视野的领域,这要归功于它们提取功能及其在分类问题中出色的表现,例如在自动分析X射线中。不幸的是,这些神经网络被认为是黑盒算法,即不可能了解该算法如何实现最终结果。要将这些算法应用于不同领域并测试方法论的工作原理,我们需要使用可解释的AI技术。医学领域的大多数工作都集中在二进制或多类分类问题上。但是,在许多现实生活中,例如胸部X射线射线,可以同时出现不同疾病的放射学迹象。这引起了所谓的“多标签分类问题”。这些任务的缺点是类不平衡,即不同的标签没有相同数量的样本。本文的主要贡献是一种深度学习方法,用于不平衡的多标签胸部X射线数据集。它为当前未充分利用的Padchest数据集建立了基线,并基于热图建立了可解释的AI技术。该技术还包括概率和模型间匹配。我们系统的结果很有希望,尤其是考虑到使用的标签数量。此外,热图与预期区域相匹配,即它们标志着专家将用来做出决定的区域。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
我们将增强件应用于我们的数据集以增强我们预测的质量,并使我们的最终模型更具弹性,以嘈杂的数据和域漂移。然而,问题仍然存在,这些增强如何使用不同的超参数进行?在这项研究中,我们通过在应用于机器学习模型的不同增强时,通过执行当地代理(石灰)解释来评估模型的超参数的增强和影响。我们利用了用于称重每个增强的线性回归系数。我们的研究证明,有一些增强对超参数和其他更具弹性和可靠的其他增强。
translated by 谷歌翻译
神经网络在医疗图像分割任务上的成功通常依赖于大型标记的数据集用于模型培训。但是,由于数据共享和隐私问题,获取和手动标记大型医疗图像集是资源密集的,昂贵的,有时是不切实际的。为了应对这一挑战,我们提出了一个通用的对抗数据增强框架Advchain,旨在提高培训数据对医疗图像分割任务的多样性和有效性。 AdvChain通过动态数据增强来增强数据,从而产生随机链接的光线像和几何转换,以类似于现实而又具有挑战性的成像变化以扩展训练数据。通过在培训期间共同优化数据增强模型和分割网络,可以生成具有挑战性的示例,以增强下游任务的网络可推广性。所提出的对抗数据增强不依赖生成网络,可以用作通用分割网络中的插件模块。它在计算上是有效的,适用于低声监督和半监督学习。我们在两个MR图像分割任务上分析和评估该方法:心脏分割和前列腺分割具有有限的标记数据。结果表明,所提出的方法可以减轻对标记数据的需求,同时提高模型泛化能力,表明其在医学成像应用中的实际价值。
translated by 谷歌翻译
语义分割包括通过将其分配给从一组所有可用的标签来分类图像的每个像素。在过去的几年里,很多关注转移到这种任务。许多计算机视觉研究人员试图应用AutoEncoder结构来开发可以学习图像语义的模型以及它的低级表示。在给定输入的AutoEncoder架构中,编码器计算的输入的低维表示,然后解码器用于重建原始数据。在这项工作中,我们提出了一个卷积神经网络(CNNS)的集合。在集合方法中,许多不同的型号训练,然后用于分类,整体汇总了单个分类器的输出。该方法利用各种分类器的差异来提高整个系统的性能。通过使用不同的丢失函数强制执行单个分类器中的多样性。特别是,我们提出了一种新的损失函数,从骰子和结构相似度指数的组合产生。通过使用Deeplabv3 +和Hardnet环境结合不同的骨干网络来实现所提出的合奏。该提案是通过关于两个真实情景的广泛实证评估来评估:息肉和皮肤细分。所有代码都在HTTPS://github.com/lorisnanni在线提供。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
任何电子设备中包含的芯片都是通过圆形硅晶片制造的,这些芯片是通过不同生产阶段的检查机对其进行监控的。检查机检测并找到晶圆中的任何缺陷,并返回晶圆缺陷图(WDM),即,缺陷为lie的坐标列表,可以将其视为巨大,稀疏和二进制图像。在正常情况下,晶片表现出少量随机分布的缺陷,而以特定模式分组的缺陷可能表明生产线中的已知或新颖类别。不用说,半导体行业的主要关注点是确定这些模式并尽快进行干预以恢复正常的生产条件。在这里,我们将WDM监视作为开放式识别问题,以准确地将WDM分类为已知类别并迅速检测到新颖的模式。特别是,我们提出了一条基于Submanifold稀疏卷积网络的晶圆监测的综合管道,这是一种深层体系结构,旨在以任意分辨率处理稀疏数据,并在已知类别上进行了培训。为了检测新颖性,我们根据拟合在分类器潜在表示上的高斯混合模型定义了一个离群检测器。我们在WDM的真实数据集上进行的实验表明,Submanifold稀疏卷积直接处​​理全分辨率WDMS在已知类别上比传统的卷积神经网络产生了卓越的分类性能,这需要初步的封装以减少代表WDM的二元图像的大小。此外,我们的解决方案优于最先进的开放式识别解决方案,以检测新颖性。
translated by 谷歌翻译
这项研究建议使用生成模型(GAN)来增强欧洲裔欧洲裔数据集用于土地使用和土地覆盖(LULC)分类任务。我们使用DCGAN和WGAN-GP为数据集中的每个类生成图像。然后,我们探讨了在每种情况下将原始数据集增加约10%的效果对模型性能。GAN体系结构的选择似乎对模型性能没有明显的影响。然而,几何增强和GAN生成图像的结合改善了基线结果。我们的研究表明,GANS的增强可以改善卫星图像上深层分类模型的普遍性。
translated by 谷歌翻译
Deep convolutional networks have proven to be very successful in learning task specific features that allow for unprecedented performance on various computer vision tasks. Training of such networks follows mostly the supervised learning paradigm, where sufficiently many input-output pairs are required for training. Acquisition of large training sets is one of the key challenges, when approaching a new task. In this paper, we aim for generic feature learning and present an approach for training a convolutional network using only unlabeled data. To this end, we train the network to discriminate between a set of surrogate classes. Each surrogate class is formed by applying a variety of transformations to a randomly sampled 'seed' image patch. In contrast to supervised network training, the resulting feature representation is not class specific. It rather provides robustness to the transformations that have been applied during training. This generic feature representation allows for classification results that outperform the state of the art for unsupervised learning on several popular datasets . While such generic features cannot compete with class specific features from supervised training on a classification task, we show that they are advantageous on geometric matching problems, where they also outperform the SIFT descriptor.
translated by 谷歌翻译
音频数据增强是培训深度神经网络以解决音频分类任务的关键步骤。在本文中,我们在Matlab中引入了一个新型音频数据增强库的录音机。我们为RAW音频数据提供了15种不同的增强算法,8用于频谱图。我们有效地实施了几种增强技术,其有用性在文献中被广泛证明。据我们所知,这是最大的Matlab音频数据增强图书馆可自由使用。我们验证了我们在ESC-50数据集上评估它们的算法的效率。可以在https://github.com/lorisnanni/audiogmenter下载工具箱及其文档。
translated by 谷歌翻译