Frost damage is one of the main factors leading to wheat yield reduction. Therefore, the detection of wheat frost accurately and efficiently is beneficial for growers to take corresponding measures in time to reduce economic loss. To detect the wheat frost, in this paper we create a hyperspectral wheat frost data set by collecting the data characterized by temperature, wheat yield, and hyperspectral information provided by the handheld hyperspectral spectrometer. However, due to the imbalance of data, that is, the number of healthy samples is much higher than the number of frost damage samples, a deep learning algorithm tends to predict biasedly towards the healthy samples resulting in model overfitting of the healthy samples. Therefore, we propose a method based on deep cost-sensitive learning, which uses a one-dimensional convolutional neural network as the basic framework and incorporates cost-sensitive learning with fixed factors and adjustment factors into the loss function to train the network. Meanwhile, the accuracy and score are used as evaluation metrics. Experimental results show that the detection accuracy and the score reached 0.943 and 0.623 respectively, this demonstration shows that this method not only ensures the overall accuracy but also effectively improves the detection rate of frost samples.
translated by 谷歌翻译
大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究,为农业作物制定了自动杂草管理系统。在这个过程中,其中一个主要任务是识别图像中的杂草。但是,杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色,纹理和形状类似,可以通过成像条件,当记录图像时的成像条件,地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中,我们调查了五个最先进的深神经网络,即VGG16,Reset-50,Inception-V3,Inception-Resnet-V2和MobileNetv2,并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是,我们通过组合几个较小的数据集,通过数据增强构成了一个大型DataSet,缓解了类别不平衡,并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行,而ResET-50比其他大型数据集上的其他深网络更好地执行。
translated by 谷歌翻译
随着深度学习技术的快速发展和计算能力的提高,深度学习已广泛应用于高光谱图像(HSI)分类领域。通常,深度学习模型通常包含许多可训练参数,并且需要大量标记的样品来实现最佳性能。然而,关于HSI分类,由于手动标记的难度和耗时的性质,大量标记的样本通常难以获取。因此,许多研究工作侧重于建立一个少数标记样本的HSI分类的深层学习模型。在本文中,我们专注于这一主题,并对相关文献提供系统审查。具体而言,本文的贡献是双重的。首先,相关方法的研究进展根据学习范式分类,包括转移学习,积极学习和少量学习。其次,已经进行了许多具有各种最先进的方法的实验,总结了结果以揭示潜在的研究方向。更重要的是,虽然深度学习模型(通常需要足够的标记样本)和具有少量标记样本的HSI场景之间存在巨大差距,但是通过深度学习融合,可以很好地表征小样本集的问题方法和相关技术,如转移学习和轻量级模型。为了再现性,可以在HTTPS://github.com/shuguoj/hsi-classification中找到纸张中评估的方法的源代码.git。
translated by 谷歌翻译
深度学习模型记住培训数据,这损害了他们推广到代表性不足的课程的能力。我们从经验上研究了卷积神经网络对图像数据不平衡数据的内部表示,并测量了训练和测试集中模型特征嵌入之间的概括差距,这表明该差距对于少数类别的差异更大。这个洞察力使我们能够为不平衡数据设计有效的三相CNN培训框架。该框架涉及训练网络端到端的数据不平衡数据以学习准确的功能嵌入,在学习的嵌入式空间中执行数据增强以平衡火车分布,并在嵌入式平衡的培训数据上微调分类器头。我们建议在培训框架中使用广泛的过采样(EOS)作为数据增强技术。 EOS形成合成训练实例,作为少数族类样本与其最近的敌人之间的凸组合,以减少概括差距。提出的框架提高了与不平衡学习中常用的领先成本敏感和重新采样方法的准确性。此外,它比标准数据预处理方法(例如SMOTE和基于GAN的过采样)更有效,因为它需要更少的参数和更少的训练时间。
translated by 谷歌翻译
监督学习已被广​​泛用于攻击分类,需要高质量的数据和标签。但是,数据通常是不平衡的,很难获得足够的注释。此外,有监督的模型应遵守现实世界的部署问题,例如防御看不见的人造攻击。为了应对挑战,我们提出了一个半监督的细粒攻击分类框架,该框架由编码器和两个分支机构结构组成,并且该框架可以推广到不同的监督模型。具有残留连接的多层感知器用作提取特征并降低复杂性的编码器。提出了复发原型模块(RPM)以半监督的方式有效地训练编码器。为了减轻数据不平衡问题,我们将重量任务一致性(WTC)引入RPM的迭代过程中,通过将较大的权重分配给损失函数中较少样本的类别。此外,为了应对现实世界部署中的新攻击,我们提出了一种主动调整重新采样(AAR)方法,该方法可以更好地发现看不见的样本数据的分布并调整编码器的参数。实验结果表明,我们的模型优于最先进的半监督攻击检测方法,分类精度提高了3%,训练时间降低了90%。
translated by 谷歌翻译
In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
translated by 谷歌翻译
With the development of a series of Galaxy sky surveys in recent years, the observations increased rapidly, which makes the research of machine learning methods for galaxy image recognition a hot topic. Available automatic galaxy image recognition researches are plagued by the large differences in similarity between categories, the imbalance of data between different classes, and the discrepancy between the discrete representation of Galaxy classes and the essentially gradual changes from one morphological class to the adjacent class (DDRGC). These limitations have motivated several astronomers and machine learning experts to design projects with improved galaxy image recognition capabilities. Therefore, this paper proposes a novel learning method, ``Hierarchical Imbalanced data learning with Weighted sampling and Label smoothing" (HIWL). The HIWL consists of three key techniques respectively dealing with the above-mentioned three problems: (1) Designed a hierarchical galaxy classification model based on an efficient backbone network; (2) Utilized a weighted sampling scheme to deal with the imbalance problem; (3) Adopted a label smoothing technique to alleviate the DDRGC problem. We applied this method to galaxy photometric images from the Galaxy Zoo-The Galaxy Challenge, exploring the recognition of completely round smooth, in between smooth, cigar-shaped, edge-on and spiral. The overall classification accuracy is 96.32\%, and some superiorities of the HIWL are shown based on recall, precision, and F1-Score in comparing with some related works. In addition, we also explored the visualization of the galaxy image features and model attention to understand the foundations of the proposed scheme.
translated by 谷歌翻译
作为自然现象的地震,历史上不断造成伤害和人类生活的损失。地震预测是任何社会计划的重要方面,可以增加公共准备,并在很大程度上减少损坏。然而,由于地震的随机特征以及实现了地震预测的有效和可靠模型的挑战,迄今为止努力一直不足,需要新的方法来解决这个问题。本文意识到​​这些问题,提出了一种基于注意机制(AM),卷积神经网络(CNN)和双向长短期存储器(BILSTM)模型的新型预测方法,其可以预测数量和最大幅度中国大陆各地区的地震为基于该地区的地震目录。该模型利用LSTM和CNN具有注意机制,以更好地关注有效的地震特性并产生更准确的预测。首先,将零阶保持技术应用于地震数据上的预处理,使得模型的输入数据更适当。其次,为了有效地使用空间信息并减少输入数据的维度,CNN用于捕获地震数据之间的空间依赖性。第三,使用Bi-LSTM层来捕获时间依赖性。第四,引入了AM层以突出其重要的特征来实现更好的预测性能。结果表明,该方法具有比其他预测方法更好的性能和概括能力。
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
设想制造部门受到基于人工智能的技术的严重影响,计算能力和数据量的大幅增加。制造业领域的一个核心挑战在于一般框架的要求,以确保满足不同制造应用中的诊断和监视性能。在这里,我们提出了一个通用数据驱动的端到端框架,用于监视制造系统。该框架是从深度学习技术中得出的,评估了融合的感觉测量值,以检测甚至预测故障和磨损条件。这项工作利用了深度学习的预测能力,从嘈杂的时间表数据中自动提取隐藏的降解功能。我们已经在从各种制造应用中绘制的十个代表性数据集上试验了拟议的框架。结果表明,该框架在检查的基准应用中表现良好,可以在不同的情况下应用,这表明其潜在用作智能制造中的关键角石。
translated by 谷歌翻译
如今,许多分类算法已应用于各个行业,以帮助他们在现实生活中解决他们的问题。但是,在许多二进制分类任务中,少数族裔类中的样本仅构成了所有实例的一小部分,这导致了我们通常患有高失衡比的数据集。现有模型有时将少数族裔类别视为噪音,或者将它们视为遇到数据偏斜的异常值。为了解决这个问题,我们提出了一个装袋合奏学习框架$ ASE $(基于异常得分的合奏学习)。该框架具有基于异常检测算法的评分系统,可以通过将多数类中的样本分为子空间来指导重采样策略。那么,特定数量的实例将从每个子空间中采样较低,以通过与少数族裔类结合来构建子集。我们根据异常检测模型的分类结果和子空间的统计数据计算由子集训练的基本分类器的权重。已经进行了实验,这表明我们的合奏学习模型可以显着提高基本分类器的性能,并且比在广泛的不平衡比率,数据量表和数据维度下的其他现有方法更有效。 $ ase $可以与各种分类器结合使用,我们的框架的每个部分都被证明是合理和必要的。
translated by 谷歌翻译
Cyber intrusion attacks that compromise the users' critical and sensitive data are escalating in volume and intensity, especially with the growing connections between our daily life and the Internet. The large volume and high complexity of such intrusion attacks have impeded the effectiveness of most traditional defence techniques. While at the same time, the remarkable performance of the machine learning methods, especially deep learning, in computer vision, had garnered research interests from the cyber security community to further enhance and automate intrusion detections. However, the expensive data labeling and limitation of anomalous data make it challenging to train an intrusion detector in a fully supervised manner. Therefore, intrusion detection based on unsupervised anomaly detection is an important feature too. In this paper, we propose a three-stage deep learning anomaly detection based network intrusion attack detection framework. The framework comprises an integration of unsupervised (K-means clustering), semi-supervised (GANomaly) and supervised learning (CNN) algorithms. We then evaluated and showed the performance of our implemented framework on three benchmark datasets: NSL-KDD, CIC-IDS2018, and TON_IoT.
translated by 谷歌翻译
早期发现视网膜疾病是预防患者部分或永久失明的最重要手段之一。在这项研究中,提出了一种新型的多标签分类系统,用于使用从各种来源收集的眼底图像来检测多种视网膜疾病。首先,使用许多公开可用的数据集来构建一个新的多标签视网膜疾病数据集,即梅里德数据集。接下来,应用了一系列后处理步骤,以确保图像数据的质量和数据集中存在的疾病范围。在眼底多标签疾病分类中,首次通过大量实验优化的基于变压器的模型用于图像分析和决策。进行了许多实验以优化所提出的系统的配置。结果表明,在疾病检测和疾病分类方面,该方法的性能比在同一任务上的最先进作品要好7.9%和8.1%。获得的结果进一步支持了基于变压器的架构在医学成像领域的潜在应用。
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
阿尔茨海默氏病是一种进行性神经退行性疾病,逐渐剥夺患者的认知功能,并可能以死亡结束。随着当今技术的发展,可以通过磁共振成像(MRI)扫描来检测阿尔茨海默氏病。因此,MRI是最常用于诊断和分析阿尔茨海默氏病进展的技术。有了这项技术,可以使用机器学习自动实现对阿尔茨海默氏病的早期诊断的图像识别。尽管机器学习具有许多优势,但目前使用深度学习的应用更广泛地应用,因为它具有更强的学习能力,并且更适合解决图像识别问题。但是,仍然存在一些挑战以实施深度学习,例如对大型数据集的需求,需要大量的计算资源以及需要仔细的参数设置以防止过度拟合或不足。在应对使用深度学习对阿尔茨海默氏病进行分类的挑战时,本研究提出了使用残留网络18层(RESNET-18)体系结构的卷积神经网络(CNN)方法。为了克服对大型且平衡的数据集的需求,使用来自ImageNet的传输学习并加权损耗函数值,以使每个类具有相同的权重。而且,在这项研究中,通过将网络激活函数更改为MISH激活函数以提高准确性,从而进行了实验。从已经进行的测试结果中,使用转移学习,加权损失和MISH激活函数的模型准确性为88.3%。该准确性值来自基线模型,仅获得69.1%的精度。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
我们设计了一种新的自适应学习算法,以进行错误分类成本问题,试图降低源于各种误差后果的错误分类实例的成本。我们的算法(自适应成本敏感学习 - ADACSL)自适应地调整损耗功能,使得分类器桥接训练中样本子组之间的类分布的差异,以及具有类似预测概率的测试数据集(即本地训练测试类分布不匹配)。我们在所提出的算法上提供一些理论性能保证,并提出了与所提出的ADACSL算法一起使用的深度神经网络的经验证据,并在与其他替代方法相比具有类别不平衡和类平衡分布的几个二进制分类数据集上产生更好的成本结果。
translated by 谷歌翻译
无线电星系的连续排放通常可以分为不同的形态学类,如FRI,Frii,弯曲或紧凑。在本文中,我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务($ \ SIM 2000 $ Samples)。我们基于双网络应用了几次射击学习技术,并使用预先培训的DENSENET模型进行了先进技术的传输学习技术,如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \%的分类准确性,其中最大的混乱来源是弯曲和周五型星系。我们的结果表明,专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要,这预计将在不久的将来检测数十万个新的无线电星系。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译