随着大数据时代的出现,数据质量问题变得越来越重要。在许多因素中,缺少价值的数据是一个主要问题,因此开发有效的插补模型是研究界的关键主题。最近,一个主要的研究方向是采用神经网络模型,例如自组织映射或自动编码器来填充缺失值。但是,这些经典方法几乎无法在数据属性之间同时发现相关特征和共同特征。特别是,对于经典的自动编码器来说,这是一个非常典型的问题,他们经常学习无效的恒定映射,从而极大地伤害了填充性能。为了解决上述问题,我们建议并开发基于功能融合增强自动编码器的缺失值填充模型。我们首先设计并集成到自动编码器中,一个隐藏的层,该层由脱落神经元和径向基函数神经元组成,该神经元可以增强学习相关特征和共同特征的能力。此外,我们基于动态聚类(MVDC)制定了缺失的值填充策略,该策略已纳入迭代优化过程。该设计可以增强多维功能融合能力,从而提高动态协作缺失填充性能。通过实验比较与许多缺失值填充方法的实验比较来验证我们的模型的有效性,这些方法在七个数据集上进行了测试,而缺失率不同。
translated by 谷歌翻译
提出了一种自动编码器(AE)极限学习机(ELM)-AE-ELM模型,以根据相互信息算法(MI),AE和ELM的组合来预测NOX发射浓度。首先,实用变量的重要性由MI算法计算,并分析了该机制以确定与NOX发射浓度相关的变量。然后,进一步分析了所选变量与NOX发射浓度之间的时间延迟相关性,以重建建模数据。随后,将AE应用于输入变量中的隐藏特征。最后,ELM算法建立了NOX发射浓度与深度特征之间的关系。实用数据的实验结果表明,与最先进的模型相比,提出的模型显示出有希望的性能。
translated by 谷歌翻译
本文提出了基于Pytorch的深度自动编码器模型。该算法将Pytorch的想法引入自动编码器,并随机清除具有一定概率连接到隐藏层神经元的输入权重,以实现稀疏网络的效果,这与稀疏的起点相似自动编码器。新算法有效地解决了模型过度拟合的问题,并提高了图像分类的准确性。最后,进行实验,并将实验结果与ELM,RELM,AE,SAE,DAE进行比较。
translated by 谷歌翻译
缺少价值是传感器中非常普遍且不可避免的问题,研究人员已经进行了许多尝试丢失价值的尝试,尤其是在深度学习模型中。但是,对于实际传感器数据,很少考虑特定的数据分布和数据周期,因此很难为不同传感器选择适当的评估索引和模型。为了解决这个问题,本研究提出了一个基于深度学习的多阶段插补框架,并适应缺失价值插补。该模型提出了数据分布的低阶和高阶统计数据的混合测量指数,以及对数据插补性能指标的新观点,该指标比传统的平均平方误差更适应性和有效。多阶段的归档策略和动态数据长度被引入数据周期的插补过程中。对不同类型的传感器数据的实验结果表明,多阶段的归合策略和混合指数是优越的,并且缺失价值插补的效果在一定程度上得到了改善,尤其是对于大段插补问题。代码和实验结果已上传到GitHub。
translated by 谷歌翻译
准确的交通状况预测为车辆环境协调和交通管制任务提供了坚实的基础。由于道路网络数据在空间分布中的复杂性以及深度学习方法的多样性,有效定义流量数据并充分捕获数据中复杂的空间非线性特征变得具有挑战性。本文将两种分层图池方法应用于流量预测任务,以减少图形信息冗余。首先,本文验证了流量预测任务中层次图池方法的有效性。分层图合并方法与其他基线在预测性能上形成鲜明对比。其次,应用了两种主流分层图池方法,节点群集池和节点下降池,用于分析流量预测中的优势和弱点。最后,对于上述图神经网络,本文比较了不同图网络输入对流量预测准确性的预测效应。分析和汇总定义图网络的有效方法。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
本文介绍了一种能够构建具有自适应形状的不可分离模糊规则的新间隔-2模糊神经网络。为了反映不确定性,模糊集的形状被认为是不确定的。因此,提出了一种基于能够构造不同形状(包括三角形,钟形,梯形)的通用高斯模型的新形式的间隔类型-2模糊组。要考虑输入变量之间的相互作用,输入向量将转换为新的特征空间,具有用于定义每个模糊规则的不相关变量。接下来,使用具有自适应形状的所提出的间隔类型-2模糊组来馈送到模糊化层。因此,考虑变量和不确定性的局部相互作用,因此形成具有适当形状的间隔类型-2不可分离的模糊规则。对于缩短的缩小,每个模糊规则的上部和下射击强度的贡献自适应地单独选择。为了培训网络的不同参数,利用Levenberg-Marquadt优化方法。在清洁和嘈杂的数据集上调查了所提出的方法的性能,以表明考虑不确定性的能力。此外,所提出的范式,成功地应用于现实世界的时间序列预测,回归问题和非线性系统识别。根据实验结果,我们提出的模型的性能优于具有更加规模的结构的其他方法。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
提出了一种称为误差损失网络(ELN)的新型模型,以构建监督学习的误差损失函数。 ELN的结构类似于径向基函数(RBF)神经网络,但其输入是误差样本,输出是与该误差样本相对应的损耗。这意味着ELN的非线性输入输出映射器会创建误差损失函数。拟议的ELN为大量错误损失函数提供了统一模型,其中包括一些信息理论学习(ITL)损失函数作为特殊情况。 ELN的激活函数,权重参数和网络大小可以从误差样本中进行预先确定或学到。在此基础上,我们提出了一个新的机器学习范式,其中学习过程分为两个阶段:首先,使用ELN学习损失函数;其次,使用学习的损失功能继续执行学习。提出了实验结果,以证明新方法的理想性能。
translated by 谷歌翻译
近年来,多视图学习迅速发展。尽管许多先前的研究都认为每个实例都出现在所有视图中,但在现实世界应用程序中很常见,从某些视图中丢失实例,从而导致多视图数据不完整。为了解决这个问题,我们提出了一个新型潜在的异质图网络(LHGN),以实现不完整的多视图学习,该学习旨在以灵活的方式尽可能充分地使用多个不完整的视图。通过学习统一的潜在代表,隐含地实现了不同观点之间一致性和互补性之间的权衡。为了探索样本与潜在表示之间的复杂关系,首次提出了邻域约束和视图约束,以构建异质图。最后,为了避免训练和测试阶段之间的任何不一致之处,基于图形学习的分类任务应用了转导学习技术。对现实世界数据集的广泛实验结果证明了我们模型对现有最新方法的有效性。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
这项工作为聚类提供了无监督的深入判别分析。该方法基于深层神经网络,旨在最大程度地减少群集内差异,并以无监督的方式最大化集群间差异。该方法能够将数据投射到具有紧凑和不同分布模式的非线性低维潜在空间中,以便可以有效地识别数据簇。我们进一步提供了该方法的扩展,以便可以有效利用可用的图形信息来提高聚类性能。带有或没有图形信息的图像和非图像数据的广泛数值结果证明了所提出的方法的有效性。
translated by 谷歌翻译
Effective data imputation demands rich latent ``structure" discovery capabilities from ``plain" tabular data. Recent advances in graph neural networks-based data imputation solutions show their strong structure learning potential by directly translating tabular data as bipartite graphs. However, due to a lack of relations between samples, those solutions treat all samples equally which is against one important observation: ``similar sample should give more information about missing values." This paper presents a novel Iterative graph Generation and Reconstruction framework for Missing data imputation(IGRM). Instead of treating all samples equally, we introduce the concept: ``friend networks" to represent different relations among samples. To generate an accurate friend network with missing data, an end-to-end friend network reconstruction solution is designed to allow for continuous friend network optimization during imputation learning. The representation of the optimized friend network, in turn, is used to further optimize the data imputation process with differentiated message passing. Experiment results on eight benchmark datasets show that IGRM yields 39.13% lower mean absolute error compared with nine baselines and 9.04% lower than the second-best.
translated by 谷歌翻译
基于图形的多视图聚类,旨在跨多种视图获取数据分区,近年来接受了相当大的关注。虽然已经为基于图形的多视图群集进行了巨大努力,但它对各种视图融合特征仍然是一个挑战,以学习聚类的常见表示。在本文中,我们提出了一种新的一致多曲线图嵌入聚类框架(CMGEC)。具体地,设计了一种多图自动编码器(M-GAE),用于使用多图注意融合编码器灵活地编码多视图数据的互补信息。为了引导所学过的公共表示维护每个视图中相邻特征的相似性,引入了多视图相互信息最大化模块(MMIM)。此外,设计了一个图形融合网络(GFN),以探讨来自不同视图的图表之间的关系,并提供M-GAE所需的常见共识图。通过联合训练这些模型,可以获得共同的潜在表示,其从多个视图中编码更多互补信息,并更全面地描绘数据。三种类型的多视图数据集的实验表明CMGEC优于最先进的聚类方法。
translated by 谷歌翻译
最近,深度神经网络(DNN)已被广泛引入协作过滤(CF),以产生更准确的建议结果,因为它们可以捕获项目和用户之间复杂的非线性关系的能力。计算复杂性,即消耗很长的培训时间并存储大量可训练的参数。为了解决这些问题,我们提出了一种新的广泛推荐系统,称为“广泛协作过滤”(BRODCF),这是一种有效的非线性协作过滤方法。广泛的学习系统(BLS)代替DNN,用作映射功能,以学习用户和项目之间复杂的非线性关系,这些功能可以避免上述问题,同时达到非常令人满意的建议性能。但是,直接将原始评级数据馈送到BLS不可行。为此,我们提出了一个用户项目评分协作矢量预处理程序,以生成低维用户信息输入数据,该数据能够利用最相似的用户/项目的质量判断。在七个基准数据集上进行的广泛实验证实了所提出的广播算法的有效性
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
机器学习技术越来越多地用于预测科学应用中的材料行为,并比常规数值方法具有显着优势。在这项工作中,将人工神经网络(ANN)模型用于有限元公式中,以定义金属材料的流量定律是塑性应变,塑性应变速率和温度的函数。首先,我们介绍了神经网络的一般结构,其运作和关注网络在没有事先学习的情况下推导的能力,即相对于模型输入的流量定律的衍生物。为了验证所提出模型的鲁棒性和准确性,我们就42CRMO4钢的Johnson-Cook行为定律的分析公式进行了比较和分析几个网络体系结构的性能。在第二部分中,在选择了带有$ 2 $隐藏层的人工神经网络体系结构之后,我们以Vuhard Subroutine的形式在Abaqus显式计算代码中介绍了该模型的实现。然后在两个测试用例的数值模拟过程中证明了所提出模型的预测能力:圆形条的颈部和泰勒冲击试验。获得的结果表明,ANN具有很高的能力,可以在有限的元素代码中替换约翰逊 - 库克行为定律的分析公式,同时与经典方法相比,在数值模拟时间方面保持竞争力。
translated by 谷歌翻译
作为自然现象的地震,历史上不断造成伤害和人类生活的损失。地震预测是任何社会计划的重要方面,可以增加公共准备,并在很大程度上减少损坏。然而,由于地震的随机特征以及实现了地震预测的有效和可靠模型的挑战,迄今为止努力一直不足,需要新的方法来解决这个问题。本文意识到​​这些问题,提出了一种基于注意机制(AM),卷积神经网络(CNN)和双向长短期存储器(BILSTM)模型的新型预测方法,其可以预测数量和最大幅度中国大陆各地区的地震为基于该地区的地震目录。该模型利用LSTM和CNN具有注意机制,以更好地关注有效的地震特性并产生更准确的预测。首先,将零阶保持技术应用于地震数据上的预处理,使得模型的输入数据更适当。其次,为了有效地使用空间信息并减少输入数据的维度,CNN用于捕获地震数据之间的空间依赖性。第三,使用Bi-LSTM层来捕获时间依赖性。第四,引入了AM层以突出其重要的特征来实现更好的预测性能。结果表明,该方法具有比其他预测方法更好的性能和概括能力。
translated by 谷歌翻译
由于多源信息集成的能力,多视图聚类吸引了很多关注。尽管在过去几十年中已经提出了许多高级方法,但其中大多数通常忽略了弱监督信息的重要性,并且无法保留多种视图的特征属性,从而导致聚类性能不令人满意。为了解决这些问题,在本文中,我们提出了一种新颖的深度观看半监督聚类(DMSC)方法,该方法在网络填充过程中共同优化了三种损失,包括多视图集群损失,半监督的成对约束损失损失和多个自动编码器重建损失。具体而言,基于KL差异的多视图聚类损失被施加在多视图数据的共同表示上,以同时执行异质特征优化,多视图加权和聚类预测。然后,我们通过创新建议将成对约束集成到多视图聚类的过程中,通过执行所学到的必须链接样本的多视图表示(不能链接样本)是相似的(不同的),以便形成的聚类结构可以可以更可信。此外,与现有的竞争对手不同,该竞争对手仅保留网络填充期间每个异质分支的编码器,我们进一步建议调整完整的自动编码器框架,其中包含编码器和解码器。通过这种方式,可以缓解特定视图和视图共享特征空间的严重腐败问题,从而使整个培训程序更加稳定。通过在八个流行图像数据集上进行的全面实验,我们证明了我们提出的方法的性能要比最先进的多视图和单视竞争对手更好。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译