大规模的无向加权网络通常在与大数据相关的研究领域中发现。自然可以将其量化为用于实施大数据分析任务的对称高维和不完整(SHDI)矩阵。对称非负潜在因素分析(SNL)模型能够从SHDI基质中有效提取潜在因子(LFS)。然而,它依赖于约束培训计划,这使其缺乏灵活性。为了解决这个问题,本文提出了一个不受限制的对称非负潜在因素分析(USNL)模型。它的主要思想是两个方面:1)通过将非负映射函数集成到SNL模型中,输出LFS与决策参数分开; 2)随机梯度下降(SGD)用于实施不受限制的模型训练,并确保输出LFS非负性。对由实际的大数据应用产生的四个SHDI矩阵的实证研究表明,与SNL模型相比,USNL模型可实现缺失数据的预测准确性,以及高度竞争性的计算效率。
translated by 谷歌翻译
随机梯度下降(SGD)算法是在高维和不完整(HDI)矩阵上建立潜在因子分析(LFA)模型的有效学习策略。通常采用粒子群优化(PSO)算法来制造基于SGD的LFA模型的超参数,即学习率和正则化系数,自我适应。但是,标准的PSO算法可能会遭受过早收敛引起的准确损失。为了解决这个问题,本文将更多的历史信息纳入了每个粒子的进化过程中,以避免遵循广义摩托明(GM)方法的原理过早收敛,从而创新了新型的GM合并PSO(GM-PSO)。有了它,基于GM-PSO的LFA(GMPL)模型将进一步实现高效参数的有效自适应。三个HDI矩阵的实验结果表明,GMPL模型可实现较高的预测准确性,用于工业应用中缺少数据估计。
translated by 谷歌翻译
高维和不完整(HDI)数据在各种工业应用中具有巨大的交互信息。潜在因素(LF)模型在从具有随机梯度不错(SGD)算法的HDI数据中提取有价值的信息方面非常有效。但是,基于SGD的LFA模型患有缓慢的收敛性,因为它仅考虑当前的学习误差。为了解决这个关键问题,本文提出了一个非线性PID增强自适应潜在因素(NPALF)模型,具有两个折叠的想法:1)通过考虑过去的学习错误,按照非线性PID控制器的原理来重建学习错误;b)按照粒子群优化(PSO)算法的原理有效地实施所有参数适应。四个代表性HDI数据集的经验结果表明,与五个最先进的LFA模型相比,NPALF模型可实现HDI数据缺失数据的更好的收敛率和预测准确性。
translated by 谷歌翻译
随着区块链技术的开发,基于区块链技术的加密货币越来越受欢迎。这给出了一个巨大的加密货币交易网络,引起了广泛关注。网络的链接预测学习结构有助于了解网络的机制,因此在加密货币网络中也广泛研究了网络的机制。但是,过去研究中忽略了加密货币交易网络的动态。我们使用图形正则方法将过去的交易记录与未来交易联系起来。基于此,我们提出了一种潜在因子依赖性,非负因子,乘法和图形正规化的已归合性更新(SLF-NMGRU)算法,并进一步提出了图形正则化的非负潜在因子分析(GRNLFA)模型。最后,在真实加密货币交易网络上进行的实验表明,提出的方法提高了准确性和计算效率
translated by 谷歌翻译
张量(NLFT)模型的非负潜在分解可以很好地模拟隐藏在非负服务质量(QOS)数据中的时间模式,以预测具有高精度的未观察到的时间模式。但是,现有的NLFT模型的目标函数基于欧几里得距离,这只是\ b {eta} devivergence的一种特殊情况。因此,我们可以通过采用\ b {eta} - 差异来构建广义的NLFT模型以实现预测准确性增益吗?为了解决此问题,本文提出了基于NLFT模型(\ b {eta} -nlft)的\ b {eta} -nlft)。它的想法是双重的1)用\ b {eta} - 差异来建立学习目标,以实现更高的预测准确性,2)实施对超参数的自适应以提高实用性。对两个动态QoS数据集的实证研究表明,与最先进的模型相比,所提出的\ b {eta} -NLFT模型可实现未观察到的QoS数据的较高预测准确性。
translated by 谷歌翻译
As the Internet developed rapidly, it is important to choose suitable web services from a wide range of candidates. Quality of service (QoS) describes the performance of a web service dynamically with respect to the service requested by the service consumer. Moreover, the latent factorization of tenors (LFT) is very effective for discovering temporal patterns in high dimensional and sparse (HiDS) tensors. However, current LFT models suffer from a low convergence rate and rarely account for the effects of outliers. To address the above problems, this paper proposes an Alternating direction method of multipliers (ADMM)-based Outlier-Resilient Nonnegative Latent-factorization of Tensors model. We maintain the non-negativity of the model by constructing an augmented Lagrangian function with the ADMM optimization framework. In addition, the Cauchy function is taken as the metric function to reduce the impact on the model training. The empirical work on two dynamic QoS datasets shows that the proposed method has faster convergence and better performance on prediction accuracy.
translated by 谷歌翻译
在高维和不完整的矩阵中提取潜在信息是一个重要且具有挑战性的问题。潜在因子分析(LFA)模型可以很好地处理高维矩阵分析。最近,已经提出了粒子群优化(PSO)组合的LFA模型,以高效率调节超参数。但是,PSO的掺入会导致过早问题。为了解决这个问题,我们提出了一个顺序的Adam-unjusting-Antennae BAS(A2BAS)优化算法,该算法完善了由PSO成立的LFA模型获得的潜在因素。 A2BAS算法由两个子算法组成。首先,我们设计了一种改进的BAS算法,该算法可调节甲虫的触角并使用Adam进行尺寸。其次,我们实施了改进的BAS算法,以顺序优化所有行和列潜在​​因子。通过对两个实际高维矩阵的实验结果,我们证明我们的算法可以有效地解决过早的收敛问题。
translated by 谷歌翻译
An undirected weighted graph (UWG) is frequently adopted to describe the interactions among a solo set of nodes from real applications, such as the user contact frequency from a social network services system. A graph convolutional network (GCN) is widely adopted to perform representation learning to a UWG for subsequent pattern analysis tasks such as clustering or missing data estimation. However, existing GCNs mostly neglects the latent collaborative information hidden in its connected node pairs. To address this issue, this study proposes to model the node collaborations via a symmetric latent factor analysis model, and then regards it as a node-collaboration module for supplementing the collaboration loss in a GCN. Based on this idea, a Node-collaboration-informed Graph Convolutional Network (NGCN) is proposed with three-fold ideas: a) Learning latent collaborative information from the interaction of node pairs via a node-collaboration module; b) Building the residual connection and weighted representation propagation to obtain high representation capacity; and c) Implementing the model optimization in an end-to-end fashion to achieve precise representation to the target UWG. Empirical studies on UWGs emerging from real applications demonstrate that owing to its efficient incorporation of node-collaborations, the proposed NGCN significantly outperforms state-of-the-art GCNs in addressing the task of missing weight estimation. Meanwhile, its good scalability ensures its compatibility with more advanced GCN extensions, which will be further investigated in our future studies.
translated by 谷歌翻译
潜在因子(LF)模型可有效地通过低级矩阵近似来表示高维和稀疏(HID)数据。Hessian无(HF)优化是利用LF模型目标函数的二阶信息的有效方法,并已用于优化二阶LF(SLF)模型。但是,SLF模型的低级表示能力在很大程度上取决于其多个超参数。确定这些超参数是耗时的,它在很大程度上降低了SLF模型的实用性。为了解决这个问题,在这项工作中提出了实用的SLF(PSLF)模型。它通过分布式粒子群优化器(DPSO)实现了超参数自加载,该粒子群(DPSO)无梯度且并行化。对真实HID数据集的实验表明,PSLF模型比在数据表示能力中的最先进模型具有竞争优势。
translated by 谷歌翻译
缺少数据是数据驱动的智能运输系统(ITS)中不可避免且常见的问题。在过去的十年中,学者们对丢失的流量数据的恢复进行了许多研究,但是如何充分利用时空交通模式以改善恢复性能仍然是一个开放的问题。针对流量速度数据的时空特征,本文将缺失数据的恢复视为矩阵完成问题,并根据隐藏的功能分析提出了一种时空的交通数据完成方法,该方法发现时空模式和基础模式从不完整数据的结构完成恢复任务。因此,我们引入空间和时间相关性,以捕获每个维度的主要基础特征。最后,这些潜在功能通过潜在功能分析应用于恢复流量数据。实验和评估结果表明,模型的评估标准值很小,这表明该模型具有更好的性能。结果表明该模型可以准确估计连续缺少的数据。
translated by 谷歌翻译
多视图聚类已进行了广泛的研究,以利用多源信息来提高聚类性能。通常,大多数现有作品通常通过某些相似性/距离指标(例如欧几里得距离)或学习的表示形式来计算N * n亲和力图,并探索跨视图的成对相关性。但是不幸的是,通常需要二次甚至立方复杂性,这使得在聚集largescale数据集方面遇到了困难。最近,通过选择具有K-均值的视图锚表演或通过对原始观测值进行直接矩阵分解来捕获多个视图中的数据分布。尽管取得了巨大的成功,但很少有人考虑了视图不足问题,因此隐含地认为,每个单独的观点都足以恢复群集结构。此外,无法同时发现潜在积分空间以及来自多个视图的共享群集结构。鉴于这一点,我们为快速多视图聚类(AIMC)提出了一个具有几乎线性复杂性的快速多视图聚类(AIMC)。具体而言,视图生成模型旨在重建来自潜在积分空间的视图观测值,并具有不同的适应性贡献。同时,具有正交性约束和群集分区的质心表示无缝构造以近似潜在的积分空间。开发了一种替代最小化算法来解决优化问题,事实证明,该问题具有线性时间复杂性W.R.T.样本量。与最新方法相比,在几个Realworld数据集上进行的广泛实验证实了所提出的AIMC方法的优越性。
translated by 谷歌翻译
现代时间序列数据集通常是高维,不完整/稀疏和非组织的。这些属性阻碍了时间序列预测和分析的可扩展和高效解决方案的开发。为了应对这些挑战,我们提出了一个非平稳的时间矩阵分解(NOTMF)模型,其中使用矩阵分解来重建整个时间序列矩阵和矢量自回旋(var)过程,该过程施加在适当差异的时间因子矩阵的副本上。这种方法不仅保留了数据的低级属性,还提供了一致的时间动力。 NOTMF的学习过程涉及两个因子矩阵和VAR系数矩阵集合的优化。为了有效地解决优化问题,我们得出了一个交替的最小化框架,其中使用共轭梯度和最小二乘方法来解决子问题。特别是,使用共轭梯度方法提供了有效的例程,并允许我们在大规模问题上应用NOTMF。通过对Uber运动速度数据集进行的广泛实验,我们证明了NOTMF的卓越准确性和有效性,而不是其他基线模型。我们的结果还证实了解决现实世界中时间序列数据(如时空交通流/速度)的非平稳性的重要性。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
在许多现实世界中,可以通过多个实例(例如图像补丁)表示或描述一个对象(例如,图像),并同时与多个标签相关联。此类应用可以作为多标签学习(MIML)问题进行表述,并在过去几年中进行了广泛的研究。现有的MIML方法在许多应用中都是有用的,但是由于多个问题,大多数方法都遭受了相对较低的精度和训练效率的影响:i)忽略了标签间相关性(即,与对象相对应的多个标签之间的概率相关性)被忽略了; ii)由于缺失实例标签而导致的其他类型的相关性,无法直接(或共同)学习实体相关性; iii)只能在多个阶段学习各种相互关系(例如,标签间相关性,固定相关性)。为了解决这些问题,提出了一个新的单阶段框架,称为广泛的多标签学习(BMIML)。在BMIML中,有三个创新的模块:i)基于广泛学习系统(BLS)的自动加权标签增强学习(AWLEL); ii)一个特定的MIML神经网络,称为可扩展的多构度概率回归(SMIPR); iii)最后,交互式决策优化(IDO)。结果,BMIML可以同时学习单个阶段的整个图像,实例和标签之间的不同相互关系,以提高分类精度和更快的训练时间。实验表明,BMIML的准确性具有高度(甚至比现有方法)高度竞争,甚至比大多数MIML方法甚至更快,甚至对于大型医学图像数据集(> 90k图像)。
translated by 谷歌翻译
本文提出了具有$ \ Beta $ -divercent objectivent函数的非负面矩阵分组(NMF)的新乘法更新。我们的新更新来自联合大修 - 最小化(MM)方案,其中包括在每次迭代的两个因素中构建了两个因素的辅助功能(客观函数的紧密上限)。这与经典方法相反,其中主要是针对每个因素导出的主要方法。与那种经典方法一样,我们的关节MM算法也导致乘法更新易于实现。然而,它们产生了显着的计算时间(适用于同样的良好解决方案),特别是对于一些$ \β$ - 重要的申请兴趣,如平方欧几里德距离和kullback-Leibler或Itakura-Saito分歧。我们使用不同数据集报告实验结果:面部图像,音频谱图,高光谱数据和歌曲播放计数。根据$ \ beta $和dataSet的值,我们的关节MM方法可以与经典交替方案相比,从大约13 \%$ 78 \%$产生CPU时间减少。
translated by 谷歌翻译
在本文中,我们为多个变量的非凸问题提出了一种新颖的解决方案,尤其是对于通常通过交替最小化(AM)策略解决的方法,将原始优化问题拆分为一组与每个变量相对应的子问题,然后使用固定的更新规则迭代优化每个子问题。但是,由于原始优化问题的固有非凸性,即使在每次迭代中可以最佳地解决每个子问题时,优化通常也可以捕获到虚假的局部最小值中。同时,基于学习的方法,例如深层展开算法,受到缺乏标记的数据和有限的解释性的高度限制。为了解决这些问题,我们提出了一种基于元学习的交替最小化(MLAM)方法,该方法旨在最大程度地减少全球损失的部分损失,而不是在每个子问题上最小化,并且倾向于学习一种自适应策略,以学习一种自适应策略更换手工制作的对手,以提前表现出色。同时,拟议的Mlam仍然保持原始算法原则,这有助于更好的解释性。我们在两个代表性问题上评估了提出的方法,即双线性逆问题:矩阵完成和非线性问题:高斯混合模型。实验结果验证了我们所提出的方法在标准设置中的表现优于基于AM的方法,并且能够在具有挑战性的情况下实现有效的优化,而其他比较方法通常会失败。
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
矩阵近似是大规模代数机器学习方法中的关键元件。最近提出的方法Meka(Si等人,2014)有效地使用了希尔伯特空间中的两个常见假设:通过固有的换档内核功能和数据紧凑性假设获得的内部产品矩阵的低秩属性块集群结构。在这项工作中,我们不仅适用于换档内核,而且扩展Meka,而且还适用于多项式内核和极端学习内核等非静止内核。我们还详细介绍了如何在MEKA中处理非正面半定位内核功能,由近似自身或故意使用通用内核功能引起的。我们展示了一种基于兰兹的估计频谱转变,以发展稳定的正半定梅卡近似,也可用于经典凸优化框架。此外,我们支持我们的调查结果,具有理论考虑因素和各种综合性和现实世界数据的实验。
translated by 谷歌翻译
Spectral clustering is an effective methodology for unsupervised learning. Most traditional spectral clustering algorithms involve a separate two-step procedure and apply the transformed new representations for the final clustering results. Recently, much progress has been made to utilize the non-negative feature property in real-world data and to jointly learn the representation and clustering results. However, to our knowledge, no previous work considers a unified model that incorporates the important multi-view information with those properties, which severely limits the performance of existing methods. In this paper, we formulate a novel clustering model, which exploits the non-negative feature property and, more importantly, incorporates the multi-view information into a unified joint learning framework: the unified multi-view orthonormal non-negative graph based clustering framework (Umv-ONGC). Then, we derive an effective three-stage iterative solution for the proposed model and provide analytic solutions for the three sub-problems from the three stages. We also explore, for the first time, the multi-model non-negative graph-based approach to clustering data based on deep features. Extensive experiments on three benchmark data sets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译