大数据的张量分解最近引起了人们的极大关注。最流行的方法之一是一类算法,它们利用压缩来减小张量的大小并可能并行化计算。这些方法正常工作的基本要求是在压缩时保留低秩张量结构。本文研究了压缩对核心一致性的影响,提出了计算和研究压缩对张量低等级影响的有效和现实的方法;一种广泛使用的启发式方法,曾被用作代表,低估了低等级。我们提供理论分析,在这里我们确定了压缩的充分条件,以便保持核心一​​致性,并且我们进行了大量的实验来验证我们的分析。此外,我们探索了流行的压缩方案以及它们如何影响核心一致性。
translated by 谷歌翻译
自引入以来,无监督表示学习已引起研究界的广泛关注,因为它被证明在降维,聚类,可视化,信息检索和半监督学习等任务中具有高效且易于应用。在这项工作中,我们提出了一种新的无监督表示学习框架,称为邻居编码器,其中领域知识可以很容易地结合到学习过程中,而无需修改经典自动编码器的通用编码器 - 解码结构。与自动编码器相比,自动编码器构造输入数据本身, neighbor-encoder重建输入数据的邻居。由于所提出的表示学习问题本质上是邻居重建问题,因此可以以对象之间的相似性的适当定义的形式容易地并入领域知识。基于该观察,我们的框架可以利用任何现成的相似性搜索算法或辅助信息来找到输入对象的邻域。考虑到邻居的适当定义可以在不同的上下文中变化,在我们的框架中应用其他算法(例如,关联规则挖掘)也是可能的。我们已经证明了我们框架在许多不同领域的有效性,包括图像,文本和时间序列,以及各种数据挖掘任务,包括分类,聚类和可视化。实验结果表明,在我们考虑的大多数场景中,邻居编码器不仅优于自动编码器,而且还实现了文本文档聚类的最新性能。
translated by 谷歌翻译
视觉数据和自然语言描述之间的跨模式检索仍然是多媒体中长期存在的挑战。虽然最近的图像 - 文本检索方法通过学习在模态中对齐的深度表示提供了很大的希望,但是大多数这些方法都受到小规模数据集的训练问题的困扰,这些数据集覆盖了有限数量的具有地面真实性的图像。此外,通过用句子注释数百万个图像来创建更大的数据集是非常昂贵的,并且可能导致偏向模型。最近在深度神经网络中通过网络监督学习的成功启发,我们利用具有嘈杂注释的易于获取的网络图像来学习强大的图像文本联合表示。具体来说,我们的主要思想是在学习视觉语义联合嵌入的培训中利用网络图像和相应的标签以及完全注释的数据集。我们提出了一个两阶段的方法来完成这个任务,可以增加一个典型的监督的基于排名损失的公式,使用弱注释的网络图像可以容忍更强大的视觉语义嵌入。两个标准基准数据集上的实验表明,与最先进的方法相比,我们的方法在图像文本检索中实现了显着的性能提升。
translated by 谷歌翻译
张量分解是大数据分析的强大工具,因为它们将数据的多个方面共同建模到一个框架中,并能够在数据中发现潜在结构和高阶相关性。最广泛研究和使用的分解之一,尤其是印度采矿和机器学习,是Canonical Polyadic或CPdecomposition。然而,今天的数据集不是静态的,这些数据集会随着时间的推移而动态增长和变化。为了对这样大的数据进行操作,我们向OCTen提出了第一个基于压缩的在线并行实现CP分解。我们在适应度,使用的内存和CPU时间方面对算法进行了广泛的经验分析,为了证明该方法的压缩和可扩展性,我们将OCTen应用于大张量数据。从表面上看,OCTen在分解准确性和效率方面的表现优于现有的在线和在线方法,同时节省高达40-200%的存储空间。
translated by 谷歌翻译
主题发现作为一个大型数据挖掘领域已经见证了显着的增长。特别是,时间发展的主题发现,其中主题的演变被考虑在内,有助于理解动态语料库中新兴主题的历史背景。传统上,时间发展的主题发现集中在这个时间概念上。然而,特别是在内容由社区或人群贡献的环境中,正交的时间概念是与内容创建者的专业水平相关的概念:创建者越有经验,主题就越高级。在本文中,我们提出了一种新颖的时间演化主题发现方法,除了提取的主题之外,还能够识别该主题随时间的演变,以及该主题的难易程度,因为该级别可以推断出其主要贡献者的专业知识。我们的方法基于一种新的约束耦合矩阵 - 张量因子形式的公式,它采用了很好的约束条件,并且,正如我们所说,对于高质量的主题发现是必不可少的。我们使用来自Physics和ProgrammingStack Exchange论坛的实际数据定性评估我们的方法,并且我们能够识别可能与外部事件相关的不同难度级别的主题,例如LIGO实验室在物理论坛中宣布引力波。我们通过进行用户研究来提供对我们方法的定量评估,其中要求专家判断所提取主题的一致性和质量。最后,我们提出的方法对使用提取主题的自动课程设计有影响,其中难度级别的概念对于先决条件和高级概念的正确建模是必要的。
translated by 谷歌翻译
图形嵌入或节点表示学习在各种下游任务中的成功,例如节点分类,链路预测和推荐系统,近年来已经普及。表示学习算法旨在通过识别节点邻域概念来保留本地和全球网络结构。 。然而,许多现有算法生成嵌入,这些嵌入不能正确地保留网络结构,或者由于随机过程(例如,随机遍历以生成上下文)而导致不稳定的表示,并且因此不能生成到多图形问题。在本文中,我们提出了一种新颖的,稳定的图形嵌入算法框架RECS。 RECS通过使用带有电路的图形的类比,使用连接图来学习图形表示。它保留了本地和全局连接模式,并解决了高度节点的问题。此外,它利用了基线忽略的弱关系和数据的强弱。实验表明,RECSout在多标签分类问题上对最先进的算法进行了高达36.85%的评估。此外,与基线相比,确定性的RECS是完全稳定的。
translated by 谷歌翻译
Tensor decompositions are used in various data mining applications from social network to medical applications and are extremely useful in discovering latent structures or concepts in the data. Many real-world applications are dynamic in nature and so are their data. To deal with this dynamic nature of data, there exist a variety of online tensor decomposition algorithms. A central assumption in all those algorithms is that the number of latent concepts remains fixed throughout the entire stream. However, this need not be the case. Every incoming batch in the stream may have a different number of latent concepts, and the difference in latent concepts from one tensor batch to another can provide insights into how our findings in a particular application behave and deviate over time. In this paper, we define "concept" and "concept drift" in the context of streaming tensor decomposition, as the manifestation of the variability of latent concepts throughout the stream. Furthermore, we introduce SeekAndDestroy 1 , an algorithm that detects concept drift in streaming tensor decomposition and is able to produce results robust to that drift. To the best of our knowledge, this is the first work that investigates concept drift in streaming tensor decomposition. We extensively evaluate SeekAndDestroy on synthetic datasets, which exhibit a wide variety of realistic drift. Our experiments demonstrate the effectiveness of SeekAndDestroy, both in the detection of concept drift and in the alleviation of its effects, producing results with similar quality to decomposing the entire tensor in one shot. Additionally, in real datasets, SeekAndDestroy outperforms other streaming baselines, while discovering novel useful components.
translated by 谷歌翻译
PARAFAC2在模拟不规则张量方面取得了成功,其中其中一种模式的拉伸尺寸不同。一个示例场景是在一组患者中建立治疗,随着时间的推移,患者数量不同。尽管最近对无约束PARAFAC2进行了改进,但其模型因子通常密集且对噪声敏感,这限制了它们的可解释性。结果,仍然存在以下开放挑战:a)需要对可解释的时间建模施加各种建模约束,例如时间平滑性,稀疏性和非负性,并且b)需要可扩展的方法来有效地支持这些约束用于大数据集。为了应对这些挑战,我们提出了一种{\ it CO} nstrained {\ itPA} RAFAC2(COPA)方法,该方法仔细地结合了优化约束,例如时间平滑性,稀疏性和非负性。为了有效地支持所有这些约束,COPA采用混合优化框架,使用交替优化和交替方向乘法器(AO-ADMM)。根据对数十万患者的大型电子健康记录(EHR)数据集进行评估,COPA实现了比先前PARAFAC2方法显着的加速(高达36倍),这只是试图处理COPA所允许的一部分限制。总的来说,我们的方法表现优异所有基线试图在速度方面处理约束的子集,同时达到相同的准确度。通过对医学复杂儿童时间表型分析的案例研究,我们证明了COPA所施加的约束如何揭示患者的简洁表型和有意义的时间特征。医学专家证实了表型和时间谱的临床解释。
translated by 谷歌翻译
Tensors or {\em multi-way arrays} are functions of three or more indices$(i,j,k,\cdots)$ -- similar to matrices (two-way arrays), which are functionsof two indices $(r,c)$ for (row,column). Tensors have a rich history,stretching over almost a century, and touching upon numerous disciplines; butthey have only recently become ubiquitous in signal and data analytics at theconfluence of signal processing, statistics, data mining and machine learning.This overview article aims to provide a good starting point for researchers andpractitioners interested in learning about and working with tensors. As such,it focuses on fundamentals and motivation (using various application examples),aiming to strike an appropriate balance of breadth {\em and depth} that willenable someone having taken first graduate courses in matrix algebra andprobability to get started doing research and/or developing tensor algorithmsand software. Some background in applied optimization is useful but notstrictly required. The material covered includes tensor rank and rankdecomposition; basic tensor factorization models and their relationships andproperties (including fairly good coverage of identifiability); broad coverageof algorithms ranging from alternating optimization to stochastic gradient;statistical performance analysis; and applications ranging from sourceseparation to collaborative filtering, mixture and topic modeling,classification, and multilinear subspace learning.
translated by 谷歌翻译
在过去的几年里,体育信息系统和技术的进步使我们能够收集一些详细的时空数据,以掌握篮球的各个方面。例如,拍摄图表,即拍摄(制作或遗漏)镜头的位置的地图,以及场上所有玩家的时空轨迹,可以捕获关于团队的进攻和防守倾向以及方案的信息。这些过程的表征对于球员和球队比较,赛前比赛,比赛准备等非常重要。传统上,球队之间的比赛倾向是以启发式的方式进行比较。最近,在体育分析文献中出现了类似比较的自动化方法。然而,这些方法几乎完全专注于潜在行动的空间分布(通常是拍摄的),忽略了许多可能影响所研究行动的其他参数。在这项工作中,我们提出了基于张量分解的框架,以获得基于核心时空信息和文本元数据的一组原型时空模式。我们框架的核心是3D张量X,其中代表正在考虑的实体(团队,球员,拥有者),球场上的位置和时间。我们利用PARAFAC分解并将张量分解为几种可解释的模式,可以将其视为所检查过程的原型模式(例如,镜头选择,攻击性方案等)。我们还介绍了一种用于选择要考虑的组件数量的方法。使用tensorcomponents,我们可以将每个实体表达为这些组件的加权组合。本文介绍的框架可以在特许经营的篮球运作的工作流程中进行更多的介绍,我们也简要讨论。
translated by 谷歌翻译