The latent space of autoencoders has been improved for clustering image data by jointly learning a t-distributed embedding with a clustering algorithm inspired by the neighborhood embedding concept proposed for data visualization. However, multivariate tabular data pose different challenges in representation learning than image data, where traditional machine learning is often superior to deep tabular data learning. In this paper, we address the challenges of learning tabular data in contrast to image data and present a novel Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS) algorithm by replacing t-distributions with multivariate Gaussian clusters. Unlike current methods, the proposed approach independently defines the Gaussian embedding and the target cluster distribution to accommodate any clustering algorithm in representation learning. A trained G-CEALS model extracts a quality embedding for unseen test data. Based on the embedding clustering accuracy, the average rank of the proposed G-CEALS method is 1.4 (0.7), which is superior to all eight baseline clustering and cluster embedding methods on seven tabular data sets. This paper shows one of the first algorithms to jointly learn embedding and clustering to improve multivariate tabular data representation in downstream clustering.
translated by 谷歌翻译
Deep learning methods in the literature are invariably benchmarked on image data sets and then assumed to work on all data problems. Unfortunately, architectures designed for image learning are often not ready or optimal for non-image data without considering data-specific learning requirements. In this paper, we take a data-centric view to argue that deep image embedding clustering methods are not equally effective on heterogeneous tabular data sets. This paper performs one of the first studies on deep embedding clustering of seven tabular data sets using six state-of-the-art baseline methods proposed for image data sets. Our results reveal that the traditional clustering of tabular data ranks second out of eight methods and is superior to most deep embedding clustering baselines. Our observation is in line with the recent literature that traditional machine learning of tabular data is still a competitive approach against deep learning. Although surprising to many deep learning researchers, traditional clustering methods can be competitive baselines for tabular data, and outperforming these baselines remains a challenge for deep embedding clustering. Therefore, deep learning methods for image learning may not be fair or suitable baselines for tabular data without considering data-specific contrasts and learning requirements.
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
由于多源信息集成的能力,多视图聚类吸引了很多关注。尽管在过去几十年中已经提出了许多高级方法,但其中大多数通常忽略了弱监督信息的重要性,并且无法保留多种视图的特征属性,从而导致聚类性能不令人满意。为了解决这些问题,在本文中,我们提出了一种新颖的深度观看半监督聚类(DMSC)方法,该方法在网络填充过程中共同优化了三种损失,包括多视图集群损失,半监督的成对约束损失损失和多个自动编码器重建损失。具体而言,基于KL差异的多视图聚类损失被施加在多视图数据的共同表示上,以同时执行异质特征优化,多视图加权和聚类预测。然后,我们通过创新建议将成对约束集成到多视图聚类的过程中,通过执行所学到的必须链接样本的多视图表示(不能链接样本)是相似的(不同的),以便形成的聚类结构可以可以更可信。此外,与现有的竞争对手不同,该竞争对手仅保留网络填充期间每个异质分支的编码器,我们进一步建议调整完整的自动编码器框架,其中包含编码器和解码器。通过这种方式,可以缓解特定视图和视图共享特征空间的严重腐败问题,从而使整个培训程序更加稳定。通过在八个流行图像数据集上进行的全面实验,我们证明了我们提出的方法的性能要比最先进的多视图和单视竞争对手更好。
translated by 谷歌翻译
由于几个原因,很难聚集艺术品。一方面,识别基于领域知识和视觉感知的有意义的模式非常困难。另一方面,将传统的聚类和功能还原技术应用于高度尺寸的像素空间可能是无效的。为了解决这些问题,在本文中,我们提出了Delius:一种深入学习视觉艺术的深度学习方法。该方法使用预训练的卷积网络提取功能,然后将这些功能馈送到深层嵌入聚类模型中,在此,将输入数据映射到潜在空间的任务是通过在找到一组集群质心的任务,以在此任务进行优化。这个潜在空间。定量和定性实验结果表明了该方法的有效性。Delius对于与艺术分析有关的多个任务很有用,特别是在绘画数据集中发现的视觉链接检索和历史知识发现。
translated by 谷歌翻译
无监督学习的最有前途的方法之一是将深层表示学习和深入的聚类结合在一起。最近的一些作品建议使用深层神经网络同时学习表示形式,并通过在嵌入式特征之上定义聚类损失来执行聚类。但是,这些方法对数据不平衡和分布样本敏感。结果,这些方法通过将数据推向接近随机初始化的群集中心来优化聚类。当实例的数量在不同的类别中有所不同,或者很少有样本的群集的机会较小的机会被分配给良好的质心时,这是有问题的。为了克服这些局限性,我们引入了一个新的无监督框架,用于联合表述学习和图像群集。我们同时训练两个深度学习模型,一个捕获数据分布的深度表示网络,以及一个学习嵌入式功能并执行聚类的深度聚类网络。具体而言,聚类网络和学习表示网络都利用了我们提出的统计池块,该统计数据池块代表均值,方差和基数,以处理分布外样本和类不平衡。我们的实验表明,使用这些表示形式,可以大大改善各种图像数据集的不平衡图像聚类的结果。此外,当传输到分布数据集时,学到的表示形式可以很好地推广。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
聚类是一项基本的机器学习任务,在文献中已广泛研究。经典聚类方法遵循以下假设:数据通过各种表示的学习技术表示为矢量化形式的特征。随着数据变得越来越复杂和复杂,浅(传统)聚类方法无法再处理高维数据类型。随着深度学习的巨大成功,尤其是深度无监督的学习,在过去的十年中,已经提出了许多具有深层建筑的代表性学习技术。最近,已经提出了深层聚类的概念,即共同优化表示的学习和聚类,因此引起了社区的日益关注。深度学习在聚类中的巨大成功,最基本的机器学习任务之一以及该方向的最新进展的巨大成功所激发。 - 艺术方法。我们总结了深度聚类的基本组成部分,并通过设计深度表示学习和聚类之间的交互方式对现有方法进行了分类。此外,该调查还提供了流行的基准数据集,评估指标和开源实现,以清楚地说明各种实验设置。最后但并非最不重要的一点是,我们讨论了深度聚类的实际应用,并提出了应有的挑战性主题,应将进一步的研究作为未来的方向。
translated by 谷歌翻译
虽然数据驱动的故障诊断方法已被广泛应用,但模型培训需要大规模标记数据。然而,在真正的行业实施这一点难以阻碍这些方法的应用。因此,迫切需要在这种情况下运行良好的有效诊断方法。本​​研究中,多级半监督改进的深度嵌入式聚类(MS-SSIDEC)方法,将半监督学习与改进的深度嵌入式聚类相结合(IDEC),建议共同探索稀缺标记的数据和大规模的未标记数据。在第一阶段,提出了一种可以自动将未标记的数据映射到低维特征空间中的跳过连接的卷积自动编码器(SCCAE),并预先培训以成为故障特征提取器。在第二阶段,提出了一个半监督的改进的深嵌入式聚类(SSIDEC)网络以进行聚类。首先用可用标记数据初始化,然后用于同时优化群集标签分配,并使要素空间更加群集。为了解决过度装备现象,在本阶段将虚拟的对抗培训(增值税)作为正则化术语。在第三阶段,伪标签是通过SSIDEC的高质量结果获得的。标记的数据集可以由这些伪标记的数据增强,然后利用以训练轴承故障诊断模型。来自滚动轴承的两个振动数据数据集用于评估所提出的方法的性能。实验结果表明,该方法在半监督和无监督的故障诊断任务中实现了有希望的性能。该方法通过有效地探索无监督数据,提供了在有限标记样本的情况下的故障诊断方法。
translated by 谷歌翻译
监测原位浮游生物的种群对于保留水生生态系统至关重要。浮游生物微生物实际上易受较小的环境扰动的影响,可以反映出随之而来的形态学和动力学修饰。如今,高级自动或半自动采集系统的可用性已允许生产越来越多的浮游生物图像数据。由于大量获得的数据和浮游生物的数字,因此,采用机器学习算法来对此类数据进行分类。为了应对这些挑战,我们提出了有效的无监督学习管道,以提供浮游生物微生物的准确分类。我们构建一组图像描述符,利用两步过程。首先,对预先训练的神经网络提取的功能进行了跨自动编码器(VAE)的培训。然后,我们将学习的潜在空间用作聚类的图像描述符。我们将方法与最新的无监督方法进行了比较,其中一组预定义的手工特征用于浮游生物图像的聚类。所提出的管道优于我们分析中包含的所有浮游生物数据集的基准算法,提供了更好的图像嵌入属性。
translated by 谷歌翻译
One of the main problems in applying deep learning techniques to recognize activities of daily living (ADLs) based on inertial sensors is the lack of appropriately large labelled datasets to train deep learning-based models. A large amount of data would be available due to the wide spread of mobile devices equipped with inertial sensors that can collect data to recognize human activities. Unfortunately, this data is not labelled. The paper proposes DISC (Deep Inertial Sensory Clustering), a DL-based clustering architecture that automatically labels multi-dimensional inertial signals. In particular, the architecture combines a recurrent AutoEncoder and a clustering criterion to predict unlabelled human activities-related signals. The proposed architecture is evaluated on three publicly available HAR datasets and compared with four well-known end-to-end deep clustering approaches. The experiments demonstrate the effectiveness of DISC on both clustering accuracy and normalized mutual information metrics.
translated by 谷歌翻译
这项工作为聚类提供了无监督的深入判别分析。该方法基于深层神经网络,旨在最大程度地减少群集内差异,并以无监督的方式最大化集群间差异。该方法能够将数据投射到具有紧凑和不同分布模式的非线性低维潜在空间中,以便可以有效地识别数据簇。我们进一步提供了该方法的扩展,以便可以有效利用可用的图形信息来提高聚类性能。带有或没有图形信息的图像和非图像数据的广泛数值结果证明了所提出的方法的有效性。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
深度聚类最近引起了极大的关注。尽管取得了显着的进展,但以前的大多数深度聚类作品仍有两个局限性。首先,其中许多集中在某些基于分布的聚类损失上,缺乏通过对比度学习来利用样本(或增强)关系的能力。其次,他们经常忽略了间接样本结构信息,从而忽略了多尺度邻里结构学习的丰富可能性。鉴于这一点,本文提出了一种新的深聚类方法,称为图像聚类,其中包括对比度学习和多尺度图卷积网络(IcicleGCN),该网络(ICICELGCN)也弥合了卷积神经网络(CNN)和图形卷积网络(GCN)之间的差距。作为对比度学习与图像聚类任务的多尺度邻域结构学习之间的差距。所提出的IcicleGCN框架由四个主要模块组成,即基于CNN的主链,实例相似性模块(ISM),关节群集结构学习和实例重建模块(JC-SLIM)和多尺度GCN模块(M -GCN)。具体而言,在每个图像上执行了两个随机增强,使用两个重量共享视图的骨干网络用于学习增强样品的表示形式,然后将其馈送到ISM和JC-SLIM以进行实例级别和集群级别的对比度分别学习。此外,为了实施多尺度的邻域结构学习,通过(i)通过(i)层次融合的层相互作用和(ii)共同自适应学习确保他们的最后一层,同时对两个GCN和自动编码器进行了同时培训。层输出分布保持一致。多个图像数据集上的实验证明了IcicleGCN优于最先进的群集性能。
translated by 谷歌翻译
最近的图表聚类方法采用了图形自动编码器(GAES)来执行联合聚类和嵌入学习。但是,两个关键问题被忽视了。首先,通过使用嘈杂的聚类分配学习造成的累积误差降低了聚类模型的有效性和鲁棒性。此问题称为随机性。其次,重建邻接矩阵设置模型以学习聚类任务的无关相似之处。此问题称为特征漂移。有趣的是,上述问题之间的理论关系尚未调查。我们从两个方面研究这些问题:(1)当在同一级别进行聚类和重建时,特征随机性和特征漂移之间存在权衡,并且(2)GAE模型的特征漂移问题更为显着,与Vanilla自动编码器模型相比,由于图形卷积操作和图形解码设计。这些发现的动机,我们重构了基于GAE的聚类方法。我们的解决方案是两倍。首先,我们提出了一种采样操作员$ \ xi $,它触发了对嘈杂聚类分配的保护机制。其次,我们提出了一种运营商$ \ Upsilon $,它通过逐渐将重建的图形转换为群集导向的一个来触发校正机制。作为主要优势,我们的解决方案授予聚类有效性和稳健性的相当大提高,并且可以很容易地对现有的GAE模型进行定制。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
基于自动编码器的深度子空间聚类(DSC)广泛用于计算机视觉,运动分割和图像处理。但是,它在自我表达的矩阵学习过程中遇到了以下三个问题:由于简单的重建损失,第一个对于学习自我表达权重的信息较小;第二个是与样本量相关的自我表达层的构建需要高计算成本。最后一个是现有正规化条款的有限连接性。为了解决这些问题,在本文中,我们提出了一个新颖的模型,名为“自我监督的深度”子空间聚类(S $^{3} $ CE)。具体而言,S $^{3} $ CE利用了自我监督的对比网络,以获得更加繁荣的特征向量。原始数据的局部结构和密集的连接受益于自我表达层和附加熵 - 标准约束。此外,具有数据增强的新模块旨在帮助S $^{3} $ CE专注于数据的关键信息,并通过光谱聚类来提高正面和负面实例的聚类性能。广泛的实验结果表明,与最先进的方法相比,S $^{3} $ CE的出色性能。
translated by 谷歌翻译
由于其通过深层神经网络的共同表示学习和聚类的能力,近年来,深层聚类引起了人们的关注。在其最新发展中,对比度学习已成为一种有效的技术,可实质性地提高深度聚类的性能。但是,现有的基于学习的基于对比的深层聚类算法主要集中于一些精心设计的增强(通常具有有限的转换以保留结构),被称为薄弱的增强,但不能超越弱化的增强,以探索更多的机会(随着更具侵略性的转变甚至严重的扭曲)。在本文中,我们提出了一种被称为强烈增强的对比聚类(SACC)的端到端深群集方法,该方法将传统的两夸大视图范式扩展到多种视图,并共同利用强大而弱的增强,以增强深层聚类。特别是,我们利用具有三重共享权重的骨干网络,在该网络中,强烈的增强视图和两个弱化的视图均融合在一起。基于主链产生的表示,弱进行弱化的视图对和强力视图对同时被利用用于实例级的对比度学习(通过实例投影仪)和群集级的对比度学习(通过群集投影仪),与主链一起可以以纯监督的方式共同优化。五个具有挑战性的图像数据集的实验结果表明,我们的SACC方法优于最先进的方法。该代码可在https://github.com/dengxiaozhi/sacc上找到。
translated by 谷歌翻译
T分布式随机邻居嵌入(T-SNE)是复杂高维数据的良好的可视化方法。然而,原始T-SNE方法是非参数,随机的,并且通常不能很好地预测数据的全局结构,因为它强调当地社区。通过T-SNE作为参考,我们建议将深度神经网络(DNN)与数学接地的嵌入规则相结合,以进行高维数据嵌入的规则。我们首先介绍一个深嵌入的网络(DEN)框架,它可以从高维空间到低维嵌入的参数映射。 DEN具有灵活的架构,可容纳不同的输入数据(矢量,图像或张量)和损耗功能。为提高嵌入性能,建议递归培训策略利用书房提取的潜在陈述。最后,我们提出了一种两级损耗功能,将两个流行的嵌入方法的优点相结合,即T-SNE和均匀的歧管近似和投影(UMAP),以获得最佳可视化效果。我们将建议的方法命名为深度递归嵌入(DRE),其优化了递归培训策略和两级吊袜带的DEN。我们的实验表明,在各种公共数据库中,所提出的DRE方法对高维数据嵌入的优异性能。值得注意的是,我们的比较结果表明,我们拟议的DRE可能导致全球结构改善。
translated by 谷歌翻译
用木材制成的木材和森林产品,例如家具,是宝贵的商品,就像许多高估的自然资源的全球贸易一样,面临腐败,欺诈和非法收获的挑战。木材和森林产品部门的这些灰色和黑色市场活动不仅限于收获木材的国家,而是在整个全球供应链中扩展,并与非法金融流有关,例如基于贸易的洗钱,记录欺诈,种类标签和其他非法活动。在没有地面真理的情况下,使用贸易数据找到此类欺诈活动的任务可以作为无监督的异常检测问题进行建模。但是,现有的方法在其对大规模贸易数据的适用性方面存在某些缺点。贸易数据是异质的,具有表格格式的分类和数值属性。总体挑战在于数据的复杂性,数量和速度,具有大量实体和缺乏地面真相标签。为了减轻这些方法,我们提出了一种新型的无监督异常检测 - 基于对比度学习的异质异常检测(CHAD),通常适用于大规模的异质表格数据。我们证明,我们的模型CHAD对公共基准数据集的多个可比较基线表现出色,并且在贸易数据的情况下优于它们。更重要的是,我们证明我们的方法减少了假设和努力所需的高参数调整,这在无监督的培训范式中是一个关键的挑战。具体而言,我们的总体目标涉及使用提单贸易记录数据账单来检测可疑的木材运输和模式。在运输记录中检测异常交易可以使政府机构和供应链成分进一步调查。
translated by 谷歌翻译