公平的聚类旨在将数据分为不同的簇,同时防止敏感属性(例如性别,种族,RNA测序技术),而不是主导聚类。尽管最近已经进行了许多作品并取得了巨大的成功,但其中大多数是启发式的,并且缺乏算法设计的统一理论。在这项工作中,我们通过开发一种相互信息理论来填补这一空白,以实现深度公平的聚类,并因此设计出一种称为FCMI的新型算法。简而言之,通过最大化和最大程度地减少共同信息,FCMI旨在通过深度公平的聚类(即紧凑,平衡和公平的簇)以及信息丰富的特征来实现四种特征。除了对理论和算法的贡献外,这项工作的另一个贡献是提出了一个基于信息理论的新颖的公平聚类指标。与现有的评估指标不同,我们的指标以整体而不是单独的方式来衡量聚类的质量和公平性。为了验证拟议的FCMI的有效性,我们对六个基准进行了实验,包括单细胞RNA-seq Atlas,而与11种最先进的方法相比,就五个指标而言。认可后将发布代码。
translated by 谷歌翻译
聚类是一项基本的机器学习任务,在文献中已广泛研究。经典聚类方法遵循以下假设:数据通过各种表示的学习技术表示为矢量化形式的特征。随着数据变得越来越复杂和复杂,浅(传统)聚类方法无法再处理高维数据类型。随着深度学习的巨大成功,尤其是深度无监督的学习,在过去的十年中,已经提出了许多具有深层建筑的代表性学习技术。最近,已经提出了深层聚类的概念,即共同优化表示的学习和聚类,因此引起了社区的日益关注。深度学习在聚类中的巨大成功,最基本的机器学习任务之一以及该方向的最新进展的巨大成功所激发。 - 艺术方法。我们总结了深度聚类的基本组成部分,并通过设计深度表示学习和聚类之间的交互方式对现有方法进行了分类。此外,该调查还提供了流行的基准数据集,评估指标和开源实现,以清楚地说明各种实验设置。最后但并非最不重要的一点是,我们讨论了深度聚类的实际应用,并提出了应有的挑战性主题,应将进一步的研究作为未来的方向。
translated by 谷歌翻译
由于多源信息集成的能力,多视图聚类吸引了很多关注。尽管在过去几十年中已经提出了许多高级方法,但其中大多数通常忽略了弱监督信息的重要性,并且无法保留多种视图的特征属性,从而导致聚类性能不令人满意。为了解决这些问题,在本文中,我们提出了一种新颖的深度观看半监督聚类(DMSC)方法,该方法在网络填充过程中共同优化了三种损失,包括多视图集群损失,半监督的成对约束损失损失和多个自动编码器重建损失。具体而言,基于KL差异的多视图聚类损失被施加在多视图数据的共同表示上,以同时执行异质特征优化,多视图加权和聚类预测。然后,我们通过创新建议将成对约束集成到多视图聚类的过程中,通过执行所学到的必须链接样本的多视图表示(不能链接样本)是相似的(不同的),以便形成的聚类结构可以可以更可信。此外,与现有的竞争对手不同,该竞争对手仅保留网络填充期间每个异质分支的编码器,我们进一步建议调整完整的自动编码器框架,其中包含编码器和解码器。通过这种方式,可以缓解特定视图和视图共享特征空间的严重腐败问题,从而使整个培训程序更加稳定。通过在八个流行图像数据集上进行的全面实验,我们证明了我们提出的方法的性能要比最先进的多视图和单视竞争对手更好。
translated by 谷歌翻译
深图形聚类,旨在揭示底层的图形结构并将节点划分为不同的群体,近年来引起了密集的关注。然而,我们观察到,在节点编码的过程中,现有方法遭受表示崩溃,这倾向于将所有数据映射到相同的表示中。因此,节点表示的鉴别能力是有限的,导致不满足的聚类性能。为了解决这个问题,我们提出了一种新颖的自我监督的深图聚类方法,通过以双向还原信息相关性来称呼双重关联减少网络(DCRN)。具体而言,在我们的方法中,我们首先将暹罗网络设计为编码样本。然后通过强制跨视图样本相关矩阵和跨视图特征相关矩阵分别近似两个标识矩阵,我们减少了双级的信息相关性,从而提高了所得特征的判别能力。此外,为了减轻通过在GCN中过度平滑引起的表示崩溃,我们引入了传播正规化术语,使网络能够利用浅网络结构获得远程信息。六个基准数据集的广泛实验结果证明了提出的DCRN对现有最先进方法的有效性。
translated by 谷歌翻译
基于图形的多视图聚类,旨在跨多种视图获取数据分区,近年来接受了相当大的关注。虽然已经为基于图形的多视图群集进行了巨大努力,但它对各种视图融合特征仍然是一个挑战,以学习聚类的常见表示。在本文中,我们提出了一种新的一致多曲线图嵌入聚类框架(CMGEC)。具体地,设计了一种多图自动编码器(M-GAE),用于使用多图注意融合编码器灵活地编码多视图数据的互补信息。为了引导所学过的公共表示维护每个视图中相邻特征的相似性,引入了多视图相互信息最大化模块(MMIM)。此外,设计了一个图形融合网络(GFN),以探讨来自不同视图的图表之间的关系,并提供M-GAE所需的常见共识图。通过联合训练这些模型,可以获得共同的潜在表示,其从多个视图中编码更多互补信息,并更全面地描绘数据。三种类型的多视图数据集的实验表明CMGEC优于最先进的聚类方法。
translated by 谷歌翻译
我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
这项工作为聚类提供了无监督的深入判别分析。该方法基于深层神经网络,旨在最大程度地减少群集内差异,并以无监督的方式最大化集群间差异。该方法能够将数据投射到具有紧凑和不同分布模式的非线性低维潜在空间中,以便可以有效地识别数据簇。我们进一步提供了该方法的扩展,以便可以有效利用可用的图形信息来提高聚类性能。带有或没有图形信息的图像和非图像数据的广泛数值结果证明了所提出的方法的有效性。
translated by 谷歌翻译
一致性和互补性是增强多视图聚类(MVC)的两种关键要素。最近,随着流行的对比学习的引入,MVC的观点一致性学习得到了进一步的增强,从而导致了有希望的表现。但是,相比之下,互补性尚未得到足够的关注,除了在功能方面,希尔伯特·施密特独立标准(HSIC)术语(HSIC)术语或通常采用独立的编码器网络以捕获特定视图信息。这促使我们从包括功能,视图标签和对比方面在内的多个方面全面地重新考虑对观点的互补学习,同时保持视图一致性。我们从经验上发现,所有方面都有助于互补学习,尤其是视图标签的方面,通常被现有方法忽略了。基于此,我们开发了一个小说\下划线{m} ultifacet \ usewissline {c} omplementarity学习框架\下划线{m} uldi- \ usepline {v} iew \ usew \ usew suespline {c} lustering(mcmvc),其中融合了多层配置配置。信息,尤其是明确嵌入视图标签信息的信息。据我们所知,这是第一次明确使用视图标签来指导视图的互补学习。与SOTA基线相比,MCMVC在$ 5.00 \%$ $ $ 5.00 \%$和$ 7.00 \%$中的平均利润率分别在CALTECH101-20上分别在CalTech101-20上分别取得了显着的进步,分别是三个评估指标。
translated by 谷歌翻译
近年来,拥抱集群研究中的表演学习的深度学习技术引起了广泛的关注,产生了一个新开发的聚类范式,QZ。深度聚类(DC)。通常,DC型号大写AutoEncoders,以了解促进聚类过程的内在特征。如今,一个名为变变AualEncoder(VAE)的生成模型在DC研究中得到了广泛的认可。然而,平原VAE不足以察觉到综合潜在特征,导致细分性能恶化。本文提出了一种新的DC方法来解决这个问题。具体地,生成的逆势网络和VAE被聚结成了一种名为Fusion AutoEncoder(FAE)的新的AutoEncoder,以辨别出更多的辨别性表示,从而使下游聚类任务受益。此外,FAE通过深度剩余网络架构实施,进一步提高了表示学习能力。最后,将FAE的潜在空间转变为由深密神经网络的嵌入空间,用于彼此从彼此拉出不同的簇,并将数据点折叠在单个簇内。在几个图像数据集上进行的实验证明了所提出的DC模型对基线方法的有效性。
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
Multi-view attributed graph clustering is an important approach to partition multi-view data based on the attribute feature and adjacent matrices from different views. Some attempts have been made in utilizing Graph Neural Network (GNN), which have achieved promising clustering performance. Despite this, few of them pay attention to the inherent specific information embedded in multiple views. Meanwhile, they are incapable of recovering the latent high-level representation from the low-level ones, greatly limiting the downstream clustering performance. To fill these gaps, a novel Dual Information enhanced multi-view Attributed Graph Clustering (DIAGC) method is proposed in this paper. Specifically, the proposed method introduces the Specific Information Reconstruction (SIR) module to disentangle the explorations of the consensus and specific information from multiple views, which enables GCN to capture the more essential low-level representations. Besides, the Mutual Information Maximization (MIM) module maximizes the agreement between the latent high-level representation and low-level ones, and enables the high-level representation to satisfy the desired clustering structure with the help of the Self-supervised Clustering (SC) module. Extensive experiments on several real-world benchmarks demonstrate the effectiveness of the proposed DIAGC method compared with the state-of-the-art baselines.
translated by 谷歌翻译
消除偏见的同时保留所有与任务相关的信息对于公平表示学习方法具有挑战性,因为它们会产生随机或退化表示w.r.t.当敏感属性与标签相关时,标记。现有的作品提议将标签信息注入学习程序以克服此类问题。但是,并不总是满足观察到的标签是清洁的假设。实际上,标签偏见被认为是引起歧视的主要来源。换句话说,公平的预处理方法忽略了在学习过程或评估阶段中标签中编码的歧视。这一矛盾给了学识渊博的表示的公平性。为了避免此问题,我们探讨了以下问题:\ emph {我们可以学习可预测的公平表示,可预测到仅访问不可靠标签的潜在理想公平标签吗?}在这项工作中,我们建议\ textbf {d} e- \ textbf { \ textbf {r} \ textbf {f} ernenses(dbrf)框架的b} iased \ textbf {r} ePresentation学习,该框架将敏感信息从非敏感属性中解散,同时使学习的表示形式可预测到理想的公平标签,而不是观察到的偏见。我们通过信息理论概念(例如相互信息和信息瓶颈)制定了偏见的学习框架。核心概念是,当敏感信息受益于不可靠标签的预测时,DBRF提倡不使用不可靠的标签进行监督。综合数据和现实世界数据的实验结果表明,DBRF有效地学习了对理想标签的偏见表示。
translated by 谷歌翻译
在本文中,我们考虑了在不完整视图上的多视图聚类问题。与完整的多视图聚类相比,视图缺失的问题会增加学习不同视图的常见表示的难度。为了解决挑战,我们提出了一种新颖的不完整的多视图聚类框架,该框架包含跨视网围传输和多视图融合学习。具体地,基于在多视图数据中存在的一致性,我们设计了一种基于跨视网围的转移转移的完成模块,该完成模块将已知与缺失视图的已知相似的相互关系的关系传输,并根据传输的图形网络恢复丢失的数据关系图。然后,设计特定于特定的编码器以提取恢复的多视图数据,引入基于注意的融合层以获得公共表示。此外,为了减少由视图之间不一致并获得更好的聚类结构引起的误差的影响,引入了联合聚类层以同时优化恢复和聚类。在几个真实数据集上进行的广泛实验证明了该方法的有效性。
translated by 谷歌翻译
尽管机器学习模式的发展迅速和巨大成功,但广泛的研究暴露了继承潜在歧视和培训数据的社会偏见的缺点。这种现象阻碍了他们在高利益应用上采用。因此,已经采取了许多努力开发公平机器学习模型。其中大多数要求在培训期间提供敏感属性以学习公平的模型。然而,在许多现实世界应用中,由于隐私或法律问题,获得敏感的属性通常是不可行的,这挑战了现有的公平策略。虽然每个数据样本的敏感属性未知,但我们观察到训练数据中通常存在一些与敏感属性高度相关的非敏感功能,这可以用于缓解偏差。因此,在本文中,我们研究了一种探索与学习公平和准确分类器的敏感属性高度相关的特征的新问题。理论上我们通过最小化这些相关特征与模型预测之间的相关性,我们可以学习一个公平的分类器。基于这种动机,我们提出了一种新颖的框架,该框架同时使用这些相关的特征来准确预测和执行公平性。此外,该模型可以动态调整每个相关功能的正则化权重,以平衡其对模型分类和公平性的贡献。现实世界数据集的实验结果证明了拟议模型用于学习公平模型的效力,具有高分类准确性。
translated by 谷歌翻译
我们通过对杂散相关性的因果解释提出了一种信息 - 理论偏置测量技术,这通过利用条件相互信息来识别特征级算法偏压有效。尽管已经提出了几种偏置测量方法并广泛地研究以在各种任务中实现诸如面部识别的各种任务中的算法公平,但它们的准确性或基于Logit的度量易于导致普通预测得分调整而不是基本偏差减少。因此,我们设计针对算法偏差的新型扩张框架,其包括由所提出的信息 - 理论偏置测量方法导出的偏压正则化损耗。此外,我们介绍了一种基于随机标签噪声的简单而有效的无监督的脱叠技术,这不需要明确的偏置信息监督。通过多种标准基准测试的广泛实验,在不同的现实情景中验证了所提出的偏差测量和脱叠方法。
translated by 谷歌翻译
不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法,但以下缺点仍然存在:1)很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示; 2)因此,当完整的数据稀缺时,在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中,我们提出了与生成对抗网络(CIMIC-GAN)的对比度不完整的多视图图像聚类,该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说,考虑到多种方式之间的多样性和互补信息,我们将完整和不完整数据的自动编码表示为双对比度学习,以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能,而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明,cimic-gan优于最先进的不完整的多视图聚类方法。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
translated by 谷歌翻译
深度聚类最近引起了极大的关注。尽管取得了显着的进展,但以前的大多数深度聚类作品仍有两个局限性。首先,其中许多集中在某些基于分布的聚类损失上,缺乏通过对比度学习来利用样本(或增强)关系的能力。其次,他们经常忽略了间接样本结构信息,从而忽略了多尺度邻里结构学习的丰富可能性。鉴于这一点,本文提出了一种新的深聚类方法,称为图像聚类,其中包括对比度学习和多尺度图卷积网络(IcicleGCN),该网络(ICICELGCN)也弥合了卷积神经网络(CNN)和图形卷积网络(GCN)之间的差距。作为对比度学习与图像聚类任务的多尺度邻域结构学习之间的差距。所提出的IcicleGCN框架由四个主要模块组成,即基于CNN的主链,实例相似性模块(ISM),关节群集结构学习和实例重建模块(JC-SLIM)和多尺度GCN模块(M -GCN)。具体而言,在每个图像上执行了两个随机增强,使用两个重量共享视图的骨干网络用于学习增强样品的表示形式,然后将其馈送到ISM和JC-SLIM以进行实例级别和集群级别的对比度分别学习。此外,为了实施多尺度的邻域结构学习,通过(i)通过(i)层次融合的层相互作用和(ii)共同自适应学习确保他们的最后一层,同时对两个GCN和自动编码器进行了同时培训。层输出分布保持一致。多个图像数据集上的实验证明了IcicleGCN优于最先进的群集性能。
translated by 谷歌翻译
设计机器学习算法准确但公平,而不是基于任何敏感属性进行区分,对于社会接受对关键应用的AI至关重要。在本文中,我们提出了一种新颖的公平表示方法,称为R \'enyi公平信息瓶颈方法(RFIB),该方法包含了代表性的效用,公平性和紧凑性的约束,并将其应用于图像分类。我们方法的一个关键属性是,与大多数先前的工作相比,我们认为人口统计学奇偶ant和均衡的赔率是公平的约束,从而使对这两个标准的满意度更加细致。利用各种方法,我们表明我们的目标产生了涉及经典信息瓶颈(IB)措施的损失函数,并根据r \'enyi nyi nyi差异$ \ alpha $在共同信息上的r \'enyi差异ib术语IB术语测量紧凑度上建立上限在输入及其编码嵌入之间。在三个不同的图像数据集(Eyepacs,celeba和Fairface)上进行实验,我们研究了$ \ alpha $参数的影响以及其他两个可调IB参数对实现效用/公平性权衡目标的影响,并表明$ \ \ \ \ Alpha $参数提供了一个额外的自由度,可用于控制表示的紧凑性。我们使用各种效用,公平性和复合效用/公平指标评估方法的性能,表明RFIB的表现优于当前最新方法。
translated by 谷歌翻译