Training of a Machine Learning model requires sufficient data. The sufficiency of the data is not always about the quantity, but about the relevancy and reduced redundancy. Data-generating processes create massive amounts of data. When used raw, such big data is causing much computational resource utilization. Instead of using the raw data, a proper Condensed Representation can be used instead. Combining K-means, a well-known clustering method, with some correction and refinement facilities a novel Condensed Representation method for Machine Learning applications is introduced. To present the novel method meaningfully and visually, synthetically generated data is employed. It has been shown that by using the condensed representation, instead of the raw data, acceptably accurate model training is possible.
translated by 谷歌翻译
几十年来,多维数据集中的模式发现是研究的主题。存在可用于此目的的广泛的聚类算法。但是,它们的实际应用共有普遍的聚类阶段,涉及基于专家的解释和对获得的结果分析。我们认为这可以是该过程的瓶颈,特别是在聚类之前存在域知识的情况下。这种情况不仅需要对自动发现的集群进行适当的分析,而且还需要与现有知识的一致性检查。在这项工作中,我们展示了知识增强聚类(KNAC),主要目标是通过自动聚类来协调基于专家的标签,以便更新和精炼前者。我们的解决方案不依赖于任何准备好的聚类算法,也不介绍一个。相反,KNAC可以用作任意聚类算法的增强,使得该方法具有鲁棒和模型不可知。我们展示了我们在人工,可重复的例子和真实用途案例场景中的方法的可行性。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
Quantum computing is a promising paradigm based on quantum theory for performing fast computations. Quantum algorithms are expected to surpass their classical counterparts in terms of computational complexity for certain tasks, including machine learning. In this paper, we design, implement, and evaluate three hybrid quantum k-Means algorithms, exploiting different degree of parallelism. Indeed, each algorithm incrementally leverages quantum parallelism to reduce the complexity of the cluster assignment step up to a constant cost. In particular, we exploit quantum phenomena to speed up the computation of distances. The core idea is that the computation of distances between records and centroids can be executed simultaneously, thus saving time, especially for big datasets. We show that our hybrid quantum k-Means algorithms can be more efficient than the classical version, still obtaining comparable clustering results.
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
深度集群(DC)利用深度架构的表示力来学习嵌入空间,这些空格是最佳的集群分析。此方法会滤除对聚类无关的低级信息,并已证明对于高维数据空间非常成功。一些DC方法采用生成的对抗网络(GANS),受到强大的潜在表示,这些模型能够隐含地学习。在这项工作中,我们提出了一种基于带有多个发电机(MGANS)的GAN的新技术,尚未探讨聚类。我们的方法受到观察到Mangan的每个生成器倾向于生成与实际数据分布的子区域相关的数据。我们使用此集群生成来训练分类器,以推断给定图像来自哪个生成器,从而为实际分配提供了语义有意义的聚类。此外,我们设计了我们的方法,使其在自上而下的分层聚类树中执行,从而提出了我们最佳知识的第一层级DC方法。我们进行若干实验来评估近期直流方法的提出方法,获得竞争力。最后,我们对分层聚类树进行了探索性分析,突出显示了它在语义相干模式的层次结构中组织的准确性。
translated by 谷歌翻译
在本文中,我们提出了一种无监督的方法,用于高光谱遥感图像分割。该方法利用了平均移位聚类算法,该算法将作为输入的初步高光谱超像素分割以及光谱像素信息。所提出的方法不需要分割类的数量作为输入参数,也不需要利用有关要分割的土地覆盖或土地使用类型的A-Priori知识(例如水,植被,建筑等)。进行了Salinas,Salinasa,Pavia Center和Pavia University数据集的实验。绩效是根据归一化信息,调整后的RAND指数和F1得分来衡量的。结果证明了该方法与艺术状态相比的有效性。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
在本文中,我们提出了一种基于深度学习的模型来检测北半球的乌斯多利飓风(ETCS),同时开发一种处理图像的新颖工作流程并为ETCS产生标签。我们首先通过从Bonfanti et.al调整一种方法来标记旋风中心。 [1]并建立三类标签等标准:发展,成熟和下降阶段。然后,我们提出了一个标签和预处理数据集中的图像的框架。一旦图像和标签准备好用作输入,我们创建了指定单拍摄检测器(SSD)的对象检测模型以适应我们数据集的格式。我们用两个设置(二进制和多字符分类)的标签数据集培训并评估我们的模型,同时保留结果记录。最后,我们实现了较高的性能,检测成熟阶段(平均平均精度为86.64%),以及检测所有三类的等等的可接受结果(平均平均精度79.34%)。我们得出结论,单次探测器模型可以成功地检测不同阶段的等等,并且在其他相关设置中的ETC检测的未来应用中表现出很大的潜力。
translated by 谷歌翻译
虽然通过学习特定于样本的鉴别视觉特征,但对比学习最近对未标记图像的深度聚类引起了显着的益处,但其对明确推断的类决策界限的可能性不太了解。这是因为它的实例鉴别策略不是类敏感性,因此,没有优化导出的特定于特定于特定的特征空间的簇,以便对应于有意义的类决策边界进行了优化。在这项工作中,我们通过引入语义对比学习(SCL)来解决这个问题。通过制定语义(群集感知)对比学习目标,SCL对未标记的训练数据进行了明确的基于距离的群集结构。此外,我们引入了通过实例视觉相似性和群集决策边界共同满足的聚类一致性条件,并同时通过他们的共识,同时优化了关于语义地面类别(未知/未标记)的假设。这种语义对比学习方法来发现未知类决策界限对无监督对象识别任务的学习具有相当大的优势。广泛的实验表明,SCL在六个对象识别基准上表现出最先进的对比学习和深度聚类方法,特别是在更具有挑战性的更精细的粒度和更大的数据集。
translated by 谷歌翻译
我们提出了很少的示例聚类(FEC),这是一种新型算法,可以进行对比学习以群集几个示例。我们的方法由以下三个步骤组成:(1)生成候选集群分配,(2)每个集群分配的对比度学习,以及(3)选择最佳候选者。基于以下假设:与其他人的对比学习者的训练速度要快,我们选择了在步骤(3)中学习早期学习中训练损失最小的候选人。在\ textit {mini} -imagenet和Cub-200-2011数据集上进行的广泛实验表明,在各种情况下,FEC平均比其他基本线平均优于其他基本线。FEC还表现出有趣的学习曲线,其中聚类性能逐渐增加,然后急剧下降。
translated by 谷歌翻译
机器学习模型可能涉及决策边界,这些界限由于对规则和规则的更新而随时间而变化,例如在贷款批准或索赔管理中。然而,在这种情况下,可能需要足够的训练数据来累积时的时间,以便重新恢复模型以反映新的决策边界。虽然已经完成了加强现有决策边界的工作,但已经介绍了ML模型的决策边界应该改变的这些方案,以便反映新规则。在本文中,我们专注于用户提供的反馈规则作为加快ML模型更新过程的方式,我们正式介绍预处理训练数据的问题,以响应于反馈规则,使得模型一旦模型在预处理的数据上被培训,其决策边界与规则更紧密地对齐。为了解决这个问题,我们提出了一种新的数据增强方法,基于反馈规则的过采样技术。使用不同ML模型和现实世界数据集的广泛实验证明了该方法的有效性,特别是增强的好处和处理许多反馈规则的能力。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
聚类是一个流行的无监督学习工具,通常用于发现较大的人口中的群体,例如客户段或患者亚型。但是,尽管它用作子组发现的工具和描述 - 很少有最先进的算法提供了发现的群集后面的任何理由或描述。我们提出了一种用于可解释聚类的新方法,即群集数据点和构建在被发现的集群周围的多个群体来解释它们。我们的框架允许在多台上进行额外的约束 - 包括确保构建多托的超平面是轴平行的或稀疏,具有整数系数。我们制定通过多拓构造群集作为混合整数非线性程序(MINLP)的问题。要解决我们的配方,我们提出了一种两相方法,我们首先使用交替的最小化初始化群集和多核酸,然后使用坐标下降来提升聚类性能。我们在一套综合和真实的世界聚类问题上基准测试方法,其中我们的算法优于艺术可解释和不可解释的聚类算法的状态。
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
这项工作提出了一种名为形态学分类器(MC)的新型分类器。 MCS汇总数学形态学和监督学习的概念。该聚集的结果是可能在选择停止标准和结构元件的选择之外地保持类的形状特征的分类器。 MCS基本上基于集合理论,其分类模型可以是数学集本身。在当前的工作中提出了两种类型的形态分类剂,即形态学K-NN(MKNN)和形态扩张分类器(MDC),其证明了方法的可行性。这项工作提供了有关MCS的优势的证据,例如,非常快速的分类时间以及竞争精度率。使用P-Dimensional数据集测试MKNN和MDC的性能。在8个数据集中的5个中,MCS绑定或表现优于14种成熟的分类器。在所有场合,所获得的精度高于所有分类器获得的平均精度。此外,所提出的实施方式利用图形处理单元(GPU)的功率来加速处理。
translated by 谷歌翻译