我们考虑了一种新的聚类问题,其中簇不必彼此独立,而是可以与其他簇有组成关系(例如,数据集包含矩形,圆形图像和两者图像的图像)。这项任务是由最新的作品进行的几个工作和嵌入模型的动机,这些模型被优化,以区分分配给示例的标签集,而不仅仅是各个标签。为了解决这个聚类问题,我们提出了三种新算法:组成亲和力传播(CAP),组成K-均值(CKM)和贪婪的成分重新分配(GCR)。这些新方法都可以将示例均分为一致组,并自动推断组之间的组成结构。与流行的算法(例如高斯混合物,模糊的C均值和聚集聚类)相比,我们显示出令人鼓舞的结果,这些算法在Omniglot和Librispeech数据集上被广泛用于几次学习研究。我们的工作具有开放世界的多对象图像识别和扬声器诊断的应用,并同时发表了来自多个演讲者的语音。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
可解释的AI(XAI)是一个重要的发展领域,但仍相对研究用于聚类。我们提出了一种可解释的划分聚类方法,不仅可以找到集群,而且还可以解释每个群集。基于典范的心理学概念学院的使用支持了示例示例的理解。我们表明,找到一小部分示例来解释即使是一个群集也是计算上的棘手。因此,总体问题具有挑战性。我们开发了一种近似算法,该算法可为聚类质量以及所使用的示例数量提供可证明的性能保证。该基本算法解释了每个集群中的所有实例,而另一种近似算法则使用有界数的示例来允许更简单的解释,并证明涵盖了所有实例的大部分。实验结果表明,我们的工作在涉及很难理解图像和文本深层嵌入的领域中很有用。
translated by 谷歌翻译
口语识别(SLR)是指用于确定语音样本中存在的语言的自动进程。例如,SLR是一个重要的任务,例如,作为分析或分类大量多语言数据的工具。此外,它也是用于在工作流中选择下游应用的必要工具,例如,选择适当的语音识别或机器转换模型。 SLR系统通常由两个阶段组成,其中提取表示音频样本的嵌入的一个阶段,并且第二个是计算每种语言的最终分数的次数。在这项工作中,我们将SLR任务接近作为检测问题,并实现第二阶段作为概率线性判别分析(PLDA)模型。我们表明,对PLDA参数的鉴别性培训相对于通常的生成培训提供了大的收益。此外,我们提出了一种新的分层方法是训练了两个PLDA模型,一个是生成高度相关语言的集群的分数,以及第二个是为每个群集产生分数的分数。最终的语言检测分数被计算为这两种分数的组合。完整的模型判别训练,以优化跨熵目标。我们表明,该层次方法始终如一地优于非等级化,以检测高度相关的语言,在许多情况下大幅度的边缘。我们培训我们的系统在包含100种语言的数据集合中,并在匹配和不匹配的条件下测试它们,表明增益是强大的状态不匹配。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
本报告探讨了机器学习技术在短时间内基因表达数据中的应用。虽然标准机器学习算法在更长的时间系列中工作良好,但它们通常无法从更少的时间点中找到有意义的见解。在本报告中,我们探索基于模型的群集技术。我们将流行无监督的学习技术相结合,如K-means,高斯混合模型,贝叶斯网络,隐藏的马尔可夫模型,具有众所周知的期望最大化算法。K-means和高斯混合模型是相当标准的,而隐藏的马尔可夫模型和贝叶斯网络聚类是更加新颖的想法,适合时间序列基因表达数据。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
光谱方法通过图矩阵上的特征向量计算在图中提供了一个可拖动的全局框架。 HyperGraph数据(其中实体在任意大小的边缘上相互作用)对矩阵表示构成了挑战,因此对光谱聚类构成了挑战。我们研究了基于超透明型非背带操作员的非均匀超图的光谱聚类。在审查了该操作员及其基本属性的定义之后,我们证明了Ihara-Bass类型的定理,该定理允许在较小的矩阵上进行特征Pair计算,通常可以更快地计算。然后,我们通过线性化信念传播提出了一种交替的算法,用于在超图随机块模型中推断,该算法涉及光谱聚类的步骤,再次使用非背部跟踪操作员。我们提供与该算法相关的证明,这些算法既正式又扩展了几个先前的结果。我们对光谱方法的极限和超图随机块模型中的可检测性提出了几种猜想,并通过对我们研究的操作员的特征因的不接受分析来支持它们。我们在真实和合成数据中执行实验,这些实验证明了当不同尺寸的相互作用带有有关群集结构的不同信息时,超图方法比基于图的方法的好处。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
现代深度学习需要大规模广泛标记的数据集进行培训。少量学习旨在通过有效地从少数标记的例子中学习来缓解这个问题。在先前提出的少量视觉分类器中,假设对分类器决定的特征歧管具有不相关的特征尺寸和均匀特征方差。在这项工作中,我们专注于通过提出以低标签制度运行的差异敏感的模型来解决这一假设引起的限制。第一种方法简单的CNAP,采用基于分层正规的Mahalanobis距离基于距离的分类器,与现有神经自适应特征提取器的状态相结合,以在元数据集,迷你成像和分层图像基准基准上实现强大性能。我们进一步将这种方法扩展到转换学习设置,提出转导压盖。这种转换方法将软k-means参数细化过程与两步任务编码器相结合,以实现使用未标记数据的改进的测试时间分类精度。转导CNAP在元数据集上实现了最先进的性能。最后,我们探讨了我们的方法(简单和转换)的使用“开箱即用”持续和积极的学习。大规模基准的广泛实验表明了这一点的鲁棒性和多功能性,相对说话,简单的模型。所有培训的模型检查点和相应的源代码都已公开可用。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
People learning new concepts can often generalize successfully from just a single example, yet machine learning algorithms typically require tens or hundreds of examples to perform with similar accuracy. People can also use learned concepts in richer ways than conventional algorithms-for action, imagination, and explanation. We present a computational model that captures these human learning abilities for a large class of simple visual concepts: handwritten characters from the world's alphabets. The model represents concepts as simple programs that best explain observed examples under a Bayesian criterion. On a challenging one-shot classification task, the model achieves human-level performance while outperforming recent deep learning approaches. We also present several "visual Turing tests" probing the model's creative generalization abilities, which in many cases are indistinguishable from human behavior.
translated by 谷歌翻译
本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此,我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机(SVM)以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客(SEP-28K)数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统,以阐明结果W.R.T.的可变性。使用使用的分区方法。此外,我们表明SEP-28K数据集仅由少数扬声器主导,因此很难评估。为了解决这个问题,我们创建了Sep-28k扩展(Sep-28k-e),其中包含半自动生成的扬声器和性别信息,为SEP-28K语料库,建议不同的数据拆分,每个数据分配有用,可用于评估方法的其他方面用于功能障碍检测。
translated by 谷歌翻译
聚类是一个流行的无监督学习工具,通常用于发现较大的人口中的群体,例如客户段或患者亚型。但是,尽管它用作子组发现的工具和描述 - 很少有最先进的算法提供了发现的群集后面的任何理由或描述。我们提出了一种用于可解释聚类的新方法,即群集数据点和构建在被发现的集群周围的多个群体来解释它们。我们的框架允许在多台上进行额外的约束 - 包括确保构建多托的超平面是轴平行的或稀疏,具有整数系数。我们制定通过多拓构造群集作为混合整数非线性程序(MINLP)的问题。要解决我们的配方,我们提出了一种两相方法,我们首先使用交替的最小化初始化群集和多核酸,然后使用坐标下降来提升聚类性能。我们在一套综合和真实的世界聚类问题上基准测试方法,其中我们的算法优于艺术可解释和不可解释的聚类算法的状态。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
选择功能是向量图形的基础,因为它是栅格数据的。但是矢量选择是完全不同的:而不是像素级标签,我们做出二进制决定包括或排除每个矢量原语。在没有可理解的元数据的情况下,这成为一个感知分组问题。这些以前依赖于类似于Gestall理论的经验原则的启发式,但由于这些都是不合定的和主观的,他们经常导致歧义。在这里,我们对问题采取了以数据为中心的方法。通过利用感知分组的递归性质,我们将任务解释为构建矢量图形的基元构建层次结构,这可以与额外的人类注释一起学习递归神经网络。我们通过构建这些层次结构的数据集来验证我们培训分层分组网络的数据集。然后,我们演示了如何在原型选择工具支撑。
translated by 谷歌翻译