由于高存储成本和计算要求,在实践中分析了许多或长时间序列。因此,已经提出了技术来生成时间序列的紧凑相似性保存表示,从而实现大量内存数据集合的实时相似性搜索。然而,当序列在局部间隙时,现有技术并不适合评估相似性。在本文中,我们提出了使用产品量化以了解基于时间序列的有效相似性的比较。该想法是首先通过将时间序列划分为由短代码表示的相等长度子序列来压缩数据。然后可以通过在其代码之间的预先计算的弹性距离来有效地近似于两个时间序列之间的距离。分区进入子序列强制不需要的对齐,我们使用最大重叠离散小波变换(MODWT)与预先对准步骤进行地址。为了展示我们方法的效率和准确性,我们对最近邻居分类和聚类应用中的基准数据集进行了广泛的实验评估。总的来说,所提出的解决方案作为高效(在内存使用和计算时间方面)的高效(无论是在时间序列应用中的弹性措施的替代。
translated by 谷歌翻译
许多时间序列数据挖掘问题可以通过重复使用距离度量来解决。此类任务的示例包括相似性搜索,聚类,分类,异常检测和分割。在过去的二十年中,人们已经知道,在大多数域中,动态时间扭曲(DTW)距离度量是用于大多数任务的最佳措施。由于经典的DTW算法具有二次的时间复杂性,因此引入了许多想法,以减少其摊销时间或快速近似它。最引用的近似方法之一是FastDTW。 FastDTW算法已有超过一千个引用,并已在数百个研究工作中明确使用。在这项工作中,我们提出了令人惊讶的主张。在任何现实的数据挖掘应用程序中,近似FastDTW都比确切的DTW慢得多。这个事实显然对使用此算法的社区具有影响:允许其解决更大的数据集,获得确切的结果并在更少的时间内完成。
translated by 谷歌翻译
动态时间翘曲(DTW)及其约束(CDTW)和加权(WDTW)变体,是具有各种应用范围的时间序列距离。它们最小化了系列之间的非线性校准成本。已经引入了CDTW和WDTW,因为DTW在其对齐方面过于允许。但是,CDTW使用粗略的步骤功能,允许窗口内的无限制灵活性,而不是超出它。 WDTW的乘法重量是相对于沿着翘曲路径的对齐点之间的距离,而不是引入的翘曲量的直接函数。在本文中,我们介绍了Amerced动态时间翘曲(ADTW),一种新的直观的DTW变体,可以通过固定的添加剂成本来惩罚翘曲的行为。像CDTW和WDTW一样,ADTW约束了翘曲量。但是,它避免突然不连续性在允许的扭曲量和乘法惩罚的局限性中。我们正式介绍ADTW,证明其一些属性,并讨论其参数化。我们展示了一个简单的示例,如何参数化以实现直观的结果,并展示其对标准时间序列分类基准的实用性。我们在C ++中提供了一个演示应用程序。
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
本文研究了分层聚类问题,其中目标是生产一种在数据集的变化尺度上表示集群的树形图。我们提出了用于设计并行分层凝聚聚类(HAC)算法的Parchain框架,并使用该框架,我们获得了全面连锁,平均联系和病房的联动标准的新颖平行算法。与最先前的并行HAC算法相比,这需要二次存储器,我们的新算法仅需要线性存储器,并且可以扩展到大数据集。 PARCHAIN基于我们最近邻的链算法的并行化,并使多个群集能够在每一轮上合并。我们介绍了两个关键优化,这对于效率至关重要:范围查询优化,减少查找群集的最近邻居所需的距离计算数,以及存储可能重复使用的先前计算的距离子集的缓存优化。通过实验,我们表明,我们的高度优化实现,使用48个核心,通过双向超线程实现5.8--110.1倍的加速,通过最先进的并行HAC算法,实现了13.75--54.23倍的自相对加速。与最先进的算法相比,我们的算法较少的空间少于237.3倍。我们的算法能够扩展到具有数百万点的数据集大小,现有算法无法处理该算法。
translated by 谷歌翻译
高维空间中的大约最近的邻居搜索(ANN)对于许多现实生活应用程序(例如电子商务,Web,多媒体等)至关重要。在本文中,我们提出了一个端到端的学习框架,该框架将分区(ANN的一个关键步骤)和使用自定义损失函数进行学习进行搜索步骤。我们提出的解决方案的关键优势是,它不需要对数据集进行任何昂贵的预处理,这是最新方法的关键局限性之一。我们通过制定不需要地面真实标签来量化数据空间分区的质量的多目标自定义损失函数来实现上述边缘,从而完全不受监督。我们还通过在损失功能中添加不同的输入权重来训练模型集合以增强搜索质量来提出一种结合技术。在几个标准的ANN标准基准上,我们表明我们的方法击败了最新的空间分区方法和无处不在的K-均值聚类方法,同时使用较少的参数和较短的离线训练时间。在没有一般性的情况下,我们的无监督分区方法被证明是许多广泛使用的聚类方法(例如K-均值聚类和DBSCAN)的有希望的替代方法。
translated by 谷歌翻译
在十亿缩放的数据集中快速检索类似载体的现代方法依赖于压缩域方法,例如二进制草图或产品量化。这些方法最小化了一定的损失,通常是针对检索问题量身定制的平均平方误差或其他目标函数。在本文中,我们重新解释了流行的方法,例如二进制散列或产品量化器作为自动编码器,并指出它们在解码器的形式上隐式制作次优假设。我们设计了向后兼容的解码器,可从相同的代码改进向量的重建,这转化为最近的邻居搜索中的更好性能。我们的方法显着提高了流行基准的二进制散列方法或产品量化。
translated by 谷歌翻译
Similarity search finds application in specialized database systems handling complex data such as images or videos, which are typically represented by high-dimensional features and require specific indexing structures. This paper tackles the problem of better utilizing GPUs for this task. While GPUs excel at data-parallel tasks, prior approaches are bottlenecked by algorithms that expose less parallelism, such as k-min selection, or make poor use of the memory hierarchy.We propose a design for k-selection that operates at up to 55% of theoretical peak performance, enabling a nearest neighbor implementation that is 8.5× faster than prior GPU state of the art. We apply it in different similarity search scenarios, by proposing optimized design for brute-force, approximate and compressed-domain search based on product quantization. In all these setups, we outperform the state of the art by large margins. Our implementation enables the construction of a high accuracy k-NN graph on 95 million images from the Yfcc100M dataset in 35 minutes, and of a graph connecting 1 billion vectors in less than 12 hours on 4 Maxwell Titan X GPUs. We have open-sourced our approach 1 for the sake of comparison and reproducibility.
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
K-Nearest邻居搜索是各种应用程序中的基本任务之一,层次可导航的小世界(HNSW)最近在大规模云服务中引起了人们的注意,因为它在提供快速搜索的同时很容易扩展数据库。另一方面,将可编程逻辑和单个板上的可编程逻辑模块结合在一起的计算存储设备(CSD)变得流行,以解决现代计算系统的数据带宽瓶颈。在本文中,我们提出了一个计算存储平台,该平台可以加速基于SMARTSSSD CSD的基于图形的最近的邻居搜索算法。为此,我们更修改算法在硬件上更适合,并使用基于HLS和RTL的方法实现两种类型的加速器,并采用各种优化方法。此外,我们扩展了提议的平台,以拥有4个SMARTSSS,并应用图形并行性以进一步提高系统性能。结果,拟议的计算存储平台在258.66W的功率耗散时,SIFT1B数据集的每秒吞吐量达到75.59个查询,该数据集的功率耗散为12.83倍,比常规CPU和GPU和GPU更快,更快的10.43 x和10.43 x和24.33 x - 基于基于的服务器平台。借助多稳定的存储和自定义加速能力,我们相信所提出的计算存储平台是针对成本敏感的云数据中心的有前途的解决方案。
translated by 谷歌翻译
图主直觉是一个短时间序列,在较大的时间序列中重复自身大致相同。这样的主题通常代表隐藏的结构,例如心电图记录中的心跳或脑电图中的睡眠纺锤体。主题发现(MD)是在给定输入系列中找到此类主题的任务。由于有不同的定义,因此存在许多算法。作为中心参数,它们都采用了基序的长度L和图案发生之间的最大距离R。但是,实际上,R的合适值很难确定前期,并且发现的图案显示出很高的可变性。设置错误的输入值将导致一个与噪声无法区分的主题。因此,使用这些方法找到一个有趣的主题需要广泛的试用和错误。我们对MD问题提出了不同的方法。我们将k- motiflet定义为长度为l的基序的精确k出现,其最大成对距离是最小的。这将MD问题颠倒了:我们的中心参数不是距离阈值r,而是主题集的所需尺寸K,我们显示的更直观且易于设置。基于此定义,我们提出了用于查找K-单体并分析其复杂性的精确和近似算法。为了进一步缓解我们的方法的使用,我们描述了扩展,以自动确定其输入参数的正确/合适值。因此,第一次提取有意义的主题集在没有任何A-Priori知识的情况下变得可行。通过评估现实世界的用例并将其与4种最先进的MD算法进行比较,我们表明我们提出的算法在定量上是(a)较高的,在较高的相似性上找到较大的基序集,(b)在质量上更好,导致,导致更清晰,更易于解释主题,(c)的运行时间最低。
translated by 谷歌翻译
应用分层聚类算法所需的时间最常由成对差异度量的计算数量主导。对于较大的数据集,这种约束使所有经典链接标准的使用都处于不利地位。但是,众所周知,单个连锁聚类算法对离群值非常敏感,产生高度偏斜的树状图,因此通常不会反映出真正的潜在数据结构 - 除非簇分离良好。为了克服其局限性,我们提出了一个名为Genie的新的分层聚类链接标准。也就是说,我们的算法将两个簇链接在一起,以至于选择的经济不平等度量(例如,gini-或bonferroni index)的群集大小不会大大增加超过给定阈值。提出的基准表明引入的方法具有很高的实际实用性:它通常优于病房或平均链接的聚类质量,同时保持单个连锁的速度。 Genie算法很容易平行,因此可以在多个线程上运行以进一步加快其执行。它的内存开销很小:无需预先计算完整的距离矩阵即可执行计算以获得所需的群集。它可以应用于配备有差异度量的任意空间,例如,在实际矢量,DNA或蛋白质序列,图像,排名,信息图数据等上。有关R。另请参见https://genieclust.gagolewski.com有关新的实施(GenieClust) - 可用于R和Python。
translated by 谷歌翻译
尽管相似性搜索研究的不断发展,但它仍然面临着由于数据的复杂性而面临的相同挑战,例如维度和计算距离距离功能的诅咒。已证明,各种机器学习技术能够用简单的线性功能组合来代替精心设计的数学模型,通常以正式保证的准确性和正确的查询性能来获得速度和简单性。作者通过为3D蛋白质结构搜索的复杂问题提供了轻巧的解决方案来探索这一研究趋势的潜力。该解决方案由三个步骤组成:(i)将3D蛋白结构信息转换为非常紧凑的向量,(ii)使用概率模型将这些向量分组并通过返回给定数量的类似对象和(iii)来响应查询,并且)最终的过滤步骤,该步骤应用基本的向量距离函数来完善结果。
translated by 谷歌翻译
矩阵配置文件是一种有效的数据挖掘工具,可提供时间序列数据的相似关系。矩阵配置文件的用户可以使用相似性连接(即,自行连接)或使用相似性相互作用连接使用另一个时间序列加入时间序列。通过调用或两种类型的连接,矩阵配置文件可以帮助用户在数据中发现保守和异常结构。自从五年前引入矩阵简介以来,已经进行了多项努力,以加快近似联合的计算;然而,大多数这些努力只关注自我连接。在这项工作中,我们表明可以通过创建时间序列的紧凑“字典”表示,有效地使用误差限制保证来执行近似时间序列相似度。使用字典表示而不是原始时间序列,我们能够将异常挖掘系统的吞吐量至少为20倍,基本上没有准确度降低。作为副作用,字典还以语义有意义的方式总结时间序列,可以提供直观和可操作的见解。我们展示了我们的字典的内部序列相似性的实用性,如医学和运输所多样化的域。
translated by 谷歌翻译
时间序列挖掘是数据挖掘的重要分支,因为时间序列数据普遍存在,在若干域中有许多应用。时间级挖掘的主要任务是分类。时间序列表示方法在时间序列分类和其他时间级挖掘任务中发挥着重要作用。时间序列数据最受欢迎的表示方法之一是符号聚合近似(SAX)。其受欢迎程度背后的秘密是其简单和效率。然而,SAX具有一个主要缺点,这是它无法代表趋势信息。已经提出了几种方法来使SAX能够捕获趋势信息,但这是以复杂的处理,预处理或后处理程序为代价。在本文中,我们介绍了我们呼叫趋势萨克斯(TSAX)的萨克斯的新修改,这只为萨克斯增加了最小的复杂性,而是大大提高了其在时间序列分类中的性能。这是通过实验验证的50个数据集。结果显示了我们的方法的卓越性能,因为它在与萨克斯相比的39个数据集中提供了较小的分类误差。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
无监督的离散化是许多知识发现任务中的关键步骤。使用最小描述长度(MDL)原理局部自适应直方图的一维数据的最先进方法,但研究多维情况的研究要少得多:当前方法一次考虑一个尺寸(如果不是独立的),这导致基于自适应大小的矩形细胞的离散化。不幸的是,这种方法无法充分表征维度之间的依赖性和/或结果,包括由更多的单元(或垃圾箱)组成的离散化。为了解决这个问题,我们提出了一个表达模型类,该类别允许对二维数据进行更灵活的分区。我们扩展了一维情况的艺术状态,以基于归一化最大似然的形式获得模型选择问题。由于我们的模型类的灵活性是以巨大的搜索空间为代价的,因此我们引入了一种名为Palm的启发式算法,该算法将每个维度交替划分,然后使用MDL原理合并相邻区域。合成数据的实验表明,棕榈1)准确地揭示了模型类(即搜索空间)内的地面真相分区,给定的样本量足够大; 2)近似模型类外的各种分区; 3)收敛,与最先进的多元离散方法IPD相比。最后,我们将算法应用于三个空间数据集,我们证明,与内核密度估计(KDE)相比,我们的算法不仅揭示了更详细的密度变化,而且还可以更好地拟合看不见的数据,如日志流利性。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
流媒体环境中的序列聚类非常具有挑战性,因为它在计算上很昂贵,并且序列可能会随着时间的推移而发展。 K-Medoids或围绕MEDOID(PAM)进行分区(PAM)通常用于聚类序列,因为它支持基于对齐的距离,而K-Centers为实际数据项有助于群集可解释性。但是,离线K-Medoids不支持概念漂移,同时对于聚类数据流的昂贵也很昂贵。因此,我们提出了Secrets,这是具有恒定内存足迹的K-Medoids算法的流式变体。 secleds具有两个独特的属性:i)每个群集使用多个MEDOIDS,产生稳定的高质量簇,ii)它使用直观的Medioid投票方案来处理概念漂移,以近似群集距离。与现有的自适应算法为新概念创建新簇的现有算法不同,secleds遵循一种根本不同的方法,在这种方法中,簇本身随着不断发展的流而发展。使用真实和合成数据集,我们从经验上证明,不管漂移,溪流大小,数据维度和簇的数量如何,secleds会产生高质量的簇。我们将三种流行的流和批处理聚类算法进行比较。最先进的Banditpam用作离线基准测试。 Secleds可以达到可比的F1分数与BanditPAM,同时将所需距离计算的数量减少83.7%。重要的是,当流含有漂移时,隔离的人的表现优于所有基准。我们还聚集了真正的网络流量,并提供证据表明,secleds可以在使用(昂贵的)动态时间翘曲距离的同时支持高达1.08 Gbps的网络带宽。
translated by 谷歌翻译
索引是支持大型数据库中有效查询处理的有效方法。最近,已积极探索了替代或补充传统索引结构的学习指数的概念,以降低存储和搜索成本。但是,在高维度空间中准确有效的相似性查询处理仍然是一个开放的挑战。在本文中,我们提出了一种称为LIMS的新型索引方法,该方法使用数据群集,基于枢轴的数据转换技术和学习的索引来支持度量空间中的有效相似性查询处理。在LIM中,将基础数据分配到簇中,使每个群集都遵循相对均匀的数据分布。数据重新分布是通过利用每个集群的少量枢轴来实现的。类似的数据被映射到紧凑的区域,而映射的值是完全顺序的。开发机器学习模型是为了近似于磁盘上每个数据记录的位置。有效的算法设计用于基于LIMS的处理范围查询和最近的邻居查询,以及具有动态更新的索引维护。与传统索引和最先进的学习索引相比,对现实世界和合成数据集的广泛实验证明了LIM的优势。
translated by 谷歌翻译