由于传感器,社交媒体等,过去几十年来,数据流的分析已经受到相当大的关注。它旨在识别无序,无限和不断发展的观察流中的模式。聚类此类数据需要一些时间和内存的限制。本文介绍了一种新的数据流群集方法(IMOC流)。与其他聚类算法不同,这种方法使用两个不同的目标函数来捕获数据的不同方面。 IMOC流的目标是:1)通过使用空闲时间来减少计算时间以应用遗传操作并增强解决方案。 2)通过引入新的树概要来减少内存分配。 3)通过使用多目标框架查找任意形状的群集。我们对高维流数据集进行了实验研究,并将其与众所周知的流聚类技术进行了比较。实验表明我们的方法在优化时间和内存的同时在任意形状,紧凑且分开的群集中分区数据流的能力。我们的方法在NMI和Arand测量方面也表现出大部分流算法。
translated by 谷歌翻译
在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
Network structure evolves with time in the real world, and the discovery of changing communities in dynamic networks is an important research topic that poses challenging tasks. Most existing methods assume that no significant change in the network occurs; namely, the difference between adjacent snapshots is slight. However, great change exists in the real world usually. The great change in the network will result in the community detection algorithms are difficulty obtaining valuable information from the previous snapshot, leading to negative transfer for the next time steps. This paper focuses on dynamic community detection with substantial changes by integrating higher-order knowledge from the previous snapshots to aid the subsequent snapshots. Moreover, to improve search efficiency, a higher-order knowledge transfer strategy is designed to determine first-order and higher-order knowledge by detecting the similarity of the adjacency matrix of snapshots. In this way, our proposal can better keep the advantages of previous community detection results and transfer them to the next task. We conduct the experiments on four real-world networks, including the networks with great or minor changes. Experimental results in the low-similarity datasets demonstrate that higher-order knowledge is more valuable than first-order knowledge when the network changes significantly and keeps the advantage even if handling the high-similarity datasets. Our proposal can also guide other dynamic optimization problems with great changes.
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously searches for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provides better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. DeLag is more effective than all baseline techniques in at least one case study (with p $\leq$ 0.05 and non-negligible effect size). Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation (up to 22%).
translated by 谷歌翻译
流媒体环境中的序列聚类非常具有挑战性,因为它在计算上很昂贵,并且序列可能会随着时间的推移而发展。 K-Medoids或围绕MEDOID(PAM)进行分区(PAM)通常用于聚类序列,因为它支持基于对齐的距离,而K-Centers为实际数据项有助于群集可解释性。但是,离线K-Medoids不支持概念漂移,同时对于聚类数据流的昂贵也很昂贵。因此,我们提出了Secrets,这是具有恒定内存足迹的K-Medoids算法的流式变体。 secleds具有两个独特的属性:i)每个群集使用多个MEDOIDS,产生稳定的高质量簇,ii)它使用直观的Medioid投票方案来处理概念漂移,以近似群集距离。与现有的自适应算法为新概念创建新簇的现有算法不同,secleds遵循一种根本不同的方法,在这种方法中,簇本身随着不断发展的流而发展。使用真实和合成数据集,我们从经验上证明,不管漂移,溪流大小,数据维度和簇的数量如何,secleds会产生高质量的簇。我们将三种流行的流和批处理聚类算法进行比较。最先进的Banditpam用作离线基准测试。 Secleds可以达到可比的F1分数与BanditPAM,同时将所需距离计算的数量减少83.7%。重要的是,当流含有漂移时,隔离的人的表现优于所有基准。我们还聚集了真正的网络流量,并提供证据表明,secleds可以在使用(昂贵的)动态时间翘曲距离的同时支持高达1.08 Gbps的网络带宽。
translated by 谷歌翻译
客户满意度在移动设备中的能源消耗至关重要。应用程序中最耗能的部分之一是图像。尽管具有不同质量的不同图像消耗了不同量的能量,但没有直接的方法来计算典型图像中操作的能量消耗。首先,本文调查了能源消耗与图像质量以及图像文件大小之间存在相关性。因此,这两者可以被视为能源消耗的代理。然后,我们提出了一种多目标策略,以增强图像质量并根据JPEG图像压缩中的定量表减少图像文件大小。为此,我们使用了两种一般的多目标元启发式方法:基于标量和基于帕累托。标量方法找到基于组合不同目标的单个最佳解决方案,而基于帕累托的技术旨在实现一组解决方案。在本文中,我们将策略纳入五种标量算法,包括能量感知的多目标遗传算法(ENMOGA),能量感知的多目标粒子群优化(ENMOPSO),能量感知的多目标多目标差异进化(ENMODE)(ENMODE)(ENMODE) ,能源感知的多目标进化策略(ENMOES)和能量感知的多目标模式搜索(ENMOPS)。此外,使用两种基于帕累托的方法,包括非主导的分类遗传算法(NSGA-II)和基于参考点的NSGA-II(NSGA-III),用于嵌入方案,以及两种基于帕累托的算法,即两种基于帕累托的算法,即提出了Ennsgaii和Ennsgaiii。实验研究表明,基线算法的性能通过将拟议策略嵌入到元启发式算法中来提高。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
敦促智能技术实现开放式无线电接入网络(O-RAN)中计算资源的自动分配,以节省计算资源,提高它们的利用率并降低延迟。但是,要解决此资源分配问题的现有问题制定是不合适的,因为它定义了以不适当的方式为资源的容量实用性,并且往往会导致太多延迟。此外,只有在贪婪的搜索基于贪婪搜索的情况下才能解决现有问题,这并不理想,因为它可能会被粘在本地最佳擎天。考虑到那些,提出了一种更好地描述问题的新配方。另外,作为众所周知的全球搜索元启发式方法,设计了一种用于解决新问题制定的进化算法(EA),以找到资源分配方案,以主动和动态地部署计算资源以用于处理即将到来的流量数据。在几个现实世界数据集和新生成的人工数据集中进行的实验研究,具有超出现实世界数据集的具有更多特性的实验数据集已经在不同参数设置下显示了基线贪婪算法的显着优越性。此外,采用实验研究来比较所提出的EA和两种变体,以指示不同算法选择的影响。
translated by 谷歌翻译
内部群集有效性度量(例如Calinski-Harabasz,Dunn或Davies-Bouldin指数)经常用于选择适当数量的分区数量,应将数据集分为二。在本文中,我们考虑如果将这些索引视为无监督学习活动中的客观功能会发生什么。关于轮廓指数的最佳分组是否真的有意义?事实证明,许多群集有效性指数促进了聚类,这些聚类与专家知识相匹配。我们还引入了邓恩指数的一个新的,表现出色的变体,该变体是建立在OWA操作员和接近邻居图的基础上的,因此,无论其形状如何,都可以更好地相互分离。
translated by 谷歌翻译
4月20日至22日,在马德里(西班牙)举行的EVO* 2022会议上提交了末期摘要。这些论文介绍了正在进行的研究和初步结果,这些结果研究了对不同问题的不同方法(主要是进化计算)的应用,其中大多数是现实世界中的方法。
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
社区检测是社会网络分析中最重要而有趣的问题之一。近年来,同时考虑社区检测过程中社交网络的节点的属性和拓扑结构,吸引了许多学者的关注,最近在一些社区检测方法中使用了这一考虑,以增加他们的效率并增强他们的效率寻找有意义和相关社区的表演。但问题是,大多数这些方法都倾向于找到非重叠的社区,而许多现实网络包括在某种程度上经常重叠的社区。为了解决这个问题,在本文中提出了一种称为Mobbo-OCD的进化算法,该算法基于基于多目标生物地理学的优化(BBO),以在同步地考虑中自动查找与节点属性的社交网络中的重叠社区网络中的连接密度和节点属性的相似性。在Mobbo-OCD中,引入称为OLAR的扩展基于轨迹的邻接邻接,以编码和解码重叠的社区。基于OLAR,基于秩的迁移操作员以及新的两相突变策略和新的双点交叉在Mobbo-OCD的演化过程中使用,以有效地将人群引导到进化路径中。为了评估mobbo-ocd的性能,本文提出了一种名为Alpha_Saem的新度量,这是考虑节点属性和链接结构的两个方面,可以评估重叠和非重叠分区的良好。量化评估表明,Mobbo-ocd实现了有利的结果,这些结果非常优于文献中的15个相关群落检测算法的结果。
translated by 谷歌翻译
本文提出并调查了数据驱动知识发现算法的代理辅助性能预测方法。该方法是基于识别用于预测目标算法的质量和性能的代理模型。实施和研究了所提出的方法,以应用于急性冠状动脉综合征患者电子健康记录中可解释临床途径的进化算法。几种聚类指标和执行时间分别用作目标质量和性能度量。开发了一种基于提出的算法特征和特征分析方法的分析软件原型,以提供更可解释的目标算法的性能和质量的预测,可以进一步用于参数调谐。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译