高效用顺序模式采矿(HUSPM)是具有许多真实世界应用的知识发现和数据分析中的重要活动。在某些情况下,HUSPM无法提供出色的措施来预测会发生什么。高效用顺序规则挖掘(HUSRM)发现了高实用性和高置信顺序规则,从而使其可以解决HUSPM中的问题。所有现有的HUSRM算法旨在找到与现实不一致的,可能会产生假的HUSRS的高级序列顺序规则(HUSRS)。因此,在本文中,我们制定了高公用事业完全订购的顺序规则挖掘的问题,并提出了两种称为petalsr和totalsr+的新型算法,旨在识别所有高实用性完全订购的顺序规则(HTSRS)。 TotalSR创建了一个实用表,该表可以有效地计算前提支持和一个效用前缀总和列表,该列表可以计算序列中O(1)时间中的剩余实用程序。我们还引入了左侧的扩展策略,该策略可以利用反单调性属性来使用信心修剪策略。 TotalSr还可以在实用程序上限的修剪策略的帮助下大大减少搜索空间,从而避免更加有意义的计算。此外,TotalSr+使用辅助前期记录表来更有效地发现HTSR。最后,在真实和合成数据集上都有许多实验结果,表明topalsR比较少的修剪策略的算法要高得多,并且在运行时间和可伸缩性方面,topalsr+效率更高。
translated by 谷歌翻译
场景图是一种语义表示,表达场景中对象之间的对象,属性和关系。场景图在许多交叉模态任务中起着重要作用,因为它们能够捕获图像和文本之间的交互。在本文中,我们关注场景图修改(SGM),其中需要系统来学习如何基于自然语言查询更新现有场景图。与以前重建整个场景图的方法不同,我们通过引入增量结构扩展(ISE)来将SGM作为图形扩展任务。 ISE通过逐步扩展源图来构建目标图,而无需更改未修改的结构。基于ISE,我们进一步提出了一个模型,该模型在节点预测和边缘预测之间进行迭代,从而逐渐推断出更准确和和谐的扩展决策。此外,我们构建了一个具有挑战性的数据集,该数据集包含比现有数据集更复杂的查询和更大的场景图。四个基准测试的实验证明了我们的方法的有效性,该实验超过了以前的最新模型。
translated by 谷歌翻译
整合多个在线社交网络(OSN)对许多下游社交挖掘任务(例如用户偏好建模,建议和链接预测)具有重要意义。但是,不幸的是,伴随着越来越多的隐私问题,泄漏敏感用户信息。如何完全利用来自不同在线社交网络的数据,同时保存用户隐私仍然无法解决。为此,我们提出了一个跨网络的社交用户嵌入框架,即DP-Crosue,以一种隐私性的方式学习用户的全面表示。我们共同考虑具有不同隐私保证的部分调整社交网络的信息。特别是,对于每个异质社交网络,我们首先引入一个混合差异隐私概念,以捕获异构数据类型的隐私期望的变化。接下来,为了找到跨社交网络的用户链接,我们进行了无监督的基于用户嵌入的对齐方式,其中通过异质网络嵌入技术实现了用户嵌入。为了进一步增强用户嵌入,一种新颖的跨网络GCN嵌入模型旨在通过那些对齐用户跨网络传输知识。在三个现实世界数据集上进行的广泛实验表明,我们的方法对用户兴趣预测任务以及捍卫用户属性推理攻击的嵌入进行了重大改进。
translated by 谷歌翻译
在时间图上的表示学习吸引了大量的研究注意力,因为它在各种各样的现实应用程序中的基本重要性。尽管许多研究成功地获得了时间依赖的表示,但它仍然面临重大挑战。一方面,大多数现有方法都以一定的曲率限制了嵌入空间。然而,实际上,潜在的几何形状随着时间的推移而变化的曲率超球,零曲率欧几里得和负曲率双曲空间发生了变化。另一方面,这些方法通常需要丰富的标签来学习时间表示,从而明显限制了它们在真实应用程序的未标记图中的广泛使用。为了弥合这一差距,我们首次尝试研究一般的Riemannian空间中自我监督的时间图表示学习的问题,从而支持随时间变化的曲率在超球,欧几里得和双曲线空间之间转移。在本文中,我们提出了一种新颖的自我监督的Riemannian图神经网络(SEXTRGNN)。具体而言,我们设计了具有理论上的时间编码的曲率变化的Riemannian GNN,并随着时间的推移制定功能性曲率,以模拟正,零和负曲率空间之间的演变转换。为了启用自我监督的学习,我们提出了一种新颖的重新处理自我对比的方法,探索Riemannian空间本身而无需增强,并提出了一种基于边缘的自我监督的曲率学习,并使用RICCI曲率进行。广泛的实验表明了SelfRGNN的优越性,此外,案例研究表明了现实中时间图的时变曲率。
translated by 谷歌翻译
现成的实用工具采矿(OSUM)是数据挖掘的新兴研究方向。它的目的是发现在销售时间内具有相对效用的物品集。与传统的公用事业开采相比,Osum可以在现实生活中找到更多实用和有意义的模式。但是,传统Osum有一个主要的缺点。对于普通用户而言,很难定义最低阈值细节,以挖掘适量的货架上的高实用物品集。一方面,如果设置阈值太高,则图案的数量将不够。另一方面,如果设定阈值太低,则会发现太多模式,并导致不必要的时间和记忆消耗。为了解决此问题,用户通常直接指定一个参数k,其中仅考虑顶级相对实用项目集。因此,在本文中,我们提出了一种通用算法TOIT,用于挖掘Top-K On-Shelf高耗时模式来解决此问题。 TOIT采用了一种新颖的策略来根据架子上的数据集提高细节。此外,还采用了两种名为Subtree实用程序的新型上限策略,并应用了本地实用程序来修剪搜索空间。通过采用上述策略,TOIT算法可以尽早缩小搜索空间,提高采矿效率并降低记忆消耗,从而比其他算法获得更好的性能。在具有不同样式的真实数据集上进行了一系列实验,以将效果与最新的Koshu算法进行比较。实验结果表明,TOIT在运行时间和内存消耗中都优于Koshu。
translated by 谷歌翻译
拓扑不平衡是由标记节点的不均匀拓扑位置引起的一个特异性不平衡问题,它大大损害了GNN的性能。什么拓扑不平衡意味着如何衡量其对图形学习的影响。在本文中,从全球视图中,我们对监督信息分布的全球视图提供了对拓扑 - 不平衡的新理解,从不足和过度划分的角度来看,这激发了两个定量指标作为测量。鉴于我们的分析,我们提出了一个新颖的位置感知的图形结构学习框架,该框架名为柔和,该框架直接优化了信息传播路径并解决了本质上解决拓扑 - 不平衡问题。我们的关键见解是增强同一类中节点的连接性,以获取更多的监督信息,从而减轻不足和过度的现象。具体而言,我们设计了一个基于锚的位置编码机制,该机制可以更好地结合相对拓扑位置并通过最大化标签影响来增强类内部电感偏置。我们进一步提出了作为边缘权重的阶级冲突度量,这有利于不同节点类别的分离。广泛的实验表明,在不同的数据注释方案中增强GNNS的功率方面,柔和的能力具有较高的潜力和适应性。
translated by 谷歌翻译
DBSCAN由于其简单性和实用性而被广泛用于许多科学和工程领域。但是,由于其高灵敏度参数,聚类结果的准确性在很大程度上取决于实践经验。在本文中,我们首先提出了一种新颖的深钢筋学习指导自动DBSCAN参数搜索框架,即DRL-DBSCAN。该框架通过将聚类环境视为马尔可夫决策过程来模拟调整参数搜索方向的过程,该过程旨在在没有手动帮助的情况下找到最佳的聚类参数。 DRL-DBSCAN使用弱监督的奖励培训策略网络,通过与群集进行交互来了解不同特征分布的最佳聚类参数搜索策略。此外,我们还提出了一个由数据规模驱动的递归搜索机制,以有效且可控制地处理大参数空间。基于拟议的四种工作模式,在五个人工和现实世界数据集上进行了广泛的实验。离线和在线任务的结果表明,DRL-DBSCCUN不仅始终如一地提高DBSCAN聚类精度高达26%和25%,而且可以稳定地找到具有较高计算效率的主要参数。该代码可在https://github.com/ringbdstack/drl-dbscan上找到。
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
为了减轻从头开始构建知识图(kg)的挑战,更一般的任务是使用开放式语料库中的三元组丰富一个kg,那里获得的三元组包含嘈杂的实体和关系。在保持知识代表的质量的同时,以新收获的三元组丰富一个公园,这是一项挑战。本文建议使用从附加语料库中收集的信息来完善kg的系统。为此,我们将任务制定为两个耦合子任务,即加入事件提取(JEE)和知识图融合(KGF)。然后,我们提出了一个协作知识图融合框架,以允许我们的子任务以交替的方式相互协助。更具体地说,探险家执行了由地面注释和主管提供的现有KG监督的JEE。然后,主管评估了探险家提取的三元组,并用高度排名的人来丰富KG。为了实施此评估,我们进一步提出了一种翻译的关系一致性评分机制,以对齐并将提取的三元组对齐为先前的kg。实验验证了这种合作既可以提高JEE和KGF的表现。
translated by 谷歌翻译
在许多实际应用程序中,顺序规则挖掘(SRM)可以为各种服务提供预测和建议功能。这是模式挖掘的重要技术,可以发现所有属于高频和高信顺序规则的有价值的规则。尽管提出了一些SRM的算法来解决各种实际问题,但没有关于目标顺序规则的研究。有针对性的顺序规则挖掘旨在挖掘用户关注的有趣的顺序规则,从而避免产生其他无效和不必要的规则。这种方法可以进一步提高用户在分析规则和减少数据资源消耗方面的效率。在本文中,我们提供了目标顺序规则的相关定义,并制定了目标顺序规则挖掘的问题。此外,我们提出了一种有效的算法,称为靶向顺序规则挖掘(TASRM)。引入了几种修剪策略和优化,以提高TASRM的效率。最后,在不同的基准测试上进行了大量实验,我们根据其运行时间,内存消耗和可扩展性以及具有不同查询规则的查询情况分析结果。结果表明,与现有的基线算法相比,新型算法TASRM及其变体可以实现更好的实验性能。
translated by 谷歌翻译