在这里,我们研究了无监督实体解析中匹配的记录聚类问题。我们建立在名为Data Whink Machine(DWM)的最先进的概率框架上。我们介绍基于图形的分层2步记录聚类方法(GDWM),首先识别大,连接的组件,或者在我们调用它们时,使用在DWM中使用的基于图的传递闭合算法匹配的记录对中的软簇。随后通过使用适应性的基于图形的模块化优化方法将发现的软群体分解为更精确的实体簇。我们的方法提供了若干优势,主要是DWM的原始实施,主要是显着的加速,提高精度,总体增加的F1分数。我们展示了我们使用多个合成数据集的实验的方法的功效。我们的结果还提供了图表理论的算法效用的证据,尽管他们在无监督实体解决方案中的文献中的稀疏性。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
Coreference resolution (CR) is one of the most challenging areas of natural language processing. This task seeks to identify all textual references to the same real-world entity. Research in this field is divided into coreference resolution and anaphora resolution. Due to its application in textual comprehension and its utility in other tasks such as information extraction systems, document summarization, and machine translation, this field has attracted considerable interest. Consequently, it has a significant effect on the quality of these systems. This article reviews the existing corpora and evaluation metrics in this field. Then, an overview of the coreference algorithms, from rule-based methods to the latest deep learning techniques, is provided. Finally, coreference resolution and pronoun resolution systems in Persian are investigated.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
图聚类是将顶点分组为称为簇的密集连接的集合的过程。我们量身定制了从文献到这个问题的两个数学编程公式。在此过程中,我们获得了群体内密度最大化问题的启发式近似。我们使用两种变体的玻尔兹曼机器启发式方法来获得数值解决方案。为了进行基准测试,我们将解决方案质量和计算性能与使用商业求解器Gurobi获得的溶液质量和计算性能进行比较。我们还将聚类质量与使用流行的Louvain模块化最大化方法获得的聚类质量进行了比较。我们的最初结果清楚地表明了我们的问题配方的优势。他们还建立了Boltzmann机器比传统精确求解器的优越性。在较小的图形较小的情况下,Boltzmann机器提供与Gurobi相同的解决方案,但解决方案时间较低。在较大且更复杂的图表的情况下,Gurobi无法在合理的时间范围内返回有意义的结果。最后,我们还注意到,我们的聚类配方,距离最小化和$ k $ - 麦德体的产量簇的质量均优于使用Louvain算法获得的簇。
translated by 谷歌翻译
我们提出了一种新方法,即校准的非参数扫描统计量(CNSS),以更准确地检测大型现实世界图中的异常模式。扫描统计数据可以通过最大化似然比统计量来确定有趣或意外的连接子图;特别是,非参数扫描统计(NPSS)识别具有比预期的单独显着节点比例高的子图。但是,我们表明最近提出的NPSS方法被错误地校准了,无法解释统计量超过子图的多样性。这既可以降低微妙信号的检测能力,又导致检测到的子图的精度降低,即使对于更强的信号也是如此。因此,我们开发了一种重新校准NPSS的新统计方法,正确调整了多个假设测试并考虑了基础图结构。虽然基于随机测试的重新校准在计算上是昂贵的,但我们提出了一种有效的(近似)算法和新的,封闭形式的下限(在零假设下,在给定大小的子尺寸的显着节点的预期最大比例上,没有异常模式)。这些进步,加上最近的核心树分解方法的整合,使CNSS能够扩展到大型现实世界图,并在检测到的子学的准确性方面有了很大的提高。与最先进的对应物相比,证明了对半合成和现实数据集的广泛实验,以验证我们提出的方法的有效性。
translated by 谷歌翻译
群集集群或共识群集已成为一种强大的工具,用于提高各种聚类方法的鲁棒性和结果的稳定性。加权聚类集群自然地从集群集群中产生。加权群集集合的参数之一是聚类集群中的元素(群集或集群)具有不同的质量,或者对象或特征具有不同意义的重要性。但是,不可能直接将加权机制从分类(监督)域中应用于群集(无监督)域,因为群集本质上是一个不存在的问题。本文通过讨论不同类型的权重,确定重量值的主要方法以及将加权聚类集合与复杂数据的应用程序的主要方法概述了加权集群集群集合概述。本文提出的统一框架将有助于聚类从业者为自己的问题选择最合适的加权机制。
translated by 谷歌翻译
临床记录经常包括对患者特征的评估,其中可能包括完成各种问卷。这些问卷提供了有关患者当前健康状况的各种观点。捕获这些观点给出的异质性不仅至关重要,而且对开发具有成本效益的技术的临床表型技术的需求增长。填写许多问卷可能是患者的压力,因此昂贵。在这项工作中,我们提出了钴 - 一种基于成本的层选择器模型,用于使用社区检测方法检测表型。我们的目标是最大程度地减少用于构建这些表型的功能的数量,同时保持其质量。我们使用来自慢性耳鸣患者的问卷数据测试我们的模型,并在多层网络结构中代表数据。然后,通过使用基线特征(年龄,性别和治疗前数据)以及确定的表型作为特征来评估该模型。对于某些治疗后变量,使用来自钴的表型作为特征的预测因素优于使用传统聚类方法检测到的表型的预测因素。此外,与仅接受基线特征训练的预测因子相比,使用表型数据预测治疗后数据被证明是有益的。
translated by 谷歌翻译
在本文中,我们解决了在二进制形式中的两个程序的函数之间找到了对应或匹配的问题,这是二进制不同的最常见任务之一。我们将此问题的新配方作为图表编辑问题的特定实例通过程序的呼叫图。在该配方中,关于函数内容和呼叫图相似度同时评估映射的质量。我们表明该配方相当于网络对齐问题。基于MAX-Product信念传播,我们提出了解决这个问题的解决策略。最后,我们实施了我们的方法的原型,称为QBindiff,并提出了一个广泛的评估,表明我们的方法优于艺术的态度而不是工具。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
随着作者的数量在多年来呈指数增长,共享相同名称的作者数量正在按比例增加。这使得将新发表的论文分配给其足够的作者是一项挑战。因此,作者名称歧义(ANA)被认为是数字库中的关键开放问题。本文提出了一个作者名称歧义(和)方法,该方法通过利用其合着者和研究领域来将作者姓名与其现实世界实体联系起来。为此,我们使用了DBLP存储库中的收藏集,其中包含大约260万名合着者撰写的超过500万本书目记录。我们的第一组作者共享相同的姓氏和相同的名字名称。通过捕获与他/她的合着者和研究领域的关系来确定每个小组内的作者,这是由相应作者的经过验证的出版物的标题代表的。为此,我们训练一个神经网络模型,该模型从共同作者和标题的表示中学习。我们通过在大型数据集上进行大量实验来验证方法的有效性。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
在本文中,我们提出了一种新方法来检测具有归因顶点的无向图中的簇。目的是将不仅在结构连接性方面,而且在属性值方面相似的顶点分组。我们通过创建[6,38]中提出的其他顶点和边缘,将顶点之间的结构和属性相似。然后将增强图嵌入到与其拉普拉斯式相关的欧几里得空间中,在该空间中,应用了修改的K-均值算法以识别簇。修改后的k均值依赖于矢量距离度量,根据每个原始顶点,我们分配了合适的矢量值坐标集,这取决于结构连接性和属性相似性,因此每个原始图顶点都被认为是$ M+1的代表增强图的$顶点,如果$ m $是顶点属性的数量。为了定义坐标矢量,我们基于自适应AMG(代数多机)方法采用了我们最近提出的算法,该方法识别了嵌入欧几里得空间中的坐标方向,以代数平滑的矢量相对于我们的增强图Laplacian,从而扩展了laplacian,从而扩展了坐标。没有属性的图形的先前结果。我们通过与一些知名方法进行比较,分析了我们提出的聚类方法的有效性,这些方法可以免费获得软件实现,并与文献中报告的结果相比,在两种不同类型的广泛使用的合成图上以及在某些现实世界中的图形上。
translated by 谷歌翻译
大多数NLP使用稀疏或密集文本表示的实体链接和核心分辨率的方法都集中在检索类似的提及上。例如,常见的“ Wikification”任务会为每个实体提及候选Wikipedia文章。对于许多域,例如书目引用,缺乏对每个实体的广泛文本描述的权威列表,并且命名为模棱两可的实体主要发生在其他命名实体的背景下。因此,与先前的工作不同,我们试图利用从文本证据中获得的个人网络可以从文本证据中获得的信息,以消除名称。我们将基于BERT的提及表示与各种图形归纳策略结合在一起,并通过监督和无监督的集群推理方法进行实验。我们试验了来自两个领域名称列表的数据:来自CrossRef的书目引用和传播链(ISNADS)来自古典阿拉伯历史。我们发现,预处理的内域语言模型可以显着改善提及的表示形式,尤其是对于较大的语料库,并且参考书目信息(例如出版物场所或标题)的可用性也可以提高此任务的性能。我们还提出了一种新颖的监督集群推理模型,该模型为少量计算工作提供了竞争性能,使其非常适合必须在不依赖详尽的权限列表的情况下确定个人的情况。
translated by 谷歌翻译
尽管对抽象中的英语句子进行了广泛的研究,但是通过自动度量标准与金图相比,它与金图类进行了比较,但是统一图表表示的全文解析缺乏定义明确的表示和评估。利用以前的工作中的超级信托级别注释,我们介绍了一种用于导出统一图形表示的简单算法,避免了从合并不合并和缺乏连贯性信息丢失的陷阱。接下来,我们描述了对Swatch度量标准的改进,使其易于进行比较文档级图形,并使用它重新评估最佳已发布的文档级AMR解析器。我们还提出了一种与COREREFER解决系统的顶部组合的管道方法,为未来的研究提供了强大的基线。
translated by 谷歌翻译