自动化技术(例如人工智能(AI)和机器人技术)的快速进步构成了越来越多的职业自动化风险,可能会对劳动力市场产生重大影响。最近的社会经济研究表明,接下来的十年中,将近50%的职业处于自动化的高风险。但是,缺乏颗粒状数据和经验知情的模型限制了这些研究的准确性,并使预测哪些工作将是自动化的。在本文中,我们通过在自动化和非自动化职业之间执行分类任务来研究职业的自动化风险。可用信息是由标准职业分类(SOC)分类的910个职业的任务声明,技能和互动。要充分利用此信息,我们提出了一个基于图的半监督分类方法,名为\ textbf {a} utomated \ textbf {o} ccupation \ textbf {c}基于\ textbf {g} rassification \ textbf {n} etworks(\ textbf {aoc-gcn})识别职业的自动化风险。该模型集成了一个异质图,以捕获职业的本地和全球环境。结果表明,我们提出的方法通过考虑职业的内部特征及其外部互动的信息来优于基线模型。这项研究可以帮助决策者在进入就业市场之前确定潜在的自动化职业并支持个人的决策。
translated by 谷歌翻译
保持个人特征和复杂的关系,广泛利用和研究了图表数据。通过更新和聚合节点的表示,能够捕获结构信息,图形神经网络(GNN)模型正在获得普及。在财务背景下,该图是基于实际数据构建的,这导致复杂的图形结构,因此需要复杂的方法。在这项工作中,我们在最近的财务环境中对GNN模型进行了全面的审查。我们首先将普通使用的财务图分类并总结每个节点的功能处理步骤。然后,我们总结了每个地图类型的GNN方法,每个区域的应用,并提出一些潜在的研究领域。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
translated by 谷歌翻译
许多真实世界图(网络)是具有不同类型的节点和边缘的异构。异构图嵌入,旨在学习异构图的低维节点表示,对于各种下游应用至关重要。已经提出了许多基于元路径的嵌入方法来学习近年来异构图的语义信息。然而,在学习异构图形嵌入时,大多数现有技术都在图形结构信息中忽略了图形结构信息。本文提出了一种新颖的结构意识异构图形神经网络(SHGNN),以解决上述限制。详细地,我们首先利用特征传播模块来捕获元路径中中间节点的本地结构信息。接下来,我们使用树关注聚合器将图形结构信息结合到元路径上的聚合模块中。最后,我们利用了元路径聚合器熔断来自不同元路径的聚合的信息。我们对节点分类和聚类任务进行了实验,并在基准数据集中实现了最先进的结果,该数据集显示了我们所提出的方法的有效性。
translated by 谷歌翻译
In recent years, semi-supervised graph learning with data augmentation (DA) is currently the most commonly used and best-performing method to enhance model robustness in sparse scenarios with few labeled samples. Differing from homogeneous graph, DA in heterogeneous graph has greater challenges: heterogeneity of information requires DA strategies to effectively handle heterogeneous relations, which considers the information contribution of different types of neighbors and edges to the target nodes. Furthermore, over-squashing of information is caused by the negative curvature that formed by the non-uniformity distribution and strong clustering in complex graph. To address these challenges, this paper presents a novel method named Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation (HG-MDA). For the problem of heterogeneity of information in DA, node and topology augmentation strategies are proposed for the characteristics of heterogeneous graph. And meta-relation-based attention is applied as one of the indexes for selecting augmented nodes and edges. For the problem of over-squashing of information, triangle based edge adding and removing are designed to alleviate the negative curvature and bring the gain of topology. Finally, the loss function consists of the cross-entropy loss for labeled data and the consistency regularization for unlabeled data. In order to effectively fuse the prediction results of various DA strategies, the sharpening is used. Existing experiments on public datasets, i.e., ACM, DBLP, OGB, and industry dataset MB show that HG-MDA outperforms current SOTA models. Additionly, HG-MDA is applied to user identification in internet finance scenarios, helping the business to add 30% key users, and increase loans and balances by 3.6%, 11.1%, and 9.8%.
translated by 谷歌翻译
Graph neural network, as a powerful graph representation technique based on deep learning, has shown superior performance and attracted considerable research interest. However, it has not been fully considered in graph neural network for heterogeneous graph which contains different types of nodes and links. The heterogeneity and rich semantic information bring great challenges for designing a graph neural network for heterogeneous graph. Recently, one of the most exciting advancements in deep learning is the attention mechanism, whose great potential has been well demonstrated in various areas. In this paper, we first propose a novel heterogeneous graph neural network based on the hierarchical attention, including node-level and semantic-level attentions. Specifically, the node-level attention aims to learn the importance between a node and its metapath based neighbors, while the semantic-level attention is able to learn the importance of different meta-paths. With the learned importance from both node-level and semantic-level attention, the importance of node and meta-path can be fully considered. Then the proposed model can generate node embedding by aggregating features from meta-path based neighbors in a hierarchical manner. Extensive experimental results on three real-world heterogeneous graphs not only show the superior performance of our proposed model over the state-of-the-arts, but also demonstrate its potentially good interpretability for graph analysis.
translated by 谷歌翻译
Nowadays, fake news easily propagates through online social networks and becomes a grand threat to individuals and society. Assessing the authenticity of news is challenging due to its elaborately fabricated contents, making it difficult to obtain large-scale annotations for fake news data. Due to such data scarcity issues, detecting fake news tends to fail and overfit in the supervised setting. Recently, graph neural networks (GNNs) have been adopted to leverage the richer relational information among both labeled and unlabeled instances. Despite their promising results, they are inherently focused on pairwise relations between news, which can limit the expressive power for capturing fake news that spreads in a group-level. For example, detecting fake news can be more effective when we better understand relations between news pieces shared among susceptible users. To address those issues, we propose to leverage a hypergraph to represent group-wise interaction among news, while focusing on important news relations with its dual-level attention mechanism. Experiments based on two benchmark datasets show that our approach yields remarkable performance and maintains the high performance even with a small subset of labeled news data.
translated by 谷歌翻译
图形神经网络(GNNS)在学习归属图中显示了很大的力量。但是,GNNS从源节点利用遥控器的信息仍然是一个挑战。此外,常规GNN要求将图形属性作为输入,因此它们无法应用于纯图。在论文中,我们提出了名为G-GNNS(GNN的全局信息)的新模型来解决上述限制。首先,通过无监督的预训练获得每个节点的全局结构和属性特征,其保留与节点相关联的全局信息。然后,使用全局功能和原始网络属性,我们提出了一个并行GNN的并行框架来了解这些功能的不同方面。所提出的学习方法可以应用于普通图和归属图。广泛的实验表明,G-GNNS可以在三个标准评估图上优于其他最先进的模型。特别是,我们的方法在学习归属图表时建立了Cora(84.31 \%)和PubMed(80.95 \%)的新基准记录。
translated by 谷歌翻译
本文介绍了用于在线学习系统的新机器学习模型的设计和实施。我们旨在通过启用一个自动数学单词问题求解器来改善系统的智能水平,该单词可以支持广泛的功能,例如家庭作业校正,困难估计和优先建议。我们最初计划采用现有模型,但意识到他们将数学单词问题处理为序列或均匀图形图表。多种类型的令牌(例如实体,单位,费率和数字)之间的关系被忽略了。我们决定设计和实施一种新型模型,以使用此类关系数据来弥合人类可读语言和机器可读性的逻辑形式之间的信息差距。我们提出了一个异质线图变压器(HLGT)模型,该模型通过在数学单词问题上通过语义角色标记构建异质线图,然后执行节点表示学习,从而了解Edge类型。我们将数值比较作为一项辅助任务,以改善用于现实世界使用的模型培训。实验结果表明,所提出的模型比现有模型的性能更好,并表明它仍然远低于人类绩效。不断需要信息利用和知识发现来改善在线学习系统。
translated by 谷歌翻译
预测中小型企业(SME)的破产风险(SME)是金融机构在做出贷款时的重要一步。但是,金融和AI研究领域的现有研究倾向于仅考虑企业内风险或传染性风险,而忽略了它们的相互作用和组合效应。这项研究首次考虑了在破产预测中的风险及其共同影响。具体而言,我们首先根据其风险内学习的统计学意义企业风险指标提出了企业内风险编码器。然后,我们根据企业关系信息从企业知识图中提出了一个企业传染风险编码器,以进行其传染风险嵌入。特别是,传染风险编码器既包括新提出的高图神经网络和异质图神经网络,这些神经网络可以在两个不同方面建模传播风险,即基于超系统的常见风险因素和直接扩散的风险。为了评估该模型,我们收集了SME上的现实世界多源数据数据,并构建了一个名为SMESD的新型基准数据集。我们提供对数据集的开放访问权限,该数据集有望进一步促进财务风险分析的研究。针对十二个最先进的基线的SMESD实验证明了拟议模型对破产预测的有效性。
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
接触犯罪和暴力会损害个人的生活质量和社区的经济增长。鉴于机器学习的迅速发展,需要探索自动解决方案以防止犯罪。随着细粒度的城市和公共服务数据的可用性越来越多,最近融合了这种跨域信息以促进犯罪预测的激增。通过捕获有关社会结构,环境和犯罪趋势的信息,现有的机器学习预测模型从不同观点探索了动态犯罪模式。但是,这些方法主要将这种多源知识转换为隐性和潜在表示(例如,学区的嵌入),这仍然是研究显式因素对幕后犯罪发生的影响的影响仍然是一个挑战。在本文中,我们提出了一个时空的元数据指导性犯罪预测(STMEC)框架,以捕获犯罪行为的动态模式,并明确地表征了环境和社会因素如何相互互动以产生预测。广泛的实验表明,与其他先进的时空模型相比,STMEC的优越性,尤其是在预测重罪(例如使用危险武器的抢劫和袭击)时。
translated by 谷歌翻译
在许多研究中已经表明,考虑相关股票数据预测股票价格变动的重要性,但是,用于建模,嵌入和分析相互关联股票行为的先进图形技术尚未被广泛利用,以预测股票价格变动。该领域的主要挑战是找到一种建模任意股票之间现有关系的方法,并利用这种模型来改善这些股票的预测绩效。该领域中的大多数现有方法都取决于基本的图形分析技术,预测能力有限,并且缺乏通用性和灵活性。在本文中,我们介绍了一个名为GCNET的新颖框架,该框架将任意股票之间的关系建模为称为“影响网络”的图形结构,并使用一组基于历史的预测模型来推断出股票子集的合理初始标签图中的节点。最后,GCNET使用图形卷积网络算法来分析此部分标记的图形,并预测图中每个库存的下一个运动价格方向。 GCNET是一个一般预测框架,可以根据其历史数据来预测相互作用股票的价格波动。我们对纳斯达克指数一组股票的实验和评估表明,GCNET在准确性和MCC测量方面显着提高了SOTA的性能。
translated by 谷歌翻译
由于学术和工业领域的异质图无处不在,研究人员最近提出了许多异质图神经网络(HGNN)。在本文中,我们不再采用更强大的HGNN模型,而是有兴趣设计一个多功能的插件模块,该模块解释了从预先训练的HGNN中提取的关系知识。据我们所知,我们是第一个在异质图上提出高阶(雇用)知识蒸馏框架的人,无论HGNN的模型体系结构如何,它都可以显着提高预测性能。具体而言,我们的雇用框架最初执行一阶节点级知识蒸馏,该蒸馏曲线及其预测逻辑编码了老师HGNN的语义。同时,二阶关系级知识蒸馏模仿了教师HGNN生成的不同类型的节点嵌入之间的关系相关性。在各种流行的HGNN模型和三个现实世界的异质图上进行了广泛的实验表明,我们的方法获得了一致且相当大的性能增强,证明了其有效性和泛化能力。
translated by 谷歌翻译
生成精确反映客户行为的表示形式是在Alexa提供个性化技能路由体验的重要任务。目前,负责将Alexa流量路由到提供商或技能的动态路由(DR)团队依赖于两个功能作为个人信号:每个客户的每种技能使用情况的绝对交通计数和规范化的交通计数。他们俩都没有考虑基于网络的结构来进行客户与技能之间的交互,这些结构包含更丰富的信息以获得客户的喜好。在这项工作中,我们首先构建了基于图形的客户与调用技能的过去交互,在该技能中,用户请求(说服)被建模为边缘。然后,我们提出了一个基于图形卷积网络(GCN)的模型,即个性化的动态路由功能编码器(PDRFE),该模型生成了从构建图中学到的个性化客户表示。与现有模型相比,PDRFE能够在图形卷积函数中进一步捕获上下文信息。我们提出的模型的性能通过下游任务,缺陷预测来评估,该任务可预测从客户的嵌入及其触发技能的嵌入中的缺陷标签。与基准相比,我们提出的模型的跨熵度量提高了多达41%的改善。
translated by 谷歌翻译
注意机制使图形神经网络(GNN)能够学习目标节点与其单跳邻居之间的注意力权重,从而进一步提高性能。但是,大多数现有的GNN都针对均匀图,其中每一层只能汇总单跳邻居的信息。堆叠多层网络引入了相当大的噪音,并且很容易导致过度平滑。我们在这里提出了一种多跃波异质邻域信息融合图表示方法(MHNF)。具体而言,我们提出了一个混合元自动提取模型,以有效提取多ihop混合邻居。然后,我们制定了一个跳级的异质信息聚合模型,该模型在同一混合Metapath中选择性地汇总了不同的跳跃邻域信息。最后,构建了分层语义注意融合模型(HSAF),该模型可以有效地整合不同的互动和不同的路径邻域信息。以这种方式,本文解决了汇总MultiHop邻里信息和学习目标任务的混合元数据的问题。这减轻了手动指定Metapaths的限制。此外,HSAF可以提取Metapaths的内部节点信息,并更好地整合存在不同级别的语义信息。真实数据集的实验结果表明,MHNF在最先进的基准中取得了最佳或竞争性能,仅1/10〜1/100参数和计算预算。我们的代码可在https://github.com/phd-lanyu/mhnf上公开获取。
translated by 谷歌翻译
图表卷积网络(GCN)是一种强大的模型,在各种图形结构数据学习任务中逐渐研究。然而,为了减轻过平滑的现象,并处理异构图形结构数据,GCN模型的设计仍然是要调查的重要问题。在本文中,我们通过利用堆叠和聚合的思想提出一种名为SSTAGCN(简化堆叠的GCN)的新型GCN,这是用于解决异构图数据的自适应一般框架。具体来说,我们首先使用堆叠的基础模型来提取图形的节点特征。随后,采用诸如平均值,关注和投票技术的聚合方法来进一步增强节点特征提取的能力。此后,节点特征被认为是输入并馈入vanilla GCN模型。此外,明确地解析了所提出的模型的理论泛化结合分析。广泛的3美元公共引用网络和另外3美元的异质表格数据进行了广泛的实验,证明了拟议的艺术技术的效果和效率。值得注意的是,所提出的SSTAGCN可以有效地减轻GCN的过平滑问题。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
多药物(定义为使用多种药物)是一种标准治疗方法,尤其是对于严重和慢性疾病。但是,将多种药物一起使用可能会导致药物之间的相互作用。药物 - 药物相互作用(DDI)是一种与另一种药物结合时的影响发生变化时发生的活性。 DDI可能会阻塞,增加或减少药物的预期作用,或者在最坏情况下,会产生不利的副作用。虽然准时检测DDI至关重要,但由于持续时间短,并且在临床试验中识别它们是时间的,而且昂贵,并且要考虑许多可能的药物对进行测试。结果,需要计算方法来预测DDI。在本文中,我们提出了一种新型的异质图注意模型Han-DDI,以预测药物 - 药物相互作用。我们建立了具有不同生物实体的药物网络。然后,我们开发了一个异质的图形注意网络,以使用药物与其他实体的关系学习DDI。它由一个基于注意力的异质图节点编码器组成,用于获得药物节点表示和用于预测药物相互作用的解码器。此外,我们利用全面的实验来评估我们的模型并将其与最先进的模型进行比较。实验结果表明,我们提出的方法Han-DDI的表现可以显着,准确地预测DDI,即使对于新药也是如此。
translated by 谷歌翻译