情绪预测在心理健康和情绪感知计算中起着至关重要的作用。情绪的复杂性质是由于其对一个人的生理健康,精神状态和周围环境的依赖而产生的,这使其预测一项艰巨的任务。在这项工作中,我们利用移动传感数据来预测幸福和压力。除了一个人的生理特征外,我们还通过天气和社交网络纳入了环境的影响。为此,我们利用电话数据来构建社交网络并开发机器学习体系结构,该架构从图形网络的多个用户中汇总信息,并将其与数据的时间动态集成在一起,以预测所有用户的情感。社交网络的构建不会在用户的EMA或数据收集方面产生额外的成本,也不会引起隐私问题。我们提出了一种自动化用户社交网络影响预测的架构,能够处理现实生活中社交网络的动态分布,从而使其可扩展到大规模网络。我们广泛的评估突出了社交网络集成提供的改进。我们进一步研究了图形拓扑对模型性能的影响。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
大多数人类活动都需要在正式或非正式团队内部和跨部队进行合作。我们对团队所花费的合作努力与他们的表现有何关系的理解仍然是一个辩论问题。团队合作导致了一个高度相互联系的生态系统,这些生态系统可能是重叠的组件,其中与团队成员和其他团队进行互动执行任务。为了解决这个问题,我们提出了一个图形神经网络模型,旨在预测团队的性能,同时确定确定这种结果的驱动程序。特别是,该模型基于三个架构渠道:拓扑,中心性和上下文,它们捕获了不同因素可能塑造了团队的成功。我们赋予该模型具有两种注意机制,以提高模型性能并允许解释性。第一种机制允许查明团队内部的关键成员。第二种机制使我们能够量化三个驱动程序在确定结果绩效方面的贡献。我们在广泛的域上测试模型性能,其表现优于所考虑的大多数经典和神经基准。此外,我们包括专门设计的合成数据集,以验证该模型如何删除我们的模型胜过基线的预期属性。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
Accurate short-term traffic prediction plays a pivotal role in various smart mobility operation and management systems. Currently, most of the state-of-the-art prediction models are based on graph neural networks (GNNs), and the required training samples are proportional to the size of the traffic network. In many cities, the available amount of traffic data is substantially below the minimum requirement due to the data collection expense. It is still an open question to develop traffic prediction models with a small size of training data on large-scale networks. We notice that the traffic states of a node for the near future only depend on the traffic states of its localized neighborhoods, which can be represented using the graph relational inductive biases. In view of this, this paper develops a graph network (GN)-based deep learning model LocaleGN that depicts the traffic dynamics using localized data aggregating and updating functions, as well as the node-wise recurrent neural networks. LocaleGN is a light-weighted model designed for training on few samples without over-fitting, and hence it can solve the problem of few-sample traffic prediction. The proposed model is examined on predicting both traffic speed and flow with six datasets, and the experimental results demonstrate that LocaleGN outperforms existing state-of-the-art baseline models. It is also demonstrated that the learned knowledge from LocaleGN can be transferred across cities. The research outcomes can help to develop light-weighted traffic prediction systems, especially for cities lacking historically archived traffic data.
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译
薄文件借款人是由于缺乏信用历史而不确定的信誉评估的客户;许多研究人员使用借款人的关系和交互网络以图形的形式作为替代数据源来解决这个问题。包含网络数据传统上由手工制作的特征工程制作,并且最近,图形神经网络已成为替代方案,但它仍然没有改善传统方法的性能。在这里,我们介绍一个框架来通过混合几个图形表示学习方法来改进信用评分模型:功能工程,图形嵌入和图形神经网络。我们堆叠了他们的产出以在这种方法中产生单一分数。我们使用独特的多源数据集进行了验证了此框架,该数据集具有与拉丁美洲国家的整个人口的关系和信用历史,将其应用于信用风险模型,应用和行为,针对个人和公司。我们的结果表明,图表表示学习方法应用作补充,并且这些方法不应被视为自给自足的方法,就像目前所做的那样。在AUC和KS方面,我们提升了统计表现,优于传统方法。在公司贷款中,在收益要高得多的情况下,它证实,评估了一个不道实的公司,不能仅考虑其特征。这些公司与业主,供应商,客户和其他公司互动的商业生态系统提供了新颖的知识,使金融机构能够提高信誉评估。我们的结果让我们知道何时以及哪些组使用图表数据以及对性能的影响。它们还展示了图形数据的巨大价值,主要是为了帮助公司的银行业务。
translated by 谷歌翻译
在许多研究中已经表明,考虑相关股票数据预测股票价格变动的重要性,但是,用于建模,嵌入和分析相互关联股票行为的先进图形技术尚未被广泛利用,以预测股票价格变动。该领域的主要挑战是找到一种建模任意股票之间现有关系的方法,并利用这种模型来改善这些股票的预测绩效。该领域中的大多数现有方法都取决于基本的图形分析技术,预测能力有限,并且缺乏通用性和灵活性。在本文中,我们介绍了一个名为GCNET的新颖框架,该框架将任意股票之间的关系建模为称为“影响网络”的图形结构,并使用一组基于历史的预测模型来推断出股票子集的合理初始标签图中的节点。最后,GCNET使用图形卷积网络算法来分析此部分标记的图形,并预测图中每个库存的下一个运动价格方向。 GCNET是一个一般预测框架,可以根据其历史数据来预测相互作用股票的价格波动。我们对纳斯达克指数一组股票的实验和评估表明,GCNET在准确性和MCC测量方面显着提高了SOTA的性能。
translated by 谷歌翻译
Neuroomaging的最新进展以及网络数据统计学习中的算法创新提供了一种独特的途径,可以集成大脑结构和功能,从而有助于揭示系统水平的一些大脑组织原则。在此方向上,我们通过曲线图编码器 - 解码器系统制定了一种模拟脑结构连接(SC)和功能连接(FC)之间的关系的监督图形表示学习框架,其中SC用作预测经验FC的输入。训练图卷积编码器捕获模拟实际神经通信的大脑区域之间的直接和间接相互作用,以及集成结构网络拓扑和节点(即,区域特定的)属性的信息。编码器学习节点级SC嵌入,它们组合以生成用于重建经验FC网络的(全大脑)图级表示。所提出的端到端模型利用多目标损失函数来共同重建FC网络,并学习用于下游主题的SC-To-Fc映射的判别图表表示(即,图形级)分类。综合实验表明,所述关系的学习表现从受试者的脑网络的内在属性中捕获有价值的信息,并导致提高对来自人类连接项目的大量重型饮酒者和非饮酒者的准确性提高。我们的工作提供了关于脑网络之间关系的新见解,支持使用图形表示学习的有希望的前景,了解有关人脑活动和功能的更多信息。
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
建模传染病传播的时空性质可以提供有用的直觉,以了解疾病传播的时变方面,并且在人们的行动模式中观察到的潜在的复杂空间依赖性。此外,可以利用县级多相关时间序列信息,以便在单个时间序列进行预测。添加到这一挑战是实时数据常常偏离单向高斯分布假设,并且可以显示一些复杂的混合模式。由此激励,我们开发了一种基于深度学习的时间序列模型,用于自动回归混合密度动态扩散网络(ARM3DNet)的概率预测,其认为人们的移动性和疾病在动态定向图上传播。实现高斯混合模型层以考虑从多个相关时间序列学习的实时数据的多模式性质。我们展示了我们的模型,当由于动态协变量特征和混合成分的最佳组合培训时,可以超越传统的统计和深度学习模式,以预测美国县级的Covid-19死亡和案例的数量。
translated by 谷歌翻译
社交网络(SN)是一个由代表它们之间相互作用的群体组成的社会结构。 SNS最近被广泛使用,随后已成为产品推广和信息扩散的合适平台。 SN中的人们直接影响彼此的利益和行为。 SNS中最重要的问题之一是,如果选择将它们作为网络扩散场景的种子节点选择,那么他们可以以级联的方式对网络中的其他节点产生最大影响。有影响力的扩散器是人们,如果他们被选为网络中出版问题中的种子,那么该网络将拥有最多了解该扩散实体的人。这是称为影响最大化(IM)问题的文献中的一个众所周知的问题。尽管已证明这是一个NP完整的问题,并且在多项式时间内没有解决方案,但有人认为它具有子模块化功能的属性,因此可以使用贪婪的算法来解决。提出改善这种复杂性的大多数方法都是基于以下假设:整个图都是可见的。但是,此假设不适合许多真实世界图。进行了这项研究,以扩展使用链接预测技术与伪可见性图的电流最大化方法。为此,将一种称为指数随机图模型(ERGM)的图生成方法用于链接预测。使用斯坦福大学SNAP数据集的数据对所提出的方法进行了测试。根据实验测试,所提出的方法在现实世界图上有效。
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
在社交媒体上传播谣言对社会构成了重要威胁,因此最近提出了各种谣言检测技术。然而,现有的工作重点是\ emph {what}实体构成谣言,但几乎没有支持理解\ emph {为什么}实体已被归类为这样。这样可以防止对检测的谣言以及对策设计的有效评估。在这项工作中,我们认为,可以通过过去检测到的相关谣言的例子来给出检测到的谣言的解释。一系列类似的谣言有助于用户概括,即了解控制谣言的探测的特性。由于通常使用特征声明的图表对社交媒体的谣言传播通常是建模的,因此我们提出了一种逐个示例的方法,鉴于谣言图,它从过去的谣言中提取了$ k $最相似和最多的子图。挑战是所有计算都需要快速评估图之间的相似性。为了在流式设置中实现该方法的有效和适应性实现,我们提出了一种新颖的图表学习技术,并报告了实施注意事项。我们的评估实验表明,我们的方法在为各种谣言传播行为提供有意义的解释方面优于基线技术。
translated by 谷歌翻译