基于视频的人重新识别(REID)旨在识别多个非重叠摄像机的给定的行人视频序列。为了汇总视频样本的时间和空间特征,引入了图神经网络(GNN)。但是,现有的基于图的模型(例如STGCN)在节点功能上执行\ textIt {mean}/\ textit {max boming}以获取图表表示,该图表忽略了图形拓扑和节点的重要性。在本文中,我们建议图形池网络(GPNET)学习视频检索的多粒度图表示,其中实现了\ textit {Graph boming layer},以简化图形。我们首先构建了一个多粒图,其节点特征表示由骨架学到的图像嵌入,并且在颞和欧几里得邻域节点之间建立了边缘。然后,我们实现多个图形卷积层以在图上执行邻域聚集。为了下图,我们提出了一个多头全注意图池(MHFAPOOL)层,该图集合了现有节点群集和节点选择池的优势。具体而言,MHFAPOOL将全部注意矩阵的主要特征向量作为聚合系数涉及每个汇总节点中的全局图信息。广泛的实验表明,我们的GPNET在四个广泛使用的数据集(即火星,dukemtmc-veneoreid,ilids-vid and Prid-2011)上实现了竞争结果。
translated by 谷歌翻译
现有的基于视频的人重新识别(REID)的方法主要通过功能提取器和功能聚合器来了解给定行人的外观特征。但是,当不同的行人外观相似时,外观模型将失败。考虑到不同的行人具有不同的步行姿势和身体比例,我们建议学习视频检索的外观功能之外的歧视性姿势功能。具体而言,我们实现了一个两分支的体系结构,以单独学习外观功能和姿势功能,然后将它们串联在一起进行推理。为了学习姿势特征,我们首先通过现成的姿势检测器检测到每个框架中的行人姿势,并使用姿势序列构建时间图。然后,我们利用复发图卷积网络(RGCN)来学习时间姿势图的节点嵌入,该姿势图设计了一种全局信息传播机制,以同时实现框内节点的邻域聚集,并在框架间图之间传递消息。最后,我们提出了一种由节点注意和时间注意的双重意见方法,以从节点嵌入中获得时间图表示,其中采用自我注意机制来了解每个节点和每个帧的重要性。我们在三个基于视频的REID数据集(即火星,Dukemtmc和Ilids-Vid)上验证了所提出的方法,其实验结果表明,学习的姿势功能可以有效地改善现有外观模型的性能。
translated by 谷歌翻译
基于模型的步态识别方法通常采用行人步行姿势来识别人类。但是,由于摄像头视图的改变,现有方法并未明确解决人类姿势的较大阶层差异。在本文中,我们建议通过通过低UPPER生成的对抗网络(Lugan)学习全级转换矩阵来为每个单视姿势样本生成多视图姿势序列。通过摄像机成像的先验,我们得出的是,跨视图之间的空间坐标满足了全级矩阵的线性转换,因此,本文采用了对抗性训练来从源姿势学习转换矩阵,并获得目标视图以获得目标。目标姿势序列。为此,我们实现了由图形卷积(GCN)层组成的发电机,完全连接(FC)层和两支分支卷积(CNN)层:GCN层和FC层编码源姿势序列和目标视图,然后是CNN分支最后,分别学习一个三角形基质和上三角基质,最后它们被乘以制定全级转换矩阵。出于对抗训练的目的,我们进一步设计了一个条件鉴别因子,该条件区分姿势序列是真实的还是产生的。为了启用高级相关性学习,我们提出了一个名为Multi尺度超图卷积(HGC)的插件播放模块,以替换基线中的空间图卷积层,该层可以同时模拟联合级别的部分,部分部分 - 水平和身体水平的相关性。在两个大型步态识别数据集(即CASIA-B和OUMVLP置位)上进行的广泛实验表明,我们的方法的表现优于基线模型,并以一个较大的边距基于基于姿势的方法。
translated by 谷歌翻译
Advanced methods of applying deep learning to structured data such as graphs have been proposed in recent years. In particular, studies have focused on generalizing convolutional neural networks to graph data, which includes redefining the convolution and the downsampling (pooling) operations for graphs. The method of generalizing the convolution operation to graphs has been proven to improve performance and is widely used. However, the method of applying downsampling to graphs is still difficult to perform and has room for improvement. In this paper, we propose a graph pooling method based on selfattention. Self-attention using graph convolution allows our pooling method to consider both node features and graph topology. To ensure a fair comparison, the same training procedures and model architectures were used for the existing pooling methods and our method. The experimental results demonstrate that our method achieves superior graph classification performance on the benchmark datasets using a reasonable number of parameters.
translated by 谷歌翻译
随着传感技术的进步,多元时间序列分类(MTSC)最近受到了相当大的关注。基于深度学习的MTSC技术主要依赖于卷积或经常性神经网络,主要涉及单时间序列的时间依赖性。结果,他们努力直接在多变量变量中表达成对依赖性。此外,基于图形神经网络(GNNS)的当前空间 - 时间建模(例如,图形分类)方法本质上是平的,并且不能以分层方式聚合集线器数据。为了解决这些限制,我们提出了一种基于新的图形汇集框架MTPOOL,以获得MTS的表现力全球表示。我们首先通过采用通过图形结构学习模块的相互作用来将MTS切片转换为曲线图,并通过时间卷积模块获得空间 - 时间图节点特征。为了获得全局图形级表示,我们设计了基于“编码器 - 解码器”的变形图池池模块,用于为群集分配创建自适应质心。然后我们将GNN和我们所提出的变分图层汇集层组合用于联合图表示学习和图形粗糙化,之后该图逐渐赋予一个节点。最后,可差异化的分类器将此粗糙的表示来获取最终预测的类。 10个基准数据集的实验表明MTPOOL优于MTSC任务中最先进的策略。
translated by 谷歌翻译
准确的交通状况预测为车辆环境协调和交通管制任务提供了坚实的基础。由于道路网络数据在空间分布中的复杂性以及深度学习方法的多样性,有效定义流量数据并充分捕获数据中复杂的空间非线性特征变得具有挑战性。本文将两种分层图池方法应用于流量预测任务,以减少图形信息冗余。首先,本文验证了流量预测任务中层次图池方法的有效性。分层图合并方法与其他基线在预测性能上形成鲜明对比。其次,应用了两种主流分层图池方法,节点群集池和节点下降池,用于分析流量预测中的优势和弱点。最后,对于上述图神经网络,本文比较了不同图网络输入对流量预测准确性的预测效应。分析和汇总定义图网络的有效方法。
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译
我们提出了一个名为Star-GNN的视频特征表示学习框架,该框架在多尺度晶格功能图上应用了可插入的图形神经网络组件。 Star-GNN的本质是利用时间动力学和空间内容以及帧中不同尺度区域之间的视觉连接。它对带有晶格特征图的视频进行建模,其中节点代表不同粒度的区域,其加权边缘代表空间和时间链接。上下文节点通过图形神经网络同时汇总,并具有训练有检索三重损失的参数。在实验中,我们表明Star-GNN有效地在视频框架序列上实现了动态注意机制,从而强调了视频中动态和语义丰富的内容,并且对噪声和冗余是强大的。经验结果表明,STAR-GNN可实现基于内容的视频检索的最新性能。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
多变量时间序列(MTS)预测在智能应用的自动化和优化中起着重要作用。这是一个具有挑战性的任务,因为我们需要考虑复杂的变量依赖关系和可变间依赖关系。现有的作品仅在单个可变依赖项的帮助下学习时间模式。然而,许多真实世界MTS中有多种时间模式。单个可变间依赖项使模型更倾向于学习一种类型的突出和共享的时间模式。在本文中,我们提出了一个多尺度自适应图形神经网络(MOLDN)来解决上述问题。 MOLDN利用多尺度金字塔网络,以在不同的时间尺度上保留潜在的时间依赖关系。由于可变间依赖关系可以在不同的时间尺度下不同,所以自适应图学习模块被设计为在没有预先定义的前沿的情况下推断规模特定的可变依赖关系。鉴于多尺度特征表示和规模特定的可变间依赖关系,引入了一个多尺度的时间图神经网络,以共同模拟帧内依赖性和可变间依赖性。之后,我们开发一个尺度明智的融合模块,以在不同时间尺度上有效地促进协作,并自动捕获贡献的时间模式的重要性。四个真实数据集的实验表明,Magnn在各种设置上表明了最先进的方法。
translated by 谷歌翻译
近年来,图形变压器在各种图形学习任务上表现出了优势。但是,现有图形变压器的复杂性与节点的数量二次缩放,因此难以扩展到具有数千个节点的图形。为此,我们提出了一个邻域聚集图变压器(Nagphormer),该变压器可扩展到具有数百万节点的大图。在将节点特征馈送到变压器模型中之前,Nagphormer构造令牌由称为Hop2Token的邻域聚合模块为每个节点。对于每个节点,Hop2token聚合从每个跳跃到表示形式的邻域特征,从而产生一系列令牌向量。随后,不同HOP信息的结果序列是变压器模型的输入。通过将每个节点视为一个序列,可以以迷你批量的方式训练Nagphormer,从而可以扩展到大图。 Nagphormer进一步开发了基于注意力的读数功能,以便学习每个跳跃的重要性。我们在各种流行的基准测试中进行了广泛的实验,包括六个小数据集和三个大数据集。结果表明,Nagphormer始终优于现有的图形变压器和主流图神经网络。
translated by 谷歌翻译
基于视频的人重新识别(RE-ID)是视觉监控系统中的重要技术,旨在匹配由不同摄像机捕获的人们的视频片段。现有方法主要基于卷积神经网络(CNN),其构建块一次处理局部邻居像素,或者当3D卷绕用于建模时间信息时,遭受由人移动引起的未对准问题。在本文中,我们建议克服具有以人为本的图表方法的正常卷曲的局限性。具体地,提取位于人关节键点的特征并将其作为空间时间图连接。然后通过使用图形卷积网络(GCN)从连接节点传递的消息更新这些关键点特征。在培训期间,GCN可以附加到任何基于CNN的人RE-ID模型,以协助在特征映射上进行表示学习,同时可以在培训后丢弃以获得更好的推广速度。我们的方法通过生成的人关键点和新注释的数据集:posetrackreid,对火星数据集的基于CNN的基线模型进行了重大改进。它还在与现有作品相比,在前1个精度和平均平均精度方面定义了新的最先进的方法。
translated by 谷歌翻译
图表学习目的旨在将节点内容与图形结构集成以学习节点/图表示。然而,发现许多现有的图形学习方法在具有高异性级别的数据上不能很好地工作,这是不同类标签之间很大比例的边缘。解决这个问题的最新努力集中在改善消息传递机制上。但是,尚不清楚异质性是否确实会损害图神经网络(GNNS)的性能。关键是要展现一个节点与其直接邻居之间的关系,例如它们是异性还是同质性?从这个角度来看,我们在这里研究了杂质表示在披露连接节点之间的关系之前/之后的杂音表示的作用。特别是,我们提出了一个端到端框架,该框架既学习边缘的类型(即异性/同质性),并利用边缘类型的信息来提高图形神经网络的表现力。我们以两种不同的方式实施此框架。具体而言,为了避免通过异质边缘传递的消息,我们可以通过删除边缘分类器鉴定的异性边缘来优化图形结构。另外,可以利用有关异性邻居的存在的信息进行特征学习,因此,设计了一种混合消息传递方法来汇总同质性邻居,并根据边缘分类使异性邻居多样化。广泛的实验表明,在整个同质级别的多个数据集上,通过在多个数据集上提出的框架对GNN的绩效提高了显着提高。
translated by 谷歌翻译
Deep learning has been shown to be successful in a number of domains, ranging from acoustics, images, to natural language processing. However, applying deep learning to the ubiquitous graph data is non-trivial because of the unique characteristics of graphs. Recently, substantial research efforts have been devoted to applying deep learning methods to graphs, resulting in beneficial advances in graph analysis techniques. In this survey, we comprehensively review the different types of deep learning methods on graphs. We divide the existing methods into five categories based on their model architectures and training strategies: graph recurrent neural networks, graph convolutional networks, graph autoencoders, graph reinforcement learning, and graph adversarial methods. We then provide a comprehensive overview of these methods in a systematic manner mainly by following their development history. We also analyze the differences and compositions of different methods. Finally, we briefly outline the applications in which they have been used and discuss potential future research directions.
translated by 谷歌翻译
图形神经网络(GNNS)在各种基于图形的应用中显示了优势。大多数现有的GNNS假设图形结构的强大奇妙并应用邻居的置换不变本地聚合以学习每个节点的表示。然而,它们未能概括到异质图,其中大多数相邻节点具有不同的标签或特征,并且相关节点远处。最近的几项研究通过组合中央节点的隐藏表示(即,基于多跳的方法)的多个跳数来解决这个问题,或者基于注意力分数对相邻节点进行排序(即,基于排名的方法)来解决这个问题。结果,这些方法具有一些明显的限制。一方面,基于多跳的方法没有明确区分相关节点的大量多跳社区,导致严重的过平滑问题。另一方面,基于排名的模型不与结束任务进行联合优化节点排名,并导致次优溶液。在这项工作中,我们呈现图表指针神经网络(GPNN)来解决上述挑战。我们利用指针网络从大量的多跳邻域选择最相关的节点,这根据与中央节点的关系来构造有序序列。然后应用1D卷积以从节点序列中提取高级功能。 GPNN中的基于指针网络的Ranker是以端到端的方式与其他部件进行联合优化的。在具有异质图的六个公共节点分类数据集上进行了广泛的实验。结果表明,GPNN显着提高了最先进方法的分类性能。此外,分析还揭示了拟议的GPNN在过滤出无关邻居并减少过平滑的特权。
translated by 谷歌翻译
计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测,对象分割和/或对象姿势估计。但是,由于以下原因,在实践中不可行:1)预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别,2)佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能,3)预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点,我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理,因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域,以最终的方式提高潜在的任务的性能。在这方面,我们提出了一种称为“共分割激活模块”(COSAM)的通用模块,其可以被插入任何CNN,以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1)基于视频的人Re-ID,2)视频字幕分类,并证明COSAM能够在视频帧中捕获突出区域,从而引导对于显着的性能改进以及可解释的关注图。
translated by 谷歌翻译
Sleep stage recognition is crucial for assessing sleep and diagnosing chronic diseases. Deep learning models, such as Convolutional Neural Networks and Recurrent Neural Networks, are trained using grid data as input, making them not capable of learning relationships in non-Euclidean spaces. Graph-based deep models have been developed to address this issue when investigating the external relationship of electrode signals across different brain regions. However, the models cannot solve problems related to the internal relationships between segments of electrode signals within a specific brain region. In this study, we propose a Pearson correlation-based graph attention network, called PearNet, as a solution to this problem. Graph nodes are generated based on the spatial-temporal features extracted by a hierarchical feature extraction method, and then the graph structure is learned adaptively to build node connections. Based on our experiments on the Sleep-EDF-20 and Sleep-EDF-78 datasets, PearNet performs better than the state-of-the-art baselines.
translated by 谷歌翻译
图表可以模拟实体之间的复杂交互,它在许多重要的应用程序中自然出现。这些应用程序通常可以投入到标准图形学习任务中,其中关键步骤是学习低维图表示。图形神经网络(GNN)目前是嵌入方法中最受欢迎的模型。然而,邻域聚合范例中的标准GNN患有区分\ EMPH {高阶}图形结构的有限辨别力,而不是\ EMPH {低位}结构。为了捕获高阶结构,研究人员求助于主题和开发的基于主题的GNN。然而,现有的基于主基的GNN仍然仍然遭受较少的辨别力的高阶结构。为了克服上述局限性,我们提出了一个新颖的框架,以更好地捕获高阶结构的新框架,铰接于我们所提出的主题冗余最小化操作员和注射主题组合的新颖框架。首先,MGNN生成一组节点表示W.R.T.每个主题。下一阶段是我们在图案中提出的冗余最小化,该主题在彼此相互比较并蒸馏出每个主题的特征。最后,MGNN通过组合来自不同图案的多个表示来执行节点表示的更新。特别地,为了增强鉴别的功率,MGNN利用重新注射功能来组合表示的函数w.r.t.不同的主题。我们进一步表明,我们的拟议体系结构增加了GNN的表现力,具有理论分析。我们展示了MGNN在节点分类和图形分类任务上的七个公共基准上表现出最先进的方法。
translated by 谷歌翻译
在基于骨架的动作识别中,图形卷积网络将人类骨骼关节模拟为顶点,并通过邻接矩阵将其连接起来,可以将其视为局部注意力掩码。但是,在大多数现有的图形卷积网络中,局部注意力面膜是根据人类骨架关节的自然连接来定义的,而忽略了例如头部,手和脚关节之间的动态关系。此外,注意机制已被证明在自然语言处理和图像描述中有效,在现有方法中很少研究。在这项工作中,我们提出了一个新的自适应空间注意层,该层将局部注意力图扩展到基于相对距离和相对角度信息的全局。此外,我们设计了一个连接头部,手脚的新初始图邻接矩阵,该矩阵在动作识别精度方面显示出可见的改进。在日常生活中人类活动领域的两个大规模且挑战性的数据集上,评估了该模型:NTU-RGB+D和动力学骨架。结果表明,我们的模型在两个数据集上都有很强的性能。
translated by 谷歌翻译
可见红外人重新识别(VI RE-ID)旨在使可见和红外模式之间的人物图像匹配。现有的VI RE-ID方法主要集中在图像中提取均匀的结构关系,即局部特征之间的关系,同时忽略不同方式中局部特征的异构相关性。异构结构化关系对于学习有效的身份表示并执行跨模式匹配至关重要。在本文中,我们通过单独的模态的模态特定图来模拟均匀结构关系,然后与可见光和红外模态的模态特定图挖掘异质结构相关性。首先,均匀的结构图(HOSG)占地一流的矿物,任意节点(本地特征)与可见或红外图像中的所有REST节点之间的静态关系,以学习有效的身份表示。其次,为了找到跨型号身份 - 一致的对应关系,异构曲线图对齐模块(HGGAM)进一步测量了通过路由搜索方式的两个模式的局部节点特征之间的关系边缘强度。第三,我们提出了跨模型互相关(CMCC)丢失来提取可见和红外图形的特征​​表示的模态不变性。 CMCC计算模态之间的相互信息,并驱逐语义冗余。对Sysu-MM01和RegDB数据集的广泛实验表明,我们的方法优于最先进的最先进,增益为13.73 \%和9.45 \%Rank1 / Map。该代码可在https://github.com/fegnyujian/homerneous-和 - obeterogeneous-relional-agraphy获得。
translated by 谷歌翻译