智能论文笔记

Self-supervised Learning for Heterogeneous Graph via Structure Information based on Metapath

Shuai Ma , Jian-wei Liu , Xin Zuo

分类：机器学习 | 计算机视觉

2022-09-09

图形神经网络（GNN）是通过学习通用节点表示形式来建模和处理图形结构数据的主要范例。传统的培训方式GNNS取决于许多标记的数据，这导致了成本和时间的高需求。在某个特殊场景中，它甚至不可用。可以通过图形结构数据本身生成标签的自我监督表示学习是解决此问题的潜在方法。并且要研究对异质图的自学学习问题的研究比处理同质图更具挑战性，对此，研究也更少。在本文中，我们通过基于Metapath（SESIM）的结构信息提出了一种用于异质图的自我监督学习方法。提出的模型可以通过预测每个Metapath中节点之间的跳跃数来构建借口任务，以提高主任务的表示能力。为了预测跳跃数量，Sesim使用数据本身来生成标签，避免了耗时的手动标签。此外，预测每个Metapath中的跳跃数量可以有效地利用图形结构信息，这是节点之间的重要属性。因此，Sesim加深对图形结构模型的理解。最后，我们共同培训主要任务和借口任务，并使用元学习来平衡借口任务对主要任务的贡献。经验结果验证了SESIM方法的性能，并证明该方法可以提高传统神经网络在链接预测任务和节点分类任务上的表示能力。

translated by 谷歌翻译

An Improved Normed-Deformable Convolution for Crowd Counting

Xin Zhong , Zhaoyi Yan , Jing Qin , Wangmeng Zuo , Weigang Lu

分类：计算机视觉

2022-06-16

近年来，人群计数已成为计算机视觉中的重要问题。在大多数方法中，密度图是通过从地面图中与人头中心标记的地面图图中的高斯内核进行卷积而产生的。由于CNN中的固定几何结构和模糊的头尺度信息，因此无法完全获得头部特征。提出了可变形的卷积来利用头部中CNN特征的尺度自适应能力。通过学习采样点的坐标偏移，可以提高调整接受场的能力。但是，头部在可变形卷积中的采样点并不统一，从而导致头部信息丢失。为了处理不均匀的采样，在本文中提出了改进的规范性卷积（\ textit {i.e。受NDLOSS限制的采样点的偏移往往更加均匀。然后，更完整地获得了头部中的功能，从而获得更好的性能。尤其是，拟议的NDCONV是一个轻巧的模块，与可变形卷积具有相似的计算负担。在广泛的实验中，我们的方法优于上海A，Shanghaitech B，UCF \ _QNRF和UCF \ _CC \ _50数据集，分别实现61.4、7.8、91.2和167.2 MAE。该代码可从https://github.com/bingshuangzhuzi/ndconv获得

translated by 谷歌翻译

Auto-Encoder based Co-Training Multi-View Representation Learning

Run-kun Lu , Jian-wei Liu , Yuan-fang Wang , Hao-jie Xie , Xin Zuo

分类：机器学习

2022-01-09

多视图学习是一个学习问题，它利用对象的各种表示来挖掘宝贵的知识并提高学习算法的性能，并且多视图学习的重要方向之一是子空间学习。正如我们所知，自动编码器是深度学习的方法，它可以通过重建输入来学习原始数据的潜在特征，并基于这一点，我们提出了一种名为基于自动编码器的共训练多视图学习的新算法（ACMVL）利用互补性和一致性，并找到多个视图的联合潜在特征表示。该算法有两个阶段，首先是培训每个视图的自动编码器，第二阶段是训练监督网络。有趣的是，两个阶段部分地分享权重，并通过共同培训过程互相帮助。根据实验结果，我们可以学习良好的潜在特征表示，并且每个视图的自动编码器具有比传统的自动编码器更强大的重建能力。

translated by 谷歌翻译

Adaptive Online Incremental Learning for Evolving Data Streams

Si-si Zhang , Jian-wei Liu , Xin Zuo

分类：机器学习

2022-01-05

近年来，在线增量学习中兴趣增长。然而，这方面存在三个主要挑战。第一个主要困难是概念漂移，即流数据中的概率分布会随着数据到达而改变。第二个重大困难是灾难性的遗忘，即忘记在学习新知识之前学到的东西。我们经常忽略的最后一个是学习潜在的代表。只有良好的潜在表示可以提高模型的预测准确性。我们的研究在此观察中建立并试图克服这些困难。为此，我们提出了一种适应性在线增量学习，用于不断发展数据流（AOL）。我们使用带内存模块的自动编码器，一方面，我们获得了输入的潜在功能，另一方面，根据自动编码器的重建丢失与内存模块，我们可以成功检测存在的存在概念漂移并触发更新机制，调整模型参数及时。此外，我们划分从隐藏层的激活导出的特征，分为两个部分，用于分别提取公共和私有特征。通过这种方法，该模型可以了解新的即将到来的实例的私有功能，但不要忘记我们在过去（共享功能）中学到的内容，这减少了灾难性遗忘的发生。同时，要获取融合特征向量，我们使用自我关注机制来有效地融合提取的特征，这进一步改善了潜在的代表学习。

translated by 谷歌翻译

Universal Transformer Hawkes Process with Adaptive Recursive Iteration

Lu-ning Zhang , Jian-wei Liu , Zhi-yan Song , Xin Zuo

分类：机器学习

2021-12-29

异步事件序列广泛分布在自然界和人类活动中，例如地震记录，社交媒体中的用户活动等。如何蒸馏来自这些看似混乱的数据是研究人员专注的持久主题。最有用的模型之一是点过程模型，在此基础上，研究人员获得了许多明显的结果。此外，近年来，提出了神经网络基础的点过程模型，特别是复发性神经网络（RNN），并与传统模型进行比较，其性能大大提高。变压器模型的启发，可以有效地学习序列数据而无需反复和卷积结构，变压器鹰过程出现，并实现了最先进的性能。然而，有一些研究证明，转换变压器中的递归计算可以进一步提高变压器性能。因此，我们出现了一种新型的变压器鹰过程模型，通用变压器鹰过程（UTHP），其中包含递归机制和自我关注机制，并提高了模型的局部感知能力，我们还介绍了卷积神经网络（CNN）在位置方向前馈部分。我们对几个数据集进行实验，以验证UTHP的有效性，并在引入递归机制后探索变化。这些关于多个数据集的实验表明，与以前的最先进模型相比，我们提出的新模式的性能具有一定的改进。

translated by 谷歌翻译

Temporal Attention Augmented Transformer Hawkes Process

Lu-ning Zhang , Jian-wei Liu , Zhi-yan Song , Xin Zuo

分类：机器学习

2021-12-29

近年来，霍克斯进程的异步序列的知识是一个值得关注的主题，基于神经网络的鹰过程逐渐成为最热门研究的领域，特别是基于复发神经网络（RNN）。然而，这些模型仍然包含RNN的一些固有缺点，例如消失和爆炸梯度和长期依赖性问题。同时，基于自我关注的变压器在文本处理和语音识别等顺序建模中取得了巨大成功。虽然变压器鹰过程（THP）已经获得了巨大的性能改进，但是THP不会有效地利用异步事件中的时间信息，因为这些异步序列，事件发生时刻与事件的类型一样重要，而传统的THPS只是转换时间信息进入位置编码并将其添加为变压器的输入。考虑到这一点，我们提出了一种新型的基于变压器的霍克斯工艺模型，暂时关注增强变压器鹰过程（TAA-THP），我们修改了传统的DOT产品注意力结构，并介绍了关注结构的时间编码。我们对多种合成和现实生活数据集进行多项实验，以验证我们提出的TAA-THP模型的性能，与现有的基线模型相比，在不同测量上实现的显着改进，包括在测试数据集上的日志可能性，并预测事件类型的准确性和发生时间。此外，通过烧蚀研究，我们通过比较模型的性能和没有时间关注的模型的性能，生动地证明了引入额外的时间关注的优点。

translated by 谷歌翻译

Survival Analysis of the Compressor Station Based on Hawkes Process with Weibull Base Intensity

Lu-ning Zhang , Jian-wei Liu , Xin Zuo

分类：机器学习

2021-12-27

在本文中，我们使用霍克斯过程来模拟失效序列，即压缩机站的事件，并对压缩机站的各种故障事件进行生存分析。然而，到目前为止，几乎所有相关文献的霍克斯点过程都假定条件强度函数的基本强度是时间不变。这种假设显然太苛刻了才能得到验证。例如，在实际应用中，包括财务分析，可靠性分析，生存分析和社会网络分析，真理条件强度函数的基本强度很可能是时变的。恒定基本强度不会反映随时间发生的故障的基本概率。因此，为了解决这个问题，在本文中，我们提出了一种新的时变基强度，例如，来自威布尔分布。首先，我们从Weibull分布介绍基本强度，然后我们通过最大似然估计器提出有效的学习算法。对恒基强度合成数据，时变基本强度合成数据和实际数据的实验表明，我们的方法可以同时和鲁棒地学习鹰过程和时变基强度的触发模式。真实世界数据的实验揭示了不同种类的失败的格兰杰因果关系和随着时间的推移变化的故障基础概率。

translated by 谷歌翻译

Attentive Multi-View Deep Subspace Clustering Net

Run-kun Lu , Jian-wei Liu , Xin Zuo

分类：计算机视觉 | 机器学习

2021-12-23

在本文中，我们提出了一种新颖的细节多视图深度子空间网（AMVDSN），其深入探讨了多个视图中的一致性和特定信息，并通过考虑每个视图通过注意机制获得的动态贡献来熔化它们。与大多数多视图子空间学习方法不同，它们直接重建原始数据的数据点，或者在深层或浅层空间中学习表示时仅考虑一致性或互补性，我们提出的方法旨在查找明确认为共识和观点的联合潜在表示 - 多个视图之间的特定信息，然后对学习的联合潜在表示执行子空间群集。基础，不同的视图与表示学习有不同的贡献，我们引入了关注机制来导出每个视图的动态权重，这比以前的融合方法更好多视图子空间群集的领域。所提出的算法是直观的，并且由于神经网络框架，通过使用随机梯度下降（SGD）可以容易地优化，其与传统的子空间聚类方法相比，这也提供了强大的非线性表征能力。七个现实世界数据集的实验结果表明了我们提出的算法对某些最先进的子空间学习方法的有效性。

translated by 谷歌翻译

StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles

Yifeng Ma , Suzhen Wang , Zhipeng Hu , Changjie Fan , Tangjie Lv , Yu Ding , Zhidong Deng , Xin Yu

分类：计算机视觉

2023-01-03

Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.

translated by 谷歌翻译

Follow the Timeline! Generating Abstractive and Extractive Timeline Summary in Chronological Order

Xiuying Chen , Mingzhe Li , Shen Gao , Zhangming Chan , Dongyan Zhao , Xin Gao , Xiangliang Zhang , Rui Yan

分类：自然语言处理

2023-01-02

Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.

translated by 谷歌翻译