智能论文笔记

JSRNN: Joint Sampling and Reconstruction Neural Networks for High Quality Image Compressed Sensing

Chunyan Zeng , Jiaxiang Ye , Zhifeng Wang , Nan Zhao , Minghu Wu

分类：计算机视觉

2022-11-11

Most Deep Learning (DL) based Compressed Sensing (DCS) algorithms adopt a single neural network for signal reconstruction, and fail to jointly consider the influences of the sampling operation for reconstruction. In this paper, we propose unified framework, which jointly considers the sampling and reconstruction process for image compressive sensing based on well-designed cascade neural networks. Two sub-networks, which are the sampling sub-network and the reconstruction sub-network, are included in the proposed framework. In the sampling sub-network, an adaptive full connected layer instead of the traditional random matrix is used to mimic the sampling operator. In the reconstruction sub-network, a cascade network combining stacked denoising autoencoder (SDA) and convolutional neural network (CNN) is designed to reconstruct signals. The SDA is used to solve the signal mapping problem and the signals are initially reconstructed. Furthermore, CNN is used to fully recover the structure and texture features of the image to obtain better reconstruction performance. Extensive experiments show that this framework outperforms many other state-of-the-art methods, especially at low sampling rates.

translated by 谷歌翻译

Spatio-Temporal Representation Learning Enhanced Source Cell-phone Recognition from Speech Recordings

Chunyan Zeng , Shixiong Feng , Zhifeng Wang , Xiangkui Wan , Yunfan Chen , Nan Zhao

分类：人工智能

2022-08-25

现有的源单元手机识别方法缺乏源设备的长期特征表征，从而导致与源单元相关特征的不准确表示，从而导致识别精度不足。在本文中，我们提出了一种基于时空表示学习的源细胞手机识别方法，其中包括两个主要部分：提取顺序高斯平均矩阵特征和基于时空表示学习的识别模型的构建。在特征提取部分中，基于对记录源信号的时间序列表示的分析，我们通过使用高斯混合模型对数据分布的灵敏度提取具有长期和短期表示能力的顺序高斯平均矩阵。在模型构建部分中，我们设计了一个结构化的时空表示网络C3D-BILSTM，以充分表征时空信息，结合3D卷积网络和双向长期短期记忆网络，用于短期光谱信息和长期的长期记忆网络波动信息表示学习，并通过融合记录源信号的时空特征信息来准确识别细胞手机。该方法的平均准确性为99.03％的封闭设置识别在CCNU \ _Mobile数据集中的45个手机识别，而在小样本尺寸实验中的平均识别率为98.18％，识别性能优于现有的最新目前的识别性能方法。实验结果表明，该方法在多级细胞手机识别中表现出出色的识别性能。

translated by 谷歌翻译

Abs-CAM: A Gradient Optimization Interpretable Approach for Explanation of Convolutional Neural Networks

Chunyan Zeng , Kang Yan , Zhifeng Wang , Yan Yu , Shiyan Xia , Nan Zhao

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-08

深神经网络（DNN）的黑盒性质严重阻碍了其在特定场景中的性能改善和应用。近年来，基于类激活映射的方法已被广泛用于解释计算机视觉任务中模型的内部决策。但是，当此方法使用反向传播获得梯度时，它将在显着图中引起噪声，甚至找到与决策无关的特征。在本文中，我们提出了一个基于绝对价值类激活映射（ABS-CAM）方法，该方法优化了从反向传播中得出的梯度，并将所有这些梯度变成正梯度，以增强输出神经元激活的视觉特征，并改善。显着图的本地化能力。 ABS-CAM的框架分为两个阶段：生成初始显着性图并生成最终显着图。第一阶段通过优化梯度来提高显着性图的定位能力，第二阶段将初始显着性图与原始图像线性结合在一起，以增强显着性图的语义信息。我们对拟议方法进行定性和定量评估，包括删除，插入和指向游戏。实验结果表明，ABS-CAM显然可以消除显着性图中的噪声，并且可以更好地定位与决策相关的功能，并且优于以前的识别和定位任务中的方法。

translated by 谷歌翻译

MHFC: Multi-Head Feature Collaboration for Few-Shot Learning

Shuai Shao , Lei Xing , Yan Wang , Rui Xu , Chunyan Zhao , Yan-Jiang Wang , Bao-Di Liu

分类：计算机视觉

2021-09-16

少量学习（FSL）旨在解决数据稀缺问题。标准FSL框架由两个组件组成：（1）预先火车。采用基础数据以生成基于CNN的特征提取模型（FEM）。（2）元测试。应用训练有素的有限元素以获取新的数据的特征并识别它们。 FSL严重依赖于FEM的设计。然而，各种有限元有明显的重点。例如，若干可以更关注轮廓信息，而其他人可以特别强调纹理信息。单个头功能只是样本的单面表示。除了跨域的负影响（例如，训练有素的有限元件无瑕疵地适应新颖的类），与地面真理分布相比，新型数据的分布可能具有一定程度的偏差，如分配转移 - 问题（DSP）。为了解决DSP，我们提出了多头功能协作（MHFC）算法，该算法试图将多头特征（例如，从各种FEM中提取的多个功能）投影到统一空间并融合它们以捕获更多辨别信息。通常，首先，我们介绍子空间学习方法来转换多头特征以对准低维表示。它通过学习具有更强大的歧视的功能来纠正DSP，并克服了来自不同头部特征的不一致测量尺度的问题。然后，我们设计注意力块以自动更新每个头部功能的组合权重。它全面考虑各种观点的贡献，进一步提高了特征的歧视。我们评估了五个基准数据集（包括跨域实验）的提出方法，与最先进的情况下实现了2.1％-7.8％的显着改善。

translated by 谷歌翻译

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

Qihuang Zhong , Liang Ding , Yibing Zhan , Yu Qiao , Yonggang Wen , Li Shen , Juhua Liu , Baosheng Yu , Bo Du , Yixin Chen

分类：自然语言处理

2022-12-04

This technical report briefly describes our JDExplore d-team's Vega v2 submission on the SuperGLUE leaderboard. SuperGLUE is more challenging than the widely used general language understanding evaluation (GLUE) benchmark, containing eight difficult language understanding tasks, including question answering, natural language inference, word sense disambiguation, coreference resolution, and reasoning. [Method] Instead of arbitrarily increasing the size of a pretrained language model (PLM), our aim is to 1) fully extract knowledge from the input pretraining data given a certain parameter budget, e.g., 6B, and 2) effectively transfer this knowledge to downstream tasks. To achieve goal 1), we propose self-evolution learning for PLMs to wisely predict the informative tokens that should be masked, and supervise the masked language modeling (MLM) process with rectified smooth labels. For goal 2), we leverage the prompt transfer technique to improve the low-resource tasks by transferring the knowledge from the foundation model and related downstream tasks to the target task. [Results] According to our submission record (Oct. 2022), with our optimized pretraining and fine-tuning strategies, our 6B Vega method achieved new state-of-the-art performance on 4/8 tasks, sitting atop the SuperGLUE leaderboard on Oct. 8, 2022, with an average score of 91.3.

translated by 谷歌翻译

Image Compressed Sensing with Multi-scale Dilated Convolutional Neural Network

Zhifeng Wang , Zhenghui Wang , Chunyan Zeng , Yan Yu , Xiangkui Wan

分类：计算机视觉

2022-09-28

与传统CS方法相比，基于深度学习（DL）的压缩传感（CS）已被应用于图像重建的更好性能。但是，大多数现有的DL方法都利用逐个块测量，每个测量块分别恢复，这引入了重建的有害阻塞效应。此外，这些方法的神经元接受场被设计为每一层的大小相同，这只能收集单尺度的空间信息，并对重建过程产生负面影响。本文提出了一个新的框架，称为CS测量和重建的多尺度扩张卷积神经网络（MSDCNN）。在测量期间，我们直接从训练有素的测量网络中获得所有测量，该测量网络采用了完全卷积结构，并通过输入图像与重建网络共同训练。它不必将其切成块，从而有效地避免了块效应。在重建期间，我们提出了多尺度特征提取（MFE）体系结构，以模仿人类视觉系统以捕获同一功能映射的多尺度特征，从而增强了框架的图像特征提取能力并提高了框架的性能并提高了框架的性能。影像重建。在MFE中，有多个并行卷积通道以获取多尺度特征信息。然后，将多尺度功能信息融合在一起，并以高质量重建原始图像。我们的实验结果表明，根据PSNR和SSIM，该提出的方法对最新方法的性能有利。

translated by 谷歌翻译

Skeleton Prototype Contrastive Learning with Multi-Level Graph Relation Modeling for Unsupervised Person Re-Identification

Haocong Rao , Chunyan Miao

分类：计算机视觉 | 人工智能

2022-08-25

通过3D骨骼重新识别人的重新识别（RE-ID）是一个重要的新兴话题，具有许多优点。现有的解决方案很少探索骨骼结构或运动中有价值的身体成分关系，并且它们通常缺乏通过无标记的骨骼数据来学习人Re-ID的通用表示的能力。本文提出了一个通用的无监督骨骼原型对比度学习范式，其多级图关系学习（SPC-MGR），以从无标记的骨骼中学习有效的表示，以执行人员重新ID。具体而言，我们首先构建统一的多级骨架图，以完全模拟骨骼内的身体结构。然后，我们提出了一个多头结构关系层，以全面捕获图中物理连接的身体分量节点的关系。利用全层协作关系层来推断与运动相关的身体部位之间的协作，以捕获丰富的身体特征和可识别的步行模式。最后，我们提出了一个骨骼原型对比学习方案，该方案具有未标记的图表表达的相关实例，并将其固有的相似性与代表性的骨骼特征（“骨架原型”）进行对比，以学习人重新ID的歧视性骨骼表示。经验评估表明，SPC-MGR明显优于几种基于最新的骨架方法，并且还可以实现竞争激烈的人重新绩效，以实现更多的一般情况。

translated by 谷歌翻译

HTML版本

Joint Attention-Driven Domain Fusion and Noise-Tolerant Learning for Multi-Source Domain Adaptation

Tong Xu , Wu Ning , Chunyan Lyu , Kejun Wang

分类：计算机视觉

2022-08-05

作为对数据有效使用的研究，多源无监督的域适应性将知识从带有标记数据的多个源域转移到了未标记的目标域。但是，目标域中不同域和嘈杂的伪标签之间的分布差异都导致多源无监督域适应方法的性能瓶颈。鉴于此，我们提出了一种将注意力驱动的领域融合和耐噪声学习（ADNT）整合到上述两个问题的方法。首先，我们建立了相反的注意结构，以在特征和诱导域运动之间执行信息。通过这种方法，当域差异降低时，特征的可区分性也可以显着提高。其次，基于无监督的域适应训练的特征，我们设计了自适应的反向横向熵损失，该损失可以直接对伪标签的产生施加约束。最后，结合了这两种方法，几个基准的实验结果进一步验证了我们提出的ADNT的有效性，并证明了优于最新方法的性能。

translated by 谷歌翻译

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

Hao Wang , Guosheng Lin , Steven C. H. Hoi , Chunyan Miao

分类：计算机视觉

2022-07-29

本文研究了一个开放的研究问题，即生成文本图像对，以改善细粒度对文本跨模式检索任务的训练，并通过发现stylegan2模型的隐藏语义信息，为配对数据增强的新颖框架提出了一个新颖的框架。。具体来说，我们首先在给定数据集上训练stylegan2模型。然后，我们将真实图像投影回stylegan2的潜在空间，以获取潜在的代码。为了使生成的图像可操作，我们进一步引入了一个潜在的空间对齐模块，以了解StyleGAN2潜在代码和相应的文本字幕功能之间的对齐。当我们进行在线配对数据增强时，我们首先通过随机代码替换生成增强文本，然后将增强文本传递到潜在的空间对齐模块中以输出潜在代码，最终将其馈送到stylegan2以生成增强图像。我们评估了增强数据方法对两个公共跨模式检索数据集的功效，其中有希望的实验结果表明，可以将增强的文本图像对数据与原始数据一起训练，以增强图像到文本交叉 - 模态检索性能。

translated by 谷歌翻译

3D Cartoon Face Generation with Controllable Expressions from a Single GAN Image

Hao Wang , Guosheng Lin , Steven C. H. Hoi , Chunyan Miao

分类：计算机视觉

2022-07-29

在本文中，我们调查了一项开放的研究任务，该任务是从单个2D GAN产生人体面部且没有3D监督的3D卡通面部形状，在那里我们还可以操纵3D形状的面部表情。为此，我们发现了Stylegan潜在空间的语义含义，因此我们能够通过控制潜在代码来产生各种表达式，姿势和照明的面部图像。具体而言，我们首先对卡通数据集中预验证的Stylegan脸部模型进行了修复。通过将相同的潜在代码喂入面部和卡通生成模型，我们的目标是实现从2D人脸图像到卡通风格的化身的翻译。然后，我们发现了甘恩潜在空间的语义方向，以试图在保留原始身份的同时改变面部表情。由于我们没有任何针对卡通脸的3D注释，因此我们操纵潜在代码以生成具有不同姿势和照明的图像，以便我们可以重建3D卡通脸部形状。我们在定性和定量上验证了方法在三个卡通数据集上的疗效。

translated by 谷歌翻译