智能论文笔记

Be Careful with Rotation: A Uniform Backdoor Pattern for 3D Shape

Linkun Fan , Fazhi He , Qing Guo , Wei Tang , Xiaolin Hong , Bing Li

分类：计算机视觉

2022-11-28

For saving cost, many deep neural networks (DNNs) are trained on third-party datasets downloaded from internet, which enables attacker to implant backdoor into DNNs. In 2D domain, inherent structures of different image formats are similar. Hence, backdoor attack designed for one image format will suite for others. However, when it comes to 3D world, there is a huge disparity among different 3D data structures. As a result, backdoor pattern designed for one certain 3D data structure will be disable for other data structures of the same 3D scene. Therefore, this paper designs a uniform backdoor pattern: NRBdoor (Noisy Rotation Backdoor) which is able to adapt for heterogeneous 3D data structures. Specifically, we start from the unit rotation and then search for the optimal pattern by noise generation and selection process. The proposed NRBdoor is natural and imperceptible, since rotation is a common operation which usually contains noise due to both the miss match between a pair of points and the sensor calibration error for real-world 3D scene. Extensive experiments on 3D mesh and point cloud show that the proposed NRBdoor achieves state-of-the-art performance, with negligible shape variation.

translated by 谷歌翻译

SANCL: Multimodal Review Helpfulness Prediction with Selective Attention and Natural Contrastive Learning

Wei Han , Hui Chen , Zhen Hai , Soujanya Poria , Lidong Bing

分类：自然语言处理 | 人工智能

2022-09-12

随着电子商务的繁荣，旨在按照预测的有用性分数对产品评论进行分类的多模式审查帮助预测（MRHP）已成为研究热点。此任务的先前工作集中于基于注意力的模态融合，信息集成和关系建模，该模型主要暴露了以下缺点：1）由于其不加区分的注意公式，该模型可能无法捕获真正的基本信息； 2）缺乏适当的建模方法，可以充分利用提供的数据之间的相关性。在本文中，我们提出了SANCL：MRHP的选择性关注和自然对比学习。 SANCL采用基于探测的策略来对更大意义的区域进行高度注意权重。它还基于数据集中的自然匹配属性构建了对比度学习框架。两个基准数据集的实验结果（三个类别）表明，SANCL在记忆消耗较低的情况下实现了最先进的基线性能。

translated by 谷歌翻译

Distribution Learning Based on Evolutionary Algorithm Assisted Deep Neural Networks for Imbalanced Image Classification

Yudi Zhao , Kuangrong Hao , Chaochen Gu , Bing Wei

分类：计算机视觉 | 人工智能

2022-07-26

为了解决不平衡分类任务中生成图像的质量多样性的权衡问题，我们研究了功能级别的基于过度采样的方法，而不是数据级别，并专注于搜索潜在功能空间以进行最佳分布。在此基础上，我们提出了改进的基于潜在特征分布演化（MEDA_LUDE）算法的改进的估计分布算法，其中对联合学习程序进行了编程，以使深神经网络和进化算法分别优化和进化。我们探讨了大利润度高斯混合物（L-GM）损失功能对分配学习和设计基于样品之间相似性以增加多样性的专业健身函数的影响。基于基准的不平衡数据集的广泛实验验证了我们提出的算法的有效性，该算法可以生成具有质量和多样性的图像。此外，MEDA_LUDE算法还应用于工业领域，并成功地减轻了织物缺陷分类中的不平衡问题。

translated by 谷歌翻译

Learning Dialogue Representations from Consecutive Utterances

Zhihan Zhou , Dejiao Zhang , Wei Xiao , Nicholas Dingwall , Xiaofei Ma , Andrew O. Arnold , Bing Xiang

分类：自然语言处理 | 机器学习

2022-05-26

学习高质量的对话表示对于解决各种面向对话的任务至关重要，尤其是考虑到对话系统通常会遇到数据稀缺。在本文中，我们介绍了对话句子嵌入（DSE），这是一种自我监督的对比学习方法，它学习有效的对话表示，适合各种对话任务。 DSE通过连续进行与对比度学习的正面对话的连续对话来从对话中学习。尽管它很简单，但DSE的表现能力比其他对话表示和普遍的句子表示模型要好得多。我们评估DSE的五个下游对话任务，这些任务检查了不同语义粒度的对话表示。几次射击和零射击设置的实验表明，DSE的表现要优于基线。例如，它在6个数据集中的1-Shot意图分类中比最强的无监督基线实现了13％的平均绩效提高。我们还提供了有关模型的好处和局限性的分析。

translated by 谷歌翻译

Semi-WTC: A Practical Semi-supervised Framework for Attack Categorization through Weight-Task Consistency

Zihan Li , Wentao Chen , Zhiqing Wei , Xingqi Luo , Bing Su

分类：机器学习

2022-05-19

监督学习已被广泛用于攻击分类，需要高质量的数据和标签。但是，数据通常是不平衡的，很难获得足够的注释。此外，有监督的模型应遵守现实世界的部署问题，例如防御看不见的人造攻击。为了应对挑战，我们提出了一个半监督的细粒攻击分类框架，该框架由编码器和两个分支机构结构组成，并且该框架可以推广到不同的监督模型。具有残留连接的多层感知器用作提取特征并降低复杂性的编码器。提出了复发原型模块（RPM）以半监督的方式有效地训练编码器。为了减轻数据不平衡问题，我们将重量任务一致性（WTC）引入RPM的迭代过程中，通过将较大的权重分配给损失函数中较少样本的类别。此外，为了应对现实世界部署中的新攻击，我们提出了一种主动调整重新采样（AAR）方法，该方法可以更好地发现看不见的样本数据的分布并调整编码器的参数。实验结果表明，我们的模型优于最先进的半监督攻击检测方法，分类精度提高了3％，训练时间降低了90％。

translated by 谷歌翻译

Multi-Spatio-temporal Fusion Graph Recurrent Network for Traffic forecasting

Wei Zhao , Shiqi Zhang , Bing Zhou , Bei Wang

分类：机器学习 | 人工智能

2022-05-03

交通预测对于新时代智能城市的交通建设至关重要。但是，流量数据的复杂空间和时间依赖性使流量预测极具挑战性。大多数现有的流量预测方法都依赖于预定义的邻接矩阵来对时空依赖性建模。但是，道路交通状态是高度实时的，因此邻接矩阵应随着时间的推移而动态变化。本文介绍了一个新的多空间融合图复发网络（MSTFGRN），以解决上述问题。该网络提出了一种数据驱动的加权邻接矩阵生成方法，以补偿预定义的邻接矩阵未反映的实时空间依赖性。它还通过在不同矩的平行时空关系上执行新的双向时空融合操作来有效地学习隐藏的时空依赖性。最后，通过将全局注意机制集成到时空融合模块中，同时捕获了全局时空依赖性。对四个大型现实世界流量数据集进行的广泛试验表明，与替代基线相比，我们的方法实现了最先进的性能。

translated by 谷歌翻译

Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

Li Yang , Yan Xu , Chunfeng Yuan , Wei Liu , Bing Li , Weiming Hu

分类：计算机视觉

2022-04-30

视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征，并将这些功能与文本嵌入融合，以找到文本提到的目标。但是，对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息，从而限制其性能。在本文中，我们提出了一个基于变压器的框架，以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言，我们开发了一个视觉语言验证模块，以将视觉特征集中在与文本描述相关的区域上，同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文，以提高对象的独特性。为了从编码的视觉特征中检索目标，我们进一步提出了一个多阶段的跨模式解码器，以迭代地推测图像和文本之间的相关性，以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效，并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。

translated by 谷歌翻译

STCGAT: A Spatio-temporal Causal Graph Attention Network for traffic flow prediction

Wei Zhao , Shiqi Zhang , Bing Zhou , Bei Wang

分类：机器学习 | 人工智能

2022-03-21

交通流量预测是智能运输系统的重要组成部分，从而受到了研究人员的关注。但是，交通道路之间的复杂空间和时间依赖性使交通流量的预测具有挑战性。现有方法通常是基于图形神经网络，使用交通网络的预定义空间邻接图来建模空间依赖性，而忽略了道路节点之间关系的动态相关性。此外，他们通常使用独立的时空组件来捕获时空依赖性，并且不会有效地对全局时空依赖性进行建模。本文提出了一个新的时空因果图形注意网络（STCGAT），以解决上述挑战。在STCGAT中，我们使用一种节点嵌入方法，可以在每个时间步骤中自适应生成空间邻接子图，而无需先验地理知识和对不同时间步骤动态生成图的拓扑的精细颗粒建模。同时，我们提出了一个有效的因果时间相关成分，其中包含节点自适应学习，图形卷积以及局部和全局因果关系卷积模块，以共同学习局部和全局时空依赖性。在四个真正的大型流量数据集上进行的广泛实验表明，我们的模型始终优于所有基线模型。

translated by 谷歌翻译

Contrastive Learning for Automotive mmWave Radar Detection Points Based Instance Segmentation

Weiyi Xiong , Jianan Liu , Yuxuan Xia , Tao Huang , Bing Zhu , Wei Xiang

分类：计算机视觉

2022-03-13

汽车MMWAVE雷达在高级驾驶员辅助系统（ADA）和自动驾驶中起关键作用。基于深度学习的实例细分可以从雷达检测点实时对象识别。在常规培训过程中，准确的注释是关键。然而，由于雷达检测点的高质量注释，由于其歧义和稀疏性，要实现挑战。为了解决这个问题，我们提出了一种实施基于雷达检测点的实例细分的对比学习方法。我们根据地面真相标签定义正面和负样品，将对比度损失首先训练模型，然后对以下下游任务进行微调。此外，可以将这两个步骤合并为一个，并且可以为未标记的数据生成伪标签，以进一步提高性能。因此，我们的方法有四种不同的培训设置。实验表明，当仅适用于一小部分培训数据时，我们的方法仍然可以与以100％基真实信息进行监督的方式实现可比的性能。

translated by 谷歌翻译

Distilled Dual-Encoder Model for Vision-Language Understanding

Zekun Wang , Wenhui Wang , Haichao Zhu , Ming Liu , Bing Qin , Furu Wei

分类：自然语言处理 | 计算机视觉

2021-12-16

我们提出了一种跨模型关注蒸馏框架，用于培训双编码器模型，用于了解视觉语言理解任务，例如视觉推理和视觉问题应答。双编码器模型的推理速度比Fusion-encoder模型更快，并在推理期间启用图像和文本的预算。然而，双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。为了学习图像和文本的深度互动，我们引入了跨模型注意蒸馏，它使用融合编码器模型的图像到文本和文本到图像注意力分布来指导我们的双编码器的培训模型。此外，我们表明，适用于预训练和微调阶段的跨模型注意蒸馏实现了进一步的改进。实验结果表明，蒸馏的双编码器模型可实现视觉推理，视觉征求和视觉问题的竞争性能，同时享受比Fusion-Conoder模型更快的推理速度。我们的代码和型号将在https://github.com/kugwzk/distilled -dualiCoder上公开提供。

translated by 谷歌翻译