智能论文笔记

Improving Fake News Detection of Influential Domain via Domain- and Instance-Level Transfer

Qiong Nan , Danding Wang , Yongchun Zhu , Qiang Sheng , Yuhui Shi , Juan Cao , Jintao Li

分类：自然语言处理 | 人工智能

2022-09-19

在各个领域（例如政治，健康和娱乐）中的真实和虚假新闻每天都通过在线社交媒体传播，需要对多个领域进行虚假新闻检测。其中，在政治和健康等特定领域中的虚假新闻对现实世界产生了更严重的潜在负面影响（例如，由Covid-19的错误信息引导的流行病）。先前的研究着重于多域假新闻检测，同样采矿和建模域之间的相关性。但是，这些多域方法遇到了SEESAW问题：某些域的性能通常会以损害其他域的性能而改善，这可能导致在特定领域的表现不满意。为了解决这个问题，我们建议一个用于假新闻检测（DITFEND）的域和实例级传输框架，这可以改善特定目标域的性能。为了传递粗粒域级知识，我们从元学习的角度训练了所有域数据的通用模型。为了传输细粒度的实例级知识并将一般模型调整到目标域，我们在目标域上训练语言模型，以评估每个数据实例在源域中的可传递性，并重新赢得每个实例的贡献。两个数据集上的离线实验证明了Ditfend的有效性。在线实验表明，在现实世界中，Ditfend对基本模型带来了更多改进。

translated by 谷歌翻译

Delving into the Frequency: Temporally Consistent Human Motion Transfer in the Fourier Space

Guang Yang , Wu Liu , Xinchen Liu , Xiaoyan Gu , Juan Cao , Jintao Li

分类：计算机视觉

2022-09-01

人类运动转移是指合成的照片现实和时间连贯的视频，使一个人能够模仿他人的运动。但是，当前的合成视频遭受了序列帧的时间不一致，这些框架显着降低了视频质量，但远未通过像素域中的现有方法来解决。最近，由于图像合成方法的频率不足，一些有关DeepFake检测的作品试图区分频域中的自然图像和合成图像。尽管如此，从自然和合成视频之间的频域间隙方面的各个方面研究合成视频的时间不一致。在本文中，我们建议深入研究频率空间，以进行时间一致的人类运动转移。首先，我们对频域中的自然和合成视频进行了首次综合分析，以揭示单个帧的空间维度和视频的时间维度的频率差距。为了弥补自然视频和合成视频之间的频率差距，我们提出了一个新型的基于频率的人类运动转移框架，名为Fremotr，该框架可以有效地减轻空间伪像以及合成视频的时间不一致。 Fremotr探索了两个基于频率的新型正则化模块：1）频域外观正则化（FAR），以改善个人在单个帧中的外观和2）时间频率正则化（TFR），以确保相邻框架之间的时间一致性。最后，全面的实验表明，FremoTR不仅在时间一致性指标中产生卓越的性能，而且还提高了合成视频的框架级视觉质量。特别是，时间一致性指标比最新模型提高了近30％。

translated by 谷歌翻译

Memory-Guided Multi-View Multi-Domain Fake News Detection

Yongchun Zhu , Qiang Sheng , Juan Cao , Qiong Nan , Kai Shu , Minghui Wu , Jindong Wang , Fuzhen Zhuang

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-26

假新闻的广泛传播越来越威胁到个人和社会。在单个领域（例如政治）上自动假新闻发现已做出了巨大的努力。但是，相关性通常存在于多个新闻领域，因此有望同时检测多个域的假新闻。基于我们的分析，我们在多域假新闻检测中提出了两个挑战：1）域转移，是由域，情感，样式等领域之间的差异引起的。世界分类仅输出一个单个领域标签，而不管新闻文章的主题多样性如何。在本文中，我们提出了一个记忆引导的多视图多域假新闻检测框架（M $^3 $ fend），以应对这两个挑战。我们从多视图的角度对新闻作品进行建模，包括语义，情感和风格。具体而言，我们建议一个域存储库来丰富域信息，该信息可以根据可见的新闻和模型域特征来发现潜在的域标签。然后，以丰富的域信息为输入，域适配器可以从各个域中的新闻的多个视图中适应汇总歧视性信息。对英语和中文数据集进行的大量离线实验证明了M $^3 $ fend的有效性，在线测试在实践中验证了其优势。我们的代码可在https://github.com/ictmcg/m3fend上找到。

translated by 谷歌翻译

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Quantifying Robustness to Adversarial Word Substitutions

Yuting Yang , Pei Huang , FeiFei Ma , Juan Cao , Meishan Zhang , Jian Zhang , Jintao Li

分类：自然语言处理

2022-01-11

基于深度学习的NLP模型被发现容易受到Word替代扰动的影响。在他们被广泛采用之前，需要解决坚固性的基本问题。沿着这条线，我们提出了一个正式的框架来评估词语级鲁棒性。首先，要研究模型的安全区域，我们引入了稳健的半径，这是模型可以抵抗任何扰动的边界。计算最大鲁棒性半径的计算变硬，我们估计其上限和下限。我们将攻击方法作为寻求上限和设计伪动态编程算法的攻击方法，用于更紧密的上限。然后验证方法用于下限。此外，为了评估在安全半径之外的区域的稳健性，我们从另一个视图中重新征服鲁棒性：量化。引入了具有严格统计保障的鲁棒度量，以测量对抗性示例的定量，这表明该模型对安全半径之外的扰动的敏感性。该度量有助于我们弄清楚为什么伯特这样的最先进的模型可以很容易地被几个单词替换所吸引，但在现实世界的噪音存在下概括很好。

translated by 谷歌翻译

MDFEND: Multi-domain Fake News Detection

Qiong Nan , Juan Cao , Yongchun Zhu , Yanyan Wang , Jintao Li

分类：自然语言处理 | 人工智能

2022-01-04

假新闻在各个领域的社交媒体上广泛传播，这导致了政治，灾害和金融等许多方面的现实世界威胁。大多数现有方法专注于单域假新闻检测（SFND），当这些方法应用于多域假新闻检测时，导致不满意的性能。作为新兴领域，多域假新闻检测（MFND）越来越受到关注。但是，数据分布，例如词频率和传播模式，从域变化，即域移位。面对严重领域转变的挑战，现有的假新闻检测技术对于多域场景表现不佳。因此，要求为MFND设计专业型号。在本文中，我们首先为MFND设计了一个带有域名标签的假新闻数据集的基准，即Weibo21，由4,488个假新闻和来自9个不同领域的4,640个真实新闻组成。我们进一步提出了一种通过利用域门来聚合由专家混合提取的多个表示来聚合的多域假新闻检测模型（MDFend）。实验表明，MDFEND可以显着提高多域假新闻检测的性能。我们的数据集和代码可在https://github.com/kennqiang/mdfend-weibo21获得。

translated by 谷歌翻译

Article Reranking by Memory-Enhanced Key Sentence Matching for Detecting Previously Fact-Checked Claims

Qiang Sheng , Juan Cao , Xueyao Zhang , Xirong Li , Lei Zhong

分类：自然语言处理

2021-12-20

已经过了事实检查的虚假声明仍可在社交媒体上传播。为了缓解他们的持续传播，检测先前的事实检查的索赔是必不可少的。鉴于索赔，现有的工作侧重于提供由BM25检索的重新登录候选事实检查文章（FC-Temericles）进行检测的证据。然而，这些性能可能受到限制，因为它们忽略了FC-asticles的以下特征：（1）通常引用权利要求以描述所检查的事件，除了语义之外提供词法信息; （2）介绍或揭露索赔的句子模板在文章中是常见的，提供模式信息。忽略两个方面的模型仅利用语义相关性，并且可能被描述类似但无关事件的句子误导。在本文中，我们提出了一种新颖的Reranker，MTM（用于匹配的内存增强的变压器）来使用与事件（词汇和语义）和模式信息选择的关键句子进行排序FC-Tressiple。对于活动信息，我们提出了一个胭脂引导的变压器，胭脂了胭脂回归。对于模式信息，我们生成用于与句子匹配的模式向量。通过定影事件和模式信息，我们选择关键句子来表示文章，然后使用索赔，密钥句子和模式检查文章事实是否检查给定的索赔。两个真实数据集的实验表明MTM优于现有方法。人类评估证明，MTM可以捕获用于解释的关键句子。代码和数据集是https://github.com/ictmcg/mtm。

translated by 谷歌翻译

MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection

Chengbo Dong , Xinru Chen , Ruohan Hu , Juan Cao , Xirong Li

分类：计算机视觉 | 人工智能

2021-12-16

图像操纵检测的关键研究问题是如何学习对新型数据中的操纵敏感的宽大功能，而特定于防止在真实图像上的误报。目前的研究强调了敏感性，特异性主要忽略了。在本文中，我们通过多视图特征学习和多尺度监督来解决两个方面。通过利用篡改区域周围的噪声分布和边界伪影，前者旨在学习语义 - 不可知，更广泛的特征。后者允许我们从真实的图像中学习以通过依赖于语义分割损耗的现有技术来考虑非凡的图像。我们的想法是由我们术语MVSS-Net及其增强版MVSS-Net ++的新网络实现。六个公共基准数据集的综合实验证明了MVSS-Net系列的可行性，以实现像素级和图像级操作检测。

translated by 谷歌翻译

Combat Data Shift in Few-shot Learning with Knowledge Graph

Yongchun Zhu , Fuzhen Zhuang , Xiangliang Zhang , Zhiyuan Qi , Zhiping Shi , Juan Cao , Qing He

分类：机器学习 | 人工智能

2021-01-27

在元学习框架下设计了许多射门学习方法，这些方法从各种学习任务中学习并推广到新任务。这些元学习方法在从同一分布（I.I.D.观察）中绘制的所有样本中的情况下实现了预期的性能。然而，在现实世界应用中，很少拍摄的学习范式往往遭受数据转移，即，即使在相同的任务中，也可以从各种数据分布中汲取不同任务中的示例。大多数现有的几次拍摄方法不考虑数据班次，因此在数据分布换档时显示降级性能。然而，由于每个任务中的标记样本数量有限的标记样本，因此在几次拍摄学习中解决数据转换问题是不普遍的。针对解决此问题，我们提出了一种新的基于度量的元学习框架，以便在知识图表的帮助下提取任务特定的表示和任务共享表示。因此，任务内的数据偏移可以通过任务共享和特定于任务的表示的组合来组合。拟议的模型是对流行的基准测试和两个构造的新具有挑战性的数据集。评估结果表明了其显着性能。

translated by 谷歌翻译

Boosting Neural Networks to Decompile Optimized Binaries

Ying Cao , Ruigang Liang , Kai Chen , Peiwei Hu

分类：机器学习

2023-01-03

Decompilation aims to transform a low-level program language (LPL) (eg., binary file) into its functionally-equivalent high-level program language (HPL) (e.g., C/C++). It is a core technology in software security, especially in vulnerability discovery and malware analysis. In recent years, with the successful application of neural machine translation (NMT) models in natural language processing (NLP), researchers have tried to build neural decompilers by borrowing the idea of NMT. They formulate the decompilation process as a translation problem between LPL and HPL, aiming to reduce the human cost required to develop decompilation tools and improve their generalizability. However, state-of-the-art learning-based decompilers do not cope well with compiler-optimized binaries. Since real-world binaries are mostly compiler-optimized, decompilers that do not consider optimized binaries have limited practical significance. In this paper, we propose a novel learning-based approach named NeurDP, that targets compiler-optimized binaries. NeurDP uses a graph neural network (GNN) model to convert LPL to an intermediate representation (IR), which bridges the gap between source code and optimized binary. We also design an Optimized Translation Unit (OTU) to split functions into smaller code fragments for better translation performance. Evaluation results on datasets containing various types of statements show that NeurDP can decompile optimized binaries with 45.21% higher accuracy than state-of-the-art neural decompilation frameworks.

translated by 谷歌翻译