智能论文笔记

Exploring Depth Information for Face Manipulation Detection

Haoyue Wang , Meiling Li , Sheng Li , Zhenxing Qian , Xinpeng Zhang

分类：计算机视觉

2022-12-29

Face manipulation detection has been receiving a lot of attention for the reliability and security of the face images. Recent studies focus on using auxiliary information or prior knowledge to capture robust manipulation traces, which are shown to be promising. As one of the important face features, the face depth map, which has shown to be effective in other areas such as the face recognition or face detection, is unfortunately paid little attention to in literature for detecting the manipulated face images. In this paper, we explore the possibility of incorporating the face depth map as auxiliary information to tackle the problem of face manipulation detection in real world applications. To this end, we first propose a Face Depth Map Transformer (FDMT) to estimate the face depth map patch by patch from a RGB face image, which is able to capture the local depth anomaly created due to manipulation. The estimated face depth map is then considered as auxiliary information to be integrated with the backbone features using a Multi-head Depth Attention (MDA) mechanism that is newly designed. Various experiments demonstrate the advantage of our proposed method for face manipulation detection.

translated by 谷歌翻译

MMMNA-Net for Overall Survival Time Prediction of Brain Tumor Patients

Wen Tang , Haoyue Zhang , Pengxin Yu , Han Kang , Rongguo Zhang

分类：计算机视觉

2022-06-13

总生存时间（OS）时间是神经胶质瘤情况最重要的评估指数之一。多模式磁共振成像（MRI）扫描在神经胶质瘤预后OS时间的研究中起重要作用。为多模式MRI问题的OS时间预测提出了几种基于学习的方法。但是，这些方法通常在深度学习网络开始或结束时融合多模式信息，并且缺乏来自不同尺度的特征。此外，网络末尾的融合始终适应全球（例如，在全球平均池输出串联后完全连接）或与局部（例如，双线性池）的融合，这会失去与全球局部的局部信息。在本文中，我们提出了一种用于对脑肿瘤患者的多模式OS时间预测的新方法，该方法包含在不同尺度上引入的改进的非局部特征融合模块。我们的方法比当前最新方法获得了相对8.76％的改善（0.6989 vs. 0.6426的精度）。广泛的测试表明，我们的方法可以适应缺失方式的情况。该代码可在https://github.com/tangwen920812/mmmna-net上找到。

translated by 谷歌翻译

RPLHR-CT Dataset and Transformer Baseline for Volumetric Super-Resolution from CT Scans

Pengxin Yu , Haoyue Zhang , Han Kang , Wen Tang , Corey W. Arnold , Rongguo Zhang

分类：计算机视觉 | 机器学习

2022-06-13

在临床实践中，由于较短的获取时间和较低的存储成本，通常使用了平面分辨率低的各向异性体积医学图像。然而，粗分辨率可能导致医生或计算机辅助诊断算法的医学诊断困难。基于深度学习的体积超分辨率（SR）方法是改善分辨率的可行方法，其核心是卷积神经网络（CNN）。尽管进展最近，但这些方法受到卷积运算符的固有属性的限制，卷积运算符忽略内容相关性，无法有效地对远程依赖性进行建模。此外，大多数现有方法都使用伪配合的体积进行训练和评估，其中伪低分辨率（LR）体积是通过简单的高分辨率（HR）对应物的简单降解而产生的。但是，伪和现实LR之间的域间隙导致这些方法在实践中的性能不佳。在本文中，我们构建了第一个公共实用数据集RPLHR-CT作为体积SR的基准，并通过重新实现四种基于CNN的最先进的方法来提供基线结果。考虑到CNN的固有缺点，我们还提出了基于注意力机制的变压器体积超分辨率网络（TVSRN），完全与卷积分配。这是首次将纯变压器用于CT体积SR的研究。实验结果表明，TVSRN在PSNR和SSIM上的所有基准都显着胜过。此外，TVSRN方法在图像质量，参数数量和运行时间之间取得了更好的权衡。数据和代码可在https://github.com/smilenaxx/rplhr-ct上找到。

translated by 谷歌翻译

Transformer Lesion Tracker

Wen Tang , Han Kang , Haoyue Zhang , Pengxin Yu , Corey W. Arnold , Rongguo Zhang

分类：计算机视觉

2022-06-13

通过纵向病变跟踪评估病变进展和治疗反应在临床实践中起着至关重要的作用。当手动进行病变匹配时，该任务的自动化方法是由劳动力成本和时间消耗的促进的。以前的方法通常缺乏本地和全球信息的集成。在这项工作中，我们提出了一种基于变压器的方法，称为变压器病变跟踪器（TLT）。具体而言，我们设计了一个基于注意力的变压器（CAT），以捕获和组合全球和本地信息以增强特征提取。我们还开发了一个基于注册的解剖注意模块（RAAM），以向CAT介绍解剖信息，以便它可以专注于有用的特征知识。提出了一种稀疏选择策略（SSS），用于选择特征和减少变压器训练中的内存足迹。此外，我们使用全球回归来进一步提高模型性能。我们在公共数据集上进行实验，以显示我们方法的优势，并发现我们的模型性能使欧几里得中心的平均误差至少提高了至少14.3％（6mm vs. 7mm），而不是先进的ART（SOTA））。代码可在https://github.com/tangwen920812/tlt上找到。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

Lihua Fu , Haoyue Tian , Xiangping Bryce Zhai , Pan Gao , Xiaojiang Peng

分类：计算机视觉

2022-12-06

Semantic segmentation usually benefits from global contexts, fine localisation information, multi-scale features, etc. To advance Transformer-based segmenters with these aspects, we present a simple yet powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer has two critical contributions as following. First, it introduces a novel pyramid structured Transformer encoder which harvests global context and fine localisation features simultaneously. These features are concatenated and fed into a convolution layer for final per-pixel prediction. Second, IncepFormer integrates an Inception-like architecture with depth-wise convolutions, and a light-weight feed-forward module in each self-attention layer, efficiently obtaining rich local multi-scale object features. Extensive experiments on five benchmarks show that our IncepFormer is superior to state-of-the-art methods in both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on ADE20K which outperforms the existing best method by 1% while only costs half parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on Cityscapes dataset with 39.6M parameters. Code is available:github.com/shendu0321/IncepFormer.

translated by 谷歌翻译

Statistical Inference with Stochastic Gradient Algorithms

Jeffrey Negrea , Jun Yang , Haoyue Feng , Daniel M. Roy , Jonathan H. Huggins

分类：机器学习 | (统计)机器学习

2022-07-25

随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是，实际上，调整这些算法通常是使用启发式和反复试验而不是严格的，可概括的理论来完成的。为了解决理论和实践之间的这一差距，我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中，我们的结果表明，具有较大固定步长的迭代平均值可能会导致（局部）M-静态器的统计效率近似。在抽样环境中，我们的结果表明，通过适当的调整参数选择，限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制，对模型错误指定后验的调整或MLE的渐近分布；而幼稚的调整极限与这些都不相对应。此外，我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言，我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。

translated by 谷歌翻译

ControlBurn: Nonlinear Feature Selection with Sparse Tree Ensembles

Brian Liu , Miaolan Xie , Haoyue Yang , Madeleine Udell

分类： (统计)机器学习 | 机器学习

2022-07-08

ControlBurn是一个python软件包，可构建支持非线性特征选择和可解释的机器学习的特征 - 帕尔斯树合奏。该软件包中的算法首先构建了大型树的合奏，该算法优先考虑具有很少功能的基础函数，然后使用加权LASSO优化标准选择这些基础功能的功能 - SPARSE子集。该软件包包括可视化，以分析合奏选择的功能及其对预测的影响。因此，ControlBurn提供了树模型模型的准确性和灵活性以及稀疏的广义添加剂模型的解释性。 ControlBurn是可扩展和灵活的：例如，它可以使用温暖启动延续来计算具有数万个样本和数百个功能的数据集的正则化路径（任何数量选定功能的预测误差）。对于较大的数据集，运行时间在样本和功能的数量（最多到日志系数）中线性缩放，以及使用草图的包装支持加速。此外，ControlBurn框架可容纳功能成本，功能分组和$ \ ell_0 $的正规机构。该软件包是用户友好且开源的：其文档和源代码显示在https://pypi.org/project/controlburn/和https://github.com/udellgroup/controlburn/。

translated by 谷歌翻译

Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees with Continuous Features

Rahul Mazumder , Xiang Meng , Haoyue Wang

分类：机器学习

2022-06-23

决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中，我们考虑了学习最佳决策树的问题，这是一个组合优化问题，该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法，这可能不是最佳的。最近，人们对使用各种方法（例如，基于整数编程，动态编程）学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性，这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中，我们提出了一种基于分支机构（BNB）的新离散优化方法，以获得最佳决策树。与现有的定制方法不同，我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比，我们提出的算法Quant-BNB显示出显着的加速。

translated by 谷歌翻译

Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing

Haoyue Cheng , Zhaoyang Liu , Hang Zhou , Chen Qian , Wayne Wu , Limin Wang

分类：计算机视觉

2022-04-25

本文重点介绍了弱监督的视频视频解析任务，该任务旨在识别属于每种模式的所有事件并定位其时间界。此任务是具有挑战性的，因为只有表示视频事件的整体标签用于培训。但是，事件可能被标记，但不会出现在其中一种方式中，这导致了特定于模态的嘈杂标签问题。在这项工作中，我们提出了一种培训策略，以动态识别和删除特定于模式的嘈杂标签。它是由两个关键观察的动机：1）网络倾向于首先学习干净的样本； 2）标记的事件至少以一种方式出现。具体而言，我们将每个实例在每种模式中单独分别对所有实例的损失进行排序，然后根据模式内和模式间损耗之间的关系选择嘈杂的样本。此外，我们还通过计算置信度低于预设阈值的实例的比例来提出一种简单但有效的噪声比率估计方法。我们的方法对先前的艺术状态进行了大量改进（\ eg，从60.0 \％到63.8 \％\％在细分级视觉度量中），这证明了我们方法的有效性。代码和训练有素的模型可在\ url {https://github.com/mcg-nju/jomold}上公开获得。

translated by 谷歌翻译