智能论文笔记

Efficient and Accurate Quantized Image Super-Resolution on Mobile NPUs, Mobile AI & AIM 2022 challenge: Report

Andrey Ignatov , Radu Timofte , Maurizio Denna , Abdel Younes , Ganzorig Gankhuyag , Jingang Huh , Myeong Kyun Kim , Kihwan Yoon , Hyeon-Cheol Moon , Seungho Lee

分类：计算机视觉

2022-11-07

Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.

translated by 谷歌翻译

NVIDIA FLARE: Federated Learning from Simulation to Real-World

Holger R. Roth , Yan Cheng , Yuhong Wen , Isaac Yang , Ziyue Xu , Yuan-Ting Hsieh , Kristopher Kersten , Ahmed Harouni , Can Zhao , Kevin Lu

分类：机器学习 | 人工智能 | 计算机视觉

2022-10-24

Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.

translated by 谷歌翻译

Unsupervised Tissue Segmentation via Deep Constrained Gaussian Network

Yang Nan , Peng Tang , Guyue Zhang , Caihong Zeng , Zhihong Liu , Zhifan Gao , Heye Zhang , Guang Yang

分类：计算机视觉

2022-08-04

组织分割是病理检查的主要主机，而手动描述则过于繁重。为了协助这一耗时和主观的手动步骤，研究人员已经设计了自动在病理图像中分割结构的方法。最近，自动化机器和基于深度学习的方法主导了组织分割研究。但是，大多数基于机器和深度学习的方法都是使用大量培训样本进行监督和开发的，其中PixelWise注释很昂贵，有时无法获得。本文通过将端到端的深层混合模型与有限的指标集成以获取准确的语义组织分割，从而引入了一种新颖的无监督学习范式。该约束旨在在计算优化函数期间集中深层混合模型的组成部分。这样做，可以大大减少当前无监督学习方法中常见的多余或空的班级问题。通过对公共和内部数据集的验证，拟议的深度约束高斯网络在组织细分方面取得了更好的性能（Wilcoxon签名级测试）更好的性能（平均骰子得分分别为0.737和0.735），具有改善与其他现有的无监督分割方法相比。此外，该方法与完全监督的U-NET相比，提出的方法具有相似的性能（P值> 0.05）。

translated by 谷歌翻译

Enhancing Image Rescaling using Dual Latent Variables in Invertible Neural Network

Min Zhang , Zhihong Pan , Xin Zhou , C. -C. Jay Kuo

分类：计算机视觉

2022-07-24

通过将自然图像的复杂分布近似通过可逆神经网络（INN）近似于潜在空间中的简单拖延分布，已成功地用于生成图像超分辨率（SR）。这些模型可以使用潜在空间中的随机采样点从一个低分辨率（LR）输入中生成多个逼真的SR图像，从而模拟图像升级的不足的性质，其中多个高分辨率（HR）图像对应于同一LR。最近，INN中的可逆过程也通过双向图像重新缩放模型（如IRN和HCFLOW）成功使用，以优化降尺度和逆向上尺度的关节，从而显着改善了高尺度的图像质量。尽管它们也被优化用于图像降尺度，但图像降尺度的不良性质可以根据不同的插值内核和重新采样方法将一个HR图像缩小到多个LR图像。除了代表图像放大的不确定性的原始缩小潜在变量外，还引入了图像降压过程中的模型变化。这种双重可变变量增强功能适用于不同的图像重新缩放模型，并且在广泛的实验中显示，它可以始终如一地提高图像升级精度，而无需牺牲缩小的LR图像中的图像质量。它还显示可有效增强基于Inn的其他模型，用于图像恢复应用（例如图像隐藏）。

translated by 谷歌翻译

Rethinking the Reference-based Distinctive Image Captioning

Yangjun Mao , Long Chen , Zhihong Jiang , Dong Zhang , Zhimeng Zhang , Jian Shao , Jun Xiao

分类：计算机视觉

2022-07-22

在过去的几年中，引起了独特的图像字幕（DIC）（DIC） - 生成独特的标题来描述目标图像的独特细节。最近的DIC工作建议通过将目标图像与一组语义相似的参考图像（即基于参考的DIC（REF-DIC））进行比较来生成独特的字幕。它的目的是使生成的字幕可以分开目标图像和参考图像。不幸的是，现有参考作品使用的参考图像易于区分：这些参考图像仅类似于场景级别的目标图像，并且几乎没有常见的对象，因此，即使不考虑该模型，Ref-DIC模型也可以微不足道地生成独特的字幕参考图像。为了确保Ref-DIC模型真正了解目标图像中的唯一对象（或属性），我们首先提出了两个新的Ref-DIC基准。具体而言，我们设计了一个两阶段的匹配机制，该机制严格控制对象 - /属性级别的目标和参考图像之间的相似性（相对于场景级别）。其次，为了产生独特的标题，我们开发了一个强大的基于变压器的ref-DIC基线，称为传播。它不仅从目标图像中提取视觉特征，而且还编码目标和参考图像中对象之间的差异。最后，为了获得更值得信赖的基准测试，我们提出了一个新的评估度量指标，名为Ref-DIC的Discider，评估生成的字幕的准确性和独特性。实验结果表明，我们的传统可以产生独特的标题。此外，它在不同指标上的两个新基准测试中的几个最先进的模型都优于多种最先进的模型。

translated by 谷歌翻译

INFWIDE: Image and Feature Space Wiener Deconvolution Network for Non-blind Image Deblurring in Low-Light Conditions

Zhihong Zhang , Yuxiao Cheng , Jinli Suo , Liheng Bian , Qionghai Dai

分类：计算机视觉

2022-07-17

在弱光环境下，手持式摄影在长时间的曝光设置下遭受了严重的相机震动。尽管现有的Deblurry算法在暴露良好的模糊图像上表现出了令人鼓舞的性能，但它们仍然无法应对低光快照。在实用的低光脱毛中，复杂的噪声和饱和区是两个主导挑战。在这项工作中，我们提出了一种称为图像的新型非盲脱毛方法，并具有特征空间Wiener Deonervolution网络（Infwide），以系统地解决这些问题。在算法设计方面，Infwide提出了一个两分支的架构，该体系结构明确消除了噪声并幻觉，使图像空间中的饱和区域抑制了特征空间中的响起文物，并将两个互补输出与一个微妙的多尺度融合网络集成在一起高质量的夜间照片浮雕。为了进行有效的网络培训，我们设计了一组损失功能，集成了前向成像模型和向后重建，以形成近环的正则化，以确保深神经网络的良好收敛性。此外，为了优化Infwide在实际弱光条件下的适用性，采用基于物理过程的低光噪声模型来合成现实的嘈杂夜间照片进行模型训练。利用传统的Wiener Deonervolution算法的身体驱动的特征并引起了深层神经网络的表示能力，Infwide可以恢复细节，同时抑制在脱毛期间的不愉快的人工制品。关于合成数据和实际数据的广泛实验证明了所提出的方法的出色性能。

translated by 谷歌翻译

Camera Adaptation for Fundus-Image-Based CVD Risk Estimation

Zhihong Lin , Danli Shi , Donghao Zhang , Xianwen Shang , Mingguang He , Zongyuan Ge

分类：计算机视觉

2022-06-18

最近的研究验证了心血管疾病（CVD）风险与视网膜眼底图像之间的关联。结合深度学习（DL）和便携式底面摄像机将在各种情况下实现CVD风险估计并改善医疗保健民主化。但是，仍然有重大问题要解决。首要问题最重要的是研究材料数据库与生产环境中样本之间的不同摄像头差异。大多数准备进行研究的高质量视网膜图数据库都是从高端底面摄像机中收集的，并且不同摄像机之间存在显着的域差异。为了充分探索域差异问题，我们首先收集了一个配对（FCP）的数据集，该数据集包含由高端TopCon视网膜摄像头捕获的配对底面图像和同一患者的低端Mediwork Portable fellus摄像头。然后，我们提出了一个跨外观特征对齐预训练方案和一个自发注意的摄像头适配器模块，以提高模型的鲁棒性。交叉效力特征对齐训练鼓励模型从同一患者的左右眼底图像中学习常识，并改善模型的概括。同时，设备适应模块学习了从目标域到源域的特征转换。我们对英国生物银行数据库和我们的FCP数据进行了全面的实验。实验结果表明，通过我们提出的方法，提高了CVD风险回归准确性和两个摄像头的结果一致性。该代码可在此处找到：\ url {https://github.com/linzhlalala/cvd-risk-lasike-base--on-retinal-fundus-images-images}

translated by 谷歌翻译

Two-level Graph Neural Network

Xing Ai , Chengyu Sun , Zhihong Zhang , Edwin R Hancock

分类：机器学习 | 人工智能

2022-01-03

图表神经网络（GNNS）最近提出了用于处理图形结构数据的神经网络结构。由于他们所采用的邻国聚合策略，现有的GNNS专注于捕获节点级信息并忽略高级信息。因此，现有的GNN受到本地置换不变性（LPI）问题引起的代表性限制。为了克服这些限制并丰富GNN捕获的特征，我们提出了一种新的GNN框架，称为两级GNN（TL-GNN）。这与节点级信息合并子图级信息。此外，我们提供了对LPI问题的数学分析，这表明子图级信息有利于克服与LPI相关的问题。还提出了一种基于动态编程算法的子图计数方法，并且该具有时间复杂度是O（n ^ 3），n是图的节点的数量。实验表明，TL-GNN优于现有的GNN，实现了最先进的性能。

translated by 谷歌翻译

Medical Visual Question Answering: A Survey

Zhihong Lin , Donghao Zhang , Qingyi Tac , Danli Shi , Gholamreza Haffari , Qi Wu , Mingguang He , Zongyuan Ge

分类：计算机视觉 | 人工智能

2021-11-19

医学视觉问题应答（VQA）是医疗人工智能和流行的VQA挑战的组合。鉴于医学形象和在自然语言中的临床相关问题，预计医疗VQA系统将预测符号和令人信服的答案。虽然一般域VQA已被广泛研究，但医疗VQA仍然需要特定的调查和探索，因为它的任务特征是。在本调查的第一部分，我们涵盖并讨论了关于数据源，数据数量和任务功能的公开可用的医疗VQA数据集。在第二部分中，我们审查了医疗VQA任务中使用的方法。在最后，我们分析了该领域的一些有效的挑战，并讨论了未来的研究方向。

translated by 谷歌翻译

Towards a Better Understanding Human Reading Comprehension with Brain Signals

Ziyi Ye , Xiaohui Xie , Yiqun Liu , Zhihong Wang , Xuesong Chen , Min Zhang , Shaoping Ma

分类：人工智能

2021-08-03

阅读理解是一个复杂的认知过程，涉及许多人类大脑活动。大量作品研究了在信息检索相关方案中阅读理解的模式和注意力分配。但是，关于阅读理解过程中人脑中发生的事情以及这些认知活动如何影响信息检索过程，知之甚少。此外，随着脑成像技术（例如脑电图（EEG））的进步，几乎可以实时收集大脑信号，并探索是否可以用作反馈来促进信息获取性能。在本文中，我们仔细设计了一项基于实验室的用户研究，以调查阅读理解过程中的大脑活动。我们的发现表明，神经反应随着不同类型的阅读内容而变化，即可以满足用户信息需求和无法无法满足的内容的内容。我们建议在阅读理解过程中以微观时间量表以微观时间量表来支持各种认知活动，例如认知负载，语义主题理解和推论处理。从这些发现中，我们说明了一些有关信息检索任务的见解，例如排名模型构建和界面设计。此外，我们建议有可能检测主动现实世界系统的阅读理解状态。为此，我们为基于脑电图的阅读理解建模（UERCM）提出了一个统一的框架。为了验证其有效性，我们基于脑电图特征进行了大量的实验，以进行两项阅读理解任务：回答句子分类和回答提取。结果表明，通过大脑信号提高两个任务的性能是可行的。

translated by 谷歌翻译