智能论文笔记

Masked Sinogram Model with Transformer for ill-Posed Computed Tomography Reconstruction: a Preliminary Study

Zhengchun Liu , Rajkumar Kettimuthu , Ian Foster

分类：计算机视觉 | 机器学习

2022-09-03

计算机断层扫描（CT）是一种成像技术，其中以不同角度（称为投影或扫描）收集有关对象的信息。然后，通过解决反问题来产生显示切片的内部结构的横截面图像。受辐射剂量，投影角，产生的图像等某些因素的限制可能是嘈杂的或包含伪像的。受到《变形金刚在自然语言处理》中的成功的启发，这项初步研究的核心思想是将层析成像的投影视为单词令牌，而整个横截面（又称Sinogram）的整体扫描是在句子中作为句子。自然语言处理。然后，我们通过训练蒙版辛图模型（MSM）和微调MSM来探索基础模型的想法，以获取各种下游应用程序，包括数据集合限制（例如，光子预算）和数据驱动的解决方案，以近似于数据驱动的解决方案CT重建的逆问题。本研究中使用的模型和数据可在https://github.com/lzhengchun/tomotx上获得。

translated by 谷歌翻译

Self-Attention Generative Adversarial Network for Iterative Reconstruction of CT Images

Ruiwen Xing , Thomas Humphries , Dong Si

分类：计算机视觉

2021-12-23

计算机断层扫描（CT）使用从身体周围的传感器取出的X射线测量以产生人体的断层图像。如果X射线数据充分采样和高质量，则可以使用传统的重建算法;然而，诸如将剂量减少给患者的问题，或数据采集的几何限制可能导致低质量或不完整的数据。由于噪声和其他伪像，使用传统方法从这些数据重建的图像具有差的质量。本研究的目的是训练单个神经网络，从嘈杂或不完全CT扫描数据重建高质量CT图像，包括低剂量，稀疏视图和有限的角度场景。为了完成这项任务，我们将生成的对冲网络（GaN）作为信号训练，以与CT数据的迭代同步代数重建技术（SART）结合使用。网络包括自我关注块，以模拟数据中的远程依赖性。我们将我们的自我关注GaN进行CT图像重建，包括几种最先进的方法，包括去噪循环GaN，Circle GaN和总变化的校长算法。我们的方法被证明是可以相当的整体性能来圈出GaN，同时优于其他两种方法。

translated by 谷歌翻译

Projection-Domain Self-Supervision for Volumetric Helical CT Reconstruction

Onni Kosomaa , Samuli Laine , Tero Karras , Miika Aittala , Jaakko Lehtinen

分类：计算机视觉 | 机器学习 | 神经与进化计算

2022-12-14

We propose a deep learning method for three-dimensional reconstruction in low-dose helical cone-beam computed tomography. We reconstruct the volume directly, i.e., not from 2D slices, guaranteeing consistency along all axes. In a crucial step beyond prior work, we train our model in a self-supervised manner in the projection domain using noisy 2D projection data, without relying on 3D reference data or the output of a reference reconstruction method. This means the fidelity of our results is not limited by the quality and availability of such data. We evaluate our method on real helical cone-beam projections and simulated phantoms. Our reconstructions are sharper and less noisy than those of previous methods, and several decibels better in quantitative PSNR measurements. When applied to full-dose data, our method produces high-quality results orders of magnitude faster than iterative techniques.

translated by 谷歌翻译

MIST-net: Multi-domain Integrative Swin Transformer network for Sparse-View CT Reconstruction

Jiayi Pan , Weiwen Wu , Zhifan Gao , Heye Zhang

分类：计算机视觉 | 机器学习

2021-11-28

基于深入的学习的断层摄影图像重建一直在这些年来引起了很多关注。稀疏视图数据重建是典型的未确定逆问题之一，如何从数十个投影重建高质量CT图像仍然是实践中的挑战。为了解决这一挑战，在本文中，我们提出了一个多域一体化的Swin变压器网络（MIST-NET）。首先，使用灵活的网络架构，所提出的雾网掺入了来自数据，残差数据，图像和剩余图像的豪华域特征。这里，残差数据和残差 - 图像域网组件可以被认为是数据一致性模块，以消除残差数据和图像域中的插值误差，然后进一步保持图像细节。其次，为了检测图像特征和进一步保护图像边缘，将培训的Sobel滤波器结合到网络中以提高编码解码能力。第三，随着经典的Swin变压器，我们进一步设计了高质量的重建变压器（即，REFFORMER）来提高重建性能。 REFFORMER继承了SWIN变压器的功率以捕获重建图像的全局和本地特征。具有48种视图的数值数据集的实验证明了我们所提出的雾网提供更高的重建图像质量，具有小的特征恢复和边缘保护，而不是其他竞争对手，包括高级展开网络。定量结果表明，我们的雾网也获得了最佳性能。训练有素的网络被转移到真实的心脏CT数据集，48次视图，重建结果进一步验证了我们的雾网的优势，进一步证明了临床应用中雾的良好稳健性。

translated by 谷歌翻译

Masked Autoencoders Are Scalable Vision Learners

Kaiming He , Xinlei Chen , Saining Xie , Yanghao Li , Piotr Dollár , Ross Girshick

分类：计算机视觉

2021-11-11

本文显示屏蔽的自动化器（MAE）是可扩展的自我监督学习者，用于计算机愿景。我们的MAE方法很简单：我们掩盖输入图像的随机补丁并重建缺失像素。它基于两个核心设计。首先，我们开发一个不对称的编码器解码器架构，其中编码器仅在掩码的可见子集（没有掩码令牌）上，以及重量解码器，该重量解码器从潜像和掩码令牌重建原始图像。其次，我们发现掩蔽了高比例的输入图像，例如，75％，产生非凡和有意义的自我监督任务。耦合这两种设计使我们能够有效且有效地培训大型模型：我们加速培训（3倍或更多）并提高准确性。我们可扩展的方法允许学习概括的高容量模型：例如，Vanilla Vit-Maxim模型在使用Imagenet-1K数据的方法中实现最佳准确性（87.8％）。下游任务中的转移性能优于监督预培训并显示有前途的缩放行为。

translated by 谷歌翻译

WNet: A data-driven dual-domain denoising model for sparse-view computed tomography with a trainable reconstruction layer

Theodor Cheslerean-Boghiu , Felix C. Hofmann , Manuel Schultheiß , Franz Pfeiffer , Daniela Pfeiffer , Tobias Lasser

分类：计算机视觉 | 机器学习

2022-07-01

基于深度学习的解决方案正在为各种应用程序成功实施。最值得注意的是，临床用例已增加了兴趣，并且是过去几年提出的一些尖端数据驱动算法背后的主要驱动力。对于诸如稀疏视图重建等应用，其中测量数据的量很少，以使获取时间短而且辐射剂量较低，降低了串联的伪像，促使数据驱动的DeNoINEDENO算法的开发，其主要目标是获得获得的主要目标。只有一个全扫描数据的子集诊断可行的图像。我们提出了WNET，这是一个数据驱动的双域denoising模型，其中包含用于稀疏视图deNoising的可训练的重建层。两个编码器 - 模型网络同时在正式和重建域中执行deno，而实现过滤后的反向投影算法的第三层则夹在前两种之间，并照顾重建操作。我们研究了该网络在稀疏视图胸部CT扫描上的性能，并突出显示了比更传统的固定层具有可训练的重建层的额外好处。我们在两个临床相关的数据集上训练和测试我们的网络，并将获得的结果与三种不同类型的稀疏视图CT CT DeNoisis和重建算法进行了比较。

translated by 谷歌翻译

Sparse-View CT Reconstruction using Recurrent Stacked Back Projection

Wenrui Li , Gregery T. Buzzard , Charles A. Bouman

分类：计算机视觉

2021-12-09

由于成本，采集时间或剂量的限制，稀疏视图CT重建在广泛的应用中是重要的。然而，传统的直接重建方法如滤波后投影（FBP）导致子奈奎斯特政权中的低质量重建。相比之下，深度神经网络（DNN）可以从稀疏和嘈杂的数据产生高质量的重建，例如，通过FBP重建的后处理，作为基于模型的迭代重建（MBIR），尽管计算成本更高。在本文中，我们介绍了一种称为反复间隔的DNN方法，称为反复化堆叠的背部投影（RSBP），其使用顺序获取的单个视图的反投影作为反复卷积LSTM网络的输入。 SBP结构维护SinoGram中的所有信息，而经常性处理利用相邻视图之间的相关性并在每个新视图后产生更新的重建。我们在模拟和实际数据上培训我们的网络上的网络和测试，并证明RSBP优于FBP图像和基本MBIR的DNN后处理，其计算成本低于MBIR。

translated by 谷歌翻译

SiT: Self-supervised vIsion Transformer

Sara Atito , Muhammad Awais , Josef Kittler

分类：计算机视觉 | 机器学习

2021-04-08

由于其最近在减少监督学习的差距方面取得了成功，自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理（NLP）中，自我监督的学习和变形金刚已经是选择的方法。最近的文献表明，变压器也在计算机愿景中越来越受欢迎。到目前为止，当使用大规模监督数据或某种共同监督时，视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化，变化最小。在这项工作中，我们调查自我监督学习的预用图像/视觉变压器，然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器（坐在）并讨论了几种自我监督的培训机制，以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器，并无缝地使用多个自我监控任务。我们表明，可以在小规模数据集上进行预训练，以便在小型数据集上进行下游分类任务，包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好，很少有镜头学习，并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练，FineTuning和评估代码将在以下：https://github.com/sara-ahmed/sit。

translated by 谷歌翻译

SNAF: Sparse-view CBCT Reconstruction with Neural Attenuation Fields

Yu Fang , Lanzhuju Mei , Changjian Li , Yuan Liu , Wenping Wang , Zhiming Cui , Dinggang Shen

分类：计算机视觉

2022-11-30

Cone beam computed tomography (CBCT) has been widely used in clinical practice, especially in dental clinics, while the radiation dose of X-rays when capturing has been a long concern in CBCT imaging. Several research works have been proposed to reconstruct high-quality CBCT images from sparse-view 2D projections, but the current state-of-the-arts suffer from artifacts and the lack of fine details. In this paper, we propose SNAF for sparse-view CBCT reconstruction by learning the neural attenuation fields, where we have invented a novel view augmentation strategy to overcome the challenges introduced by insufficient data from sparse input views. Our approach achieves superior performance in terms of high reconstruction quality (30+ PSNR) with only 20 input views (25 times fewer than clinical collections), which outperforms the state-of-the-arts. We have further conducted comprehensive experiments and ablation analysis to validate the effectiveness of our approach.

translated by 谷歌翻译

Is Deep Image Prior in Need of a Good Education?

Riccardo Barbano , Johannes Leuschner , Maximilian Schmidt , Alexander Denker , Andreas Hauptmann , Peter Maaß , Bangti Jin

分类：计算机视觉

2021-11-23

最近在图像重建之前被引入了深度图像。它表示要作为深度卷积神经网络的输出恢复的图像，并学习网络的参数，使得输出适合损坏的观察。尽管它令人印象深刻的重建属性，但与学到的学习或传统的重建技术相比，该方法缓慢。我们的工作开发了一个两阶段学习范式来解决计算挑战：（i）我们在合成数据集上执行网络的监督预测;（ii）我们微调网络的参数，以适应目标重建。我们展示了预先预测的预测，从实际测量的生物样本的实际微型计算机断层扫描数据中提高了随后的重建。代码和附加实验材料可在https://educateddip.github.io/docs.educated_deep_image_prior/处获得。

translated by 谷歌翻译

fairDMS: Rapid Model Training by Data and Model Reuse

Ahsan Ali , Hemant Sharma , Rajkumar Kettimuthu , Peter Kenesei , Dennis Trujillo , Antonino Miceli , Ian Foster , Ryan Coffee , Jana Thayer , Zhengchun Liu

分类：机器学习

2022-04-20

从Linac Coohent Light Source（LCLS-II）和高级光子源升级（APS-U）等工具产生的数据中迅速提取可行的信息，由于高（最高（最高为TB/S）数据速率）变得越来越具有挑战性。常规的基于物理的信息检索方法很难快速检测有趣的事件，以便及时关注罕见事件或纠正错误。机器学习〜（ML）学习廉价替代分类器的方法是有希望的替代方法，但是当仪器或样品变化导致ML性能降解时可能会灾难性地失败。为了克服此类困难，我们提出了一个新的数据存储和ML模型培训体系结构，旨在组织大量的数据和模型，以便在检测到模型降解时，可以快速查询先验模型和/或数据。针对新条件进行了微调。我们表明，与当前最新的训练速度提高了200倍和92X端到端模型更新时间的速度相比，我们的方法最多可以达到100倍数据标记的速度。

translated by 谷歌翻译

Single-Pixel Image Reconstruction Based on Block Compressive Sensing and Deep Learning

Stephen L. H. Lau , Edwin K. P. Chong

分类：计算机视觉

2022-07-14

单像素成像（SPI）是一种新型成像技术，其工作原理基于压缩感（CS）理论。在SPI中，数据是通过一系列压缩测量获得的，并重建了相应的图像。通常，重建算法（例如基础追求）依赖于图像中的稀疏性假设。但是，深度学习的最新进展发现了其在重建CS图像中的用途。尽管在模拟中显示出令人鼓舞的结果，但通常不清楚如何在实际的SPI设置中实现这种算法。在本文中，我们证明了对SPI图像的重建以及块压缩感（BCS）的重建。我们还提出了一个基于卷积神经网络的新型重建模型，该模型优于其他竞争性CS重建算法。此外，通过将BCS合并到我们的深度学习模型中，我们能够重建以上图像大小以上的任何大小的图像。此外，我们表明我们的模型能够重建从SPI设置获得的图像，同时接受自然图像进行训练，这可能与SPI图像大不相同。这为CS重建来自各个领域的图像重建的深度学习模型的可行性打开了机会。

translated by 谷歌翻译

Swin MAE: Masked Autoencoders for Small Datasets

Zi'an Xu , Yin Dai , Fayu Liu , Weibing Chen , Yue Liu , Lifu Shi , Sheng Liu , Yuhang Zhou

分类：计算机视觉 | 人工智能

2022-12-28

The development of deep learning models in medical image analysis is majorly limited by the lack of large-sized and well-annotated datasets. Unsupervised learning does not require labels and is more suitable for solving medical image analysis problems. However, most of the current unsupervised learning methods need to be applied to large datasets. To make unsupervised learning applicable to small datasets, we proposed Swin MAE, which is a masked autoencoder with Swin Transformer as its backbone. Even on a dataset of only a few thousand medical images and without using any pre-trained models, Swin MAE is still able to learn useful semantic features purely from images. It can equal or even slightly outperform the supervised model obtained by Swin Transformer trained on ImageNet in terms of the transfer learning results of downstream tasks. The code will be publicly available soon.

translated by 谷歌翻译

SLMT-Net: A Self-supervised Learning based Multi-scale Transformer Network for Cross-Modality MR Image Synthesis

Yonghao Li , Tao Zhou , Kelei He , Yi Zhou , Dinggang Shen

分类：计算机视觉

2022-12-02

Cross-modality magnetic resonance (MR) image synthesis aims to produce missing modalities from existing ones. Currently, several methods based on deep neural networks have been developed using both source- and target-modalities in a supervised learning manner. However, it remains challenging to obtain a large amount of completely paired multi-modal training data, which inhibits the effectiveness of existing methods. In this paper, we propose a novel Self-supervised Learning-based Multi-scale Transformer Network (SLMT-Net) for cross-modality MR image synthesis, consisting of two stages, \ie, a pre-training stage and a fine-tuning stage. During the pre-training stage, we propose an Edge-preserving Masked AutoEncoder (Edge-MAE), which preserves the contextual and edge information by simultaneously conducting the image reconstruction and the edge generation. Besides, a patch-wise loss is proposed to treat the input patches differently regarding their reconstruction difficulty, by measuring the difference between the reconstructed image and the ground-truth. In this case, our Edge-MAE can fully leverage a large amount of unpaired multi-modal data to learn effective feature representations. During the fine-tuning stage, we present a Multi-scale Transformer U-Net (MT-UNet) to synthesize the target-modality images, in which a Dual-scale Selective Fusion (DSF) module is proposed to fully integrate multi-scale features extracted from the encoder of the pre-trained Edge-MAE. Moreover, we use the pre-trained encoder as a feature consistency module to measure the difference between high-level features of the synthesized image and the ground truth one. Experimental results show the effectiveness of the proposed SLMT-Net, and our model can reliably synthesize high-quality images when the training set is partially unpaired. Our code will be publicly available at https://github.com/lyhkevin/SLMT-Net.

translated by 谷歌翻译

CodEx: A Modular Framework for Joint Temporal De-blurring and Tomographic Reconstruction

Soumendu Majee , Selin Aslan , Charles A. Bouman , Doga Gursoy

分类：计算机视觉

2021-11-11

在许多计算机断层扫描（CT）成像应用程序中，重要的是快速收集来自移动或随时间变化的对象的数据。通常假设断层图像是逐步拍摄的，其中物体旋转到每个期望的角度，并且拍摄视图。然而，阶梯和射击采集缓慢并且可以浪费光子，因此在实践中，在收集数据的同时连续旋转物体的情况下进行飞行扫描。然而，这可能导致运动模糊的视图，从而与严重运动伪影进行重建。在本文中，我们介绍了Codex，一个模块化框架，用于联合去模糊和断层切断重建，可以有效地颠倒在扫描中引入的运动模糊。该方法是具有新型非凸贝叶斯重建算法的新型采集方法的协同组合。 Codex通过使用重建算法的已知二进制代码编码采集而作证，然后重转反转。使用良好选择的二进制代码进行编码测量可以提高反转过程的准确性。 Codex重建方法使用乘法器（ADMM）的交替方向方法将逆问题分成迭代解训和重建子问题，使重建实用实现。我们对模拟和实验数据的重建结果显示了我们方法的有效性。

translated by 谷歌翻译

Masked Autoencoders that Listen

Po-Yao , Huang , Hu Xu , Juncheng Li , Alexei Baevski , Michael Auli , Wojciech Galuba , Florian Metze , Christoph Feichtenhofer

分类：人工智能 | 机器学习

2022-07-13

本文研究了基于图像的蒙版自动编码器（MAE）的简单扩展，以从音频谱图中学习自我监督的表示。在MAE中的变压器编码器编码器设计之后，我们的Audio-MAE首先编码具有较高遮罩比的音频谱图斑块，仅通过编码器层馈入非掩盖令牌。然后，解码器重新订购并解码编码的上下文，并用掩码令牌填充，以重建输入频谱图。我们发现将局部窗户注意力纳入解码器是有益的，因为音频谱图在当地时间和频带中高度相关。然后，我们在目标数据集上以较低的掩模比微调编码器。从经验上讲，音频MAE在六个音频和语音分类任务上设定了新的最先进的性能，超过了使用外部监督预训练的其他最新模型。代码和模型将在https://github.com/facebookresearch/audiomae上。

translated by 谷歌翻译

NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction

Ruyi Zha , Yanhao Zhang , Hongdong Li

分类：计算机视觉

2022-09-29

本文提出了一种新颖而快速的自我监督解决方案，用于稀疏视图CBCT重建（锥束计算机断层扫描），不需要外部训练数据。具体而言，所需的衰减系数表示为3D空间坐标的连续函数，该功能由完全连接的深神经网络参数化。我们可以离散地综合预测并通过最大程度地减少真实和合成预测之间的误差来培训网络。采用基于学习的编码器需要哈希编码来帮助网络捕获高频细节。该编码器在具有更高的性能和效率方面优于常用的频域编码器，因为它利用了人体器官的平稳性和稀疏性。已经在人体器官和幻影数据集上进行了实验。所提出的方法可实现最先进的准确性，并花费相当短的计算时间。

translated by 谷歌翻译

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Chaoning Zhang , Chenshuang Zhang , Junha Song , John Seon Keun Yi , Kang Zhang , In So Kweon

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-30

蒙面的自动编码器是可扩展的视觉学习者，因为Mae \ Cite {He2022masked}的标题表明，视觉中的自我监督学习（SSL）可能会采用与NLP中类似的轨迹。具体而言，具有蒙版预测（例如BERT）的生成借口任务已成为NLP中的事实上的标准SSL实践。相比之下，他们的歧视性对应物（例如对比度学习）掩埋了视力中的生成方法的早期尝试；但是，蒙版图像建模的成功已恢复了屏蔽自动编码器（过去通常被称为DeNosing AutoCoder）。作为在NLP中与Bert弥合差距的一个里程碑，蒙面自动编码器吸引了对SSL在视觉及其他方面的前所未有的关注。这项工作对蒙面自动编码器进行了全面的调查，以洞悉SSL的有希望的方向。作为第一个使用蒙版自动编码器审查SSL的人，这项工作通过讨论其历史发展，最新进度以及对不同应用的影响，重点介绍其在视觉中的应用。

translated by 谷歌翻译

Near-Exact Recovery for Tomographic Inverse Problems via Deep Learning

Martin Genzel , Ingo Gühring , Jan Macdonald , Maximilian März

分类：机器学习

2022-06-14

这项工作与科学机器学习中的以下基本问题有关：基于深度学习的方法是否可以解决无噪声逆问题到近乎完美的准确性？首次提供了积极的证据，重点是原型计算机断层扫描（CT）设置。我们证明，迭代的端到端网络方案可以实现接近数值精度的重建，与经典的压缩传感策略相当。我们的结果是基于我们对最近的AAPM DL-SPARSE-VIEW CT挑战的获胜提交的基础。它的目标是确定用数据驱动技术解决稀疏视图CT逆问题的最新技术。挑战设置的特定困难是，参与者的精确前进模型仍然未知。因此，我们方法的关键特征是最初在数据驱动的校准步骤中估算未知的粉丝几何形状。除了对我们的方法的深入分析外，我们还证明了其在开放式现实世界数据集Lodopab CT上的最先进性能。

translated by 谷歌翻译

Statistical Foundation Behind Machine Learning and Its Impact on Computer Vision

Lei Zhang , Heung-Yeung Shum

分类：计算机视觉

2022-09-06

本文重新讨论了统计学习中统一融合的原则，讨论了它是机器学习背后的基础，并试图更好地了解当前深度学习算法正在解决的基本问题。讨论以计算机视觉作为机器学习中的示例领域，表明，利用越来越大规模数据进行预训练的最新研究趋势在很大程度上是为了减少实际上可探索的经验损失与最终所需的差异，但最终所需的差异可悲的预期损失。此外，本文提出了一些未来的研究方向，可以预测数据的持续增加，并认为通过结合结构和知识，需要更多的基础研究，以鲁棒性，可解释性和机器学习的推理能力。

translated by 谷歌翻译