智能论文笔记

Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation

Boah Kim , Yujin Oh , Jong Chul Ye

分类：计算机视觉 | 机器学习

2022-09-29

医学图像中的血管分割是诊断血管疾病和治疗计划的重要任务之一。尽管已经对基于学习的细分方法进行了广泛的研究，但在有监督的方法中需要大量的基础真实标签，并且令人困惑的背景结构使神经网络难以以无监督的方式分割血管。为了解决这个问题，在这里，我们介绍了一种新型的扩散对抗表示学习（DARL）模型，该模型利用具有对抗性学习的降解扩散概率模型，并将其应用于血管分割。特别是，对于自我监管的血管分割，Darl使用扩散模块学习背景图像分布，该模块使生成模块有效地提供了容器表示。同样，通过基于提议的可切换在空间自适应的否定规范化的对抗学习，我们的模型估计了合成的假船只图像以及船舶分割掩码，这进一步使模型捕获了辅助血管的语义信息。一旦训练了提出的模型，该模型就会生成一个步骤，并可以应用于冠状动脉血管造影和视网膜图像的一般血管结构分割。各种数据集的实验结果表明，我们的方法在船舶分割中的现有无监督和自我监督方法的表现显着胜过。

translated by 谷歌翻译

DiffuseMorph: Unsupervised Deformable Image Registration Along Continuous Trajectory Using Diffusion Models

Boah Kim , Inhwa Han , Jong Chul Ye

分类：计算机视觉 | 机器学习

2021-12-09

可变形图像配准是医学成像和计算机视觉的基本任务之一。经典登记算法通常依赖于迭代优化方法来提供准确的变形，这需要高计算成本。虽然已经开发了许多基于深度学习的方法来进行快速图像登记，但估计具有较少拓扑折叠问题的变形场仍然挑战。此外，这些方法仅使登记到单个固定图像，并且不可能在移动和固定图像之间获得连续变化的登记结果。为了解决这个问题，我们介绍了一种新的扩散模型的概率图像配准方法，称为DemageUseMorph。具体而言，我们的模型了解移动和固定图像之间变形的得分函数。类似于现有的扩散模型，DiffUsemorph不仅通过反向扩散过程提供合成变形图像，而且还使运动图像的各种水平与潜在的空间一起。在2D面部表达图像和3D脑图像登记任务上的实验结果表明，我们的方法可以通过拓扑保存能力提供灵活和准确的变形。

translated by 谷歌翻译

RePaint: Inpainting using Denoising Diffusion Probabilistic Models

Andreas Lugmayr , Martin Danelljan , Andres Romero , Fisher Yu , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-01-24

自由格式介绍是在任意二进制掩码指定的区域中向图像中添加新内容的任务。大多数现有方法训练了一定的面具分布，这将其概括能力限制为看不见的掩模类型。此外，通过像素和知觉损失的训练通常会导致对缺失区域的简单质地扩展，而不是语义上有意义的一代。在这项工作中，我们提出重新启动：基于deno的扩散概率模型（DDPM）的内部介入方法，甚至适用于极端掩模。我们采用预定的无条件DDPM作为生成先验。为了调节生成过程，我们仅通过使用给定的图像信息对未掩盖的区域进行采样来改变反向扩散迭代。由于该技术不会修改或调节原始DDPM网络本身，因此该模型可为任何填充形式产生高质量和不同的输出图像。我们使用标准面具和极端口罩验证面部和通用图像的方法。重新粉刷优于最先进的自动回归，而GAN的方法至少在六个面具分布中进行了五个。 github存储库：git.io/repaint

translated by 谷歌翻译

Semantic Image Synthesis via Diffusion Models

Weilun Wang , Jianmin Bao , Wengang Zhou , Dongdong Chen , Dong Chen , Lu Yuan , Houqiang Li

分类：计算机视觉

2022-06-30

与生成的对抗网（GAN）相比，降级扩散概率模型（DDPM）在各种图像生成任务中取得了显着成功。关于语义图像综合的最新工作主要遵循\ emph {de exto}基于gan的方法，这可能导致生成图像的质量或多样性不令人满意。在本文中，我们提出了一个基于DDPM的新型框架，用于语义图像合成。与先前的条件扩散模型不同，将语义布局和嘈杂的图像作为输入为U-NET结构，该结构可能无法完全利用输入语义掩码中的信息，我们的框架处理语义布局和嘈杂的图像不同。它将噪声图像馈送到U-NET结构的编码器时，而语义布局通过多层空间自适应归一化操作符将语义布局馈送到解码器。为了进一步提高语义图像合成中的发电质量和语义解释性，我们介绍了无分类器的指导采样策略，该策略承认采样过程的无条件模型的得分。在三个基准数据集上进行的广泛实验证明了我们提出的方法的有效性，从而在忠诚度（FID）和多样性〜（LPIPS）方面实现了最先进的性能。

translated by 谷歌翻译

Diffusion Models in Vision: A Survey

Florinel-Alin Croitoru , Vlad Hondru , Radu Tudor Ionescu , Mubarak Shah

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-10

DeNoising扩散模型代表了计算机视觉中最新的主题，在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型，一个正向扩散阶段和反向扩散阶段。在正向扩散阶段，通过添加高斯噪声，输入数据在几个步骤中逐渐受到干扰。在反向阶段，模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担，即由于采样过程中涉及的步骤数量，扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中，我们对视觉中应用的denoising扩散模型的文章进行了全面综述，包括该领域的理论和实际贡献。首先，我们识别并介绍了三个通用扩散建模框架，这些框架基于扩散概率模型，噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系，包括变异自动编码器，生成对抗网络，基于能量的模型，自回归模型和正常流量。然后，我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后，我们说明了扩散模型的当前局限性，并设想了一些有趣的未来研究方向。

translated by 谷歌翻译

CXR Segmentation by AdaIN-based Domain Adaptation and Knowledge Distillation

Yujin Oh , Jong Chul Ye

分类：计算机视觉 | 机器学习

2021-04-13

由于细分标签稀缺，已经进行了广泛的研究，以培训具有域名适应性，半监督或自制学习技术来利用丰富的未标记数据集的分割网络。但是，这些方法彼此不同，因此尚不清楚如何将这些方法组合起来以提高性能。受到最新的多域图像翻译方法的启发，我们在这里提出了一个新颖的分割框架，使用自适应实例归一化（ADAIN），以便对单个发电机进行培训，以通过简单地通过更改任务来通过知识蒸馏来执行域的适应性和半手不足的细分任务 - 特定的AD代码。具体而言，我们的框架旨在处理胸部X射线射线照片（CXR）细分中的困难情况，其中标签仅适用于正常数据，但训练有素的模型应应用于正常数据和异常数据。提出的网络在域移动下显示出极大的概括性，并实现了异常CXR分割的最新性能。

translated by 谷歌翻译

Zero-Shot Object Segmentation through Concept Distillation from Generative Image Foundation Models

Mischa Dombrowski , Hadrien Reynaud , Matthew Baugh , Bernhard Kainz

分类：计算机视觉

2022-12-29

Curating datasets for object segmentation is a difficult task. With the advent of large-scale pre-trained generative models, conditional image generation has been given a significant boost in result quality and ease of use. In this paper, we present a novel method that enables the generation of general foreground-background segmentation models from simple textual descriptions, without requiring segmentation labels. We leverage and explore pre-trained latent diffusion models, to automatically generate weak segmentation masks for concepts and objects. The masks are then used to fine-tune the diffusion model on an inpainting task, which enables fine-grained removal of the object, while at the same time providing a synthetic foreground and background dataset. We demonstrate that using this method beats previous methods in both discriminative and generative performance and closes the gap with fully supervised training while requiring no pixel-wise object labels. We show results on the task of segmenting four different objects (humans, dogs, cars, birds).

translated by 谷歌翻译

RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation

Reza Rasti , Armin Biglari , Mohammad Rezapourian , Ziyun Yang , Sina Farsiu

分类：计算机视觉

2022-09-26

光学相干断层扫描（OCT）有助于眼科医生评估黄斑水肿，流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的，这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时，主观和容易出错的任务，因此对快速和健壮的自动解决方案的需求增加了。在这项研究中，提出了一种名为Retifluidnet的新型卷积神经结构，用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意（SDA）模块的纹理，上下文和边缘特征的学习，多个基于自适应的Skip Connections（SASC）以及一种新颖的多尺度深度自我监督学习（DSL）方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示，并且引入的SASC路径进一步考虑了空间通道相互依存，以串联编码器和解码器单元，从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet，其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证：润饰，Optima和Duke，并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性，并揭示了建议的方法比现有的最新流体分割算法更有效，以适应各种图像扫描仪器记录的视网膜OCT扫描。

translated by 谷歌翻译

Diffusion Deformable Model for 4D Temporal Medical Image Generation

Boah Kim , Jong Chul Ye

分类：计算机视觉 | 机器学习

2022-06-27

具有3D+T（4D）信息的时间体积图像通常用于医学成像中，以统计分析时间动力学或捕获疾病进展。尽管已经对自然图像的基于深度学习的生成模型进行了广泛的研究，但时间医学图像生成（例如4D心脏量数据）的方法受到限制。在这项工作中，我们提出了一个新颖的深度学习模型，该模型在源和目标体积之间产生了中间时间的体积。具体而言，我们通过调整最近对现实图像产生的非转化扩散概率模型来提出扩散可变形模型（DDM）。我们提出的DDM由扩散和变形模块组成，因此DDM可以在源和目标量之间学习空间变形信息，并提供潜在的代码，用于沿着测量路径生成中间帧。一旦训练了我们的模型，从扩散模块估算的潜在代码将简单地插入并馈入变形模块，该模块使DDM能够沿着连续轨迹生成时间帧，同时保留源图像的拓扑。我们证明了每个受试者舒张期和收缩期之间的4D心脏MR图像产生的提议方法。与现有的变形方法相比，我们的DDM在时间体积生成上实现了高性能。

translated by 谷歌翻译

Label-Efficient Semantic Segmentation with Diffusion Models

Dmitry Baranchuk , Ivan Rubachev , Andrey Voynov , Valentin Khrulkov , Artem Babenko

分类：计算机视觉 | 机器学习

2021-12-06

去噪扩散概率模型最近获得了很多研究的关注，因为它们优于GAN，以及目前提供最先进的生成性能。扩散模型的卓越性能使它们在若干应用中为它们提供了吸引人的工具，包括尿素，超分辨率和语义编辑。在本文中，我们证明扩散模型也可以用作语义分割的仪器，特别是当标记数据稀缺时的设置中。特别地，对于几种预训练的扩散模型，我们研究了从执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明这些激活有效地捕获了来自输入图像的语义信息，并且看起来是分割问题的优异像素级表示。基于这些观察，我们描述了一种简单的分段方法，即使仅提供了几种训练图像也可以工作。我们的方法显着优于若干数据集的现有替代品，以获得相同数量的人类监督。

translated by 谷歌翻译

YoloCurvSeg: You Only Label One Noisy Skeleton for Vessel-style Curvilinear Structure Segmentation

Li Lin , Linkai Peng , Huaqing He , Pujin Cheng , Jiewei Wu , Kenneth K. Y. Wong , Xiaoying Tang

分类：计算机视觉

2022-12-11

Weakly-supervised learning (WSL) has been proposed to alleviate the conflict between data annotation cost and model performance through employing sparsely-grained (i.e., point-, box-, scribble-wise) supervision and has shown promising performance, particularly in the image segmentation field. However, it is still a very challenging problem due to the limited supervision, especially when only a small number of labeled samples are available. Additionally, almost all existing WSL segmentation methods are designed for star-convex structures which are very different from curvilinear structures such as vessels and nerves. In this paper, we propose a novel sparsely annotated segmentation framework for curvilinear structures, named YoloCurvSeg, based on image synthesis. A background generator delivers image backgrounds that closely match real distributions through inpainting dilated skeletons. The extracted backgrounds are then combined with randomly emulated curves generated by a Space Colonization Algorithm-based foreground generator and through a multilayer patch-wise contrastive learning synthesizer. In this way, a synthetic dataset with both images and curve segmentation labels is obtained, at the cost of only one or a few noisy skeleton annotations. Finally, a segmenter is trained with the generated dataset and possibly an unlabeled dataset. The proposed YoloCurvSeg is evaluated on four publicly available datasets (OCTA500, CORN, DRIVE and CHASEDB1) and the results show that YoloCurvSeg outperforms state-of-the-art WSL segmentation methods by large margins. With only one noisy skeleton annotation (respectively 0.14%, 0.02%, 1.4%, and 0.65% of the full annotation), YoloCurvSeg achieves more than 97% of the fully-supervised performance on each dataset. Code and datasets will be released at https://github.com/llmir/YoloCurvSeg.

translated by 谷歌翻译

Unsupervised Image Denoising with Frequency Domain Knowledge

Nahyun Kim , Donggon Jang , Sunhyeok Lee , Bomi Kim , Dae-Shik Kim

分类：计算机视觉

2021-11-29

受监管的基于学习的方法屈服于强大的去噪结果，但它们本质上受到大规模清洁/嘈杂配对数据集的需要。另一方面，使用无监督的脱言机需要更详细地了解潜在的图像统计数据。特别是，众所周知，在高频频带上，清洁和嘈杂的图像之间的表观差异是最突出的，证明使用低通滤波器作为传统图像预处理步骤的一部分。然而，基于大多数基于学习的去噪方法在不考虑频域信息的情况下仅利用来自空间域的片面信息。为了解决这一限制，在本研究中，我们提出了一种频率敏感的无监督去噪方法。为此，使用生成的对抗性网络（GaN）作为基础结构。随后，我们包括光谱鉴别器和频率重建损失，以将频率知识传输到发电机中。使用自然和合成数据集的结果表明，我们无监督的学习方法增强了频率信息，实现了最先进的去噪能力，表明频域信息可能是提高无监督基于学习的方法的整体性能的可行因素。

translated by 谷歌翻译

Interactive Medical Image Segmentation with Self-Adaptive Confidence Calibration

Wenhao Li , Qisen Xu , Chuyun Shen , Bin Hu , Fengping Zhu , Yuxin Li , Bo Jin , Xiangfeng Wang

分类：计算机视觉 | 机器学习

2021-11-15

医学图像分割是基于人工智能的临床决策系统的基本问题之一。目前的自动医学图像分割方法往往未能满足临床要求。因此，提出了一系列交互式分段算法来利用专家校正信息。然而，现有方法在长期互动之后遭受一些分割炼制失败问题，以及来自专家注释的一些成本问题，这阻碍了临床应用。本文通过引入纠正措施评估，提出了一种互动分割框架，称为交互式医疗细分，通过引入纠正措施评估，该纠正措施评估结合了基于动作的置信度学习和多智能体增强学习（Marl）。通过新颖的基于行动的置信网络建立评估，并从Marl获得纠正措施。基于机密信息，旨在提供更详细的反馈，并在无监督数据上提出模拟标签生成机制，以减少对标记数据的过度依赖性的模拟标签生成机制。各种医学图像数据集的实验结果显示了所提出的算法的显着性能。

translated by 谷歌翻译

Semantic Image Synthesis with Spatially-Adaptive Normalization

Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu

分类：

2019-03-18

translated by 谷歌翻译

LE-UDA: Label-efficient unsupervised domain adaptation for medical image segmentation

Ziyuan Zhao , Fangcheng Zhou , Kaixin Xu , Zeng Zeng , Cuntai Guan , S. Kevin Zhou

分类：人工智能 | 计算机视觉

2022-12-05

While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.

translated by 谷歌翻译

PCA: Semi-supervised Segmentation with Patch Confidence Adversarial Training

Zihang Xu , Zhenghua Xu , Shuo Zhang , Thomas Lukasiewicz

分类：计算机视觉 | 机器学习

2022-07-24

基于深度学习的半监督学习（SSL）方法在医学图像细分中实现了强大的性能，可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同，基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源，导致细分器生成更准确的预测。我们认为，此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中，我们提出了一种新的半监督的对抗方法，称为贴片置信疗法训练（PCA），用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图，而是创建贴片置信图，并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息，以获得足够的梯度反馈，这有助于歧视器以融合到最佳状态，并改善半监督的分段性能。此外，在歧视者的输入中，我们补充了图像上的语义信息约束，使得未标记的数据更简单，以适合预期的数据分布。关于自动心脏诊断挑战（ACDC）2017数据集和脑肿瘤分割（BRATS）2019挑战数据集的广泛实验表明，我们的方法优于最先进的半监督方法，这证明了其对医疗图像分割的有效性。

translated by 谷歌翻译

Contrastive Image Synthesis and Self-supervised Feature Adaptation for Cross-Modality Biomedical Image Segmentation

Xinrong Hu , Corey Wang , Yiyu Shi

分类：计算机视觉

2022-07-27

这项工作提出了一个新颖的框架CISFA（对比图像合成和自我监督的特征适应），该框架建立在图像域翻译和无监督的特征适应性上，以进行跨模式生物医学图像分割。与现有作品不同，我们使用单方面的生成模型，并在输入图像的采样贴片和相应的合成图像之间添加加权贴片对比度损失，该图像用作形状约束。此外，我们注意到生成的图像和输入图像共享相似的结构信息，但具有不同的方式。因此，我们在生成的图像和输入图像上强制实施对比损失，以训练分割模型的编码器，以最大程度地减少学到的嵌入空间中成对图像之间的差异。与依靠对抗性学习进行特征适应的现有作品相比，这种方法使编码器能够以更明确的方式学习独立于域的功能。我们对包含腹腔和全心的CT和MRI图像的分割任务进行了广泛评估。实验结果表明，所提出的框架不仅输出了较小的器官形状变形的合成图像，而且还超过了最先进的域适应方法的较大边缘。

translated by 谷歌翻译

Semantic decomposition Network with Contrastive and Structural Constraints for Dental Plaque Segmentation

Jian Shi , Baoli Sun , Xinchen Ye , Zhihui Wang , Xiaolong Luo , Jin Liu , Heli Gao , Haojie Li

分类：计算机视觉 | 人工智能

2022-08-12

从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是，准确的牙菌斑分割是一项具有挑战性的任务，需要识别牙齿和牙齿斑块受到语义腔区域的影响（即，在牙齿和牙齿斑块之间的边界区域中存在困惑的边界）以及实例形状的复杂变化，这些变化均未完全解决。现有方法。因此，我们提出了一个语义分解网络（SDNET），该网络介绍了两个单任务分支，以分别解决牙齿和牙齿斑块的分割，并设计了其他约束，以学习每个分支的特定类别特征，从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言，SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿，以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征，进一步提出了两个约束模块：1）通过最大化不同类别表示之间的距离来学习判别特征表示，以了解判别特征表示形式，以减少减少负面影响关于特征提取的语义腔区域； 2）结构约束模块（SCM）通过监督边界感知的几何约束提供完整的结构信息，以提供各种形状的牙菌斑。此外，我们构建了一个大规模的开源染色牙菌斑分割数据集（SDPSEG），该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。

translated by 谷歌翻译

BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images

Darian Tomašević , Peter Peer , Vitomir Štruc

分类：计算机视觉 | 机器学习

2022-05-03

Current state-of-the-art segmentation techniques for ocular images are critically dependent on large-scale annotated datasets, which are labor-intensive to gather and often raise privacy concerns. In this paper, we present a novel framework, called BiOcularGAN, capable of generating synthetic large-scale datasets of photorealistic (visible light and near-infrared) ocular images, together with corresponding segmentation labels to address these issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2 (DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic Mask Generator (SMG) component that produces semantic annotations by exploiting latent features of the DB-StyleGAN2 model. We evaluate BiOcularGAN through extensive experiments across five diverse ocular datasets and analyze the effects of bimodal data generation on image quality and the produced annotations. Our experimental results show that BiOcularGAN is able to produce high-quality matching bimodal images and annotations (with minimal manual intervention) that can be used to train highly competitive (deep) segmentation models (in a privacy aware-manner) that perform well across multiple real-world datasets. The source code for the BiOcularGAN framework is publicly available at https://github.com/dariant/BiOcularGAN.

translated by 谷歌翻译

DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models

Gyeongnyeon Kim , Wooseok Jang , Gyuseong Lee , Susung Hong , Junyoung Seo , Seungryong Kim

分类：计算机视觉

2022-12-17

In recent years, generative models have undergone significant advancement due to the success of diffusion models. The success of these models is often attributed to their use of guidance techniques, such as classifier and classifier-free methods, which provides effective mechanisms to trade-off between fidelity and diversity. However, these methods are not capable of guiding a generated image to be aware of its geometric configuration, e.g., depth, which hinders the application of diffusion models to areas that require a certain level of depth awareness. To address this limitation, we propose a novel guidance approach for diffusion models that uses estimated depth information derived from the rich intermediate representations of diffusion models. To do this, we first present a label-efficient depth estimation framework using the internal representations of diffusion models. At the sampling phase, we utilize two guidance techniques to self-condition the generated image using the estimated depth map, the first of which uses pseudo-labeling, and the subsequent one uses a depth-domain diffusion prior. Experiments and extensive ablation studies demonstrate the effectiveness of our method in guiding the diffusion models toward geometrically plausible image generation. Project page is available at https://ku-cvlab.github.io/DAG/.

translated by 谷歌翻译