最近已提出了为无监督的医学图像模型发现的成功深度学习技术。用于涂料的口罩通常独立于数据集,并且不适合在给定的解剖学类别中执行。在这项工作中,我们介绍了一种生成形状感知的面具的方法,旨在先验学习统计形状。我们假设,尽管掩模的变化改善了介入模型的普遍性,但面具的形状应遵循感兴趣的器官的拓扑结构。因此,我们提出了一种基于现成的镶嵌模型和超像素过度分段算法的无监督的指导掩蔽方法,以生成各种依赖形状依赖性掩码。腹部MR图像重建的实验结果表明,使用不规则形状掩模的方形或数据集,我们提出的掩蔽方法优于标准方法。
translated by 谷歌翻译
现代形象染色系统,尽管取得了重大进展,往往与大型缺失区域,复杂的几何结构和高分辨率图像斗争。我们发现这是一个主要原因之一是缺乏染色网络和损失功能的有效的接受领域。为了减轻这个问题,我们提出了一种称为大面膜修正(LAMA)的新方法。喇嘛基于i)一种新的侵略网络架构,它使用具有图像宽接收领域的快速傅里叶卷曲(FFC); ii)高接受领域感性损失; iii)大型训练面具,可解锁前两个组件的潜力。我们的批准网络在一系列数据集中改善了最先进的,即使在具有挑战性的情况下也能实现出色的性能,例如,完成定期结构。我们的模型令人惊讶地展现得比在火车时间高于所看到的决议,并在比竞争性基线更低的参数和时间成本实现这一目标。代码可用于\ url {https:/github.com/saic-mdal/lama}。
translated by 谷歌翻译
胸部X射线(CXR)图像中的肺结节检测是肺癌的早期筛查。基于深度学习的计算机辅助诊断(CAD)系统可以支持放射线医生在CXR中进行结节筛选。但是,它需要具有高质量注释的大规模和多样化的医学数据,以训练这种强大而准确的CAD。为了减轻此类数据集的有限可用性,为了增加数据增强而提出了肺结核合成方法。然而,以前的方法缺乏产生结节的能力,这些结节与检测器所需的大小属性相关。为了解决这个问题,我们在本文中介绍了一种新颖的肺结综合框架,该框架分别将结节属性分为三个主要方面,包括形状,大小和纹理。基于GAN的形状生成器首先通过产生各种形状掩模来建模结节形状。然后,以下大小调制可以对像素级粒度中生成的结节形状的直径进行定量控制。一条粗到细门的卷积卷积纹理发生器最终合成了以调制形状掩模为条件的视觉上合理的结节纹理。此外,我们建议通过控制数据增强的分离结节属性来合成结节CXR图像,以便更好地补偿检测任务中容易错过的结节。我们的实验证明了所提出的肺结构合成框架的图像质量,多样性和可控性的增强。我们还验证了数据增强对大大改善结节检测性能的有效性。
translated by 谷歌翻译
尽管深度学习使图像介绍方面取得了巨大的飞跃,但当前的方法通常无法综合现实的高频细节。在本文中,我们建议将超分辨率应用于粗糙的重建输出,以高分辨率进行精炼,然后将输出降低到原始分辨率。通过将高分辨率图像引入改进网络,我们的框架能够重建更多的细节,这些细节通常由于光谱偏置而被平滑 - 神经网络倾向于比高频更好地重建低频。为了协助培训大型高度孔洞的改进网络,我们提出了一种渐进的学习技术,其中缺失区域的大小随着培训的进行而增加。我们的缩放,完善和缩放策略,结合了高分辨率的监督和渐进学习,构成了一种框架 - 不合时宜的方法,用于增强高频细节,可应用于任何基于CNN的涂层方法。我们提供定性和定量评估以及消融分析,以显示我们方法的有效性。这种看似简单但功能强大的方法优于最先进的介绍方法。我们的代码可在https://github.com/google/zoom-to-inpaint中找到
translated by 谷歌翻译
创伤性脑损伤(TBI)患者的脑网络分析对于其意识水平评估和预后评估至关重要,这需要分割某些意识相关的大脑区域。但是,由于很难收集TBI患者的手动注释的MR扫描,因此很难构建TBI分割模型。数据增强技术可用于缓解数据稀缺问题。但是,常规数据增强策略(例如空间和强度转化)无法模仿创伤性大脑中的变形和病变,这限制了后续分割任务的性能。为了解决这些问题,我们提出了一种名为TBIGA的新型医学图像授课模型,以通过配对的脑标签图合成TBI MR扫描。我们的TBIGAN方法的主要优势在于,它可以同时生成TBI图像和相应的标签映射,这在以前的医学图像的先前涂上方法中尚未实现。我们首先按照粗到细节的方式在边缘信息的指导下生成成分的图像,然后将合成强度图像用作标签上填充的先验。此外,我们引入了基于注册的模板增强管道,以增加合成图像对的多样性并增强数据增强能力。实验结果表明,提出的TBIGAN方法可以产生具有高质量和有效标签图的足够合成的TBI图像,这可以大大改善与替代方案相比的2D和3D创伤性脑部分割性能。
translated by 谷歌翻译
基于草图的图像操作是一个交互式图像编辑任务,用于根据用户的输入草图修改图像。现有方法通常将此任务制定为条件染色问题,这需要用户绘制除草图之外还要修改区域的额外掩码。蒙面区域被视为孔,并通过剪影模型填充在草图上。利用这种配方,可以通过随机制造掩模和提取边缘或轮廓来容易地获得成对的训练数据。虽然此设置简化了数据准备和模型设计,但它使用户交互复杂化并丢弃在蒙面区域中的有用信息。为此,我们调查了一种基于草图的图像操作的新范式:无掩盖的本地图像操作,只需要从用户素描输入并利用整个原始图像。给定图像和草图,我们的模型会自动预测目标修改区域并将其编码为结构不可知的风格矢量。然后,发电机基于样式向量和草图综合新的图像内容。最终通过将发电机输出混合到原始图像的修改区域中来产生操纵图像。我们的模型可以通过学习从风格矢量和素描的图像区域的重建来训练自我监督的时尚。该方法提供了更简单,更直观的用户工作流程,用于基于草图的图像操作,并提供比以前的方法更好的结果。更多结果,代码和交互式演示将在\ url {https://zengxianyu.github.io/sketchedit}上获得。
translated by 谷歌翻译
接近周期性的模式(NPP)在人造场景中无处不在,由瓷砖图案组成,其外观差异是由照明,缺陷或设计元素引起的。良好的NPP表示对许多应用程序有用,包括图像完成,分割和几何重新映射。但是代表NPP是具有挑战性的,因为它需要保持全球一致性(瓷砖图案布局),同时保留局部变化(外观差异)。使用大型数据集或单图像优化斗争在一般场景上训练的方法以满足这些约束,而明确模型周期性的方法对周期性检测错误并不强大。为了应对这些挑战,我们使用基于坐标的MLP学习具有单图像优化的神经隐式表示。我们设计一个输入功能翘曲模块和周期性指导的补丁损失,以处理全球一致性和局部变化。为了进一步提高鲁棒性,我们引入了一个周期性建议模块,以在我们的管道中搜索和使用多个候选周期。我们在单个和多平面场景上展示了我们方法对500多个建筑物,架子,壁纸,地面和蒙德里安图案的有效性。
translated by 谷歌翻译
面部图像中的对象删除和图像介绍是一项任务,其中遮挡面部图像的对象被专门针对,删除和替换为正确重建的面部图像。利用U-NET和调制发电机的两种不同的方法已被广泛认可了该任务的独特优势,但尽管每种方法的先天缺点。 u-net是一种有条件剂的常规方法,保留了未掩盖区域的精细细节,但是重建图像的样式与原始图像的其余部分不一致,并且只有在遮挡对象的大小足够小时才可以坚固。相比之下,调制生成方法可以处理图像中较大的阻塞区域,并提供{a}更一致的样式,但通常会错过大多数详细功能。这两种模型之间的这种权衡需要制定模型的发明,该模型可以应用于任何尺寸的面具,同时保持一致的样式并保留面部特征的细节细节。在这里,我们提出了语义引导的介绍网络(SGIN)本身是对调制发电机的修改,旨在利用其先进的生成能力并保留原始图像的高保真详细信息。通过使用语义图的指导,我们的模型能够操纵面部特征,这些特征将方向赋予了一对多问题,以进一步实用。
translated by 谷歌翻译
通过利用深层神经网络(DNN)来建模各种先前的信息以恢复图像,许多最近的介绍作品都取得了令人印象深刻的结果。不幸的是,这些方法的性能在很大程度上受到了香草卷积神经网络(CNNS)骨架的表示能力的限制。另一方面,具有自我监督的预训练的视觉变压器(VIT)显示出许多视觉识别和许多视觉识别的潜力对象检测任务。一个自然的问题是,VIT主链是否可以大大受益?但是,直接替换在内部网络中的新骨干是不是很普遍的,因为indpainting与识别任务根本不同。为此,本文将基于训练的胶面膜自动编码器(MAE)结合到了indpaining模型中,该模型具有更丰富的信息学先验,以增强涂漆过程。此外,我们建议使用MAE的注意力学先验,以使介绍模型学习掩盖区域和未掩盖区域之间更多的长距离依赖关系。已经讨论了有关本文内部介绍和自我监督的预训练模型的足够消融。此外,对Ploce2和FFHQ的实验证明了我们提出的模型的有效性。代码和预培训模型在https://github.com/ewrfcas/mae-far中发布。
translated by 谷歌翻译
Fig. 1. Masked images and corresponding inpainted results using our partialconvolution based network.
translated by 谷歌翻译
图像染色是增强扭曲数字图像的有效方法。不同的初始化方法使用相邻像素的信息来预测丢失像素的值。最近,深度神经网络已经用于学习图像的结构和语义细节以获得避免目的。在本文中,我们提出了一种用于图像染色的网络。此网络类似于U-Net,从图像中提取各种功能,导致更好的结果。我们通过用输出图像的恢复像素替换损坏的像素来改善最终结果。我们的实验结果表明,该方法产生了与传统方法相比的高质量结果。
translated by 谷歌翻译
\ textit {objection:}基于gadolinium的对比剂(GBCA)已被广泛用于更好地可视化脑磁共振成像中的疾病(MRI)。然而,大脑和身体内部的gadolin量引起了人们对使用GBCA的安全问题。因此,在提供类似的对比度信息的同时,可以减少甚至消除GBCA暴露的新方法的发展将在临床上具有重大用途。 \ textit {方法:}在这项工作中,我们提出了一种基于深度学习的方法,用于对脑肿瘤患者的对比增强T1合成。 3D高分辨率完全卷积网络(FCN)通过处理和聚合并行的多尺度信息保持高分辨率信息,旨在将前对比度MRI序列映射到对比度增强的MRI序列。具体而言,将三个前对比的MRI序列T1,T2和表观扩散系数图(ADC)用作输入,而对比后T1序列则被用作目标输出。为了减轻正常组织与肿瘤区域之间的数据不平衡问题,我们引入了局部损失,以改善肿瘤区域的贡献,从而可以更好地增强对肿瘤的增强结果。 \ textIt {结果:}进行了广泛的定量和视觉评估,我们提出的模型在大脑中达到28.24db的PSNR,在肿瘤区域达到21.2db。 \ textit {结论和意义:}我们的结果表明,用深度学习产生的合成对比图像代替GBCA的潜力。代码可在\ url {https://github.com/chenchao666/contrast-enhanced-mri-synthesis中获得
translated by 谷歌翻译
The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is expensive or even impractical, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. A realistic solution is to explore either an unsupervised learning or a semi-supervised learning to synthesize the absent neuroimaging data. In this paper, we are the first one to comprehensively approach cross-modality neuroimage synthesis task from different perspectives, which include the level of the supervision (especially for weakly-supervised and unsupervised), loss function, evaluation metrics, the range of modality synthesis, datasets (aligned, private and public) and the synthesis-based downstream tasks. To begin with, we highlight several opening challenges for cross-modality neuroimage sysnthesis. Then we summarize the architecture of cross-modality synthesis under various of supervision level. In addition, we provide in-depth analysis of how cross-modality neuroimage synthesis can improve the performance of different downstream tasks. Finally, we re-evaluate the open challenges and point out the future directions for the remaining challenges. All resources are available at https://github.com/M-3LAB/awesome-multimodal-brain-image-systhesis
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
图像介入寻求一种语义一致的方法,以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用,然后在产生逼真的斑块中用于缺少GAN反转的孔。然而,在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下,我们在本文中设计了一个新颖的GAN反转模型,用于图像插入,称为Interverfill,主要由带有预调制模块的编码器和具有F&W+潜在空间的GAN生成器组成。在编码器中,预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙,提出了F&W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像,一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式,以合成大型腐败的高保真质地。在包括Ploce2,Celeba-HQ,Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明,我们的Intervill效果优于定性和定量的高级方法,并支持室外图像的完成。
translated by 谷歌翻译
Graph representation of objects and their relations in a scene, known as a scene graph, provides a precise and discernible interface to manipulate a scene by modifying the nodes or the edges in the graph. Although existing works have shown promising results in modifying the placement and pose of objects, scene manipulation often leads to losing some visual characteristics like the appearance or identity of objects. In this work, we propose DisPositioNet, a model that learns a disentangled representation for each object for the task of image manipulation using scene graphs in a self-supervised manner. Our framework enables the disentanglement of the variational latent embeddings as well as the feature representation in the graph. In addition to producing more realistic images due to the decomposition of features like pose and identity, our method takes advantage of the probabilistic sampling in the intermediate features to generate more diverse images in object replacement or addition tasks. The results of our experiments show that disentangling the feature representations in the latent manifold of the model outperforms the previous works qualitatively and quantitatively on two public benchmarks. Project Page: https://scenegenie.github.io/DispositioNet/
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
We present an unsupervised visual feature learning algorithm driven by context-based pixel prediction. By analogy with auto-encoders, we propose Context Encoders -a convolutional neural network trained to generate the contents of an arbitrary image region conditioned on its surroundings. In order to succeed at this task, context encoders need to both understand the content of the entire image, as well as produce a plausible hypothesis for the missing part(s). When training context encoders, we have experimented with both a standard pixel-wise reconstruction loss, as well as a reconstruction plus an adversarial loss. The latter produces much sharper results because it can better handle multiple modes in the output. We found that a context encoder learns a representation that captures not just appearance but also the semantics of visual structures. We quantitatively demonstrate the effectiveness of our learned features for CNN pre-training on classification, detection, and segmentation tasks. Furthermore, context encoders can be used for semantic inpainting tasks, either stand-alone or as initialization for non-parametric methods.
translated by 谷歌翻译