隐肌通常会将覆盖媒体修改为嵌入秘密数据。最近出现了一种称为生成隐志(GS)的新型隐志方法,其中直接从秘密数据中生成了Stego图像(包含秘密数据的图像),而无需覆盖媒体。但是,现有的GS方案经常因其表现不佳而受到批评。在本文中,我们提出了一个先进的生成隐志网络(GSN),该网络可以在不使用封面图像的情况下生成逼真的Stego图像,其中首先在Stego Image生成中引入了相互信息。我们的模型包含四个子网络,即图像生成器($ g $),一个歧视器($ d $),steganalyzer($ s $)和数据提取器($ e $)。 $ d $和$ s $充当两个对抗歧视器,以确保生成的Stego图像的视觉和统计不可识别。 $ e $是从生成的Stego图像中提取隐藏的秘密。发电机$ g $灵活地构建以合成具有不同输入的封面或seego图像。它通过隐藏在普通图像发生器中生成seego图像的功能来促进秘密通信。一个名为Secret Block的模块设计用于在图像生成过程中掩盖特征地图中的秘密数据,并实现了高隐藏容量和图像保真度。此外,开发了一种新型的层次梯度衰减技能来抵抗切割分析的检测。实验证明了我们工作比现有方法的优越性。
translated by 谷歌翻译
在线社交网络比以往任何时候都更加激发了互联网的通信,这使得在此类嘈杂渠道上传输秘密消息是可能的。在本文中,我们提出了一个名为CIS-NET的无封面图像隐志网络,该网络合成了直接在秘密消息上传输的高质量图像。 CIS-NET由四个模块组成,即生成,对抗,提取和噪声模块。接收器可以提取隐藏的消息而不会损失任何损失,即使图像已被JPEG压缩攻击扭曲。为了掩盖隐肌的行为,我们在个人资料照片和贴纸的背景下收集了图像,并相应地训练了我们的网络。因此,生成的图像更倾向于摆脱恶意检测和攻击。与先前的图像隐志方法相比,区分主要是针对各种攻击的鲁棒性和无损性。各种公共数据集的实验已经表现出抗坚果分析的卓越能力。
translated by 谷歌翻译
图像生成在学术界和工业领域提出了巨大的关注,特别是对于有条件和目标导向的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向实现了初步结果,但它们总是将课堂标签集中在阶级标签中作为空间内容从潜伏向量随机产生的条件。边缘细节通常模糊,因为空间信息难以保持。鉴于此,我们提出了一种新型的空间受限的生成对抗网络(SCAGAN),其从潜伏向量中分离出空间约束,并使这些约束可行作为额外的可控信号。为了增强空间可控性,发电机网络专门设计用于逐步采用语义分割,潜在的传染媒介和属性级标签作为输入。此外,构造分段网络以对发电机施加空间约束。在实验上,我们在Celeba和Deepfashion数据集中提供视觉和定量结果,并证明所提出的Scang在控制空间内容以及产生高质量图像方面非常有效。
translated by 谷歌翻译
本文提出了一种新颖的卷积层,称为扰动卷积(PCONV),该层侧重于同时实现两个目标:改善生成的对抗网络(GaN)性能并减轻判断者将所有图像从给定数据集记住的记忆问题,因为培训进步。在PCONV中,通过在执行卷积操作之前随机扰乱输入张量来产生扰动特征。这种方法很简单,但令人惊讶地有效。首先,为了产生类似的输出,即使使用扰动的张量,鉴别器中的每层也应该学习具有小本地嘴唇尖端值的鲁棒特征。其次,由于输入张量在培训过程中随机扰乱了神经网络中的辍学时,可以减轻记忆问题。为了展示所提出的方法的泛化能力,我们对各种丢失函数和数据集进行了广泛的实验,包括CIFAR-10,Celeba,Celeba-HQ,LSUN和微型想象成。定量评估表明,在FRECHET成立距离(FID)方面,PCONV有效地提高了GaN和条件GaN的性能。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
Diffusion models are rising as a powerful solution for high-fidelity image generation, which exceeds GANs in quality in many circumstances. However, their slow training and inference speed is a huge bottleneck, blocking them from being used in real-time applications. A recent DiffusionGAN method significantly decreases the models' running time by reducing the number of sampling steps from thousands to several, but their speeds still largely lag behind the GAN counterparts. This paper aims to reduce the speed gap by proposing a novel wavelet-based diffusion structure. We extract low-and-high frequency components from both image and feature levels via wavelet decomposition and adaptively handle these components for faster processing while maintaining good generation quality. Furthermore, we propose to use a reconstruction term, which effectively boosts the model training convergence. Experimental results on CelebA-HQ, CIFAR-10, LSUN-Church, and STL-10 datasets prove our solution is a stepping-stone to offering real-time and high-fidelity diffusion models. Our code and pre-trained checkpoints will be available at \url{https://github.com/VinAIResearch/WaveDiff.git}.
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
本文介绍了一种新颖的卷积方法,称为生成卷积(GCONV),这对于改善生成的对抗网络(GaN)性能来说是简单而有效的。与标准卷积不同,GCONV首先选择与给定的潜像兼容的有用内核,然后线性地将所选内核结合起来制作潜在特定的内核。使用潜在特定的内核,所提出的方法产生潜在特定的特征,鼓励发电机产生高质量的图像。这种方法很简单,但令人惊讶地有效。首先,GaN性能随着额外的硬件成本而显着提高。其次,GCONV可以用于现有的最先进的发电机而不修改网络架构。为了揭示GCONV的优越性,本文使用各种标准数据集提供了广泛的实验,包括CiFar-10,CiFar-100,Lsun-Church,Celeba和微小想象成。定量评估证明,GCONV在成立得分(IS)和FRECHET成立距离(FID)方面大大提高了无条件和条件GAN的性能。例如,所提出的方法改善了FID,分别从35.13到29.76和20.23到22.64的微小想象网数据集上的分数。
translated by 谷歌翻译
Generative adversarial network (GAN) is formulated as a two-player game between a generator (G) and a discriminator (D), where D is asked to differentiate whether an image comes from real data or is produced by G. Under such a formulation, D plays as the rule maker and hence tends to dominate the competition. Towards a fairer game in GANs, we propose a new paradigm for adversarial training, which makes G assign a task to D as well. Specifically, given an image, we expect D to extract representative features that can be adequately decoded by G to reconstruct the input. That way, instead of learning freely, D is urged to align with the view of G for domain classification. Experimental results on various datasets demonstrate the substantial superiority of our approach over the baselines. For instance, we improve the FID of StyleGAN2 from 4.30 to 2.55 on LSUN Bedroom and from 4.04 to 2.82 on LSUN Church. We believe that the pioneering attempt present in this work could inspire the community with better designed generator-leading tasks for GAN improvement.
translated by 谷歌翻译
目前的高保真发电和高精度检测DeepFake图像位于臂赛中。我们认为,生产高度逼真和“检测逃避”的深度可以服务于改善未来一代深度检测能力的最终目标。在本文中,我们提出了一种简单但强大的管道,以通过执行隐式空间域陷波滤波来减少假图像的伪影图案而不会损伤图像质量。我们首先表明频域陷波滤波,尽管由于陷波滤波器所需的手动设计,我们的任务对于我们的任务是有效的,但是频域陷波过滤虽然是有效的。因此,我们诉诸基于学习的方法来重现陷波滤波效果,而是仅在空间域中。我们采用添加压倒性的空间噪声来打破周期性噪声模式和深映像滤波来重建无噪声假图像,我们将我们的方法命名为Deadnotch。深度图像过滤为嘈杂图像中的每个像素提供专用过滤器,与其DeepFake对应物相比,产生具有高保真度的滤波图像。此外,我们还使用图像的语义信息来生成对抗性引导映射,以智能地添加噪声。我们对3种代表性的最先进的深蓝进行的大规模评估(在16种DeepFakes上测试)已经证明,我们的技术显着降低了这3种假图像检测方法的准确性,平均和高度为36.79% 97.02%在最好的情况下。
translated by 谷歌翻译
Our result (c) Application: Edit object appearance (b) Application: Change label types (a) Synthesized resultFigure 1: We propose a generative adversarial framework for synthesizing 2048 × 1024 images from semantic label maps (lower left corner in (a)). Compared to previous work [5], our results express more natural textures and details. (b) We can change labels in the original label map to create new scenes, like replacing trees with buildings. (c) Our framework also allows a user to edit the appearance of individual objects in the scene, e.g. changing the color of a car or the texture of a road. Please visit our website for more side-by-side comparisons as well as interactive editing demos.
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
数字图像水印寻求保护数字媒体信息免受未经授权的访问,其中消息被嵌入到数字图像中并从中提取,甚至在各种数据处理下应用一些噪声或失真,包括有损图像压缩和交互式内容编辑。在用一些事先约束时,传统图像水印解决方案容易受到鲁棒性,而最近的基于深度学习的水印方法无法在特征编码器和解码器的各种单独管道下进行良好的信息丢失问题。在本文中,我们提出了一种新的数字图像水印解决方案,具有一个小巧的神经网络,名为可逆的水印网络(IWN)。我们的IWN架构基于单个可逆的神经网络(INN),这种双翼飞变传播框架使我们能够通过将它们作为彼此的一对逆问题同时解决信息嵌入和提取的挑战,并学习稳定的可逆性映射。为了增强我们的水印解决方案的稳健性,我们具体地引入了一个简单但有效的位消息归一化模块,以冷凝要嵌入的位消息,并且噪声层旨在模拟我们的iWN框架下的各种实际攻击。广泛的实验表明了我们在各种扭曲下的解决方案的优越性。
translated by 谷歌翻译
最近关于多领域面部图像翻译的研究取得了令人印象深刻的结果。现有方法通常提供具有辅助分类器的鉴别器,以施加域转换。但是,这些方法忽略了关于域分布匹配的重要信息。为了解决这个问题,我们提出了一种与更自适应的鉴别器结构和匹配的发电机具有更自适应的鉴别器结构和匹配的发电机之间的开关生成的对抗网络(SwitchGan),以在多个域之间执行精密图像转换。提出了一种特征切换操作以在我们的条件模块中实现特征选择和融合。我们展示了我们模型的有效性。此外,我们还引入了发电机的新功能,该功能代表了属性强度控制,并在没有定制培训的情况下提取内容信息。在视觉上和定量地显示了Morph,RAFD和Celeba数据库的实验,表明我们扩展的SwitchGan(即,门控SwitchGan)可以实现比Stargan,Attgan和Staggan更好的翻译结果。使用培训的Reset-18模型实现的属性分类准确性和使用ImageNet预先预订的Inception-V3模型获得的FIC分数也定量展示了模型的卓越性能。
translated by 谷歌翻译
由于我们是婴儿,我们直观地发展了与视觉,音频和文本等不同认知传感器的输入相关联的能力。然而,在机器学习中,这种跨模型学习是一种非活动任务,因为不同的方式没有均匀性质。以前的作品发现,应该有不同的方式存在桥梁。从神经病学和心理学的角度来看,人类有能力将一种模态与另一个方式联系起来,例如,将一只鸟的图片与歌唱的唯一听证者相关联,反之亦然。机器学习算法是否可能恢复给定音频信号的场景?在本文中,我们提出了一种新型级联关注的残留甘(Car-GaN),旨在重建给定相应的音频信号的场景。特别地,我们介绍残留物模块,以逐渐降低不同方式之间的间隙。此外,具有新型分类损失函数的级联注意网络旨在解决跨模型学习任务。我们的模型在高级语义标签域中保持一致性,并且能够平衡两种不同的模式。实验结果表明,我们的模型在具有挑战性的子URMP数据集上实现了最先进的跨模型视听生成。代码将在https://github.com/tuffr5/car-gan中获得。
translated by 谷歌翻译
Despite excellent performance in image generation, Generative Adversarial Networks (GANs) are notorious for its requirements of enormous storage and intensive computation. As an awesome ''performance maker'', knowledge distillation is demonstrated to be particularly efficacious in exploring low-priced GANs. In this paper, we investigate the irreplaceability of teacher discriminator and present an inventive discriminator-cooperated distillation, abbreviated as DCD, towards refining better feature maps from the generator. In contrast to conventional pixel-to-pixel match methods in feature map distillation, our DCD utilizes teacher discriminator as a transformation to drive intermediate results of the student generator to be perceptually close to corresponding outputs of the teacher generator. Furthermore, in order to mitigate mode collapse in GAN compression, we construct a collaborative adversarial training paradigm where the teacher discriminator is from scratch established to co-train with student generator in company with our DCD. Our DCD shows superior results compared with existing GAN compression methods. For instance, after reducing over 40x MACs and 80x parameters of CycleGAN, we well decrease FID metric from 61.53 to 48.24 while the current SoTA method merely has 51.92. This work's source code has been made accessible at https://github.com/poopit/DCD-official.
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
现有的少量图像生成方法通常在图像或特征级别采用基于融合的策略来生成新图像。但是,以前的方法很难通过细节良好的细节合成高频信号,从而恶化了合成质量。为了解决这个问题,我们提出了Wovegan,这是一种用于几弹图像生成的频率感知模型。具体而言,我们将编码的特征分解为多个频率组件,并执行低频跳过连接以保留轮廓和结构信息。然后,我们通过采用高频跳过连接来减轻发电机综合细节的斗争,从而为发电机提供信息频率信息。此外,我们在生成的图像和真实图像上利用频率L1损失来进一步阻碍频率信息丢失。广泛的实验证明了我们方法在三个数据集上的有效性和进步。值得注意的是,我们以FID 42.17,LPIPS 0.3868,FID 30.35,LPIPS 0.5076和FID 4.96,LPIPS分别为0.3822,在花,动物面和VGGFace上分别为0.3822。 github:https://github.com/kobeshegu/eccv2022_wavegan
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译