Cartoons are an important part of our entertainment culture. Though drawing a cartoon is not for everyone, creating it using an arrangement of basic geometric primitives that approximates that character is a fairly frequent technique in art. The key motivation behind this technique is that human bodies - as well as cartoon figures - can be split down into various basic geometric primitives. Numerous tutorials are available that demonstrate how to draw figures using an appropriate arrangement of fundamental shapes, thus assisting us in creating cartoon characters. This technique is very beneficial for children in terms of teaching them how to draw cartoons. In this paper, we develop a tool - shape2toon - that aims to automate this approach by utilizing a generative adversarial network which combines geometric primitives (i.e. circles) and generate a cartoon figure (i.e. Mickey Mouse) depending on the given approximation. For this purpose, we created a dataset of geometrically represented cartoon characters. We apply an image-to-image translation technique on our dataset and report the results in this paper. The experimental results show that our system can generate cartoon characters from input layout of geometric shapes. In addition, we demonstrate a web-based tool as a practical implication of our work.
translated by 谷歌翻译
Jamdani is the strikingly patterned textile heritage of Bangladesh. The exclusive geometric motifs woven on the fabric are the most attractive part of this craftsmanship having a remarkable influence on textile and fine art. In this paper, we have developed a technique based on the Generative Adversarial Network that can learn to generate entirely new Jamdani patterns from a collection of Jamdani motifs that we assembled, the newly formed motifs can mimic the appearance of the original designs. Users can input the skeleton of a desired pattern in terms of rough strokes and our system finalizes the input by generating the complete motif which follows the geometric structure of real Jamdani ones. To serve this purpose, we collected and preprocessed a dataset containing a large number of Jamdani motifs images from authentic sources via fieldwork and applied a state-of-the-art method called pix2pix to it. To the best of our knowledge, this dataset is currently the only available dataset of Jamdani motifs in digital format for computer vision research. Our experimental results of the pix2pix model on this dataset show satisfactory outputs of computer-generated images of Jamdani motifs and we believe that our work will open a new avenue for further research.
translated by 谷歌翻译
面部及其表达是数字图像的有效科目之一。检测图像的情绪是计算机视野领域的古代任务;然而,从图像进行反向合成的面部表达式 - 是非常新的。使用不同面部表情的再生图像的这种操作,或者改变图像中的现有表达需要生成的对抗网络(GaN)。在本文中,我们的目标是使用GaN改变图像中的面部表情,其中具有初始表达式(即,快乐)的输入图像被改变为同一个人的不同表达式(即,厌恶)。我们在Mug数据集的修改版本上使用了Stargn技术来完成此目标。此外,我们通过在从给定文本中的情感指示的图像中重塑面部表情进一步扩展我们的工作。因此,我们应用了一个长期的短期内存(LSTM)方法来从文本中提取情绪并将其转发给我们的表达式更改模块。作为我们的工作管道的演示,我们还创建了一个博客的应用程序原型,该博客将根据用户的文本情绪与不同的表达式重新生成配置文件图片。
translated by 谷歌翻译
草图是一种从个人的创造性角度传达视觉场景的媒介。添加颜色基本上增强了草图的总体表征。本文提出了通过利用轮廓绘制数据集来模仿人绘制着色草图的两种方法。我们的第一个方法通过应用k-means颜色聚类辅助的图像处理技术来呈现彩色的轮廓草图。第二种方法使用生成的对抗性网络来开发一个可以从先前未观察到的图像生成彩色草图的模型。我们评估通过定量和定性评估获得的结果。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
生成的对抗网络(GANS)已经促进了解决图像到图像转换问题的新方向。不同的GANS在目标函数中使用具有不同损耗的发电机和鉴别器网络。仍然存在差距来填补所生成的图像的质量并靠近地面真理图像。在这项工作中,我们介绍了一个名为循环辨别生成的对抗网络(CDGAN)的新的图像到图像转换网络,填补了上述空白。除了加速本的原始架构之外,所提出的CDGAN通过结合循环图像的附加鉴别器网络来产生高质量和更现实的图像。所提出的CDGAN在三个图像到图像转换数据集上进行测试。分析了定量和定性结果,并与最先进的方法进行了比较。在三个基线图像到图像转换数据集中,所提出的CDGAN方法优于最先进的方法。该代码可在https://github.com/kishankancharagunta/cdgan获得。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
图像转换是一类视觉和图形问题,其目标是学习输入图像和输出图像之间的映射,在深神网络的背景下迅速发展。在计算机视觉(CV)中,许多问题可以被视为图像转换任务,例如语义分割和样式转移。这些作品具有不同的主题和动机,使图像转换任务蓬勃发展。一些调查仅回顾有关样式转移或图像到图像翻译的研究,所有这些都只是图像转换的一个分支。但是,没有一项调查总结这些调查在我们最佳知识的统一框架中共同起作用。本文提出了一个新颖的学习框架,包括独立学习,指导学习和合作学习,称为IGC学习框架。我们讨论的图像转换主要涉及有关深神经网络的一般图像到图像翻译和样式转移。从这个框架的角度来看,我们回顾了这些子任务,并对各种情况进行统一的解释。我们根据相似的开发趋势对图像转换的相关子任务进行分类。此外,已经进行了实验以验证IGC学习的有效性。最后,讨论了新的研究方向和开放问题,以供将来的研究。
translated by 谷歌翻译
Automatic font generation without human experts is a practical and significant problem, especially for some languages that consist of a large number of characters. Existing methods for font generation are often in supervised learning. They require a large number of paired data, which are labor-intensive and expensive to collect. In contrast, common unsupervised image-to-image translation methods are not applicable to font generation, as they often define style as the set of textures and colors. In this work, we propose a robust deformable generative network for unsupervised font generation (abbreviated as DGFont++). We introduce a feature deformation skip connection (FDSC) to learn local patterns and geometric transformations between fonts. The FDSC predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level content feature maps. The outputs of FDSC are fed into a mixer to generate final results. Moreover, we introduce contrastive self-supervised learning to learn a robust style representation for fonts by understanding the similarity and dissimilarities of fonts. To distinguish different styles, we train our model with a multi-task discriminator, which ensures that each style can be discriminated independently. In addition to adversarial loss, another two reconstruction losses are adopted to constrain the domain-invariant characteristics between generated images and content images. Taking advantage of FDSC and the adopted loss functions, our model is able to maintain spatial information and generates high-quality character images in an unsupervised manner. Experiments demonstrate that our model is able to generate character images of higher quality than state-of-the-art methods.
translated by 谷歌翻译
在离岸部门以及科学界在水下行动方面的迅速发展,水下车辆变得更加复杂。值得注意的是,许多水下任务,包括对海底基础设施的评估,都是在自动水下车辆(AUV)的帮助下进行的。最近在人工智能(AI)方面取得了突破,尤其是深度学习(DL)模型和应用,这些模型和应用在各种领域都广泛使用,包括空中无人驾驶汽车,自动驾驶汽车导航和其他应用。但是,由于难以获得特定应用的水下数据集,它们在水下应用中并不普遍。从这个意义上讲,当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合,将生成的对抗网络(GAN)用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性,因为与现实世界的水下船体船体图像相比,所得图像与真实的水下环境非常相似。因此,水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难,并用于通过水下对象图像分类和检测来增强水下操作。
translated by 谷歌翻译
迭代创建像素艺术角色精灵板对于游戏开发过程至关重要。但是,直到完成包含不同姿势和动画片段的最终版本之前,可能需要大量精力。本文使用条件生成的对抗网络调查,以帮助设计师创建此类精灵片。我们提出了一个基于Pix2Pix的体系结构,以生成面向目标侧(例如,右)的字符图像(例如,右)在源姿势中(例如,前面)。使用小像素ART数据集的实验产生了令人鼓舞的结果,导致模型具有不同程度的概括,有时能够生成非常接近地面真相的图像。我们通过视觉检查和FID进行定量分析结果。
translated by 谷歌翻译
最近的研究表明了对面部表情合成的多域图像到图像转换的令人印象深刻的结果。虽然有效,但这些方法需要大量标记的样本进行合理的结果。当我们在较小的数据集中训练时,他们的性能显着降低。为了解决这一限制,在这项工作中,我们展示了US-GaN,通过采用显着的小型数据集来合成合理表达的较小有效的方法。所提出的方法包括编码层,单个残差块,解码层和终极跳过连接,其将输入图像链接到输出图像。与最先进的面部表情合成方法相比,参数具有三倍。实验结果表明了我们提出的方法的定量和定性效果。此外,我们还表明,终极跳过连接足以恢复较大的最先进模型无法恢复的输入面部图像的富有的面部和整体颜色细节。
translated by 谷歌翻译
本文介绍了图像“培养”的概念,即定义为改变“文化特征的画笔”的过程,使物体被认为属于给定文化的同时保留其功能。首先,我们提出了一种基于生成的对冲网络(GaN)将物体从源转换为目标文化域的管道。然后,我们通过在线调查问卷收集数据,以测试有关意大利参与者对属于不同文化的物体和环境的偏好的四个假设。正如预期的那样,结果取决于个人口味和偏好:然而,它们符合我们的猜想,即某些人在与机器人或其他智能系统的互动期间,可能更愿意被示出其文化领域已被修改以匹配其的图像文化背景。
translated by 谷歌翻译
生成的对抗网络(GANS)最近引入了执行图像到图像翻译的有效方法。这些模型可以应用于图像到图像到图像转换中的各种域而不改变任何参数。在本文中,我们调查并分析了八个图像到图像生成的对策网络:PIX2PX,Cyclegan,Cogan,Stargan,Munit,Stargan2,Da-Gan,以及自我关注GaN。这些模型中的每一个都呈现了最先进的结果,并引入了构建图像到图像的新技术。除了对模型的调查外,我们还调查了他们接受培训的18个数据集,并在其上进行了评估的9个指标。最后,我们在常见的一组指标和数据集中呈现6种这些模型的受控实验的结果。结果混合并显示,在某些数据集,任务和指标上,某些型号优于其他型号。本文的最后一部分讨论了这些结果并建立了未来研究领域。由于研究人员继续创新新的图像到图像GAN,因此他们非常重要地了解现有方法,数据集和指标。本文提供了全面的概述和讨论,以帮助构建此基础。
translated by 谷歌翻译
Generative adversarial networks (GANs) provide a way to learn deep representations without extensively annotated training data. They achieve this through deriving backpropagation signals through a competitive process involving a pair of networks. The representations that can be learned by GANs may be used in a variety of applications, including image synthesis, semantic image editing, style transfer, image super-resolution and classification. The aim of this review paper is to provide an overview of GANs for the signal processing community, drawing on familiar analogies and concepts where possible. In addition to identifying different methods for training and constructing GANs, we also point to remaining challenges in their theory and application.
translated by 谷歌翻译
渲染程序已经完全改变了设计过程,因为它们可以在制造产品之前查看产品的外观。但是,渲染过程很复杂,并且需要大量时间,不仅在渲染本身,而且在场景的环境中。需要设置材料,灯光和摄像头,以获得最佳质量效果。然而,在第一个渲染中可能无法获得最佳输出。这一切使渲染过程成为一个繁琐的过程。因为Goodfellow等人。 2014年引入了生成对抗网络(GAN)[1],它们已用于生成计算机分配的合成数据,从不存在的人脸到医学数据分析或图像样式转移。 GAN已被用来将图像纹理从一个域传输到另一个域。但是,需要来自两个域的配对数据。朱等。引入了Cyclegan模型,消除了这种昂贵的约束允许将一个图像从一个域转换为另一个域的,而无需配对数据。这项工作验证了Cyclegans在样式转移从初始草图到2D最终渲染的适用性,该渲染代表3D设计,这是每个产品设计过程中最重要的一步。我们询问将Cyclegans作为设计管道的一部分的可能性,更确切地说是应用于环设计的渲染。我们的贡献需要该过程的关键部分,因为它允许客户在购买前查看最终产品。这项工作为将来的研究树立了基础,展示了gan在设计中的可能性,并为新型应用程序建立了接近工艺设计的起点。
translated by 谷歌翻译
在本文中,我们探索了开放式剪影到照片转换,旨在将备用素描与其类标签中的徒手素描合成,即使培训数据中缺少该类的草图。由于缺乏训练监督和写法草图和照片域之间的大几何扭曲,这是挑战性的。要从照片中综合缺少的手绘草图,我们提出了一个框架,共同学习素描到照片和照片到素描生成。然而,由于合成草图和真实的域间隙,从假草图训练的发电机可能导致缺失类的草图时导致不满意的结果。为了缓解这个问题,我们进一步提出了一种简单但有效的开放式采样和优化策略,以“愚弄”将发电机视为真实的草图。我们的方法利用了域名数据的学习素描到照片和照片到草图映射,并将其概括为开放式域类。我们在涂鸦和Sketchycoco数据集上验证我们的方法。与最近的竞争方法相比,我们的方法显示令人印象深刻的成果,在综合逼真的颜色,纹理和维护各类开放式域草图的几何组合物方面。我们的代码可在https://github.com/mukosame/aoda获得
translated by 谷歌翻译
图像生成在学术界和工业领域提出了巨大的关注,特别是对于有条件和目标导向的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向实现了初步结果,但它们总是将课堂标签集中在阶级标签中作为空间内容从潜伏向量随机产生的条件。边缘细节通常模糊,因为空间信息难以保持。鉴于此,我们提出了一种新型的空间受限的生成对抗网络(SCAGAN),其从潜伏向量中分离出空间约束,并使这些约束可行作为额外的可控信号。为了增强空间可控性,发电机网络专门设计用于逐步采用语义分割,潜在的传染媒介和属性级标签作为输入。此外,构造分段网络以对发电机施加空间约束。在实验上,我们在Celeba和Deepfashion数据集中提供视觉和定量结果,并证明所提出的Scang在控制空间内容以及产生高质量图像方面非常有效。
translated by 谷歌翻译
从手绘中生成图像是内容创建的至关重要和基本任务。翻译很困难,因为存在无限的可能性,并且不同的用户通常会期望不同的结果。因此,我们提出了一个统一的框架,该框架支持基于扩散模型的草图和笔触对图像合成的三维控制。用户不仅可以确定输入笔画和草图的忠诚程度,而且还可以确定现实程度,因为用户输入通常与真实图像不一致。定性和定量实验表明,我们的框架实现了最新的性能,同时提供了具有控制形状,颜色和现实主义的自定义图像的灵活性。此外,我们的方法释放了应用程序,例如在真实图像上编辑,部分草图和笔触的生成以及多域多模式合成。
translated by 谷歌翻译
尽管具有生成对抗网络(GAN)的图像到图像(I2I)翻译的显着进步,但使用单对生成器和歧视器将图像有效地转换为多个目标域中的一组不同图像仍然具有挑战性。现有的I2i翻译方法采用多个针对不同域的特定于域的内容编码,其中每个特定于域的内容编码器仅经过来自同一域的图像的训练。然而,我们认为应从所有域之间的图像中学到内容(域变相)特征。因此,现有方案的每个特定于域的内容编码器都无法有效提取域不变特征。为了解决这个问题,我们提出了一个灵活而通用的Sologan模型,用于在多个域之间具有未配对数据的多模式I2I翻译。与现有方法相反,Solgan算法使用具有附加辅助分类器的单个投影鉴别器,并为所有域共享编码器和生成器。因此,可以使用来自所有域的图像有效地训练Solgan,从而可以有效提取域 - 不变性内容表示。在多个数据集中,针对多个同行和sologan的变体的定性和定量结果证明了该方法的优点,尤其是对于挑战i2i翻译数据集的挑战,即涉及极端形状变化的数据集或在翻译后保持复杂的背景,需要保持复杂的背景。此外,我们通过消融研究证明了Sogan中每个成分的贡献。
translated by 谷歌翻译