最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
本文提出了一种卷积神经网络向后传播的分数阶梯度法。为了克服分数阶梯度法不能收敛到实际极值点的问题,基于Caputo的定义设计了简化的分数阶梯度法。层内的参数由设计的梯度方法更新,但层之间的传播仍然使用整数阶梯度,因此避免了复合函数的复杂导数,并保留链规则。通过串联连接每个层并增加损失函数,可以根据各种任务顺利地训练所提出的卷积神经网络。为了最终证明神经网络的有效性,进行了一些实际的实验。
translated by 谷歌翻译
一次性神经结构搜索(NAS)是一种很有前途的方法,可以在不进行任何单独培训的情况下显着缩短搜索时间。它可以作为来自过度参数化网络的体系结构参数的网络压缩问题。但是,大多数一次性NAS方法存在两个问题。首先,节点与其前身和后继者之间的依赖关系经常被忽视,这导致对零操作的不当处理。其次,基于他们的高度修剪架构参数是值得怀疑的。在本文中,我们采用经典的贝叶斯学习方法,通过使用分层自动相关性确定(HARD)先验建模体系结构参数来缓解这两个问题。与其他NAS方法不同,我们仅为一个训练过度参数化网络,然后更新体系结构。令人印象深刻的是,这使我们能够在使用单个GPU的0.2个GPUdays内在CIFAR-10上的代理和无代理任务中找到架构。作为副产品,我们的方法可以直接转移到压缩卷积神经网络,通过强制执行结构稀疏性,实现极其稀疏的网络而不会出现准确的恶化。
translated by 谷歌翻译
近年来,人们越来越关注设计高效的神经网络和神经网络搜索(NAS)。虽然已经实现了显着的效率和准确性,但是现有的专家设计和NAS模型预测输入实例具有不同的复杂性,因此需要不同的计算量。因此,使用通过相同转换处理所有实例的固定模型的推断会浪费大量的计算资源。需要在实例感知器中自定义模型容量。在本文中,我们引入了一个新的网络ISBNet来解决这个问题,它通过选择性地绕过无穷小重要性权重的转换分支来支持有效的实例级推理。我们还建议轻量级超网络SelectionNet以实例方式生成这些重要性权重。已经进行了大量实验来评估ISBNet的效率,结果表明ISBNet与现有网络相比具有极高的推理效果。例如,ISBNet仅具有12.45%的参数和45.79%的最先进的高效网络ShuffleNetV2的FLOP,具有相当的精度。
translated by 谷歌翻译
最近,材料显微图像语义分割的进展受到在大数据集上训练的高容量模型的驱动。然而,由于需要人力,所以用像素级标签收集显微图像是非常昂贵的。在本文中,我们提出了一种方法,用于从材料3d模拟模型中快速创建具有像素级标签的显微图像。通常,直接从那些3d模拟模型中提取的图像不够逼真。但是,很容易获得语义标签。我们引入样式转移技术,使模拟图像数据更接近真实的微观数据。我们通过使用来自实验的实际图像数据和来自Monte Carlo PottsModels的模拟图像数据来验证所呈现的方法,其模拟多晶的生长。实验表明,利用获取的模拟图像数据和样式转换技术来补充多晶铁的实际图像,可以显着提高图像处理的平均精度。此外,用模拟图像数据训练的模型和仅1/3的真实数据优于在完整的实际图像数据上训练的模型。在这种多晶材料的研究中,这种方法可以减少从显微镜获取和标记图像的压力。此外,它可以应用于其他材料图像的数量。
translated by 谷歌翻译
随着信息安全的进步,人类认可作为其核心技术,在过去的几年里吸引了越来越多的关注。无数的生物识别功能,包括指纹,面部,虹膜,已经应用于安全系统,有时被认为是易受伪造和欺骗攻击的。由于制作困难,心电图(ECG)引起了很多关注。尽管许多工作已经显示出由ECG提供的优秀的人体识别,但是大多数当前的ECGhuman识别(ECGID)研究仅关注休息情况。在本文中,我们克服了以往研究的过度简化,评估了运动和休息情况下的表现,尤其是运动对ECGID的影响。通过将各种现有的学习方法应用于我们的ECG数据集,我们发现当前的方法很好地支持对休息中的个体的识别,不足以在运动情况下表现出满足ECGID性能,因此暴露了现有ECG识别方法的缺陷。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
本文介绍了一种新的统一预训练语言模型(UniLM),可以对自然语言理解和生成任务进行微调。该模型使用三种类型的语言建模目标进行预训练:单向(从左到右和从右到左),双向和序列到序列预测。通过使用共享的变压器网络并利用特定的自注意掩模来控制预测条件的上下文来实现统一建模。我们可以将UniLM微调为单向解码器,双向编码器或序列到序列模型,以支持各种下游自然语言理解和生成任务。 UniLM在GLUE基准测试和SQuAD 2.0和CoQA问题回答任务方面优于BERT。此外,我们的模型在三个自然语言生成任务上实现了最新的结果,包括将CNN / DailyMail抽象概括ROUGE-L提高到40.63(2.16绝对改进),推动CoQA生成问题回答F1得分为82.5(绝对值37.1)改进)和SQUAD问题代BLEU-4到22.88(6.50绝对改进)。
translated by 谷歌翻译
尽管从结构化(场景图)或自由形式〜(句子)描述中产生高质量图像有一些令人兴奋的进展,但大多数仍然保证图像级语义一致性,即生成的图像匹配描述的语义。然而,它仍然缺乏以更可控的方式合成图像的研究,例如精细地操纵每个物体的视觉外观。因此,为了生成具有优选对象和丰富交互的图像,我们提出了一种表示为PasteGAN的asemi参数方法,用于从thecene图生成图像,其中对象的空间排列及其成对关系由场景图和物体外观由给定的物体作物决定。为了增强输出中对象的交互,我们设计了一个裁剪精炼网络,将对象以及它们之间的关系嵌入到一个地图中。多重损失协同工作以保证生成的图像高度尊重作物并遵守场景图,同时保持优异的图像质量。如果没有提供作物,则还建议通过编码场景图中对象周围的交互来从我们的外部对象槽中挑选最兼容的作物。通过对Visual Genome和COCO-Stuff的评估,我们提出的方法在初始得分和大学得分方面明显优于SOTA方法。广泛的实验也证明了我们的方法能够用给定的对象生成复杂多样的图像。
translated by 谷歌翻译