我们提出了空间自适应归一化,这是一个简单但有效的层,在给定输入语义布局的情况下合成逼真的图像。以前的方法直接将语义布局作为输入提供给深层网络,然后通过堆叠的卷积,归一化和非线性层进行处理。我们证明这不是最理想的,因为规范化层倾向于“洗掉”语义信息。为了解决这个问题,我们建议使用输入布局通过空间自适应学习转换来调整规范化层中的激活。在几个具有挑战性的数据集上的实验证明了所提出的方法优于现有方法的优点,涉及视觉保真度和对齐内部布局。最后,我们的模型允许用户控制语义和风格作为合成图像。代码将在http://github.com/NVlabs/SPADE上提供。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
由于协变量偏移问题,深度神经网络在应用于真实图像时很大程度上未能有效地利用合成数据。在本文中,我们通过对现有的现实主义风格转移算法应用直接修改,我们实现了最先进的合成到实际域适应结果。我们对用于语义分割和对象检测的四个合成到实际任务进行了广泛的实验验证,并且表明我们的方法超过了通过分段和对象检测度量所测量的任何当前基于GAN的图像转换方法的性能。此外,我们提供了一种基于距离的方法分析,该方法显示了源域和目标域之间的FrechetInception距离的显着减少,提供了水平度量,证明了我们的算法在合成与实际间隙的桥接中的有效性。
translated by 谷歌翻译
我们提出了一种利用条件生成对抗网络(条件GAN)从语义标签图合成高分辨率照片真实图像的新方法。条件GAN已经实现了各种应用,但结果通常仅限于低分辨率并且仍然远非现实。在这项工作中,我们生成2048x1024视觉上吸引人的结果,具有新颖的对抗性损失,以及新的多尺度发生器和识别器架构。此外,我们将框架扩展到具有两个附加功能的交互式视觉操作。首先,我们提供了对象实例分割信息,它可以实现对象操作,如删除/添加对象和更改对象类别。其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户以交互方式编辑对象外观。人类的观点研究表明,我们的方法明显优于现有方法,提高了深度图像合成的质量和分辨率。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译
目前用于人类活动识别(HAR)的金标准基于相机的使用。然而,相机系统的可扩展性差使得它们在追求在移动计算环境中更广泛地采用HAR的目标上是不切实际的。因此,研究人员反而依赖于可穿戴传感器,特别是惯性传感器。一种特别流行的可穿戴设备是智能手表,由于其集成的惯性和光学传感能力,在非突出的路径中实现更好的HAR具有很大的潜力。如果通常在智能手表或类似设备中找到的腕式光学传感器可以用作数据可用性识别的有用来源,本文试图通过确定来简化可穿戴方法。该方法有可能消除对惯性传感元件的需求,这又会降低智能手表和健身追踪器的成本和复杂性。这可能潜在地考虑到HAR的硬件要求,同时保留来自单个光学传感器的心率监测和活动捕获的功能。我们的方法依赖于基于适当缩放的光信号图来采用用于活动识别的机器视觉。我们采用这种方法,以便产生易于由非技术用户解释和解释的分类。更具体地,使用光电容积描记器信号时间序列的图像来重新训练最初在ImageNet数据库上训练的卷积神经网络的倒数第二层。然后,我们使用来自倒数第二层的2048维特征作为支持向量机的输入。实验结果的平均分类准确率为92.3%。该结果优于光学和惯性传感器的组合(78%)并且使用...来说明HAR系统的能力。
translated by 谷歌翻译
最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
代词通常在诸如中文之类的支持语言中被省略,通常导致在完成翻译的产生方面的重大挑战。最近,王等人。 (2018)提出了一种新的基于重构的方法来减轻神经机器翻译模型的下降代词(DP)翻译问题。在这项工作中,我们从两个角度改进了原始模型。首先,我们采用共享的重构,更好地利用编码器和解码器表示。其次,我们共同学习以端到端的方式翻译和预测DP,以避免从外部DP预测模型传播的错误。实验结果表明,该方法显着提高了翻译性能和DP预测准确性。
translated by 谷歌翻译
由于其不适定的性质,单图像去雾是一个具有挑战性的问题。现有的方法依赖于次优的两步法,其中估计像深度图这样的中间产品,基于该中间产品随后使用人工生成无雾图像。先前的公式。在本文中,我们提出了一个名为LDTNet的轻型双任务神经网络,可以一次性恢复无阴影图像。我们使用传输图估计作为辅助任务来辅助主要任务,雾霾去除,特征提取和增强网络的泛化。在LDTNet中,同时产生无雾图像和透射图。结果,人工原因减少到最小程度。大量实验表明,我们的算法在合成和真实世界图像上都能够达到最先进的方法。
translated by 谷歌翻译