在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
由于协变量偏移问题,深度神经网络在应用于真实图像时很大程度上未能有效地利用合成数据。在本文中,我们通过对现有的现实主义风格转移算法应用直接修改,我们实现了最先进的合成到实际域适应结果。我们对用于语义分割和对象检测的四个合成到实际任务进行了广泛的实验验证,并且表明我们的方法超过了通过分段和对象检测度量所测量的任何当前基于GAN的图像转换方法的性能。此外,我们提供了一种基于距离的方法分析,该方法显示了源域和目标域之间的FrechetInception距离的显着减少,提供了水平度量,证明了我们的算法在合成与实际间隙的桥接中的有效性。
translated by 谷歌翻译
我们提出了一种利用条件生成对抗网络(条件GAN)从语义标签图合成高分辨率照片真实图像的新方法。条件GAN已经实现了各种应用,但结果通常仅限于低分辨率并且仍然远非现实。在这项工作中,我们生成2048x1024视觉上吸引人的结果,具有新颖的对抗性损失,以及新的多尺度发生器和识别器架构。此外,我们将框架扩展到具有两个附加功能的交互式视觉操作。首先,我们提供了对象实例分割信息,它可以实现对象操作,如删除/添加对象和更改对象类别。其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户以交互方式编辑对象外观。人类的观点研究表明,我们的方法明显优于现有方法,提高了深度图像合成的质量和分辨率。
translated by 谷歌翻译
近年来,生成对抗网络(GAN)已经证明在生成真实的外观数据方面取得了显着进展。在这项工作中,我们介绍了我们的简单方法,利用基于良好建立的基于图像的GAN的改进来合成单通道时间序列数据。我们实现了具有梯度惩罚的瓦瑟斯坦GAN(WGAN),因为它们的稳定性可以合成三种不同类型的数据;正弦数据,光电容积描记器(PPG)数据和心电图(ECG)数据。返回的时间序列数据的长度仅受图像分辨率的限制,我们使用64x64像素的图像大小,产生4096个数据点。我们提供了可视和定量证据,表明我们的新方法可以使用基于图像的GAN成功生成时间序列数据。
translated by 谷歌翻译
目前用于人类活动识别(HAR)的金标准基于相机的使用。然而,相机系统的可扩展性差使得它们在追求在移动计算环境中更广泛地采用HAR的目标上是不切实际的。因此,研究人员反而依赖于可穿戴传感器,特别是惯性传感器。一种特别流行的可穿戴设备是智能手表,由于其集成的惯性和光学传感能力,在非突出的路径中实现更好的HAR具有很大的潜力。如果通常在智能手表或类似设备中找到的腕式光学传感器可以用作数据可用性识别的有用来源,本文试图通过确定来简化可穿戴方法。该方法有可能消除对惯性传感元件的需求,这又会降低智能手表和健身追踪器的成本和复杂性。这可能潜在地考虑到HAR的硬件要求,同时保留来自单个光学传感器的心率监测和活动捕获的功能。我们的方法依赖于基于适当缩放的光信号图来采用用于活动识别的机器视觉。我们采用这种方法,以便产生易于由非技术用户解释和解释的分类。更具体地,使用光电容积描记器信号时间序列的图像来重新训练最初在ImageNet数据库上训练的卷积神经网络的倒数第二层。然后,我们使用来自倒数第二层的2048维特征作为支持向量机的输入。实验结果的平均分类准确率为92.3%。该结果优于光学和惯性传感器的组合(78%)并且使用...来说明HAR系统的能力。
translated by 谷歌翻译
最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
代词通常在诸如中文之类的支持语言中被省略,通常导致在完成翻译的产生方面的重大挑战。最近,王等人。 (2018)提出了一种新的基于重构的方法来减轻神经机器翻译模型的下降代词(DP)翻译问题。在这项工作中,我们从两个角度改进了原始模型。首先,我们采用共享的重构,更好地利用编码器和解码器表示。其次,我们共同学习以端到端的方式翻译和预测DP,以避免从外部DP预测模型传播的错误。实验结果表明,该方法显着提高了翻译性能和DP预测准确性。
translated by 谷歌翻译
深度神经网络最近通过安装在道路段上的传感器获得的时间序列数据证明了交通预测能力。然而,捕获交通数据的时空特征通常需要大量的参数来训练,增加了计算负担。在这项工作中,我们证明嵌入道路网络的拓扑信息改善了学习交通特征的过程。我们使用具有递归神经网络(RNN)的车辆道路网络的agraph来推断相邻路段之间的相互作用以及时间动力学。道路网络的拓扑结构被转换为时空图形,以形成结构RNN(SRNN)。提出的方法是验证来自西班牙桑坦德市道路网的超速数据。实验表明,基于图形的方法优于基于时空图像的最先进的方法,需要更少的参数。
translated by 谷歌翻译
自我关注网络是一种基于注意力的前馈神经网络,最近已经显示出在各种NLP任务中取代递归神经网络(RNN)的潜力。然而,目前尚不清楚自我关注网络是否是自动语音识别(ASR)中RNN的良好替代,其自动语音识别处理较长的语音序列并且可能具有在线识别要求。在本文中,我们提出了一个无RNN的端到端模型:自注意对准器(SAA),它将自注意网络应用于简化的递归神经对准器(RNA)框架。我们还提出了一种跳槽机制,它使SAA模型能够一个接一个地对分段帧块进行编码,以支持在线识别。两个Mandarin ASR数据集上的实验表明,自注意网络替代RNN会产生8.4%-10.2%的相对字符错误率(CER)减少。此外,块跳跃机制允许SAA仅具有2.5%的相对CER降级,具有320ms的延迟。在与自我关注网络语言模型联合训练后,我们的SAA模型在多个数据集上获得进一步的错误率降低。特别是,它在马来西亚ASR基准(HKUST)上达到了24.12%的CER,超过了最佳的端到端模型,超过2%的绝对CER。
translated by 谷歌翻译