语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
多情感情感分类是一种自然语言处理(NLP)问题,具有对现实世界数据的有价值的用例。我们证明了大规模无监督语言建模与微调相结合,为困难的数据集提供了实用的解决方案,包括那些具有标签类不平衡和特定领域背景的数据集。通过对40GB文本(亚马逊评论)(McAuley等人,2015)的基于训练的变形金刚网络(Vaswani等人2017)进行训练并对训练集进行微调,我们的模型在SemEval任务1上获得0.69 F1分数: Ec多维度分类问题(Mohammad等人,2018年),基于Plutchikwheel of emotions(Plutchik 1979)。这些结果与最先进的模型相比具有竞争力,包括在恐惧(0.73),厌恶(0.77)和愤怒(0.78)等困难(情绪)类别上的强劲F1分数,以及诸如预期(0.42)等罕见类别的竞争结果。惊喜(0.37)。此外,我们在真实世界文本分类任务中演示我们的应用程序。我们在几个主题上创建了一个狭窄收集的真实推文的文本数据集,并表明我们的微调模型优于通用商业可用的API,用于对该数据集的情感和多维情感分类。我们还进行了大量额外的研究,研究深度学习体系的属性,数据集和算法,以实现实际的多维情感分类。总的来说,我们发现无监督语言建模和微调是一个简单的框架,用于在现实世界情感分类中获得高质量的结果。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们提出了一种高效且可解释的场景图生成器。我们考虑了各种类型的特征:视觉,空间和语义,并且我们使用后期融合策略,以便可以明确地研究每个特征的贡献。我们研究关于这些特征的关键因素对性能的影响最大,并且还可视化学习的视觉关系的特征和研究我们的模型的功效。我们赢得了Kaggle的OpenImages视觉关系检测挑战赛的冠军,其中我们以5%的比率(20%相对)赢得第二名。我们相信精确的场景图生成器是高级视觉语言任务(如图像字幕和视觉QA)的基本踏脚石,因为它提供了超出像素和对象的图像的语义,结构化理解。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
本文描述了我们构建的模型,该模型在Kaggle的OpenImage视觉关系检测挑战中获得第一名。三个关键因素对我们的成功贡献最大:1)语言偏见是这项任务的有力基线。我们在训练集中构建经验分布$ P(谓词|主语,宾语)$并直接在测试中使用它。该基线在提交时达到了第二位; 2)空间特征与视觉特征同样重要,特别是对于空间关系,例如“下”和“内部”; 3)通过首先为每个特征构建单独的模块,然后添加它们的输出来融合不同特征是一种非常有效的方法在最终的softmax层之前进行logits。我们在消融研究中表明,每个因素都可以将性能提升到一个非平凡的程度,并且当所有这些因素结合时,模型达到最优。
translated by 谷歌翻译
在本文中,我们提出了WaveGlow:一种基于流的网络,能够从mel谱图中生成高质量的语音。 WaveGlow结合了Glow和WaveNet的见解,以提供快速,高效和高质量的音频合成,而无需自动回归。 WaveGlow仅使用单个网络实施,仅使用单一成本函数进行训练:最大化训练数据的可能性,这使得训练过程简单而稳定。我们的PyTorch实现在NVIDIA V100 GPU上以超过500 kHz的速率生成音频样本。平均意见得分表明,它提供的音频质量与最好的公开WaveNet实施一样好。所有代码都将在线公开发布。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
最近的工作已经展示了如何在大型图像数据集上快速训练卷积神经网络(CNN),然后将从这些模型中获得的知识转移到各种任务中。在[Radford 2017]之后,我们在这项工作中,针对自然语言任务,针对递归神经网络(RNN)进行了类似的可扩展性和传输。通过利用混合精度算法和分布在128个NVIDIA Tesla V100 GPU上的32k批量大小,我们能够在4小时内在40 GB Amazon Reviewsdataset的3个时期内进行字符级4096维乘法LSTM(mLSTM)的无监督文本重建。这个运行时与以前的工作一个月相比,可以在相同的数据集上训练一个历元的相同大小和配置。聚合大批量RNN模型可能具有挑战性。最近的工作建议将学习速率作为批量大小的函数进行扩展,但我们发现,简单地将学习速率作为批量大小的函数进行缩放会导致该问题的收敛或即时分歧明显更差。我们提供学习率计划,使我们的模型能够以32k批量大小收敛。由于我们的模型在数小时内收敛于Amazon Reviewsdataset,而我们的计算需求为128个Tesla V100 GPU,虽然实质上是商用的,但这项工作为大多数商业应用和深度学习研究人员开启了大规模无监督的NLP培训。模型可以在大多数公共或私人文本数据集上进行培训。
translated by 谷歌翻译
我们提出了一种利用条件生成对抗网络(条件GAN)从语义标签图合成高分辨率照片真实图像的新方法。条件GAN已经实现了各种应用,但结果通常仅限于低分辨率并且仍然远非现实。在这项工作中,我们生成2048x1024视觉上吸引人的结果,具有新颖的对抗性损失,以及新的多尺度发生器和识别器架构。此外,我们将框架扩展到具有两个附加功能的交互式视觉操作。首先,我们提供了对象实例分割信息,它可以实现对象操作,如删除/添加对象和更改对象类别。其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户以交互方式编辑对象外观。人类的观点研究表明,我们的方法明显优于现有方法,提高了深度图像合成的质量和分辨率。
translated by 谷歌翻译