语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
We present a method that learns to answer visual questions by selecting imageregions relevant to the text-based query. Our method exhibits significantimprovements in answering questions such as "what color," where it is necessaryto evaluate a specific location, and "what room," where it selectivelyidentifies informative image regions. Our model is tested on the VQA datasetwhich is the largest human-annotated visual question answering dataset to ourknowledge.
translated by 谷歌翻译
准确地确定材料(有机物或无机物)的晶体结构是材料开发和分析中的关键主要步骤。最常见的实践涉及在实验室XRD,TEM和同步加速器X射线源中产生的衍射图案的分析。然而,这些技术很慢,需要仔细的样品制备,难以接近,并且在分析过程中容易出现人为错误。本文介绍了一种新开发的方法,它代表了基于电子衍射的结构分析技术的范式变化,有可能彻底改变多晶相关领域。利用电子背散射衍射(EBSD)技术,展示并演示了一种基于机器学习的方法,用于快速和自主地识别金属和合金,陶瓷和地质样品的晶体结构,而无需事先了解样品。电子背散射衍射图案是从具有众所周知的晶体结构的材料中收集的,然后构建深度神经网络模型用于分类到特定的布拉维点阵或点群。这种方法的适用性来自计算机未知的样本的衍射图案,没有任何人类输入或数据过滤。这与传统的Hough变换EBSD相比,它要求您已经确定了样本中存在的相位。通过可视化卷积神经网络学习的对称特征来阐明神经网络的内部操作。确定模型寻找晶体学家将使用的相同特征,尽管没有明确地编程这样做。这项研究打开了通过几种电子衍射技术实现晶体结构自动化,高通量测定的大门。
translated by 谷歌翻译
我们提出了一种有效的后处理方法,以减少稀疏重建锥形束CT(CBCT)图像的伪影。所提出的方法基于最先进的图像到图像生成模型,其具有作为调节的感知。与传统的CT伪影减少方法不同,我们的方法以对抗方式进行训练,在保留解剖结构的同时产生更多感知逼真的输出。为了解决固有局部且出现在各种尺度上的严重伪影,我们进一步提出了一种基于特征金字塔网络和差分调制焦点图的新型鉴别器结构,以引发对抗性训练。我们的实验结果表明,该方法可以很好地校正使用1/3投影重建的临床CBCT图像的锥束伪影,并且在定量和定性上都优于强基线方法。
translated by 谷歌翻译
生成对抗网络(GAN)已被证明是一种强大的框架,用于学习从复杂分布中提取样本。然而,GAN难以训练,模式崩溃和振荡是一个共同的问题。我们假设这至少部分是由于发电机分布的演变和神经网络的灾难性遗忘倾向,这导致鉴别器失去了从先前的发电机实例中记住合成样本的能力。认识到这一点,我们的贡献是双重的。首先,我们表明GAN训练为持续学习方法评估提供了比一些更规范的数据集更有趣和更现实的基准。其次,我们建议平衡连续学习技术以增强鉴别器,保持其识别先前发生器样本的能力。我们证明了所得到的方法仅增加了大量的计算,涉及对模型的最小改变,并且导致在检查图像和文本生成任务上更好的整体性能。
translated by 谷歌翻译
我们提出了一种高效且可解释的场景图生成器。我们考虑了各种类型的特征:视觉,空间和语义,并且我们使用后期融合策略,以便可以明确地研究每个特征的贡献。我们研究关于这些特征的关键因素对性能的影响最大,并且还可视化学习的视觉关系的特征和研究我们的模型的功效。我们赢得了Kaggle的OpenImages视觉关系检测挑战赛的冠军,其中我们以5%的比率(20%相对)赢得第二名。我们相信精确的场景图生成器是高级视觉语言任务(如图像字幕和视觉QA)的基本踏脚石,因为它提供了超出像素和对象的图像的语义,结构化理解。
translated by 谷歌翻译
我们提出了一种多尺度GAN模型,可以从单个输入面罩自动幻觉逼真的背景(前额,头发,颈部,衣服)和背景像素。我们的模型不是将面部交换到现有图片,而是根据所提供的面罩的特征直接生成逼真的背景和背景像素。与面部修复算法不同,它可以产生逼真的幻觉,即使对于大量的丢失像素也是如此。我们的模型由GAN块的级联网络组成,每个GAN块的任务是以特定分辨率幻象丢失像素,同时指导下一个GAN块的合成过程。通过在网络的每个块处使用重建,感知,对抗和身份保持损失的组合,使幻觉的全脸图像变得逼真。通过一系列广泛的实验,我们证明了我们的模型在产生与我们的训练数据不相关的多个数据集中收集的面部表情,表情和光照中面部面具变化的晕染背景和背景像素的有效性。我们还将我们的方法与两种流行的面部交换和面部完成方法在视觉质量和识别性能方面进行了比较。此外,我们分析了我们的级联管道,并与最近提出的GAN渐进式增长进行了比较。
translated by 谷歌翻译