语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们提出了一种高效且可解释的场景图生成器。我们考虑了各种类型的特征:视觉,空间和语义,并且我们使用后期融合策略,以便可以明确地研究每个特征的贡献。我们研究关于这些特征的关键因素对性能的影响最大,并且还可视化学习的视觉关系的特征和研究我们的模型的功效。我们赢得了Kaggle的OpenImages视觉关系检测挑战赛的冠军,其中我们以5%的比率(20%相对)赢得第二名。我们相信精确的场景图生成器是高级视觉语言任务(如图像字幕和视觉QA)的基本踏脚石,因为它提供了超出像素和对象的图像的语义,结构化理解。
translated by 谷歌翻译
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性,可变预后和各种异质性组织亚区域,即肿瘤周围水肿/侵入组织,坏死核心,活性和非增强核心。这种内在的异质性也被用于它们的放射性表型,因为它们的子区域通过在多参数磁共振成像(mpMRI)扫描中传播的不同强度分布来描绘,反映了不同的生物学特性。它们的异质形状,范围和位置是其中的一部分。使这些肿瘤难以切除的因素,在某些情况下无法手术。切除肿瘤的数量也是纵向扫描中考虑的一个因素,用于评估表观肿瘤以进行潜在的进展诊断。此外,有越来越多的证据表明,各种肿瘤亚区域的准确分割可以为定量图像分析提供预测患者整体的基础。生存。该研究评估了在国际脑肿瘤分割(BraTS)挑战的最后七个实例(即2012-2018)期间用于mpMRI扫描中的脑肿瘤图像分析的最先进的机器学习(ML)方法。具体而言,我们专注于i)评估术前mpMRI扫描中各种神经胶质瘤亚区的分割,ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤进展,超出RECIST标准的使用,以及iii)预测整体术前mpMRI扫描对经历完全切除的患者的生存率。最后,我们研究了为每个任务确定最佳ML算法的挑战,考虑到除了在每个挑战实例上多样化之外,多机构mpMRI BraTS数据集也是一个不断发展/不断发展的数据集。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
本文描述了我们构建的模型,该模型在Kaggle的OpenImage视觉关系检测挑战中获得第一名。三个关键因素对我们的成功贡献最大:1)语言偏见是这项任务的有力基线。我们在训练集中构建经验分布$ P(谓词|主语,宾语)$并直接在测试中使用它。该基线在提交时达到了第二位; 2)空间特征与视觉特征同样重要,特别是对于空间关系,例如“下”和“内部”; 3)通过首先为每个特征构建单独的模块,然后添加它们的输出来融合不同特征是一种非常有效的方法在最终的softmax层之前进行logits。我们在消融研究中表明,每个因素都可以将性能提升到一个非平凡的程度,并且当所有这些因素结合时,模型达到最优。
translated by 谷歌翻译
低功耗图像识别挑战(LPIRC,https://rebootingcomputing.ieee.org/lpirc)是一项于2015年开始的年度竞赛。该竞赛确定了可以有效分类和检测图像中的对象(短执行时间和低能耗)和准确(高精度)的最佳技术。四年来,获奖者的成绩提高了24倍以上。由于计算机视觉广泛用于许多电池供电系统(例如无人机和移动电话),对低功耗计算机视觉的需求将变得越来越重要。本文通过描述三种不同的轨道和获胜者的解决方案来总结LPIRC 2018。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
我们提出了一种利用条件生成对抗网络(条件GAN)从语义标签图合成高分辨率照片真实图像的新方法。条件GAN已经实现了各种应用,但结果通常仅限于低分辨率并且仍然远非现实。在这项工作中,我们生成2048x1024视觉上吸引人的结果,具有新颖的对抗性损失,以及新的多尺度发生器和识别器架构。此外,我们将框架扩展到具有两个附加功能的交互式视觉操作。首先,我们提供了对象实例分割信息,它可以实现对象操作,如删除/添加对象和更改对象类别。其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户以交互方式编辑对象外观。人类的观点研究表明,我们的方法明显优于现有方法,提高了深度图像合成的质量和分辨率。
translated by 谷歌翻译
尽管在眼周识别方面取得了进步,但野外的数据和眼周识别仍然是一个挑战。在本文中,我们通过一对共享参数(双流)卷积神经网络提出了一种多层融合方法,其中每个网络接受RGB数据和一种新颖的基于颜色的纹理描述符,即OrthogonalCombination-Local Binary Coded Pattern(OC-LBCP) )用于野外的眼周识别。具体地,在双流网络中引入两个不同的后期融合层以聚合RGB数据和OC-LBCP。因此,网络有利于后期融合层的这一新特征,以获得准确性。我们还介绍并共享一个新的野外眼周数据集,即用于基准测试的Ethnic-ocular数据集。建议的网络也在两个公开可用的数据集上进行了评估,即CASIA-irisdistance和UBIPr。建议的网络优于这些数据集上的几个竞争方法。
translated by 谷歌翻译