计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
大多数场景图生成器使用两级流水线来检测视觉关系:第一级检测实体,第二级使用softmax分布预测每个实体对的预测。我们发现,仅通过谓词类的交叉熵损失训练的这种管道遭受两个常见错误。当模型混淆同一类型实体的多个实例(例如多个杯子)时,会发生第一个实体实例混淆。第二个近亲关系歧义出现在多个主谓词 - 宾语三元组与同一谓词紧密相邻时,并且该模型努力推断出正确的主语 - 对象对(例如错误配对的音乐家及其乐器)。我们提出了一套对比损失公式,它们专门针对场景图生成问题中的这些类型的错误,统称为GraphicalContrastive Lossses。这些损失明确迫使模型通过特定于每种混淆的边际约束消除相关和不相关实例的歧义。我们使用上述管道进一步构建一个称为RelDN的关系检测器,以证明我们提出的损失的功效。我们的模型在测试集上优于4.7 \%(16.5%相对)的OpenImages RelationshipDetection Challenge的获胜方法。我们还显示了对Visual Genome和VisualRelationship Detection数据集中最好的先前方法的改进结果。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们提出了一种高效且可解释的场景图生成器。我们考虑了各种类型的特征:视觉,空间和语义,并且我们使用后期融合策略,以便可以明确地研究每个特征的贡献。我们研究关于这些特征的关键因素对性能的影响最大,并且还可视化学习的视觉关系的特征和研究我们的模型的功效。我们赢得了Kaggle的OpenImages视觉关系检测挑战赛的冠军,其中我们以5%的比率(20%相对)赢得第二名。我们相信精确的场景图生成器是高级视觉语言任务(如图像字幕和视觉QA)的基本踏脚石,因为它提供了超出像素和对象的图像的语义,结构化理解。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
本文描述了我们构建的模型,该模型在Kaggle的OpenImage视觉关系检测挑战中获得第一名。三个关键因素对我们的成功贡献最大:1)语言偏见是这项任务的有力基线。我们在训练集中构建经验分布$ P(谓词|主语,宾语)$并直接在测试中使用它。该基线在提交时达到了第二位; 2)空间特征与视觉特征同样重要,特别是对于空间关系,例如“下”和“内部”; 3)通过首先为每个特征构建单独的模块,然后添加它们的输出来融合不同特征是一种非常有效的方法在最终的softmax层之前进行logits。我们在消融研究中表明,每个因素都可以将性能提升到一个非平凡的程度,并且当所有这些因素结合时,模型达到最优。
translated by 谷歌翻译
低功耗图像识别挑战(LPIRC,https://rebootingcomputing.ieee.org/lpirc)是一项于2015年开始的年度竞赛。该竞赛确定了可以有效分类和检测图像中的对象(短执行时间和低能耗)和准确(高精度)的最佳技术。四年来,获奖者的成绩提高了24倍以上。由于计算机视觉广泛用于许多电池供电系统(例如无人机和移动电话),对低功耗计算机视觉的需求将变得越来越重要。本文通过描述三种不同的轨道和获胜者的解决方案来总结LPIRC 2018。
translated by 谷歌翻译
我们研究视频到视频合成的问题,其目的是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的输出照片级真实视频的拍摄功能。虽然其图像对应图像到图像合成问题是一个热门话题,但文献中对视频到视频合成问题的研究较少。在不了解时间动态的情况下,将现有的图像合成方法直接应用于输入视频通常会导致视觉质量低的时间不连贯的视频。在本文中,我们提出了一种新的视频到视频合成方法,在生成对抗性学习框架下。通过精心设计的发生器和鉴别器架构,再加上一个时空对称物镜,我们可以在多种输入格式(包括分割面板,草图和姿势)上实现高分辨率,逼真,时间相干的视频效果。多个基准测试的实验表明,与强基线相比,我们的方法具有优势。特别是,我们的模型能够合成长达30秒的街道场景的2K分辨率视频,这显着提升了视频合成的最新技术水平。最后,我们将我们的方法应用于未来的视频预测,超越了几个最先进的竞争系统。
translated by 谷歌翻译
我们提出了一种利用条件生成对抗网络(条件GAN)从语义标签图合成高分辨率照片真实图像的新方法。条件GAN已经实现了各种应用,但结果通常仅限于低分辨率并且仍然远非现实。在这项工作中,我们生成2048x1024视觉上吸引人的结果,具有新颖的对抗性损失,以及新的多尺度发生器和识别器架构。此外,我们将框架扩展到具有两个附加功能的交互式视觉操作。首先,我们提供了对象实例分割信息,它可以实现对象操作,如删除/添加对象和更改对象类别。其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户以交互方式编辑对象外观。人类的观点研究表明,我们的方法明显优于现有方法,提高了深度图像合成的质量和分辨率。
translated by 谷歌翻译