语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
我们通过对过去的帧和过去的光流进行条件化来提出一种用于高分辨率视频帧预测的方法。以前接近重新采样过去的帧,由学习的未来光流或像素的直接生成引导。基于流量的重新采样是不够的,因为它不能处理去除错误。生成模型目前导致模糊结果。最近的方法通过将输入补丁与预测的内核进行卷积来合成像素。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们使用空间位移卷积(SDC)模块进行视频帧预测。我们为每个像素学习运动矢量和内核,并通过在源图像中由预测运动矢量定义的位移位置处应用内核来合成像素。我们的方法继承了基于矢量和基于内核的方法的优点,同时改善了它们各自的缺点。我们在428K未标记的1080p视频游戏帧上训练我们的模型。我们的方法产生了最先进的结果,在高清YouTube-8M视频上获得0.904的SSIM评分,在CaltechPedestrian视频上获得0.918。我们的模型有效地处理大运动并合成具有一致运动的重帧。
translated by 谷歌翻译
为了便于分析人类行为,交互和情感,我们从单个单眼图像计算人体姿势,手姿势和面部表情的3D模型。为了达到这个目的,我们使用了数以千计的3D扫描来追踪新的,统一的人体3D模型,SMPL-X,它扩展了SMPL非常清晰的双手和富有表现力的脸。如果没有配对图像和3D基础事实,学习直接从图像中回归SMPL-X的参数是一项挑战。因此,我们遵循SMPLify的方法,估计2D特征,然后优化模型参数以适应特征。我们以几个显着的方式改进SMPLify:(1)我们检测对应于面部,手部和脚部的2D特征并且完全适合SMPL-X型号; (2)我们在使用大型MoCapdataset之前训练一个新的神经网络姿势; (3)我们定义了一个既快速又准确的新的互穿惩罚; (4)我们自动检测性别和适当的身体模型(男性,女性或中性); (5)我们的PyTorch实现比Chumpy实现了超过8倍的加速。我们使用新方法SMPLify-X来适应野外的SMPL-X烟草控制图像和图像。我们评估了一个新的数据集上的3D精度,该数据集包含100个具有伪地面真实性的图像。这是一种来自单眼RGB数据的steptowards自动表达人类捕获。模型,代码和数据可用于研究目的://smpl-x.is.tue.mpg.de。
translated by 谷歌翻译
X射线行李安全检查广泛用于维护航空和运输安全。特别感兴趣的是对特定类别物体(如电子,电子设备和液体)的自动安全X射线分析的关注。但是,在处理潜在的异常物品时,手动检查这些物品是一项挑战。在这里,我们提出了一种双卷积神经网络(CNN)架构,用于在复杂的安全X射线图像中进行自动异常检测。我们利用基于区域(R-CNN),基于掩模的CNN(掩模R-CNN)和检测结构(例如RetinaNet)的最新进展来为特定的感兴趣对象类提供对象定位变体。随后,利用一系列已建立的CNN对象和细粒度类别分类方法,我们在对象异常检测中将其形成为两类问题(异常或良性)。虽然最佳执行对象定位方法能够以超过六级X射线物体检测问题的97.9%平均平均精度(mAP)执行,但随后的两级异常/良性分类能够在对象异常检测中实现66%的性能。 。总的来说,这种表现既包括在杂乱的X射线安全图像的背景下对物体异常检测的挑战和承诺。
translated by 谷歌翻译
由于学习技术的进步,问题回答最近得到了人工智能社区的高度关注。早期的问答模式使用了基于规则的方法,并采用统计方法来解决大量可用的信息。然而,统计方法在处理动态性质和语言变化方面表现不佳。因此,学习模型已经显示出处理动态性质和语言变化的能力。许多深思熟虑的方法已被引入问答。与机器学习和统计方法相比,大多数深度学习方法都显示出更高的成果。语言的动态性质得益于深度学习中的非线性学习。这已经创造了突出的成功和问答的工作激增。本文讨论了在这些挑战中使用的问答系统和技术的问题和挑战。
translated by 谷歌翻译
区块链在其生命周期中会记录大量数据,这些数据在完全使用时会保留在整个数据库中。在机器人环境中,旧信息对于人类评估或者与区块链接口的神谕有用,但是对于仅需要当前信息以继续其工作的机器人来说它是无用的。这导致存储容量有限的区块链节点中的存储问题,例如在通常围绕嵌入式解决方案构建的机器人附着的节点的情况下。本文为具有有限存储容量的设备提供了一种时间分段解决方案,该解决方案集成在一个名为机器人链接的特定机器人定向区块链中。给出了关于所提出的解决方案的结果,该解决方案表明在不损害在这些容器中使用区块链所产生的所有益处的情况下达到了限制每个节点容量的目标,相反,它允许廉价节点使用该区块链,降低存储成本和允许更快地部署新节点。
translated by 谷歌翻译
非线性机器学习模型通常会因缺乏可解释性而牺牲一个很好的预测性能。然而,模型不可知解释技术现在允许我们估计任何预测模型的特征的影响和重要性。不同的符号和术语使他们的理解以及它们如何相关变得复杂。缺少对这些方法的统一观点。我们提出了广义SIPA(采样,干预,预测,聚合)工作阶段框架,用于模式诊断解释技术,并演示如何将几个突出的特征效应方法嵌入到提议的框架中。 Wealso正式引入预先存在的边际效应来描述黑盒模型的特征效应。此外,我们通过指出基于方差和基于性能的重要性度量如何基于相同的工作阶段,将框架扩展到特征重要性计算。广义框架可以作为在机器学习中进行模型不可知解释的指导。
translated by 谷歌翻译
最近已经构建了几个数据集来揭示在现有基准上训练的模型中的脆性。虽然这些挑战数据集的模型性能与原始基准相比显着降低,但尚不清楚它们揭示了哪些特定的弱点。例如,challengedataset可能很难,因为它针对的是当前模型无法捕获的现象,或者因为它只是利用模型特定训练集中的盲点。我们通过微调,一种新的分析方法来介绍接种,通过将模型(隐喻患者)暴露于来自挑战数据集(隐喻病原体)的少量数据并评估它们能够适应的程度来研究挑战数据集。我们应用我们的方法来分析NLI“压力测试”(Naik等,2018)和Adversarial SQuAD数据集(Jia andLiang,2017)。我们表明,经过轻微曝光后,其中一些数据集不再具有挑战性,而其他数据集仍然很难。我们的结果表明,挑战数据集上的失败可能导致关于模型,训练数据集和挑战数据集本身的非常不同的结论。
translated by 谷歌翻译
在本文中,我们提出了一种混合深度成像系统,其中通过来自标准数码相机的第二图像来增强非极化相机。对于设备复杂性的这种适度增加而言,与传统的极化相比,我们获得了许多好处,使我们能够克服极化形状线索的长期问题。立体声提示提供深度图,虽然粗糙,但是在度量上是准确的。这被用作使用更高阶图形模型来消除偏振表面或男性估计的歧义的引导表面。反过来,这些用于估计漫反射反照率。通过将先前的从极化形状方法扩展到透视情况,我们展示了如何计算密集,详细的绝对深度图,同时保留线性公式。我们展示了我们的混合方法能够恢复密集的3D几何形状,这种几何形状是优于现有技术的极化形状或仅两个视图立体声。
translated by 谷歌翻译