视频修复,其目的是在缺少视频的区域填充,仍然具有挑战性,由于保存的视频内容的精确空间andtemporal一致性的难度。在这项工作中,我们提出了一个novelflow引导视频修复方法。而不是在ofeach帧直接,我们考虑视频修补作为像素propagationproblem RGB像素填充。我们首先合成跨越使用新设计的深度流完成network.Then合成流场被用于引导的像素的传播的视频帧在空间和时间相干光流场中的视频tofill了缺失区域。具体而言,深FlowCompletion网络遵循由粗到细的改进中,完成流场,而它们的质量是由硬流程示例mining.Following完成的流的引导,缺少的视频区域可以精确befilled了进一步改善。我们的方法是在DAVIS和YouTube-VOS评价datasetsqualitatively和定量,实现国家的最先进的性能interms补绘质量和速度。
translated by 谷歌翻译
生成对抗网络(GAN)的进步使得真实的面部图像合成成为可能。然而,合成保持面部身份以及在每个身份内具有高度多样性的面部图像仍然具有挑战性。为了解决这个问题,我们提出了FaceFeat-GAN,这是一种新颖的生成模型,通过使用两个版本来提高图像质量和多样性。与将随机噪声直接映射到图像的现有单阶段模型不同,我们的两阶段合成包括不同特征生成的第一阶段和特征到图像渲染的第二阶段。发电机和鉴别器之间的竞争在两个阶段都经过精心设计,具有不同的目标功能。特别地,在第一阶段,他们竞争特征域以合成各种面部特征而不是图像。在第二阶段,他们在图像域中竞争以呈现包含高度多样性但保持身份的照片真实图像。广泛的实验表明,FaceFeat-GAN生成的图像不仅保留了身份信息,而且具有高度的多样性和质量,显着优于以前的方法。
translated by 谷歌翻译
生成对抗网络(GAN)最近在许多实际应用中取得了令人印象深刻的成果,并且随着样本质量和训练稳定性的提高,出现了许多GAN变体。然而,GAN的可视化和理解在很大程度上是缺失的。 GAN如何在内部代表我们的视觉世界?是什么导致GANresults中的文物?建筑选择如何影响GAN学习?回答这些问题可以使我们能够开发新的见解和更好的模型。在这项工作中,我们提出了一个分析框架,用于在单元,对象和场景级别可视化和理解GUAN。我们首先使用基于分段的网络剖析方法识别与对象概念密切相关的一组可解释单元。然后,我们通过测量在输出中控制对象的干预能力来量化可解释单位的因果关系。最后,我们通过将发现的对象概念插入到新图像中来检查这些单元与其周围环境之间的上下文关系。我们展示了由框架实现的几个实际应用,从比较不同层,模型和数据集的内部表示,到通过定位和移除造成单元的单元来改进GAN,以交互方式操纵场景中的对象。我们提供开源解释工具,以帮助同行研究人员和实践者更好地了解他们的GAN模型。
translated by 谷歌翻译
在这项工作中,我们引入了6-DoF对象姿态估计的姿势解释器网络。与其他基于CNN的姿态估计方法相比,需要昂贵的注释对象姿势数据,我们的姿势解释器网络完全在合成姿势数据上训练。我们使用对象掩码作为中间表示来桥接真实和合成。我们表明,当与在RGB图像上训练的分段模型相结合时,我们的综合训练姿势解释器网络能够推广到真实数据。我们用于对象姿态估计的端到端系统在实时RGB数据上实时(20 Hz)运行,无需使用深度信息或ICP细化。
translated by 谷歌翻译
人类在多个层面上认识到视觉世界:我们毫不费力地将场景分类并检测其中的物体,同时还识别物体的纹理和表面以及它们的不同构图部分。在本文中,我们研究了一项名为统一感知解析的新任务,该任务要求机器视觉系统从给定图像中识别尽可能多的视觉概念。开发了一个名为UPerNet和训练策略的多任务框架,以便从异构图像注释中学习。我们对统一感知解析的框架进行了基准测试,并表明它可以有效地从图像中分割出各种各样的概念。训练有素的网络进一步应用于发现自然场景中的视觉知识。模型可在\ url {https://github.com/CSAILVision/unifiedparsing}获得。
translated by 谷歌翻译
生成场景图来描述图像中的所有关系,这些年来增加了兴趣。然而,大多数先前的方法使用具有慢推理速度的复杂结构或依赖于外部数据,这限制了模型在现实场景中的使用。为了提高场景图生成的效率,我们提出了一个基于子图的连接图,在推理过程中简洁地表示场景图。底部向上聚类方法首先用于分解整个场景图子子图,其中每个子图包含几个对象及其关系的子集。通过用较少的子图和对象特征替换图的多个关系表示,中间阶段的计算显着减少。此外,空间信息由子图特征维护,其由我们提出的空间加权消息传递〜(SMP)结构和空间敏感关系干扰〜(SRI)模块来利用以促进关系识别。在视觉关系检测和视觉基因组数据集中,我们的方法在准确性和速度方面都优于最先进的方法。
translated by 谷歌翻译
我们重新审视了卷积神经网络(CNN)中各个单元对视觉识别的重要性。通过在大规模图像数据集上训练的CNN进行单位消融实验,我们证明,吞噬任何单个单位不会损害整体分类准确性,它会导致对特定类别的准确性的显着损害。结果表明,单个单元专门用于编码与类子集相关的信息。我们计算单位消融下的准确度下降与各个单位的各种属性之间的相关性,如类选择性和权重L1范数。我们确认单位属性如类选择性对于影响总体准确性的预测不佳,这在以前的工作中已经发现了{引用{morcos2018importance}。然而,我们的结果表明,阶级选择性以及其他属性是一个单位对各个阶级重要性的良好预测。我们评估随机轮换,批量标准化和退出对单位对特定类别的重要性的影响。我们的结果表明,具有高选择性的单元在个体级别的网络分类能力中发挥着重要作用。理解和解释这些单位的行为是必要且有意义的。
translated by 谷歌翻译
We present the Moments in Time Dataset, a large-scale human-annotated collection of one million short videos corresponding to dynamic events unfolding within three seconds. Modeling the spatial-audio-temporal dynamics even for actions occurring in 3 second videos poses many challenges: meaningful events do not include only people, but also objects, animals, and natural phenomena; visual and auditory events can be symmetrical in time ("opening" is "closing" in reverse), and either transient or sustained. We describe the annotation process of our dataset (each video is tagged with one action or activity label among 339 different classes), analyze its scale and diversity in comparison to other large-scale video datasets for action recognition, and report results of several baseline models addressing separately, and jointly, three modalities: spatial, temporal and auditory. The Moments in Time dataset, designed to have a large coverage and diversity of events in both visual and auditory modalities, can serve as a new challenge to develop models that scale to the level of complexity and abstract reasoning that a human processes on a daily basis.
translated by 谷歌翻译
时间关系推理,即随时间推移对象或实体的有意义转换的能力,是知识分类的基本属性。在本文中,我们介绍了一个有效且可解释的网络模块,即时间关系网络(TRN),旨在学习和推理多个时间尺度的视频帧之间的时间依赖性。我们使用三个最近的视频数据集 - Something-Something,Jester和Charades - 对活动识别任务进行评估,从而从根本上依赖于时间关系推理。我们的研究结果表明,提出的TRN为卷积神经网络提供了显着的能力,可以发现视频中的时间关系。通过仅稀疏采样的视频帧,配备TRN的网络可以准确地预测Something-Something数据集中的人 - 物体相互作用,并在具有极具竞争力的性能的Jester数据集上识别各种人类姿势。配备TRN的网络在识别Charades数据集中的日常活动时也优于双流网络和3D卷积网络。进一步分析表明,模型在视频中学习直观和可解释的视觉常识知识。
translated by 谷歌翻译
近期深度卷积神经网络(CNN)的成功取决于学习隐藏的表示,这些表示可以总结数据背后变异的重要因素。然而,CNN经常被批评为缺乏可解释性的黑盒子,因为它们有数百万个无法解释的模型参数。在这项工作中,我们描述了网络剖析,这是一种通过为深层视觉表示单元提供标签来解释网络的方法。所提出的方法通过评估各个隐藏单元和一组视觉语义概念之间的对齐来量化CNN表示的可解释性。通过识别最佳对齐,单元可以在一系列对象,零件,场景,纹理,材料和颜色上给出人类可解释的标签。该方法揭示了深层表征比预期更透明和可解释:我们发现代表性比在随机等效强大的基础上更具可解释性。我们应用该方法来解释和比较训练过的各种网络架构的潜在表征,以解决不同的监督和自我监督的训练任务。然后,我们检查影响网络可解释性的因素,例如训练迭代次数,正则化,不同初始化以及网络深度和宽度。最后,我们展示了解释单元可用于提供CNN给出的图像预测的明确解释。我们的结果强调可解释性是深度网络的一个重要特性,为其层次结构提供了新的见解。
translated by 谷歌翻译