人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
将对象解构为内容和风格的两个正交空间是具有挑战性的,因为每个对象可以不同地且不可预测地影响视觉观察。很少有人可以访问分离影响的大量数据帮助。在本文中,我们提出了一种新的框架,以完全无监督的方式容忍这种解缠结的表示。在双分支Autoencoder框架中解决此问题。对于结构内容分支,我们将潜在因子投影到一个软结构化的点对象中,并用先验知识得到的损失约束它。此约束鼓励分支提取几何信息。 Anotherbranch学习补充风格信息。这两个分支形成了一个有效的框架,可以解开对象的内容风格表示,而不需要任何人类注释。我们在四个图像数据集上评估我们的方法,在这些数据集上我们展示了合成和现实世界数据中的优越解开和视觉类比质量。我们能够生成具有256 * 256分辨率的非常逼真的图像,这些图像明显地解开了不确定和风格。
translated by 谷歌翻译
视频修复,其目的是在缺少视频的区域填充,仍然具有挑战性,由于保存的视频内容的精确空间andtemporal一致性的难度。在这项工作中,我们提出了一个novelflow引导视频修复方法。而不是在ofeach帧直接,我们考虑视频修补作为像素propagationproblem RGB像素填充。我们首先合成跨越使用新设计的深度流完成network.Then合成流场被用于引导的像素的传播的视频帧在空间和时间相干光流场中的视频tofill了缺失区域。具体而言,深FlowCompletion网络遵循由粗到细的改进中,完成流场,而它们的质量是由硬流程示例mining.Following完成的流的引导,缺少的视频区域可以精确befilled了进一步改善。我们的方法是在DAVIS和YouTube-VOS评价datasetsqualitatively和定量,实现国家的最先进的性能interms补绘质量和速度。
translated by 谷歌翻译
视频恢复任务,包括超分辨率,去模糊等,正在计算机视觉社区中越来越受到关注。名为REDS的具有挑战性的基准标志在NTIRE19挑战赛中发布。这个新的基准测试从两个方面挑战现有的方法:(1)如何对准多个帧给出大的运动,以及(2)如何有效地融合不同的帧与多样的运动和模糊。在这项工作中,我们提出了一种新的视频恢复框架,其具有增强的可变形网络,称为EDVR,以解决这些挑战。首先,为了处理大运动,我们设计了金字塔,级联和可变形(PCD)对齐模块,其中使用可变形卷积以粗略到精细的方式在特征级别进行帧对齐。其次,我们提出了一种时间和空间注意(TSA)融合模块,该模块在时间和空间上都应用,以强调后续恢复的重要特征。得益于这些模块,我们的EDVR赢得了冠军,并且在NTIRE19视频恢复和增强挑战中的四个轨道中大幅超越了第二名.EDVR还展示了最先进的已发布的视频超分辨率方法和去模糊。该代码可从以下网址获得://github.com/xinntao/EDVR。
translated by 谷歌翻译
特征上采样是许多现代卷积网络体系结构中的关键操作,例如,特征金字塔。它的设计对于密集预测任务(如对象检测和语义/实例分割)至关重要。在这项工作中,我们提出了内容感知重新组装功能(CARAFE),通用,轻量级和高效的运营商来实现这一目标.CARAFE有几个吸引人的属性:(1)大视野。与仅利用子像素邻域的先前作品(例如双线性插值)不同,CARAFE可以在大的接收领域内聚合上下文信息。 (2)内容感知处理。 CARAFE不是为所有样本使用固定内核(例如解卷积),而是实现特定于实例的内容感知处理,它可以即时生成自适应内核。 (3)重量轻,计算速度快。 CARAFE引入了很少的计算开销,可以很容易地集成到现代网络架构中。我们对对象检测,实例/语义分割和修复中的标准基准进行全面评估。 CARAFE在所有任务(分别为1.2%,1.3%,1.8%,1.1db)中显示出一致且显着的增益,而计算开销可忽略不计。它具有很大的潜力,可以作为未来研究的强大基石。
translated by 谷歌翻译
非常深的卷积神经网络(CNN)极大地改善了各种图像恢复任务的性能。然而,这是在增加计算负担的代价,这限制了它们的实际用途。 Webelieve认为,由于图像内的失真和内容不同,一些损坏的图像区域本身比其他区域更容易恢复。为此,我们提出Path-Restore,一种带有路径查找器的多路径CNN,可以为每个图像区域动态选择合适的路径。我们使用难度调节的奖励训练探路者使用强化学习,这与表现,复杂性和“恢复区域的难度”有关。我们进行了去噪和混合修复任务的实验。结果表明,我们的方法可以达到与现有方法相当或更优的性能,并且计算成本更低。特别是,我们的方法对于真实世界的去噪是有效的,其中噪声分布在单个图像的不同区域上变化。我们超越了最先进的CBDNET 0.94 dB并且在现实的达姆施塔特噪声数据集上运行速度提高了29%。模型和代码将被释放。
translated by 谷歌翻译
无监督的图像到图像转换旨在学习两个视觉域之间的映射。但是,学习跨大几何变化的翻译总是会失败。在这项工作中,我们提出了一个noveldisentangle-and-translate框架来处理复杂的对象图像到图像的翻译任务。我们不是直接在图像空间上学习映射,而是将图像空间解构为外观和几何潜在空间的笛卡尔积。具体来说,我们首先介绍老化前丢失和有条件的VAE损失,以鼓励网络容忍独立但互补的表示。然后分别在外观和几何空间上构建平移。大量实验证明了我们的方法在其他最先进的方法中的卓越性能,特别是在具有挑战性的近刚性和非刚性物体翻译任务中。此外,通过采用不同的样本作为外观参考,我们的方法也支持多模态翻译。项目页面:https://wywu.github.io/projects/TGaGa/TGaGa.html
translated by 谷歌翻译
对象检测框架中的常见范例是平均地处理所有样本并且目标是最大化平均性能。在这项工作中,通过仔细研究不同样本如何有助于在mAP方面衡量的整体绩效来访问这个范例。我们的研究表明,每个小批次中的样品既不是独立的非重要的,因此平均而言更好的分类器并不一定意味着更高的mAP。在这项研究的推动下,我们提出了在推动检测性能方面发挥关键作用的优先样本的概念。我们进一步开发了一种简单而有效的采样和学习策略,称为原始样本注意(PISA),指导培训过程的重点。样本。我们的实验表明,在训练探测器时,关注主要样本而不是硬样本通常更有效。特别是,在MSCOCO数据集上,PISA优于随机抽样基线和硬挖掘方案,例如: OHEM和Focal Loss,在单级和两级探测器上一直保持1%以上,具有强大的骨干ResNeXt-101。
translated by 谷歌翻译
智能代理自然地从运动中学习。各种自我监督算法利用运动线索来学习有效的视觉表现。这里的障碍是运动既模糊又复杂,使得先前的作品要么遭受学习效率降低,要么对对象运动的强烈假设。在这项工作中,我们设计了一种新的学习动作范式来弥合这些差距。我们将pretext任务设计为conditionalotion传播问题,而不是明确地模拟运动概率。给定输入图像和其上的几个稀疏流导向量,我们的框架寻求恢复全图像运动。与其他替代方案相比,我们的框架具有几个吸引人的特性:(1)在训练期间使用稀疏流动指导解决了固有的运动模糊性,并且从而简化了功能学习。 (2)解决有条件运动传播的借口任务可以促进运动声音表现的出现,这种表现力具有更强的表现力。广泛的实验证明我们的框架学习结构和连贯的特征;并在几个下游任务上实现了最先进的自我监督绩效,包括语义分割,实例分割和人工分析。此外,我们的框架已成功扩展到几个使用应用程序,如半自动像素级注释。项目页面:“http://mmlab.ie.cuhk.edu.hk/projects/CMP/”。
translated by 谷歌翻译
Cascade是一种经典但功能强大的架构,可以提升各种任务的性能。但是,如何将级联引入实例分割仍然是一个悬而未决的问题。 Cascade R-CNN和Mask R-CNNonly的简单组合带来有限的增益。在探索更有效的方法时,我们发现成功的实例分割级联的关键是充分利用检测和分割之间的相互关系。在这项工作中,我们提出了一个新的框架,混合任务级联(HTC),它在两个重要方面有所不同:(1)它们不是分别对这些两个方面进行级联细化,而是将它们交织在一起进行联合多阶段处理; (2)采用完全卷积分支提供空间背景,有助于区分硬前景与杂乱背景。总的来说,这个框架可以逐步学习更多的判别特征,同时在每个阶段将互补特征整合在一起。没有钟声和口哨,单个HTC比MSCOCO数据集上强大的CascadeMask R-CNN基线获得38.4%和1.5%的改进。更重要的是,我们的整体系统在测试挑战数据集和49.0掩模AP ontest-dev上实现了48.6掩模AP,这是最先进的性能。
translated by 谷歌翻译