人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
特征上采样是许多现代卷积网络体系结构中的关键操作,例如,特征金字塔。它的设计对于密集预测任务(如对象检测和语义/实例分割)至关重要。在这项工作中,我们提出了内容感知重新组装功能(CARAFE),通用,轻量级和高效的运营商来实现这一目标.CARAFE有几个吸引人的属性:(1)大视野。与仅利用子像素邻域的先前作品(例如双线性插值)不同,CARAFE可以在大的接收领域内聚合上下文信息。 (2)内容感知处理。 CARAFE不是为所有样本使用固定内核(例如解卷积),而是实现特定于实例的内容感知处理,它可以即时生成自适应内核。 (3)重量轻,计算速度快。 CARAFE引入了很少的计算开销,可以很容易地集成到现代网络架构中。我们对对象检测,实例/语义分割和修复中的标准基准进行全面评估。 CARAFE在所有任务(分别为1.2%,1.3%,1.8%,1.1db)中显示出一致且显着的增益,而计算开销可忽略不计。它具有很大的潜力,可以作为未来研究的强大基石。
translated by 谷歌翻译
对象检测框架中的常见范例是平均地处理所有样本并且目标是最大化平均性能。在这项工作中,通过仔细研究不同样本如何有助于在mAP方面衡量的整体绩效来访问这个范例。我们的研究表明,每个小批次中的样品既不是独立的非重要的,因此平均而言更好的分类器并不一定意味着更高的mAP。在这项研究的推动下,我们提出了在推动检测性能方面发挥关键作用的优先样本的概念。我们进一步开发了一种简单而有效的采样和学习策略,称为原始样本注意(PISA),指导培训过程的重点。样本。我们的实验表明,在训练探测器时,关注主要样本而不是硬样本通常更有效。特别是,在MSCOCO数据集上,PISA优于随机抽样基线和硬挖掘方案,例如: OHEM和Focal Loss,在单级和两级探测器上一直保持1%以上,具有强大的骨干ResNeXt-101。
translated by 谷歌翻译
智能代理自然地从运动中学习。各种自我监督算法利用运动线索来学习有效的视觉表现。这里的障碍是运动既模糊又复杂,使得先前的作品要么遭受学习效率降低,要么对对象运动的强烈假设。在这项工作中,我们设计了一种新的学习动作范式来弥合这些差距。我们将pretext任务设计为conditionalotion传播问题,而不是明确地模拟运动概率。给定输入图像和其上的几个稀疏流导向量,我们的框架寻求恢复全图像运动。与其他替代方案相比,我们的框架具有几个吸引人的特性:(1)在训练期间使用稀疏流动指导解决了固有的运动模糊性,并且从而简化了功能学习。 (2)解决有条件运动传播的借口任务可以促进运动声音表现的出现,这种表现力具有更强的表现力。广泛的实验证明我们的框架学习结构和连贯的特征;并在几个下游任务上实现了最先进的自我监督绩效,包括语义分割,实例分割和人工分析。此外,我们的框架已成功扩展到几个使用应用程序,如半自动像素级注释。项目页面:“http://mmlab.ie.cuhk.edu.hk/projects/CMP/”。
translated by 谷歌翻译
Cascade是一种经典但功能强大的架构,可以提升各种任务的性能。但是,如何将级联引入实例分割仍然是一个悬而未决的问题。 Cascade R-CNN和Mask R-CNNonly的简单组合带来有限的增益。在探索更有效的方法时,我们发现成功的实例分割级联的关键是充分利用检测和分割之间的相互关系。在这项工作中,我们提出了一个新的框架,混合任务级联(HTC),它在两个重要方面有所不同:(1)它们不是分别对这些两个方面进行级联细化,而是将它们交织在一起进行联合多阶段处理; (2)采用完全卷积分支提供空间背景,有助于区分硬前景与杂乱背景。总的来说,这个框架可以逐步学习更多的判别特征,同时在每个阶段将互补特征整合在一起。没有钟声和口哨,单个HTC比MSCOCO数据集上强大的CascadeMask R-CNN基线获得38.4%和1.5%的改进。更重要的是,我们的整体系统在测试挑战数据集和49.0掩模AP ontest-dev上实现了48.6掩模AP,这是最先进的性能。
translated by 谷歌翻译
为了从2D图像中恢复3D对象姿势,一种流行的方法是对3D基础的过度完整的字典$ \ mathcal D = \ {B_i \} _ i ^ D $进行顶级训练。在测试过程中,检测到的2D姿势$ Y $通过$ Y \ approx \ sum_i M_i B_i $与字典匹配,其中$ \ {M_i \} _ i ^ D = \ {c_i \ Pi R_i \} $,通过估算旋转$ R_i $,投影$ \ Pi $和稀疏组合系数$ c \ in \ mathbb R _ {+} ^ D $。在本文中,我们提出非凸正则化$ H(c)$ tolearn系数$ c $,包括新的漏洞上限$ \ ell_1 $ -normregularization(LCNR),\ begin {align *} H(c)= \ alpha \ sum_ {i} \ min(| c_i |,\ tau)+ \ beta \ sum_ {i} \ max(| c_i |,\ tau),\ end {align *}其中$ 0 \ leq \ beta \ leq \ alpha $ $ 0 <\ tau $是一个特定的阈值,因此小于$ \ tau $的无效组件由较大的正则化和其他有效组件组成,具有较小的正则化。我们提出了一个具有凸松弛和ADMM的多阶段优化器。我们证明了估计误差$ \ mathcal L(l)$ decaysw.r.t。阶段$ l $,\ begin {align *} Pr \ left(\ mathcal L(l)<\ rho ^ {l-1} \ mathcal L(0)+ \ delta \ right)\ geq 1- \ epsilon, \ end {align *}其中$ 0 <\ rho <1,0 <\ delta,0 <\ epsilon \ ll 1 $。在诸如H36M的大型3D人类数据集上进行的实验是为了支持我们对先前方法的改进。据我们所知,这是本研究中的第一个理论分析,用于理解恢复误差如何受到基本因素的影响,例如:字典大小,观察噪声,优化时间。我们描述了速度和准确度之间的权衡,以实现应用程序中的实时推理。
translated by 谷歌翻译
主流字幕模型通常遵循顺序结构来生成字幕,导致诸如引入无关语义,生成字幕缺乏多样性以及泛化性能不足等问题。在本文中,我们提出了一种图像标题的替代范例,它将字幕过程分为两个阶段:(1)从给定图像中提取显式语义表示; (2)以abottom-up方式基于递归组合程序构建标题。与传统方法相比,我们的范式通过对语义和语法的显式分解来更好地预先保留语义内容。通过使用组合生成过程,字幕构造遵循自然符合人类语言属性的递归结构。此外,所提出的组合过程需要较少数据训练,更好地推广,并产生更多不同的字幕。
translated by 谷歌翻译
深层强化学习近年来取得了重大突破。深度RL中的大多数方法通过环境提供的随后信号的最大化来获得良好结果,通常以折扣累积回报的形式。这种奖励信号代表由代理执行的特定动作的即时反馈。但是,具有稀疏奖励信号的任务对于策略上的方法仍然具有挑战性。在本文中,我们介绍了过去奖励统计数据的有效表征(可以看作是长期反馈信号),以补充这种即时的奖励反馈。特别是,价值函数是通过多评论家监督来学习的,即使在奖励信号稀疏的情况下,也能够在政治学上更容易地近似复杂的价值函数。我们还引入了一种称为“热线”的novelexploration机制,可以增强看似陷阱的代理。我们展示了我们在Atari游戏中的离散域以及MuJoCo环境中的连续域中的优势actor -ulti-critic(A2MC)方法的有效性。视频演示通过以下网址提供://youtu.be/zBmpf3Yz8tc。
translated by 谷歌翻译
由于Generative Adversarial Networks的出现,视频合成已经取得了非凡的突破。然而,现有方法缺乏适当的表示来明确控制视频中的动态。另一方面,人体姿势可以内在地和可解释地表示运动模式,并且无论外观如何都可以实现几何约束。在本文中,我们提出了一种姿态引导方法,以解开的方式合成人类视频:合理的运动预测和连贯的外观生成。在第一阶段,姿势序列生成对抗网络(PSGAN)以对抗方式学习以产生以类标签为条件的姿势序列。在第二阶段,语义一致生成对抗网络(SCGAN)从姿势生成视频帧,同时保留输入图像中的相干外观。通过在高特征级别实施生成的和地面真实姿势之间的语义一致性,我们的SCGAN对于噪声超常的姿势具有鲁棒性。对人类行为和人类面部病症的广泛实验表明,所提出的方法优于其他人类行为。
translated by 谷歌翻译
在实际应用中,例如执法和视频检索,只需要用一个肖像就可以在长视频中搜索某个人。这比传统的人格识别设置更具挑战性,因为搜索可能需要在不同的环境中进行搜索。肖像拍了。在本文中,我们的目标是解决这一挑战并提出一个新的框架,该框架考虑了沿轨迹的同一性不变性,从而允许通过视觉和时间链接传播人物身份。我们还通过竞争共识开发了一种名为Progressive Propagation的小说方案,它显着提高了传播过程的可靠性。为了促进人物搜索的研究,我们构建了一个大型基准,其中包含来自192部电影的127K手动注释轨迹。实验表明,我们的方法明显优于主流人员re-id方法,将mAP从42.16%提高到62.27%。
translated by 谷歌翻译