基于余弦的softmax损失显着改善了深度识别网络的性能。然而,这些损失总是包括敏感的高参数,这可能使训练过程不稳定,并且为特定数据集设置合适的超参数是非常非常的。这通过直接设计自适应训练深度神经网络的梯度来解决这一挑战。我们首先通过分析它们的梯度来调查和统一以前的cosinesoftmax损失。这种统一的观点激发了我们一种新的梯度,称为P2SGrad(概率 - 相似度梯度),它利用余弦相似性而非分类概率直接更新测试指标以更新神经网络参数.P2SGrad是自适应的,超参数自由的,使培训过程更有效,更快捷。我们在三个面部识别基准,LFW,MegaFace和IJB-C上评估我们的P2SGrad。结果表明,P2SGrad在训练中是稳定的,对噪声具有鲁棒性,并且在所有三个基准测试中都达到了最先进的性能。
translated by 谷歌翻译
基于蒸馏的学习基于以下假设提高了小型化神经网络的性能:教师模型的表示可以用作结构化且相对弱的监督,因此可以通过小型化模型容易地学习。然而,我们发现,对于训练一个小学生模型来说,交错重型模型的表示仍然是一个强大的约束,这导致了同余损失的高下界。在这项工作中,受课程学习的启发,我们从路线学课程学习的角度考虑知识蒸馏。我们使用融合教师模型监督学生模型,而不是使用从教师模型传递的参数空间中的路径中选择的一些锚点来监督它,我们称之为路径约束优化(RCO)。我们通过实验证明这种简单的操作大大降低了同形体的下限,用于知识蒸馏,暗示和模仿学习。在像CIFAR100和ImageNet这样的密集分类任务中,RCO分别将知识分析提高了2.14%和1.5%。为了评估一般化,我们还在开放式人脸识别任务MegaFace上测试RCO。
translated by 谷歌翻译
虽然越来越大的神经网络在当下已经取得了更好的性能,但复杂的网络结构和不断增加的计算成本无法满足许多资源受限应用的需求。解决这个问题的有效途径是利用动态推理机制。现有方法通常选择通过交换结构执行或跳过整个特定的laye,这只能改变网络的深度。在本文中,我们提出了一种称为上下文感知动态块(CDB)的动态推理方法,它在推理期间提供了更多的网络宽度和深度选择。 CDB的执行由acontext-aware组控制器确定,该控制器可以同时考虑历史和对象类别信息。所提出的方法可以容易地并入大多数现代网络架构中。 ImageNet和CIFAR-100的实验结果证明了我们的方法在效率和整体分类质量方面的优越性。具体而言,我们将CDB块集成到了ResNet-101中,发现我们的方法明显优于它们的对应部分并节省了45.1%的FLOP。
translated by 谷歌翻译
人类属性分析在计算机视觉领域是一项具有挑战性的任务,因为数据在很大程度上是不平衡分布的。常用技术如重新采样和成本敏感的学习需要先验知识来训练系统。为了解决这个问题,我们提出了一个称为动态课程学习(DCL)的统一框架,以在线自适应地调整采样策略和单个批次的失败学习,从而实现更好的泛化和区分。受课程学习的启发,DCL由两个级别的课程调度员组成:(1)抽样调度员不仅管理从不平衡到平衡而且从易到难的数据分布; (2)lossscheduler控制分类和metriclearning损失之间的学习重要性。从这两个调度程序中学习,我们在广泛使用的faceattribute数据集CelebA和行人属性数据集RAP上展示了我们的DCL框架,其具有最新的最先进性能。
translated by 谷歌翻译
在本文中,我们提出了一个统一的多目标跟踪(MOT)框架学习,以充分利用长期和短期线索来处理MOT场景中的复杂情况。此外,为了更好地关联,我们提出了切换器感知分类(SAC),它考虑了潜在的身份切换监视器(切换器)。具体而言,所提出的框架包括用于捕获短期线索的单个对象跟踪(SOT)子网,用于提取长期线索的用于识别(ReID)的子网以及用于使用来自maintarget的提取的特征来进行匹配决策的切换器感知分类器。和切换器。短期线索有助于发现假阴性,而长期线索避免了发生阻塞时的严重错误,并且SAC会以有效的方式结合多个线索并提高稳健性。该方法在具有挑战性的MOT基准测试中得到评估,并实现了状态。 - 结果。
translated by 谷歌翻译
基于暹罗网络的跟踪器将跟踪表示为目标模板和搜索区域之间的卷积特征交叉相关。然而,与最先进的算法相比,暹罗追踪者仍然存在准确性差距,他们无法利用深度网络的特征,例如ResNet-50或更深层次。在这项工作中,我们证明了核心原因来自于严格的翻译不变性。通过全面的理论分析和实验验证,我们通过简单的有效空间感知采样策略打破了这一限制,并成功训练了具有显着性能增益的ResNet驱动的连体追踪器。此外,我们提出了一种新的模型架构来执行深度方向和层次方式的聚合,这不仅可以进一步提高精度,还可以减少模型的大小。我们进行了大量的消融研究,以证明所提出的跟踪器的有效性,该跟踪器目前在四个大型跟踪基准测试中获得了最佳结果,包括OTB2015,VOT2018,UAV123和LAOT。我们的模型将发布,以便在此问题的基础上进一步研究。
translated by 谷歌翻译
本文提出了一种新的目标检测框架Grid R-CNN,它采用网格引导定位机制进行精确的物体检测。与传统的基于回归的方法不同,GridR-CNN明确捕获空间信息,享有完全卷积结构的位置敏感性。我们设计了一个多点监督公式,而不是仅使用两个独立的点来编码更多的线索,以减少不准确预测特定点的影响。为了充分利用agrid中点的相关性,我们提出了一种两阶段信息融合策略来融合相邻网格点的特征映射。网格引导定位方法很容易扩展到不同的最先进的检测框架。网格R-CNN引导高质量的对象定位,并且实验证明,与具有Res50骨干和FPN架构的更快的R-CNN相比,在COCObenchmark上,在IoU = 0.8时AP增益为4.1%,在IoU = 0.9时AP增益为10.0%。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
行人属性识别因其在场景理解和监视视频人员分析方面的广泛应用而备受关注。现有方法尝试使用额外的姿势,部分或视点信息来补充属性分类的全局特征表示。然而,这些方法在定位对应于不同属性的区域时面临困难。为了解决这个问题,我们提出了一种新颖的本地化引导网络,它根据提取前提议建议和属性位置之间的关联性,为本地特征分配属性特定权重。我们的模型的优点是我们的本地特征是为每个属性自动学习的,并通过具有全局特征的交互来强调。我们展示了本地化引导网络在两个行人属性基准(PA-100K和RAP)上的有效性。我们的结果超过了之前在所有五个指标上的最新技术水平。
translated by 谷歌翻译
最近,由于其平衡的准确性和速度,连体网络在视觉跟踪社区中引起了极大的关注。然而,在大多数暹罗追踪方法中使用的特征只能区分前景与语义背景。语义背景总是被认为是干扰者,这阻碍了暹罗追踪者的稳健性。在本文中,我们专注于学习干扰器感知的Siamese网络,以实现准确和长期的跟踪。为此,首先分析了传统Siamese跟踪器中使用的功能。我们观察到训练数据的不平衡分布使得学习的特征不那么具有辨别力。在离线训练阶段,引入有效的采样策略来控制这种分布,并使模型专注于语义干扰。在推论期间,设计了一种新颖的干扰物感知模块来执行增量学习,这可以有效地将一般嵌入转移到当前视频域。此外,我们通过引入简单但有效的本地到全球搜索区域策略来扩展所提出的长期跟踪方法。基准测试的广泛实验表明,我们的方法显着优于现有技术,在VOT2016数据集中产生9.6%的相对增益,在UAV20L数据集中产生35.9%的相对增益。拟议的trackercan在短期基准测试中表现为160 FPS,在长期测试中表现为110 FPS。
translated by 谷歌翻译