人员搜索是人重新识别(RE-ID)的扩展任务。但是,大多数现有的一步人搜索工作尚未研究如何使用现有的高级RE-ID模型来提高由于人员检测和重新ID的集成而促进了一步人搜索性能。为了解决这个问题,我们提出了更快,更强大的一步人搜索框架,教师导师的解解网络(TDN),使单步搜索享受现有的重新ID研究的优点。所提出的TDN可以通过将高级人的RE-ID知识转移到人员搜索模型来显着提高人员搜索性能。在提议的TDN中,为了从重新ID教师模型到单步搜索模型的更好的知识转移,我们通过部分解除两个子任务来设计一个强大的一步人搜索基础框架。此外,我们提出了一种知识转移桥模块,以弥合在重新ID模型和一步人搜索模型之间不同的输入格式引起的比例差距。在测试期间,我们进一步提出了与上下文人员战略的排名来利用全景图像中的上下文信息以便更好地检索。两个公共人员搜索数据集的实验证明了该方法的有利性能。
translated by 谷歌翻译
人员搜索统一人员检测和人重新识别(重新ID),以从全景画廊图像找到查询人员。一个主要挑战来自于不平衡的长尾人身份分布,这可以防止一步人搜索模型学习歧视性人员特征,以获得最终重新识别。但是,探索了如何解决一步人员搜索的重型不平衡的身份分布。设计用于长尾分类任务的技术,例如,图像级重新采样策略很难被有效地应用于与基于检测的多个多个多的人检测和重新ID子任务共同解决人员检测和重新ID子任务 - 框架框架。为了解决这个问题,我们提出了一个子任务主导的传输学习(STL)方法。 STL方法解决了主导的重新ID子批次的预测阶段的长尾问题,并通过转移学习来改善普试模型的一步人搜索。我们进一步设计了一个多级ROI融合池层,以提高一步人搜索的人特征的辨别能力。 Cuhk-Sysu和Prw Datasets的广泛实验证明了该方法的优越性和有效性。
translated by 谷歌翻译
人员搜索旨在同时本地化和识别从现实,无折叠图像的查询人员。为了实现这一目标,最先进的模型通常在两级探测器上添加重新ID分支,如更快的R-CNN。由于ROI对准操作,该管道产生了有希望的准确性,因为重新ID特征与相应的对象区域明确对齐,但在此同时,由于致密物体锚,它引入了高计算开销。在这项工作中,我们通过引入以下专用设计,提出了一种无限制的方法来有效地解决这一具有挑战性的任务。首先,我们选择一个无锚的探测器(即,FCO)作为我们框架的原型。由于缺乏致密物体锚,与现有人搜索模型相比,它表现出明显更高的效率。其次,当直接容纳这种免费探测器的人搜索时,在学习强大的RE-ID功能方面存在几种主要挑战,我们将其总结为不同级别的未对准问题(即规模,区域和任务)。为了解决这些问题,我们提出了一个对齐的特征聚合模块来生成更辨别性和强大的功能嵌入。因此,我们将我们的模型命名为特征对齐的人搜索网络(SimblePs)。第三,通过调查基于锚和无锚模型的优点,我们进一步增强了带有ROI对齐头的对比,这显着提高了重新ID功能的鲁棒性,同时仍然保持模型高效。在两个具有挑战性的基准(即Cuhk-Sysu和PRW)上进行的广泛实验表明,我们的框架实现了最先进的或竞争性能,同时呈现更高的效率。所有源代码,数据和培训的型号可用于:https://github.com/daodaofr/alignps。
translated by 谷歌翻译
Person Search aims to simultaneously localize and recognize a target person from realistic and uncropped gallery images. One major challenge of person search comes from the contradictory goals of the two sub-tasks, i.e., person detection focuses on finding the commonness of all persons so as to distinguish persons from the background, while person re-identification (re-ID) focuses on the differences among different persons. In this paper, we propose a novel Sequential Transformer (SeqTR) for end-to-end person search to deal with this challenge. Our SeqTR contains a detection transformer and a novel re-ID transformer that sequentially addresses detection and re-ID tasks. The re-ID transformer comprises the self-attention layer that utilizes contextual information and the cross-attention layer that learns local fine-grained discriminative features of the human body. Moreover, the re-ID transformer is shared and supervised by multi-scale features to improve the robustness of learned person representations. Extensive experiments on two widely-used person search benchmarks, CUHK-SYSU and PRW, show that our proposed SeqTR not only outperforms all existing person search methods with a 59.3% mAP on PRW but also achieves comparable performance to the state-of-the-art results with an mAP of 94.8% on CUHK-SYSU.
translated by 谷歌翻译
人员搜索旨在共同本地化和识别来自自然的查询人员,不可用的图像,这在过去几年中在计算机视觉社区中积极研究了这一图像。在本文中,我们将在全球和本地围绕目标人群的丰富的上下文信息中阐述,我们分别指的是场景和组上下文。与以前的作品单独处理这两种类型的作品,我们将它们利用统一的全球本地上下文网络(GLCNet),其具有直观的功能增强。具体地,以多级方式同时增强重新ID嵌入和上下文特征,最终导致人员搜索增强,辨别特征。我们对两个人搜索基准(即Cuhk-Sysu和PRW)进行实验,并将我们的方法扩展到更具有挑战性的环境(即,在MovieIenet上的字符搜索)。广泛的实验结果表明,在三个数据集上的最先进方法中提出的GLCNET的一致性改进。我们的源代码,预先训练的型号,以及字符搜索的新设置可以:https://github.com/zhengpeng7/llcnet。
translated by 谷歌翻译
很少有细粒度的分类和人搜索作为独特的任务和文学作品,已经分别对待了它们。但是,仔细观察揭示了重要的相似之处:这两个任务的目标类别只能由特定的对象细节歧视;相关模型应概括为新类别,而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络(QGN)。QGN由一个查询引导的暹罗引文和兴奋子网组成,该子网还重新进行了所有网络层的查询和画廊功能,一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善,在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行,我们在其中进行了深入的分析。
translated by 谷歌翻译
媒体中的人员搜索已经看到互联网应用程序的潜力,例如视频剪辑和字符集。这项任务很常见,但忽略了以前的人员搜索工作,专注于监视场景。媒体情景从监视场景中有一些不同的挑战。例如,一个人可能经常改变衣服。为了减轻这个问题,本文提出了一个统一的探测器和图形网络(UDGNET),用于媒体中的人员搜索。 UDGNET是第一个检测和重新识别人体和头部的第一个人搜索框架。具体地,它首先基于统一网络构建两个分支以检测人体和头部,然后检测到的主体和头部用于重新识别。这种双重任务方法可以显着增强歧视性学习。为了解决布料不断变化的问题,UDGNET构建了两个图形,以探索布换器样本中的可靠链接,并利用图形网络来学习更好的嵌入。这种设计有效地增强了人们搜索的鲁棒性,以改变布什挑战。此外,我们证明了UDGNET可以通过基于锚和无锚的人搜索框架来实现,并进一步实现性能改进。本文还为媒体(PSM)中的人员搜索提供了大规模数据集,其提供身体和头部注释。它是迄今为止媒体搜索的最大数据集。实验表明,UDGNET在MAP中通过12.1%提高了Anipor的模型。同时,它在监控和长期情景中显示出良好的概括。数据集和代码将可用:https://github.com/shuxjweb/psm.git。
translated by 谷歌翻译
表面缺陷检测是工业质量检查最重要的过程之一。基于深度学习的表面缺陷检测方法已显示出巨大的潜力。但是,表现出色的模型通常需要大量的训练数据,并且只能检测出在训练阶段出现的缺陷。当面对少量数据数据时,缺陷检测模型不可避免地会遭受灾难性遗忘和错误分类问题的困扰。为了解决这些问题,本文提出了一个新的知识蒸馏网络,称为双知识对齐网络(DKAN)。提出的DKAN方法遵循预处理的转移学习范式,并设计了用于微调的知识蒸馏框架。具体而言,提出了增量RCNN以实现不同类别的分离稳定特征表示。在此框架下,设计特征知识对齐(FKA)的损失是在类不足的特征图之间设计的,以解决灾难性的遗忘问题,而logit知识对准(LKA)损失在logit分布之间部署以解决错误分类问题。实验已经在递增的几个neu-det数据集上进行,结果表明,DKAN在各种几个场景上的其他方法都优于其他方法,对平均平均精度度量指标最高可达6.65%,这证明了该方法的有效性。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
无监督的人重新识别是计算机视觉中的一项具有挑战性且有前途的任务。如今,无监督的人重新识别方法通过使用伪标签培训取得了巨大进步。但是,如何以无监督的方式进行纯化的特征和标签噪声的显式研究。为了净化功能,我们考虑了来自不同本地视图的两种其他功能,以丰富功能表示。所提出的多视图功能仔细地集成到我们的群体对比度学习中,以利用全球功能容易忽略和偏见的更具歧视性线索。为了净化标签噪声,我们建议在离线方案中利用教师模型的知识。具体来说,我们首先从嘈杂的伪标签培训教师模型,然后使用教师模型指导我们的学生模型的学习。在我们的环境中,学生模型可以在教师模型的监督下快速融合,因此,随着教师模型的影响很大,嘈杂标签的干扰。在仔细处理功能学习中的噪音和偏见之后,我们的纯化模块被证明对无监督的人的重新识别非常有效。对三个受欢迎人重新识别数据集进行的广泛实验证明了我们方法的优势。尤其是,我们的方法在具有挑战性的Market-1501基准中,在完全无监督的环境下,在具有挑战性的Market-1501基准中实现了最先进的精度85.8 \%@map和94.5 \% @rank-1。代码将发布。
translated by 谷歌翻译
车辆重新识别(RE-ID)旨在通过不同的摄像机检索具有相同车辆ID的图像。当前的零件级特征学习方法通​​常通过统一的部门,外部工具或注意力建模来检测车辆零件。但是,此部分功能通常需要昂贵的额外注释,并在不可靠的零件遮罩预测的情况下导致次优性能。在本文中,我们提出了一个针对车辆重新ID的弱监督零件注意网络(Panet)和零件式网络(PMNET)。首先,Panet通过与零件相关的通道重新校准和基于群集的掩模生成无需车辆零件监管信息来定位车辆零件。其次,PMNET利用教师指导的学习来从锅et中提取特定于车辆的特定功能,并进行多尺度的全球零件特征提取。在推断过程中,PMNET可以自适应提取歧视零件特征,而无需围绕锅et定位,从而防止了不稳定的零件掩模预测。我们将重新ID问题作为一个多任务问题,并采用同质的不确定性来学习最佳的ID损失权衡。实验是在两个公共基准上进行的,这表明我们的方法优于最近的方法,这不需要额外的注释,即CMC@5的平均增加3.0%,而Veri776的MAP中不需要超过1.4%。此外,我们的方法可以扩展到遮挡的车辆重新ID任务,并具有良好的概括能力。
translated by 谷歌翻译
人员搜索是一个有关的任务,旨在共同解决人员检测和人员重新识别(RE-ID)。虽然最先前的方法侧重于学习稳健的个人功能,但由于照明,大构成方差和遮挡,仍然很难区分令人困惑的人。上下文信息实际上是人们搜索任务,这些任务在减少混淆方面搜索。为此,我们提出了一个名为注意上下文感知嵌入(ACAE)的新颖的上下文特征头,这增强了上下文信息。 Acae反复审查图像内部和图像内的该人员,以查找类似的行人模式,允许它隐含地学会找到可能的共同旅行者和有效地模范上下文相关的实例的关系。此外,我们提出了图像记忆库来提高培训效率。实验上,ACAE在基于不同的一步法时显示出广泛的促销。我们的整体方法实现了最先进的结果与先前的一步法。
translated by 谷歌翻译
人搜索是多个子任务的集成任务,例如前景/背景分类,边界框回归和人员重新识别。因此,人搜索是一个典型的多任务学习问题,尤其是在以端到端方式解决时。最近,一些作品通过利用各种辅助信息,例如人关节关键点,身体部位位置,属性等,这带来了更多的任务并使人搜索模型更加复杂。每个任务的不一致的趋同率可能会损害模型优化。一个直接的解决方案是手动为不同的任务分配不同的权重,以补偿各种融合率。但是,鉴于人搜索的特殊情况,即有大量任务,手动加权任务是不切实际的。为此,我们提出了一种分组的自适应减肥方法(GALW)方法,该方法会自动和动态地调整每个任务的权重。具体而言,我们根据其收敛率对任务进行分组。同一组中的任务共享相同的可学习权重,这是通过考虑损失不确定性动态分配的。对两个典型基准(Cuhk-Sysu and Prw)的实验结果证明了我们方法的有效性。
translated by 谷歌翻译
人搜索是一项具有挑战性的任务,旨在实现共同的行人检测和人重新识别(REID)。以前的作品在完全和弱监督的设置下取得了重大进步。但是,现有方法忽略了人搜索模型的概括能力。在本文中,我们采取了进一步的步骤和现在的域自适应人员搜索(DAPS),该搜索旨在将模型从标记的源域概括为未标记的目标域。在这种新环境下出现了两个主要挑战:一个是如何同时解决检测和重新ID任务的域未对准问题,另一个是如何在目标域上训练REID子任务而不可靠的检测结果。为了应对这些挑战,我们提出了一个强大的基线框架,并使用两个专用设计。 1)我们设计一个域对齐模块,包括图像级和任务敏感的实例级别对齐,以最大程度地减少域差异。 2)我们通过动态聚类策略充分利用未标记的数据,并使用伪边界框来支持目标域上的REID和检测训练。通过上述设计,我们的框架在MAP中获得了34.7%的地图,而PRW数据集的TOP-1则达到80.6%,超过了直接转移基线的大幅度。令人惊讶的是,我们无监督的DAPS模型的性能甚至超过了一些完全和弱监督的方法。该代码可在https://github.com/caposerenity/daps上找到。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
In recent years, Siamese network based trackers have significantly advanced the state-of-the-art in real-time tracking. Despite their success, Siamese trackers tend to suffer from high memory costs, which restrict their applicability to mobile devices with tight memory budgets. To address this issue, we propose a distilled Siamese tracking framework to learn small, fast and accurate trackers (students), which capture critical knowledge from large Siamese trackers (teachers) by a teacher-students knowledge distillation model. This model is intuitively inspired by the one teacher vs. multiple students learning method typically employed in schools. In particular, our model contains a single teacher-student distillation module and a student-student knowledge sharing mechanism. The former is designed using a tracking-specific distillation strategy to transfer knowledge from a teacher to students. The latter is utilized for mutual learning between students to enable in-depth knowledge understanding. Extensive empirical evaluations on several popular Siamese trackers demonstrate the generality and effectiveness of our framework. Moreover, the results on five tracking benchmarks show that the proposed distilled trackers achieve compression rates of up to 18$\times$ and frame-rates of $265$ FPS, while obtaining comparable tracking accuracy compared to base models.
translated by 谷歌翻译
Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译
可见红外人重新识别(VI-REID)由于可见和红外模式之间存在较大的差异而受到挑战。大多数开创性方法通过学习模态共享和ID相关的功能来降低类内变型和跨性间差异。但是,在VI-REID中尚未充分利用一个显式模态共享提示。此外,现有特征学习范例在全局特征或分区特征条带上强加约束,忽略了全局和零件特征的预测一致性。为了解决上述问题,我们将构成估算作为辅助学习任务,以帮助vi-reid任务在端到端的框架中。通过以互利的方式联合培训这两个任务,我们的模型学习了更高质量的模态共享和ID相关的功能。在它之上,通过分层特征约束(HFC)无缝同步全局功能和本地特征的学习,前者使用知识蒸馏策略监督后者。两个基准VI-REID数据集的实验结果表明,该方法始终如一地通过显着的利润来改善最先进的方法。具体而言,我们的方法在RegDB数据集上取决于针对最先进的方法的近20美元\%$地图改进。我们的兴趣调查结果突出了vi-reid中辅助任务学习的使用。
translated by 谷歌翻译
近年来,大规模的深层模型取得了巨大的成功,但巨大的计算复杂性和大规模的存储要求使其在资源限制设备中部署它们是一个巨大的挑战。作为模型压缩和加速度方法,知识蒸馏通过从教师探测器转移黑暗知识有效提高了小型模型的性能。然而,大多数基于蒸馏的检测方法主要模仿近边界盒附近的特征,这遭受了两个限制。首先,它们忽略边界盒外面的有益特征。其次,这些方法模仿一些特征,这些特征被教师探测器被错误地被视为背景。为了解决上述问题,我们提出了一种新颖的特征性 - 丰富的评分(FRS)方法,可以选择改善蒸馏过程中的广义可检测性的重要特征。所提出的方法有效地检索边界盒外面的重要特征,并消除边界盒内的有害特征。广泛的实验表明,我们的方法在基于锚和无锚探测器上实现了出色的性能。例如,具有Reset-50的RetinAnet在Coco2017数据集上达到39.7%,甚至超过基于Reset-101的教师检测器38.9%甚至超过0.8%。
translated by 谷歌翻译