In the current person Re-identification (ReID) methods, most domain generalization works focus on dealing with style differences between domains while largely ignoring unpredictable camera view change, which we identify as another major factor leading to a poor generalization of ReID methods. To tackle the viewpoint change, this work proposes to use a 3D dense pose estimation model and a texture mapping module to map the pedestrian images to canonical view images. Due to the imperfection of the texture mapping module, the canonical view images may lose the discriminative detail clues from the original images, and thus directly using them for ReID will inevitably result in poor performance. To handle this issue, we propose to fuse the original image and canonical view image via a transformer-based module. The key insight of this design is that the cross-attention mechanism in the transformer could be an ideal solution to align the discriminative texture clues from the original image with the canonical view image, which could compensate for the low-quality texture information of the canonical view image. Through extensive experiments, we show that our method can lead to superior performance over the existing approaches in various evaluation settings.
translated by 谷歌翻译
由于其在看不见的数据域中的强大适应能力,可普遍的人重新识别(RE-ID)引起了人们的注意力。但是,现有的解决方案通常会忽略穿越摄像机(例如照明和解决方案差异)或行人未对准(例如,观点和姿势差异),这在适应新领域时很容易导致概括能力。在本文中,我们将这些困难提出为:1)相机相机(CC)问题,它表示由不同的相机引起的各种人类外观变化; 2)摄像头(CP)问题,这表明在不同的摄像机观点或更改姿势下,由相同身份人引起的行人未对准。为了解决上述问题,我们提出了一个双流生成模型(BGM),以学习与摄像机不变的全局功能和行人对准本地功能融合的细粒度表示,该功能包含编码网络和两个流解码子网络。在原始的行人图像的指导下,通过过滤跨摄像机干扰因子来学习CC问题的摄像头全局功能。对于CP问题,另一个流可以使用信息完整的语义对齐零件图来学习一个与人行人对齐的本地特征,以进行行人对齐。此外,提出了部分加权损失函数,以减少丢失零件对行人对齐的影响。广泛的实验表明,我们的方法优于大规模概括性重新ID基准的最新方法,涉及域的概括设置和跨域设置。
translated by 谷歌翻译
最近,由于受监督人员重新识别(REID)的表现不佳,域名概括(DG)人REID引起了很多关注,旨在学习一个不敏感的模型,并可以抵抗域的影响偏见。在本文中,我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论,我们提出了一种样式变量且无关紧要的学习方法(SVIL)方法,以消除样式因素对模型的影响。具体来说,我们在SVIL中设计了样式的抖动模块(SJM)。 SJM模块可以丰富特定源域的样式多样性,并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息,并对样式变化不敏感。此外,我们将SJM模块与元学习算法有机结合,从而最大程度地提高了好处并进一步提高模型的概括能力。请注意,我们的SJM模块是插件和推理,无需成本。广泛的实验证实了我们的SVIL的有效性,而我们的方法的表现优于DG-REID基准测试的最先进方法。
translated by 谷歌翻译
基于现有的基于解除拘淀的概括性的方法,即可在直接解开人称的旨在转变为域相关干扰和身份相关特征。然而,它们忽略了一些重要的特征在域相关干扰和身份相关特征中顽固地纠缠于,这是难以以无监督的方式分解的。在本文中,我们提出了一种简单但有效的校准功能分解(CFD)模块,专注于通过更明智的特征分解和强化策略来提高人员重新识别的泛化能力。具体地,校准和标准化的批量归一化(CSBN)旨在通过联合探索域内校准和域间标准化的多源域特征来学习校准的人表示。 CSBN限制每个域的特征分布的实例级别不一致,捕获内部域级别的特定统计信息。校准人称表示在细微分解为身份相关功能,域功能,剩余纠结的纠结之一。为了提高泛化能力并确保高度辨别身份相关特征,引入了校准的实例归一化(CIN)以强制执行判别ID相关信息,并滤除ID-Intrelate的信息,同时剩余的富互补线索纠缠特征进一步用于加强它。广泛的实验表明了我们框架的强烈概括能力。我们的模型由CFD模块赋予授权,显着优于多个广泛使用的基准测试的最先进的域广义方法。代码将公开:https://github.com/zkcys001/cfd。
translated by 谷歌翻译
Person re-identification plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. Recently, leveraging the supervised or semi-unsupervised learning paradigms, which benefits from the large-scale datasets and strong computing performance, has achieved a competitive performance on a specific target domain. However, when Re-ID models are directly deployed in a new domain without target samples, they always suffer from considerable performance degradation and poor domain generalization. To address this challenge, we propose a Deep Multimodal Fusion network to elaborate rich semantic knowledge for assisting in representation learning during the pre-training. Importantly, a multimodal fusion strategy is introduced to translate the features of different modalities into the common space, which can significantly boost generalization capability of Re-ID model. As for the fine-tuning stage, a realistic dataset is adopted to fine-tune the pre-trained model for better distribution alignment with real-world data. Comprehensive experiments on benchmarks demonstrate that our method can significantly outperform previous domain generalization or meta-learning methods with a clear margin. Our source code will also be publicly available at https://github.com/JeremyXSC/DMF.
translated by 谷歌翻译
域概括(DG)最近引起了人的重新识别(REID)的巨大关注。它旨在使在多个源域上培训的模型概括到未经看不见的目标域。虽然实现了有前进的进步,但现有方法通常需要要标记的源域,这可能是实际REID任务的重大负担。在本文中,我们通过假设任何源域都有任何标签可以调查Reid的无监督域泛化。为了解决这个具有挑战性的设置,我们提出了一种简单高效的域特定的自适应框架,并通过设计在批处理和实例归一化技术上的自适应归一化模块实现。在此过程中,我们成功地产生了可靠的伪标签来实现培训,并根据需要增强模型的域泛化能力。此外,我们表明,我们的框架甚至可以应用于在监督域泛化和无监督域适应的环境下改进人员Reid,展示了关于相关方法的竞争性能。对基准数据集进行了广泛的实验研究以验证所提出的框架。我们的工作的重要性在于它表明了对人Reid的无监督域概括的潜力,并为这一主题进一步研究了一个强大的基线。
translated by 谷歌翻译
人重新识别(RE-ID)在监督场景中取得了巨大成功。但是,由于模型过于适合所见源域,因此很难将监督模型直接传输到任意看不见的域。在本文中,我们旨在从数据增强的角度来解决可推广的多源人员重新ID任务(即,在培训期间看不见测试域,并且在培训期间看不见测试域,因此我们提出了一种新颖的方法,称为Mixnorm,由域感知的混合范围(DMN)和域软件中心正则化(DCR)组成。不同于常规数据增强,提出的域吸引的混合范围化,以增强从神经网络的标准化视图中训练期间特征的多样性,这可以有效地减轻模型过度适应源域,从而提高概括性。在看不见的域中模型的能力。为了更好地学习域不变的模型,我们进一步开发了域吸引的中心正规化,以更好地将产生的各种功能映射到同一空间中。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译
最近,基于神经辐射场(NERF)的进步,在3D人类渲染方面取得了迅速的进展,包括新的视图合成和姿势动画。但是,大多数现有方法集中在特定于人的培训上,他们的培训通常需要多视频视频。本文涉及一项新的挑战性任务 - 为在培训中看不见的人提供新颖的观点和新颖的姿势,仅使用多视图图像作为输入。对于此任务,我们提出了一种简单而有效的方法,以训练具有多视图像作为条件输入的可推广的NERF。关键成分是结合规范NERF和体积变形方案的专用表示。使用规范空间使我们的方法能够学习人类的共享特性,并轻松地推广到不同的人。音量变形用于将规范空间与输入和目标图像以及查询图像特征连接起来,以进行辐射和密度预测。我们利用拟合在输入图像上的参数3D人类模型来得出变形,与我们的规范NERF结合使用,它在实践中效果很好。具有新的观点合成和构成动画任务的真实和合成数据的实验共同证明了我们方法的功效。
translated by 谷歌翻译
域概括人员重新识别旨在将培训的模型应用于未经看明域。先前作品将所有培训域中的数据组合以捕获域不变的功能,或者采用专家的混合来调查特定域的信息。在这项工作中,我们争辩说,域特定和域不变的功能对于提高重新ID模型的泛化能力至关重要。为此,我们设计了一种新颖的框架,我们命名为两流自适应学习(tal),同时模拟这两种信息。具体地,提出了一种特定于域的流以捕获具有批量归一化(BN)参数的训练域统计,而自适应匹配层被设计为动态聚合域级信息。同时,我们在域不变流中设计一个自适应BN层,以近似各种看不见域的统计信息。这两个流自适应地和协作地工作,以学习更广泛的重新ID功能。我们的框架可以应用于单源和多源域泛化任务,实验结果表明我们的框架显着优于最先进的方法。
translated by 谷歌翻译
Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.
translated by 谷歌翻译
最近,无监督的人重新识别(RE-ID)引起了人们的关注,因为其开放世界情景设置有限,可用的带注释的数据有限。现有的监督方法通常无法很好地概括在看不见的域上,而无监督的方法(大多数缺乏多范围的信息),并且容易患有确认偏见。在本文中,我们旨在从两个方面从看不见的目标域上找到更好的特征表示形式,1)在标记的源域上进行无监督的域适应性和2)2)在未标记的目标域上挖掘潜在的相似性。此外,提出了一种协作伪标记策略,以减轻确认偏见的影响。首先,使用生成对抗网络将图像从源域转移到目标域。此外,引入了人身份和身份映射损失,以提高生成图像的质量。其次,我们提出了一个新颖的协作多元特征聚类框架(CMFC),以学习目标域的内部数据结构,包括全局特征和部分特征分支。全球特征分支(GB)在人体图像的全球特征上采用了无监督的聚类,而部分特征分支(PB)矿山在不同人体区域内的相似性。最后,在两个基准数据集上进行的广泛实验表明,在无监督的人重新设置下,我们的方法的竞争性能。
translated by 谷歌翻译
人重新识别(RE-ID)是视频监视系统中的一项关键技术,在监督环境中取得了重大成功。但是,由于可用源域和看不见的目标域之间的域间隙,很难将监督模型直接应用于任意看不见的域。在本文中,我们提出了一种新颖的标签分布学习(LDL)方法,以解决可推广的多源人员重新ID任务(即,有多个可用的源域,并且在培训期间看不到测试域),旨在旨在探索不同类别的关系,并减轻跨不同域的域转移,以改善模型的歧视并同时学习域不变特征。具体而言,在培训过程中,我们通过在线方式生产标签分布来挖掘不同类别的关系信息,因此它有益于提取判别特征。此外,对于每个类别的标签分布,我们进一步对其进行了修改,以更多和同等的关注该类不属于的其他域,这可以有效地减少跨不同域的域间隙并获得域不变特征。此外,我们还提供了理论分析,以证明所提出的方法可以有效地处理域转移问题。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
我们提出了CrossHuman,这是一种新颖的方法,该方法从参数人类模型和多帧RGB图像中学习了交叉指导,以实现高质量的3D人类重建。为了恢复几何细节和纹理,即使在无形区域中,我们设计了一个重建管道,结合了基于跟踪的方法和无跟踪方法。给定一个单眼RGB序列,我们在整个序列中跟踪参数人模型,与目标框架相对应的点(体素)被参数体运动扭曲为参考框架。在参数体的几何学先验和RGB序列的空间对齐特征的指导下,稳健隐式表面被融合。此外,将多帧变压器(MFT)和一个自我监管的经过修补模块集成到框架中,以放宽参数主体的要求并帮助处理非常松散的布。与以前的作品相比,我们的十字人类可以在可见的和无形区域启用高保真的几何细节和纹理,并提高人类重建的准确性,即使在估计的不准确的参数人类模型下也是如此。实验表明我们的方法达到了最新的(SOTA)性能。
translated by 谷歌翻译
我们提出了一种新方法,以从多个人的一组稀疏的多视图图像中学习通用的动画神经人类表示。学到的表示形式可用于合成一组稀疏相机的任意人的新型视图图像,并通过用户的姿势控制进一步对它们进行动画。尽管现有方法可以推广到新人,也可以通过用户控制合成动画,但它们都不能同时实现。我们将这一成就归因于用于共享多人人类模型的3D代理,并将不同姿势的空间的扭曲延伸到共享的规范姿势空间,在该空间中,我们在其中学习神经领域并预测个人和人物 - 姿势依赖性变形以及从输入图像中提取的特征的外观。为了应对身体形状,姿势和衣服变形的较大变化的复杂性,我们以分离的几何形状和外观设计神经人类模型。此外,我们在空间点和3D代理的表面点上都利用图像特征来预测人和姿势依赖性特性。实验表明,我们的方法在这两个任务上的最先进都大大优于最先进的方法。该视频和代码可在https://talegqz.github.io/neural_novel_actor上获得。
translated by 谷歌翻译
物体重新识别(REID)是生物识别和监视系统中最重要的问题之一,在过去几十年来通过图像处理和计算机视觉社区进行了广泛的研究。学习强大而判别的特征表示是对象REID的关键挑战。在REID中,基于无人机(UAV)的REID更具挑战性,因为图像的特征是飞行无人机的摄像机参数(例如,视角,海拔等)的连续变化。为了应对这一挑战,已经考虑了多尺度特征表示形式来表征来自不同海拔无人机飞行的图像。在这项工作中,我们提出了一种多任务学习方法,该方法采用新的多尺度体系结构,无卷积,金字塔视觉变压器(PVT),作为基于无人机的对象REID的骨干。通过对类内变化的不确定性建模,我们提出的模型可以使用不确定性感知对象ID和相机ID信息共同优化。实验结果报告了Prai和VRAI,这是两个REID数据集,从空中监视中验证我们提出的方法的有效性
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译
While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
translated by 谷歌翻译
尽管近年来人的重新识别取得了令人印象深刻的改善,但在实际应用程序场景中,由不同的障碍引起的常见闭塞案例仍然是一个不稳定的问题。现有方法主要通过采用额外网络提供的身体线索来区分可见部分,以解决此问题。然而,助理模型和REID数据集之间的不可避免的域间隙极大地增加了获得有效和有效模型的困难。为了摆脱额外的预训练网络并在端到端可训练网络中实现自动对齐,我们根据两个不言而喻的先验知识提出了一种新型的动态原型掩码(DPM)。具体而言,我们首先设计了一个层次蒙版生成器,该层面生成器利用层次的语义选择高质量的整体原型和闭塞输入图像的特征表示之间的可见图案空间。在这种情况下,可以自发地在选定的子空间中很好地对齐。然后,为了丰富高质量整体原型的特征表示并提供更完整的特征空间,我们引入了一个头部丰富模块,以鼓励不同的头部在整个图像中汇总不同的模式表示。对被遮挡和整体人员重新识别基准进行的广泛的实验评估证明了DPM优于最先进的方法。该代码在https://github.com/stone96123/dpm上发布。
translated by 谷歌翻译