智能论文笔记

TAGPerson: A Target-Aware Generation Pipeline for Person Re-identification

Kai Chen , Weihua Chen , Tao He , Rong Du , Fan Wang , Xiuyu Sun , Yuchen Guo , Guiguang Ding

分类：计算机视觉

2021-12-28

如今，在人员重新识别（Reid）任务的真实数据面临隐私问题，例如，禁止DataSet Dukemtmc-Reid。因此，收集Reid任务的真实数据变得更难。同时，标签的劳动力成本仍然很高，进一步阻碍了Reid研究的发展。因此，许多方法转向为REID算法生成合成图像作为替代方而不是真实图像。然而，合成和真实图像之间存在不可避免的领域差距。在以前的方法中，生成过程基于虚拟场景，并且无法根据不同的目标实际场景自动更改其合成训练数据。为了处理这个问题，我们提出了一种新颖的目标感知一代管道，以产生称为Tagerson的合成人物图像。具体地，它涉及参数化渲染方法，其中参数是可控的，并且可以根据目标场景调整。在Tagperson中，我们从目标场景中提取信息，并使用它们来控制我们的参数化渲染过程以生成目标感知的合成图像，这将使目标域中的实图像保持较小的间隙。在我们的实验中，我们的目标感知的合成图像可以实现比MSMT17上的广义合成图像更高的性能，即秩1精度的47.5％与40.9％。我们将发布此工具包\脚注{\ noindent代码可用于\ href {https://github.com/tagperson/tagperson-blender} {https：//github.com/tagperson/tagperson -brender}}为Reid社区以任何所需味道产生合成图像。

translated by 谷歌翻译

Less is More: Learning from Synthetic Data with Fine-grained Attributes for Person Re-Identification

Suncheng Xiang , Guanjie You , Mengyuan Guan , Hao Chen , Binjie Yan , Ting Liu , Yuzhuo Fu

分类：计算机视觉

2021-09-22

人重新识别（RE-ID）在公共安全和视频监控等应用中起着重要作用。最近，从合成数据引擎的普及中获益的合成数据学习，从公众眼中引起了极大的关注。但是，现有数据集数量，多样性和变性有限，并且不能有效地用于重新ID问题。为了解决这一挑战，我们手动构造一个名为FineGPR的大型人数据集，具有细粒度的属性注释。此外，旨在充分利用FineGPR的潜力，并推广从数百万综合数据的高效培训，我们提出了一个名为AOST的属性分析流水线，它动态地学习了真实域中的属性分布，然后消除了合成和现实世界之间的差距因此，自由地部署到新场景。在基准上进行的实验表明，FineGPR具有AOST胜过（或与）现有的实际和合成数据集，这表明其对重新ID任务的可行性，并证明了众所周知的较少的原则。我们的Synthetic FineGPR数据集可公开可用于\ URL {https://github.com/jeremyxsc/finegpr}。

translated by 谷歌翻译

Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE) Models with MineNavi

Xiangtong Wang , Binbin Liang , Menglong Yang , Wei Li

分类：计算机视觉 | 机器人

2020-08-19

基于深度学习的当前计算机视觉任务需要大量数据，并具有用于模型培训或测试的注释，尤其是在某些密集的估计任务中，例如光流分段和深度估计。实际上，密集估计任务的手动标记非常困难甚至不可能，并且数据集的场景通常仅限于较小的范围，这极大地限制了社区的发展。为了克服这种缺陷，我们提出了一种合成数据集生成方法，以获取无繁重的手动劳动力的可扩展数据集。通过这种方法，我们构建了一个名为Minenavi的数据集，该数据集包含来自飞机的第一镜头视频视频素材，并与准确的地面真相相匹配，以实现飞机导航应用中的深度估算。我们还提供定量实验，以证明通过Minenavi数据集进行预训练可以提高深度估计模型的性能，并加快模型在真实场景数据上的收敛性。由于合成数据集在深层模型的训练过程中与现实世界数据集具有相似的效果，因此我们还提供了具有单眼深度估计方法的其他实验，以证明各种因素在我们的数据集中的影响，例如照明条件和运动模式。

translated by 谷歌翻译

Deep learning-based person re-identification methods: A survey and outlook of recent works

Zhangqiang Ming , Min Zhu , Xiangkun Wang , Jiamin Zhu , Junlong Cheng , Yong Yang , Xiaoyong Wei

分类：计算机视觉

2021-10-10

近年来，随着对公共安全的需求越来越多，智能监测网络的快速发展，人员重新识别（RE-ID）已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是，传统的人重新ID方法需要手动标记人的目标，这消耗了大量的劳动力成本。随着深度神经网络的广泛应用，出现了许多基于深入的基于学习的人物的方法。因此，本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先，我们总结了对几个最近公布的人的研究重新ID调查，并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次，我们提出了一种多维分类，根据度量标准和表示学习，将基于深度学习的人的重新ID方法分为四类，包括深度度量学习，本地特征学习，生成的对抗学习和序列特征学习的方法。此外，我们根据其方法和动机来细分以上四类，讨论部分子类别的优缺点。最后，我们讨论了一些挑战和可能的研究方向的人重新ID。

translated by 谷歌翻译

Domain Camera Adaptation and Collaborative Multiple Feature Clustering for Unsupervised Person Re-ID

Yuanpeng Tu

分类：计算机视觉

2022-08-18

最近，无监督的人重新识别（RE-ID）引起了人们的关注，因为其开放世界情景设置有限，可用的带注释的数据有限。现有的监督方法通常无法很好地概括在看不见的域上，而无监督的方法（大多数缺乏多范围的信息），并且容易患有确认偏见。在本文中，我们旨在从两个方面从看不见的目标域上找到更好的特征表示形式，1）在标记的源域上进行无监督的域适应性和2）2）在未标记的目标域上挖掘潜在的相似性。此外，提出了一种协作伪标记策略，以减轻确认偏见的影响。首先，使用生成对抗网络将图像从源域转移到目标域。此外，引入了人身份和身份映射损失，以提高生成图像的质量。其次，我们提出了一个新颖的协作多元特征聚类框架（CMFC），以学习目标域的内部数据结构，包括全局特征和部分特征分支。全球特征分支（GB）在人体图像的全球特征上采用了无监督的聚类，而部分特征分支（PB）矿山在不同人体区域内的相似性。最后，在两个基准数据集上进行的广泛实验表明，在无监督的人重新设置下，我们的方法的竞争性能。

translated by 谷歌翻译

Large-Scale Spatio-Temporal Person Re-identification: Algorithms and Benchmark

Xiujun Shu , Xiao Wang , Xianghao Zang , Shiliang Zhang , Yuanqi Chen , Ge Li , Qi Tian

分类：计算机视觉

2021-05-31

具有大量空间和时间跨境的情景中的人重新识别（RE-ID）尚未完全探索。这部分原因是，现有的基准数据集主要由有限的空间和时间范围收集，例如，使用在校园特定区域的相机录制的视频中使用的视频。这种有限的空间和时间范围使得难以模拟真实情景中的人的困难。在这项工作中，我们贡献了一个新的大型时空上次最后一个数据集，包括10,862个图像，具有超过228k的图像。与现有数据集相比，最后一个具有挑战性和高度多样性的重新ID设置，以及显着更大的空间和时间范围。例如，每个人都可以出现在不同的城市或国家，以及在白天到夜间的各个时隙，以及春季到冬季的不同季节。为了我们的最佳知识，最后是一个新的Perse Re-ID数据集，具有最大的时空范围。基于最后，我们通过对14个RE-ID算法进行全面的绩效评估来验证其挑战。我们进一步提出了一种易于实施的基线，适用于如此挑战的重新ID设置。我们还验证了初步训练的模型可以在具有短期和更改方案的现有数据集中概括。我们期待持续激发未来的工程，以更现实和挑战的重新识别任务。有关DataSet的更多信息，请访问https://github.com/shuxjweb/last.git。

translated by 谷歌翻译

Analysis of Training Object Detection Models with Synthetic Data

Bram Vanherle , Steven Moonen , Frank Van Reeth , Nick Michiels

分类：计算机视觉 | 人工智能

2022-11-29

Recently, the use of synthetic training data has been on the rise as it offers correctly labelled datasets at a lower cost. The downside of this technique is that the so-called domain gap between the real target images and synthetic training data leads to a decrease in performance. In this paper, we attempt to provide a holistic overview of how to use synthetic data for object detection. We analyse aspects of generating the data as well as techniques used to train the models. We do so by devising a number of experiments, training models on the Dataset of Industrial Metal Objects (DIMO). This dataset contains both real and synthetic images. The synthetic part has different subsets that are either exact synthetic copies of the real data or are copies with certain aspects randomised. This allows us to analyse what types of variation are good for synthetic training data and which aspects should be modelled to closely match the target data. Furthermore, we investigate what types of training techniques are beneficial towards generalisation to real data, and how to use them. Additionally, we analyse how real images can be leveraged when training on synthetic images. All these experiments are validated on real data and benchmarked to models trained on real data. The results offer a number of interesting takeaways that can serve as basic guidelines for using synthetic data for object detection. Code to reproduce results is available at https://github.com/EDM-Research/DIMO_ObjectDetection.

translated by 谷歌翻译

Style Variable and Irrelevant Learning for Generalizable Person Re-identification

Haobo Chen , Chuyang Zhao , Kai Tu , Junru Chen , Yadong Li , Boxun Li

分类：计算机视觉

2022-09-12

最近，由于受监督人员重新识别（REID）的表现不佳，域名概括（DG）人REID引起了很多关注，旨在学习一个不敏感的模型，并可以抵抗域的影响偏见。在本文中，我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论，我们提出了一种样式变量且无关紧要的学习方法（SVIL）方法，以消除样式因素对模型的影响。具体来说，我们在SVIL中设计了样式的抖动模块（SJM）。 SJM模块可以丰富特定源域的样式多样性，并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息，并对样式变化不敏感。此外，我们将SJM模块与元学习算法有机结合，从而最大程度地提高了好处并进一步提高模型的概括能力。请注意，我们的SJM模块是插件和推理，无需成本。广泛的实验证实了我们的SVIL的有效性，而我们的方法的表现优于DG-REID基准测试的最先进方法。

translated by 谷歌翻译

Deep Learning for Person Re-identification: A Survey and Outlook

Mang Ye , Jianbing Shen , Gaojie Lin , Tao Xiang , Ling Shao , Steven C. H. Hoi

分类：

2020-01-13

Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.

translated by 谷歌翻译

RealGait: Gait Recognition for Person Re-Identification

Shaoxiong Zhang , Yunhong Wang , Tianrui Chai , Annan Li , Anil K. Jain

分类：计算机视觉

2022-01-13

人的步态被认为是一种独特的生物识别标识符，其可以在距离处以覆盖方式获取。但是，在受控场景中捕获的现有公共领域步态数据集接受的模型导致应用于现实世界无约束步态数据时的剧烈性能下降。另一方面，视频人员重新识别技术在大规模公共可用数据集中实现了有希望的性能。鉴于服装特性的多样性，衣物提示对于人们的认可不可靠。因此，实际上尚不清楚为什么最先进的人重新识别方法以及他们的工作。在本文中，我们通过从现有的视频人重新识别挑战中提取剪影来构建一个新的步态数据集，该挑战包括1,404人以不受约束的方式行走。基于该数据集，可以进行步态认可与人重新识别之间的一致和比较研究。鉴于我们的实验结果表明，目前在受控情景收集的数据下设计的目前的步态识别方法不适合真实监视情景，我们提出了一种名为Realgait的新型步态识别方法。我们的结果表明，在实际监视情景中识别人的步态是可行的，并且潜在的步态模式可能是视频人重新设计在实践中的真正原因。

translated by 谷歌翻译

NeSF: Neural Shading Field for Image Harmonization

Zhongyun Hu , Ntumba Elie Nsampi , Xue Wang , Qing Wang

分类：计算机视觉

2021-12-02

图像协调旨在调整前景的外观，使其更兼容背景。由于对背景照明方向缺乏了解，现有的作品无法产生现实的前景着色。在本文中，我们将图像协调分解为两个子问题：1）背景图像的照明估计和前景对象的渲染。在解决这两个子问题之前，我们首先通过神经渲染框架学习方向感知的照明描述符，其中密钥是一个着色模块，其将阴影场分解为给定深度信息的多个着色组件。然后我们设计背景照明估计模块，以从背景中提取方向感知的照明描述符。最后，照明描述符与神经渲染框架结合使用，以生成包含新颖谐波阴影的统一前景图像。此外，我们构建了一种照片 - 现实的合成图像协调数据集，其包含基于图像的照明的许多阴影变化。对该数据集的广泛实验证明了该方法的有效性。我们的数据集和代码将公开可用。

translated by 谷歌翻译

Synthetic Data in Human Analysis: A Survey

Indu Joshi , Marcel Grimmer , Christian Rathgeb , Christoph Busch , Francois Bremond , Antitza Dantcheva

分类：计算机视觉

2022-08-19

深度神经网络在人类分析中已经普遍存在，增强了应用的性能，例如生物识别识别，动作识别以及人重新识别。但是，此类网络的性能通过可用的培训数据缩放。在人类分析中，对大规模数据集的需求构成了严重的挑战，因为数据收集乏味，廉价，昂贵，并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成，作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法，在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查，总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后，我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。

translated by 谷歌翻译

TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments

Shubham Dokania , Anbumani Subramanian , Manmohan Chandraker , C. V. Jawahar

分类：计算机视觉

2022-08-16

具有丰富注释的高质量结构化数据是处理道路场景的智能车辆系统中的关键组件。但是，数据策展和注释需要大量投资并产生低多样性的情况。最近对合成数据的兴趣日益增长，提出了有关此类系统改进范围的问题，以及产生大量和变化的模拟数据所需的手动工作量。这项工作提出了一条合成数据生成管道，该管道利用现有数据集（如Nuscenes）来解决模拟数据集中存在的困难和域间隙。我们表明，使用现有数据集的注释和视觉提示，我们可以促进自动化的多模式数据生成，模仿具有高保真性的真实场景属性，以及以物理意义的方式使样本多样化的机制。我们通过提供定性和定量实验，并通过使用真实和合成数据来证明MIOU指标的改进，以实现CityScapes和Kitti-Step数据集的语义分割。所有相关代码和数据均在GitHub（https://github.com/shubham1810/trove_toolkit）上发布。

translated by 谷歌翻译

Towards Generalizable Person Re-identification with a Bi-stream Generative Model

Xin Xu , Wei Liu , Zheng Wang , Ruiming Hu , Qi Tian

分类：计算机视觉

2022-06-19

由于其在看不见的数据域中的强大适应能力，可普遍的人重新识别（RE-ID）引起了人们的注意力。但是，现有的解决方案通常会忽略穿越摄像机（例如照明和解决方案差异）或行人未对准（例如，观点和姿势差异），这在适应新领域时很容易导致概括能力。在本文中，我们将这些困难提出为：1）相机相机（CC）问题，它表示由不同的相机引起的各种人类外观变化； 2）摄像头（CP）问题，这表明在不同的摄像机观点或更改姿势下，由相同身份人引起的行人未对准。为了解决上述问题，我们提出了一个双流生成模型（BGM），以学习与摄像机不变的全局功能和行人对准本地功能融合的细粒度表示，该功能包含编码网络和两个流解码子网络。在原始的行人图像的指导下，通过过滤跨摄像机干扰因子来学习CC问题的摄像头全局功能。对于CP问题，另一个流可以使用信息完整的语义对齐零件图来学习一个与人行人对齐的本地特征，以进行行人对齐。此外，提出了部分加权损失函数，以减少丢失零件对行人对齐的影响。广泛的实验表明，我们的方法优于大规模概括性重新ID基准的最新方法，涉及域的概括设置和跨域设置。

translated by 谷歌翻译

Learning Domain Invariant Representations for Generalizable Person Re-Identification

Yi-Fan Zhang , Zhang Zhang , Da Li , Zhen Jia , Liang Wang , Tieniu Tan

分类：计算机视觉 | 机器学习

2021-03-29

更广泛的人重新识别（Reid）在最近的计算机视觉社区中引起了不断的关注。在这项工作中，我们在身份标签，特定特定因素（衣服/鞋子颜色等）和域特定因素（背景，观点等）之间构建结构因果模型。根据因果分析，我们提出了一种新颖的域不变表示，以获得概括的人重新识别（DIR-REID）框架。具体而言，我们首先建议解散特定于特定的和域特定的特征空间，我们提出了一种有效的算法实现，用于后台调整，基本上是朝向SCM的因果干预。已经进行了广泛的实验，表明Dir-Reid在大规模域泛化Reid基准上表现出最先进的方法。

translated by 谷歌翻译

Deep Multimodal Fusion for Generalizable Person Re-identification

Suncheng Xiang , Hao Chen , Wei Ran , Zefang Yu , Ting Liu , Dahong Qian , Yuzhuo Fu

分类：计算机视觉

2022-11-02

Person re-identification plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. Recently, leveraging the supervised or semi-unsupervised learning paradigms, which benefits from the large-scale datasets and strong computing performance, has achieved a competitive performance on a specific target domain. However, when Re-ID models are directly deployed in a new domain without target samples, they always suffer from considerable performance degradation and poor domain generalization. To address this challenge, we propose a Deep Multimodal Fusion network to elaborate rich semantic knowledge for assisting in representation learning during the pre-training. Importantly, a multimodal fusion strategy is introduced to translate the features of different modalities into the common space, which can significantly boost generalization capability of Re-ID model. As for the fine-tuning stage, a realistic dataset is adopted to fine-tune the pre-trained model for better distribution alignment with real-world data. Comprehensive experiments on benchmarks demonstrate that our method can significantly outperform previous domain generalization or meta-learning methods with a clear margin. Our source code will also be publicly available at https://github.com/JeremyXSC/DMF.

translated by 谷歌翻译

Human Image Generation: A Comprehensive Survey

Zhen Jia , Zhang Zhang , Liang Wang , Tieniu Tan

分类：计算机视觉

2022-12-17

Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.

translated by 谷歌翻译

Prior-Aware Synthetic Data to the Rescue: Animal Pose Estimation with Very Limited Real Data

Le Jiang , Shuangjun Liu , Xiangyu Bai , Sarah Ostadabbas

分类：计算机视觉

2022-08-30

准确注释的图像数据集是研究动物行为的重要组成部分。与我们知道并且可能存在的物种数量相比，现有的标记姿势数据集仅覆盖其中的一小部分，而构建全面的大规模数据集则非常昂贵。在这里，我们提出了一种非常数据有效的策略，该策略针对四足动物的姿势估计，该策略仅需要少量来自目标动物的真实图像。可以证实，在诸如ImageNet之类的通用图像数据集上具有预计权重的骨干网络可以减轻对目标动物姿势数据的高需求，并通过了解对物体细分和关键点估计的先验知识来缩短训练时间。但是，当面对严重的数据稀缺性（即$ <10^2 $真实图像）时，模型性能保持不令人满意，尤其是对于具有相当灵活性和几个可比零件的四肢而言。因此，我们引入了一种称为Pasyn的先前感知的合成动物数据生成管道，以增强动物姿势数据对可靠的姿势估计所必需的数据。 Pasyn通过在几种动画3D动物模型上训练变异生成模型，生成概率 - valid合成姿势数据集，突触。此外，样式转移策略被用来将合成动物形象融合到真实背景中。我们通过三个流行的骨干网络评估了方法的改进，并测试了其姿势估计的准确性，并在动物园中从真实动物中收集的公共动物姿势图像以及从真实的动物中收集的姿势估计准确性。

translated by 谷歌翻译

PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer Vision

Salehe Erfanian Ebadi , You-Cyuan Jhang , Alex Zook , Saurav Dhakad , Adam Crespi , Pete Parisi , Steven Borkman , Jonathan Hogins , Sujoy Ganguly

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-17

近年来，人员检测和人类姿势估计已经取得了很大的进步，通过大规模标记的数据集帮助。但是，这些数据集没有保证或分析人类活动，姿势或情境多样性。此外，隐私，法律，安全和道德问题可能会限制收集更多人类数据的能力。一个新兴的替代方案，用于减轻这些问题的一些问题是合成数据。然而，综合数据生成器的创建令人难以置信的具有挑战性，并防止研究人员探索他们的实用性。因此，我们释放了一个以人为本的合成数据发生器PeoplesAnspeople，它包含模拟就绪3D人类资产，参数化照明和相机系统，并生成2D和3D边界框，实例和语义分段，以及Coco姿态标签。使用PeoplesAnspeople，我们使用Detectron2 KeyPoint R-CNN变体进行基准合成数据训练[1]。我们发现，使用合成数据进行预培训网络和对目标现实世界数据的微调（几次传输到Coco-Person Rain的有限子集[2]）导致了60.37 $ 60.37 $的关键点AP（ Coco Test-Dev2017）使用相同的实际数据培训的型号优于同一实际数据（35.80美元的Keypoint AP），并使用Imagenet预先培训（Keypoint AP为57.50美元）。这种自由可用的数据发生器应使其在人用于人工以人为主的计算机视野中的临界领域进行实际转移学习的新兴仿真领域。

translated by 谷歌翻译

Object Detection Using Sim2Real Domain Randomization for Robotic Applications

Dániel Horváth , Gábor Erdős , Zoltán Istenes , Tomáš Horváth , Sándor Földi

分类：机器人 | 计算机视觉

2022-08-08

在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中，我们提出了一种基于域随机化的SIM2REAL传输学习方法，用于对象检测，可以自动生成任意大小和对象类型的标记的合成数据集。随后，对最先进的卷积神经网络Yolov4进行了训练，以检测不同类型的工业对象。通过提出的域随机化方法，我们可以在零射击和单次转移的情况下分别缩小现实差距，分别达到86.32％和97.38％的MAP50分数，其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上，数据生成过程的每图像少于0.5 s，培训持续约12H，这使其方便地用于工业使用。我们的解决方案符合工业需求，因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知，这是迄今为止满足这些约束的唯一工作。

translated by 谷歌翻译