监督学习培训的挑战之一是需要采购大量标记数据。解决这个问题的众所周知的方法是用副本粘贴方式使用合成数据,以便我们切割物体并将它们粘贴到相关的背景上。粘贴对象天真地导致伪像导致模型对实际数据产生差的结果。我们提出了一种在不同背景上干净地粘贴对象的新方法,以便在实际数据上创建的数据集具有竞争性能。主要重点是使用染色处理粘贴物体边界。我们在实例检测和前景分段上显示最先进的结果
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
作为一个常见的图像编辑操作,图像组成旨在将前景从一个图像切割并粘贴在另一个图像上,从而产生复合图像。但是,有许多问题可能使复合图像不现实。这些问题可以总结为前景和背景之间的不一致,包括外观不一致(例如,不兼容的照明),几何不一致(例如不合理的大小)和语义不一致(例如,不匹配的语义上下文)。先前的作品将图像组成任务分为多个子任务,其中每个子任务在一个或多个问题上目标。具体而言,对象放置旨在为前景找到合理的比例,位置和形状。图像混合旨在解决前景和背景之间的不自然边界。图像协调旨在调整前景的照明统计数据。影子生成旨在为前景产生合理的阴影。通过将所有上述努力放在一起,我们可以获取现实的复合图像。据我们所知,以前没有关于图像组成的调查。在本文中,我们对图像组成的子任务进行了全面的调查。对于每个子任务,我们总结了传统方法,基于深度学习的方法,数据集和评估。我们还指出了每个子任务中现有方法的局限性以及整个图像组成任务的问题。图像组合的数据集和代码在https://github.com/bcmi/awesome-image-composition上进行了总结。
translated by 谷歌翻译
Recently, the use of synthetic training data has been on the rise as it offers correctly labelled datasets at a lower cost. The downside of this technique is that the so-called domain gap between the real target images and synthetic training data leads to a decrease in performance. In this paper, we attempt to provide a holistic overview of how to use synthetic data for object detection. We analyse aspects of generating the data as well as techniques used to train the models. We do so by devising a number of experiments, training models on the Dataset of Industrial Metal Objects (DIMO). This dataset contains both real and synthetic images. The synthetic part has different subsets that are either exact synthetic copies of the real data or are copies with certain aspects randomised. This allows us to analyse what types of variation are good for synthetic training data and which aspects should be modelled to closely match the target data. Furthermore, we investigate what types of training techniques are beneficial towards generalisation to real data, and how to use them. Additionally, we analyse how real images can be leveraged when training on synthetic images. All these experiments are validated on real data and benchmarked to models trained on real data. The results offer a number of interesting takeaways that can serve as basic guidelines for using synthetic data for object detection. Code to reproduce results is available at https://github.com/EDM-Research/DIMO_ObjectDetection.
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
获取3D对象表示对于创建照片现实的模拟器和为AR/VR应用程序收集资产很重要。神经领域已经显示出其在学习2D图像的场景的连续体积表示方面的有效性,但是从这些模型中获取对象表示,并以较弱的监督仍然是一个开放的挑战。在本文中,我们介绍了Laterf,一种从给定的2D图像和已知相机姿势的2D图像中提取感兴趣对象的方法,对象的自然语言描述以及少数对象和非对象标签 - 输入图像中的对象点。为了忠实地从场景中提取对象,后来在每个3D点上都以其他“对象”概率扩展NERF公式。此外,我们利用预先训练的剪辑模型与我们可区分的对象渲染器相结合的丰富潜在空间来注入对象的封闭部分。我们在合成数据集和真实数据集上展示了高保真对象提取,并通过广泛的消融研究证明我们的设计选择是合理的。
translated by 谷歌翻译
在过去的十年中,对象检测任务主要由大型公共数据集定义。但是,由于图像收集和标签效率低下,构建对象检测数据集无法扩展。此外,大多数标签仍处于边界框的形式,这些框与真实的人类视觉系统所提供的信息要少得多。在本文中,我们提出了一种合成对象中的图像的方法,该图像可以保留对象的详细功能而无需带来无关的信息。简而言之,给定一组包含目标对象的图像,我们的算法首先训练一个模型以找到对象的近似中心作为锚点,然后进行轮廓回归以估算其边界,最后将对象融合到新场景中。我们的结果表明,在合成的图像中,对象的边界与背景很好地融合在一起。实验还表明,SOTA分割模型与我们的合成数据很好地工作。
translated by 谷歌翻译
最近有一个浪涌的方法,旨在以无监督的方式分解和分段场景,即无监督的多对象分段。执行此类任务是计算机愿景的长期目标,提供解锁对象级推理,而无需致密的注释来列车分段模型。尽管取得了重大进展,但在视觉上简单的场景上开发和培训了当前的模型,描绘了纯背景上的单色物体。然而,自然界在视觉上复杂,与多样化的纹理和复杂的照明效果等混杂方面。在这项研究中,我们展示了一个名为Clevrtex的新基准,设计为比较,评估和分析算法的下一个挑战。 CLEVRTEX采用具有不同形状,纹理和光映射材料的合成场景,采用物理基于渲染技术创建。它包括图50k示例,描绘了在背景上布置的3-10个对象,使用60材料的目录创建,以及使用25种不同材料创建的10k图像的另一测试集。我们在CLEVRTEX上基准最近近期无监督的多对象分段模型,并找到所有最先进的方法无法在纹理环境中学习良好的陈述,尽管在更简单的数据上表现令人印象深刻。我们还创建了Clevrtex DataSet的变体,控制了场景复杂性的不同方面,并探讨了各个缺点的当前方法。数据集和代码可在https://www.robots.ox.ac.uk/~vgg/research/clevrtex中获得。
translated by 谷歌翻译
许多开放世界应用程序需要检测新的对象,但最先进的对象检测和实例分段网络在此任务中不屈服。关键问题在于他们假设没有任何注释的地区应被抑制为否定,这教导了将未经讨犯的对象视为背景的模型。为了解决这个问题,我们提出了一个简单但令人惊讶的强大的数据增强和培训方案,我们呼唤学习来检测每件事(LDET)。为避免抑制隐藏的对象,背景对象可见但未标记,我们粘贴在从原始图像的小区域采样的背景图像上粘贴带有的注释对象。由于仅对这种综合增强的图像培训遭受域名,我们将培训与培训分为两部分:1)培训区域分类和回归头在增强图像上,2)在原始图像上训练掩模头。通过这种方式,模型不学习将隐藏对象作为背景分类,同时概括到真实图像。 LDET导致开放式世界实例分割任务中的许多数据集的重大改进,表现出CoCo上的交叉类别概括的基线,以及对UVO和城市的交叉数据集评估。
translated by 谷歌翻译
我们介绍了一种有效的策略来产生可用于培训深层学习模型的培养皿的微生物图像的合成数据集。开发的发电机采用传统的计算机视觉算法以及用于数据增强的神经风格传输方法。我们表明该方法能够合成可用于培训能够定位,分割和分类五种不同微生物物种的神经网络模型的现实看起来的数据集。我们的方法需要更少的资源来获取有用的数据集,而不是收集和标记具有注释的整个大型真实图像。我们表明,只有100个真实图像开始,我们可以生成数据以培训一个探测器,该探测器实现了相同的探测器,而是在真实的,几十次更大的数据集上培训。我们证明了微生物检测和分割方法的有用性,但我们预计它是一般而灵活的,也可以适用于其他科学和工业领域来检测各种物体。
translated by 谷歌翻译
Figure 1: Example inpainting results of our method on images of natural scene, face and texture. Missing regions are shown in white. In each pair, the left is input image and right is the direct output of our trained generative neural networks without any post-processing.
translated by 谷歌翻译
对象剪切已成为有效生成大量标记的训练数据的一种有希望的方法。它涉及将前景对象掩盖在背景图像上。背景图像与对象一致时,为培训对象识别模型提供了有用的上下文信息。尽管该方法可以轻松地生成大型标记的数据,但寻找下游任务的一致上下文图像仍然是一个难以捉摸的问题。在这项工作中,我们为自动上下文图像生成的新范式提出了一个新的范式。我们方法的核心是利用上下文和语言驱动图像生成之间的相互作用。通过在代表上下文的一小部分图像上应用图像字幕方法来提供上下文的语言描述。然后,这些语言描述用于使用基于语言的DALL-E图像生成框架来生成各种上下文图像集。然后将它们与对象合成,以提供分类器的增强培训集。我们在四个对象检测数据集上证明了方法比先前的上下文图像生成方法的优势。此外,我们还强调了数据生成方法对分布和零摄像数据生成方案的组成性质。
translated by 谷歌翻译
We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
我们建议使用实例检测(实例检测)的新方法,合成优化的布局,以预处理对象检测器具有合成图像。我们的“固体”方法由两个主要组成部分组成:(1)使用具有优化场景布置的未标记的3D模型生成合成图像;(2)在“实例检测”任务上预修对象检测器 - 给定描绘对象的查询图像,检测目标图像中完全相同对象的所有实例。我们的方法不需要任何语义标签来进行预处理,并允许使用任意,不同的3D模型。对可可的实验表明,通过优化的数据生成和适当的预处理任务,合成数据可以是预处理对象探测器的高效数据。特别是,对渲染图像进行预修会在实际图像上预处理,同时使用明显较少的计算资源,从而实现了性能竞争。代码可在https://github.com/princeton-vl/solid上找到。
translated by 谷歌翻译
图像重新定位旨在更改图像大小,同时保留重要内容并最大程度地减少明显的扭曲。但是,先前的图像重新定位方法创建了遭受工件和扭曲的输出。此外,大多数以前的作品都尝试同时重新定位输入图像的背景和前景。同时调整前景和背景会导致对象的长宽比的变化。纵横比的变化对于人类对象并不理想。我们提出了一种克服这些问题的重新定位方法。提出的方法包括以下步骤。首先,一种涂上方法使用输入图像和前景对象的二进制掩码来生成背景图像,而无需任何前景对象。其次,接缝雕刻方法将背景图像调整到目标大小。然后,一种超分辨率方法增加了输入图像质量,然后提取前景对象。最后,将重定位的背景和提取的超级分辨对象馈入粒子群优化算法(PSO)中。 PSO算法使用审美质量评估作为其目标函数,以确定将对象放置在背景中的最佳位置和大小。我们使用图像质量评估和美学质量评估措施来显示我们与流行的图像重新定位技术相比的优越结果。
translated by 谷歌翻译
现代形象染色系统,尽管取得了重大进展,往往与大型缺失区域,复杂的几何结构和高分辨率图像斗争。我们发现这是一个主要原因之一是缺乏染色网络和损失功能的有效的接受领域。为了减轻这个问题,我们提出了一种称为大面膜修正(LAMA)的新方法。喇嘛基于i)一种新的侵略网络架构,它使用具有图像宽接收领域的快速傅里叶卷曲(FFC); ii)高接受领域感性损失; iii)大型训练面具,可解锁前两个组件的潜力。我们的批准网络在一系列数据集中改善了最先进的,即使在具有挑战性的情况下也能实现出色的性能,例如,完成定期结构。我们的模型令人惊讶地展现得比在火车时间高于所看到的决议,并在比竞争性基线更低的参数和时间成本实现这一目标。代码可用于\ url {https:/github.com/saic-mdal/lama}。
translated by 谷歌翻译
对于多个实际应用,例如对象删除和图像编辑,图像介入是必不可少的任务。基于GAN的Deep Models大大改善了孔内结构和纹理的覆盖性能,但也可能产生意外的伪像,例如破裂的结构或颜色斑点。用户认为这些工件可以判断涂料模型的有效性,并修饰这些不完美的区域,以再次在典型的修饰工作流程中涂漆。受此工作流程的启发,我们提出了一项新的学习任务,以自动对知觉伪像的自动分割,并将模型应用于介入模型评估和迭代精致。具体而言,我们首先通过在最新的介入模型的结果中手动注释感知工件来构建一个新的镶嵌工件数据集。然后,我们在此数据集上训练高级细分网络,以可靠地将贴有映像的插入式伪像。其次,我们提出了一个称为感知伪影比率(PAR)的新的可解释的评估度量,该度量是令人反感的被涂料区域与整个原始区域的比率。 PAR证明了与实际用户偏好的密切相关性。最后,我们通过将我们的方法与多种最新涂料方法相结合,进一步将生成的掩码用于迭代图像介入。广泛的实验表明,在不同方法中,伪影区域的始终减少和质量改进。
translated by 谷歌翻译
近年来,人员检测和人类姿势估计已经取得了很大的进步,通过大规模标记的数据集帮助。但是,这些数据集没有保证或分析人类活动,姿势或情境多样性。此外,隐私,法律,安全和道德问题可能会限制收集更多人类数据的能力。一个新兴的替代方案,用于减轻这些问题的一些问题是合成数据。然而,综合数据生成器的创建令人难以置信的具有挑战性,并防止研究人员探索他们的实用性。因此,我们释放了一个以人为本的合成数据发生器PeoplesAnspeople,它包含模拟就绪3D人类资产,参数化照明和相机系统,并生成2D和3D边界框,实例和语义分段,以及Coco姿态标签。使用PeoplesAnspeople,我们使用Detectron2 KeyPoint R-CNN变体进行基准合成数据训练[1]。我们发现,使用合成数据进行预培训网络和对目标现实世界数据的微调(几次传输到Coco-Person Rain的有限子集[2])导致了60.37 $ 60.37 $的关键点AP( Coco Test-Dev2017)使用相同的实际数据培训的型号优于同一实际数据(35.80美元的Keypoint AP),并使用Imagenet预先培训(Keypoint AP为57.50美元)。这种自由可用的数据发生器应使其在人用于人工以人为主的计算机视野中的临界领域进行实际转移学习的新兴仿真领域。
translated by 谷歌翻译