深度学习模型在机器人技术中的有用性在很大程度上取决于培训数据的可用性。培训数据的手动注释通常是不可行的。合成数据是可行的替代方法,但遭受了域间隙。我们提出了一种多步方法,以获取训练数据而无需手动注释:从3D对象网格中,我们使用现代合成管道生成图像。我们利用一种最先进的图像到图像翻译方法来使合成图像适应真实域,以学习的方式最大程度地减少域间隙。翻译网络是从未配对的图像中训练的,即仅需要未经通知的真实图像集合。然后,生成和精致的图像可用于训练深度学习模型以完成特定任务。我们还建议并评估翻译方法的扩展,以进一步提高性能,例如基于补丁的训练,从而缩短了训练时间并增加了全球一致性。我们评估我们的方法并证明其在两个机器人数据集上的有效性。我们终于深入了解了博学的改进操作。
translated by 谷歌翻译
深度学习的关键批评之一是,需要大量昂贵且难以获得的训练数据,以便培训具有高性能和良好的概率功能的模型。专注于通过场景坐标回归(SCR)的单眼摄像机姿势估计的任务,我们描述了一种新的方法,用于相机姿势估计(舞蹈)网络的域改编,这使得培训模型无需访问目标任务上的任何标签。舞蹈需要未标记的图像(没有已知的姿势,订购或场景坐标标签)和空间的3D表示(例如,扫描点云),这两者都可以使用现成的商品硬件最少的努力来捕获。舞蹈渲染从3D模型标记的合成图像,通过应用无监督的图像级域适应技术(未配对图像到图像转换)来桥接合成和实图像之间的不可避免的域间隙。在实际图像上进行测试时,舞蹈培训的SCR模型在成本的一小部分中对其完全监督的对应物(在两种情况下使用PNP-RANSAC进行最终姿势估算的情况下)进行了相当的性能。我们的代码和数据集可以在https://github.com/jacklangerman/dance获得
translated by 谷歌翻译
With recent progress in graphics, it has become more tractable to train models on synthetic images, potentially avoiding the need for expensive annotations. However, learning from synthetic images may not achieve the desired performance due to a gap between synthetic and real image distributions. To reduce this gap, we propose Simulated+Unsupervised (S+U) learning, where the task is to learn a model to improve the realism of a simulator's output using unlabeled real data, while preserving the annotation information from the simulator. We develop a method for S+U learning that uses an adversarial network similar to Generative Adversarial Networks (GANs), but with synthetic images as inputs instead of random vectors. We make several key modifications to the standard GAN algorithm to preserve annotations, avoid artifacts, and stabilize training: (i) a 'self-regularization' term, (ii) a local adversarial loss, and (iii) updating the discriminator using a history of refined images. We show that this enables generation of highly realistic images, which we demonstrate both qualitatively and with a user study. We quantitatively evaluate the generated images by training models for gaze estimation and hand pose estimation. We show a significant improvement over using synthetic images, and achieve state-of-the-art results on the MPIIGaze dataset without any labeled real data.
translated by 谷歌翻译
Domain adaptation is critical for success in new, unseen environments. Adversarial adaptation models applied in feature spaces discover domain invariant representations, but are difficult to visualize and sometimes fail to capture pixel-level and low-level domain shifts. Recent work has shown that generative adversarial networks combined with cycle-consistency constraints are surprisingly effective at mapping images between domains, even without the use of aligned image pairs. We propose a novel discriminatively-trained Cycle-Consistent Adversarial Domain Adaptation model. CyCADA adapts representations at both the pixel-level and feature-level, enforces cycle-consistency while leveraging a task loss, and does not require aligned pairs. Our model can be applied in a variety of visual recognition and prediction settings. We show new state-of-the-art results across multiple adaptation tasks, including digit classification and semantic segmentation of road scenes demonstrating transfer from synthetic to real world domains.
translated by 谷歌翻译
域的适应性引起了极大的兴趣,因为标签是一项昂贵且容易出错的任务,尤其是当像素级在语义分段中需要标签时。因此,人们希望能够在数据丰富并且标签精确的合成域上训练神经网络。但是,这些模型通常在室外图像上表现不佳。为了减轻输入的变化,可以使用图像到图像的方法。然而,使用合成训练域桥接部署领域的标准图像到图像方法并不关注下游任务,而仅关注视觉检查级别。因此,我们在图像到图像域的适应方法中提出了gan的“任务意识”版本。借助少量标记的地面真实数据,我们将图像到图像翻译指导为更合适的输入图像,用于培训合成数据(合成域专家)的语义分割网络。这项工作的主要贡献是1)一种模块化半监督域适应方法,通过训练下游任务Aware Cycean,同时避免适应合成语义分割专家2)该方法适用于复杂的域适应任务3)通过使用从头开始网络进行较不偏见的域间隙分析。我们在分类任务以及语义细分方面评估我们的方法。我们的实验表明,我们的方法比仅使用70(10%)地面真实图像的分类任务中的准确性优于标准图像到图像方法 - 准确性的准确性7%。对于语义细分,我们可以在训练过程中仅使用14个地面真相图像,在均值评估数据集上,平均交叉点比联合的平均交叉点约4%至7%。
translated by 谷歌翻译
Collecting well-annotated image datasets to train modern machine learning algorithms is prohibitively expensive for many tasks. An appealing alternative is to render synthetic data where ground-truth annotations are generated automatically. Unfortunately, models trained purely on rendered images often fail to generalize to real images. To address this shortcoming, prior work introduced unsupervised domain adaptation algorithms that attempt to map representations between the two domains or learn to extract features that are domain-invariant. In this work, we present a new approach that learns, in an unsupervised manner, a transformation in the pixel space from one domain to the other. Our generative adversarial network (GAN)-based model adapts source-domain images to appear as if drawn from the target domain. Our approach not only produces plausible samples, but also outperforms the state-of-the-art on a number of unsupervised domain adaptation scenarios by large margins. Finally, we demonstrate that the adaptation process generalizes to object classes unseen during training.
translated by 谷歌翻译
无监督的域适应(UDA)旨在使源域上培训的模型适应到新的目标域,其中没有可用标记的数据。在这项工作中,我们调查从合成计算机生成的域的UDA的问题,以用于学习语义分割的类似但实际的域。我们提出了一种与UDA的一致性正则化方法结合的语义一致的图像到图像转换方法。我们克服了将合成图像转移到真实的图像的先前限制。我们利用伪标签来学习生成的图像到图像转换模型,该图像到图像转换模型从两个域上的语义标签接收额外的反馈。我们的方法优于最先进的方法,将图像到图像转换和半监督学习与相关域适应基准,即Citycapes和Synthia上的CutyCapes和Synthia进行了全面的学习。
translated by 谷歌翻译
我们建议利用模拟的潜力,以域的概括方式对现实世界自动驾驶场景的语义分割。对分割网络进行了训练,没有任何目标域数据,并在看不见的目标域进行了测试。为此,我们提出了一种新的域随机化和金字塔一致性的方法,以学习具有高推广性的模型。首先,我们建议使用辅助数据集以视觉外观的方式随机将合成图像随机化,以有效地学习域不变表示。其次,我们进一步在不同的“风格化”图像和图像中实施了金字塔一致性,以分别学习域不变和规模不变的特征。关于从GTA和合成对城市景观,BDD和Mapillary的概括进行了广泛的实验;而我们的方法比最新技术取得了卓越的成果。值得注意的是,我们的概括结果与最先进的模拟域适应方法相比甚至更好,甚至比在训练时访问目标域数据的结果。
translated by 谷歌翻译
牡蛎在海湾生活生态系统中起着关键作用,被认为是海洋的生命过滤器。近年来,牡蛎礁经过商业过度收获造成的重大破坏,需要保存以维持生态平衡。该保存的基础是估计需要准确的牡蛎检测的牡蛎密度。但是,用于准确的牡蛎检测系统需要大量数据集获得,这是水下环境中一项昂贵且劳动密集型的任务。为此,我们提出了一种新颖的方法,可以数学上对牡蛎进行建模并在模拟中渲染牡蛎的图像,以使用最小的真实数据来提高检测性能。利用我们的合成数据以及用于牡蛎检测的真实数据,与仅使用牡蛎网络仅使用真实数据相比,我们获得了高达35.1%的性能。我们还将最先进的工作提高了12.7%。这表明,使用对象的基本几何属性可以帮助成功提高有限数据集上的识别任务准确性,我们希望更多的研究人员对难以实现的数据集采用这种策略。
translated by 谷歌翻译
对大脑的电子显微镜(EM)体积的精确分割对于表征细胞或细胞器水平的神经元结构至关重要。尽管有监督的深度学习方法在过去几年中导致了该方向的重大突破,但它们通常需要大量的带注释的数据才能接受培训,并且在类似的实验和成像条件下获得的其他数据上的表现不佳。这是一个称为域适应的问题,因为从样本分布(或源域)中学到的模型难以维持其对从不同分布或目标域提取的样品的性能。在这项工作中,我们解决了基于深度学习的域适应性的复杂案例,以跨不同组织和物种的EM数据集进行线粒体分割。我们提出了三种无监督的域适应策略,以根据(1)两个域之间的最新样式转移来改善目标域中的线粒体分割; (2)使用未标记的源和目标图像预先培训模型的自我监督学习,然后仅用源标签进行微调; (3)具有标记和未标记图像的端到端训练的多任务神经网络体系结构。此外,我们提出了基于在源域中仅获得的形态学先验的新训练停止标准。我们使用三个公开可用的EM数据集进行了所有可能的跨数据库实验。我们评估了目标数据集预测的线粒体语义标签的拟议策略。此处介绍的方法优于基线方法,并与最新的状态相比。在没有验证标签的情况下,监视我们提出的基于形态的度量是停止训练过程并在平均最佳模型中选择的直观有效的方法。
translated by 谷歌翻译
Realistic synthetic image data rendered from 3D models can be used to augment image sets and train image classification semantic segmentation models. In this work, we explore how high quality physically-based rendering and domain randomization can efficiently create a large synthetic dataset based on production 3D CAD models of a real vehicle. We use this dataset to quantify the effectiveness of synthetic augmentation using U-net and Double-U-net models. We found that, for this domain, synthetic images were an effective technique for augmenting limited sets of real training data. We observed that models trained on purely synthetic images had a very low mean prediction IoU on real validation images. We also observed that adding even very small amounts of real images to a synthetic dataset greatly improved accuracy, and that models trained on datasets augmented with synthetic images were more accurate than those trained on real images alone. Finally, we found that in use cases that benefit from incremental training or model specialization, pretraining a base model on synthetic images provided a sizeable reduction in the training cost of transfer learning, allowing up to 90\% of the model training to be front-loaded.
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
现在,人工智能(AI)可以自动解释医学图像以供临床使用。但是,AI在介入图像中的潜在用途(相对于参与分类或诊断的图像),例如在手术期间的指导,在很大程度上尚未开发。这是因为目前,使用现场分析对现场手术收集的数据进行了事后分析,这是因为手术AI系统具有基本和实际限制,包括道德考虑,费用,可扩展性,数据完整性以及缺乏地面真相。在这里,我们证明从人类模型中创建逼真的模拟图像是可行的替代方法,并与大规模的原位数据收集进行了补充。我们表明,对现实合成数据的训练AI图像分析模型,结合当代域的概括或适应技术,导致在实际数据上的模型与在精确匹配的真实数据训练集中训练的模型相当地执行的模型。由于从基于人类的模型尺度的合成生成培训数据,因此我们发现我们称为X射线图像分析的模型传输范式(我们称为Syntheex)甚至可以超越实际数据训练的模型,因为训练的有效性较大的数据集。我们证明了合成在三个临床任务上的潜力:髋关节图像分析,手术机器人工具检测和COVID-19肺病变分割。 Synthex提供了一个机会,可以极大地加速基于X射线药物的智能系统的概念,设计和评估。此外,模拟图像环境还提供了测试新颖仪器,设计互补手术方法的机会,并设想了改善结果,节省时间或减轻人为错误的新技术,从实时人类数据收集的道德和实际考虑方面摆脱了人为错误。
translated by 谷歌翻译
Deep learning has produced state-of-the-art results for a variety of tasks. While such approaches for supervised learning have performed well, they assume that training and testing data are drawn from the same distribution, which may not always be the case. As a complement to this challenge, single-source unsupervised domain adaptation can handle situations where a network is trained on labeled data from a source domain and unlabeled data from a related but different target domain with the goal of performing well at test-time on the target domain. Many single-source and typically homogeneous unsupervised deep domain adaptation approaches have thus been developed, combining the powerful, hierarchical representations from deep learning with domain adaptation to reduce reliance on potentially-costly target data labels. This survey will compare these approaches by examining alternative methods, the unique and common elements, results, and theoretical insights. We follow this with a look at application areas and open research directions.
translated by 谷歌翻译
We propose a general framework for unsupervised domain adaptation, which allows deep neural networks trained on a source domain to be tested on a different target domain without requiring any training annotations in the target domain. This is achieved by adding extra networks and losses that help regularize the features extracted by the backbone encoder network. To this end we propose the novel use of the recently proposed unpaired image-toimage translation framework to constrain the features extracted by the encoder network. Specifically, we require that the features extracted are able to reconstruct the images in both domains. In addition we require that the distribution of features extracted from images in the two domains are indistinguishable. Many recent works can be seen as specific cases of our general framework. We apply our method for domain adaptation between MNIST, USPS, and SVHN datasets, and Amazon, Webcam and DSLR Office datasets in classification tasks, and also between GTA5 and Cityscapes datasets for a segmentation task. We demonstrate state of the art performance on each of these datasets.
translated by 谷歌翻译
图像到图像翻译在启用合成数据的计算机视觉方面发挥了重要作用。但是,如果源和目标域具有较大的语义不匹配,那么现有的技术通常会遭受源内容损坏,也就是语义翻转。为了解决这个问题,我们提出了一个新的范式,用于使用矢量符号体系结构(VSA),这是一个理论框架,该框架定义了在高维矢量(HyphyMytector)空间中定义代数操作的理论框架。我们通过学习逆转翻译以确保与源内容的一致性来介绍对源到目标翻译的对抗学习的基于VSA的约束。我们在定性和定量上表明我们的方法比其他最先进的技术有所改进。
translated by 谷歌翻译
我们提出了Vologan,这是一个对抗域的适应网络,该网络将一个人的高质量3D模型的合成RGB-D图像转换为可以使用消费者深度传感器生成的RGB-D图像。该系统对于为单视3D重建算法生成大量训练数据特别有用,该算法复制了现实世界中的捕获条件,能够模仿相同的高端3D模型数据库的不同传感器类型的样式。该网络使用具有u-net体系结构的CycleGAN框架,以及受SIV-GAN启发的鉴别器。我们使用不同的优化者和学习率计划来训练发电机和鉴别器。我们进一步构建了一个单独考虑图像通道的损失函数,除其他指标外,还评估了结构相似性。我们证明,可以使用自行车来应用合成3D数据的对抗结构域适应,以训练只有少量训练样本的体积视频发电机模型。
translated by 谷歌翻译
使用合成数据来训练在现实世界数据上实现良好性能的神经网络是一项重要任务,因为它可以减少对昂贵数据注释的需求。然而,合成和现实世界数据具有域间隙。近年来,已经广泛研究了这种差距,也称为域的适应性。通过直接执行两者之间的适应性来缩小源(合成)和目标数据之间的域间隙是具有挑战性的。在这项工作中,我们提出了一个新颖的两阶段框架,用于改进图像数据上的域适应技术。在第一阶段,我们逐步训练一个多尺度神经网络,以从源域到目标域进行图像翻译。我们将新的转换数据表示为“目标中的源”(SIT)。然后,我们将生成的SIT数据插入任何标准UDA方法的输入。该新数据从所需的目标域缩小了域间隙,这有助于应用UDA进一步缩小差距的方法。我们通过与其他领先的UDA和图像对图像翻译技术进行比较来强调方法的有效性,当时用作SIT发电机。此外,我们通过三种用于语义分割的最先进的UDA方法(HRDA,daformer and proda)在两个UDA任务上,GTA5到CityScapes和Synthia to CityScapes来证明我们的框架的改进。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译