带有像素天标签的注释图像是耗时和昂贵的过程。最近,DataSetGan展示了有希望的替代方案 - 通过利用一小组手动标记的GaN生成的图像来通过生成的对抗网络(GAN)来综合大型标记数据集。在这里,我们将DataSetGan缩放到ImageNet类别的规模。我们从ImageNet上训练的类条件生成模型中拍摄图像样本,并为所有1K类手动注释每个类的5张图像。通过在Biggan之上培训有效的特征分割架构,我们将Bigan转换为标记的DataSet生成器。我们进一步表明,VQGan可以类似地用作数据集生成器,利用已经注释的数据。我们通过在各种设置中标记一组8K实图像并在各种设置中评估分段性能来创建一个新的想象因基准。通过广泛的消融研究,我们展示了利用大型生成的数据集来培训在像素 - 明智的任务上培训不同的监督和自我监督的骨干模型的大增益。此外,我们证明,使用我们的合成数据集进行预培训,以改善在几个下游数据集上的标准Imagenet预培训,例如Pascal-VOC,MS-Coco,Citycapes和Chink X射线以及任务(检测,细分)。我们的基准将公开并维护一个具有挑战性的任务的排行榜。项目页面:https://nv-tlabs.github.io/big-dataseTgan/
translated by 谷歌翻译
自治车辆的评估和改善规划需要可扩展的长尾交通方案。有用的是,这些情景必须是现实的和挑战性的,但不能安全地开车。在这项工作中,我们介绍努力,一种自动生成具有挑战性的场景的方法,导致给定的计划者产生不良行为,如冲突。为了维护情景合理性,关键的想法是利用基于图形的条件VAE的形式利用学习的交通运动模型。方案生成在该流量模型的潜在空间中制定了优化,通过扰乱初始的真实世界的场景来产生与给定计划者碰撞的轨迹。随后的优化用于找到“解决方案”的场景,确保改进给定的计划者是有用的。进一步的分析基于碰撞类型的群集生成的场景。我们攻击两名策划者并展示争取在这两种情况下成功地产生了现实,具有挑战性的情景。我们另外“关闭循环”并使用这些方案优化基于规则的策划器的超参数。
translated by 谷歌翻译
形状空间学习的任务涉及使用良好的概括性属性映射到从潜在表示空间的列车组。通常,真实世界的形状系列具有对称性,可以定义为不改变形状本质的转换。在形状空间学习中纳入对称性的自然方式是要求将其映射到形状空间(编码器)和从形状空间(解码器)映射到相关的对称。在本文中,我们通过引入两个贡献,提出了一种在编码器和解码器中融入设备和解码器的框架:(i)适应建设通用,高效和最大富有表现力的Autorencoders的最近帧平均(FA)框架; (ii)构建自动化器等于分段欧几里德运动的分段应用于形状的不同部分。据我们所知,这是第一个完全分段的欧几里德的欧洲等自动化器建设。培训我们的框架很简单:它使用标准的重建损失,不需要引入新的损失。我们的体系结构由标准(骨干网)架构构成,具有适当的帧平均,使其成为等效。使用隐式的神经表示,在两个刚性形状数据集上测试我们的框架,并使用基于网格的神经网络的铰接形状数据集显示出技术的概括,以通过大边缘改善相关基线。特别地,我们的方法表明了概括铰接姿势的概括性的显着改善。
translated by 谷歌翻译
我们呈现Hipnet,一个在许多姿势的多个科目上培训的神经隐式姿势网络。HIPNET可以从姿势特定的细节中解散特定主题细节,有效地使我们能够从一个受试者到另一个受试者的retrarget运动,或通过潜在空间插值在关键帧之间设置动画。为此,我们采用基于分层的基于骨架的表示,以便在规范的未浮现空间上学习符号距离功能。这种基于联合的分解使我们能够代表本地围绕身体关节周围的空间的细微细节。与以前的神经隐式方法不同,需要基础真实SDF进行培训,我们的模型我们只需要一个构成的骨架和点云进行培训,我们没有对传统的参数模型或传统的剥皮方法的依赖。我们在各种单一主题和多主题基准上实现最先进的结果。
translated by 谷歌翻译
我们呈现神经内核字段:一种基于学习内核回归重建隐式3D形状的新方法。我们的技术在重建3D对象和稀疏导向点的大型场景时,我们的技术实现了最先进的结果,并且可以在训练组外重建形状类别,几乎没有准确度。我们的方法的核心介绍是,当所选内核具有适当的感应偏压时,内核方法对于重建形状非常有效。因此,我们将形状重建问题分为两部分:(1)骨干神经网络从数据中学习内核参数,(2)通过求解一个简单的正面的正定方法,该骨架ridge回归拟合输入点。使用学习内核的线性系统。由于这种分解,我们的重建在稀疏点密度下获得了数据驱动方法的益处,同时保持了与地面真理形状收敛的插值行为,因为输入采样密度增加。我们的实验表明了在列车集类别之外的对象和扫描场景的强大概括能力。源代码和预磨料模型可在https://nv-tlabs.github.io/nkf上获得。
translated by 谷歌翻译
我们提出了一种有效的方法,用于从多视图图像观察中联合优化拓扑,材料和照明。与最近的多视图重建方法不同,通常在神经网络中产生纠缠的3D表示,我们将三角形网格输出具有空间不同的材料和环境照明,这些方法可以在任何传统的图形引擎中未修改。我们利用近期工作在可差异化的渲染中,基于坐标的网络紧凑地代表体积纹理,以及可微分的游行四边形,以便直接在表面网上直接实现基于梯度的优化。最后,我们介绍了环境照明的分流和近似的可分辨率配方,以有效地回收全频照明。实验表明我们的提取模型用于高级场景编辑,材料分解和高质量的视图插值,全部以三角形的渲染器(光栅化器和路径示踪剂)的交互式速率运行。
translated by 谷歌翻译
自动驾驶依赖于大量的现实数据被标记为高精度。替代解决方案寻求利用驾驶模拟器,该模拟器可以使用多种内容变体产生大量标记数据。但是,合成和实际数据之间的域间隙仍然存在,提高以下重要问题:利用自动驾驶模拟器进行感知任务的最佳方法是什么?在这项工作中,我们建立了域 - 适应理论的最近进步之上,从这个角度来看,提出了最小化现实差距的方法。我们主要专注于单独使用合成域中的标签。我们的方法介绍了学习神经不变的表示的原则方法以及关于如何从模拟器对数据进行采样的理论上灵感的视图。我们的方法在实践中易于实施,因为它是网络架构的不可知论由和模拟器的选择。我们在使用开源模拟器(Carla)的多传感器数据(摄像机,LIDAR)上展示了我们的方法,使用开源模拟器(Carla),并在真实世界数据集(NUSCENES)上评估整个框架。最后但并非最不重要的是,在用驾驶模拟器训练时,我们展示了在感知网络中对感知网络的任何类型的变化(例如天气状况,资产,地图设计和色彩分集),并且可以使用我们的域适配技术来补偿这些类型。
translated by 谷歌翻译
我们介绍DMTET,深度3D条件生成模型,可以使用诸如粗体素的简单用户指南来合成高分辨率3D形状。它通过利用新型混合3D表示来结婚隐式和显式3D表示的优点。与当前隐含的方法相比,培训涉及符号距离值,DMTET直接针对重建的表面进行了优化,这使我们能够用更少的伪像来合成更精细的几何细节。与直接生成诸如网格之类的显式表示的深度3D生成模型不同,我们的模型可以合成具有任意拓扑的形状。 DMTET的核心包括可变形的四面体网格,其编码离散的符号距离函数和可分行的行进Tetrahedra层,其将隐式符号距离表示转换为显式谱图表示。这种组合允许使用在表面网格上明确定义的重建和对抗性损耗来联合优化表面几何形状和拓扑以及生成细分层次结构。我们的方法显着优于来自粗体素输入的条件形状合成的现有工作,培训在复杂的3D动物形状的数据集上。项目页面:https://nv-tlabs.github.io/dmtet/
translated by 谷歌翻译
最近在图像编辑中找到了生成的对抗网络(GANS)。但是,大多数基于GaN的图像编辑方法通常需要具有用于训练的语义分段注释的大规模数据集,只提供高级控制,或者仅在不同图像之间插入。在这里,我们提出了EditGan,一种用于高质量,高精度语义图像编辑的新方法,允许用户通过修改高度详细的部分分割面罩,例如,为汽车前灯绘制新掩模来编辑图像。编辑登上的GAN框架上建立联合模型图像及其语义分割,只需要少数标记的示例,使其成为编辑的可扩展工具。具体地,我们将图像嵌入GaN潜在空间中,并根据分割编辑执行条件潜代码优化,这有效地修改了图像。算优化优化,我们发现在实现编辑的潜在空间中找到编辑向量。该框架允许我们学习任意数量的编辑向量,然后可以直接应用于交互式速率的其他图像。我们通过实验表明,EditGan可以用前所未有的细节和自由来操纵图像,同时保留完整的图像质量。我们还可以轻松地组合多个编辑并执行超出EditGan训练数据的合理编辑。我们在各种图像类型上展示编辑,并定量优于标准编辑基准任务的几种先前编辑方法。
translated by 谷歌翻译
虽然在巨大数据上培训的机器学习模型导致了几个领域的断路器,但由于限制数据的访问,他们在隐私敏感域中的部署仍然有限。在私有数据上具有隐私约束的生成模型可以避免此挑战,而是提供对私有数据的间接访问。我们提出DP-Sinkhorn,一种新的最优传输的生成方法,用于从具有差异隐私的私有数据学习数据分布。 DP-Sinkhorn以差别私人方式在模型和数据之间的模型和数据之间最小化陷阱的分歧,将计算上有效的近似值,并在模型和数据之间使用新技术来控制梯度估计的偏差差异的偏差折衷。与现有的培训方法不同,差异私人生成模型主要基于生成的对抗网络,我们不依赖于对抗性目标,这令人惊叹的难以优化,特别是在隐私约束所施加的噪声存在下。因此,DP-Sinkhorn易于训练和部署。通过实验,我们改进了多种图像建模基准的最先进,并显示了差异私有的信息RGB图像综合。项目页面:https://nv-tlabs.github.io/dp-sinkhorn。
translated by 谷歌翻译