通过区分真实和合成样品,鉴别器在训练生成对抗网络(GAN)中起着至关重要的作用。尽管实际数据分布保持不变,但由于发电机的发展,合成分布一直变化,从而影响鉴别器的BI分类任务的相应变化。我们认为,对其容量进行即时调整的歧视者可以更好地适应这种时间变化的任务。一项全面的实证研究证实,所提出的培训策略称为Dynamicd,改善了合成性能,而不会产生任何其他计算成本或培训目标。在不同的数据制度下开发了两个容量调整方案,用于培训gan:i)给定足够数量的培训数据,歧视者从逐渐增加的学习能力中受益,ii)ii)当培训数据受到限制时,逐渐减少层宽度的宽度减轻。歧视者的过度问题。在一系列数据集上进行的2D和3D感知图像合成任务的实验证实了我们的动力学的普遍性以及对基准的实质性改进。此外,Dynamicd与其他歧视器改进方法(包括数据增强,正规化器和预训练)具有协同作用,并且在将学习gans合并时会带来连续的性能增长。
translated by 谷歌翻译
在这项工作中,我们研究了基于价值的深钢筋学习(DRL)中简单但普遍适用的奖励成型案例。我们表明,线性转换形式的奖励转移等同于更改函数近似中$ q $ function的初始化。基于这样的等价性,我们带来了关键的见解,即积极的奖励转移会导致保守的剥削,而负面的奖励转移会导致好奇心驱动的探索。因此,保守的剥削改善了离线RL价值估计,乐观的价值估计改善了在线RL的勘探。我们验证了对一系列RL任务的见解,并显示了其对基准的改进:(1)在离线RL中,保守的剥削可根据现成的算法提高性能; (2)在在线连续控制中,具有不同转移常数的多个值函数可用于应对探索 - 诠释困境,以提高样品效率; (3)在离散控制任务中,负奖励转移可以改善基于好奇心的探索方法。
translated by 谷歌翻译
Bird's Eye View(BEV)语义分割在自动驾驶的空间传感中起着至关重要的作用。尽管最近的文献在BEV MAP的理解上取得了重大进展,但它们都是基于基于摄像头的系统,这些系统难以处理遮挡并检测复杂的交通场景中的遥远对象。车辆到车辆(V2V)通信技术使自动驾驶汽车能够共享感应信息,与单代理系统相比,可以显着改善感知性能和范围。在本文中,我们提出了Cobevt,这是可以合作生成BEV MAP预测的第一个通用多代理多机构感知框架。为了有效地从基础变压器体系结构中的多视图和多代理数据融合相机功能,我们设计了融合的轴向注意力或传真模块,可以捕获跨视图和代理的局部和全局空间交互。 V2V感知数据集OPV2V的广泛实验表明,COBEVT实现了合作BEV语义分段的最新性能。此外,COBEVT被证明可以推广到其他任务,包括1)具有单代理多摄像机的BEV分割和2)具有多代理激光雷达系统的3D对象检测,并实现具有实时性能的最新性能时间推理速度。
translated by 谷歌翻译
人类共享的控制允许人类与AI进行互动和协作,以在复杂的环境中完成控制任务。以前的强化学习(RL)方法试图以目标条件的设计来实现可控制的政策,而付出了重新设计奖励功能和培训范式。受到神经科学方法研究灵长类动物皮层的启发,我们开发了一种简单但有效的基于频率的方法,称为\ textit {策略解剖},以使学习神经控制器的中间表示与代理行为的运动属性相结合。在不修改神经控制器或检验模型的情况下,提出的方法可以将给定的RL训练的政策转换为人际关系政策。我们评估了关于自动驾驶和运动的RL任务的建议方法。实验表明,通过政策解剖在驾驶任务中实现的人类共享控制可以大大改善看不见的交通场景的性能和安全性。随着人类的循环,机器人机器人也表现出多功能的可控运动技能,即使他们只接受了前进的训练。我们的结果表明,通过解释自主代理的学习代表来实施人类共享自治的有希望的方向。演示视频和代码将在https://metadriverse.github.io/policydissect上提供。
translated by 谷歌翻译
旨在将原始视觉观察映射到动作的深度视觉运动策略学习在控制任务(例如机器人操纵和自动驾驶)中实现了有希望的结果。但是,它需要与培训环境进行大量在线互动,这限制了其现实世界的应用程序。与流行的无监督功能学习以进行视觉识别相比,探索视觉运动控制任务的功能预读量要少得多。在这项工作中,我们的目标是通过观看长达数小时的未经保育的YouTube视频来预先驾驶任务的政策表示。具体而言,我们使用少量标记数据训练一个反向动态模型,并使用它来预测所有YouTube视频帧的动作标签。然后开发了一种新的对比策略预告片,以从带有伪动作标签的视频框架中学习动作条件的功能。实验表明,由此产生的动作条件特征为下游增强学习和模仿学习任务提供了实质性改进,超出了从以前的无监督学习方法和图预审预周化的体重中预见的重量。代码,模型权重和数据可在以下网址提供:https://metadriverse.github.io/aco。
translated by 谷歌翻译
制作生成模型3D感知桥梁2D图像空间和3D物理世界仍然挑战。最近尝试用神经辐射场(NERF)配备生成的对抗性网络(GAN),其将3D坐标映射到像素值,作为3D之前。然而,nerf中的隐式功能具有一个非常局部的接收领域,使得发电机难以意识到全局结构。与此同时,NERF建立在体积渲染上,这可能太昂贵,无法产生高分辨率结果,提高优化难度。为了减轻这两个问题,我们通过明确学习结构表示和纹理表示,向高保真3D感知图像综合提出了一种作为Volumegan称为Volumegan的新颖框架。我们首先学习一个特征卷来表示底层结构,然后使用类似NERF的模型转换为特征字段。特征字段进一步累积到作为纹理表示的2D特征图中,然后是用于外观合成的神经渲染器。这种设计使得能够独立控制形状和外观。广泛的数据集的大量实验表明,我们的方法比以前的方法实现了足够更高的图像质量和更好的3D控制。
translated by 谷歌翻译
由于数据注释的高成本,半监督行动识别是一个具有挑战性的,但重要的任务是。这个问题的常见方法是用伪标签分配未标记的数据,然后将其作为训练中的额外监督。通常在最近的工作中,通过在标记数据上训练模型来获得伪标签,然后使用模型的自信预测来教授自己。在这项工作中,我们提出了一种更有效的伪标签方案,称为跨模型伪标记(CMPL)。具体地,除了主要骨干内,我们还介绍轻量级辅助网络,并要求他们互相预测伪标签。我们观察到,由于其不同的结构偏差,这两种模型倾向于学习来自同一视频剪辑的互补表示。因此,通过利用跨模型预测作为监督,每个模型都可以受益于其对应物。对不同数据分区协议的实验表明我们对现有替代方案框架的重大改进。例如,CMPL在Kinetics-400和UCF-101上实现了17.6 \%$ 17.6 \%$ 25.1 \%$ 25.使用RGB模态和1 \%$标签数据,优于我们的基线模型,FIXMATCT,以$ 9.0 \% $和10.3美元\%$。
translated by 谷歌翻译
预训练已成为许多计算机视觉任务中的标准范式。但是,大多数方法通常都设计在RGB图像域上。由于二维图像平面和三维空间之间的差异,这种预先训练的模型无法感知空间信息,并用作3D相关任务的子最优解。为了弥合这种差距,我们的目标是学习可以描述三维空间的空间感知视觉表示,并且对这些任务更适合和有效。为了利用点云,在与图像相比提供空间信息时更有优越,我们提出了一个简单而有效的2D图像和3D点云无监督的预训练策略,称为Simipu。具体而言,我们开发了一种多模态对比学习框架,包括模态空间感知模块,用于从点云和模态特征交互模块中学习空间感知表示,以从点传输感知空间信息的能力云编码器分别到图像编码器。匹配算法和投影矩阵建立了用于对比损耗的正对。整个框架培训以无人监督的端到端时尚。据我们所知,这是第一项探索户外多模态数据集的对比学习训练策略的研究,其中包含配对的相机图像和LIDAR点云。 HTTPS://github.com/zhever/simipu提供代码和模型。
translated by 谷歌翻译
生成的对抗性网络(GANS)的成功基本上基于发电机(G)和鉴别者(D)之间的对抗训练。预计它们将达到一定的平衡,其中D不能将生成的图像与真实的图像区分开来。但是,在实践中,难以在GaN训练中实现如此平衡,而是几乎总是超过G.我们将这种现象归因于D和G之间的信息不对称。具体而言,我们观察到确定时的视觉注意力图像是真实还是假的,但G没有明确的线索,在哪个区域专注于特定合成。为了缓解D质量在GAN中竞争的问题,我们的目的是提高G的空间意识。随机采样的多级热手表被编码为G作为感应偏压的中间层。因此,G可以有目的地改善某些图像区域的合成。我们进一步建议将G的空间意识与D.通过这种方式对准G.通过这种方式,我们有效地减少了D和G之间的信息差距。广泛的结果表明,我们的方法将两位玩家游戏推动到均衡的GANS中的两个玩家游戏,导致综合性能更好。作为副产品,引入的空间意识有助于在输出合成上进行交互式编辑。演示视频和更多结果在https://genforce.github.io/eqgan/处。
translated by 谷歌翻译
这项工作旨在将在一个图像域上预先训练的生成的对抗网络(GaN)转移到新域名,其仅仅是只有一个目标图像。主要挑战是,在有限的监督下,综合照片现实和高度多样化的图像非常困难,同时获取目标的代表性。不同于采用Vanilla微调策略的现有方法,我们分别将两个轻量级模块导入发电机和鉴别器。具体地,我们将属性适配器引入发电机中冻结其原始参数,通过该参数,它可以通过其重复利用现有知识,因此保持合成质量和多样性。然后,我们用一个属性分类器装备了学习良好的鉴别器骨干,以确保生成器从引用中捕获相应的字符。此外,考虑到培训数据的多样性差(即,只有一个图像),我们建议在培训过程中建议在生成域中的多样性限制,减轻优化难度。我们的方法在各种环境下提出了吸引力的结果,基本上超越了最先进的替代方案,特别是在合成多样性方面。明显的是,我们的方法即使具有大域间隙,并且在几分钟内为每个实验提供鲁棒地收敛。
translated by 谷歌翻译