3D对象检测是自动驾驶的重要组成部分,深层神经网络(DNNS)已达到此任务的最新性能。但是,深层模型臭名昭著,因为将高置信度得分分配给分布(OOD)输入,即未从训练分布中得出的输入。检测OOD输入是具有挑战性的,对于模型的安全部署至关重要。已经针对分类任务进行了广泛研究OOD检测,但是它尚未对对象检测任务,特别是基于激光雷达的3D对象检测的注意力。在本文中,我们关注基于激光雷达的3D对象检测的OOD输入的检测。我们制定了OOD输入对于对象检测的含义,并提议适应几种OOD检测方法进行对象检测。我们通过提出的特征提取方法来实现这一目标。为了评估OOD检测方法,我们开发了一种简单但有效的技术,用于为给定的对象检测模型生成OOD对象​​。我们基于KITTI数据集的评估表明,不同的OOD检测方法具有检测特定OOD对象​​的偏差。它强调了联合OOD检测方法的重要性以及在这个方向上进行更多研究。
translated by 谷歌翻译
安全保证是自动驾驶(AD)系统发展和社会接受(AD)系统的核心问题。感知是广告的关键方面,严重依赖机器学习(ML)。尽管基于ML的组件的安全性有已知的挑战,但最近已经提出针对解决这些组件的单位安全案例的建议。不幸的是,AD安全案例在系统级别上表示安全要求,这些努力缺少将安全性要求与单位级别的组件性能要求整合在一起所需的关键链接参数。在本文中,我们提出了感知的集成安全案例(ISCAP),这是针对专门针对感知组件量身定制的这种链接安全参数的通用模板。该模板采用演绎且形式上的方法来定义级别之间强大的可追溯性。我们通过详细的案例研究证明了ISCAP的适用性,并讨论了其作为支持感知成分增量发展的工具的使用。
translated by 谷歌翻译
Denoising diffusion models hold great promise for generating diverse and realistic human motions. However, existing motion diffusion models largely disregard the laws of physics in the diffusion process and often generate physically-implausible motions with pronounced artifacts such as floating, foot sliding, and ground penetration. This seriously impacts the quality of generated motions and limits their real-world application. To address this issue, we present a novel physics-guided motion diffusion model (PhysDiff), which incorporates physical constraints into the diffusion process. Specifically, we propose a physics-based motion projection module that uses motion imitation in a physics simulator to project the denoised motion of a diffusion step to a physically-plausible motion. The projected motion is further used in the next diffusion step to guide the denoising diffusion process. Intuitively, the use of physics in our model iteratively pulls the motion toward a physically-plausible space. Experiments on large-scale human motion datasets show that our approach achieves state-of-the-art motion quality and improves physical plausibility drastically (>78% for all datasets).
translated by 谷歌翻译
Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiff-I, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiff-I's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiff-I/
translated by 谷歌翻译
在本文中,我们旨在估算手头数据的真实分布下的机器学习模型的预测错误。我们将预测模型视为数据驱动的黑框函数,并使用非参数方法量化其统计属性。我们提出了一种新型的抽样技术,该技术利用了数据中嵌入的潜在概率分布信息。提出的方法结合了两个现有的框架来估计预测不准确误差。 $ n $ bootstapping和迭代式hoottrapping中的$ m $。 $ n $ bootstapping的$ m $是维持一致性,并且迭代式引导程序通常用于对预测误差估计的偏置校正。使用Monte-Carlo不确定性量化技术,我们将估算器的总方差分解,以便用户可以就克服可预防错误的措施做出明智的决定。另外,通过相同的蒙特卡洛框架,我们提供了一种通过经验分布而估计偏差的方法。这种偏见捕获了估计器对手动输入数据的敏感性,并有助于理解估计器的鲁棒性。在模型选择案例研究中使用模拟和实际数据集测试了提出的不确定性定量的应用。我们评估了两个框架中提出的估计器的性能;首先,直接应用是作为优化模型找到最佳模型。其次,固定优化引擎并将提出的估计器用作优化器的健身函数。此外,我们将提出的估计量的有限数据集与现有的最新方法比较了渐近统计属性和数值结果。
translated by 谷歌翻译
过去十年已经开发了各种各样的深度生成模型。然而,这些模型通常同时努力解决三个关键要求,包括:高样本质量,模式覆盖和快速采样。我们称之为这些要求所征收的挑战是生成的学习Trielemma,因为现有模型经常为他人交易其中一些。特别是,去噪扩散模型表明了令人印象深刻的样本质量和多样性,但它们昂贵的采样尚未允许它们在许多现实世界应用中应用。在本文中,我们认为这些模型中的缓慢采样基本上归因于去噪步骤中的高斯假设,这些假设仅针对小型尺寸的尺寸。为了使得具有大步骤的去噪,从而减少去噪步骤的总数,我们建议使用复杂的多模态分布来模拟去噪分布。我们引入了去噪扩散生成的对抗网络(去噪扩散GANS),其使用多模式条件GaN模拟每个去噪步骤。通过广泛的评估,我们表明去噪扩散GAN获得原始扩散模型的样本质量和多样性,而在CIFAR-10数据集中是2000 $ \时代。与传统的GAN相比,我们的模型表现出更好的模式覆盖和样本多样性。据我们所知,去噪扩散GaN是第一模型,可在扩散模型中降低采样成本,以便允许它们廉价地应用于现实世界应用。项目页面和代码:https://nvlabs.github.io/denoising-diffusion-gan
translated by 谷歌翻译
我们介绍了ADAVIT,一种可自适应地调整视觉变压器(VIT)推理成本的方法,用于不同复杂性的图像。 Adavit通过自动减少在网络中处理的视觉变压器中的令牌数量作为推理进行的令牌的数量来实现这一目标。我们为此任务进行重新格式化自适应计算时间(ACT),扩展为丢弃冗余空间令牌。视觉变换器的吸引力架构属性使我们的自适应令牌减少机制能够加速推理而不修改网络架构或推理硬件。我们展示了ADAVIT不需要额外的参数或子网来停止,因为我们基于自适应停止在原始网络参数上的学习。我们进一步引入了与现有行为方法相比稳定培训的分布先前正则化。在图像分类任务(ImageNet1K)上,我们表明我们提出的Adavit在过滤信息丰富的空间特征和削减整体计算上产生了高效率。所提出的方法将Deit-Tiny的吞吐量提高了62%并除去了38%,只有0.3%的精度下降,优于大边距。
translated by 谷歌翻译
基于分数的生成模型(SGMS)已经证明了显着的合成质量。 SGMS依赖于扩散过程,逐渐将数据逐渐渗透到贸易分布,而生成式模型则学会去噪。除了数据分布本身,这种去噪任务的复杂性是由扩散过程独特地确定的。我们认为当前的SGMS采用过于简单的扩散,导致不必要的复杂的去噪流程,限制了生成的建模性能。根据与统计力学的联系,我们提出了一种新型危及阻尼Langevin扩散(CLD),并表明基于CLD的SGMS实现了优异的性能。 CLD可以被解释为在扩展空间中运行关节扩散,其中辅助变量可以被视为耦合到数据变量的“速度”,如Hamiltonian动态。我们推导了一种用于CLD的小说得分匹配目标,并表明该模型仅需要了解给定数据的速度分布的条件分布的得分函数,而不是直接学习数据的分数。我们还导出了一种新的采样方案,用于从基于CLD的扩散模型有效合成。我们发现CLD在类似的网络架构和采样计算预算中优于综合质量的先前SGM。我们展示我们的CLD的新型采样器显着优于欧拉 - 玛雅山等求解器。我们的框架为基于刻痕的去噪扩散模型提供了新的见解,并且可以随时用于高分辨率图像合成。项目页面和代码:https://nv-tlabs.github.io/cld-sgm。
translated by 谷歌翻译
虽然在巨大数据上培训的机器学习模型导致了几个领域的断路器,但由于限制数据的访问,他们在隐私敏感域中的部署仍然有限。在私有数据上具有隐私约束的生成模型可以避免此挑战,而是提供对私有数据的间接访问。我们提出DP-Sinkhorn,一种新的最优传输的生成方法,用于从具有差异隐私的私有数据学习数据分布。 DP-Sinkhorn以差别私人方式在模型和数据之间的模型和数据之间最小化陷阱的分歧,将计算上有效的近似值,并在模型和数据之间使用新技术来控制梯度估计的偏差差异的偏差折衷。与现有的培训方法不同,差异私人生成模型主要基于生成的对抗网络,我们不依赖于对抗性目标,这令人惊叹的难以优化,特别是在隐私约束所施加的噪声存在下。因此,DP-Sinkhorn易于训练和部署。通过实验,我们改进了多种图像建模基准的最先进,并显示了差异私有的信息RGB图像综合。项目页面:https://nv-tlabs.github.io/dp-sinkhorn。
translated by 谷歌翻译
可控生成是成功采用现实世界应用中深度生成模型的关键要求之一,但它仍然是一个巨大的挑战。特别地,产生新颖概念组合的组成能力对于大多数目前的模型来说是遥不可及的。在这项工作中,我们使用基于能量的模型(EBMS)来处理一组属性上的组成生成。为了使它们可扩展到高分辨率图像生成,我们在培训的前期生成模型等潜在空间中引入eBM,例如样式。我们提出了一种新的EBM制剂,代表数据和属性的联合分布在一起,我们展示了如何对其进行采样作为解决常规方程(ODE)。考虑到预先训练的生成器,我们需要可控生成的所有都是训练属性分类器。使用ODES采样是有效的在潜在的空间中完成,并且对HyperParameter具有稳健性。因此,我们的方法简单,速度快,并有效地样本。实验结果表明,我们的方法在条件采样和顺序编辑中表明了最先进的。在组成生成中,我们的方法在零拍摄生成的不均义属性组合中卓越。此外,通过用逻辑运算符组成能量函数,这项工作是第一个实现在发电量1024x1024的光处理图像中实现这种组成性的。代码可在https://github.com/nvlabs/lace中获得。
translated by 谷歌翻译