We present a unified probabilistic model that learns a representative set of discrete vehicle actions and predicts the probability of each action given a particular scenario. Our model also enables us to estimate the distribution over continuous trajectories conditioned on a scenario, representing what each discrete action would look like if executed in that scenario. While our primary objective is to learn representative action sets, these capabilities combine to produce accurate multimodal trajectory predictions as a byproduct. Although our learned action representations closely resemble semantically meaningful categories (e.g., "go straight", "turn left", etc.), our method is entirely self-supervised and does not utilize any manually generated labels or categories. Our method builds upon recent advances in variational inference and deep unsupervised clustering, resulting in full distribution estimates based on deterministic model evaluations.
translated by 谷歌翻译
在高度互动的场景中进行运动预测是自主驾驶中的一个挑战性问题。在这种情况下,我们需要准确预测相互作用的代理的共同行为,以确保自动驾驶汽车的安全有效导航。最近,由于其在性能方面的优势和捕获轨迹分布中多模态的能力,目标条件方法引起了人们的关注。在这项工作中,我们研究了目标条件框架的联合轨迹预测问题。特别是,我们引入了一个有条件的基于AutoEncoder(CVAE)模型,以将不同的相互作用模式明确地编码到潜在空间中。但是,我们发现香草模型遭受后塌陷,无法根据需要诱导信息的潜在空间。为了解决这些问题,我们提出了一种新颖的方法,以避免KL消失并诱导具有伪标签的可解释的互动潜在空间。提出的伪标签使我们能够以灵活的方式将域知识纳入有关相互作用的知识。我们使用说明性玩具示例激励提出的方法。此外,我们通过定量和定性评估验证Waymo Open Motion数据集上的框架。
translated by 谷歌翻译
为了计划安全的演习并采取远见卓识,自动驾驶汽车必须能够准确预测不确定的未来。在自主驾驶的背景下,深层神经网络已成功地应用于从数据中学习人类驾驶行为的预测模型。但是,这些预测遭受了级联错误的影响,导致长时间的不准确性。此外,学识渊博的模型是黑匣子,因此通常不清楚它们如何得出预测。相比之下,由人类专家告知的基于规则的模型在其预测中保持长期连贯性,并且是可解释的。但是,这样的模型通常缺乏捕获复杂的现实世界动态所需的足够表现力。在这项工作中,我们开始通过将智能驱动程序模型(一种流行的手工制作的驱动程序模型)嵌入深度神经网络来缩小这一差距。我们的模型的透明度可以提供可观的优势,例如在调试模型并更容易解释其预测时。我们在模拟合并方案中评估我们的方法,表明它产生了可端到端训练的强大模型,并无需为模型的预测准确性提供更大的透明度。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
自动编码变化贝叶斯(AEVB)是一种用于拟合潜在变量模型(无监督学习的有前途的方向)的强大而通用的算法,并且是训练变量自动编码器(VAE)的众所周知的。在本教程中,我们专注于从经典的期望最大化(EM)算法中激励AEVB,而不是确定性自动编码器。尽管自然而有些不言而喻,但在最近的深度学习文献中并未强调EM与AEVB之间的联系,我们认为强调这种联系可以改善社区对AEVB的理解。特别是,我们发现(1)优化有关推理参数的证据下限(ELBO)作为近似E-step,并且(2)优化ELBO相对于生成参数作为近似M-step;然后,与AEVB中的同时进行同时进行,然后同时拧紧并推动Elbo。我们讨论如何将近似E-Step解释为执行变异推断。详细讨论了诸如摊销和修复技巧之类的重要概念。最后,我们从划痕中得出了非深度和几个深层变量模型的AEVB训练程序,包括VAE,有条件的VAE,高斯混合物VAE和变异RNN。我们希望读者能够将AEVB认识为一种通用算法,可用于拟合广泛的潜在变量模型(不仅仅是VAE),并将AEVB应用于自己的研究领域中出现的此类模型。所有纳入型号的Pytorch代码均可公开使用。
translated by 谷歌翻译
配备具有推断人类意图的能力的机器人是有效合作的重要前提。对于这种目标的大多数计算方法采用了概率的推理,以回收机器人感知状态的“意图”的分布。然而,这些方法通常假设人类意图的特定任务概念(例如标记目标)是先验的。为了克服这一限制,我们提出了解离序列聚类变分性Autiachoder(Discvae),该群集框架可以用于以无监督的方式学习意图的这种分布。 DiscVae利用最近在无监督的学习方面的进步导出了顺序数据的解除不诚格潜在表示,从时间不变的全局方面分离时变化的本地特征。虽然与前面的解剖学框架不同,但是所提出的变体也涉及分立变量,以形成潜在混合模型,并使全局序列概念进行聚类,例如,观察到人类行为的意图。为了评估Discvae,首先使用弹跳数字和2D动画的视频数据集来验证其从未标记序列发现类的容量。然后,我们从机器人轮椅上进行的现实世界机器人交互实验报告结果。我们的调查结果引入了推断离散变量如何与人类意图一致,从而用于改善协作设置的帮助,例如共享控制。
translated by 谷歌翻译
在自动驾驶中,在车辆周围所有代理的位置和运动方面预测未来是计划的关键要求。最近,通过将多个相机感知的丰富感觉信息融合到紧凑的鸟类视图表示以执行预测的情况下,已经出现了一种新的感知和预测的联合表述。但是,由于多个合理的预测,未来预测的质量会随着时间的推移而降低到更长的时间范围。在这项工作中,我们通过随机时间模型解决了未来预测中的这种固有的不确定性。我们的模型通过在每个时间步骤中通过随机残差更新来学习潜在空间中的时间动态。通过在每个时间步骤中从学习的分布中取样,我们获得了与以前的工作相比更准确的未来预测,尤其是在现场的空间上扩展两个区域,并在更长的时间范围内进行时间范围。尽管每个时间步骤进行了单独的处理,但我们的模型仍然通过解耦动态学习和未来预测的产生而有效。
translated by 谷歌翻译
轨迹预测面临着困难,以捕获具有多样性和准确性的未来动力学的多模式性质。在本文中,我们提出了一种分布歧视(DISDIS)方法,可以通过区分潜在分布来预测个性化运动模式。由于每个人的习惯,每个人的运动模式都被个性化,我们的disdis学会了潜在分布来代表不同的运动模式,并通过对比度歧视来优化它。这种分布歧视鼓励潜在分布更具歧视性。我们的方法可以与现有的多模式随机预测模型集成为插件模块,以了解更具歧视性的潜在分布。为了评估潜在分布,我们进一步提出了一个新的度量标准,概率累积最小距离(PCMD)曲线,该曲线累计计算了分类概率的最小距离。对ETH和UCY数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译
解释性对于自主车辆和其他机器人系统在操作期间与人类和其他物体相互作用至关重要。人类需要了解和预测机器采取的行动,以获得可信赖和安全的合作。在这项工作中,我们的目标是开发一个可解释的模型,可以与人类领域知识和模型的固有因果关系一致地产生解释。特别是,我们专注于自主驾驶,多代理交互建模的基本构建块。我们提出了接地的关系推理(GRI)。它通过推断代理关系的相互作用图来模拟交互式系统的底层动态。我们通过将关系潜空间接地为具有专家域知识定义的语义互动行为来确保语义有意义的交互图。我们展示它可以在模拟和现实世界中建模交互式交通方案,并生成解释车辆行为的语义图。
translated by 谷歌翻译
我们介绍了一种基于识别范围模型(RPM)的概率无监督学习方法的新方法:一种归一化的半参数假设类别,用于观察到的和潜在变量的联合分布。在关键的假设下,观察值在有条件地独立的情况下,rpm直接编码“识别”过程,从而在观测值的情况下参数参数既参数潜在的潜在分布及其条件分布。该识别模型与每个观察到的变量的边际分布的非参数描述配对。因此,重点是学习一种良好的潜在表示,该表示可以捕获测量值之间的依赖性。 RPM允许在具有离散潜在的设置和可牵引力的设置中进行精确的最大似然学习,即使连续观测和潜在的映射是通过灵活的模型(例如神经网络)表示的。我们开发有效的近似值,以具有可拖动先验的连续潜在变量。与诸如Helmholtz机器和变异自动编码器之类的双聚材料模型中所需的近似值不同,这些RPM近似仅引入次要偏置,这些偏置通常可能渐近地消失。此外,在潜在的先验上的棘手中,RPM可以与标准概率技术(例如变异贝叶斯)有效结合。我们在高维数据设置中演示了该模型,包括对MNIST数字的弱监督学习形式以及从感觉观察发现潜在地图的形式。 RPM提供了一种有效的方法来发现,代表和理由关于观察数据的潜在结构,即对动物和人工智能至关重要的功能。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
不确定性在未来预测中起关键作用。未来是不确定的。这意味着可能有很多可能的未来。未来的预测方法应涵盖坚固的全部可能性。在自动驾驶中,涵盖预测部分中的多种模式对于做出安全至关重要的决策至关重要。尽管近年来计算机视觉系统已大大提高,但如今的未来预测仍然很困难。几个示例是未来的不确定性,全面理解的要求以及嘈杂的输出空间。在本论文中,我们通过以随机方式明确地对运动进行建模并学习潜在空间中的时间动态,从而提出了解决这些挑战的解决方案。
translated by 谷歌翻译
变量自动编码器(VAE)已广泛用于建模数据分布,因为它在理论上优雅,易于训练并且具有不错的多种形式表示。但是,当应用于图像重建和合成任务时,VAE显示了生成样品往往模糊的局限性。我们观察到一个类似的问题,其中生成的轨迹位于相邻的车道之间,通常是在基于VAE的轨迹预测模型中出现的。为了减轻此问题,我们将层次潜在结构引入基于VAE的预测模型。基于以下假设,即可以将轨迹分布近似为简单分布(或模式)的混合物,因此使用低级潜在变量来对混合物的每种模式进行建模,并采用了高级潜在变量来表示权重代表权重对于模式。为了准确地对每个模式进行建模,我们使用以新颖方式计算的两个车道级别上下文向量来调节低级潜在变量,一种对应于车道相互作用,另一个对应于车辆车辆的相互作用。上下文向量还用于通过建议的模式选择网络对权重进行建模。为了评估我们的预测模型,我们使用两个大型现实世界数据集。实验结果表明,我们的模型不仅能够生成清晰的多模式轨迹分布,而且还可以优于最新模型(SOTA)模型。我们的代码可在https://github.com/d1024choi/hlstrajforecast上找到。
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
变异自动编码器(VAE)是最常用的无监督机器学习模型之一。但是,尽管对先前和后验的高斯分布的默认选择通常代表了数学方便的分布通常会导致竞争结果,但我们表明该参数化无法用潜在的超球体结构对数据进行建模。为了解决这个问题,我们建议使用von Mises-fisher(VMF)分布,从而导致超级潜在空间。通过一系列实验,我们展示了这种超球vae或$ \ mathcal {s} $ - vae如何更适合于用超球形结构捕获数据,同时胜过正常的,$ \ mathcal {n} $ - vae-,在其他数据类型的低维度中。http://github.com/nicola-decao/s-vae-tf和https://github.com/nicola-decao/nicola-decao/s-vae-pytorch
translated by 谷歌翻译
预测道路用户的未来行为是自主驾驶中最具挑战性和最重要的问题之一。应用深度学习对此问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并在可能的期货上推断出高度多模态分布。在本文中,我们呈现MultiPath ++,这是一个未来的预测模型,实现了在流行的基准上实现最先进的性能。 MultiPath ++通过重新访问许多设计选择来改善多径架构。第一关键设计差异是偏离基于图像的基于输入世界状态的偏离,有利于异构场景元素的稀疏编码:多径++消耗紧凑且有效的折线,直接描述道路特征和原始代理状态信息(例如,位置,速度,加速)。我们提出了一种背景感知这些元素的融合,并开发可重用的多上下文选通融合组件。其次,我们重新考虑了预定义,静态锚点的选择,并开发了一种学习模型端到端的潜在锚嵌入的方法。最后,我们在其他ML域中探索合奏和输出聚合技术 - 常见的常见域 - 并为我们的概率多模式输出表示找到有效的变体。我们对这些设计选择进行了广泛的消融,并表明我们所提出的模型在协会运动预测竞争和Waymo开放数据集运动预测挑战上实现了最先进的性能。
translated by 谷歌翻译