我们总结了Pirounet的模型和结果,PirOnet是一种半监督的复发性自动编码器。鉴于少量用定性编舞注释标记的舞蹈序列,Pirounet有条件地以编舞家的风格生成舞蹈序列。
translated by 谷歌翻译
使用人工智能(AI)以意图创建舞蹈编舞仍在早期。有条件生成舞蹈序列的方法在遵循编舞特定的创意意图的能力上仍然有限,通常依靠外部提示或监督学习。同样,完全注释的舞蹈数据集罕见且劳动密集型。为了填补这一空白,并帮助深入学习作为编舞者的有意义的工具,我们提出了“ Pirounet”,这是一种半监督的条件性复发性自动编码器以及舞蹈标签网络应用程序。 Pirounet允许舞蹈专业人士使用自己的主观创意标签注释数据,并根据其美学标准生成新的编舞。得益于提议的半监督方法,PirOnet仅需要标记数据集的一小部分,通常以1%的订单为单位。我们展示了Pirounet的功能,因为它基于“ Laban Time努力”生成原始的编排,这是一个既定的舞蹈概念,描述了动作时间动态的意图。我们通过一系列定性和定量指标广泛评估了Pirounet的舞蹈创作,从而证实了其作为编舞工具的适用性。
translated by 谷歌翻译
自动编码变化贝叶斯(AEVB)是一种用于拟合潜在变量模型(无监督学习的有前途的方向)的强大而通用的算法,并且是训练变量自动编码器(VAE)的众所周知的。在本教程中,我们专注于从经典的期望最大化(EM)算法中激励AEVB,而不是确定性自动编码器。尽管自然而有些不言而喻,但在最近的深度学习文献中并未强调EM与AEVB之间的联系,我们认为强调这种联系可以改善社区对AEVB的理解。特别是,我们发现(1)优化有关推理参数的证据下限(ELBO)作为近似E-step,并且(2)优化ELBO相对于生成参数作为近似M-step;然后,与AEVB中的同时进行同时进行,然后同时拧紧并推动Elbo。我们讨论如何将近似E-Step解释为执行变异推断。详细讨论了诸如摊销和修复技巧之类的重要概念。最后,我们从划痕中得出了非深度和几个深层变量模型的AEVB训练程序,包括VAE,有条件的VAE,高斯混合物VAE和变异RNN。我们希望读者能够将AEVB认识为一种通用算法,可用于拟合广泛的潜在变量模型(不仅仅是VAE),并将AEVB应用于自己的研究领域中出现的此类模型。所有纳入型号的Pytorch代码均可公开使用。
translated by 谷歌翻译
最近在随机运动预测中的进展,即预测单一过去的姿势序列的多个可能的未来人类动作,导致产生真正不同的未来动作,甚至可以控制一些身体部位的运动。然而,为了实现这一点,最先进的方法需要学习用于多样性的多个映射和用于可控运动预测的专用模型。在本文中,我们向统一的深度生成网络介绍了多种和可控的运动预测。为此,我们利用了现实人类动作的直觉由有效姿势的平滑序列组成,并且给定的有限数据,学习姿势比动作更具易行。因此,我们设计了一种发电机,其顺序地预测不同车身部件的运动,并引入基于流动的基于流动的姿势,以及接合角度损失,以实现运动现实主义。在两个标准基准数据集,人类3.6m和人文集上进行实验。我展示了我们的方法在样本多样性和准确性方面优于最先进的基线。该代码可在https://github.com/wei-mao-2019/gsps获得
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
最近的研究表明,先进的前锋在深度生成模型中发挥着重要作用。作为基于示例的基于示例的VAE的变体,示例性VAE已经实现了令人印象深刻的结果。然而,由于模型设计的性质,基于示例的模型通常需要大量的数据来参与训练,这导致巨大的计算复杂性。为了解决这个问题,我们提出了贝叶斯伪移动的样份vae(bype-vae),一种基于Bayesian伪动脉的先前vae的新变种。该提出的先后在小规模的伪电阻上而不是整个数据集进行调节,以降低计算成本并避免过度拟合。同时,在VAE训练期间,通过随机优化算法获得最佳伪验证,旨在最大限度地基于伪移动的基于伪组件的Kullback-Leibler发散,并且基于整个数据集。实验结果表明,Bype-VAE可以在密度估计,代表学习和生成数据增强的任务中实现最先进的VAES对最先进的VAES的竞争改进。特别是,在基本的VAE架构上,Bype-VAE比示例性VAE快3倍,同时几乎保持性能。代码可用于\ url {https:/github.com/aiqz/bype-vae}。
translated by 谷歌翻译
通过利用未标记的对话框数据来开发半监督的面向任务的对话框(TOD)系统已吸引了越来越多的兴趣。对于对潜在状态TOD模型的半监督学习,经常使用变异学习,但遭受了通过离散潜在变量传播的梯度的令人讨厌的高度变化,以及间接优化目标对数的弊端。最近,一种称为关节随机近似(JSA)的替代算法已出现,用于学习具有令人印象深刻的性能的离散潜在可变模型。在本文中,我们建议将JSA应用于对潜在状态TOD模型的半监督学习,该模型称为JSA-TOD。据我们所知,JSA-TOD代表了开发基于JSA的半监督学习的第一批工作,用于对TOD系统(例如TOD系统)这样的长期顺序生成问题的离散潜在可变条件模型。广泛的实验表明,JSA-TOD明显优于其变异学习对应物。值得注意的是,使用20%标签的半监督JSA-TOD在Multiwoz2.1上的全面监督基线附近。
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
基于生成模型的运动预测技术最近已经实现了预测受控人类运动的,例如预测具有相似下体运动的多个上层运动。但是,为了实现这一目标,最新的方法要求随后学习映射功能以寻求类似的动作或重复训练模型以控制身体的所需部分。在本文中,我们提出了一个新颖的框架,以学习可控人体运动预测的脱节表示。我们的网络涉及有条件的变分自动编码器(CVAE)结构,以模拟全身人体运动,以及仅学习相应的部分体体(例如,下体)运动的额外CVAE路径。具体而言,额外CVAE路径施加的电感偏置鼓励两个路径中的两个潜在变量分别控制每个部分运动运动的单独表示。通过一次训练,我们的模型能够为生成的人类动作提供两种类型的控制:(i)严格控制人体的一部分,(ii)通过从一对潜在空间中取样来自适应控制另一部分。此外,我们将抽样策略扩展到了我们训练的模型,以多样化可控的预测。我们的框架还可以通过灵活地自定义额外CVAE路径的输入来允许新的控制形式。广泛的实验结果和消融研究表明,我们的方法能够在质量和定量上预测最新的可控人体运动。
translated by 谷歌翻译
该报告解释,实施和扩展了“更紧密的变化界限不一定更好”所介绍的作品(T Rainforth等,2018)。我们提供了理论和经验证据,这些证据增加了重要性的重要性数量$ k $在重要性加权自动编码器(IWAE)中(Burda等,2016)降低了推理中梯度估计量的信噪比(SNR)网络,从而影响完整的学习过程。换句话说,即使增加$ k $减少了梯度的标准偏差,但它也会更快地降低真实梯度的幅度,从而增加梯度更新的相对差异。进行广泛的实验以了解$ k $的重要性。这些实验表明,更紧密的变化界限对生成网络有益,而宽松的边界对推理网络来说是可取的。通过这些见解,可以实施和研究三种方法:部分重要性加权自动编码器(PIWAE),倍增重要性加权自动编码器(MIWAE)和组合重要性加权自动编码器(CIWAE)。这三种方法中的每一种都需要IWAE作为一种特殊情况,但采用不同的重量权重,以确保较高的梯度估计器的SNR。在我们的研究和分析中,这些算法的疗效在多个数据集(如MNIST和Omniglot)上进行了测试。最后,我们证明了三种呈现的IWAE变化能够产生近似后验分布,这些分布与IWAE更接近真正的后验分布,同时匹配IWAE生成网络的性能,或者在PIWAE的情况下可能超过其表现。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
We present a unified probabilistic model that learns a representative set of discrete vehicle actions and predicts the probability of each action given a particular scenario. Our model also enables us to estimate the distribution over continuous trajectories conditioned on a scenario, representing what each discrete action would look like if executed in that scenario. While our primary objective is to learn representative action sets, these capabilities combine to produce accurate multimodal trajectory predictions as a byproduct. Although our learned action representations closely resemble semantically meaningful categories (e.g., "go straight", "turn left", etc.), our method is entirely self-supervised and does not utilize any manually generated labels or categories. Our method builds upon recent advances in variational inference and deep unsupervised clustering, resulting in full distribution estimates based on deterministic model evaluations.
translated by 谷歌翻译
The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a generative model that integrates a perfect physical model which partially explains the true underlying factors of variation in the data. To fully leverage our hybrid design, we propose a semi-supervised optimization procedure and an inference scheme that comes along meaningful uncertainty estimates. We apply p$^3$VAE to the semantic segmentation of high-resolution hyperspectral remote sensing images. Our experiments on a simulated data set demonstrated the benefits of our hybrid model against conventional machine learning models in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has high disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
The standard recurrent neural network language model (rnnlm) generates sentences one word at a time and does not work from an explicit global sentence representation. In this work, we introduce and study an rnn-based variational autoencoder generative model that incorporates distributed latent representations of entire sentences. This factorization allows it to explicitly model holistic properties of sentences such as style, topic, and high-level syntactic features. Samples from the prior over these sentence representations remarkably produce diverse and well-formed sentences through simple deterministic decoding. By examining paths through this latent space, we are able to generate coherent novel sentences that interpolate between known sentences. We present techniques for solving the difficult learning problem presented by this model, demonstrate its effectiveness in imputing missing words, explore many interesting properties of the model's latent sentence space, and present negative results on the use of the model in language modeling.
translated by 谷歌翻译
概率生成模型对科学建模具有吸引力,因为它们的推论参数可用于生成假设和设计实验。这要求学习的模型提供了对输入数据的准确表示,并产生一个潜在空间,该空间有效地预测了与科学问题相关的结果。监督的变异自动编码器(SVAE)以前已用于此目的,在此目的中,精心设计的解码器可以用作可解释的生成模型,而监督目标可确保预测性潜在表示。不幸的是,监督的目标迫使编码器学习与生成后验分布有偏见的近似,这在科学模型中使用时使生成参数不可靠。由于通常用于评估模型性能的重建损失,因此该问题仍未被发现。我们通过开发一个二阶监督框架(SOS-VAE)来解决这个以前未报告的问题,该框架影响解码器诱导预测潜在的代表。这样可以确保关联的编码器保持可靠的生成解释。我们扩展了此技术,以使用户能够在生成参数中折叠以提高预测性能,并充当SVAE和我们的新SOS-VAE之间的中间选择。我们还使用这种方法来解决在组合来自多个科学实验的录音时经常出现的缺失数据问题。我们使用合成数据和电生理记录来证明这些发展的有效性,重点是如何使用我们学到的表示形式来设计科学实验。
translated by 谷歌翻译
潜在空间基于能量的模型(EBM),也称为基于能量的先验,引起了对生成建模的日益兴趣。由于其在潜在空间的配方和强大的建模能力方面的灵活性所推动,最近构建的作品已经进行了有趣的尝试,目的是针对文本建模的解释性。但是,潜在空间EBM还继承了数据空间中EBM的一些缺陷。实践中退化的MCMC抽样质量会导致培训中的发电质量和不稳定差,尤其是在具有复杂潜在结构的数据上。受到最近的努力的启发,该努力利用扩散恢复的可能性学习是解决抽样问题的一种方法,我们在变异学习框架中引入了扩散模型和潜在空间EBM之间的新型共生,这是潜在扩散能量基于能量的模型。我们与信息瓶颈共同开发基于几何聚类的正则化,以进一步提高学到的潜在空间的质量。对几个具有挑战性的任务进行的实验证明了我们模型在可解释的文本建模上的优越性能而不是强大的同行。
translated by 谷歌翻译
We decompose the evidence lower bound to show the existence of a term measuring the total correlation between latent variables. We use this to motivate the β-TCVAE (Total Correlation Variational Autoencoder) algorithm, a refinement and plug-in replacement of the β-VAE for learning disentangled representations, requiring no additional hyperparameters during training. We further propose a principled classifier-free measure of disentanglement called the mutual information gap (MIG). We perform extensive quantitative and qualitative experiments, in both restricted and non-restricted settings, and show a strong relation between total correlation and disentanglement, when the model is trained using our framework.
translated by 谷歌翻译