音乐的机器学习模型通常将组合的任务分解为按时间顺序排列的过程,从开始到结束一次性组成一段音乐。相反,人类作曲家在这里和那里以非线性时尚,涂鸦的图案来写音乐,经常重新审视以前做出的选择。为了更好地近似这个过程,我们训练卷积神经网络来完成部分乐谱,并探索使用阻塞的吉布斯采样作为重写的类比。模型和生成过程都不是与组合的特定因果方向联系在一起。我们的模型是无序NADE的一个实例(Uria等,2014),它允许更直接的祖先采样。然而,我们发现Gibbs采样大大提高了样本质量,我们证明这是由于某些条件分布模型不佳所致。此外,我们表明,甚至廉价的近似阻止了来自Yao等人的Gibbs程序。 (2014)基于对数似然和人道评估,得出比祖先抽样更好的样本。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
构建能够生成结构化输出的模型是AI和机器人技术的关键挑战。虽然已经在许多类型的数据上探索了生成模型,但是在合成激光雷达扫描方面做的工作很少,这在机器人绘图和定位中起着关键作用。在这项工作中,我们展示了通过将激光雷达扫描解开为多通道2D信号,可以为这项任务进行深入的生成模型。我们的方法可以生成高质量的样本,同时学习有意义的潜在数据表示。此外,我们证明了我们的方法对噪声输入是鲁棒的 - 经过学习的模型可以从看似有效的数据中恢复潜在的激光雷达扫描。
translated by 谷歌翻译
我们证明了条件自回归生成模型(vanden Oord等,2016a)在离散潜在空间(van den Oord等,2017b)上的应用,用于MCTS的前向规划。为了测试这种方法,我们引入了一个具有不同难度级别的新环境,以及移动目标和障碍。高质量框架生成和经典规划方法的结合几乎与我们的任务的真实环境性能相匹配,证明了该方法在动态环境中基于模型的规划的有用性。
translated by 谷歌翻译
基于van den Oord等人(2017)提出的方法,我们展示了一种有效音乐分解的条件自回归流水线。分解(Casal&Casey,2010)着重于重新制作现有的音乐作品,坚持高水平的结构,同时也重新想象工作的其他方面。这可能涉及重用预先存在的主题或原始部分的部分,同时还需要灵活地在不同的粒度级别生成新内容。将上述建模管道应用于重构,我们在和弦序列注释上展示了多样化和结构化的生成条件。
translated by 谷歌翻译
最近使用深度学习的基于字符和音素的参数化TTS系统在自然语音生成中表现出强大的性能。然而,在实际部署中,字符或音素输入之间的选择会产生严重的限制,因为在某些情况下直接控制发音是至关重要的。我们演示了一种简单的方法,用于在单个编码器中组合多种类型的语言信息,称为表示混合,在推理期间实现字符,音素或混合表示之间的灵活选择。公共有声读物语料库的实验和用户研究显示了我们的方法的功效。
translated by 谷歌翻译
我们探讨了Embodied QuestionAnswering的盲目(仅限问题)基线。 EmbodiedQ​​A任务要求代理人通过在模拟环境中智能地导航来回答问题,在最终回答之前仅通过第一人称视觉收集必要的视觉信息。因此,忽略环境和视觉信息的盲目基线是一种退化解决方案,但我们通过我们在EQAv1数据集上的实验表明,在所有情况下,一个简单的仅问题基线可以在EmbodiedQ​​A任务中获得最先进的结果,除非该代理非常靠近该对象。
translated by 谷歌翻译
递归神经网络(RNN)模型广泛用于处理由潜在树结构控制的顺序数据。以前的工作表明,RNN模型(特别是基于长短期记忆(LSTM)的模型)可以学习利用底层树结构。但是,它的性能始终落后于基于树的模型。这项工作提出了一种新的归纳biasOrdered神经元,它强制执行隐藏状态神经元之间更新频率的顺序。我们证明有序神经元可以将thelatent树结构明确地整合到循环模型中。为此,我们提出了一种新的RNNunit:ON-LSTM,它在四个不同的任务上取得了良好的性能:语言建模,无监督解析,有针对性的句法评估和逻辑推理。
translated by 谷歌翻译
虽然近年来取得了很多进展,但深度非线性神经网络的学习动力至今仍未得到很好的理解。在这项工作中,我们研究了二元分类的情况,并在强大的假设下证明了这种网络中学习的各种属性,如数据的线性可分性。从线性情况扩展现有结果,我们通过证明分类误差在非线性体系结构中也遵循S形形状来证实经验观察。我们表明,给定适当的初始化,学习阐述了并行相关模式,并且参数空间的某些区域可能导致tofailed训练。我们还证明了数据集中的输入范数和特征频率导致了明显的收敛速度,这可能会对深度神经网络的泛化能力有所启发。我们提供了学习动态与交叉熵和铰链损失之间的比较,这可能有助于理解生成对抗网络训练的最新进展。最后,我们确定了一种将梯度饥饿纳入其中的现象,其中数据集中最常见的特征可以防止学习其他不太频繁但信息量相同的特征。
translated by 谷歌翻译
尽管变分推断的近似分布的表征能力有所进步,但优化过程仍然可以限制最终学习的密度。我们证明了将真实后验偏向单峰的缺点,并将退火变分目标(AVO)引入到层次变分方法的训练中。受退火重要性抽样的启发,该方法通过将能量回火结合到优化目标中来促进学习。在我们的实验中,我们证明了我们的方法对确定性预热的鲁棒性,以及在潜在空间中鼓励探索的好处。
translated by 谷歌翻译