传统的口语理解(SLU)系统将语音映射到文本,然后将文本映射到意图,而端到端SLU系统通过单个可训练模型将语音直接映射到意图。使用这些端到端模型实现高精度而不需要大量的训练数据是很困难的。我们提出了一种方法来降低端到端SLU的数据要求,其中首先预先训练模型以预测单词和音素,从而学习SLU的良好特征。我们引入了一个新的SLU数据集,Fluent语音命令,并显示我们的方法在完整数据集用于训练时以及仅使用小子集时都提高了性能。我们还描述了初步实验,以评估模型能够推广到在训练期间未听到的新短语。
translated by 谷歌翻译
当奖励函数稀疏时,模仿学习是学习策略的有效替代方法。在本文中,我们考虑一个具有挑战性的设置,即代理人和专家使用彼此不同的行为。我们假设代理可以访问稀疏奖励函数和仅状态专家观察。我们提出了一种在模仿学习成本和强化学习目标之间逐步平衡的方法。此外,该方法基于模仿专家行为或最大化稀疏奖励来调整代理的策略。我们通过导航场景表明,(i)anagent能够有效地利用稀疏奖励优于仅标准状态的模仿学习,(ii)即使其行为与专家不同,也可以学习策略,以及(iii)表现由于稀疏奖励的优化使用,代理的范围不受专家的限制。
translated by 谷歌翻译
强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
卷积神经网络(CNN)是许多计算机视觉任务(例如对象分类和检测)中的最新技术。然而,它们包含的大量参数导致高计算复杂性并且极大地限制了它们在诸如嵌入式设备的预算受限设备中的可用性。在本文中,我们提出了一种新的修剪技术和量化方案的组合,有效地降低了CNN卷积层的复杂性和存储器使用,并用低成本的多路复用器取代了复杂的卷积运算。我们对CIFAR10,CIFAR100和SVHN进行了实验,并表明所提出的方法几乎具有最先进的精度,同时大大减少了计算和内存占用。我们还提出了一种有效的硬件架构来加速CNN的运营。所提出的硬件架构是一个流水线,可以容纳多个层同时工作以推进推理过程。
translated by 谷歌翻译
深度神经网络可以学习复杂和抽象的表示,这些表示通过组合更简单的表示而逐步获得。语音和语音识别的最新趋势在于直接从创建音频样本开始发现这些表示。与MFCC或FBANK等标准手工制作的功能不同,原始波形可以帮助神经网络发现更好,更自定义的表示。然而,高维的原始输入可以使训练更具挑战性。本文总结了我们最近开发的一种神经结构的努力,该神经结构可以有效地处理来自音频波形的语音。特别是,我们提出了SincNet,anovel卷积神经网络(CNN),它鼓励第一层通过利用参数化sinc函数来发现有意义的滤波器。与标准CNN相比,它们了解每个滤波器的所有元素,只有带通滤波器的低截止频率和高截止频率直接从数据中学习。这种归纳偏差提供了一种非常紧凑的方法来导出定制的前端,这只取决于具有明确物理意义的一些参数。我们在扬声器和语音识别上进行的实验表明,所提出的架构收敛得更快,性能更好,并且是比标准CNN更有计算效率。
translated by 谷歌翻译
元学习算法快速适应各种任务的能力,包括他们在元训练期间没有经历过的任务,是最近这些方法在少数学习问题上取得成功的关键因素。使用元学习而不是标准监督或强化学习的这一特殊优势只有在适应阶段确实改善我们的模型在感兴趣的任务上的表现的假设下才有充分的基础。然而,在元学习的经典框架中,这种约束只是稍微强制执行,如果不是的话,我们只看到在任务分配上平均得到改善。在本文中,我们展示了像MAML这样的算法中的自适应可以显着降低代理在元强化学习环境中的性能,甚至在一系列元训练任务中也是如此。
translated by 谷歌翻译
生成具有最佳性质的新分子是许多工业中的关键步骤,例如药物发现。最近,深度生成模型已经显示出进行从头分子设计的有希望的方法。虽然图形生成模型目前可用,但它们或者在参数数量上具有图形尺寸依赖性,将它们的使用限制为仅非常小的图形或者被构造为构造图形所需的一系列离散动作,使得输出图形与模型参数不可微分。因此阻止它们用于条件图生成等场景。在这项工作中,我们提出了一个条件图生成模型,它具有计算效率,可以直接优化图。我们证明了我们的模型在基于原型的分子图条件生成任务中的有利性能。
translated by 谷歌翻译
深度学习目前在更高水平的人工智能方面发挥着至关重要的作用。这种范例允许神经网络学习复杂和抽象的表示,这些表示通过组合简单的表示逐步获得。然而,当前神经架构自动发现的内部“黑盒”表示常常遭受可解释性的影响,使得可解释机器学习技术的研究成为主要兴趣。本文总结了我们最近努力开发一种更可解释的神经模型,用于直接处理原始波形的语音。特别是,我们提出了一种新颖的卷积神经网络(CNN)SincNet,它鼓励第一层通过利用参数化的sinc函数来发现更多有意义的滤波器。与学习每个滤波器的所有元素的标准CNN相比,只能从数据中学习带通滤波器的低和高截止频率。这种诱导偏差提供了一种非常紧凑的方式来获得定制的滤波器 - 银行前端,仅依赖于具有明确物理意义的一些参数。我们在扬声器和语音识别上进行的实验表明,所提出的架构收敛得更快,性能更好,并且比标准CNN更容易解释。
translated by 谷歌翻译
最近使用深度学习的基于字符和音素的参数化TTS系统在自然语音生成中表现出强大的性能。然而,在实际部署中,字符或音素输入之间的选择会产生严重的限制,因为在某些情况下直接控制发音是至关重要的。我们演示了一种简单的方法,用于在单个编码器中组合多种类型的语言信息,称为表示混合,在推理期间实现字符,音素或混合表示之间的灵活选择。公共有声读物语料库的实验和用户研究显示了我们的方法的功效。
translated by 谷歌翻译