对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
具有低错误接受和错误拒绝率的准确的设备上关键字定位(KWS)对于客户对对话代理的远场语音控制的体验至关重要。在现实世界条件下保持较低的错误拒绝率尤其具有挑战性,其中存在(a)环境噪声,例如电视,家用电器或其他未在设备上引导的语音(b)从设备不完全取消音频回放在由AcousticEcho Cancellation(AEC)系统处理后产生残余回声。在本文中,我们提出了一种数据增强策略,以在这些具有挑战性的条件下提高关键字定位性能。通过混合音乐和电视/电影音频,以不同的信号干扰比,人工破坏训练集音频。我们的结果表明,在这些设备的音频回放下,我们可以在误报率范围内相对减少30-45%的错误拒绝率。
translated by 谷歌翻译
统计语言模型(LM)在会话代理使用的自动语音识别(ASR)系统中起关键作用。这些ASR系统应该在各种说话风格,领域,词汇和argot下提供高精度。在本文中,我们提出了一种基于DNN的方法,通过预测最佳的,依赖于上下文的LM插值权重集,使LM适应基于广义上下文信息的每个用户 - 代理交互。我们表明,这种上下文自适应框架在不同的可能混合LM分区下提供准确性改进,这些分区与以下两者相关:(1)面向目标的会话代理,其中自然要求所请求的应用程序对数据进行分区,以及(2)非目标导向的会话代理可以使用来自主题分类器预测的主题标签对数据进行分区。在未适应的模型中,我们通过1遍解码策略获得3%的相对WER改善,并且在2遍解码框架中获得6%的相对WER改善。我们还在识别命名实体方面表现出高达15%的相对改进,这对于对话ASR系统具有重要价值。
translated by 谷歌翻译
贝叶斯优化(BO)是指用于对昂贵的黑盒函数进行全局优化的一套技术,它使用函数的内省贝叶斯模型来有效地找到最优值。虽然BO已经在许多应用中成功应用,但现代优化任务迎来了传统方法失败的新挑战。在这项工作中,我们展示了Dragonfly,这是一个开源Python库,用于可扩展和强大的BO.Dragonfly包含多个最近开发的方法,允许BO应用于具有挑战性的现实世界环境;这些包括更好的处理更高维域的方法,当昂贵函数的廉价近似可用时处理多保真评估的方法,优化结构化组合空间的方法,例如神经网络架构的空间,以及处理并行评估的方法。此外,我们在BO中开发了新的方法改进,用于选择贝叶斯模型,选择采集函数,以及优化具有不同变量类型和附加约束的过复杂域。我们将Dragonfly与一套用于全局优化的其他软件包和算法进行比较,并证明当上述方法集成时,它们可以显着改善BO的性能。 Dragonfly图书馆可在dragonfly.github.io上找到。
translated by 谷歌翻译
在参数空间中探索的黑盒优化器经常被证明可以表现出更加复杂的动作空间探索方法,这些方法专门针对强化学习问题而开发。我们仔细研究这些黑盒方法,以确定它们比动作空间探索方法和它们优越的方法更糟糕的情况。通过简单的理论分析,证明了参数空间探索的复杂性取决于参数空间的维数,而动作空间探索的复杂性则取决于动作空间的维数和地平线长度。通过比较几个模型问题的简单探索方法,包括连续控制中的语境强盗,线性回归和强化学习,也可以凭经验证明这一点。
translated by 谷歌翻译
强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
已经有许多尝试通过各种认知模型来解释一般学习行为。已经提出了多个假设,以定性地论证运动技能获取任务及其变化的最佳拟合模型。在这种情况下,对于离散序列生产(DSP)任务,最有见地的模型之一是Verwey的双处理器模型(DPM)。它在很大程度上解释了熟练的离散按键序列的学习和行为现象,而没有提供任何具体的强化计算基础。因此,我们通过实验建立运动技能学习的通用计算框架,提出VerweyDPM假设的定量解释。我们尝试基于双处理器模型的实验模拟的最佳拟合模型来组合定性和定量理论。顺序决定技能学习的基本前提是基于交互模型(MB)和无模型(MF)强化学习(RL)过程。我们的统一框架表明,提出的想法与Verwey的DPM和Fitts的三个阶段学习方法非常吻合。我们的模型的准确性可以通过其与人类生成的关于简单环境任务的数据的统计拟合进一步验证,这些数据与网格世界相关。
translated by 谷歌翻译
fMRI semantic category understanding using linguistic encoding models attempt to learn a forward mapping that relates stimuli to the corresponding brain activation. Classical encoding models use linear multi-variate methods to predict the brain activation (all voxels) given the stimulus. However, these methods essentially assume multiple regions as one large uniform region or several independent regions, ignoring connections among them. In this paper, we present a mixture of experts-based model where a group of experts captures brain activity patterns related to particular regions of interest (ROI) and also show the discrimination across different experts. The model is trained word stimuli encoded as 25-dimensional feature vectors as input and the corresponding brain responses as output. Given a new word (25-dimensional feature vector), it predicts the entire brain activation as the linear combination of multiple experts' brain activations. We argue that each expert learns a certain region of brain activations corresponding to its category of words, which solves the problem of identifying the regions with a simple encoding model. We showcase that proposed mixture of experts-based model indeed learns region-based experts to predict the brain activations with high spatial accuracy.
translated by 谷歌翻译
尽管对生成对抗性网络(GAN)越来越感兴趣,但从理论和实际角度来看,训练GAN仍然是一个具有挑战性的问题。为了应对这一挑战,在本文中,我们提出了一种利用真实数据的独特几何结构的新方法,尤其是流形信息。更具体地说,我们设计了一种通过添加称为流量调节器的附加正则化项来规范GANtraining的方法。流形正则化器迫使发生器尊重实际数据流形的独特几何结构并生成高质量数据。此外,我们在理论上证明在任何一类GAN(包括DCGAN和Wasserstein GAN)中添加该正则化项导致在泛化方面的性能提高,存在均衡和稳定性。初步实验表明,所提出的流量规划有助于避免模式崩溃并导致稳定的训练。
translated by 谷歌翻译