对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
具有低错误接受和错误拒绝率的准确的设备上关键字定位(KWS)对于客户对对话代理的远场语音控制的体验至关重要。在现实世界条件下保持较低的错误拒绝率尤其具有挑战性,其中存在(a)环境噪声,例如电视,家用电器或其他未在设备上引导的语音(b)从设备不完全取消音频回放在由AcousticEcho Cancellation(AEC)系统处理后产生残余回声。在本文中,我们提出了一种数据增强策略,以在这些具有挑战性的条件下提高关键字定位性能。通过混合音乐和电视/电影音频,以不同的信号干扰比,人工破坏训练集音频。我们的结果表明,在这些设备的音频回放下,我们可以在误报率范围内相对减少30-45%的错误拒绝率。
translated by 谷歌翻译
统计语言模型(LM)在会话代理使用的自动语音识别(ASR)系统中起关键作用。这些ASR系统应该在各种说话风格,领域,词汇和argot下提供高精度。在本文中,我们提出了一种基于DNN的方法,通过预测最佳的,依赖于上下文的LM插值权重集,使LM适应基于广义上下文信息的每个用户 - 代理交互。我们表明,这种上下文自适应框架在不同的可能混合LM分区下提供准确性改进,这些分区与以下两者相关:(1)面向目标的会话代理,其中自然要求所请求的应用程序对数据进行分区,以及(2)非目标导向的会话代理可以使用来自主题分类器预测的主题标签对数据进行分区。在未适应的模型中,我们通过1遍解码策略获得3%的相对WER改善,并且在2遍解码框架中获得6%的相对WER改善。我们还在识别命名实体方面表现出高达15%的相对改进,这对于对话ASR系统具有重要价值。
translated by 谷歌翻译
在参数空间中探索的黑盒优化器经常被证明可以表现出更加复杂的动作空间探索方法,这些方法专门针对强化学习问题而开发。我们仔细研究这些黑盒方法,以确定它们比动作空间探索方法和它们优越的方法更糟糕的情况。通过简单的理论分析,证明了参数空间探索的复杂性取决于参数空间的维数,而动作空间探索的复杂性则取决于动作空间的维数和地平线长度。通过比较几个模型问题的简单探索方法,包括连续控制中的语境强盗,线性回归和强化学习,也可以凭经验证明这一点。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
已经有许多尝试通过各种认知模型来解释一般学习行为。已经提出了多个假设,以定性地论证运动技能获取任务及其变化的最佳拟合模型。在这种情况下,对于离散序列生产(DSP)任务,最有见地的模型之一是Verwey的双处理器模型(DPM)。它在很大程度上解释了熟练的离散按键序列的学习和行为现象,而没有提供任何具体的强化计算基础。因此,我们通过实验建立运动技能学习的通用计算框架,提出VerweyDPM假设的定量解释。我们尝试基于双处理器模型的实验模拟的最佳拟合模型来组合定性和定量理论。顺序决定技能学习的基本前提是基于交互模型(MB)和无模型(MF)强化学习(RL)过程。我们的统一框架表明,提出的想法与Verwey的DPM和Fitts的三个阶段学习方法非常吻合。我们的模型的准确性可以通过其与人类生成的关于简单环境任务的数据的统计拟合进一步验证,这些数据与网格世界相关。
translated by 谷歌翻译
fMRI semantic category understanding using linguistic encoding models attempt to learn a forward mapping that relates stimuli to the corresponding brain activation. Classical encoding models use linear multi-variate methods to predict the brain activation (all voxels) given the stimulus. However, these methods essentially assume multiple regions as one large uniform region or several independent regions, ignoring connections among them. In this paper, we present a mixture of experts-based model where a group of experts captures brain activity patterns related to particular regions of interest (ROI) and also show the discrimination across different experts. The model is trained word stimuli encoded as 25-dimensional feature vectors as input and the corresponding brain responses as output. Given a new word (25-dimensional feature vector), it predicts the entire brain activation as the linear combination of multiple experts' brain activations. We argue that each expert learns a certain region of brain activations corresponding to its category of words, which solves the problem of identifying the regions with a simple encoding model. We showcase that proposed mixture of experts-based model indeed learns region-based experts to predict the brain activations with high spatial accuracy.
translated by 谷歌翻译
尽管对生成对抗性网络(GAN)越来越感兴趣,但从理论和实际角度来看,训练GAN仍然是一个具有挑战性的问题。为了应对这一挑战,在本文中,我们提出了一种利用真实数据的独特几何结构的新方法,尤其是流形信息。更具体地说,我们设计了一种通过添加称为流量调节器的附加正则化项来规范GANtraining的方法。流形正则化器迫使发生器尊重实际数据流形的独特几何结构并生成高质量数据。此外,我们在理论上证明在任何一类GAN(包括DCGAN和Wasserstein GAN)中添加该正则化项导致在泛化方面的性能提高,存在均衡和稳定性。初步实验表明,所提出的流量规划有助于避免模式崩溃并导致稳定的训练。
translated by 谷歌翻译
解决逆问题仍然是计算机视觉中的核心挑战。现有技术要么使用有关损坏的先验知识明确地构建逆映射,要么使用大量示例直接学习逆。然而,在实践中,腐败的性质可能是未知的,因此规范推理合理解决方案的问题具有挑战性。另一方面,收集任务特定的训练数据对于已知的损坏是繁琐的,对于未知的腐败是不可能的。我们提出了MimicGAN,一种无监督的技术,以生成对抗网络(GAN)的形式解决基于图像先验的一般反转问题。使用GAN之前,我们证明人们可以通过代理网络可靠地恢复解决方案确定的反问题,该代理网络在测试时学会了腐败。我们的系统在不需要监督培训的情况下连续估计出腐败和清洁图像,同时在盲图恢复方面表现优于现有基线。我们还证明了MimicGAN改进了最近基于GAN的对抗adversarialattacks的防御,并且代表了当今最强大的测试时间防御之一。
translated by 谷歌翻译
视频中的短距离和长距离对象之间的空间和时间关系是识别动作的关键线索。联合建模是一个具有挑战性的问题。在本文中,我们首先提出了一种新的短期记忆变体,即关系型LSTM,以解决跨物体之间的空间和时间相关推理的挑战。在我们的RelationalLSTM模块中,我们利用与最近提出的非本地网络类似的非本地操作来替换在vanilla LSTM中的完全连接操作。通过这样做,我们的Relational LSTM能够以原则的方式捕获视频中对象之间的长距离和短距离时空关系。然后,我们提出了一个双分支神经结构,包括Relational LSTM模块作为非本地分支和基于空间 - 时间池的本地分支。引入本地分支用于捕获局部空间外观和/或短期运动特征。这两个分支模块连接在一起,从片段级别一端到另一端学习视频级功能。在UCF-101和HMDB-51数据集上的实验结果表明,我们的模型在基于LSTM的方法中实现了最先进的结果,同时获得了与其他最先进方法(不使用直接可比模式)相当的性能。我们的代码将会发布。
translated by 谷歌翻译