强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
学习扩展时间序列中的长期依赖性需要将事件分配给过去的事件。最常见的训练递归神经网络的方法,即通过时间反向传播(BPTT),要求信用信息在前向计算的每个单步骤中向后传播,可能超过数千或数百万个时间步。当与长序列一起使用时,这在计算上变得昂贵或甚至是不可行的。重要的是,生物大脑不太可能在非常长的内部状态序列(考虑日,月或年)中执行这种详细的反向重放。然而,人们经常被提醒过去与当前精神状态相关的记忆状态。我们考虑这样的假设:过去和现在之间的这种记忆关联可以用于通过任意长序列进行信用分配,将分配给当前状态的信用传播到相关的过去状态。基于这一原理,我们研究了一种新的算法,该算法仅通过这些时间跳跃连接中的一些反向传播,通过将当前状态与相关过去状态相关联的学习注意力机制实现。我们在实验中表明,我们的方法在涉及特别长期依赖性的任务中匹配或优于常规BPTT和截断BPTT,但不需要通过整个状态历史进行生物学难以置信的向后重放。此外,我们证明所提出的方法转移到更长的序列明显优于用BPTT训练的LSTM和经过全自注意训练的LSTM。
translated by 谷歌翻译
反向传播算法的生物学合理性早已被神经科学家所怀疑。两个主要原因是神经元需要在前向和后向阶段中输入两种不同类型的信号,并且这对神经元需要通过对称双向连接进行通信。我们针对固定点复现网络提出了一个简单的两阶段学习过程,解决了这两个问题。在我们的模型中,神经元执行泄漏积分和突触权重通过局部机制更新。我们的学习方法将均衡传播推广到矢量场动力学,放宽了能量函数的要求。作为这种推广的结果,该算法不计算目标函数的真实梯度,而是以精确度逼近它,该精度被证明与前馈和反馈权重的对称程度直接相关。我们通过实验证明我们的算法优化了目标函数。
translated by 谷歌翻译
Many efforts have been devoted to training generative latent variable modelswith autoregressive decoders, such as recurrent neural networks (RNN).Stochastic recurrent models have been successful in capturing the variabilityobserved in natural sequential data such as speech. We unify successful ideasfrom recently proposed architectures into a stochastic recurrent model: eachstep in the sequence is associated with a latent variable that is used tocondition the recurrent dynamics for future steps. Training is performed withamortized variational inference where the approximate posterior is augmentedwith a RNN that runs backward through the sequence. In addition to maximizingthe variational lower bound, we ease training of the latent variables by addingan auxiliary cost which forces them to reconstruct the state of the backwardrecurrent network. This provides the latent variables with a task-independentobjective that enhances the performance of the overall model. We found thisstrategy to perform better than alternative approaches such as KL annealing.Although being conceptually simple, our model achieves state-of-the-art resultson standard speech benchmarks such as TIMIT and Blizzard and competitiveperformance on sequential MNIST. Finally, we apply our model to languagemodeling on the IMDB dataset where the auxiliary cost helps in learninginterpretable latent variables. Source Code:\url{https://github.com/anirudh9119/zforcing_nips17}
translated by 谷歌翻译
教师强制算法通过在训练期间提供观察序列值作为输入并使用网络自己的一步预测来进行多步采样来训练复现网络。我们引入了教授强制算法,该算法使用对抗域自适应来鼓励循环网络的动态在训练网络时以及在多个时间步骤从网络采样时是相同的。 Weapply教授强制语言建模,原始波形的声音合成,手写生成和图像生成。根据经验,我们发现教授强迫充当正则化器,提高了字符级Penn Treebank和顺序MNIST的测试可能性。我们还发现该模型可以对样本进行定性改进,特别是在对大量时间步骤进行采样时。这得到了人类对样品质量的评估。讨论了强制教授和计划抽样之间的权衡。我们生产的T-SNE表明,Forcing教授在训练和采样过程中成功地使网络的动态更加相似。
translated by 谷歌翻译
基于知识图的简单问答(KBSQA)是问答中的一个主要研究领域。虽然只处理简单问题,即可以通过单一知识库(KB)事实回答的问题,但这项任务既不简单也不接近于解决。针对两个主要步骤,子图选择和事实选择,研究社区已经开发出复杂的方法。然而,子目录排名和利用KB事实的主题 - 关系依赖性的重要性尚未得到充分探索。受此启发,我们提出了一个统一的框架来描述和分析现有方法。以这个框架为出发点,我们主要关注两个方面:通过新颖的排序方法改进子图选择,并通过提出具有新的损失函数的联合评分CNN模型来利用主题 - 关系依赖性,从而强制执行良好的分数顺序。我们的方法在SimpleQuestions数据集上实现了新的技术水平(85.44%不准确)。
translated by 谷歌翻译
在参数空间中探索的黑盒优化器经常被证明可以表现出更加复杂的动作空间探索方法,这些方法专门针对强化学习问题而开发。我们仔细研究这些黑盒方法,以确定它们比动作空间探索方法和它们优越的方法更糟糕的情况。通过简单的理论分析,证明了参数空间探索的复杂性取决于参数空间的维数,而动作空间探索的复杂性则取决于动作空间的维数和地平线长度。通过比较几个模型问题的简单探索方法,包括连续控制中的语境强盗,线性回归和强化学习,也可以凭经验证明这一点。
translated by 谷歌翻译
YouTube是分享视频的领先社交媒体平台。因此,它受到误导性内容的困扰,其中包括从事件中呈现为真实片段的分阶段视频,具有错误表达背景的视频以及音频/视频内容变形的视频。我们解决了将这种前导视频作为监督分类任务进行检测的问题。我们开发UCNet - adeep网络来检测假视频并在两个数据集上进行我们的实验 - 我们创建的VAVD和公开可用的FVC [8]。我们实现了0.82的宏观平均F得分,同时在FFSC的70:30分割训练和测试,而基线模型得分为0.36。我们发现,当在一个数据集上训练并在另一个数据集上进行测试时,所提出的模型可以很好地进行。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译