强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
学习扩展时间序列中的长期依赖性需要将事件分配给过去的事件。最常见的训练递归神经网络的方法,即通过时间反向传播(BPTT),要求信用信息在前向计算的每个单步骤中向后传播,可能超过数千或数百万个时间步。当与长序列一起使用时,这在计算上变得昂贵或甚至是不可行的。重要的是,生物大脑不太可能在非常长的内部状态序列(考虑日,月或年)中执行这种详细的反向重放。然而,人们经常被提醒过去与当前精神状态相关的记忆状态。我们考虑这样的假设:过去和现在之间的这种记忆关联可以用于通过任意长序列进行信用分配,将分配给当前状态的信用传播到相关的过去状态。基于这一原理,我们研究了一种新的算法,该算法仅通过这些时间跳跃连接中的一些反向传播,通过将当前状态与相关过去状态相关联的学习注意力机制实现。我们在实验中表明,我们的方法在涉及特别长期依赖性的任务中匹配或优于常规BPTT和截断BPTT,但不需要通过整个状态历史进行生物学难以置信的向后重放。此外,我们证明所提出的方法转移到更长的序列明显优于用BPTT训练的LSTM和经过全自注意训练的LSTM。
translated by 谷歌翻译
反向传播算法的生物学合理性早已被神经科学家所怀疑。两个主要原因是神经元需要在前向和后向阶段中输入两种不同类型的信号,并且这对神经元需要通过对称双向连接进行通信。我们针对固定点复现网络提出了一个简单的两阶段学习过程,解决了这两个问题。在我们的模型中,神经元执行泄漏积分和突触权重通过局部机制更新。我们的学习方法将均衡传播推广到矢量场动力学,放宽了能量函数的要求。作为这种推广的结果,该算法不计算目标函数的真实梯度,而是以精确度逼近它,该精度被证明与前馈和反馈权重的对称程度直接相关。我们通过实验证明我们的算法优化了目标函数。
translated by 谷歌翻译
Many efforts have been devoted to training generative latent variable modelswith autoregressive decoders, such as recurrent neural networks (RNN).Stochastic recurrent models have been successful in capturing the variabilityobserved in natural sequential data such as speech. We unify successful ideasfrom recently proposed architectures into a stochastic recurrent model: eachstep in the sequence is associated with a latent variable that is used tocondition the recurrent dynamics for future steps. Training is performed withamortized variational inference where the approximate posterior is augmentedwith a RNN that runs backward through the sequence. In addition to maximizingthe variational lower bound, we ease training of the latent variables by addingan auxiliary cost which forces them to reconstruct the state of the backwardrecurrent network. This provides the latent variables with a task-independentobjective that enhances the performance of the overall model. We found thisstrategy to perform better than alternative approaches such as KL annealing.Although being conceptually simple, our model achieves state-of-the-art resultson standard speech benchmarks such as TIMIT and Blizzard and competitiveperformance on sequential MNIST. Finally, we apply our model to languagemodeling on the IMDB dataset where the auxiliary cost helps in learninginterpretable latent variables. Source Code:\url{https://github.com/anirudh9119/zforcing_nips17}
translated by 谷歌翻译
教师强制算法通过在训练期间提供观察序列值作为输入并使用网络自己的一步预测来进行多步采样来训练复现网络。我们引入了教授强制算法,该算法使用对抗域自适应来鼓励循环网络的动态在训练网络时以及在多个时间步骤从网络采样时是相同的。 Weapply教授强制语言建模,原始波形的声音合成,手写生成和图像生成。根据经验,我们发现教授强迫充当正则化器,提高了字符级Penn Treebank和顺序MNIST的测试可能性。我们还发现该模型可以对样本进行定性改进,特别是在对大量时间步骤进行采样时。这得到了人类对样品质量的评估。讨论了强制教授和计划抽样之间的权衡。我们生产的T-SNE表明,Forcing教授在训练和采样过程中成功地使网络的动态更加相似。
translated by 谷歌翻译
自我监督学习旨在从数据本身学习表示而无需明确的人工监督。现有的努力忽视了自我监督学习的一个关键方面 - 扩展到大量数据库的能力,因为自我监督不需要手动标签。在这项工作中,我们重新审视了这一原则,并将两种流行的自我监督方法扩展到1亿幅图像。我们表明,通过在各个轴上进行缩放(包括数据大小和问题'硬度'),可以在很多任务上大大匹配甚至超过监督预训练的性能,例如物体检测,表面正态估计(3D)和使用视觉导航强化学习。这些方法的提供也为当前自我监督技术和评估的局限性提供了许多有趣的见解。我们得出结论认为,目前的自我监督方法不够“难”,不足以充分利用大规模数据,似乎也没有学习有效的高级语义表征。我们还针对9种不同的数据集和任务引入了广泛的基准。我们相信这样的基准以及可比较的评估设置对于取得有意义的进展是必要的。
translated by 谷歌翻译
反事实查询的形式通常为“对于情境X,为什么结果是Y而不是Z?”。一个反事实的解释(或对这种水族馆的反应)的形式是“如果X是X *,则结果将是Z大于Y”。在这项工作中,我们开发了一种技术来产生反事实的视觉平面化。给定视觉系统预测类$ c $的'查询'图像$ I $,反事实视觉解释确定$ I $如何变化,以便系统输出不同的指定类$ c'$。为此,我们选择一个'distractor'图像$ I'$系统预测为$ c'$并且标识$ I $和$ I'$中的空间区域,以便用$ I $替换已识别区域的已识别区域在$ I'$中会推动系统将$ I $分类为$ c'$。我们将我们的方法应用于多个图像分类数据集,生成定性结果,展示反事实解释的可解释性和判别性。为了探索rexplanations在人类教学中的有效性,我们提出了机器教学实验,以完成细粒度鸟类分类的任务。我们发现,除了培训示例之外,如果能够获得反事故计划,那么受过训练的用户可以更好地区分鸟类物种。
translated by 谷歌翻译
全局归一化的神经序列模型被认为优于它们的局部标准化等价物,因为它们可以改善标记异常的影响。然而,当考虑对整个输入序列进行条件化的高容量神经参数化时,两个模型类别在它们能够表示的分布方面理论上是等价的。因此,在现代神经方法的背景下全局归一化的实际优势仍然不清楚。在本文中,我们试图通过实证研究揭示这一问题。我们通过连续放宽光束搜索(Goyal等,2017b)扩展了搜索感知训练的方法,以便通过简单的反向传播来训练全局归一化的复发序列模型。然后,我们使用这种技术对全局规范化,高容量编码器和搜索感知优化之间的相互作用进行了实证研究。我们观察到,在反射搜索的背景下,全局归一化神经模型仍然比局部标准化对应物更有效。此外,由于我们的训练方法对预训练模型的热启动敏感,我们还提出了一种基于自标准化的新型初始化策略,用于预训练全局标准化模型。我们对两个任务进行了分析:CCGsupertagging和机器翻译,并在使用搜索感知训练时证明了在不同条件下全局标准化的重要性。
translated by 谷歌翻译
基于知识图的简单问答(KBSQA)是问答中的一个主要研究领域。虽然只处理简单问题,即可以通过单一知识库(KB)事实回答的问题,但这项任务既不简单也不接近于解决。针对两个主要步骤,子图选择和事实选择,研究社区已经开发出复杂的方法。然而,子目录排名和利用KB事实的主题 - 关系依赖性的重要性尚未得到充分探索。受此启发,我们提出了一个统一的框架来描述和分析现有方法。以这个框架为出发点,我们主要关注两个方面:通过新颖的排序方法改进子图选择,并通过提出具有新的损失函数的联合评分CNN模型来利用主题 - 关系依赖性,从而强制执行良好的分数顺序。我们的方法在SimpleQuestions数据集上实现了新的技术水平(85.44%不准确)。
translated by 谷歌翻译