无监督学习是关于捕捉变量之间的依赖关系,并且由这些变量的可能与不可能的配置之间的对比驱动,通常是通过仅对可能性进行采样的生成模型或对于可能的低的能量函数(非标准化的对数密度)和不可思议的高。在这里,我们考虑学习能量函数和有效的近似抽样机制。尽管生成对抗网络(GAN)中的识别者学会分离数据和生成器样本,但在生成器上引入熵最大化正则化可以将批评者的解释转化为能量函数,将训练分布与其他所有内容分开,从而可以用于任务像异常或新奇的检测。然后,我们展示了如何在发生器潜在空间中完成MarkovChain Monte Carlo,其样本可以映射到数据空间,从而产生更好的样本。这些样本用于估计数据空间能量函数的对数似然梯度所需的负相位梯度。为了最大化发电机输出端的熵,我们利用最近引入的相互信息的神经估计器。我们发现除了为异常检测产生有用的评分函数之外,所得到的方法产生清晰的样本,同时很好地覆盖模式,导致高的Inception和Frechet分数。
translated by 谷歌翻译
学习扩展时间序列中的长期依赖性需要将事件分配给过去的事件。最常见的训练递归神经网络的方法,即通过时间反向传播(BPTT),要求信用信息在前向计算的每个单步骤中向后传播,可能超过数千或数百万个时间步。当与长序列一起使用时,这在计算上变得昂贵或甚至是不可行的。重要的是,生物大脑不太可能在非常长的内部状态序列(考虑日,月或年)中执行这种详细的反向重放。然而,人们经常被提醒过去与当前精神状态相关的记忆状态。我们考虑这样的假设:过去和现在之间的这种记忆关联可以用于通过任意长序列进行信用分配,将分配给当前状态的信用传播到相关的过去状态。基于这一原理,我们研究了一种新的算法,该算法仅通过这些时间跳跃连接中的一些反向传播,通过将当前状态与相关过去状态相关联的学习注意力机制实现。我们在实验中表明,我们的方法在涉及特别长期依赖性的任务中匹配或优于常规BPTT和截断BPTT,但不需要通过整个状态历史进行生物学难以置信的向后重放。此外,我们证明所提出的方法转移到更长的序列明显优于用BPTT训练的LSTM和经过全自注意训练的LSTM。
translated by 谷歌翻译
反向传播算法的生物学合理性早已被神经科学家所怀疑。两个主要原因是神经元需要在前向和后向阶段中输入两种不同类型的信号,并且这对神经元需要通过对称双向连接进行通信。我们针对固定点复现网络提出了一个简单的两阶段学习过程,解决了这两个问题。在我们的模型中,神经元执行泄漏积分和突触权重通过局部机制更新。我们的学习方法将均衡传播推广到矢量场动力学,放宽了能量函数的要求。作为这种推广的结果,该算法不计算目标函数的真实梯度,而是以精确度逼近它,该精度被证明与前馈和反馈权重的对称程度直接相关。我们通过实验证明我们的算法优化了目标函数。
translated by 谷歌翻译
Many efforts have been devoted to training generative latent variable modelswith autoregressive decoders, such as recurrent neural networks (RNN).Stochastic recurrent models have been successful in capturing the variabilityobserved in natural sequential data such as speech. We unify successful ideasfrom recently proposed architectures into a stochastic recurrent model: eachstep in the sequence is associated with a latent variable that is used tocondition the recurrent dynamics for future steps. Training is performed withamortized variational inference where the approximate posterior is augmentedwith a RNN that runs backward through the sequence. In addition to maximizingthe variational lower bound, we ease training of the latent variables by addingan auxiliary cost which forces them to reconstruct the state of the backwardrecurrent network. This provides the latent variables with a task-independentobjective that enhances the performance of the overall model. We found thisstrategy to perform better than alternative approaches such as KL annealing.Although being conceptually simple, our model achieves state-of-the-art resultson standard speech benchmarks such as TIMIT and Blizzard and competitiveperformance on sequential MNIST. Finally, we apply our model to languagemodeling on the IMDB dataset where the auxiliary cost helps in learninginterpretable latent variables. Source Code:\url{https://github.com/anirudh9119/zforcing_nips17}
translated by 谷歌翻译
教师强制算法通过在训练期间提供观察序列值作为输入并使用网络自己的一步预测来进行多步采样来训练复现网络。我们引入了教授强制算法,该算法使用对抗域自适应来鼓励循环网络的动态在训练网络时以及在多个时间步骤从网络采样时是相同的。 Weapply教授强制语言建模,原始波形的声音合成,手写生成和图像生成。根据经验,我们发现教授强迫充当正则化器,提高了字符级Penn Treebank和顺序MNIST的测试可能性。我们还发现该模型可以对样本进行定性改进,特别是在对大量时间步骤进行采样时。这得到了人类对样品质量的评估。讨论了强制教授和计划抽样之间的权衡。我们生产的T-SNE表明,Forcing教授在训练和采样过程中成功地使网络的动态更加相似。
translated by 谷歌翻译
在参数空间中探索的黑盒优化器经常被证明可以表现出更加复杂的动作空间探索方法,这些方法专门针对强化学习问题而开发。我们仔细研究这些黑盒方法,以确定它们比动作空间探索方法和它们优越的方法更糟糕的情况。通过简单的理论分析,证明了参数空间探索的复杂性取决于参数空间的维数,而动作空间探索的复杂性则取决于动作空间的维数和地平线长度。通过比较几个模型问题的简单探索方法,包括连续控制中的语境强盗,线性回归和强化学习,也可以凭经验证明这一点。
translated by 谷歌翻译
YouTube是分享视频的领先社交媒体平台。因此,它受到误导性内容的困扰,其中包括从事件中呈现为真实片段的分阶段视频,具有错误表达背景的视频以及音频/视频内容变形的视频。我们解决了将这种前导视频作为监督分类任务进行检测的问题。我们开发UCNet - adeep网络来检测假视频并在两个数据集上进行我们的实验 - 我们创建的VAVD和公开可用的FVC [8]。我们实现了0.82的宏观平均F得分,同时在FFSC的70:30分割训练和测试,而基线模型得分为0.36。我们发现,当在一个数据集上训练并在另一个数据集上进行测试时,所提出的模型可以很好地进行。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
随着仇恨言论的在线激增,迫切需要能够检测到这种有害内容的系统。在本文中,我们提出了为EVALITA 2018自动厌女识别(AMI)共享任务开发的机器学习模型。我们生成三种类型的特征:句子嵌入,TF-IDF向量和BOW向量来表示每个推文。这些特征是然后连接并输入机器学习模型。我们的模型来自英语子任务A的第一个和英语副词B的第五个。我们发布我们的获胜模型供公众使用,它可以通过以下网址获得:http://github.com/punyajoy/Hateminers-EVALITA 。
translated by 谷歌翻译
在这个大数据时代,由于网络上信息的快速交换,词汇被用来表示新的含义,导致语言的转变。随着最近大量数字化文本的出现,对语言演变的自动分析成为可能。 。我们的研究主要集中在提高新词义的检测上。本文提出了一种基于网络特征的提议,以提高新词检测的精度。对于通过比较在两个不同时间点诱导的感知聚类来检测新感觉(出生)的候选词,我们进一步比较了在这两个时间点从新颖聚类诱导的子图的网络属性。使用平均分数变化运动密度,结构相似性和平均路径长度作为SVM分类器中的特征,当在2个不同的时间点对上进行测试时,手动评估给出新感觉检测任务的精度值0.86和0.74,与精度相比较当不使用建议的方案时,值在0.23-0.32范围内。因此,概述的方法可以用作新的post-hocstep,以在底层框架使用图形结构的稳健可靠的方式中提高新颖的单词意义检测的精度。另一个重要的观察是,即使我们的提议是一个事后步骤,它也可以单独使用,并且它本身会产生非常不错的性能,精度为0.54-0.62。最后,我们证明了我们的方法能够在80%的情况下检测出众所周知的历史变化。
translated by 谷歌翻译