强化学习中的选项框架模拟了技能或时间延长的动作序列的概念。发现可重复使用的技能通常需要构建选项,导航到瓶颈状态。这项工作采用了一种互补的方法,我们试图找到导航到具有里程碑意义的国家的选择。这些状态是连接良好的区域的原型代表,因此可以相对容易地访问相关区域。在这项工作中,我们提出了Successor Options,它使用Successor Representations来构建状态空间模型。使用新颖的伪奖励来学习这些选项策略,并且可以轻松地将模型转换为高维空间。此外,我们还提出了一个在构造成功表示和构建选项之间迭代的增量后继选项模型,当robustSuccessor表示不能仅仅从原始操作构建时,这很有用。我们展示了我们的方法对网格世界的集合以及Fetch的高维机器人控制环境的功效。
translated by 谷歌翻译
传统的口语理解(SLU)系统将语音映射到文本,然后将文本映射到意图,而端到端SLU系统通过单个可训练模型将语音直接映射到意图。使用这些端到端模型实现高精度而不需要大量的训练数据是很困难的。我们提出了一种方法来降低端到端SLU的数据要求,其中首先预先训练模型以预测单词和音素,从而学习SLU的良好特征。我们引入了一个新的SLU数据集,Fluent语音命令,并显示我们的方法在完整数据集用于训练时以及仅使用小子集时都提高了性能。我们还描述了初步实验,以评估模型能够推广到在训练期间未听到的新短语。
translated by 谷歌翻译
各种计算机视觉应用取决于所使用的图像匹配算法的效率。设计各种描述符以检测和匹配图像中的特征。在移动应用程序中部署此算法需要较少的计算时间。二进制描述符比基于浮点的描述符需要更少的计算时间,因为在创建二进制字符串之后,样本点对之间的强度比较和比较。为了减少时间复杂性,匹配的关键点的质量受到损害。我们提出了一个名为Morphological RetinaKeypoint Descriptor(MREAK)的关键点描述符,其灵感来自于人类学生的功能,它可以对光量进行响应和收缩。通过使用打开和关闭的形态学操作者并相应地修改视网膜采样模式,观察到精确匹配的关键点的数量的增加。我们的结果表明,匹配的关键点比FREAK描述符更有效,并且需要比SIFT,BRISK和SURF等各种描述符更低的计算时间。
translated by 谷歌翻译
图像到图像的翻译是一个长期存在且难以解决的计算机视觉问题。在本文中,我们提出了一种基于对抗的图像到图像转换模型。常规的基于深度神经网络的方法通过比较语法矩阵和使用需要人为干预的图像分割来执行图像到图像的翻译任务。我们基于生成对话网络的模型基于条件概率方法。这种方法使图像转换独立于任何局部,全局和内容或样式特征。在我们的方法中,我们使用附加了仿射变换因子的双向重构模型,与其他模型相比,它有助于保留内容和照片级真实感。使用这种方法的优点在于图像到图像的翻译是半监督的,独立于图像分割并且继承了生成逼真的生成对抗网络的特性。事实证明,这种方法比Multimodal UnsupervisedImage-to-image翻译产生更好的结果。
translated by 谷歌翻译
关键字定位 - 或唤醒字检测 - 是现代语音控制设备无干扰操作的基本特征。随着这些设备无处不在,用户可能希望选择个性化的自定义wakeword。在这项工作中,我们提出了一个基于CTC的算法,用于在线查询关键字定位,支持自定义唤醒字检测。该算法通过记录来自用户的少量训练样例,从这些训练样本生成一组标签序列假设,并通过聚合给定新的音频记录的所有假设的分数来检测唤醒词。我们的方法将基于CTC的关键字定位的概括和可解释性与传统的逐个查询系统的用户适应性和便利性相结合。 DONUT具有低计算要求,非常适合嵌入式系统的学习和推理,无需将私有用户数据上传到云端。
translated by 谷歌翻译
大多数基于文本的信息检索(IR)系统通过单词或短语索引对象。这些离散系统已经通过使用嵌入物来测量连续空间中的相似性的模型得到了增强。但是连续空间模型通常仅用于重新排名最佳候选者。我们考虑端到端连续检索的问题,其中标准近似最近邻(ANN)搜索取代了通常的离散倒排索引,并且依赖于学习嵌入之间的距离。通过训练简单模型进行检索,通过适当的模型体系结构,我们在两个类似问题的检索任务上将离散基线提高了8%和26%(MAP)。我们还讨论了检索系统的评估问题,并展示了如何为此目的修改现有的成对相似性数据集。
translated by 谷歌翻译
我们提出了一种利用深暹罗神经网络作为年龄对象相似度函数的新算法,结合贝叶斯优化(BO)框架来编码时空信息,以便在视频中进行有效的目标跟踪。特别是,我们将视频跟踪问题视为动态(即时间演变)优化问题。使用Gaussian Processpriors,我们建模一个动态目标函数,表示每个帧中atracked对象的位置。通过利用时间相关性,所提出的方法在统计上有原则和有效的方式中查询搜索空间,提供了超过当前最先进的视频跟踪方法的若干益处。
translated by 谷歌翻译
检测在图像上执行的不同类型的图像编辑操作是图像取证中的重要问题。它提供有关图像处理历史的信息,还可以显示图像中出现的伪造品。提出的方法很少用于在单个框架中检测不同类型的图像编辑操作。但是,所有操作都必须在训练阶段先验地知道。但是,在真实的法医情景中,可能无法了解对图像执行的编辑操作。为了解决这个问题,我们提出了一种新的基于深度学习的方法,可以区分不同类型的图像编辑操作。所提出的方法以成对的方式对图像块进行分类,使用深度暹罗神经网络进行相似或不同的处理。一旦网络学习了可以区分不同图像编辑操作的特征,它就可以区分训练阶段中不存在的差异编辑操作。实验结果表明了该方法在检测/区分不同图像编辑操作中的有效性。
translated by 谷歌翻译
许多神经网络使用tanh激活函数,但是当给定概率分布作为输入时,尚未解决在具有tanh激活的神经网络中计算输出分布的问题。一个重要的例子是在储层计算中初始化回波状态网络,其中储层的随机初始化需要时间来清除初始条件,从而浪费宝贵的数据和计算资源。受此问题的启发,我们提出了一种利用基于矩的方法通过回声状态网络传播不确定性以减少冲刷时间的小说解决方案。在这项工作中,我们通过tanh激活函数提供两种方法来传播不确定性,并提出概率回波状态网络(PESN),这种方法被证明具有比确定性回声状态网络给出的随机初始化储层状态更好的平均性能。此外,我们测试了我们的方法在两个回归任务上的单步和多步不确定性传播,并显示我们能够恢复由蒙特卡罗模拟计算的类似均值和方差。
translated by 谷歌翻译