强化学习的一个关键挑战是能够在控制问题中概括知识。虽然深度学习方法已成功地与无模型强化学习算法相结合,但如何在存在近似误差的情况下执行基于模型的强化学习仍然是一个悬而未决的问题。使用后继特征,一种预测时间约束的特征表示,本文提出了三种贡献:首先,它展示了学习后继特征如何是等效的无模型学习。然后,它显示了后继功能如何编码通过创建两个相似状态的状态分区来压缩状态空间的模型减少。使用此表示,保证智能代理准确预测未来的奖励结果,这是基于模型的执行学习算法的关键属性。最后,它提出了一个损失目标和预测误差界限,表明通过近似的后继特征可以准确地预测值函数和回报序列。无限控制问题,我们说明如何最小化这种损失目标导致近似互模拟。本文提出的结果提供了对表示的新颖理解,可以支持无模型和基于模型的强化学习。
translated by 谷歌翻译
具有不准确的环境模型的代理面临困难的选择:它可以忽略其模型中的错误并且在现实世界中以其确定的关于其模型的最佳方式行事。或者,它可以采取更保守的立场,避开其模型,转而仅仅通过现实世界的互动来优化其行为。后一种方法可以非常慢地从经验中学习,而前者可以导致“计划者过度拟合” - 代理人行为的各个方面被优化以利用其模型中的错误。本文探讨了一个中间立场,即规划者试图通过其所考虑的计划的一种正规化来避免过度拟合。我们提出了三种不同的方法,可以显着减轻强化学习环境中的计划者过度拟合。
translated by 谷歌翻译
强化学习中的一个关键问题是代理可以在哪些表示中有效地在不同任务之间重用知识。最近,对于具有共享转换动态的任务之间转移知识,已经证明了接入者表示具有经验益处。本文介绍了模型特征:一种特征表示,其集群在行为上等同于状态,并且等同于模型简化。此外,我们提出了一个继承人特征模型,它表明学习后继特征等同于学习模型减少。我们开发了一个新的优化目标,并且我们提供的界限表明,最小化该目标会导致模型减少的近似得到越来越多的改进。此外,我们提供了随机生成的MDP的转移实验,这些MDP在转换和奖励函数方面有所不同,但大致保持了状态之间的行为等效性。这些结果表明,模型特征适用于具有不同转换和奖励功能的任务之间的转移。
translated by 谷歌翻译
我们考虑使用成对比较来搜索一组项目的问题。我们的目标是通过询问表格“来自货币对中哪一项$(i,j)$更类似于t?”的oracle问题来定位目标项目$ t $。我们假设盲目设置,没有项目功能可用于指导搜索过程;只有oracle看到这些特征才能产生答案。这个问题的先前方法要么采取无噪音的答案,要么在项目数量上表现不佳,这两者都排除了实际的应用。在本文中,我们提出了一个新的可扩展学习框架,称为learn2search,尽管答案中存在噪声,但仍对一组项目执行基于比较的有效搜索。项目存在于一个特征空间中,我们为oracle提供了一个概率模型,比较目标$ t $的$ i $和$ j $项目。我们的算法保持其对项目空间的表示,它基于过去的搜索逐渐学习。我们评估了Learning2search在合成和现实世界数据上的表现,并表明它学习搜索越来越高效,随着时间的推移匹配一个方案的性能与访问theitem功能。
translated by 谷歌翻译
神经机器翻译 - 使用神经网络翻译人类语言 - 是一个积极研究探索新神经元类型和网络拓扑的领域,其目标是显着提高机器翻译性能。当前最先进的方法,例如基于多头注意的变换器,需要非常大的翻译语料库和许多标准来产生合理质量的模型。最近尝试将多个节点上的官方TensorFlow“Transformer”模型并行化由于过多的内存使用而导致出现问题,并且在执行MPI集合时导致内存错误。本文描述了对基于霍罗德MPI的分布式训练框架的修改,通过将假设稀疏张量转换为密集张量来减少变换器模型的内存使用,并随后用密集梯度减少代替稀疏梯度聚集。结果是横向扩展能力显着增加。 ,使用Stampede2超级计算机,仅使用CPU的扩展测试可实现高达1200 MPI进程(300个节点)的91%弱缩放效率,以及高达65%的高扩展效率,高达400 MPI进程(200个节点)。
translated by 谷歌翻译
这项工作解决了图像分类器的半监督学习问题。我们的主要观点是,半监督学习领域可以从快速发展的自我监督视觉表征学习领域中受益。统一这两种方法,我们提出了自我监督半监督学习($ S ^ 4L $)的框架,并用它来推动两种新的半监督图像分类方法。我们证明了这些方法与精心调整的基线和现有的半监督学习方法相比的有效性。然后我们证明$ S ^ 4L $和现有的半监督方法可以联合训练,在半监督的ILSVRC-2012上产生了一个新的最先进的结果,有10%的标签。
translated by 谷歌翻译
以自我为中心的视觉是一个新兴的计算机视觉领域,其特征在于从第一人称视角获取图像和视频。在本文中,我们通过明确利用场景中检测到的感兴趣区域的存在和位置来解决自我中心人类行为识别的挑战,而无需进一步使用视觉特征。最初,我们认识到人类的双手在执行行动中至关重要,并专注于获取行动作为定义行动的主要线索。我们采用物体检测和区域跟踪技术来处理手并捕捉它们的运动。关于自我中心视图的先前知识有助于左右之间的手部识别。在检测和跟踪方面,我们提供了一条管道,可以成功地操作看不见的自我中心视频,以找到相机佩戴者的手并通过时间将它们关联起来。而且,我们强调场景信息识别的价值。我们承认,物体的存在对于人类的行动的执行是重要的,并且通常对于上升的描述。为了获取此信息,我们将对象检测用于与我们想要识别的操作相关的特定类。我们的实验针对的是来自Epic-Kitchens数据集的厨房活动视频。我们将动作识别建模为帧中检测到的空间位置的序列学习问题。我们的结果表明,可以依赖于明确的手和物体检测而没有其他视觉信息来对与手相关的人类行为进行分类。有条不紊地依赖于视觉特征的测试,表示对于手部动作在概念上重要的动作,对视频包含的基于兴趣区域的描述具有可比较的分类性能的同等表达信息。
translated by 谷歌翻译
本文提倡反对置换和预测(PaP)方法来解释黑盒功能。诸如为随机森林,部分依赖图和个人条件期望图提出的变量重要性措施等方法仍然很受欢迎,因为它们能够提供仅依赖于预先训练的模型输出的模型不可知测量。然而,许多研究发现,这些工具可能会产生极具误导性的诊断,特别是当特征之间存在强烈依赖性时。我们不是通过进一步展示这些问题来简单地添加这些不断增长的文献,而是在这里寻求对观察到的行为进行解释。特别是,我们认为,通过强制原始模型推断到几乎没有数据的区域,打破保留数据中特征之间的依赖关系会过分强调特征空间的稀疏区域。我们通过各种场合来探索这些影响,在这些场景中理解了事实,并且在文献中找到了对先前声明的支持,即PaP指标往往过分强调相关特征,包括不变的重要性和部分依赖图,即使将实现方法应用于地面真实模型也是如此。不。作为替代方案,建议在其他环境中证明成功的更直接的方法:明确删除特征,条件排列或模型蒸馏方法。
translated by 谷歌翻译
我们提出了零资源语音挑战2019,它建议在没有任何文本或语音标签的情况下构建aspeech合成器:因此,没有T的TTS(没有文本的文本到语音)。我们以未知语言(语音数据集)为目标语音提供原始音频,但没有对齐,文本或标签。参与者必须以无人监督的方式发现子词单元(使用UnitDiscovery数据集)并以某种方式将它们与语音记录对齐最有效的方法是从新颖的扬声器中合成新颖的话语,类似于目标说话者的声音。我们描述了用于评估的指标,一个基线系统,包括无监督的子字单元发现和标准TTS系统,以及使用黄金电话转换的顶线TTS。我们概述了11个团队提交的19个系统并讨论了主要结果。
translated by 谷歌翻译
面部标志被用于许多研究领域,如面部识别,颅面识别,年龄和性别估计等重要性。在法医领域,重点是分析面部地标的细节,定义为头部测量标志。以前的工作证明,这些解剖学参考文献的间接应用(照片 - 人体测量学描述)的描述性充分性提高了这些点的标记精度,有助于提高这些分析的可靠性。但是,大多数都是手动执行的,并且专家审查员固有的所有主观性。从这个意义上讲,这项工作的目的是开发和验证自动技术,从法医领域的正面数字图像中检测头部测量标志。所提出的方法在监督学习过程中使用计算机视觉和图像处理技术的组合。所提出的方法获得与一组人类手动头部测量参考标记类似的精确度,并且导致更准确地对抗其他最先进的面部标志检测框架。它实现了0.014的标准化平均距离(以像素为单位)误差,类似于平均专家间离散度(0.009),并且明显优于其他自动方法,也分析了这项工作(0.026和0.101)。
translated by 谷歌翻译