为了扩大其可访问性并增加其实用性,智能代理必须能够学习(非专家)人类用户指定的复杂行为。此外,他们需要在合理的时间内学习这些行为,同时有效地利用人类学员能够提供的稀疏反馈。最近的研究表明,人类反馈可以被描述为对代理人当前行为的批判,而不是作为最大化的替代奖励信号,最终由人类反馈的COnvergentActor-Critic(COACH)算法根据人类反馈进行直接的政策更新。我们的工作建立在COACH的基础上,转移到一个环境,其中theagent的政策由深层神经网络代表。我们在原始COACH算法之上采用了一系列修改,这些修改对于从高维观察中学习行为至关重要,同时也满足了获得降低的样本复杂度的约束。我们展示了我们的Deep COACH算法在Minecraft丰富的3D世界中的有效性,该代理通过在10-15分钟的交互中仅使用实时人工反馈从原始像素映射到动作来学习完成任务。
translated by 谷歌翻译
强化学习的一个关键挑战是能够在控制问题中概括知识。虽然深度学习方法已成功地与无模型强化学习算法相结合,但如何在存在近似误差的情况下执行基于模型的强化学习仍然是一个悬而未决的问题。使用后继特征,一种预测时间约束的特征表示,本文提出了三种贡献:首先,它展示了学习后继特征如何是等效的无模型学习。然后,它显示了后继功能如何编码通过创建两个相似状态的状态分区来压缩状态空间的模型减少。使用此表示,保证智能代理准确预测未来的奖励结果,这是基于模型的执行学习算法的关键属性。最后,它提出了一个损失目标和预测误差界限,表明通过近似的后继特征可以准确地预测值函数和回报序列。无限控制问题,我们说明如何最小化这种损失目标导致近似互模拟。本文提出的结果提供了对表示的新颖理解,可以支持无模型和基于模型的强化学习。
translated by 谷歌翻译
人类社会行为是由关系构成的。我们在人类生活的各个方面形成团队,团体,部落和联盟。这些结构指导了多个代理的合作和竞争,但是当我们观察其他人时,这些关系通常是不可观察的,因此必须推断出来。人类直观且灵活地做出这些推论,经常对潜在的关系进行诽谤,这些关系构成了仅仅是稀疏和嘈杂的观察行为的基础。快速准确的推论对于确定合作对象,与谁竞争以及如何合作以进行竞争非常重要。为了建立具有人类社会智能的机器学习算法的目标,我们基于这些潜在关系的新颖表示开发了一种多代理理解的生成模型,称为可组合团队层次结构(CTH)。这种表述基于随机游戏和多智能体强化学习的形式主义。我们使用CTH作为贝叶斯推理的目标,产生了一种理解群体行为的新算法,既可以推断隐藏关系,也可以预测多个代理交互的未来行为。我们的算法从一些观察结果中快速恢复了空间随机游戏中管理者关联的潜在因果模型。该算法推断的模式与人类判断密切相关,算法与人类的快速概括相同。
translated by 谷歌翻译
具有不准确的环境模型的代理面临困难的选择:它可以忽略其模型中的错误并且在现实世界中以其确定的关于其模型的最佳方式行事。或者,它可以采取更保守的立场,避开其模型,转而仅仅通过现实世界的互动来优化其行为。后一种方法可以非常慢地从经验中学习,而前者可以导致“计划者过度拟合” - 代理人行为的各个方面被优化以利用其模型中的错误。本文探讨了一个中间立场,即规划者试图通过其所考虑的计划的一种正规化来避免过度拟合。我们提出了三种不同的方法,可以显着减轻强化学习环境中的计划者过度拟合。
translated by 谷歌翻译
当环境互动昂贵时,基于模型的强化学习通过提前规划和避免代价高昂的错误提供了解决方案。基于模型的代理通常学习单步过渡模型。在本文中,我们提出了一个多步模型,用于预测具有可变长度的动作序列的结果。我们证明这个模型易于学习,并且该模型可以进行政策条件预测。我们报告的初步结果表明,与其步骤相比,多步模型具有明显的优势。
translated by 谷歌翻译
强化学习中的一个关键问题是代理可以在哪些表示中有效地在不同任务之间重用知识。最近,对于具有共享转换动态的任务之间转移知识,已经证明了接入者表示具有经验益处。本文介绍了模型特征:一种特征表示,其集群在行为上等同于状态,并且等同于模型简化。此外,我们提出了一个继承人特征模型,它表明学习后继特征等同于学习模型减少。我们开发了一个新的优化目标,并且我们提供的界限表明,最小化该目标会导致模型减少的近似得到越来越多的改进。此外,我们提供了随机生成的MDP的转移实验,这些MDP在转换和奖励函数方面有所不同,但大致保持了状态之间的行为等效性。这些结果表明,模型特征适用于具有不同转换和奖励功能的任务之间的转移。
translated by 谷歌翻译
学习生成模型是基于模型的强化学习的关键组成部分。虽然在表格设置中学习一个好的模型是一项简单的任务,但在近似设置中学习一个有用的模型是具有挑战性的。在这种情况下,一个重要的问题是用于模型学习的损失函数,因为损失函数的变化会对计划的有效性产生显着影响。最近Farahmand等人。 (2017)提出了一种价值感知模型学习(VAML)目标,它捕捉模型学习过程中价值功能的结构。使用Asadi等人的工具。 (2018),我们证明最小化VAML目标实际上等同于最小化Wasserstein度量。这种等价性提高了我们对价值感知模型的理解,并为Wasserstein在基于模型的实施 - 学习中的应用奠定了理论基础。
translated by 谷歌翻译
我们研究了在基于模型的强化学习的背景下学习Lipschitz连续模型的影响。我们提供了关于Lipschitz模型的多重预测误差的新颖界限,其中我们使用Wasserstein度量来量化误差。我们继续证明由Lipschitz模型引起的值 - 函数估计的误差界限,并且表明估计的值函数本身是Lipschitz。我们用实证结果来总结,显示控制神经网络模型的Lipschitz常数的好处。
translated by 谷歌翻译
A softmax operator applied to a set of values acts somewhat like themaximization function and somewhat like an average. In sequential decisionmaking, softmax is often used in settings where it is necessary to maximizeutility but also to hedge against problems that arise from putting all of one'sweight behind a single maximum utility decision. The Boltzmann softmax operatoris the most commonly used softmax operator in this setting, but we show thatthis operator is prone to misbehavior. In this work, we study a differentiablesoftmax operator that, among other properties, is a non-expansion ensuring aconvergent behavior in learning and planning. We introduce a variant of SARSAalgorithm that, by utilizing the new operator, computes a Boltzmann policy witha state-dependent temperature parameter. We show that the algorithm isconvergent and that it performs favorably in practice.
translated by 谷歌翻译
The evaluative character of a word is called its semantic orientation.Positive semantic orientation indicates praise (e.g., "honest", "intrepid") andnegative semantic orientation indicates criticism (e.g., "disturbing","superfluous"). Semantic orientation varies in both direction (positive ornegative) and degree (mild to strong). An automated system for measuringsemantic orientation would have application in text classification, textfiltering, tracking opinions in online discussions, analysis of surveyresponses, and automated chat systems (chatbots). This paper introduces amethod for inferring the semantic orientation of a word from its statisticalassociation with a set of positive and negative paradigm words. Two instancesof this approach are evaluated, based on two different statistical measures ofword association: pointwise mutual information (PMI) and latent semanticanalysis (LSA). The method is experimentally tested with 3,596 words (includingadjectives, adverbs, nouns, and verbs) that have been manually labeled positive(1,614 words) and negative (1,982 words). The method attains an accuracy of82.8% on the full test set, but the accuracy rises above 95% when the algorithmis allowed to abstain from classifying mild words.
translated by 谷歌翻译