如果我们改变规则,明智的交易与傻瓜会有什么?不同的小组以不同方式形式化强化学习(RL)。如果一个R1正式化的代理是在另一个RL正式化的环境中运行,则必须首先转换代理或映射。任何此类映射的充分性标准是它保留了相对智能。本文调查了这种充足率标准的配方和性质。然而,在制定问题之前,我们争论,比较情报问题。我们使用超滤器比较智力,通过观看代理作为智力选举中的候选人的激励,其中选民是环境的候选人。这些比较器是违反直觉的,但我们证明了关于RL智力测量的不可能性定理,这表明这种情况是不可避免的。鉴于RL框架之间的映射,我们建立了足够的条件,以确保对于目的地框架中的任何超过滤器的智能比较器,源框架中存在超滤网智能比较器,使得映射保留了相对智能。我们在各种RL框架之间考虑三个具体映射,并表明它们满足这些充足的条件,因此保持了适当测量的相对智能。
translated by 谷歌翻译
我们考虑扩展的强化学习概念,其中环境可以模拟代理并将其输出基于代理的假设行为。由于良好的性能通常需要注意环境的输出所基于的任何东西,因此我们认为,对于代理在许多这样的延长环境中实现平均良好性能,因此代理必须自我反思。因此,通过将代理通过扩展环境的电池运行代理,可以通过运行代理来数值估计代理的自我反射能力。我们同时发布扩展环境的开源库,作为该技术的概念验证。由于图书馆是先进的,我们避免了优化它的难题。相反,我们选择了具有有趣属性的环境。有些似乎矛盾,有些导致有趣的思想实验,有些甚至暗示自我反思如何在自然中发展。我们举例说明并介绍一个简单的转型,实验似乎增加了自我反思。
translated by 谷歌翻译
我们提出了五个基本的认知科学基本宗旨,我们在相关文献中认真地将其确定为该哲学的主要基本原则。然后,我们开发一个数学框架来讨论符合这些颁布宗旨的认知系统(人造和自然)。特别是我们注意,我们的数学建模并不将内容符号表示形式归因于代理商,并且代理商的大脑,身体和环境的建模方式使它们成为更大整体的不可分割的一部分。目的是为认知创造数学基础,该基础符合颁布主义。我们看到这样做的两个主要好处:(1)它使计算机科学家,AI研究人员,机器人主义者,认知科学家和心理学家更容易获得颁发的思想,并且(2)它为哲学家提供了一种可以使用的数学工具,可以使用它澄清他们的观念并帮助他们的辩论。我们的主要概念是一种感觉运动系统,这是过渡系统研究概念的特殊情况。我们还考虑了相关的概念,例如标记的过渡系统和确定性自动机。我们分析了一个名为“足够的概念”,并表明它是“从颁布主义的角度来看”中“认知数学数学”中基础概念的一个很好的候选者。我们通过证明对最小的完善(在某种意义上与生物体对环境的最佳调整相对应)的独特定理来证明其重要性,并证明充分性与已知的概念相对应,例如足够的历史信息空间。然后,我们开发其他相关概念,例如不足程度,普遍覆盖,等级制度,战略充足。最后,我们将其全部绑架到颁布的宗旨。
translated by 谷歌翻译
当他们更喜欢$ \ texit {exploit} $时,您如何激励自我兴趣的代理到$ \ texit {探索} $?我们考虑复杂的探索问题,其中每个代理面临相同(但未知)MDP。与传统的加固学习配方相比,代理商控制了政策的选择,而算法只能发出建议。然而,该算法控制信息流,并且可以通过信息不对称激励代理探索。我们设计一种算法,探讨MDP中的所有可达状态。我们达到了类似于先前研究的静态,无国籍探索问题中激励探索的保证担保。据我们所知,这是第一个考虑在有状态,强化学习环境中设计的工作。
translated by 谷歌翻译
我们提供了奖励黑客的第一个正式定义,即优化不完美的代理奖励功能的现象,$ \ Mathcal {\ tilde {r}} $,根据真实的奖励功能,$ \ MATHCAL {R} $导致性能差。 。我们说,如果增加预期的代理回报率永远无法减少预期的真实回报,则代理是不可接受的。直觉上,可以通过从奖励功能(使其“较窄”)中留出一些术语或忽略大致等效的结果之间的细粒度区分来创建一个不可接受的代理,但是我们表明情况通常不是这样。一个关键的见解是,奖励的线性性(在州行动访问计数中)使得无法实现的状况非常强烈。特别是,对于所有随机策略的集合,只有在其中一个是恒定的,只有两个奖励函数才能是不可接受的。因此,我们将注意力转移到确定性的政策和有限的随机政策集中,在这些策略中,始终存在非平凡的不可动摇的对,并为简化的存在建立必要和充分的条件,这是一个重要的不被限制的特殊情况。我们的结果揭示了使用奖励函数指定狭窄任务和对齐人类价值的AI系统之间的紧张关系。
translated by 谷歌翻译
它在智能代理系统中起着核心作用,以模拟代理的认知状态及其变化。为此,已经提出了一些正式系统。其中,认知逻辑侧重于不同认知属性(例如知识,信仰,常识等)和认知行动(例如,公开公告,私人公告,异步公告等)的逻辑定律。所有这些系统都不涉及代理与其环境之间的交互行为。通过丰富众所周知的$ \ pi $ -calculus,本文介绍了电子库,该论文提供了一个概念框架,以模拟代理人与认知状态的认知相互作用。与通常的过程演算不同,始终安排电子库中的所有系统以在认知状态下运行。为了抽象地形式化认知状态,提出了一群假设。此外,基于这些假设,电子钙的行为理论是在两个不同的观点中开发的。
translated by 谷歌翻译
In this paper, we provide a theoretical framework to analyze an agent who misinterprets or misperceives the true decision problem she faces. Within this framework, we show that a wide range of behavior observed in experimental settings manifest as failures to perceive implications, in other words, to properly account for the logical relationships between various payoff relevant contingencies. We present behavioral characterizations corresponding to several benchmarks of logical sophistication and show how it is possible to identify which implications the agent fails to perceive. Thus, our framework delivers both a methodology for assessing an agent's level of contingent thinking and a strategy for identifying her beliefs in the absence full rationality.
translated by 谷歌翻译
我们回答以下问题,哪些结合性查询以多种方式上的许多正和负面示例以及如何有效地构建此类示例的特征。结果,我们为一类连接的查询获得了一种新的有效的精确学习算法。我们的贡献的核心是两种新的多项式时间算法,用于在有限结构的同态晶格中构建前沿。我们还讨论了模式映射和描述逻辑概念的独特特征性和可学习性的影响。
translated by 谷歌翻译
奖励是加强学习代理的动力。本文致力于了解奖励的表现,作为捕获我们希望代理人执行的任务的一种方式。我们在这项研究中涉及三个新的抽象概念“任务”,可能是可取的:(1)一组可接受的行为,(2)部分排序,或者(3)通过轨迹的部分排序。我们的主要结果证明,虽然奖励可以表达许多这些任务,但每个任务类型的实例都没有Markov奖励函数可以捕获。然后,我们提供一组多项式时间算法,其构造Markov奖励函数,允许代理优化这三种类型中的每种类型的任务,并正确确定何时不存在这种奖励功能。我们得出结论,具有证实和说明我们的理论发现的实证研究。
translated by 谷歌翻译
如果通常激励有能力的AI代理来寻求为我们指定的目标服务的权力,那么除了巨大的利益外,这些系统还将带来巨大的风险。在完全可观察到的环境中,大多数奖励功能都具有最佳的政策,该政策通过保持期权开放并保持活力来寻求权力。但是,现实世界既不是完全可观察到的,也不是代理人绝对最佳的。我们考虑了一系列的AI决策模型,从最佳,随机到通过学习和与环境互动所告知的选择。我们发现许多决策功能都是可以重新定位的,并且可重新定位的性足以引起寻求权力的趋势。我们的功能标准简单而广泛。我们表明,一系列定性决策程序激励代理寻求权力。我们通过在蒙特祖玛的报仇中推理了学到的政策激励措施来证明结果的灵活性。这些结果表明安全风险:最终,高度可重新定位的培训程序可能会训练寻求对人类权力的现实世界代理商。
translated by 谷歌翻译
我们根据描述逻辑ALC和ALCI介绍并研究了本体论介导的查询的几个近似概念。我们的近似值有两种:我们可以(1)用一种以易访问的本体语言为例,例如ELI或某些TGD,以及(2)用可拖动类的一个替换数据库,例如其treewidth的数据库,由常数界定。我们确定所得近似值的计算复杂性和相对完整性。(几乎)所有这些都将数据复杂性从Conp-Complete降低到Ptime,在某些情况下甚至是固定参数可拖动和线性时间。虽然种类(1)的近似也降低了综合复杂性,但这种近似(2)往往并非如此。在某些情况下,联合复杂性甚至会增加。
translated by 谷歌翻译
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
translated by 谷歌翻译
探索是加强学习中最重要的任务之一,但它在动态编程范例中没有明确的有限问题(参见第2.4小节)。我们提供了对勘探的重新诠释,该探索可以应用于任何在线学习方法。我们通过从新方向接近探索来实现这个定义。在发现创建的探索概念之后,无法长途适用于解决动态编程的简单马尔可夫决策过程,我们重新探索。而不是扩展动态探索程序的结尾,我们延长了他们的手段。也就是说,而不是反复对一个过程中的每个国家动作对进行采样,我们定义修改代理到自身探索的行为。由此产生的探索定义可以应用于无限的问题和非动态学习方法,探测的动态概念不能容忍。要了解代理人的修改方式影响学习的方式,我们描述了一组代理的新结构:以$以$以$的距离(见脚注7)$ d_ {a} \,这表示可能的代理人的视角正在进行中。使用这些距离,我们定义了一种拓扑,并表明加强学习中的许多重要结构在代理空间中收敛源的拓扑上表现良好。
translated by 谷歌翻译
知识可定义是合理的真实信念(“JTB”)?我们认为,人们可以积极地或负面地回答,具体取决于一个人的真实信仰是否合理,我们称之为足够的原因。为了促进我们的论点,我们介绍了一个简单的基于理性的信念的命题逻辑,并提出了充分性的概念的公理表征。我们表明,此逻辑足以灵活,以适应各种有用的功能,包括由于原因的量化。我们使用我们的框架对比JTB的两位概念进行对比:一个内部家,另一家族。我们认为Gettier案例基本上挑战了内部概念,但不是外科医生。我们的方法致力于一系列关于知识的非押金主义,但它也让我们陷入困境,即知识是否涉及只有足够的原因,或者留下房间的原因不足。我们赞成后者的立场,这反映了一个更温和和更现实的无押金主义。
translated by 谷歌翻译
The aim of Inverse Reinforcement Learning (IRL) is to infer a reward function $R$ from a policy $\pi$. To do this, we need a model of how $\pi$ relates to $R$. In the current literature, the most common models are optimality, Boltzmann rationality, and causal entropy maximisation. One of the primary motivations behind IRL is to infer human preferences from human behaviour. However, the true relationship between human preferences and human behaviour is much more complex than any of the models currently used in IRL. This means that they are misspecified, which raises the worry that they might lead to unsound inferences if applied to real-world data. In this paper, we provide a mathematical analysis of how robust different IRL models are to misspecification, and answer precisely how the demonstrator policy may differ from each of the standard models before that model leads to faulty inferences about the reward function $R$. We also introduce a framework for reasoning about misspecification in IRL, together with formal tools that can be used to easily derive the misspecification robustness of new IRL models.
translated by 谷歌翻译
ALChour \“Ardenfors的AGM发布,Makinson继续代表与信仰变革有关的研究中的基石。Katsuno和Mendelzon(K&M)通过了AGM假设改变信仰基地,并在命题中的特征agm信仰基地修订有限签名的逻辑。我们概括了K&M在任意Tarskian逻辑中设置的(多个)基本修订版的方法,涵盖了具有经典模型 - 理论语义的所有逻辑,从而涵盖了知识表示和超越的各种逻辑。我们的通用配方适用于“基础”的各种概念(例如信仰集,任意或有限的句子或单句话)。核心结果是表示AGM基本修订运算符和某些“分配”之间双向对应的表示定理:函数映射信仰基础到总数 - 尚未传递 - “偏好”解释之间的关系。与此同时,我们为CAS提供了一个伴侣E当agm andodatience的AGM假设被遗弃时。我们还提供了所有逻辑的表征,我们的结果可以加强生产传递偏好关系的分配(如K&M的原始工作),根据语法依赖与独立性,引起了这种逻辑的两个表示定理。
translated by 谷歌翻译
逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
避免准确性主导和具有概率相干的信任之间存在着名的等价性(参见,例如,De Finetti 1974,Joyce 2009,Predd等,2009,Schervish等,2009,Pettigrew 2016)。但是,只有当定义凭据函数的一个命题时,才建立了这种等价。在本文中,我们在无限的一个命题上定义了债务函数时建立了准确支配和一致性之间的联系。特别是,我们建立了必要的结果,以延长概率主义的经典准确性争论,原本是由于乔伊斯(1998)到某些类别的无限命题,包括可计数无限分区。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
一些研究人员推测智能强化学习(RL)代理商将被激励寻求资源和追求目标的权力。其他研究人员指出,RL代理商不需要具有人类的寻求技能本能。为了澄清这一讨论,我们开展了最优政策统计趋势的第一个正式理论。在马尔可夫决策过程的背景下,我们证明某些环境对称是足以实现对环境寻求权力的最佳政策。这些对称存在于许多环境中,其中代理可以关闭或销毁。我们证明,在这些环境中,大多数奖励功能使其通过保持一系列可用的选项来寻求电力,并在最大限度地提高平均奖励时,通过导航到更大的潜在终端状态。
translated by 谷歌翻译