传统的理性行动模式将代理视为与其环境完全分离,并且可以从外部对该环境起作用。这些代理与环境具有已知的功能关系,可以在每个细节上对其环境进行建模,并且不需要对其自身或其内部部分进行理解。我们提供了一个非正式的调查,以确定在其环境中嵌入良好推理饲料的正规化障碍。这些代理必须优化不属于“函数”类型的环境;他们必须依赖于适合整个环境的模型;他们必须将自己称为另一个物理系统,由可以修改的部件组成,并且可以在交叉目的下工作。
translated by 谷歌翻译
There are several distinct failure modes for overoptimization of systems on the basis of metrics. This occurs when a metric which can be used to improve a system is used to such an extent that further optimization is ineffective or harmful, and is sometimes termed Goodhart's Law 1. This class of failure is often poorly understood, partly because terminology for discussing them is ambiguous , and partly because discussion using this ambiguous terminology ignores distinctions between different failure modes of this general type. This paper expands on an earlier discussion by Garrabrant [2], which notes there are "(at least) four different mechanisms" that relate to Goodhart's Law. This paper is intended to explore these mechanisms further, and specify more clearly how they occur. This discussion should be helpful in better understanding these types of failures in economic regulation, in public policy, in machine learning, and in artificial intelligence alignment[4]. The importance of Goodhart effects depends on the amount of power directed towards optimizing the proxy, and so the increased optimizationpower offered by artificial intelligence makes it especially critical for that field. Varieties of Goodhart-like Phenomena As used in this paper, a Goodhart effect is when optimization causes a collapse of the statistical relationship between a goal which the optimizer intends and the proxy used for that goal. The four categories of Goodhart effects introduced by Garrabrant are 1) Regressional, where selection for an imperfect 1 As a historical note, Goodharts Law [1] as originally formulated states that "any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes." This has been interpreted and explained more widely, perhaps to the point where it is ambiguous what the term means. Other closely related formulations, such as Campbell's law (which arguably has scholarly precedence[3]) and the Lucas critique, were also initially specific, and their interpretation has also been expanded greatly. Lastly, the Cobra Effect and perverse incentives are often closely related to these failures, and the different effects interact. Because none of the terms were laid out formally, the categories proposed do not match what was originally discussed. A separate forthcoming paper intends to address the relationship between those formulations and the categories more formally explained here.
translated by 谷歌翻译
由于其复杂的形态,高频被动动力学以及与其环境的不连续接触相互作用,规划有腿微型机器人的运动轨迹是具有挑战性的。因此,这种研究通常由耗时的实验方法驱动。作为替代方案,我们提出了一个系统建模,规划和控制有腿微型机器人的框架。我们开发了一个1.5克四足微型机​​器人的三维动态模型,其复杂性(例如,自由度数)类似于大型腿式机器人。然后,我们采用最近开发的变分接触 - 隐式轨迹优化方法,为该微机器人生成可行的全身运动计划,并证明这些计划可以用简单的联合空间控制器进行跟踪。我们计划并执行多个步幅和各种表面上的周期性步态。这些步态实现了高的每周期速度,包括最大10.87毫米/周期,比这个微机器人的先前测量速度快15%。此外,我们计划并执行9.96毫米的垂直跳跃,这是微机器人的中心高度的78%。据我们所知,这是规划和跟踪全尺寸有腿微型机器人全身动态运动的首次端到端演示。
translated by 谷歌翻译
从演示中主动学习允许机器人查询人类特定类型的输入以实现有效学习。现有工作已经探索了各种主动查询策略;但是,据我们所知,这些策略都没有直接降低机器人学习的政策的绩效风险。利用反向强化学习的性能界限的最新进展,我们提出了一种风险感知的主动逆增强学习算法,该算法将活动查询集中在状态空间的区域上,可能存在大的泛化误差。我们表明,风险感知的主动学习在网格世界,模拟驱动和表格设置任务上优于标准的主动IRL方法,同时还提供基于性能的停止标准,允许机器人知道何时收到足够的演示以安全地执行任务。
translated by 谷歌翻译
荧光显微镜已经在现代生物学中取得了显着的发展。由于其固有的微弱信号,荧光显微镜不仅比摄影还要多,而且还呈现泊松高斯噪声,其中泊松噪声或散粒噪声是主要的噪声源,而不是高斯噪声源。在摄影中占主导地位的噪音。为了获得干净的荧光显微图像,非常需要具有专门设计用于对荧光显微镜图像进行去噪的有效去噪算法和数据集。虽然存在这样的算法,但是没有这样的数据集可用。在本文中,我们通过构建数据集填充这一空白 - 荧光显微镜去噪(FMD)数据集 - 专用于泊松 - 高斯去噪。该数据集包括12,000个真实荧光显微镜图像,这些图像通过商业共聚焦,双光子和宽视场显微镜以及代表性生物样品(例如细胞,斑马鱼和小鼠脑组织)获得。我们使用成像平均来有效地获得地面真实图像和具有不同噪声水平的60,000个噪声图像。我们使用这个数据集来对10个代表性去噪算法进行基准测试,发现深度学习方法具有最佳性能。据我们所知,这是用于泊松 - 高斯去噪目的的第一个显微图像数据集,它可以成为生物医学研究中高质量,实时去噪应用的重要工具。
translated by 谷歌翻译
图像取证是一个越来越相关的问题,因为它可能会对在线虚假宣传活动进行处理并减轻社会媒体的问题。特别感兴趣的是,鉴于其最近的成功,是生成对抗网络(GAN)产生的图像的检测,例如“de伪”。利用大型训练集和广泛的计算资源,最近的工作表明,可以训练GAN来生成合成图像,这些图像(在某些方面)与真实图像无法区分。我们分析了流行的GAN实现的生成网络的结构,并且表明网络对颜色的处理与真实的相机在两个方面明显不同。我们进一步表明,这两个线索可用于区分GAN生成的图像与摄像机图像,展示GAN图像与用于训练GAN的真实摄像机图像之间的有效区分。
translated by 谷歌翻译
最近,机器学习中的神经网络在早期处理层中使用整流线性单元(ReLU)以获得更好的性能。训练这些结构有时会导致“死亡的ReLU单位”输出接近零。我们首先通过仿真使用CIFAR-10数据集和两种流行的卷积神经网络架构的变量来探索这种情况。 Ourexplorations表明,对于不采用跳过连接的层,输出激活概率Pr [y> 0]在系统收敛时通常不大于0.5,并且这种激活概率随着从输入层到输出层的进展而趋于减小。我们采用由错误反向传播变体训练的单个ReLU单元的简化模型,然后执行统计收敛分析以探索模型的进化行为。我们的分析描述了死亡ReLU单位的可能较慢的收敛速度,无论权重如何初始化,都可能出现此问题。
translated by 谷歌翻译
强化学习传统上考虑了平衡探索和开发的任务。这项工作考察了批量强化学习 - 最大限度地利用给定批次的非政策数据的任务,无需进一步收集数据。我们证明,由于外推引入的误差,标准的非策略深度强化学习算法,如DQN和DDPG,只能学习与当前政策相关的数据,使其对大多数非政策性应用无效。我们介绍一种新颖的一类非策略算法,批量约束的执行学习,它限制动作空间以强制代理人相对于给定数据的子集在策略上行为。我们将这一概念扩展到深度强化学习,并且尽我们所知,提出了第一个可以从不相关的非政策数据中有效学习的连续控制深度强化学习算法。
translated by 谷歌翻译
在医疗保健中,患者风险分层模型通常使用从电子健康记录中提取的时间序列数据来学习。当提取临床预测任务的数据时,存在若干公式,这取决于如何选择预测时间和预测范围。在本文中,我们展示了配方如何能够极大地影响模型性能和临床效用。利用公开可用的ICU数据集,我们考虑两个预测任务:院内死亡率和低钾血症。通过这些案例研究,我们证明了使用与结果无关的参考点评估模型的必要性,因为选择与事件相关的预测时间可能导致不切实际的表现。此外,当在模拟真实世界使用的测试集上进行评估时,不依赖于结果的方案优于两个任务的结果依赖性方案(住院死亡率AUROC .882对比.831;血清钾:AUROC .829vs .740)。
translated by 谷歌翻译
许多现代机器学习方法需要大量的培训数据来学习新的概念;相反,人类学习通常需要很少的例子 - 有时只有一个 - 学习者可以从中抽象结构概念。我们提出了一种新方法,将新的空间结构引入AI代理,将深度学习与定性空间关系与各种启发式搜索算法相结合。该代理从基于块的结构的稀疏噪声集的示例中提取空间关系,并且训练那些关系集的卷积和顺序模型。为了创建类似结构的novelexamples,代理开始在虚拟表上放置块,使用CNN预测最后放置的最相似的完整示例结构,使用LSTM预测完成它的最可能的剩余移动集,并使用启发式推荐一个搜索。我们验证代理通过观察其虚拟块构建活动来学习该概念,其中它将每个潜在的后续行为排列到构建学习概念。我们通过人类参与者对块结构的评级来实证评估这种方法。由训练有素的代理人生成的结构的初步结果和定性评估显示了它从训练数据中概括了概念的位置,启发式搜索空间中的启发式最佳,以及我们如何改进学习和执行。
translated by 谷歌翻译