许多机器人任务需要高维传感器,如相机和激光雷达,以导航复杂的环境,但是在这些传感器周围开发认可的安全反馈控制器仍然是一个具有挑战性的公开问题,特别是在涉及学习时的开放问题。以前的作品通过分离感知和控制子系统并对感知子系统的能力做出强烈的假设来证明了感知反馈控制器的安全性。在这项工作中,我们介绍了一种新的启用学习的感知反馈混合控制器,在那里我们使用控制屏障函数(CBF)和控制Lyapunov函数(CLF)来显示全堆叠感知反馈控制器的安全性和活力。我们使用神经网络直接在机器人的观察空间中学习全堆栈系统的CBF和CLF,而无需承担基于感知的状态估计器。我们的混合控制器称为基因座(使用切换启用了学习的观察反馈控制),可以安全地导航未知的环境,始终如一地达到其目标,并将安全性安全地概括为培训数据集之外的环境。我们在模拟和硬件中展示了实验中的轨迹,在那里它使用LIDAR传感器的反馈成功地导航变化环境。
translated by 谷歌翻译
在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架,该框架涵盖了(结构化的)匪徒问题,这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数,这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中,对于对抗性决策而言是必要和足够的遗憾。但是,与随机设置相比,必须将决策估计系数应用于所考虑的模型类(或假设)的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束,并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中,我们提供了新的结构结果,将决策估计系数与其他众所周知的复杂性度量的变体联系起来,包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。
translated by 谷歌翻译
分销模型从文本中学习了单词的表示,但由于缺乏基础或将文本与非语言世界的联系而受到批评。接地的语言模型在学习将名词和形容词等具体类别通过图像和视频连接到世界上的混凝土类别取得了成功,但是可以难以将动词本身的含义与通常发生的上下文隔离。在本文中,我们研究了自然编码动词语义的轨迹(即物体的位置和旋转)的程度。我们构建一个程序生成的代理 - 对象相互作用数据集,获取该数据中发生的动词的人体注释,并比较给定轨迹的几种表示学习方法。我们发现,轨迹与某些动词(例如秋季)相关联,并且通过自我监督预处理的额外抽象可以进一步捕获动词含义的细微差异(例如,滚动与幻灯片)。
translated by 谷歌翻译
避免地下储层中的过度压力对于诸如二氧化碳和废水注射等应用至关重要。通过控制注入/提取来管理压力,由于地下的复杂异质性。异质性通常需要高保真物理模型来对Co $ _2 $命运做出预测。此外,精确表征异质性的情况会充满参数不确定性。考虑到异质性和不确定性,这都使这是对当前储层模拟器的计算密集型问题。为了解决这个问题,我们使用全物理模型和机器学习的可区分编程来确定防止关键储层位置过度压力的流体提取率。我们使用DPFEHM框架,该框架具有基于标准的两点通量有限量离散化的值得信赖的物理学,并且像机器学习模型一样自动差异化。我们的物理知识的机器学习框架使用卷积神经网络根据渗透率领域学习适当的提取率。我们还执行超参数搜索以提高模型的准确性。执行培训和测试方案,以评估使用物理知识的机器学习来管理储层压力的可行性。我们构建并测试了一个足够精确的模拟器,该模拟器的速度比基于物理的模拟器快400000倍,从而允许接近实时分析和鲁棒的不确定性量化。
translated by 谷歌翻译
该报告概述了建模变革性AI风险(MTAIR)项目的工作,试图在有关高级AI的灾难性风险及其之间的关系中绘制关键的假设,不确定性和分歧。这是基于Ben Cottier和Rohin Shah的较早图,它们以视觉上列出了一些关键分歧(“ Cruxes”),并进行了一些解释。根据广泛的文献综述和与专家的参与,该报告解释了涉及的问题的模型以及最初的基于软件的实施,该实施可以纳入概率估计或其他定量因素,以实现探索,计划和/或决策支持。通过将各种辩论和讨论中的信息收集到一个更连贯的演讲中,我们希望能够更好地讨论和辩论有关的问题。该模型从通过类比的推理和对人工智能的一般性信念进行讨论开始。此后,它提出了一个不同的路径模型,并为高级机器智能提供了技术,以及这些系统能力的进步如何进行的模型,包括有关自我支持,不连续改进的辩论以及的可能性以及分布式,非代理高级智能或较慢的改进。该模型还专门研究了学习优化的问题,以及机器学习系统是否会创建MESA-OPTIMIZES。然后检查了不同的安全研究对先前问题集的影响,以了解研究以及如何在实现更安全的系统中有用。最后,我们讨论了一个不同的故障模式的模型以及控制或接管场景的丧失。
translated by 谷歌翻译
考虑互动学习的问题设定(IGL),其中学习者的目标是与环境进行最佳互动,而无需明确的奖励以依靠其政策。代理商观察上下文向量,采取行动并接收反馈向量,并使用此信息有效地优化潜在奖励功能的策略。当反馈向量包含该动作时,事先分析的方法失败了,这在许多潜在方案中显着限制了IGL的成功,例如脑部计算机界面(BCI)或人类计算机界面(HCI)应用程序。我们通过创建算法和分析来解决这一问题,该算法和分析即使反馈向量包含以任何方式编码的动作,允许IGL起作用。我们根据监督数据集提供理论保证和大规模实验,以证明新方法的有效性。
translated by 谷歌翻译
从我们生命的最早几年开始,人类使用语言来表达我们的信念和欲望。因此,能够与人造代理讨论我们的偏好将实现价值一致性的核心目标。然而,今天,我们缺乏解释这种灵活和抽象语言使用的计算模型。为了应对这一挑战,我们考虑在线性强盗环境中考虑社会学习,并询问人类如何传达与行为的偏好(即奖励功能)。我们研究两种不同类型的语言:指令,提供有关所需政策的信息和描述,这些信息提供了有关奖励功能的信息。为了解释人类如何使用这些形式的语言,我们建议他们推理出已知和未知的未来状态:对当前的说明优化,同时描述对未来进行了推广。我们通过扩展奖励设计来考虑对国家的分配来形式化此选择。然后,我们定义了一种务实的听众,该代理人通过推理说话者如何表达自己来侵犯说话者的奖励功能。我们通过行为实验来验证我们的模型,表明(1)我们的说话者模型预测了自发的人类行为,并且(2)我们的务实的听众能够恢复其奖励功能。最后,我们表明,在传统的强化学习环境中,务实的社会学习可以与个人学习相结合并加速。我们的发现表明,从更广泛的语言中的社会学习,特别是,扩大了该领域的目前对指示的关注,以包括从描述中学习 - 是一种有前途的价值一致性和强化学习的有前途的方法。
translated by 谷歌翻译
图形神经网络(GNNS)通过考虑其内在的几何形状来扩展神经网络的成功到图形结构化数据。尽管根据图表学习基准的集合,已经对开发具有卓越性能的GNN模型进行了广泛的研究,但目前尚不清楚其探测给定模型的哪些方面。例如,他们在多大程度上测试模型利用图形结构与节点特征的能力?在这里,我们开发了一种原则性的方法来根据$ \ textit {敏感性配置文件} $进行基准测试数据集,该方法基于由于图形扰动的集合而导致的GNN性能变化了多少。我们的数据驱动分析提供了对GNN利用哪些基准测试数据特性的更深入的了解。因此,我们的分类法可以帮助选择和开发适当的图基准测试,并更好地评估未来的GNN方法。最后,我们在$ \ texttt {gtaxogym} $软件包中的方法和实现可扩展到多个图形预测任务类型和未来数据集。
translated by 谷歌翻译
我们提出了一种准确的3D重建方法的方法。我们基于神经重建和渲染(例如神经辐射场(NERF))的最新进展的优势。这种方法的一个主要缺点是,它们未能重建对象的任何部分,这些部分在训练图像中不明确可见,这通常是野外图像和视频的情况。当缺乏证据时,可以使用诸如对称的结构先验来完成缺失的信息。但是,在神经渲染中利用此类先验是高度不平凡的:虽然几何和非反射材料可能是对称的,但环境场景的阴影和反射通常不是对称的。为了解决这个问题,我们将软对称性约束应用于3D几何和材料特性,并将外观纳入照明,反照率和反射率。我们在最近引入的CO3D数据集上评估了我们的方法,这是由于重建高度反射材料的挑战,重点是汽车类别。我们表明,它可以用高保真度重建未观察到的区域,并渲染高质量的新型视图图像。
translated by 谷歌翻译
在现实世界的强化学习应用中,学习者的观察空间无处不在,有关手头任务的相关信息和无关紧要。从高维观察中学习一直是监督学习和统计数据(例如,通过稀疏性)进行广泛研究的主题,但是即使在有限的状态/行动(表格)领域,也不能很好地理解强化学习中的类似问题。我们引入了一个新的问题设置,用于增强学习,即马尔可夫决策过程(EXOMDP),其中状态空间将(未知)分解成一个小的(或内源性)组件,并且很大的无关(或外源)组件;外源成分独立于学习者的行为,但以任意的,时间相关的方式演变。我们提供了一种新的算法Exorl,该算法学习了一种近乎最佳的政策,其样品复杂性在内源性组件的大小中多项式,几乎独立于外源成分的大小,从而提供了一个双重指数的改进算法。我们的结果首次突出了在存在外源信息的情况下首次可以进行样品高效的增强学习,并为未来的调查提供了简单,用户友好的基准。
translated by 谷歌翻译