我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
在无法明确计算系统状态(例如操纵可变形物体)的应用程序中,视觉动作计划特别出色,因为它可以直接从原始图像中进行计划。尽管深度学习技术已经显着加速了该领域,但其成功的关键要求是大量数据的可用性。在这项工作中,我们建议在数据稀缺的情况下实现视觉行动计划,以实现视觉行动计划。我们建立在潜在的空间路线图(LSR)框架上,该框架通过在低维潜在空间中建造的图表执行计划。特别是,ACE用于i)通过自动创建新的数据点来增强可用培训数据集,ii)在潜在图中的状态表示之间创建新的未观察到的连接;方式。我们在模拟框堆叠和现实世界折叠任务上验证了所提出的方法,分别显示了刚性和可变形的对象操纵任务的适用性。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
我们认为机器人布操纵的开放目标规划问题。我们系统的核心是一个神经网络,被培训为在操纵下的布料行为的前向模型,通过BackProjagation进行规划。我们介绍了一种基于神经网络的例程,用于估计来自Voxel输入的网格表示,并在内部的网格格式执行规划。我们通过明确的认知不确定性信号解决规划不完全域知识的问题。该信号由前向模型网络的两个实例之间的预测发散计算,并用于避免在规划期间的认识性不确定性。最后,我们引入用于处理掌握点的限制到一个离散的候选者的逻辑,以适应机器人硬件施加的避免结构。我们评估系统的网格估计,预测和规划能力,用于模拟布,用于一到三个操纵的序列。比较实验证实,与基于体素的规划相比,基于估计网格的规划提高了准确性,并且这种认知不确定性避免在不完全域知识的条件下提高性能。规划时间成本是几秒钟。我们还在机器人硬件上呈现定性结果。
translated by 谷歌翻译
这篇综述解决了在深度强化学习(DRL)背景下学习测量数据的抽象表示的问题。尽管数据通常是模棱两可,高维且复杂的解释,但许多动态系统可以通过一组低维状态变量有效地描述。从数据中发现这些状态变量是提高数据效率,稳健性和DRL方法的概括,应对维度的诅咒以及将可解释性和见解带入Black-Box DRL的关键方面。这篇综述通过描述用于学习世界的学习代表的主要深度学习工具,提供对方法和原则的系统观点,总结应用程序,基准和评估策略,并讨论开放的方式,从而提供了DRL中无监督的代表性学习的全面概述,挑战和未来的方向。
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
在现实世界中经营通常需要代理商来了解复杂的环境,并应用这种理解以实现一系列目标。这个问题被称为目标有条件的强化学习(GCRL),对长地平线的目标变得特别具有挑战性。目前的方法通过使用基于图形的规划算法增强目标条件的策略来解决这个问题。然而,他们努力缩放到大型高维状态空间,并采用用于有效地收集训练数据的探索机制。在这项工作中,我们介绍了继任者功能标志性(SFL),这是一种探索大型高维环境的框架,以获得熟练的政策熟练的策略。 SFL利用继承特性(SF)来捕获转换动态的能力,通过估计状态新颖性来驱动探索,并通过将状态空间作为基于非参数标志的图形来实现高级规划。我们进一步利用SF直接计算地标遍历的目标条件调节策略,我们用于在探索状态空间边缘执行计划“前沿”地标。我们在我们的Minigrid和VizDoom进行了实验,即SFL可以高效地探索大型高维状态空间和优于长地平线GCRL任务的最先进的基线。
translated by 谷歌翻译
从视觉观察中了解动态系统的潜在因果因素被认为是对复杂环境中推理的推理的关键步骤。在本文中,我们提出了Citris,这是一种变异自动编码器框架,从图像的时间序列中学习因果表示,其中潜在的因果因素可能已被干预。与最近的文献相反,Citris利用了时间性和观察干预目标,以鉴定标量和多维因果因素,例如3D旋转角度。此外,通过引入归一化流,可以轻松扩展柑橘,以利用和删除已验证的自动编码器获得的删除表示形式。在标量因果因素上扩展了先前的结果,我们在更一般的环境中证明了可识别性,其中仅因果因素的某些成分受干预措施影响。在对3D渲染图像序列的实验中,柑橘类似于恢复基本因果变量的先前方法。此外,使用预验证的自动编码器,Citris甚至可以概括为因果因素的实例化,从而在SIM到现实的概括中开放了未来的研究领域,以进行因果关系学习。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域​​中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
电动汽车的蓬勃发展需要有效的电池拆卸,以使回收环境友好。目前,由于非结构化的环境和高度不确定性,电池拆卸仍然主要由人类(可能是由机器人的帮助)完成的。设计自动解决方案以提高工作效率并降低人类在高压和有毒环境中的风险是非常理想的。本文提出了一种新型的神经肯定方法,该方法增强了传统的变异自动编码器(VAE)模型,以根据原始感觉输入及其关系来学习符号运算符。符号操作员包括一个概率状态符号接地模型和一个状态过渡矩阵,用于预测每个执行后的状态,以实现自主任务和运动计划。最后,通过测试结果验证了该方法的可行性。
translated by 谷歌翻译
To achieve autonomy in a priori unknown real-world scenarios, agents should be able to: i) act from high-dimensional sensory observations (e.g., images), ii) learn from past experience to adapt and improve, and iii) be capable of long horizon planning. Classical planning algorithms (e.g. PRM, RRT) are proficient at handling long-horizon planning. Deep learning based methods in turn can provide the necessary representations to address the others, by modeling statistical contingencies between observations. In this direction, we introduce a general-purpose planning algorithm called PALMER that combines classical sampling-based planning algorithms with learning-based perceptual representations. For training these perceptual representations, we combine Q-learning with contrastive representation learning to create a latent space where the distance between the embeddings of two states captures how easily an optimal policy can traverse between them. For planning with these perceptual representations, we re-purpose classical sampling-based planning algorithms to retrieve previously observed trajectory segments from a replay buffer and restitch them into approximately optimal paths that connect any given pair of start and goal states. This creates a tight feedback loop between representation learning, memory, reinforcement learning, and sampling-based planning. The end result is an experiential framework for long-horizon planning that is significantly more robust and sample efficient compared to existing methods.
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
机器人的大多数对象操纵策略都是基于以下假设:对象是刚性(即具有固定几何形状),并且目标的细节已完全指定(例如,确切的目标姿势)。但是,有许多任务涉及人类环境中的空间关系,这些条件可能难以满足,例如弯曲和将电缆放入未知容器中。为了在非结构化的环境中开发先进的机器人操纵功能,以避免这些假设,我们提出了一个新颖的长马框架,该框架利用了对比计划来寻找有希望的协作行动。使用随机操作收集的仿真数据,我们以对比方式学习一个嵌入模型,该模型从成功的体验中编码时空信息,从而通过在潜在空间中的聚类来促进次目标计划。基于基于KePoint对应的操作参数化,我们为双臂之间的协作设计了领导者追随者控制方案。我们政策的所有模型均经过模拟自动培训,可以直接传输到现实世界环境中。为了验证所提出的框架,我们对模拟和真实环境中的环境和可及性约束,对复杂场景进行了详细的实验研究。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译