我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译