本文讨论了规划具有定向障碍物检测传感器的机器人的问题,该传感器必须在杂乱的环境中移动。规划目标是通过找到包括传感器在内的完整机器人的路径来保持安全,该路径确保机器人在传感器看到之前不会移动到工作空间的任何部分。虽然大量的工作已经解决了这个问题的一个版本,其中传感器的“视野”是机器人周围的球体,但是很少有工作机器人具有狭窄或遮挡的视野。我们给出了问题的正式定义,几种具有不同计算权衡的解决方法,以及示例域中的实验结果。
translated by 谷歌翻译
在本文中,我们从理论上证明了我们可以通过在任何深度神经网络中为每个输出单元添加一个神经元来消除所有次最小极小极小,用于多类分类,二元分类和具有任意损失函数的回归。在具有神经元的任何深度神经网络的每个局部最小值处,原始神经网络(无增加神经元)的参数集保证是原始神经网络的全局最小值。事实证明,添加的神经元的效果会自动消失到局部最小值。与文献中的许多相关结果不同,理论结果直接适用于常见的深度学习任务,因为结果仅依赖于在常见任务中自动保留的假设。此外,我们通过提供额外的理论结果和几个例子,讨论了以这种方式消除次优局部最小值的若干限制。
translated by 谷歌翻译
贝叶斯优化通常假设给出贝叶斯先验。然而,贝叶斯优化中强有力的理论保证在实践中经常因为先验中的未知参数而受到损害。在本文中,我们采用经验贝叶斯的变量并表明,通过估计从同一个先前采样的离线数据之前的高斯过程和构建后验的无偏估计,GP-UCB的变体和改进概率实现近乎零的后悔界限,其随着离线数据和离线数据的数量减少到与观测噪声成比例的常数。在线评估的数量增加。根据经验,我们已经验证了我们的方法,以挑战模拟机器人问题为特色的任务和运动规划。
translated by 谷歌翻译
我们提出了使用关系规则描述复杂不确定域中的过渡模型的表示。对于任何操作,规则选择一组相关对象,并在给定其在先前状态中的属性的情况下计算结果状态中那些对象的属性的分布。 Aniterative贪婪算法用于构造一组指示性参考,用于确定哪些对象在任何给定状态下是相关的。前馈神经网络用于学习相关对象属性的过渡分布。这种策略被证明比在模拟域中学习单片过渡模型更具通用性和样本效率,其中机器人将物体堆叠在杂乱的物体上。
translated by 谷歌翻译
连续状态和动作空间中的多对象操纵问题可以通过搜索操作符的连续参数的采样值的规划器来解决。这些规划者的效率关键取决于所用采样器的有效性,但有效采样又取决于机器人,环境和任务的细节。我们的策略是学习称为特殊化器的函数,它们为连续的操作符参数生成值,给定离散参数的状态描述和值。除了尝试从单个任务的大量数据中为每个操作符学习单个特化器之外,我们采用模块化元学习方法。对多个任务进行编辑,并学习各种专业人员,这些专业人员可以使用相对较少的数据快速调整新任务 - 因此,我们的系统可以“快速学习使用这些专业人员快速计划”。我们通过连续状态和动作空间在模拟3D拾取和放置任务中实验性地验证了ourapproach。
translated by 谷歌翻译
在本文中,我们提出了一种学习算法,可以加速搜索任务和运动规划问题。我们的算法为学习提高计划效率中出现的三种不同挑战提出了解决方案:预测内容,如何表示计划问题实例,以及如何将知识从一个问题实例转移到另一个问题实例。我们提出了一种方法,它基于计划问题实例的通用表示来预测对搜索空间的约束,称为得分空间,其中我们根据尝试的一组解决方案的性能来表示问题实例。使用这种表示,我们以约束形式从基于得分空间相似性的先前问题转移知识。我们设计了一种能够有效预测这些约束的顺序算法,并在三个不同的挑战性任务和运动规划问题中对其进行评估。结果表明我们的方法比anuided计划者执行的数量级更快。
translated by 谷歌翻译
在许多机器人应用中,自主代理必须在其内部行动并探索其人类队友未观察到的部分观察环境。我们考虑这样一种环境,即代理人可以在行动的同时向人类传递声明信息,帮助他们理解这种看不见的环境。在这项工作中,我们解决了代理应该如何规划要采取的行动以及传输什么信息的算法问题。当然,人们会期望人类具有偏好,我们通过基于其在人类信念状态的加权熵中引起的变化对传输信息进行评分来理论上模拟信息。我们将此设置表示为一个信念MDP,并提供一个易于处理的算法来近似地解决它。然后,我们给出一种算法,允许代理通过探索在线学习人类的偏好。我们在模拟离散和连续部分观察的搜索和恢复域中实验验证我们的方法。访问http://tinyurl.com/chitnis-corl-18获取补充视频。
translated by 谷歌翻译
这项工作的目的是通过学习来增加机器人的基本能力,以使用新的感觉运动原语来解决复杂的长期问题。解决复杂领域中的长期问题需要灵活的生成规划,这种规划可以结合原始能力的新组合来解决世界上出现的问题。为了将原始行为结合起来,我们必须有先决条件的模型来影响这些行为:在什么情况下执行这个原则会在世界上产生某种特殊的影响?我们使用并开发了最先进的方法进行有趣学习和采样的新颖改进。我们使用高斯过程方法从机器人实验中收集的少量昂贵的训练样本中学习操作员有效性的条件。我们开发了自适应采样方法,用于在规划解决新任务期间生成连续集的各种元素(例如机器人配置和对象姿势),从而使计划尽可能高效。我们在一个集成系统中演示了这些方法,将新学习的模型与高效的连续空间机器人任务和运动规划器相结合,学习如何比以前更有效地解决长期问题。
translated by 谷歌翻译
在部分观察的环境中,人类可以为机器人提供声明性信息,该声明性信息表示世界中物体属性的概率关系约束,增强了机器人的感知观察。例如,可以由人告知负责搜索和救援的机器人,两个受害者可能在同一房间内。一个重要的问题出现了:我们应该如何表示机器人的内部知识,以便正确处理这些信息并与原始感官信息相结合?在本文中,我们提供了一个有效的信念状态表示,动态地选择一个适当的因子,当它们通过信息相关时将信念的各个方面结合起来,当它们不相关时将它们分开。该策略在开放域中工作,其中可能的对象集合事先是未知的,并且在静态因子分解中提供了推理时间的显着改进,从而导致复杂的部分观察任务的有效规划。我们通过实验验证了两个开放式域规划问题:2D离散网格世界任务和3D连续烹饪任务。补充视频可以在http://tinyurl.com/chitnis-iros-18找到。
translated by 谷歌翻译
Throughout this chapter, we provide theoretical insights into why and how deep learning can generalize well, despite its large capacity, complexity, possible algorithmic instability, nonrobustness, and sharp minima, responding to an open question in the literature. We also propose new open problems and discuss the limitations of our results.
translated by 谷歌翻译