可区分的仿真是用于基于快速梯度的策略优化和系统识别的有前途的工具包。但是,现有的可区分仿真方法在很大程度上已经解决了获得平滑梯度相对容易的方案,例如具有光滑动力学的系统。在这项工作中,我们研究了可区分的模拟所面临的挑战,当时单个下降不可行,这通常是全球最佳的,这通常是接触率丰富的方案中的问题。我们分析包含刚体和可变形物体的各种情况的优化景观。在具有高度可变形的物体和流体的动态环境中,可区分的模拟器在空间的某些地方生产具有有用梯度的坚固景观。我们提出了一种将贝叶斯优化与半本地“飞跃”相结合的方法,以获得可以有效使用梯度的全局搜索方法,同时还可以在具有嘈杂梯度的地区保持稳健的性能。我们表明,我们的方法在模拟中的一组实验集上优于几个基于梯度和无梯度的基线,并且还使用具有真实机器人和变形物的实验验证该方法。视频和补充材料可从https://tinyurl.com/globdiff获得
translated by 谷歌翻译
布模拟在计算机动画,服装设计和机器人辅助敷料中具有广泛的应用。这项工作提出了一个可区分的布模拟器,其附加梯度信息促进了与布相关的应用。我们可区分的模拟器扩展了基于投影动力学(PD)和干摩擦接触的最先进的布模拟器。我们从以前的工作中汲取灵感,提出了一种快速新颖的方法,用于通过干摩擦接触在基于PD的布模拟中得出梯度。此外,我们对富含接触的布模拟中梯度的实用性进行了全面的分析和评估。最后,我们证明了模拟器在许多下游应用中的功效,包括系统识别,辅助调味料的轨迹优化,闭环控制,逆设计和实际降低SIM转移。我们观察到通过使用我们的梯度信息来求解大多数这些应用程序获得的大幅加速。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
When humans perform contact-rich manipulation tasks, customized tools are often necessary and play an important role in simplifying the task. For instance, in our daily life, we use various utensils for handling food, such as knives, forks and spoons. Similarly, customized tools for robots may enable them to more easily perform a variety of tasks. Here, we present an end-to-end framework to automatically learn tool morphology for contact-rich manipulation tasks by leveraging differentiable physics simulators. Previous work approached this problem by introducing manually constructed priors that required detailed specification of object 3D model, grasp pose and task description to facilitate the search or optimization. In our approach, we instead only need to define the objective with respect to the task performance and enable learning a robust morphology by randomizing the task variations. The optimization is made tractable by casting this as a continual learning problem. We demonstrate the effectiveness of our method for designing new tools in several scenarios such as winding ropes, flipping a box and pushing peas onto a scoop in simulation. We also validate that the shapes discovered by our method help real robots succeed in these scenarios.
translated by 谷歌翻译
使用单个参数化动态动作操纵可变形物体对蝇钓,宽毯和播放洗牌板等任务非常有用。此类任务作为输入所需的最终状态并输出一个参数化的开环动态机器人动作,它向最终状态产生轨迹。这对于具有涉及摩擦力的复杂动态的长地平轨迹尤其具有挑战性。本文探讨了平面机器人铸造的任务(PRC):其中握住电缆一端的机器人手腕的一个平面运动使另一端朝向所需的目标滑过平面。 PRC允许电缆达到机器人工作区以外的点,并在家庭,仓库和工厂中具有电缆管理的应用。为了有效地学习给定电缆的PRC策略,我们提出了Real2Sim2Real,一个自动收集物理轨迹示例的自我监督框架,以使用差分演进调谐动态模拟器的参数,生成许多模拟示例,然后使用加权学习策略模拟和物理数据的组合。我们使用三种模拟器,ISAAC健身房分段,ISAAC健身房 - 混合动力和Pybullet,两个功能近似器,高斯工艺和神经网络(NNS),以及具有不同刚度,扭转和摩擦的三个电缆。结果每条电缆的16个举出的测试目标表明,使用ISAAC健身房分段的NN PRC策略达到中位误差距离(电缆长度的百分比),范围为8%至14%,表现优于真实或仅培训的基线和政策。只有模拟的例子。 https://tinyurl.com/robotcast可以使用代码,数据和视频。
translated by 谷歌翻译
微弱的物理是计算机视觉和机器人的强大工具,用于了解互动的场景理解和推理。现有方法经常被限于具有预先已知的简单形状或形状的物体。在本文中,我们提出了一种新的方法来具有摩擦触点的可分解物理学,其利用符号距离场(SDF)隐含地表示物理形状。我们的模拟即使涉及的形状为非凸形表示,也支持接触点计算。此外,我们提出了区分对象形状的动力学来利用基于梯度的方法来促进形状优化。在我们的实验中,我们证明我们的方法允许从轨迹和深度图像观察的诸如摩擦系数,质量,力或形状参数的物理参数的基于模型的推断,并且在几个具有挑战性的合成场景和真实图像序列中。
translated by 谷歌翻译
手动相互作用的研究需要为高维多手指模型产生可行的掌握姿势,这通常依赖于分析抓取的合成,从而产生脆弱且不自然的结果。本文介绍了Grasp'd,这是一种与已知模型和视觉输入的可区分接触模拟的掌握方法。我们使用基于梯度的方法作为基于采样的GRASP合成的替代方法,该方法在没有简化假设的情况下失败,例如预先指定的接触位置和本本特征。这样的假设限制了掌握发现,尤其是排除了高接触功率掌握。相比之下,我们基于模拟的方法允许即使对于具有高度自由度的抓地力形态,也可以稳定,高效,物理逼真,高接触抓紧合成。我们确定并解决了对基于梯度的优化进行掌握模拟的挑战,例如非平滑对象表面几何形状,接触稀疏性和坚固的优化景观。 GRASP-D与人类和机器人手模型的分析掌握合成相比,并且结果抓紧超过4倍,超过4倍,从而导致较高的GRASP稳定性。视频和代码可在https://graspd-eccv22.github.io/上获得。
translated by 谷歌翻译
学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战,尤其是当任务涉及手,工具和物体之间的复杂而微妙的互动时。在本文中,我们专注于基于筷子的对象搬迁任务,这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒,这也支持精致的演习。我们会自动发现贝叶斯优化(BO)和深钢筋学习(DRL)的身体有效的筷子姿势,它适用于多种握把的样式和手工形态,而无需示例数据。作为输入,我们要移动发现的抓紧姿势和所需的对象,我们构建了基于物理的手部控制器,以在两个阶段完成重定位任务。首先,运动轨迹是为筷子合成的,并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型,以选择用于抓住对象的合适筷子配置,以及一个轨迹优化模块,以生成无碰撞的筷子轨迹。然后,我们再次通过DRL训练基于物理的手部控制器,以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象,以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比,我们的系统实现了更快的学习速度和更好的控制鲁棒性,而无需抓紧姿势优化模块和/或没有运动学运动计划者。
translated by 谷歌翻译
可变形的物体操纵仍然是机器人研究中的具有挑战性的任务。用于参数推断和状态估计的传统技术通常依赖于状态空间的精确定义及其动态。虽然这适用于刚性物体和机器人状态,但定义可变形物体的状态空间并如何及时演变。在这项工作中,我们构成了作为用模拟器定义的概率推断任务的可变形对象的物理参数的问题。我们提出了一种用于通过技术从图像序列提取状态信息的新方法,以将可变形对象作为分布嵌入的状态提取。这允许以原则的方式将噪声状态观察直接进入基于现代贝叶斯模拟的推理工具。我们的实验证实,我们可以估计物理性质的后部分布,例如高可变形物体的弹性,摩擦和尺度,例如布和绳索。总的来说,我们的方法解决了概率的实际问题,并有助于更好地代表可变形对象状态的演变。
translated by 谷歌翻译
紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
水生运动是生物学家和工程师感兴趣的经典流体结构相互作用(FSI)问题。求解完全耦合的FSI方程,用于不可压缩的Navier-Stokes和有限的弹性在计算上是昂贵的。在这种系统中,优化机器人游泳器设计通常涉及在已经昂贵的模拟之上繁琐的,无梯度的程序。为了应对这一挑战,我们提出了一种针对FSI的新颖,完全可区分的混合方法,该方法结合了2D直接数值模拟,用于游泳器的可变形固体结构和物理受限的神经网络替代物,以捕获流体的流体动力效应。对于游泳者身体的可变形实心模拟,我们使用来自计算机图形领域的最新技术来加快有限元方法(FEM)。对于流体模拟,我们使用经过基于物理损耗功能的U-NET体系结构来预测每个时间步骤的流场。使用沉浸式边界方法(IBM)在我们游泳器边界的边界周围采样了来自神经网络的压力和速度场输出,以准确有效地计算其游泳运动。我们证明了混合模拟器在2D Carangiform游泳器上的计算效率和可不同性。由于可怜性,该模拟器可用于通过基于直接梯度的优化浸入流体中的软体体系的控件设计。
translated by 谷歌翻译
强化学习(RL)旨在通过与环境的互动来找到最佳政策。因此,学习复杂行为需要大量的样本,这在实践中可能是持久的。然而,而不是系统地推理和积极选择信息样本,用于本地搜索的政策梯度通常从随机扰动获得。这些随机样品产生高方差估计,因此在样本复杂性方面是次优。积极选择内容性样本是贝叶斯优化的核心,它构成了过去样本的目标的概率替代物,以推理信息的后来的随后。在本文中,我们建议加入两个世界。我们利用目标函数的概率模型及其梯度开发算法。基于该模型,该算法决定查询嘈杂的零顺序oracle以提高梯度估计。生成的算法是一种新型策略搜索方法,我们与现有的黑盒算法进行比较。比较揭示了改进的样本复杂性和对合成目标的广泛实证评估的差异降低。此外,我们突出了主动抽样对流行的RL基准测试的好处。
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
贝叶斯优化是一种全球优化未知和昂贵目标的方法。它结合了替代贝叶斯回归模型与采集函数,以决定在哪里评估目标。典型的回归模型是具有固定协方差函数的高斯流程,但是,该过程无法表达事先的输入依赖性信息,特别是有关最佳位置的信息。固定模型的普遍性导致了通过信息丰富的均值功能利用先验信息的共同实践。在本文中,我们强调说,这些模型会导致性能差,尤其是在高维度中。我们提出了新颖的信息协方差函数,以利用非平稳性来编码搜索空间某些区域的偏好,并在优化期间自适应促进局部探索。我们证明,即使在弱的先验信息下,它们也可以在高维度中提高优化的样本效率。
translated by 谷歌翻译