在线三维垃圾箱包装问题(O3D-BPP)由于行业带来的工业自动化而越来越重新突出。然而,由于过去的关注及其具有挑战性,与1D或2D问题相比,良好的近似算法缺乏。本文考虑了自动机器人分拣中心中的局部信息(寻找)的局部信息(寻找)的立场o $ 3 $ d-bpp。我们呈现了两个滚动地平线混合整数线性编程(MILP)Cum-heuristic基于基于算法的算法:MPAck(用于替补标记)和MPACKLITE(用于实时部署)。此外,我们介绍了一个框架Opack,它通过利用在线设置中的信息来适应并提高BP启发式的性能。然后,我们对综合和行业的BP启发式(带有和没有Opack),Mpack和Mpacklite进行了比较分析,提供了越来越多的超越的数据。 MPACKLITE和基线启发式在机器人操作的范围内执行,因此可以实时使用。
translated by 谷歌翻译
我们解决了3D箱包装问题的具有挑战性但实际上有用的变体(3D-BPP)。在我们的问题中,代理有关于要包装到垃圾箱的物品的信息有限,并且必须在无缓冲或重新调整的情况下立即包装项目。该项目的展示位置也受到碰撞避免和物理稳定的限制。我们将此在线3D-BPP制定为受限制的马尔可夫决策过程。为了解决问题,我们提出了演员 - 评论家框架下有效且易于实施的受限约束的深度加强学习(DRL)方法。特别地,我们介绍了一种可行性预测器来预测放置动作的可行性掩模,并使用它来调制训练期间actor输出的动作概率。这些监督和转型为DRL促进了代理人有效学习可行的政策。我们的方法也可以推广例如,能够处理具有不同方向的护目理或物品。我们进行了广泛的评估,表明学习政策显着优于最先进的方法。用户学习表明我们的方法达到了人级表现。
translated by 谷歌翻译
We study the problem of learning online packing skills for irregular 3D shapes, which is arguably the most challenging setting of bin packing problems. The goal is to consecutively move a sequence of 3D objects with arbitrary shapes into a designated container with only partial observations of the object sequence. Meanwhile, we take physical realizability into account, involving physics dynamics and constraints of a placement. The packing policy should understand the 3D geometry of the object to be packed and make effective decisions to accommodate it in the container in a physically realizable way. We propose a Reinforcement Learning (RL) pipeline to learn the policy. The complex irregular geometry and imperfect object placement together lead to huge solution space. Direct training in such space is prohibitively data intensive. We instead propose a theoretically-provable method for candidate action generation to reduce the action space of RL and the learning burden. A parameterized policy is then learned to select the best placement from the candidates. Equipped with an efficient method of asynchronous RL acceleration and a data preparation process of simulation-ready training sequences, a mature packing policy can be trained in a physics-based environment within 48 hours. Through extensive evaluation on a variety of real-life shape datasets and comparisons with state-of-the-art baselines, we demonstrate that our method outperforms the best-performing baseline on all datasets by at least 12.8% in terms of packing utility.
translated by 谷歌翻译
最近的研究表明,神经组合优化(NCO)在许多组合优化问题(如路由)中具有优于传统算法的优点,但是对于涉及相互条件的动作空间的包装,诸如打包的更加复杂的优化任务的效率较低。在本文中,我们提出了一种经常性的条件查询学习(RCQL)方法来解决2D和3D包装问题。我们首先通过经常性编码器嵌入状态,然后采用先前操作的条件查询注意。条件查询机制填充了学习步骤之间的信息差距,将问题塑造为Markov决策过程。从复发中受益,单个RCQL模型能够处理不同尺寸的包装问题。实验结果表明,RCQL可以有效地学习用于离线和在线条带包装问题(SPP)的强烈启发式,优于空间利用率范围广泛的基线。 RCQL与最先进的方法相比,在离线2D 40盒案例中将平均箱间隙比率降低1.83%,3.84%。同时,我们的方法还实现了5.64%的空间利用率,对于1000件物品的空间利用率比现有技术更高。
translated by 谷歌翻译
最佳套筒是将变量最佳离散化在给定离散或连续数字目标的垃圾箱中。我们提出了一种严格且可扩展的数学编程公式,用于解决二进制,连续和多级目标类型的最佳封装问题,并结合了以前未解决的约束。对于所有三种目标类型,我们介绍了凸混合组编程公式。经过精心讨论了几种算法增强功能,例如通过基于机器学习的分类器和实现方面自动确定最合适的单调趋势。新的数学编程公式是在开源Python库Optbinning中仔细实现的。
translated by 谷歌翻译
通常,地形几何形状是非平滑的,非线性的,非凸的,如果通过以机器人为中心的视觉单元感知,则似乎部分被遮住且嘈杂。这项工作介绍了能够实时处理上述问题的完整控制管道。我们制定了一个轨迹优化问题,该问题可以在基本姿势和立足点上共同优化,但要遵守高度图。为了避免收敛到不良的本地Optima,我们部署了逐步的优化技术。我们嵌入了一个紧凑的接触式自由稳定性标准,该标准与非平板地面公式兼容。直接搭配用作转录方法,导致一个非线性优化问题,可以在少于十毫秒内在线解决。为了在存在外部干扰的情况下增加鲁棒性,我们用动量观察者关闭跟踪环。我们的实验证明了爬楼梯,踏上垫脚石上的楼梯,并利用各种动态步态在缝隙上。
translated by 谷歌翻译
Despite recent progress on trajectory planning of multiple robots and path planning of a single tethered robot, planning of multiple tethered robots to reach their individual targets without entanglements remains a challenging problem. In this paper, we present a complete approach to address this problem. Firstly, we propose a multi-robot tether-aware representation of homotopy, using which we can efficiently evaluate the feasibility and safety of a potential path in terms of (1) the cable length required to reach a target following the path, and (2) the risk of entanglements with the cables of other robots. Then, the proposed representation is applied in a decentralized and online planning framework that includes a graph-based kinodynamic trajectory finder and an optimization-based trajectory refinement, to generate entanglement-free, collision-free and dynamically feasible trajectories. The efficiency of the proposed homotopy representation is compared against existing single and multiple tethered robot planning approaches. Simulations with up to 8 UAVs show the effectiveness of the approach in entanglement prevention and its real-time capabilities. Flight experiments using 3 tethered UAVs verify the practicality of the presented approach.
translated by 谷歌翻译
机械化新鲜市场水果的手工采伐构成了水果产业可持续性的最大挑战之一。在手动收获草莓和桌葡萄等新鲜市场作物时,拾取器花费大量的时间行走,将全托盘携带到领域边缘的收集站。增加对这种作物的收获自动化的一步是部署运输空和全托盘的收获辅助协作机器人(共用机器人),从而通过减少拾取器的非生产步行时间来增加收获效率。这项工作介绍了在商业草莓收获过程中开发合作机器收获援助系统及其评估。在系统的核心上,提示了一种预测随机调度算法,其最小化了预期的非拾取时间,从而最大化了收获效率。在评估实验期间,当机器人到拾取器的比例为1:3时,共同机器人将平均收获效率提高约10%并将平均非生产时间减少60%。在这项工作中开发的概念可以应用于机器人收获艾滋病,用于其他手动收获的作物,这些作物涉及用于行走的作物运输。
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
在腿的运动中重新规划对于追踪所需的用户速度,在适应地形并拒绝外部干扰的同时至关重要。在这项工作中,我们提出并测试了实验中的实时非线性模型预测控制(NMPC),用于腿部机器人,以实现各种地形上的动态运动。我们引入了一种基于移动性的标准来定义NMPC成本,增强了二次机器人的运动,同时最大化腿部移动性并提高对地形特征的适应。我们的NMPC基于实时迭代方案,使我们能够以25美元的价格重新计划在线,\ Mathrm {Hz} $ 2 $ 2 $ 2美元的预测地平线。我们使用在质量框架中心中定义的单个刚体动态模型,以提高计算效率。在仿真中,测试NMPC以横穿一组不同尺寸的托盘,走进V形烟囱,并在崎岖的地形上招揽。在真实实验中,我们展示了我们的NMPC与移动功能的有效性,使IIT为87美元\,\ Mathrm {kg} $四分之一的机器人HIQ,以实现平坦地形上的全方位步行,横穿静态托盘,并适应在散步期间重新定位托盘。
translated by 谷歌翻译
3D垃圾箱包装问题(3D-BPP)是行业中需求最高但最具挑战性的问题之一,在该问题中,代理必须将序列交付的可变尺寸项目填充到有限的箱中,以最大程度地利用空间利用率。它代表了一个强烈的NP-硬化优化问题,因此迄今为止没有提供空间利用率高性能的解决方案。在本文中,我们提出了一个新的强化学习(RL)框架,用于改善性能的3D-BPP解决方案。首先,引入缓冲区以允许多项目操作选择。通过提高行动选择的自由度,可以得出一项更复杂的政策,从而导致更好的包装绩效。其次,我们提出了一种不可知的数据增强策略,该策略利用了两个bin项目对称性以提高样品效率。第三,我们实施了一种基于模型的RL方法,该方法改编自流行的算法Alphago,该算法在零和游戏中显示了超人性能。我们的适应能够在单人游戏和基于分数的环境中工作。尽管已知Alphago版本在计算上很重,但我们还是设法用单个线程和GPU训练所提出的框架,同时获得了胜过最先进的解决方案,从而导致空间利用率。
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
在本文中,我们为LIMM介绍了一个运动计划者,该计划者是一个模块化的多模式包装输送平台。单个limms单元是一个机器人,它可以作为手臂或腿部操作,具体取决于它的附加方式和内容,例如,当操纵器固定在送货车内的墙壁上时,或将4个附加在盒子附加到盒子的墙壁上时。当每个限制的角色都可以扮演截然不同的角色时,在多个lim上进行协调,很快就会变得复杂。对于这样一个计划问题,我们首先构成了必要的逻辑和约束。然后,该公式将用于技能探索,并可以在精炼后在硬件上实现。为了解决此优化问题,我们使用乘数的交替方向方法(ADMM)。在各种情况下,对拟议的规划师进行了实验,该计划显示了LIMMS进入不同模式或组合的能力,以实现其移动运输箱的目标。
translated by 谷歌翻译
\ textit {约束路径发现}的经典问题是一个经过充分研究但充满挑战的主题,在各个领域,例如沟通和运输等各个领域的应用。权重限制了最短路径问题(WCSPP),作为仅具有一个侧面约束的约束路径查找的基本形式,旨在计划成本最佳路径,其权重/资源使用受到限制。鉴于问题的双标准性质(即处理路径的成本和权重),解决WCSPP的方法具有一些带有双目标搜索的共同属性。本文在约束路径查找和双目标搜索中利用了最新的基于A*的最新技术,并为WCSPP提供了两种精确的解决方案方法,两者都可以在非常大的图表上解决硬性问题实例。我们从经验上评估了算法在新的大型和现实的问题实例上的性能,并在时空指标中显示出它们比最新算法的优势。本文还调查了优先级队列在被a*的约束搜索中的重要性。我们通过对逼真的和随机图进行了广泛的实验来展示,基于桶的队列没有打破打盘的方式可以有效地改善详尽的双标准搜索的算法性能。
translated by 谷歌翻译
本文介绍了适用于各种实用多机器人应用的分布式算法。在这种多机器人应用中,使命的用户定义目标可以作为一般优化问题投射,而无需每个不同机器人的子任务的明确指南。由于环境未知,未知的机器人动态,传感器非线性等,优化成本函数的分析形式不可用。因此,标准梯度 - 下降样算法不适用于这些问题。为了解决这个问题,我们介绍了一种新的算法,仔细设计每个机器人的子变速功能,优化可以实现整个团队目标。在该转换时,我们提出了一种基于基于认知的自适应优化(CAO)算法的分布式方法,其能够近似每个机器人成本函数的演变并充分优化其决策变量(机器人动作)。后者可以通过在线学习来实现影响特派团目标的特定特定特征。总体而言,低复杂性算法可以简单地结合任何类型的操作约束,是容错的,并且可以适当地解决时变的成本函数。这种方法的基石是它与块坐标血管下降算法相同的收敛特征。该算法在多种方案下的三个异构模拟设置中评估,针对通用和特定于问题的算法。源代码可在\ url {https://github.com/athakapo/a-distributed-plug-lobot-applications}中获得。
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译
本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射,本地化,规划和控制的策略,并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后,人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径,后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时,机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知,这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。
translated by 谷歌翻译