智能论文笔记

Robust Reinforcement Learning Algorithm for Vision-based Ship Landing of UAVs

Vishnu Saj , Bochan Lee , Dileep Kalathil , Moble Benedict

分类：机器人

2022-09-17

本文解决了开发一种用于垂直起飞和降落（VTOL）无人驾驶飞机（UAV）自动船舶登陆算法的问题，仅使用无人机中的单眼相机进行跟踪和本地化。船舶着陆是一项具有挑战性的任务，这是由于较小的着陆空间，六个自由度船甲板运动，定位的视觉参考有限以及诸如风阵等的对抗环境条件。我们首先开发了一种计算机视觉算法，该算法估计了使用无人机上的单眼视觉摄像头的图像流在着陆平台上在降落平台上的地平线参考栏的相对位置。我们的方法是由实际的船舶着陆程序动机，然后是海军直升机飞行员在跟踪视觉提示的地平线参考栏时的动机。然后，我们开发了一种强大的增强学习（RL）算法，即使在存在诸如风阵的对抗环境条件的情况下，也可以控制无人机朝着着陆平台。我们证明了与基准非线性PID控制方法相比，我们的算法的性能优越自由（DOF）甲板运动。

translated by 谷歌翻译

Intelligent Vision-based Autonomous Ship Landing of VTOL UAVs

Bochan Lee , Vishnu Saj , Moble Benedict , Dileep Kalathil

分类：机器人

2022-02-25

该论文讨论了一种基于智能视觉的控制解决方案，用于自主跟踪和降落垂直起飞和降落（VTOL）在船上具有无人驾驶飞机（UAV）的无人使用，而无需使用GPS信号。中心想法涉及自动化海军直升机船着陆程序，该程序将飞行员利用该船作为远程跟踪的视觉参考；但是，是指大多数称为“地平线棒”的海军船上安装的标准化视觉提示，以进行最终进近和着陆阶段。该想法是使用与机器视觉集成的独特设计的非线性控制器实现的。视觉系统利用基于机器学习的对象检测来进行远程船舶跟踪和经典的计算机视觉，以在最终进近和着陆阶段使用地平线估算飞机相对位置和方向。非线性控制器根据视觉系统估计的信息运行，即使在存在不确定性的情况下，也证明了强大的跟踪性能。开发的自动船舶着陆系统是在配备了板载摄像头的四轮摩托车无人机上实施的，在移动的甲板上成功证明了进近和着陆，该甲板模仿了现实的船甲板运动。进行了广泛的模拟和飞行测试，以证明垂直着陆安全性，跟踪能力和着陆精度。

translated by 谷歌翻译

Data-Efficient Deep Reinforcement Learning for Attitude Control of Fixed-Wing UAVs: Field Experiments

Eivind Bøhn , Erlend M. Coates , Dirk Reinhardt , Tor Arne Johansen

分类：机器学习 | 机器人

2021-11-07

由于非线性动力学，执行器约束和耦合的纵向和横向运动，部分地，固定翼无人驾驶飞行器（无人机）的姿态控制是一个困难的控制问题。目前的最先进的自动驾驶仪基于线性控制，因此有限于其有效性和性能。深度加强学习（DRL）是一种通过与受控系统的交互自动发现最佳控制法的机器学习方法，可以处理复杂的非线性动态。我们在本文中展示DRL可以成功学习直接在原始非线性动态上运行的固定翼UAV的态度控制，需要短至三分钟的飞行数据。我们最初在仿真环境中培训我们的模型，然后在飞行测试中部署无人机的学习控制器，向最先进的ArduplaneProportional-Integry-artivation（PID）姿态控制器的表现展示了可比的性能，而无需进一步的在线学习。为了更好地理解学习控制器的操作，我们呈现了对其行为的分析，包括与现有良好调整的PID控制器的比较。

translated by 谷歌翻译

Robust Deep Reinforcement Learning for Quadcopter Control

Aditya M. Deshpande , Ali A. Minai , Manish Kumar

分类：机器人 | 人工智能 | 机器学习

2021-11-06

深度加强学习（RL）使得可以使用神经网络作为功能近似器来解决复杂的机器人问题。然而，在从一个环境转移到另一个环境时，在普通环境中培训的政策在泛化方面受到影响。在这项工作中，我们使用强大的马尔可夫决策过程（RMDP）来训练无人机控制策略，这将思想与强大的控制和RL相结合。它选择了悲观优化，以处理从一个环境到另一个环境的策略转移之间的潜在间隙。训练有素的控制策略是关于四转位位置控制的任务。 RL代理商在Mujoco模拟器中培训。在测试期间，使用不同的环境参数（培训期间看不见）来验证训练策略的稳健性，以从一个环境转移到另一个环境。强大的政策在这些环境中表现出标准代理，表明增加的鲁棒性增加了一般性，并且可以适应非静止环境。代码：https://github.com/adipandas/gym_multirotor

translated by 谷歌翻译

Inclined Quadrotor Landing using Deep Reinforcement Learning

Jacob E. Kooi , Robert Babuška

分类：机器人 | 机器学习

2021-03-16

将四型人降落在倾斜的表面上是一个具有挑战性的动作。任何倾斜着陆轨迹的最终状态都不是平衡，这排除了大多数常规控制方法的使用。我们提出了一种深入的强化学习方法，以设计倾斜表面的自动着陆控制器。使用具有稀疏奖励和量身定制的课程学习方法的近端政策优化（PPO）算法，可以在不到90分钟的标准笔记本电脑上培训倾斜的着陆政策。然后，该政策直接采用真正的Crazyflie 2.1四型四面管，并成功地在飞行舞台上执行了真正的倾向着陆。单个策略评估大约需要2.5 \，MS，这使其适用于四型在四面体上的未来嵌入式实现。

translated by 谷歌翻译

Visual Servoing Approach for Autonomous UAV Landing on a Moving Vehicle

Azarakhsh Keipour , Guilherme A. S. Pereira , Rogerio Bonatti , Rohit Garg , Puru Rastogi , Geetesh Dubey , Sebastian Scherer

分类：机器人

2021-04-02

Many aerial robotic applications require the ability to land on moving platforms, such as delivery trucks and marine research boats. We present a method to autonomously land an Unmanned Aerial Vehicle on a moving vehicle. A visual servoing controller approaches the ground vehicle using velocity commands calculated directly in image space. The control laws generate velocity commands in all three dimensions, eliminating the need for a separate height controller. The method has shown the ability to approach and land on the moving deck in simulation, indoor and outdoor environments, and compared to the other available methods, it has provided the fastest landing approach. Unlike many existing methods for landing on fast-moving platforms, this method does not rely on additional external setups, such as RTK, motion capture system, ground station, offboard processing, or communication with the vehicle, and it requires only the minimal set of hardware and localization sensors. The videos and source codes are also provided.

translated by 谷歌翻译

Retro-RL: Reinforcing Nominal Controller With Deep Reinforcement Learning for Tilting-Rotor Drones

I Made Aswin Nahrendra , Christian Tirtawardhana , Byeongho Yu , Eungchang Mason Lee , Hyun Myung

分类：机器人

2022-07-07

将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近，在许多研究中，对机器人控制以完成复杂的任务进行了深入的强化学习（RL）算法。不幸的是，由于难以解释博学的政策和缺乏稳定保证，尤其是对于诸如攀岩无人机之类的复杂任务，因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构，该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性，同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训，以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能，然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。

translated by 谷歌翻译

Using Simulation Optimization to Improve Zero-shot Policy Transfer of Quadrotors

Sven Gronauer , Matthias Kissel , Luca Sacchetto , Mathias Korte , Klaus Diepold

分类：机器人 | 人工智能

2022-01-04

在这项工作中，我们表明，可以在模拟中完全使用加强学习进行培训低级控制策略，然后，在Quadrotor机器人上部署它们而不使用真实数据进行微调。为了渲染零拍策略转移可行，我们应用模拟优化以缩小现实差距。我们的神经网络的策略仅使用车载数据，并完全在嵌入式无人机硬件上运行。在广泛的真实实验中，我们比较三种不同的控制结构，范围从低级脉冲宽度调制的电机命令到基于嵌套比例 - 积分衍生物控制器的高级姿态控制。我们的实验表明，利用加固学习培训的低级控制器需要比更高级别的控制策略更准确的模拟。

translated by 谷歌翻译

The MRS UAV System: Pushing the Frontiers of Reproducible Research, Real-world Deployment, and Education with Autonomous Unmanned Aerial Vehicles

Tomas Baca , Matej Petrlik , Matous Vrba , Vojtech Spurny , Robert Penicka , Daniel Hert , Martin Saska

分类：机器人

2020-08-18

我们提出了通过现实的模拟和现实世界实验来支持可复制研究的多运动无人机控制（UAV）和估计系统。我们提出了一个独特的多帧本地化范式，用于同时使用多个传感器同时估算各种参考框架中的无人机状态。该系统可以在GNSS和GNSS贬低的环境中进行复杂的任务，包括室外室内过渡和执行冗余估计器，以备份不可靠的本地化源。提出了两种反馈控制设计：一个用于精确和激进的操作，另一个用于稳定和平稳的飞行，并进行嘈杂的状态估计。拟议的控制和估计管道是在3D中使用Euler/Tait-Bryan角度表示的，而无需使用Euler/Tait-Bryan角度表示。取而代之的是，我们依靠旋转矩阵和一个新颖的基于标题的惯例来代表标准多电流直升机3D中的一个自由旋转自由度。我们提供了积极维护且有据可查的开源实现，包括对无人机，传感器和本地化系统的现实模拟。拟议的系统是多年应用系统，空中群，空中操纵，运动计划和遥感的多年研究产物。我们所有的结果都得到了现实世界中的部署的支持，该系统部署将系统塑造成此处介绍的表单。此外，该系统是在我们团队从布拉格的CTU参与期间使用的，该系统在享有声望的MBZIRC 2017和2020 Robotics竞赛中，还参加了DARPA SubT挑战赛。每次，我们的团队都能在世界各地最好的竞争对手中获得最高位置。在每种情况下，挑战都促使团队改善系统，并在紧迫的期限内获得大量高质量的体验。

translated by 谷歌翻译

Autonomous Unmanned Aerial Vehicle Navigation using Reinforcement Learning: A Systematic Review

Fadi AlMahamid , Katarina Grolinger

分类：机器人 | 人工智能

2022-08-25

在包装交付，交通监控，搜索和救援操作以及军事战斗订婚等不同应用中，对使用无人驾驶汽车（UAV）（无人机）的需求越来越不断增加。在所有这些应用程序中，无人机用于自动导航环境 - 没有人类互动，执行特定任务并避免障碍。自主无人机导航通常是使用强化学习（RL）来完成的，在该学习中，代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此，本研究首先确定了无人机导航任务，并讨论导航框架和仿真软件。接下来，根据环境，算法特征，能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论，这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外，确定的差距和机会将推动无人机导航研究。

translated by 谷歌翻译

Policy Search for Model Predictive Control with Application to Agile Drone Flight

Yunlong Song , Davide Scaramuzza

分类：机器人 | 人工智能

2021-12-07

策略搜索和模型预测控制〜（MPC）是机器人控制的两个不同范式：策略搜索具有使用经验丰富的数据自动学习复杂策略的强度，而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中，我们通过使用策略搜索自动选择MPC的高级决策变量提供答案，这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地，我们将MPC作为参数化控制器配制，其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架：通过快速的盖茨飞行四轮车。实验表明，我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。

translated by 谷歌翻译

Deep Reinforcement Learning for Autonomous Driving: A Survey

B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab , Senthil Yogamani , Patrick Pérez

分类：

2020-02-02

With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.

translated by 谷歌翻译

Landing a UAV in Harsh Winds and Turbulent Open Waters

Parakh M. Gupta , Eric Pairet , Tiago Nascimento , Martin Saska

分类：机器人

2022-12-31

Landing an unmanned aerial vehicle unmanned aerial vehicle (UAV) on top of an unmanned surface vehicle (USV) in harsh open waters is a challenging problem, owing to forces that can damage the UAV due to a severe roll and/or pitch angle of the USV during touchdown. To tackle this, we propose a novel model predictive control (MPC) approach enabling a UAV to land autonomously on a USV in these harsh conditions. The MPC employs a novel objective function and an online decomposition of the oscillatory motion of the vessel to predict, attempt, and accomplish the landing during near-zero tilt of the landing platform. The nonlinear prediction of the motion of the vessel is performed using visual data from an onboard camera. Therefore, the system does not require any communication with the USV or a control station. The proposed method was analyzed in numerous robotics simulations in harsh and extreme conditions and further validated in various real-world scenarios.

translated by 谷歌翻译

A Zero-Shot Adaptive Quadcopter Controller

Dingqi Zhang , Antonio Loquercio , Xiangyu Wu , Ashish Kumar , Jitendra Malik , Mark W. Mueller

分类：机器人 | 人工智能

2022-09-19

本文提出了针对四方的通用自适应控制器，可以将其部署为零射击到具有截然不同的质量，手臂长度和运动常数的四轮驱动器，并且还显示出对运行时未知干扰的快速适应。核心算法的想法是学习一个单一的策略，该策略不仅可以在测试时间在线适应无人机的干扰，还可以在同一框架中适用于机器人动力学和硬件。我们通过训练神经网络来估计机器人和环境参数的潜在表示，该参数用于调节控制器的行为，也表示为神经网络。我们专门训练两个网络进行模拟，目的是将四轮驱动器飞往目标位置并避免撞击地面。我们直接在模拟中训练了相同的控制器，而没有对两个四肢旋转器进行任何修改，其中质量，惯性差异差异，最大电动机速度最大为4次。此外，我们显示了四肢和惯性的突然和大型干扰（最高35.7％）的快速适应。我们在模拟和物理世界中进行了广泛的评估，在该评估中，我们的表现优于最先进的基于学习的自适应控制器和专门针对每个平台的传统PID控制器。视频结果可以在https://dz298.github.io/universal-drone-controller/上找到。

translated by 谷歌翻译

Learning Variable Impedance Control for Aerial Sliding on Uneven Heterogeneous Surfaces by Proprioceptive and Tactile Sensing

Weixuan Zhang , Lionel Ott , Marco Tognon , Roland Siegwart

分类：机器人 | 机器学习

2022-06-28

能够与环境进行物理相互作用的新型航空车的最新发展导致了新的应用，例如基于接触的检查。这些任务要求机器人系统将力与部分知名的环境交换，这可能包含不确定性，包括未知的空间变化摩擦特性和表面几何形状的不连续变化。找到对这些环境不确定性的强大控制策略仍然是一个公开挑战。本文提出了一种基于学习的自适应控制策略，用于航空滑动任务。特别是，基于当前控制信号，本体感受测量和触觉感应的策略，实时调整了标准阻抗控制器的收益。在学生教师学习设置中，该策略通过简化执行器动力进行了模拟培训。使用倾斜臂全向飞行器验证了所提出方法的现实性能。所提出的控制器结构结合了数据驱动和基于模型的控制方法，使我们的方法能够直接转移并不从模拟转移到真实平台。与微调状态的相互作用控制方法相比，我们达到了减少的跟踪误差和改善的干扰排斥反应。

translated by 谷歌翻译

Autonomous Aerial Robot for High-Speed Search and Intercept Applications

Alejandro Rodriguez-Ramos , Adrian Alvarez-Fernandez Hriday Bavle , Javier Rodriguez-Vazquez , Liang Lu Miguel Fernandez-Cortizas , Ramon A. Suarez Fernandez , Alberto Rodelgo , Carlos Santos , Martin Molina , Luis Merino , Fernando Caballero

分类：机器人 | 人工智能

2021-12-10

近年来，空中机器人背景下的高速导航和环境互动已成为几个学术和工业研究研究的兴趣领域。特别是，由于其若干环境中的潜在可用性，因此搜索和拦截（SAI）应用程序造成引人注目的研究区域。尽管如此，SAI任务涉及有关感官权重，板载计算资源，致动设计和感知和控制算法的具有挑战性的发展。在这项工作中，已经提出了一种用于高速对象抓握的全自动空中机器人。作为一个额外的子任务，我们的系统能够自主地刺穿位于靠近表面的杆中的气球。我们的第一款贡献是在致动和感觉水平的致动和感觉水平的空中机器人的设计，包括具有额外传感器的新型夹具设计，使机器人能够高速抓住物体。第二种贡献是一种完整的软件框架，包括感知，状态估计，运动计划，运动控制和任务控制，以便快速且强大地执行自主掌握任务。我们的方法已在一个具有挑战性的国际竞争中验证，并显示出突出的结果，能够在室外环境中以6米/分来自动搜索，遵循和掌握移动物体

translated by 谷歌翻译

Autonomous Cooperative Multi-Vehicle System for Interception of Aerial and Stationary Targets in Unknown Environments

Lima Agnel Tony , Shuvrangshu Jana , Varun V. P. , Aashay Anil Bhise , Aruul Mozhi Varman S. , Vidyadhara B. V. , Mohitvishnu S. Gadde , Raghu Krishnapuram , Debasish Ghose

分类：机器人

2021-09-01

本文介绍了设计，开发，并通过IISC-TCS团队为穆罕默德·本·扎耶德国际机器人挑战赛2020年挑战1的目标的挑战1硬件 - 软件系统的测试是抓住从移动和机动悬挂球UAV和POP气球锚定到地面，使用合适的操纵器。解决这一挑战的重要任务包括具有高效抓取和突破机制的硬件系统的设计和开发，考虑到体积和有效载荷的限制，使用适用于室外环境的可视信息的准确目标拦截算法和开发动态多功能机空中系统的软件架构，执行复杂的动态任务。在本文中，设计了具有末端执行器的单个自由度机械手设计用于抓取和突发，并且开发了鲁棒算法以拦截在不确定的环境中的目标。基于追求参与和人工潜在功能的概念提出了基于视觉的指导和跟踪法。本工作中提供的软件架构提出了一种操作管理系统（OMS）架构，其在多个无人机之间协同分配静态和动态任务，以执行任何给定的任务。这项工作的一个重要方面是所有开发的系统都设计用于完全自主模式。在这项工作中还包括对凉亭环境和现场实验结果中完全挑战的模拟的详细描述。所提出的硬件软件系统对反UAV系统特别有用，也可以修改以满足其他几种应用。

translated by 谷歌翻译

Learning Control Policies for Fall prevention and safety in bipedal locomotion

Visak Kumar

分类：机器人 | 人工智能

2022-01-04

从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力，而且在平衡恢复物质不可行时，也可以保证安全的方式。对于与双式运动有关的机器人，例如人形机器人和辅助机器人设备，可帮助人类行走，设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务，因为它涉及用触点产生高维，非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面，但诸如广泛领域知识的要求，诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中，为了解决这些问题，我们开发基于学习的算法，能够为两种不同的机器人合成推送恢复控制政策：人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示：1）学习人形机器人的安全下降和预防策略，2）使用机器人辅助装置学习人类的预防策略。为实现这一目标，我们介绍了一套深度加强学习（DRL）算法，以学习使用这些机器人时提高安全性的控制策略。

translated by 谷歌翻译

AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning

Wangyang Yue , Yuan Zhou , Xiaochuan Zhang , Yuchen Hua , Zhiyuan Wang , Guang Kou

分类：机器学习 | (统计)机器学习

2022-08-03

强化学习（RL）技术在许多具有挑战性的任务中引起了极大的关注，但是当应用于现实世界问题时，它们的性能急剧恶化。已经提出了各种方法，例如域随机化，以通过不同的环境设置下的培训代理来应对这种情况，因此在部署过程中可以将它们推广到不同的环境。但是，它们通常不包含与代理人正确相互作用的潜在环境因素信息，因此在面对周围环境变化时可能会过于保守。在本文中，我们首先将适应RL中的环境动态的任务形式化为使用上下文Markov决策过程（CMDP）的概括问题。然后，我们在上下文RL（AACC）中提出了不对称的参与者 - 作为处理此类概括任务的端到端参与者的方法。我们在一系列模拟环境中证明了AACC对现有基线的性能的基本改进。

translated by 谷歌翻译

Quadrotor Autonomous Landing on Moving Platform

Pengyu Wang , Chaoqun Wang , Jiankun Wang , Max Q. -H. Meng

分类：机器人

2022-08-10

本文在移动平台上介绍了四摩托车的自动起飞和着陆系统。设计的系统解决了三个具有挑战性的问题：快速姿势估计，受限的外部定位和有效避免障碍物。具体而言，首先，我们基于Aruco标记设计了着陆识别和定位系统，以帮助四极管快速计算相对姿势。其次，我们利用基于梯度的本地运动计划者快速生成无冲突的参考轨迹；第三，我们构建了一台自主状态机器，使四极管能够完全自治完成其起飞，跟踪和着陆任务；最后，我们在模拟，现实世界和室外环境中进行实验，以验证系统的有效性并证明其潜力。

translated by 谷歌翻译