结肠镜检查的柔性内窥镜由于其固有的复杂性而产生了一些局限性,导致患者不适和缺乏临床医生的直觉。机器人设备和自主控制代表了一种可行的解决方案,以减少内镜医生的工作量和训练时间,同时改善整体程序结果。自主内窥镜控制的先前工作使用启发式政策,将其概括限制在非结构化和高度可变形的结肠环境中,需要频繁进行人类干预。这项工作提出了一种基于图像的内窥镜控制,使用深钢筋学习,称为深度视觉运动控制(DVC),以在结肠道的复杂部分中表现出适应性行为。 DVC学习内窥镜图像与内窥镜的控制信号之间的映射。对20位专家胃肠道内镜医生进行的首次用户研究是为了将其导航性能与使用现实的虚拟模拟器进行比较的DVC策略。结果表明,DVC在几个评估参数上显示出同等的性能,更安全。此外,与最先进的启发式控制政策相比,对20名新手参与者进行了第二次用户研究,以证明人类的监督更容易。对结肠镜检查程序的无缝监督将使干预主义者能够专注于医疗决策,而不是内窥镜的控制问题。
translated by 谷歌翻译
血管内操作中的自主机器人有可能安全可靠地浏览循环系统,同时降低对人体错误的敏感性。但是,训练机器人的过程涉及许多挑战,例如由于机器学习算法的效率低下而导致的长期培训持续时间以及导管与血管内幻影之间的相互作用引起的安全问题。物理模拟器已在血管内手术的背景下使用,但通常用于员工培训,通常不符合自主插管目标。此外,大多数当前的模拟器都是封闭消息,它阻碍了安全可靠的自主系统的协作开发。在这项工作中,我们介绍了Cathsim,Cathsim是一种开源模拟环境,可加快用于自主内血管内导航的机器学习算法的开发。我们首先使用最先进的血管内机器人模拟高保真导管和主动脉。然后,我们在模拟环境中提供了导管和主动脉之间实时力传感的能力。我们通过使用两种流行的强化学习算法,近端策略优化(PPO)和软参与者(SAC)在两个主要动脉内执行两个不同的导管插入任务来验证我们的模拟器。实验结果表明,使用我们的开源模拟器,我们可以成功训练增强型学习剂以执行不同的自主插管任务。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
将四型人降落在倾斜的表面上是一个具有挑战性的动作。任何倾斜着陆轨迹的最终状态都不是平衡,这排除了大多数常规控制方法的使用。我们提出了一种深入的强化学习方法,以设计倾斜表面的自动着陆控制器。使用具有稀疏奖励和量身定制的课程学习方法的近端政策优化(PPO)算法,可以在不到90分钟的标准笔记本电脑上培训倾斜的着陆政策。然后,该政策直接采用真正的Crazyflie 2.1四型四面管,并成功地在飞行舞台上执行了真正的倾向着陆。单个策略评估大约需要2.5 \,MS,这使其适用于四型在四面体上的未来嵌入式实现。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车(AV)至关重要。传统运动控制算法依赖于手动设计的决策政策,这些政策忽略了AV和行人之间的相互作用。另一方面,深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题,作者介绍了一个基于社会价值取向和深入强化学习(DRL)的框架,该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架,并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明,开发的模型如何表现出自然的驾驶行为,例如短暂的驾驶行为,以促进行人的穿越。
translated by 谷歌翻译
腔内器官内部的导航是一项艰巨的任务,需要在操作员的手的运动与从内窥镜视频获得的信息之间进行非直觉的协调。开发自动化某些任务的工具可以减轻干预期间医生的身体和精神负担,从而使他们专注于诊断和决策任务。在本文中,我们提出了一种用于腔内导航的协同解决方案,该解决方案由3D打印的内窥镜软机器人组成,该机器人可以在腔内结构内安全移动。基于卷积神经网络(CNN)的Visual Servoing用于完成自主导航任务。 CNN经过幻象和体内数据训练以分割管腔,并提出了一种无模型的方法来控制受约束环境中的运动。在不同的路径配置中,在解剖幻像中验证了所提出的机器人。我们使用不同的指标分析机器人的运动,例如任务完成时间,平滑度,稳态中的误差以及均值和最大误差。我们表明,我们的方法适合在空心环境和条件下安全导航,这些环境和条件与最初对网络训练的条件不同。
translated by 谷歌翻译
超声(US)成像通常用于协助诊断和脊柱疾病的干预,而通过手动操作探针进行标准化美国收购需要大量的经验和超声检查的培训。在这项工作中,我们提出了一种新的双代理框架,集成了强化学习(RL)代理和深度学习(DL)代理,以共同确定基于实时超声图像美国探测器的移动,以模拟专家超声检查操作者的决策过程,以实现脊柱超声自主标准视图收购。此外,通过美国传播的性质和脊柱解剖的特性的启发,我们引入一个视图特定的声影奖励利用阴影信息来隐式地引导朝向脊柱的不同标准视图探针的导航。我们的方法在从$ $ 17名志愿者获得的美国经济数据建立了一个模拟环境的定量和定性实验验证。平均导航精度朝向不同的标准视图达到$5.18毫米/ 5.25 ^ \ CIRC $ $和12.87毫米/ 17.49 ^ \ CIRC $在分子内和主体间设置,分别。结果表明,我们的方法可以有效地解释美国的图像和导航探头获取脊柱多种标准的意见。
translated by 谷歌翻译
Robot assistants are emerging as high-tech solutions to support people in everyday life. Following and assisting the user in the domestic environment requires flexible mobility to safely move in cluttered spaces. We introduce a new approach to person following for assistance and monitoring. Our methodology exploits an omnidirectional robotic platform to detach the computation of linear and angular velocities and navigate within the domestic environment without losing track of the assisted person. While linear velocities are managed by a conventional Dynamic Window Approach (DWA) local planner, we trained a Deep Reinforcement Learning (DRL) agent to predict optimized angular velocities commands and maintain the orientation of the robot towards the user. We evaluate our navigation system on a real omnidirectional platform in various indoor scenarios, demonstrating the competitive advantage of our solution compared to a standard differential steering following.
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
Development of navigation algorithms is essential for the successful deployment of robots in rapidly changing hazardous environments for which prior knowledge of configuration is often limited or unavailable. Use of traditional path-planning algorithms, which are based on localization and require detailed obstacle maps with goal locations, is not possible. In this regard, vision-based algorithms hold great promise, as visual information can be readily acquired by a robot's onboard sensors and provides a much richer source of information from which deep neural networks can extract complex patterns. Deep reinforcement learning has been used to achieve vision-based robot navigation. However, the efficacy of these algorithms in environments with dynamic obstacles and high variation in the configuration space has not been thoroughly investigated. In this paper, we employ a deep Dyna-Q learning algorithm for room evacuation and obstacle avoidance in partially observable environments based on low-resolution raw image data from an onboard camera. We explore the performance of a robotic agent in environments containing no obstacles, convex obstacles, and concave obstacles, both static and dynamic. Obstacles and the exit are initialized in random positions at the start of each episode of reinforcement learning. Overall, we show that our algorithm and training approach can generalize learning for collision-free evacuation of environments with complex obstacle configurations. It is evident that the agent can navigate to a goal location while avoiding multiple static and dynamic obstacles, and can escape from a concave obstacle while searching for and navigating to the exit.
translated by 谷歌翻译
这项工作调查了基于课程学习(CL)对代理商的绩效的影响。特别是,我们专注于机器人毛美导航的安全方面,比较标准端到端(E2E)培训策略。为此,我们提出了一种方法,即利用学习(tol)和微调在基于团结的模拟中的微调,以及Robotnik Kairos作为机器人代理。对于公平的比较,我们的评估考虑了对每个学习方法的同等计算需求(即,相同的相互作用和环境的难度数),并确认我们基于CL的方法使用TOL优于E2E方法。特别是,我们提高了培训的政策的平均成功率和安全,导致看不见的测试方案中的碰撞减少了10%。为了进一步确认这些结果,我们采用正式的验证工具来量化加强学习政策的正确行为数量超过所需规范。
translated by 谷歌翻译
深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功,因为激光器可以感觉到准确的深度信息而无需太多冗余数据,这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是,高成本激光设备不仅很难为大型机器人部署,而且还表现出对复杂障碍的鲁棒性,包括不规则的障碍,例如桌子,桌子,椅子和架子,以及复杂的地面和特殊材料。在本文中,我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是,我们创新地将捕获的RGB图像转换为伪激光测量,以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比,仅包含距离附近障碍的一维距离信息,我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息,这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块,以加重输入伪激光测量,并且代理对当前状态具有更合理的关注,这有利于提高障碍避免政策的准确性和效率。
translated by 谷歌翻译
数据驱动的模拟器承诺高数据效率进行驾驶策略学习。当用于建模相互作用时,这种数据效率变为瓶颈:小型基础数据集通常缺乏用于学习交互式驾驶的有趣和具有挑战性的边缘案例。我们通过提出使用绘制的ADO车辆学习强大的驾驶策略的仿真方法来解决这一挑战。因此,我们的方法可用于学习涉及多代理交互的策略,并允许通过最先进的策略学习方法进行培训。我们评估了驾驶中学习标准交互情景的方法。在广泛的实验中,我们的工作表明,由此产生的政策可以直接转移到全规模的自治车辆,而无需使用任何传统的SIM-to-Real传输技术,例如域随机化。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译
仿真最近已成为深度加强学习,以安全有效地从视觉和预防性投入获取一般和复杂的控制政策的关键。尽管它与环境互动直接关系,但通常认为触觉信息通常不会被认为。在这项工作中,我们展示了一套针对触觉机器人和加强学习量身定制的模拟环境。提供了一种简单且快速的模拟光学触觉传感器的方法,其中高分辨率接触几何形状表示为深度图像。近端策略优化(PPO)用于学习所有考虑任务的成功策略。数据驱动方法能够将实际触觉传感器的当前状态转换为对应的模拟深度图像。此策略在物理机器人上实时控制循环中实现,以演示零拍摄的SIM-TO-REAL策略转移,以触摸感的几个物理交互式任务。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译