动态系统参见在物理,生物学,化学等自然科学中广泛使用,以及电路分析,计算流体动力学和控制等工程学科。对于简单的系统,可以通过应用基本物理法来导出管理动态的微分方程。然而,对于更复杂的系统,这种方法变得非常困难。数据驱动建模是一种替代范式,可以使用真实系统的观察来了解系统的动态的近似值。近年来,对数据驱动的建模技术的兴趣增加,特别是神经网络已被证明提供了解决广泛任务的有效框架。本文提供了使用神经网络构建动态系统模型的不同方式的调查。除了基础概述外,我们还审查了相关的文献,概述了这些建模范式必须克服的数值模拟中最重要的挑战。根据审查的文献和确定的挑战,我们提供了关于有前途的研究领域的讨论。
translated by 谷歌翻译
我们仔细比较了两种无模型控制算法,演进策略和近端政策优化(PPO),具有后退地平线模型预测控制(MPC),用于操作模拟,价格响应式热水器。考虑了四个MPC变体:单次控制器,具有完美预测产生最佳控制;一个有限的地平控制器,具有完美预测;基于平均的预测控制器;使用历史情景,一个两阶段随机编程控制器。在所有情况下,水温和电价的MPC模型精确;只有水需求不确定。为了比较,ES和PPO通过在MPC使用的相同场景下直接与模拟环境直接交互来学习基于神经网络的策略。然后在需求时间序列的单独一周继续的单独一周内进行评估所有方法。我们证明了对这个问题的最佳控制是具有挑战性的,需要超过8小时的MPC寻找,具有完美预测来获得最低成本。尽管存在这一挑战,但ES和PPO都学会了在平均成本方面优于平均预测和两级随机MPC控制器的良好通用政策,并且在计算动作时速度越来越多的数量级。我们表明ES尤其可以利用并行性,使用1150 CPU核心在90秒内学习策略。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
本文旨在讨论和分析控制设计应用中经常性神经网络(RNN)的潜力。考虑RNN的主要系列,即神经非线性自回归外源,(NNARX),回波状态网络(ESN),长短短期存储器(LSTM)和门控复发单元(GRU)。目标是双重。首先,为了调查近期RNN培训的结果,可以享受输入到状态稳定性(ISS)和增量输入到状态稳定性({\ delta} ISS)保证。其次,讨论仍然阻碍RNN进行控制的问题,即它们的鲁棒性,核算和解释性。前者属性与网络的所谓概括能力有关,即即使在视野或扰动的输入轨迹存在下,它们与底层真实植物的一致性。后者与在RNN模型和植物之间提供明确的正式连接的可能性有关。在这种情况下,我们说明了Iss和{\ delta} ISS如何朝着RNN模型的稳健性和可验证代表重大步骤,而可解释性的要求铺平了基于物理的网络的使用方式。还简要讨论了植物模型的模型预测控制器的设计。最后,在模拟化学体系上说明了本文的一些主要话题。
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
在本文中,我们提出了一种新的端到端方法,以优化能量性能以及大型建筑物的舒适性和空气质量,而无需任何装修工作。我们介绍了基于经常性神经网络的元模型,并训练了使用从模拟程序采样的数据库预测一般大类建筑物的行为。然后将该元模型部署在不同的框架中,并且使用两个真实建筑的特定数据校准其参数。通过使用CMA-ES算法比较从传感器获得的真实数据的比较来估计参数,通过使用CMA-ES算法,衍生免费优化过程。然后,使用NSGA-II多目标优化过程保持目标热舒适度和空气质量的同时优化能量消耗。数值实验说明了该元模型如何确保能效显着增益,高达近10%,同时计算比数值模型更具吸引力,并且足够灵活地适应若干类型的建筑物。
translated by 谷歌翻译
深度加强学习(RL)是一种优化驱动的框架,用于生产一般动力系统的控制策略,而无明确依赖过程模型。仿真报告了良好的结果。在这里,我们展示了在真实物理系统上实现了艺术深度RL算法状态的挑战。方面包括软件与现有硬件之间的相互作用;实验设计和样品效率;培训受输入限制;和算法和控制法的解释性。在我们的方法中,我们的方法是使用PID控制器作为培训RL策略。除了简单性之外,这种方法还具有多种吸引力功能:无需将额外的硬件添加到控制系统中,因为PID控制器可以通过标准可编程逻辑控制器轻松实现;控制法可以在参数空间的“安全”区域中很容易初始化;最终产品 - 一个调整良好的PID控制器 - 有一种形式,从业者可以充分推理和部署。
translated by 谷歌翻译
检测,预测和减轻交通拥堵是针对改善运输网络的服务水平的目标。随着对更高分辨率的更大数据集的访问,深度学习对这种任务的相关性正在增加。近年来几篇综合调查论文总结了运输领域的深度学习应用。然而,运输网络的系统动态在非拥挤状态和拥塞状态之间变化大大变化 - 从而需要清楚地了解对拥堵预测特异性特异性的挑战。在这项调查中,我们在与检测,预测和缓解拥堵相关的任务中,介绍了深度学习应用的当前状态。重复和非经常性充血是单独讨论的。我们的调查导致我们揭示了当前研究状态的固有挑战和差距。最后,我们向未来的研究方向提出了一些建议,因为所确定的挑战的答案。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
我们考虑在严重数据稀缺下具有异质代理的离线强化学习(RL),即,我们只观察一个未知潜在的次优政策下的每个代理的单一历史轨迹。我们发现,即使对于常见的“解决”基准设置(如“Makescar”和“Cartpole”),我们发现最先进的离线和基于模型的RL方法的性能显着降低了显着的数据可用性。为了解决这一挑战,我们提出了一种基于模型的离线RL方法,该方法首先通过在学习政策之前共同使用所有代理商的历史轨迹来学习每个代理的个性化模拟器。我们这样做是这样做的,指出代理商的过渡动态可以表示为与代理商,州和行动相关的潜在因子的潜在函数;随后,理论上,理论上建立了这种函数通过可分离代理,状态和动作潜在函数的“低级”分解良好地近似。此表示表明,一个简单的正则化的神经网络架构,以有效地学习每个代理的过渡动态,即使具有稀缺,离线数据。我们在多个基准环境和RL方法中执行大量实验。我们的方法的一致性提高,在国家动态预测和最终奖励方面衡量,确认了我们框架在利用有限的历史数据方面的效力,以同时学习跨代理商的个性化政策。
translated by 谷歌翻译
在这项工作中,我们提出了一种基于物理信息引导元进化策略(ES)的新型数据驱动的实时电力系统电压控制方法。主要目标是快速提供自适应控制策略来减轻故障引起的延迟电压恢复(FIDVR)问题。已经为相同或类似的具有挑战性的控制问题制定了强化学习方法,但它们遭受培训效率低下,“角落或看不见”情景缺乏鲁棒性。另一方面,在电力系统中开发了广泛的物理知识,但基于学习的方法很少有利于。为了解决这些挑战,我们介绍了可训练的动作掩模技术,以灵活地将物理知识嵌入到RL模型中,以排除不必要或不利的行动,并达到样本效率,控制性能和鲁棒性的显着改善。此外,我们的方法利用过去学习体验来导出代理梯度,以指导和加速培训勘探过程。与其他最先进的基准方法的IEEE 300座系统和比较案例研究表明了我们方法的有效性和优势。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
我们专注于开发Quadrupedal机器人节能控制器的问题。动物可以以不同的速度积极切换Gaits以降低其能量消耗。在本文中,我们设计了一个分层学习框架,其中独特的运动遗传仪和自然步态过渡自动出现,其能量最小化的简单奖励。我们使用进化策略来培训一个高级步态政策,指定每只脚的步态图案,而低级凸MPC控制器优化电机命令,以便机器人可以使用该步态图案以所需的速度行走。我们在四足机器人上测试我们的学习框架,并展示了自动步态过渡,从步行到小跑和飞行,因为机器人增加了速度。我们表明学习的等级控制器在广泛的运动速度范围内消耗的能量要少于基线控制器。
translated by 谷歌翻译
模型预测控制(MPC)越来越多地考虑控制快速系统和嵌入式应用。然而,MPC对这种系统具有一些重大挑战。其高计算复杂性导致来自控制算法的高功耗,这可能考虑电池供电嵌入式系统中的能量资源的大量份额。必须调整MPC参数,这主要是一个试验和错误过程,这些过程会影响控制器的控制性能,鲁棒性和计算复杂度高度。在本文中,我们提出了一种新颖的框架,其中可以使用加强学习(RL)共同调整控制算法的任何参数,其目的是同时优化控制算法的控制性能和功率使用。我们提出了优化MPCWith RL的元参数的新颖思想,即影响MPCPROBLAB的结构的参数,而不是给定个问题的解决方案。我们的控制算法基于事件触发的MPC,在那里我们学习当应该重新计算MPC时,以及在MPC计算之间应用的双模MPC和线性状态反馈控制法。我们制定了一种新的混合分配政策,并表明,随着联合优化,我们在孤立地优化相同参数时,无法呈现自己的改进。我们展示了我们对倒立摆控制任务的框架,将控制系统的总计算时间减少了36%,同时还通过最佳性能的MPC基线提高了18.4%的控制性能。
translated by 谷歌翻译
通用非线性系统的最优控制是自动化中的中央挑战。通过强大的函数近似器启用的数据驱动的控制方法,最近在处理具有挑战性的机器人应用方面取得了巨大成功。但是,这些方法通常会掩盖黑盒上过度参数化表示的动态和控制的结构,从而限制了我们理解闭环行为的能力。本文采用混合系统的非线性建模和控制的视图,对问题提供显式层次结构,并将复杂的动态分解为更简单的本地化单元。因此,我们考虑一个序列建模范式,它捕获数据的时间结构,并导出了一种具有非线性边界的随机分段仿射动态系统将非线性动力学自动分解的序列 - 最大化(EM)算法。此外,我们表明,这些时间序列模型自然地承认我们使用的闭环扩展,以通过模仿学习从非线性专家提取本地线性或多项式反馈控制器。最后,我们介绍了一种新的混合地位熵策略搜索(HB-reps)技术,其结合了混合系统的分层性质,并优化了从全局价值函数的局部多项式近似导出的一组时间不变的局部反馈控制器。
translated by 谷歌翻译
学习动态是机器学习(ML)的许多重要应用的核心,例如机器人和自主驾驶。在这些设置中,ML算法通常需要推理使用高维观察的物理系统,例如图像,而不访问底层状态。最近,已经提出了几种方法将从经典机制的前沿集成到ML模型中,以解决图像的物理推理的挑战。在这项工作中,我们清醒了这些模型的当前功能。为此,我们介绍一套由17个数据集组成的套件,该数据集基于具有呈现各种动态的物理系统的视觉观测。我们对几种强大的基线进行了彻底的和详细比较了物理启发方法的主要类别。虽然包含物理前沿的模型通常可以学习具有所需特性的潜在空间,但我们的结果表明这些方法无法显着提高标准技术。尽管如此,我们发现使用连续和时间可逆动力学的使用效益所有课程的模型。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
安全已成为对现实世界系统应用深度加固学习的主要挑战之一。目前,诸如人类监督等外部知识的纳入唯一可以防止代理人访问灾难性状态的手段。在本文中,我们提出了一种基于安全模型的强化学习的新框架MBHI,可确保状态级安全,可以有效地避免“本地”和“非本地”灾难。监督学习者的合并在MBHI培训,以模仿人类阻止决策。类似于人类决策过程,MBHI将在执行对环境的动作之前在动态模型中推出一个想象的轨迹,并估算其安全性。当想象力遇到灾难时,MBHI将阻止当前的动作并使用高效的MPC方法来输出安全策略。我们在几个安全任务中评估了我们的方法,结果表明,与基线相比,MBHI在样品效率和灾难数方面取得了更好的性能。
translated by 谷歌翻译
流行病学中的数学模型是一种不可或缺的工具,可以确定传染病的动态和重要特征。除了他们的科学价值之外,这些模型通常用于在正在进行的爆发期间提供政治决策和干预措施。然而,通过将复杂模型连接到真实数据来可靠地推断正在进行的爆发的动态仍然很难,并且需要费力的手动参数拟合或昂贵的优化方法,这些方法必须从划痕中重复给定模型的每个应用。在这项工作中,我们用专门的神经网络的流行病学建模的新组合来解决这个问题。我们的方法需要两个计算阶段:在初始训练阶段中,描述该流行病的数学模型被用作神经网络的教练,该主管是关于全球可能疾病动态的全球知识。在随后的推理阶段,训练有素的神经网络处理实际爆发的观察到的数据,并且揭示了模型的参数,以便实际地再现观察到的动态并可可靠地预测未来的进展。通过其灵活的框架,我们的仿真方法适用于各种流行病学模型。此外,由于我们的方法是完全贝叶斯的,它旨在纳入所有可用的关于合理参数值的先前知识,并返回这些参数上的完整关节后部分布。我们的方法在德国的早期Covid-19爆发阶段的应用表明,我们能够获得可靠的概率估计对重要疾病特征,例如生成时间,未检测到的感染部分,症状发作前的传播可能性,以及报告延迟非常适中的现实观测。
translated by 谷歌翻译
深度加强学习概括(RL)的研究旨在产生RL算法,其政策概括为在部署时间进行新的未经调整情况,避免对其培训环境的过度接受。如果我们要在现实世界的情景中部署强化学习算法,那么解决这一点至关重要,那么环境将多样化,动态和不可预测。该调查是这个新生领域的概述。我们为讨论不同的概括问题提供统一的形式主义和术语,在以前的作品上建立不同的概括问题。我们继续对现有的基准进行分类,以及用于解决泛化问题的当前方法。最后,我们提供了对现场当前状态的关键讨论,包括未来工作的建议。在其他结论之外,我们认为,采取纯粹的程序内容生成方法,基准设计不利于泛化的进展,我们建议快速在线适应和将RL特定问题解决作为未来泛化方法的一些领域,我们推荐在UniTexplorated问题设置中构建基准测试,例如离线RL泛化和奖励函数变化。
translated by 谷歌翻译