使用深钢筋学习(DRL)开发了一种可以在一次尝试时生成最佳网格的网格生成方法。与传统方法不同,在该方法中,用户必须指定网格划分参数或从头开始对新给出的几何形状进行优化,开发的方法采用基于DRL的多条件(MC)优化来定义各种几何形状的网格划分参数。该方法涉及以下步骤:(1)开发用于结构化刀片段的基础算法;(2)制定MC优化问题,以优化开发基础算法时引入的网格划分参数;(3)通过使用DRL解决MC优化问题来开发基于DRL的网格生成算法。结果,开发的算法能够在各种叶片的单个试验中成功生成最佳网格。
translated by 谷歌翻译
Profile extrusion is a continuous production process for manufacturing plastic profiles from molten polymer. Especially interesting is the design of the die, through which the melt is pressed to attain the desired shape. However, due to an inhomogeneous velocity distribution at the die exit or residual stresses inside the extrudate, the final shape of the manufactured part often deviates from the desired one. To avoid these deviations, the shape of the die can be computationally optimized, which has already been investigated in the literature using classical optimization approaches. A new approach in the field of shape optimization is the utilization of Reinforcement Learning (RL) as a learning-based optimization algorithm. RL is based on trial-and-error interactions of an agent with an environment. For each action, the agent is rewarded and informed about the subsequent state of the environment. While not necessarily superior to classical, e.g., gradient-based or evolutionary, optimization algorithms for one single problem, RL techniques are expected to perform especially well when similar optimization tasks are repeated since the agent learns a more general strategy for generating optimal shapes instead of concentrating on just one single problem. In this work, we investigate this approach by applying it to two 2D test cases. The flow-channel geometry can be modified by the RL agent using so-called Free-Form Deformation, a method where the computational mesh is embedded into a transformation spline, which is then manipulated based on the control-point positions. In particular, we investigate the impact of utilizing different agents on the training progress and the potential of wall time saving by utilizing multiple environments during training.
translated by 谷歌翻译
网格生成的质量长期以来一直被认为是在有限元方法(FEM)的历史中提供具有可靠模拟结果的工程师的重要方面。在商业软件中使用了当前是最强大的方法的元素提取方法。但是,为了加速提取,通过找到优化目标函数的下一个元素来完成方法,这可能导致在许多时间步骤后的局部网格质量。我们提供TreeMESH,一种使用这种方法与强化学习(也可能有监督学习)和新颖的Monte-Carlo树搜索(MCT)(Coulom(2006),Kocsis和Szepesv \'Ari(2006),Browne et〜al。(2012))。该算法基于先前提出的方法(Pan Et〜Al。(2021))。在DRL(算法,状态 - 动作奖励设置)和添加MCT上进行了许多改进之后,它优于前者在同一边界上的工作。此外,使用树搜索,我们的程序在薄膜材料上揭示了种子密度变化的边界上的大量优势。
translated by 谷歌翻译
计算物理问题问题的有限元离散通常依赖于自适应网格细化(AMR)来优先解决模拟过程中包含重要特征的区域。但是,这些空间改进策略通常是启发式的,并且依靠特定领域的知识或反复试验。我们将自适应网状精炼的过程视为不完整的信息下的本地,顺序决策问题,将AMR作为部分可观察到的马尔可夫决策过程。使用深厚的增强学习方法,我们直接从数值模拟中训练政策网络为AMR策略训练。培训过程不需要精确的解决方案或手头部分微分方程的高保真地面真相,也不需要预先计算的培训数据集。我们强化学习公式的本地性质使政策网络可以廉价地培训比部署的问题要小得多。该方法不是特定于任何特定的部分微分方程,问题维度或数值离散化的特定,并且可以灵活地结合各种问题物理。为此,我们使用各种高阶不连续的Galerkin和杂交不连续的Galerkin有限元离散化,将方法应用于各种偏微分方程。我们表明,由此产生的深入强化学习政策与共同的AMR启发式方法具有竞争力,跨越问题类别概括,并在准确性和成本之间取得了有利的平衡,因此它们通常会导致每个问题自由度的准确性更高。
translated by 谷歌翻译
在这项工作中,我们优化了基于无人机(UAV)的便携式接入点(PAP)的3D轨迹,该轨迹为一组接地节点(GNS)提供无线服务。此外,根据Peukert效果,我们考虑无人机电池的实用非线性电池放电。因此,我们以一种新颖的方式提出问题,代表了基于公平的能源效率度量的最大化,并被称为公平能源效率(费用)。费用指标定义了一个系统,该系统对每用户服务的公平性和PAP的能源效率都非常重要。该法式问题采用非凸面问题的形式,并具有不可扣除的约束。为了获得解决方案,我们将问题表示为具有连续状态和动作空间的马尔可夫决策过程(MDP)。考虑到解决方案空间的复杂性,我们使用双胞胎延迟的深层确定性政策梯度(TD3)参与者 - 批判性深入强化学习(DRL)框架来学习最大化系统费用的政策。我们进行两种类型的RL培训来展示我们方法的有效性:第一种(离线)方法在整个训练阶段保持GN的位置相同;第二种方法将学习的政策概括为GN的任何安排,通过更改GN的位置,每次培训情节后。数值评估表明,忽视Peukert效应高估了PAP的播放时间,可以通过最佳选择PAP的飞行速度来解决。此外,用户公平,能源效率,因此可以通过有效地将PAP移动到GN上方,从而提高系统的费用价值。因此,我们注意到郊区,城市和茂密的城市环境的基线情景高达88.31%,272.34%和318.13%。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
开发了计算流体结构动力学(CFD-CSD)和深增强学习(深度RL)的综合框架,用于控制复杂流动的飞级柔性翼飞行器。复杂流动中传单的动态非常不稳定,非线性,这使得模型动态具有挑战性。因此,传统的控制方法,其中模型的动态,不足以调节这种复杂的动态。因此,在本研究中,提出了解决流体和结构的整个控制方程的集成框架,以产生传单的控制策略。为了成功学习控制策略,需要准确和充足的动态数据。然而,满足基于复杂动态的数据的质量和数量非常困难,因为一般来说,更准确的数据更昂贵。在本研究中,提出了两项​​策略来处理困境。为了获得准确的数据,采用CFD-CSD精确预测动态。为了获得充分的数据,设计了一种新的数据再现方法,其中在节省动态的同时在各种情况下复制所获得的数据。通过这些数据,该框架在各种流动条件下了解控制策略,并且显示在复杂流场中的传单中具有显着性能。
translated by 谷歌翻译
We develop a wall model for large-eddy simulation (LES) that takes into account various pressure-gradient effects using multi-agent reinforcement learning (MARL). The model is trained using low-Reynolds-number flow over periodic hills with agents distributed on the wall along the computational grid points. The model utilizes a wall eddy-viscosity formulation as the boundary condition, which is shown to provide better predictions of the mean velocity field, rather than the typical wall-shear stress formulation. Each agent receives states based on local instantaneous flow quantities at an off-wall location, computes a reward based on the estimated wall-shear stress, and provides an action to update the wall eddy viscosity at each time step. The trained wall model is validated in wall-modeled LES (WMLES) of flow over periodic hills at higher Reynolds numbers, and the results show the effectiveness of the model on flow with pressure gradients. The analysis of the trained model indicates that the model is capable of distinguishing between the various pressure gradient regimes present in the flow.
translated by 谷歌翻译
Meshing is a critical, but user-intensive process necessary for stable and accurate simulations in computational fluid dynamics (CFD). Mesh generation is often a bottleneck in CFD pipelines. Adaptive meshing techniques allow the mesh to be updated automatically to produce an accurate solution for the problem at hand. Existing classical techniques for adaptive meshing require either additional functionality out of solvers, many training simulations, or both. Current machine learning techniques often require substantial computational cost for training data generation, and are restricted in scope to the training data flow regime. MeshDQN is developed as a general purpose deep reinforcement learning framework to iteratively coarsen meshes while preserving target property calculation. A graph neural network based deep Q network is used to select mesh vertices for removal and solution interpolation is used to bypass expensive simulations at each step in the improvement process. MeshDQN requires a single simulation prior to mesh coarsening, while making no assumptions about flow regime, mesh type, or solver, only requiring the ability to modify meshes directly in a CFD pipeline. MeshDQN successfully improves meshes for two 2D airfoils.
translated by 谷歌翻译
小型无人驾驶飞机的障碍避免对于未来城市空袭(UAM)和无人机系统(UAS)交通管理(UTM)的安全性至关重要。有许多技术用于实时强大的无人机指导,但其中许多在离散的空域和控制中解决,这将需要额外的路径平滑步骤来为UA提供灵活的命令。为提供无人驾驶飞机的操作安全有效的计算指导,我们探讨了基于近端政策优化(PPO)的深增强学习算法的使用,以指导自主UA到其目的地,同时通过连续控制避免障碍物。所提出的场景状态表示和奖励功能可以将连续状态空间映射到连续控制,以便进行标题角度和速度。为了验证所提出的学习框架的性能,我们用静态和移动障碍进行了数值实验。详细研究了与环境和安全操作界限的不确定性。结果表明,该拟议的模型可以提供准确且强大的指导,并解决了99%以上的成功率的冲突。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
我们提出了一个机器学习框架,该框架将图像超分辨率技术与级别测量方法中的被动标量传输融为一体。在这里,我们研究是否可以计算直接数据驱动的校正,以最大程度地减少界面的粗晶石演化中的数值粘度。拟议的系统的起点是半拉格朗日配方。并且,为了减少数值耗散,我们引入了一个易于识别的多层感知器。该神经网络的作用是改善数值估计的表面轨迹。为此,它在单个时间范围内处理局部级别集,速度和位置数据,以便在移动前部附近的选择顶点。因此,我们的主要贡献是一种新型的机器学习调音算法,该算法与选择性重新融为一体并与常规对流交替运行,以保持调整后的界面轨迹平滑。因此,我们的程序比基于全卷卷积的应用更有效,因为它仅在自由边界周围集中计算工作。同样,我们通过各种测试表明,我们的策略有效地抵消了数值扩散和质量损失。例如,在简单的对流问题中,我们的方法可以达到与基线方案相同的精度,分辨率是分辨率的两倍,但成本的一小部分。同样,我们的杂种技术可以产生可行的固化前端,以进行结晶过程。另一方面,切向剪切流和高度变形的模拟会导致偏置伪像和推理恶化。同样,严格的设计速度约束可以将我们的求解器的应用限制为涉及快速接口更改的问题。在后一种情况下,我们已经确定了几个机会来增强鲁棒性,而没有放弃我们的方法的基本概念。
translated by 谷歌翻译
本文解决了当参与需求响应(DR)时优化电动汽车(EV)的充电/排放时间表的问题。由于电动汽车的剩余能量,到达和出发时间以及未来的电价中存在不确定性,因此很难做出充电决定以最大程度地减少充电成本,同时保证电动汽车的电池最先进(SOC)在内某些范围。为了解决这一难题,本文将EV充电调度问题制定为Markov决策过程(CMDP)。通过协同结合增强的Lagrangian方法和软演员评论家算法,本文提出了一种新型安全的非政策钢筋学习方法(RL)方法来解决CMDP。通过Lagrangian值函数以策略梯度方式更新Actor网络。采用双重危机网络来同步估计动作值函数,以避免高估偏差。所提出的算法不需要强烈的凸度保证,可以保证被检查的问题,并且是有效的样本。现实世界中电价的全面数值实验表明,我们提出的算法可以实现高解决方案最佳性和约束依从性。
translated by 谷歌翻译
Intelligent mesh generation (IMG) refers to a technique to generate mesh by machine learning, which is a relatively new and promising research field. Within its short life span, IMG has greatly expanded the generalizability and practicality of mesh generation techniques and brought many breakthroughs and potential possibilities for mesh generation. However, there is a lack of surveys focusing on IMG methods covering recent works. In this paper, we are committed to a systematic and comprehensive survey describing the contemporary IMG landscape. Focusing on 110 preliminary IMG methods, we conducted an in-depth analysis and evaluation from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views of key technique, output mesh unit element, and applicable input data types. Finally, we highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
我们提出了一个无模型增强学习(RL)框架的案例研究,以解决预定义参数不确定性分布和部分可观察到的随机最佳控制。我们专注于强大的最佳井控制问题,这是地下储层管理领域的密集研究活动的主题。对于此问题,由于数据仅在井位置可用,因此部分观察到系统。此外,由于可用字段数据的稀疏性,模型参数高度不确定。原则上,RL算法能够学习最佳动作策略(从状态到动作的地图),以最大程度地提高数值奖励信号。在Deep RL中,使用深神经网络对从状态到动作进行参数化的映射是参数化的。在强大的最佳井控制问题的RL公式中,状态由井位的饱和度和压力值表示,而动作代表控制通过井流的阀门开口。数值奖励是指总扫描效率,不确定的模型参数是地下渗透率场。通过引入域随机化方案来处理模型参数不确定性,该方案利用群集分析其不确定性分布。我们使用两种最先进的RL算法,近端策略优化(PPO)和Advantage Actor-Critic(A2C)提出数值结果,这些结果是在两个地下流量测试用例上,这些算法代表了两个不同的不确定性分布的渗透率场。根据使用差分进化算法获得的优化结果对结果进行了测试。此外,我们通过评估从训练过程中未使用的参数不确定性分布中得出的看不见的样本中学习的控制策略,证明了对RL的鲁棒性。
translated by 谷歌翻译
实验数据的获取成本很高,这使得很难校准复杂模型。对于许多型号而言,鉴于有限的实验预算,可以产生最佳校准的实验设计并不明显。本文介绍了用于设计实验的深钢筋学习(RL)算法,该算法通过Kalman Filter(KF)获得的Kullback-Leibler(KL)差异测量的信息增益最大化。这种组合实现了传统方法太昂贵的快速在线实验的实验设计。我们将实验的可能配置作为决策树和马尔可夫决策过程(MDP),其中每个增量步骤都有有限的操作选择。一旦采取了动作,就会使用各种测量来更新实验状态。该新数据导致KF对参数进行贝叶斯更新,该参数用于增强状态表示。与NASH-SUTCLIFFE效率(NSE)指数相反,该指数需要额外的抽样来检验前进预测的假设,KF可以通过直接估计通过其他操作获得的新数据值来降低实验的成本。在这项工作中,我们的应用集中在材料的机械测试上。使用复杂的历史依赖模型的数值实验用于验证RL设计实验的性能并基准测试实现。
translated by 谷歌翻译
我们解决了3D箱包装问题的具有挑战性但实际上有用的变体(3D-BPP)。在我们的问题中,代理有关于要包装到垃圾箱的物品的信息有限,并且必须在无缓冲或重新调整的情况下立即包装项目。该项目的展示位置也受到碰撞避免和物理稳定的限制。我们将此在线3D-BPP制定为受限制的马尔可夫决策过程。为了解决问题,我们提出了演员 - 评论家框架下有效且易于实施的受限约束的深度加强学习(DRL)方法。特别地,我们介绍了一种可行性预测器来预测放置动作的可行性掩模,并使用它来调制训练期间actor输出的动作概率。这些监督和转型为DRL促进了代理人有效学习可行的政策。我们的方法也可以推广例如,能够处理具有不同方向的护目理或物品。我们进行了广泛的评估,表明学习政策显着优于最先进的方法。用户学习表明我们的方法达到了人级表现。
translated by 谷歌翻译
我们介绍了一种考虑复杂的环境条件,在极地地区介绍了一种在极地地区长距离海上路线计划的方法。该方法允许构建优化的路线,描述了该过程的三个主要阶段:使用不均匀网格对环境条件进行离散建模,网格最佳路径的构建以及路径平滑。为了说明不同的车辆性能,我们构建了一系列数据驱动的功能,这些功能可以应用于环境网格,以确定给定容器和网格单元的速度限制和燃料要求,以图形和地理空间表示这些数量。在描述我们的结果时,我们展示了一个示例用途,用于Polar Research船RRS David Attenborough爵士(SDA)的路线规划,核算冰的性能特征,并验证韦德尔海地区的时空路线构建,南极洲。我们通过证明路线的变化取决于季节性海冰可变性,所使用的路线规划目标函数的差异以及其他环境条件(如电流)的存在来证明这种路线构建方法的多功能性。为了证明我们的方法的普遍性,我们在北极海洋和波罗的海中介绍了例子。本手稿中概述的技术是通用的,因此可以应用于具有不同特征的血管。我们的方法不仅可以拥有一个船只计划程序,而且我们概述了该工作流程如何适用于更广泛的社区,例如商业和乘客运输。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译