We present a unified hard-constraint framework for solving geometrically complex PDEs with neural networks, where the most commonly used Dirichlet, Neumann, and Robin boundary conditions (BCs) are considered. Specifically, we first introduce the "extra fields" from the mixed finite element method to reformulate the PDEs so as to equivalently transform the three types of BCs into linear forms. Based on the reformulation, we derive the general solutions of the BCs analytically, which are employed to construct an ansatz that automatically satisfies the BCs. With such a framework, we can train the neural networks without adding extra loss terms and thus efficiently handle geometrically complex PDEs, alleviating the unbalanced competition between the loss terms corresponding to the BCs and PDEs. We theoretically demonstrate that the "extra fields" can stabilize the training process. Experimental results on real-world geometrically complex PDEs showcase the effectiveness of our method compared with state-of-the-art baselines.
translated by 谷歌翻译
在离线增强学习中,加权回归是一种常见方法,可以确保学习的政策与行为策略保持接近并防止选择样本外动作。在这项工作中,我们表明,由于政策模型的分配表达有限,以前的方法可能仍会在培训期间选择看不见的动作,这会偏离其最初动机。为了解决这个问题,我们通过将学习的政策分解为两个部分:表达生成行为模型和动作评估模型,采用生成方法。关键见解是,这种去耦避免学习具有封闭形式表达式的明确参数化的策略模型。直接学习行为策略使我们能够利用生成建模的现有进步,例如基于扩散的方法,以建模各种行为。至于行动评估,我们将方法与样本中的计划技术相结合,以进一步避免选择样本外动作并提高计算效率。 D4RL数据集的实验结果表明,与最先进的离线RL方法相比,我们提出的方法具有竞争性或卓越的性能,尤其是在诸如Antmaze之类的复杂任务中。我们还经验证明,我们的方法可以从包含多个独特但类似成功策略的异质数据集中成功学习,而以前的单峰政策失败了。
translated by 谷歌翻译
基于深度学习的方法,例如物理知识的神经网络(PINN)和DeepOnets已显示出解决PDE受约束优化(PDECO)问题的希望。但是,现有方法不足以处理对优化目标具有复杂或非线性依赖性的PDE约束。在本文中,我们提出了一个新颖的双层优化框架,以通过将目标和约束的优化解耦来解决挑战。对于内部循环优化,我们采用PINN仅解决PDE约束。对于外循环,我们通过基于隐式函数定理(IFT)使用Broyden的方法来设计一种新颖的方法,该方法对于近似高度级别而言是有效且准确的。我们进一步介绍了高度级计算的理论解释和误差分析。在多个大规模和非线性PDE约束优化问题上进行了广泛的实验表明,与强基础相比,我们的方法可实现最新的结果。
translated by 谷歌翻译
重要性采样(IS)是非政策评估中的一种流行技术,它重新赋予了重播缓冲液中轨迹的回归以提高样本效率。但是,对IS进行培训可能是不稳定的,以前试图解决此问题的尝试主要集中于分析IS的差异。在本文中,我们揭示了不稳定性与IS的重复使用偏见的新概念有关 - 由重复使用缓冲液重用进行评估和优化引起的非政策评估偏差。从理论上讲,我们证明了对当前策略的非政策评估和优化,并通过重播缓冲区的数据导致目标高估,这可能会导致错误的梯度更新并退化性能。我们进一步提供了重复使用偏差的高概率上限,并表明控制上限的一个项可以通过引入非政策算法的稳定性概念来控制重复使用偏置。基于这些分析,我们最终提出了一种新颖的偏见调查重要性抽样(BIRIS)框架以及实际算法,可以减轻重复使用偏见的负面影响。实验结果表明,我们基于BIRIS的方法可以显着提高一系列连续控制任务的样品效率。
translated by 谷歌翻译
视觉导航中体现的代理以及深度神经网络引起了越来越多的关注。但是,深层神经网络容易受到恶意的对抗噪声的影响,这可能会导致视力导航的灾难性失败。在这些对抗性噪声中,通用的对抗扰动(UAP),即代理接收到的每个帧应用的图像无关扰动,对于体现视觉导航而言更为重要,因为它们是攻击过程中计算效率和应用程序实行的。但是,现有的UAP方法不考虑具体视觉导航的系统动力学。为了在连续决策设置中扩展UAP,我们将Universal Noise $ \ delta $下的不受欢迎的环境制定为$ \ delta $ distant的马尔可夫决策过程($ \ delta $ -MDP)。基于该公式,我们分析了$ \ delta $ -MDP的性质,并提出了两种新型的一致攻击方法,用于攻击体现剂,它们首先通过估计受干扰的Q函数和干扰分布来考虑MDP的动态。尽管有受害者模型,但我们一致的攻击可能会导致栖息地目标任务的绩效大大下降。广泛的实验结果表明,将具体视觉导航方法应用于现实世界中存在潜在的风险。
translated by 谷歌翻译
尽管深度强化学习(DRL)取得了巨大的成功,但由于过渡和观察的内在不确定性,它可能遇到灾难性的失败。大多数现有的安全加固学习方法只能处理过渡干扰或观察障碍,因为这两种干扰影响了代理的不同部分。此外,受欢迎的最坏情况可能会导致过度悲观的政策。为了解决这些问题,我们首先从理论上证明了在过渡干扰和观察障碍下的性能降解取决于一个新颖的价值函数范围(VFR),这与最佳状态和最坏状态之间的价值函数的间隙相对应。基于分析,我们采用有条件的价值风险(CVAR)作为对风险的评估,并提出了一种新颖的强化学习算法的CVAR-Proximal-Policy-oftimization(CPPO),该算法通过保持风险敏感的约束优化问题形式化。它的CVAR在给定的阈值下。实验结果表明,CPPO获得了更高的累积奖励,并且在Mujoco中一系列连续控制任务上的观察和过渡干扰更加强大。
translated by 谷歌翻译
诸如随机平滑之类的认证防御能力已显示出对$ \ ell_p $ norm边界攻击构建可靠的机器学习系统的承诺。但是,现有方法不足或无法证明对语义转换,尤其是那些没有封闭形式表达的语义转换(例如depocus Blur和像素化),这在实践中更常见,而且通常不受限制。为了填补这一空白,我们提出了广义随机平滑(GSMOOTH),这是一个统一的理论框架,可通过新颖的维度增强策略来证明对一般语义转换的鲁棒性。在GSMooth框架下,我们提出了一种可扩展的算法,该算法使用替代图像到图像网络来近似复杂的转换。替代模型为研究语义转换的属性和证明鲁棒性提供了强大的工具。几个数据集的实验结果证明了我们对多种语义转换和腐败的鲁棒性认证方法的有效性,这是替代基线无法实现的。
translated by 谷歌翻译
深增强学习模型容易受到对抗的攻击,可以通过操纵受害者的观察来减少受害者的累积预期奖励。尽管以前的优化基于优化的方法效率,用于在监督学习中产生对抗性噪声,因此这些方法可能无法实现最低的累积奖励,因为它们通常不会探索环境动态。在本文中,我们提供了一个框架,以通过重新制定函数空间中加固学习的对抗攻击问题来更好地了解现有方法。我们的重构在有针对性攻击的功能空间中产生最佳对手,通过通用的两级框架来排斥它们。在第一阶段,我们通过黑客攻击环境来培训欺骗性政策,并发现一组轨迹路由到最低奖励或最坏情况性能。接下来,对手误导受害者通过扰乱观察来模仿欺骗性政策。与现有方法相比,我们理论上表明我们的对手在适当的噪声水平下更强大。广泛的实验展示了我们在效率和效力方面的优越性,在Atari和Mujoco环境中实现了最先进的性能。
translated by 谷歌翻译
Decompilation aims to transform a low-level program language (LPL) (eg., binary file) into its functionally-equivalent high-level program language (HPL) (e.g., C/C++). It is a core technology in software security, especially in vulnerability discovery and malware analysis. In recent years, with the successful application of neural machine translation (NMT) models in natural language processing (NLP), researchers have tried to build neural decompilers by borrowing the idea of NMT. They formulate the decompilation process as a translation problem between LPL and HPL, aiming to reduce the human cost required to develop decompilation tools and improve their generalizability. However, state-of-the-art learning-based decompilers do not cope well with compiler-optimized binaries. Since real-world binaries are mostly compiler-optimized, decompilers that do not consider optimized binaries have limited practical significance. In this paper, we propose a novel learning-based approach named NeurDP, that targets compiler-optimized binaries. NeurDP uses a graph neural network (GNN) model to convert LPL to an intermediate representation (IR), which bridges the gap between source code and optimized binary. We also design an Optimized Translation Unit (OTU) to split functions into smaller code fragments for better translation performance. Evaluation results on datasets containing various types of statements show that NeurDP can decompile optimized binaries with 45.21% higher accuracy than state-of-the-art neural decompilation frameworks.
translated by 谷歌翻译
Solving real-world optimal control problems are challenging tasks, as the system dynamics can be highly non-linear or including nonconvex objectives and constraints, while in some cases the dynamics are unknown, making it hard to numerically solve the optimal control actions. To deal with such modeling and computation challenges, in this paper, we integrate Neural Networks with the Pontryagin's Minimum Principle (PMP), and propose a computationally efficient framework NN-PMP. The resulting controller can be implemented for systems with unknown and complex dynamics. It can not only utilize the accurate surrogate models parameterized by neural networks, but also efficiently recover the optimality conditions along with the optimal action sequences via PMP conditions. A toy example on a nonlinear Martian Base operation along with a real-world lossy energy storage arbitrage example demonstrates our proposed NN-PMP is a general and versatile computation tool for finding optimal solutions. Compared with solutions provided by the numerical optimization solver with approximated linear dynamics, NN-PMP achieves more efficient system modeling and higher performance in terms of control objectives.
translated by 谷歌翻译