策略梯度方法是强大的强化学习算法,并且已被证明可以解决许多复杂的任务。然而,这些方法也是数据无效的,受到高方差梯度估计的影响,并且经常陷入局部最优。这项工作通过将最近改进的非政策数据的重用和参数空间的探索与确定性行为政策相结合来解决这些弱点。由此产生的目标适用于标准的神经网络优化策略,如随机梯度下降或随机梯度哈密顿蒙特卡罗。通过重要性抽样对以前的推出进行大量提高数据效率,而随机优化方案有助于逃避局部最优。我们评估了一系列连续控制基准测试任务的建议方法。结果表明,该算法能够使用比标准策略梯度方法更少的系统交互成功可靠地学习解决方案。
translated by 谷歌翻译
提出贝叶斯优化用于从实验数据自动学习最优控制器参数。概率描述(aGaussian过程)用于将未知函数从控制器参数建模到用户定义的成本。概率模型用数据更新,数据是通过测试物理系统上的一组参数并评估成本而获得的。为了快速学习,贝叶斯优化算法选择下一个参数以系统的方式进行评估,例如,通过最大化关于最优的信息增益。该算法实际上只需很少的实验即可找到全局最优参数。以节流阀控制为代表的工业控制实例,所提出的自动调整方法优于手动校准:通过少量实验,它始终如一地实现了更好的性能。提出的自动调整框架是灵活的,可以处理不同的控制结构和目标。
translated by 谷歌翻译
事件触发控制(ETC)方法可以实现高性能控制,与通常的时间触发方法相比,样本数量显着减少。这些框架通常基于系统的数学模型以及控制器和事件触发器的特定设计。在本文中,我们展示了如何利用深度强化学习(DRL)算法同时从头学习控制和通信行为,并提出了一种特别适合ETC的DRL方法。据我们所知,这是将DRL应用于ETC的第一项工作。我们在多个控制任务上验证该方法,并将其与基于模型的事件触发框架进行比较。特别是,我们证明除了基于模型的ETC设计之外,它可以直接应用于非线性系统。
translated by 谷歌翻译
基于光响应材料并由光场控制的软微机器人可以产生各种不同的步态。可以利用这种固有的灵活性来最大化它们在给定环境中的运动性能并且用于使它们适应变化的条件。虽然由于缺乏准确的运动模型,并且考虑到微机器人之间的内在可变性,分析控制设计是不可能的。另一方面,常见的数据驱动方法需要运行数量过多的实验,并导致非常特定于样本的结果。在这里,我们提出了基于贝叶斯优化(BO)和高斯过程(GP)的光控软微机器人的概率学习方法。所提出的方法产生了一种数据有效的学习方案,能够以有限的实验预算实现步态优化,并且能够抵抗微机器人样本之间的差异。通过在asemi-synthetic数据集上比较不同的GP先验和BO设置来设计学习方案,从而获得这些特征。所开发的学习方案在微机器人实验中得到验证,导致微机器人运动性能提高115%,实验预算仅为20次测试。这些令人鼓舞的结果引领了基于光控软微机器人和概率学习控制的自适应微机器系统。
translated by 谷歌翻译
提出了一种监督学习框架来近似模型预测控制器(MPC),降低了计算复杂度并保证了不稳定性和约束满足。该框架可用于广泛的非线性系统。可以采用任何标准监督学习技术(例如,神经网络)来从样本中近似MPC。为了获得学习的MPC的闭环保证,稳健的MPC设计与统计学习界限相结合。 MPC设计确保在给定范围内对输入不准确的鲁棒性,并且Hoeffding的不等式用于验证学习的MPC以高置信度满足这些界限。结果是对学习MPC的稳定性和约束满足的闭环统计保证。所提出的基于学习的MPC框架是针对非线性基准问题而设计的,为此我们学习了具有保证的神经网络控制器。
translated by 谷歌翻译
常见的事件触发状态估计(ETSE)算法通过预测代理的行为来节省网络控制系统中的通信,并且仅在预测显着偏离时才发送更新。因此,减少通信的有效性在很大程度上取决于用于预测代理状态或测量的动态模型的质量。本文提出事件触发学习作为进一步减少通信的新概念:每当检测到不良通信性能时,触发识别实验并从数据中学习改进的预测模型。通过将实际通信率与实际通信率进行比较来获得有效学习触发。基于当前模型预期。通过分析相互通信时间的统计特性并利用强大的收敛结果,证明所提出的触发器将学习实验限制在必要的时刻。数值和物理实验证明,事件触发式学习可以提高对变化环境的稳健性,并且比普通的ETSE产生更低的通信速率。
translated by 谷歌翻译
我们探索人工神经网络作为从虚构时间格林函数重建光谱函数的工具,这是一个经典条件反问题。我们的ansatz基于有监督的学习框架,其中先验知识在训练数据中被编码,并且逆变换流形通过神经网络被明确地参数化。我们系统地研究了这种新的重建方法,提供了对其在物理动机模拟数据上的表现的详细分析,并将其与已建立的贝叶斯推理方法进行了比较。发现构造精度至少是可比较的,并且特别是在较大的噪声水平下可能是优越的。我们认为,在监督环境中使用标记的训练数据和确定优化目标的自由度是本方法的固有优势,并且可能导致对未来最先进方法的重大改进。进一步研究的潜在方向是详细讨论。
translated by 谷歌翻译
最近关于神经网络的对抗性脆弱性的研究已经表明,对于对抗性攻击而言训练得更强大的模型表现出比非强健对应物更可解释的显着性图。我们的目标是通过考虑输入图像和效果图之间的对齐来量化这种行为。我们假设,当决策边界的距离增加时,对齐也是如此。在线性模型的情况下,这种连接是严格正确的。我们通过基于使用局部Lipschitz正则化训练的模型的实验来确认这些理论发现,并确定神经网络的线性特性削弱了这种关系。
translated by 谷歌翻译
在这项工作中,我们描述了我们从成功使用强化学习(RL)中学到的实践经验教训,以改进微软虚拟代理的关键业务指标以获得客户支持。虽然我们目前的RL使用案例主要集中在依赖自然语言处理,排名和推荐系统技术的组件上,但我们相信我们的许多发现都是适用的。通过本文,我们强调了RLpractitioners在类似应用程序中可能遇到的某些问题,并为这些挑战提供了实用的解决方案。
translated by 谷歌翻译
我们给出了一种计算一维形状约束函数的算法,该函数最适合加权$ L _ {\ infty} $ norm中的给定数据。我们给出了一种单一算法,该算法适用于各种常用的形状约束,包括单调性,Lipschitz连续性和凸性,更一般地说,任何形状约束可通过一阶和/或二阶差异的界限表达。我们的算法在$ O \ left(n \ log \ frac {U} {\ varepsilon} \ right)$ time中计算加法误差$ \ varepsilon $的近似值,其中$ U $捕获输入值的范围。对于未加权的$ L _ {\ infty} $ convexregression的特殊情况,我们还给出了一个简单的贪心算法$ O(n)$ time。这些是第一个(近)线性时间算法的二阶约束函数拟合。为了实现这些结果,我们使用对基础动态规划问题的几何解释。我们进一步表明,相关问题到方向图(DAG)的推广与线性规划一样困难。
translated by 谷歌翻译