智能论文笔记

Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning

Ilnura Usmanova , Yarden As , Maryam Kamgarpour , Andreas Krause

分类：机器学习

2022-07-21

在评估目标时，在线优化嘈杂的功能需要在部署系统上进行实验，这是制造，机器人技术和许多其他功能的关键任务。通常，对安全输入的限制是未知的，我们只会获得嘈杂的信息，表明我们违反约束的距离有多近。但是，必须始终保证安全性，不仅是算法的最终输出。我们介绍了一种通用方法，用于在高维非线性随机优化问题中寻求一个固定点，其中在学习过程中保持安全至关重要。我们称为LB-SGD的方法是基于应用随机梯度下降（SGD），其精心选择的自适应步长大小到原始问题的对数屏障近似。我们通过一阶和零阶反馈提供了非凸，凸面和强键平滑约束问题的完整收敛分析。与现有方法相比，我们的方法通过维度可以更好地更新和比例。我们从经验上将样本复杂性和方法的计算成本比较现有的安全学习方法。除了合成基准测试之外，我们还证明了方法对在安全强化学习（RL）中政策搜索任务中最大程度地减少限制违规的有效性。

translated by 谷歌翻译

高赌注应用中产生的许多黑匣子优化任务需要风险厌恶的决策。但标准贝叶斯优化（BO）范式仅优化了预期值。我们概括了博的商业卑鄙和输入依赖性方差，我们认为我们认为是未知的先验。特别是，我们提出了一种新的风险厌恶异源贝类贝叶斯优化算法（Rahbo），其旨在识别具有高回报和低噪声方差的解决方案，同时在飞行时学习噪声分布。为此，我们将期望和方差模拟（未知）RKHS函数，并提出了一种新的风险感知获取功能。我们对我们的方法绑定了遗憾，并提供了一个强大的规则，以报告必须识别单个解决方案的应用程序的最终决策点。我们展示了Rahbo对合成基准函数和超参数调整任务的有效性。

translated by 谷歌翻译

联合学习已被引入新的机器学习范式，以增强本地设备的使用。在服务器级别，FL定期聚集在分布式客户端上本地学习的模型，以获得更通用的模型。当前的解决方案依赖于客户端的大量存储数据的可用性，以微调服务器发送的模型。这种设置在移动普遍计算中不现实，在该计算中必须保持数据存储较低，并且数据特征可能会发生巨大变化。为了解释这种可变性，解决方案是使用客户定期收集的数据来逐步调整接收到的模型。但是这种天真的方法使客户面临着灾难性遗忘的众所周知的问题。为了解决这个问题，我们定义了一种联合的持续学习方法，该方法主要基于蒸馏。我们的方法允许更好地利用资源，从而消除了在新数据到达时从头开始重新审阅的需求，并通过限制存储的数据量来减少内存使用量。该提案已在人类活动识别（HAR）领域进行了评估，并已证明可以有效地降低灾难性的遗忘效果。

translated by 谷歌翻译

联合学习已被引入新的机器学习范式，以增强本地设备的使用。在服务器级别，FL定期聚集在分布式客户端上本地学习的模型，以获得更通用的模型。这样，没有通过网络发送私人数据，并且降低了通信成本。但是，当前的解决方案依赖于客户端的大量存储数据的可用性，以微调服务器发送的模型。这种设置在移动普遍计算中不现实，在该计算中必须保持数据存储较低，并且数据特征（分布）可能会发生巨大变化。为了解释这种可变性，解决方案是使用客户定期收集的数据来逐步调整接收到的模型。但是这种天真的方法使客户面临着灾难性遗忘的众所周知的问题。本文的目的是在智能手机的移动人类活动识别环境中证明这个问题。

translated by 谷歌翻译