我们研究了安全在线凸优化的问题,其中每个时间步长的动作必须满足一组线性安全约束。目标是选择一系列动作,以最小化遗憾,而不会在任何时间步骤(具有高概率)时违反安全约束。指定线性安全约束的参数对算法未知。该算法只能访问所选择的操作的约束的嘈杂观察。我们提出了一种算法,称为{Safe Online投影梯度下降}(SO-PGD)算法,以解决这个问题。我们表明,在假设安全基线动作的可用性的假设下,所以PGD算法实现了遗憾$ O(t ^ {2/3})$。虽然在线凸优化(OCO)存在许多用于文献中的安全约束的算法,但它们允许在学习/优化期间违反限制,并且重点是表征累积约束违规。据我们所知,我们的是第一项工作,提供了一个遗憾的算法,而无需在任何时间步骤违反线性安全约束(具有高概率)。
translated by 谷歌翻译