我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译
我们研究上下文搜索,在较高维度中对二进制搜索的概括,该搜索捕获了设置,例如基于功能的动态定价。该问题的标准公式假定代理根据特定的均匀响应模型起作用。但是,实际上,某些反应可能会受到对抗的腐败。现有的算法在很大程度上取决于假定的响应模型(大约)对所有试剂的准确性,并且在存在一些此类任意错误的情况下的性能较差。当某些代理商以与基本响应模型不一致的方式行为时,我们会启动上下文搜索的研究。特别是,我们提供两种算法,一种基于多维二进制搜索方法,另一种基于梯度下降。我们表明,这些算法在没有对抗性腐败及其性能与此类代理的数量优雅地降低的情况下获得了近乎最佳的遗憾,这为在任何对抗性噪声模型中提供了第一个结果,以进行上下文搜索。我们的技术从学习理论,游戏理论,高维几何形状和凸分析中汲取灵感。
translated by 谷歌翻译