因果匪徒问题将因果推断与多军匪徒集成在一起。因果匪徒的纯粹探索是以下在线学习任务:给定一个因果关系分布未知的因果图,在每一轮中,我们可以选择干预一个变量或不进行干预,并观察所有随机变量的随机结果,并与所有随机变量进行观察使用尽可能少的回合的目标,我们可以输出一种干预措施,该干预措施在奖励变量$ y $上具有至少$ 1- \ delta $,其中$ \ delta $是一个最佳(或几乎是最好的)预期结果给定信心水平。我们在三种类型的因果模型,包括平行图,具有少量后门父母的常规图和二进制通用线性模型的三种类型的因果模型上提供了第一个完全依赖GAP的完全自适应纯探索算法。我们的算法改善了先前的因果匪徒算法,这些算法并非自适应奖励差距,也没有先前的自适应纯探索算法,它们不利用因果匪徒的特殊特征。
translated by 谷歌翻译