智能论文笔记

仪器变量模型使我们能够确定协变量$ x $和响应$ y $之间的因果功能，即使在存在未观察到的混淆的情况下。大多数现有估计器都假定响应$ y $和隐藏混杂因素中的错误项与仪器$ z $不相关。这通常是由图形分离的动机，这一论点也证明了独立性。但是，提出独立限制会导致严格的可识别性结果。我们连接到计量经济学的现有文献，并提供了一种称为HSIC-X的实用方法，用于利用独立性，可以与任何基于梯度的学习程序结合使用。我们看到，即使在可识别的设置中，考虑到更高的矩可能会产生更好的有限样本结果。此外，我们利用独立性进行分布泛化。我们证明，只要这些移位足够强，拟议的估计器对于仪器的分布变化和最佳案例最佳变化是不变的。这些结果即使在未识别的情况下也能够得出这些结果，即仪器不足以识别因果功能。

translated by 谷歌翻译

Invariant Policy Learning: A Causal Perspective

Sorawit Saengkyongam , Nikolaj Thams , Jonas Peters , Niklas Pfister

分类：机器学习 | 人工智能 | (统计)机器学习

2021-06-01

上下文的强盗和强化学习算法已成功用于各种交互式学习系统，例如在线广告，推荐系统和动态定价。但是，在高风险应用领域（例如医疗保健）中，它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的，因为它们不会在不同的环境上改变。但是，在许多现实世界中，这些机制可能会跨环境变化，这可能使静态环境假设无效。在本文中，考虑到离线上下文匪徒的框架，我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度，并提出了多种环境的背景匪徒，从而可以改变基本机制。我们采用因果关系文献的不变性概念，并介绍了政策不变性的概念。我们认为，仅当存在未观察到的变量时，政策不变性才有意义，并表明在这种情况下，保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系，不变性和上下文土匪之间的具体联系。

translated by 谷歌翻译