人工智能的扩散越来越依赖于模型理解。理解既需要一种解释 - 关于模型行为的人类推理,又是解释 - 模型功能的象征性表示。尽管必须对安全性,信任和接受的透明度,但最先进的强化学习算法的不透明性掩盖了其学习策略的基础。我们已经开发了一种政策正规化方法,该方法主张了学识渊博的策略的全球固有亲和力。这些亲和力提供了一种关于政策行为的推理手段,从而使其固有地解释。我们已经在个性化的繁荣管理中展示了我们的方法,其中个人的支出行为及时决定了他们的投资策略,即不同的支出人物可能与不同的投资类别有不同的关联。现在,我们通过使用离散的Markov模型重现潜在的原型策略来解释我们的模型。这些全球替代物是原型政策的符号表示。
translated by 谷歌翻译