智能论文笔记

越来越多的研究进行了人类主题评估，以研究为用户提供机器学习模型的解释是否可以帮助他们制定实际现实世界中的用例。但是，运行的用户研究具有挑战性且昂贵，因此每个研究通常只评估有限的不同设置，例如，研究通常只评估一些任意选择的解释方法。为了应对这些挑战和援助用户研究设计，我们介绍了用用例的模拟评估（Simevals）。 SIMEVALS涉及培训算法剂，以输入信息内容（例如模型解释），这些信息内容将在人类学科研究中提交给每个参与者，以预测感兴趣的用例的答案。算法代理的测试集精度提供了衡量下游用例信息内容的预测性。我们对三种现实世界用例（正向模拟，模型调试和反事实推理）进行全面评估，以证明Simevals可以有效地确定哪种解释方法将为每个用例提供帮助。这些结果提供了证据表明，Simevals可用于有效筛选一组重要的用户研究设计决策，例如在进行潜在昂贵的用户研究之前，选择应向用户提供哪些解释。

translated by 谷歌翻译

MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent Reinforcement Learning

Stephanie Milani , Zhicheng Zhang , Nicholay Topin , Zheyuan Ryan Shi , Charles Kamhoua , Evangelos E. Papalexakis , Fei Fang

分类：机器学习

2022-05-25

多项式增强学习（MARL）最近的许多突破都需要使用深层神经网络，这对于人类专家来说是挑战性的解释和理解。另一方面，现有的关于可解释的强化学习（RL）的工作在从神经网络中提取更可解释的决策树政策方面显示了有望，但仅在单一机构设置中。为了填补这一空白，我们提出了第一组算法，这些算法从接受MARL训练的神经网络中提取可解释的决策策略。第一种算法IVIPER将Viper扩展到了单代代理可解释的RL的最新方法到多代理设置。我们证明，艾维尔（Iviper）学习每个代理商的高质量决策树政策。为了更好地捕捉代理之间的协调，我们提出了一种新型的集中决策树培训算法，Maviper。 Maviper通过使用其预期的树来预测其他代理的行为，并使用重新采样来集中精力，以重点放在对其与其他代理相互作用至关重要的状态上，从而共同生长了每个代理的树木。我们表明，这两种算法通常都优于基础线，而在三种不同的多代理粒子世界环境上，受过iviper训练的药物比iviper训练的药物获得了更好的协调性能。

translated by 谷歌翻译