机器学习的普及增加了不公平模型的风险,该模型被部署在高级应用程序中,例如司法系统,药物/疫苗接种设计和医学诊断。尽管有有效的方法可以从头开始训练公平模型,但如何自动揭示和解释受过训练的模型的不公平仍然是一项艰巨的任务。以可解释的方式揭示机器学习模型的不公平是朝着公平和值得信赖的AI迈出的关键一步。在本文中,我们系统地解决了通过挖掘可解释的证据(Rumie)来揭示不公平模型的新任务。关键思想是以一组模型区分的数据实例的形式找到可靠的证据。为了使证据可以解释,我们还找到了一组人为理解的关键属性和决策规则,这些属性和决策规则表征了歧视的数据实例,并将其与其他非歧视数据区分开来。正如在许多现实世界数据集上进行的广泛实验所证明的那样,我们的方法找到了高度可解释和可靠的证据,可以有效揭示受过训练的模型的不公平性。此外,它比所有基线方法更可扩展。
translated by 谷歌翻译