模型说明为训练有素的机器学习模型的黑框行为提供了透明度,向模型构建器提供了透明度。它们表明了不同输入属性对其相应模型预测的影响。对输入的解释的依赖性引发了敏感用户数据的隐私问题。但是,当前文献对模型解释的隐私风险的讨论有限。我们专注于属性推理攻击的特定隐私风险,其中对手会在其模型解释的情况下侵犯输入的敏感属性(例如种族和性别)。我们在两个威胁模型中设计了针对模型解释的第一个属性推理攻击,其中模型构建器(a)都包含训练数据和输入中的敏感属性,或者((b)通过不在培训数据和输入中审查敏感属性。我们评估了对四个基准数据集和四种最先进算法的拟议攻击。我们表明,对手可以准确地从两个威胁模型中的解释中成功推断出敏感属性的价值。此外,即使仅利用与敏感属性相对应的解释,攻击也是成功的。这些表明,我们的攻击有效地反对解释,并对数据隐私构成了实际威胁。在将模型预测(通过先前攻击利用的攻击表面)与解释相结合时,我们注意到攻击成功并不能改善。此外,与仅利用模型预测相比,利用模型解释的攻击成功更好。这些表明模型解释是为对手开发的强大攻击表面。
translated by 谷歌翻译