当前位置:
X-MOL 学术
›
Artif. Intell.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Interval abstractions for robust counterfactual explanations
Artificial Intelligence ( IF 5.1 ) Pub Date : 2024-09-02 , DOI: 10.1016/j.artint.2024.104218 Junqi Jiang , Francesco Leofante , Antonio Rago , Francesca Toni
Artificial Intelligence ( IF 5.1 ) Pub Date : 2024-09-02 , DOI: 10.1016/j.artint.2024.104218 Junqi Jiang , Francesco Leofante , Antonio Rago , Francesca Toni
Counterfactual Explanations (CEs) have emerged as a major paradigm in explainable AI research, providing recourse recommendations for users affected by the decisions of machine learning models. However, CEs found by existing methods often become invalid when slight changes occur in the parameters of the model they were generated for. The literature lacks a way to provide exhaustive robustness guarantees for CEs under model changes, in that existing methods to improve CEs' robustness are mostly heuristic, and the robustness performances are evaluated empirically using only a limited number of retrained models. To bridge this gap, we propose a novel interval abstraction technique for parametric machine learning models, which allows us to obtain provable robustness guarantees for CEs under a possibly infinite set of plausible model changes Δ. Based on this idea, we formalise a robustness notion for CEs, which we call Δ-robustness, in both binary and multi-class classification settings. We present procedures to verify Δ-robustness based on Mixed Integer Linear Programming, using which we further propose algorithms to generate CEs that are Δ-robust. In an extensive empirical study involving neural networks and logistic regression models, we demonstrate the practical applicability of our approach. We discuss two strategies for determining the appropriate hyperparameters in our method, and we quantitatively benchmark CEs generated by eleven methods, highlighting the effectiveness of our algorithms in finding robust CEs.
中文翻译:
稳健的反事实解释的区间抽象
反事实解释(CE)已成为可解释人工智能研究的主要范例,为受机器学习模型决策影响的用户提供资源建议。然而,当生成CE的模型参数发生微小变化时,现有方法找到的CE通常会变得无效。文献缺乏一种方法来为模型变化下的CE提供详尽的鲁棒性保证,因为现有的提高CE鲁棒性的方法大多是启发式的,并且鲁棒性性能仅使用有限数量的再训练模型进行经验评估。为了弥补这一差距,我们提出了一种用于参数机器学习模型的新颖区间抽象技术,该技术使我们能够在可能无限的合理模型变化集 Δ 下获得 CE 的可证明的鲁棒性保证。基于这个想法,我们在二元和多类分类设置中形式化了 CE 的鲁棒性概念,我们称之为 Δ-鲁棒性。我们提出了基于混合整数线性规划验证 Δ-鲁棒性的程序,使用该程序我们进一步提出了生成 Δ-鲁棒性 CE 的算法。在涉及神经网络和逻辑回归模型的广泛实证研究中,我们证明了我们的方法的实际适用性。我们讨论了在我们的方法中确定适当超参数的两种策略,并对十一种方法生成的 CE 进行定量基准测试,强调了我们的算法在寻找稳健 CE 方面的有效性。
更新日期:2024-09-02
中文翻译:
稳健的反事实解释的区间抽象
反事实解释(CE)已成为可解释人工智能研究的主要范例,为受机器学习模型决策影响的用户提供资源建议。然而,当生成CE的模型参数发生微小变化时,现有方法找到的CE通常会变得无效。文献缺乏一种方法来为模型变化下的CE提供详尽的鲁棒性保证,因为现有的提高CE鲁棒性的方法大多是启发式的,并且鲁棒性性能仅使用有限数量的再训练模型进行经验评估。为了弥补这一差距,我们提出了一种用于参数机器学习模型的新颖区间抽象技术,该技术使我们能够在可能无限的合理模型变化集 Δ 下获得 CE 的可证明的鲁棒性保证。基于这个想法,我们在二元和多类分类设置中形式化了 CE 的鲁棒性概念,我们称之为 Δ-鲁棒性。我们提出了基于混合整数线性规划验证 Δ-鲁棒性的程序,使用该程序我们进一步提出了生成 Δ-鲁棒性 CE 的算法。在涉及神经网络和逻辑回归模型的广泛实证研究中,我们证明了我们的方法的实际适用性。我们讨论了在我们的方法中确定适当超参数的两种策略,并对十一种方法生成的 CE 进行定量基准测试,强调了我们的算法在寻找稳健 CE 方面的有效性。