`

Enhancing ML Interpretability for Credit Scoring

创建于 更新于

摘要

本论文针对信用评分中的机器学习模型解释难题,提出一种结合后验解释工具与可解释玻璃盒模型的混合框架。利用SHAP进行特征筛选,显著减少特征数量达88.5%,并构建具有与XGBoost相当预测性能的透明模型。研究还通过特征交互和相关性分析,进一步提升模型的可解释性和稳健性,满足合规要求 [page::1][page::8][page::11][page::13][page::14]。

速读内容


研究背景与问题定义 [page::1][page::2]

  • 银行信用评分需兼顾预测准确性与模型透明性,现有黑盒模型预测性能优越但难以满足监管要求。

- 传统逻辑回归因解释性强仍占主导,但预测能力较弱。
  • 本文聚焦于如何通过后验解释提升模型透明度,适应内部评级法(IRB)等合规标准。


机器学习模型与解释方法概述 [page::3][page::4][page::6]

  • XGBoost作为黑盒模型,性能领先,但内部复杂且含多重特征交互。

- SHAP提供高效树模型特征贡献解释,辅助理解和特征筛选。
  • 玻璃盒模型如EBM(可解释增强机)和PLTR(带惩罚的逻辑树回归)兼顾性能与透明度。


实验设计与数据集说明 [page::9][page::10]


| 模型 | AUPRC | AUROC | F1 score | 平衡准确率 |
|------------|---------|--------|----------|------------|
| Logistic回归 | 0.3389 | 0.6653 | 0.42 | 0.6187 |
| XGBoost | 0.3436 | 0.6687 | 0.416 | 0.6203 |
| EBM | 0.3518 | 0.6744 | 0.4211 | 0.6251 |
  • 采用Lending Club P2P贷款数据,特征87个,目标变量为贷款是否违约。

- 训练集与测试集按时间分割,偏斜类别权重调整用于提升违约类识别效果。

特征重要性与筛选分析 [page::10][page::11]


  • 利用SHAP值和模型系数,对LR、XGB和EBM模型的特征进行排序,结果高度一致。

- 关键特征包括ficorangehigh、loanamnt、annualinc、dti等。
  • XGBoost的TreeSHAP计算效率最高,适合用于特征筛选。


降维建模与性能评估 [page::12][page::13]


  • 通过逐步增加纳入特征数量构建玻璃盒模型,发现10个特征即可达成性能平台期。

- EBM模型在缩减特征集后仍优于XGBoost和逻辑回归,表现兼顾准确性和透明度。
  • SHAP贡献示意图显示贷金额度与年收入对违约概率的线性影响,符合金融直觉。


交互效应与相关性分析 [page::11][page::14]


  • 特征交互增益有限,纳入全部1~9个交互项,F1提升最大约0.4%,可考虑剔除交互简化模型。

- 利用相关性矩阵剔除高度相关且按SHAP排序靠后的冗余特征,提升模型稳健性。
| 模型 | 处理方法 | AUPRC | AUROC | F1 score | 平衡准确率 |
|------|-----------------|--------|--------|----------|------------|
| XGB | 原始特征 | 0.3412 | 0.6641 | 0.4139 | 0.6185 |
| XGB | 相关性分析后特征 | 0.3418 | 0.6658 | 0.4145 | 0.6190 |
| EBM | 原始特征 | 0.3487 | 0.6720 | 0.4186 | 0.6226 |
| EBM | 相关性分析后特征 | 0.3493 | 0.6725 | 0.4193 | 0.6233 |

结论与展望 [page::14]

  • 提出的方法有效实现了黑盒模型向玻璃盒模型的“透明化”,大幅降低特征数量且无显著损失性能。

- EBM成为表现最佳的解释性模型,满足合规及业务解释需求。
  • 后续研究建议在更多金融数据集上验证方法的普适性与鲁棒性。


深度阅读

详尽分析报告:《Enhancing ML Interpretability for Credit Scoring》



---

1. 元数据与报告概览



标题:Enhancing ML Interpretability for Credit Scoring
作者及机构:Sagi Schwartz(Delft University of Technology 计算机系)、Qinling Wang(Delft University of Technology 应用数学系)、Fang Fang(Delft University of Technology 和 FF Quant Advisory B.V.)
发布日期:报告末端附录中未明确具体发布日,但引用文献时含2024年资料,预计为2024年。
主题:该报告聚焦于信贷评分领域,尤其是提升机器学习模型在信贷违约概率预测上的可解释性。
核心论点
  • 现代机器学习方法在预测准确性上通常优于传统统计模型,但其“黑盒”特性导致难以满足监管合规需求。

- 现有XAI研究多聚焦于对黑盒模型的后置解释,模型架构自身仍复杂,不足以满足监管对透明度的要求。
  • 本文提出混合方案:先利用后置解释方法诊断黑盒模型以选取关键特征,接着训练“玻璃盒”模型(易解释模型),兼顾性能与透明性。

- 通过Lending Club数据集实证,使用10个特征的玻璃盒模型实现与基准黑盒模型相当的性能,特征量骤减88.5%。
  • 结合特征交互分析、相关性检查以及领域专家知识进一步增强模型解释性和健壮性。


评价与目标:该方案旨在为受监管信贷风险评估模型提供实用、透明且性能优良的解决路径。
关键词覆盖信用评分、XAI、玻璃盒模型、特征选择、监管合规、违约建模等核心内容。[page::0,1]

---

2. 逐节深度解读



2.1 摘要与引言(第0-1页)



报告首先强调信贷违约预测在银行业的重要性及机器学习相较传统回归模型的优势。
然而,因黑盒模型缺乏透明度,法规要求(例如欧盟GDPR第71条和美国平等信贷机会法案)限制黑盒模型的广泛应用。传统线性模型依然占主导。[page::1]

研究指出当前主流XAI方法(如SHAP和LIME)虽对黑盒模型有解释作用,但不足以降低模型复杂度和保持透明度。报告提出结合后置解释工具指导特征选取,并选用“玻璃盒”模型构建轻量级可解析模型,以满足实际监管需求。[page::1,2]

2.2 行业基准模型:逻辑回归(第2-3页)



逻辑回归作为广泛采用的统计模型,估计结果为事件发生概率的对数几率的线性函数。优势是模型结构简单且可解释 —— 参数βi的指数代表对应特征单元变动对赔率比的乘数影响。

但由于线性假设,逻辑回归可能无法充分捕捉金融数据中的非线性和复杂交互,导致表现劣于灵活的机器学习模型。[page::2,3]

2.3 现有解释型AI模型(第3-7页)



本节介绍两类XAI方法:
  • 后置解释方法(模型不可知)包括LIME和SHAP。LIME通过局部线性模型解释单个预测,SHAP基于博弈论的Shapley值,为模型预测分配特征贡献值,且配备丰富的可视化工具,适用于全局与局部解释。

SHAP计算复杂度高,但Tree SHAP算法显著提升树模型的计算效率,是当前树模型特征重要性解释的主流方法。[page::3,4]
  • 玻璃盒模型包括传统回归、决策树及现代扩展模型,如Explainable Boosting Machine(EBM)和Penalized Logistic Tree Regression(PLTR)。

- EBM基于广义加性模型(GAM)框架,采用多个单变量非线性函数依次拟合,每个特征独立建模,便于理解。其迭代训练策略有效避免训练顺序影响,支持特征交互的可选集成。实验表明EBM在准确性方面可匹敌黑盒如XGBoost。
- PLTR结合短深度树生成的二元特征与正则化逻辑回归,平衡解释性和性能,较适合建模非线性和交互影响,避免过拟合。[page::3-7]

2.4 混合方法提议与实验设计(第8-10页)



报告总结当前机器学习IRB合规挑战:过多无效特征与复杂模型结构导致解释性和可接受性差。建议避免高维、多交互的复杂模型。

提出四步方法:
1)用全特征训练黑盒模型(基准),
2)用SHAP对特征重要度排序,
3)选取排名靠前的少量特征训练玻璃盒模型(EBM或PLTR),
4)结合交互和相关性分析及专家判断迭代优化。

该方法兼顾监管透明度和预测性能,提升合规与实用价值。实验基于Lending Club数据,目标变量定义为贷款完全还清与违约(charged off)标签,特征预处理标准合理,训练/测试集基于时间拆分,默认率约20%,共计87个特征。为应对类别不平衡,模型采用了类别权重策略,重点提高违约样本检测能力。基准模型包含逻辑回归(LR)、XGBoost(XGB)、EBM。[page::8,9]

2.5 基准模型性能及解释难点(第10-11页)



| 模型 | AUPRC | AUROC | F1 Score | Balanced Accuracy |
|:----|:-------|:-------|:---------|:-----------------:|
| LR | 0.3389 | 0.6653 | 0.4200 | 0.6187 |
| XGB | 0.3436 | 0.6687 | 0.4160 | 0.6203 |
| EBM | 0.3518 | 0.6744 | 0.4211 | 0.6251 |

EBM在性能指标上表现最好。
不过,复杂模型存在大规模特征和复杂交互,难以确保每项决策有合理的金融逻辑支持。例如在图1中,贷款金额与年收入的交互产生了反常的违约概率趋势,违背金融直觉。对单变量效应观察(图2、图3)则符合预期:贷款金额越大违约概率越高,年收入越高违约概率越低。由此,强烈动机是大幅减少特征,降低交互复杂度,提高模型解释力。[page::10,11]

2.6 特征重要度排序(第11页)



通过正规化系数(LR)、Tree SHAP(XGB)和EBM固有方法,提取三种模型的前十排名特征,原因如下:

| 排名 | LR | XGB | EBM |
|-------|------------------------|------------------------|-----------------------|
| 1 | fico
rangehigh | ficorangehigh | loanamnt |
| 2 | loanamnt | loanamnt | ficorangehigh |
| 3 | dti | annualinc | annualinc |
| 4 | annualinc | dti | purposecreditcard |
| 5 | home
ownershipRENT | purposecreditcard | dti |
| 6 | purpose
creditcard | homeownershipRENT | purposedebtconsolid.|
| 7 | emp
lengthnan | - | homeownershipMORT., homeownershipRENT |
| 8 | purpose
debtconsolid. | purposedebtconsolid. | homeownershipMORT. |
| 9 | purpose
other | emplengthnan | emplengthnan |
| 10 | addrstateNY | addrstateNY | addrstateNY |

XGBoost的特征重要度计算最快最实用,特征排序在三种模型间高度一致。[page::11]

2.7 轻量化玻璃盒模型构建(第11-13页)



通过逐步增添前K个特征,绘制AUPRC、AUROC、F1分数曲线。结果显示,10个特征即实现性能近似饱和,再增添特征提升有限。基于此,完成了大幅降维(从87降到10特征)。

在模型选择上,EBM性能稳定优于PLTR和黑盒XGBoost,同时透明度显著更佳,具有监管价值。
这是该方法应用的实证核心,说明小规模“玻璃盒”模型可兼得准确性及可解释性。[page::11,12]

2.8 模型细化(第12-14页)



- 特征交互分析



通过在简化EBM模型中逐渐增加最多9个特征交互项,性能提升极为有限,F1分数仅提升0.4%。因此,在实际工作中可以安心舍弃复杂交互,保持模型简洁而性能仍优于逻辑回归。[page::12,14]

> 图5:EBM模型性能随交互项数变化,升幅微弱。

- 相关性分析



SHAP方法在处理高度相关特征时存在分配误差,导致特征重要度可能分散或方向矛盾。实践中结合相关矩阵,删除排名靠后且与排名靠前特征强相关的特征,可以优化特征集合。
去除相关冗余特征会略升模型性能,实验结果(表3)显示XGBoost和EBM均有所提升,且去除敏感特征未影响前10关键特征表现。

| 模型 | 方法 | AUPRC | AUROC | F1 Score | Balanced Accuracy |
|-------|-------------------|---------|---------|----------|------------------|
| XGB | 原始 | 0.3412 | 0.6641 | 0.4139 | 0.6185 |
| XGB | 相关性分析后 | 0.3418 | 0.6658 | 0.4145 | 0.6190 |
| EBM | 原始 | 0.3487 | 0.6720 | 0.4186 | 0.6226 |
| EBM | 相关性分析后 | 0.3493 | 0.6725 | 0.4193 | 0.6233 |

此步骤保证了特征集既精简又具代表性,提高模型稳定性与解释合理性。[page::13,14]

2.9 结论(第14页)



报告总结,提出一套基于后置解释引导特征选择,再训练轻量玻璃盒模型的方法,不仅有效提升模型透明度,且在Lending Club数据上实现与黑盒模型相似的性能,显著降低特征数量,满足监管合规和实际应用需求。
建议未来工作基于不同数据集测试该方法,验证其鲁棒性和广泛适用性。[page::14]

---

3. 图表深度解读



图1(页面11)



描述:贷款金额(loanamnt)与年收入(annualinc)的交互SHAP值热力图。颜色表示模型该交互对预测违约概率的影响大小(黄色偏正,紫色负)。
解读:交互图显示在某些区域呈现反直觉模式,如低贷款金额和高收入反而对应较高负影响分数,表明交互项可能导致逻辑矛盾。
文本联系:对应文本指出此交互关系不合常理,支持后续缩减特征、减少交互建模的策略。
局限性:二维交互复杂度提升解释难度,实际业务模型需谨慎利用此类交互。


图2(页面12)



描述:贷款金额单特征SHAP值与分布。上部为贷款金额与SHAP贡献的关系曲线,下部为贷款金额的样本密度直方图。
解读:SHAP值随贷款金额上升而增大,表明贷款金额越大违约风险预测越高,符合金融直觉。密度分布显示常见贷款集中在低至中等金额。
文本联系:此单变量效应符合直觉,支持淬火模型聚焦关键单变量特征。


图3(页面13)



描述:年收入单变量SHAP贡献图及样本分布。
解读:年收入和SHAP贡献呈负相关,年收入越高违约概率越低,且数据偏低收入区。图形平滑呈阶梯状,体现特征分箱或离散影响。
文本联系:说明单变量解释符合业务逻辑,是保持模型透明的关键。


图4(页面13)



描述:不同模型(EBM、PLTR、XGBoost、LR)在评估指标AUPRC、AUROC、F1随特征数量的变化曲线。
解读:3个指标均趋于饱和,10个左右的特征后性能提升显著减缓。EBM在所有指标中表现最佳。
文本联系:此图形量化了降维阈值,为后续简化模型提供可靠依据。


图5(页面14)



描述:EBM模型在纳入0到9个特征交互时的性能指标变化。
解读:尽管交互数量增加,性能提升有限(最高仅0.4% F1增益),显示可削减交互项简化模型。
文本联系:强调了减少模型复杂交互可行性。


---

4. 估值分析



本报告聚焦于信用违约概率模型的可解释性和特征精简,未涉及企业估值或财务估价模型,因此无估值分析章节。

---

5. 风险因素评估



报告隐含的风险因素包括:
  • 过度依赖后置解释的特征选择可能忽视潜在有价值但重要度较低的变量。尤其是在含强相关特征的数据中,SHAP对相关特征分配存在偏差。该问题通过相关性分析部分缓解。

- 特征交互虽理论上能够提升拟合,但实际表现的边际效应不高,强制简化后可能忽略复杂风险关联
  • 模型在特定数据集表现良好,但泛化能力尚待跨数据集测试验证。

- 监管合规要求及行业实际对模型解释性的具体尺度和容忍度可能变化,对模型设计提出不确定挑战。

报告未对此类风险明确给出缓解方案,但通过多步骤特征定性分析和领域专家介入,减缓部分风险。[page::8,12,13]

---

6. 批判性视角与细微差别


  • 报告一方面推崇SHAP进行特征排序,但同时承认其处理相关特征时的缺陷,建议结合相关性分析,体现自我批判和科学谨慎态度。

- EBM表现优异且解释性强,但训练迭代复杂、时间成本高,实际部署需权衡计算资源。
  • 特征交互剔除实现简化模型,但金融变量中本质的高阶关系可能部分被抹除,需结合业务知识验证。

- 研究重点在方法论层面,缺乏对不同经济周期或宏观风险冲击下模型鲁棒性的讨论。
  • 由于基准模型未做深入优化,将重点放在简化和解释上,不能展示黑盒模型的极限性能,实际应用中需谨慎考虑优化必要性。


总体,报告保持客观,重视实证与理论结合,内容自洽且充分体现方法的优势和限制。

---

7. 结论性综合



本报告提出了一种融合后置解释和玻璃盒模型构建的信贷违约概率预测框架,显著简化模型特征数量,实现88.5%以上减维,同时保持与复杂黑盒模型相当的预测性能。通过 Lending Club 这一典型数据集的实验展现了方案的可行性。核心见解如下:
  • 逻辑回归虽易解释但性能有限,黑盒模型(XGBoost)性能强但透明度差;EBM作为高性能玻璃盒模型,实现了二者平衡。

- 后置解释工具SHAP在特征排序上有效,结合领域知识和相关性分析优化,避免了特征冗余与意义混乱。
  • 交互特征作用有限,简化模型降低过拟合风险,提高解释易用性,符合监管趋势。

- 图表清晰呈现单变量效应与交互复杂度问题,支持降维决策。性能指标随特征数量饱和,优选十特征模型。
  • 未来工作建议扩展至多数据源、多周期测试,以确保稳定性和广泛应用。


最终,作者认为基于此框架的轻量化透明信用风险评分模型,更符合监管与实践对合规性和可解释性的双重需求,具备实用推广潜力。[page::0-14]

---

参考引用

  • [page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]


---

总结



本报告系统梳理当前信用风险机器学习模型面临的“性能-可解释性”权衡难题,全面介绍了SHAP等后置解释技术及高透明度的玻璃盒模型(EBM、PLTR),并创新性地提出利用后置解释指导特征筛选,结合玻璃盒模型训练,成功实现模型简化且性能稳定。实证基于真实信贷数据,性能指标覆盖全面,图表辅助分析深入透彻,体现了方法科学严谨和行业适用性。
该研究对金融机构构建合规可解释风险模型、监管机构评估机器学习应用提供了重要参考和方法论指导。

报告