`

Machine Learning with Multitype Protected Attributes: Intersectional Fairness through Regularisation

创建于 更新于

摘要

本文提出基于距离协方差(distance covariance)的正则化框架,以实现多样化类型保护属性下的机器学习模型公平性。针对传统方法忽略多属性交叉群体公平性(公平划区问题),引入联合距离协方差(JdCov)和新颖的拼接距离协方差(CCdCov)作为正则化项,既捕捉线性和非线性依赖,又兼顾高效计算。通过调整调节参数平衡预测准确率与公平性,采用Jensen-Shannon散度辅助校准,实现了对分类和回归任务中多元保护属性公平性的有效控制。实证以COMPAS再犯预测及大型汽车保险索赔数据验证方法有效性,显著减小了交叉群体间预测差异,同时保留合理的预测性能 [page::0][page::1][page::2][page::5][page::6][page::14][page::15][page::16][page::17][page::19][page::20][page::23]

速读内容


研究背景与挑战 [page::0][page::1][page::2][page::4]

  • 机器学习广泛应用于金融与管理,但模型易继承或放大数据偏差,产生歧视。

- 现有公平性方法多假设保护属性为二元分类,且单一属性考虑,忽略多属性交集群体(公平划区)[page::1]。
  • 交叉群体公平性难以通过单独保证各属性公平实现,存在隐藏的不公平性风险[page::4]。


主要贡献 [page::2][page::3][page::6]

  • 采用距离协方差(dCov)测量模型输出与保护属性间依赖,具备捕捉线性及非线性、多类型属性优势。

- 提出联合距离协方差(JdCov)和拼接距离协方差(CCdCov)两种多属性正则化器,首创新颖方法应对公平划区。
  • CCdCov避免JdCov可能的数值不稳定,专注于模型输出与联合属性的依赖,适用范围广。

- 利用Jensen-Shannon散度定量衡量不同子群预测输出分布差异,辅助正则化强度λ的校准。

量化正则化框架核心与实现 [page::6][page::8][page::9][page::10]

  • 优化目标加权平衡预测损失与公平正则化项,正则化项基于距离协方差实现模型输出与保护属性统计独立。

- JdCov正则化算子考虑所有高阶依赖,惟可能因保护属性相依导致训练数值不稳定。
  • CCdCov通过拼接多属性向量计算距离协方差,仅惩罚必要依赖,数值表现更稳健。

- 正则化项可基于偏差校正估计器,计算复杂度为O(n²),显著优于部分核方法的O(n³)。

模型评估指标与超参数调优 [page::10][page::11][page::12][page::13]

  • 分类与回归均选用适当的准确率指标(如排名概率分数RPS)与公平性指标(如UF、Jensen-Shannon散度)。

- 实证建议以Jensen-Shannon散度为主的公平性指标校准λ,兼顾准确率维持实用性能。
  • 通过训练-验证分割结合贝叶斯优化,固定网络超参数,分阶段选择最优正则化强度。


实证应用:COMPAS 数据集 [page::14][page::15][page::16][page::17][page::18][page::19]

  • 分类任务:考虑二元性别、四分类种族和连续年龄(处理为连续输入、离散化评估)。

- 数据初探显示族裔、性别和年龄的明显差异及交互效应。
  • 正则化强度调参显示两种正则化均有效降低子群间Jensen-Shannon散度(公平度提升),但存在JdCov数值稳定性问题。

- 选择λ=10(JdCov)和λ=25(CCdCov)作为平衡点。测试集结果证实正则化显著减小公平性指标,精度略有下降。
  • 不同模型在不同程度上均实现子群预测率的均衡,CCdCov表现出更平滑稳定的公平性改进。






实证应用:汽车保险索赔数据 [page::19][page::20][page::21][page::22]

  • 回归任务:关注二元性别和十分类地区作为保护属性,且二者独立。

- 保护属性未入模型输入,避免直接歧视。正则化缓解代理变量引起的潜在不公平。
  • JdCov和CCdCov均有效减少公平性指标,正则调整后模型预测输出在子群间分布更趋一致。

- 在相似公平度水平上,CCdCov正则化模型预测准确率更优。



量化因子与策略梳理

  • 研究未涉及典型量化因子构建或量化交易策略,仅围绕公平性正则化理论、算法及其在分类与回归上的实证应用开展,属于模型方法与统计学习范畴。[page::3][page::6][page::8][page::9]


附加发现与未来展望 [page::23]

  • 解决多类型保护属性、多元公平以及跨回归与分类任务的普适公平性控制问题。

- 建议扩展至其他公平性准则与无缝处理连续保护属性的方法。
  • 期待设计针对数据稀疏子群条件下的公平性提升技术。


深度阅读

金融研究报告深度分析报告



---

1. 元数据与概览


  • 报告标题:Machine Learning with Multitype Protected Attributes: Intersectional Fairness through Regularisation

- 作者:Ho Ming Lee, Katrien Antonio, Benjamin Avanzi, Lorenzo Marchi, Rui Zhou
  • 发布机构

- Centre for Actuarial Studies, Department of Economics, University of Melbourne, Australia
- Faculty of Economics and Business, KU Leuven, Belgium
- Faculty of Economics and Business, University of Amsterdam, The Netherlands
- LRisk, KU Leuven, Belgium
- LStat, Leuven Statistics Research Centre, KU Leuven, Belgium
  • 日期:不明确(由内容判断为2023-2024年间)

- 主题
- 机器学习中的公平性问题,特别针对多种类型保护属性的交叉公平(intersectional fairness)
- 运用距离协方差(distance covariance)正则化框架,实现群体公平性检测和缓解
- 关注回归和分类任务,包括连续保护属性(如年龄)
- 应用场景包括刑事风险评估(COMPAS数据集)和机动车保险理赔

核心论点与贡献

本报告提出了一套基于距离协方差的公平性正则化框架,以处理多类型、多属性保护特征的交叉公平问题,克服现有方法单一属性、二元分类限制。其创新点在于引入联合距离协方差(JdCov)和新提出的串联距离协方差(CCdCov)两种正则器,有效缓解所谓的“公平划分”问题(fairness gerrymandering),即单个属性公平不代表交叉子群公平。文中同时详细阐述了正则参数λ的校准方法,基于Jensen-Shannon散度(JS-divergence)直观衡量预测分布间的差异,兼顾精度与公平的权衡。

两大实证应用展示了该方法的适用性和效果:
  1. COMPAS刑事再犯风险数据(包含混合型保护属性)

2. 大规模机动车保险理赔数据(回归任务)

---

2. 逐节深度解读



2.1 摘要与引言 (Abstract 与 Sections 1.1-1.3)


  • 公平性的定义与挑战

机器学习中的公平性主要关注保护属性(如性别、种族等)下预测无偏差,但多数文献限于二元分类和单属性,忽视多个属性同时作用下的更复杂偏差。尤其面对连续保护特征(如年龄)场景,现有方法不适用。
  • 核心方法框架

利用距离协方差(dCov)度量预测结果与保护属性间的统计依赖关系,该指标独特优势是能检测线性与非线性甚至多维随机向量间的独立性。通过构造正则化损失项,将dCov作为公平损失,使模型在训练中权衡预测准确度与公平性。
  • 处理多属性交叉公平

引入联合距离协方差(JdCov)度量模型输出与保护属性联合分布的依赖,涵盖了所有一级及高阶关联,但存在数值不稳定问题;针对该局限,报告提出串联距离协方差(CCdCov),将多属性拼接为单一向量,避免不必要的高阶关联惩罚,提升稳定性。
  • 正则化强度调节

拟合框架中包含参数λ,控制准确度与公平性权衡。作者建议采用JS散度评价子群预测分布差异进行λ调校,这种基于分布的度量优于仅考察均值或显著性检验,更灵活且解释性强。
  • 举例说明

用COMPAS数据演示,不同方法下多个群体及交叉群体的预测偏差明显,强调多分类和多属性公平性方法的必要性。

---

2.2 现有公平性定义与技术挑战 (Section 2)


  • 公平性分类

- 个人公平(individual fairness):相似个体应有相似预测
- 群体公平(group fairness):统计量在保护群间相等
本文选用群体公平中的“人口统计平等”(demographic parity),要求对所有保护子群(包括多维交叉属性)模型预测必须在分布上独立。
  • 公平划分(Fairness Gerrymandering)

多属性公平若只照顾单属性,则可能掩盖交叉子群不公平,产生“划分失真”问题。强调必须保证模型预测对联合保护属性分布的独立性,才能避免这一陷阱。
  • 代理歧视(proxy discrimination)

即使模型未直接使用保护属性,其他特征如地理位置可能作为代理引入歧视,因此公平性正则应涵盖这些间接关联。

---

2.3 现有公平性缓解方法回顾 (Section 2.3-2.4)


  • 三种主流技术路线

- 预处理(pre-processing):对输入数据去偏
- 中间处理(in-processing):训练过程加入公平约束
- 后处理(post-processing):调整模型预测结果
本文属于中间处理中的明确正则项方法,具有良好的透明度和灵活可控性。
  • 现有方法局限

- 多集中于二分类与二元保护属性
- 多依赖线性相关测度,难以捕捉复杂关系
- 多个保护属性时未解决公平划分或计算复杂度高
- 面向回归问题的方法有限,更少考虑混合属性类型
- 一些核方法虽全面,但计算复杂度高达$O(n^3)$,不可扩展
- 本文方法计算复杂度$O(n^2)$,兼顾效率与效果。

---

2.4 模型与正则器设计 (Section 3)


  • 目标函数


$$
\min{\Theta} \left\{ \frac{1}{n} \sum{i=1}^n \mathcal{L}(\hat{\mathbf{y}}{\Theta i}, \mathbf{y}i) + \lambda \cdot \psi(\hat{\mathbf{y}}{\Theta}, \mathbf{s}1, ..., \mathbf{s}d) \right\}
$$

- $\mathcal{L}$:预测损失(MSE、交叉熵等)
- $\psi$:公平损失,基于距离协方差
  • 单属性正则器


$$
\psi(\hat{\mathbf{y}},\mathbf{s}) = \widetilde{dCov}^2(\hat{\mathbf{y}},\mathbf{s})
$$

采用带偏校正的无偏估计,计算复杂度$O(p
0 n^2)$,$p0$为维度。
  • 多属性正则策略


1. 逐属性距离协方差求和(简单但忽略交叉公平)

2. 联合距离协方差(JdCov)

$$
\psi = \widetilde{JdCov}^2(\hat{\mathbf{y}}, \mathbf{s}
1, ..., \mathbf{s}d) = \sum{k=1}^d \widetilde{dCov}^2(\hat{\mathbf{y}}, \mathbf{s}k) + \sum{1\leq kk, \mathbf{s}l) + \zeta(\hat{\mathbf{y}}, \mathbf{s}1, ..., \mathbf{s}d)
$$

- 兼顾所有边际和高阶依赖
- 存在数值不稳定,特别当保护属性相关时,目标函数理论无法逼近零

3. 串联距离协方差(CCdCov)

将所有保护属性拼接成一整体向量,度量模型输出与此拼接向量的依赖:

$$
\psi = CCdCov(\hat{\mathbf{y}}, (\mathbf{s}1, ..., \mathbf{s}d))
$$

既度量了边际关联也捕获联合依赖,同时避免JdCov的数值问题。
  • 定理3.2.1详细证明了CCdCov可分解为边际+联合两部分,$ \eta $项为联合修正项,有效捕获交叉子群公平度。


---

2.5 模型性能评估与超参校准 (Section 4)


  • 准确度指标

- 分类任务:排名概率得分(RPS),能综合评价预测概率分布的正确性,越低越好。
- 回归任务:连续型RPS(CRPS)或泊松离差(Poisson deviance)等。
  • 公平性指标


1. 基于均值:不公平度度量$UF$,反映子群预测均值方差,但易漏掉分布形态差异。

2. 统计显著性:通过距离相关的$\chi^2$检验和置换检验评估模型预测与保护属性独立性,局限在样本量敏感且难区分属性间内在相关性和模型不公平性。

3. 分布相似度:JS散度,量化各子群预测分布与总体分布的差异,适合用于$\lambda$的直观校准。
  • λ校正流程

1. 先训练不含正则的基准模型调好超参。
2. 在子训练集上用不同λ训练,验证集上用JS散度与相应准确度指标评估,观察公平-精度折中走势。
3. 选择折中“肘点”作为合适λ。在正式模型选定λ后,再用全训练集重训并测试。

---

2.6 实证应用与结果分析 (Section 5)



5.1 COMPAS刑事再犯预测


  • 数据与保护属性

- 分类任务,二元因变量(是否两年内再犯)
- 三个混合型保护属性:性别(Female)、种族(Ethnicity, 四类)、年龄(连续)
- 种族和年龄显著相关(Kruskal-Wallis H检验$p=6.3 \times 10^{-46}$)
  • 正则器及校准

- 测试JdCov和CCdCov两种正则器
- 使用JS散度对λ进行调参,λ范围0-80,步长5
- 结果显示两者均减少JS散度,提升公平性,但JdCov在高λ下出现数值不稳定(JS散度非单调)
- 选择JdCov λ=10,CCdCov λ=25作为平衡点
  • 验证与性能

- 公平-准确度权衡明显:正则化提高公平性(降低JS, UF)的同时牺牲部分预测准确度(RPS提高,ACC下降)
- 测试集预测显示,正则化后年龄与性别、种族交叉子群的再犯率预测更均匀,曲线趋平
- 但因样本有限,极端年龄子群存在不稳定性
- 统计独立性假设检验均拒绝,表明模型未实现完全独立,仅为减轻偏差
  • 图表细节

- 图1.1(前文)和5.3展示无正则与正则模型下分组及交叉分组预测偏差显著减少
- 图5.2展示λ对JS散度和RPS影响趋势,反映公平和准确度折中关系
- 表5.1和5.2详细报告各λ下公平以及准确度指标表现

5.2 机动车保险理赔预测(pg15training数据集)


  • 数据与任务

- 回归任务,泊松回归预测索赔次数
- 保护属性为性别(Female,二元)和地区(Region,10类),二者独立(卡方检验$p=0.596$)
  • 模型设定

- 保护属性不作为输入,防止直接歧视
- 同样使用CCdCov与JdCov正则器,λ范围0-150,步长10
  • 结果

- 增加λ降低JS散度,减少分组间预测分布差异
- CCdCov在相似公平水平下展现更低RPS,准确度更好
- 选择CCdCov λ=40,JdCov λ=30作为均衡点
- 正则化模型预测分布更接近整体分布,减少通过地区和性别形成的不公
- 训练集与测试集结果一致,说明模型未过拟合
  • 图表细节

- 图5.4反映λ对公平和准确的影响
- 图5.5显示无正则和正则模型对各地区及性别的预测分布及累计分布函数
- 表5.3和5.4提供数值指标补充

---

2.7 其他章节摘要简述


  • 第6节结论

- 总结提出的基于距离协方差的公平正则框架,特别强调CCdCov在解决多属性、多类型保护特征的交叉公平问题上的有效性与稳定性
- 强调公平与准确的权衡可调控,提出基于JS散度的直观校准方法
- 实证展示两种典型场景的广泛适用性
  • 附录

- 对距离协方差及联合距离协方差的理论定义及无偏估计展开了详细数学推导
- 证明了CCdCov的分解定理
- 介绍了神经网络模型架构与基于AdaHessian的梯度二阶优化方法
- 详细说明公平性指标、准确指标及校准步骤
- 提供两个实证数据的详细预处理、模型调参及训练细节
- 讨论样本量有限时的不平衡问题与缓解策略(正则强度调整、过采样)


---

3. 图表深度解读



3.1 COMPAS数据公平性干预图(Figure 1.1,Page 2)


  • 描述

- 图1.1分为两行六个子图,前3个关注单一保护属性(性别、二元种族、多元种族类别)预测的再犯平均率,后3个关注性别与种族的交叉子群预测率
- 三种模型:无干预(蓝色)、仅二元种族公平(橙色)、本文提出的多属性公平正则(黑色)
  • 解读

- 无干预模型存在明显性别和种族(尤其多类别种族)差异,且交叉子群波动大
- 仅针对二元种族施加公平约束能缓解二元种族差异,但无法处理性别及多类别种族下细分不公平,反映公平划分问题
- 本文提出方法均衡所有单属性和交叉子群预测,显示对复杂多属性公平的有效捕获与干预
  • 联系文本

- 图示是证明公平划分问题和方法优越性的直观证据,强调了多属性联合考虑的必要性和本文方法的优势

3.2 λ校准曲线与准确度公平度权衡(Fig.5.2与Fig.5.4, Pages 16和20)


  • 描述

- 横轴为正则强度λ,左图纵轴为JS散度(衡量分布差异),右图纵轴为RPS(准确度指标),右图将两者作直接关联展示权衡曲线
- 比较两种正则器JdCov和CCdCov
  • 解读

- 随λ增加,JS散度迅速下降,公平度提升,但RPS上升,准确度下降,呈现典型权衡
- COMPAS数据中,JdCov在低λ时表现较好但高λ出现不稳定
- pg15数据中,CCdCov表现更优,显示其更适合保护属性独立的场景
- 用户可据此决定合适λ,实现公平与准确度的平衡

3.3 预测结果分布曲线(Fig.5.3和Fig.5.5, Pages 18和22)


  • 描述

- 5.3为年龄-性别-种族交叉子群的平均预测再犯率随年龄变化的平滑曲线
- 5.5为机动车理赔预测的条件概率密度估计和累积分布函数,不同颜色代表区域,线型代表性别
  • 解读

- 无正则时,子群间预测明显差异,且存在随年龄变化的显著曲线差异
- 正则化后曲线更平滑,子群间预测更趋一致,反映公平性提升
- 理赔预测分布形态也趋于一致,Root均值偏差和JS散度指标均显示改善
- 该可视化直观展现了方法实质对公平性的促进作用

3.4 附录I:有限样本量问题及缓解(Fig.I.1/I.2, Pages 42-43)


  • 描述

- 图I.1和I.2展示了通过增强正则强度和过采样缓解数据不平衡对预测公平的影响
  • 解读

- 正则强度增大可缓解多数子群不平等,但数据稀疏处效果有限
- 过采样能提升少数子群预测一致性,但带来准确度轻微下降
- JdCov正则在数据依赖时数值稳定性较差,表现抢戏
- 这提示模型训练中应兼顾数据采样策略

---

4. 估值分析



本研究为机器学习公平性研究,未涉及公司直接估值,但其提出的方法对金融和保险公司定价、公平风险评估具有实际应用价值。公开文献未呈现传统估值模型,方法基于统计学和计算机科学理论,内嵌在整体神经网络学习流程中。

---

5. 风险因素评估


  • 模型数值不稳定性风险

由于JdCov正则器包括保护属性间依赖而非仅模型预测关联,若属性相关性强,目标函数无法趋近零,过大λ导致训练不稳定
  • 数据稀疏及小子集风险

特别对交叉子群存在数据稀疏时,公平正则效果受限,部分极端组预测偏差较大
  • 代理变量风险

即使保护属性未直接使用,存在代理歧视风险,模型需对潜在代理变量的依赖加以控制
  • 准确度公平平衡风险

过度追求公平可能牺牲预测性能,误导决策

缓释策略
  • 采用CCdCov缓解数值不稳定

- 通过正则化强度λ调整权衡,结合实际应用需求选择
  • 尝试过采样等数据增强方法缓冲稀疏风险

- 明确用JS散度与准确指标综合评价

---

6. 批判性视角与细微差别


  • JdCov潜在性能局限:因包含保护属性间联系,训练时不可控高阶项影响优化,易导致数值上不稳定且正则强度无法随意加大,限制其实用范围。

  • CCdCov虽有数值优势,但可能忽略部分复杂高阶依赖,公平缓解作用理论上较JdCov弱,但实证中多为优化选择。
  • 样本量问题提示公平方法需结合数据工程策略,单纯算法改进不足。
  • λ选择主观性较强,现实中必须结合合规与伦理背景制定,缺乏自动化或统一标准。
  • 公平指标选择及应用仍有争议,报告固守人口统计平等,忽视潜在个体公平及其它公平理念的适用性。


---

7. 结论性综合



该研究创新性地将距离协方差及其扩展引入机器学习公平性正则化,支持多属性、多类型保护特征的联合公正衡量与控制。提出的联合距离协方差(JdCov)完善捕捉多维依赖,但存在数值技术难题;其替代方案串联距离协方差(CCdCov)则平衡稳定性与效果,尤其适合保护属性相关性较强以及规模较大的应用。

实证部分基于公开刑事再犯风险数据(COMPAS)和大规模保险理赔数据(pg15training)验证了方法普适性和有效性:
  • 在COMPAS数据中,CCdCov和JdCov均成功降低了性别、种族和年龄交叉子群的预测不公平,验证了方法对复杂混合属性的处理能力。

- 在保险数据中,CCdCov展现更佳准确度与公平平衡,且避免了JdCov潜在的不稳定问题。

图表充分支持结论:
  • Figure 1.1直观展示基线与多种公平干预下多属性和交叉子群的预测差异,突出本文方法的优势。

- Figure 5.2, 5.4阐释正则参数调节时公平指标(JS散度)与准确度(RPS)的权衡关系,强调模型灵活可调控。
  • Figure 5.3, 5.5和附录图示展现了公平正则对预测分布的具体影响,呈现均匀化效果。


本报告为金融保险业尤其是监管环境日益关注公平性的场景贡献了重要数学方法和实用工具。该框架为监管制定公平合规模型、避免资源分配不公和法律风险提供了科学支撑。

未来工作方向包括:扩展至其它公平定义,自动、动态正则参数选择,以及针对小样本子群的专门方法。

---

参考标注


  • 核心模型与方法解释源于第1-3章[page::0,1,2,3,6,7,8,9]

- 评估指标与调参过程详见第4章[page::10,11,12,13]
  • COMPAS实验及图表详解见第5.1章[page::14,15,16,17,18,19]

- 机动车保险数据实证及图表详解见第5.2章[page::19,20,21,22]
  • 结论与未来展望见第6章[page::23]

- 附录数学证明与算法细节广泛引用[page::28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46]

---

此分析力求对原文所有重要论点、数据、方法做了详尽、有深度的诠释,兼顾数学理论与实务应用,供专业金融与机器学习研究人员参考。

报告