`

PRIVATE AND PUBLIC SCHOOL EFFICIENCY GAPS IN LATIN AMERICA—A COMBINED DEA AND MACHINE LEARNING APPROACH BASED ON PISA 2022

创建于 更新于

摘要

本报告基于2022年PISA数据,运用数据包络分析(DEA)测算拉美地区9国2034所学校的认知与非认知效率,结合可解释机器学习( SHAP)识别效率差异驱动因素。结果显示私立学校在认知效率上领先约0.10,非认知效率领先约0.045,私校效率更集中。影响效率的关键因素包括家庭资源、学生工作参与及学校自主性等,公立低效学校则受重复率高、逃学、差的学校氛围等负面因素影响明显。研究为拉美教育资源配置与政策调整提供重要参考 [page::0][page::1][page::3][page::5][page::7][page::9][page::10]

速读内容


拉美地区公私立学校认知与非认知效率差异显著 [page::7]


  • 私立学校认知效率平均为0.865,公立为0.768,存在约10个百分点的效率差距。

- 非认知效率差距略小,为0.045,私校效率表现也更稳定。
  • 效率差距在9个国家均显现,但各国内部差异大,公立学校的效率差异显著高于私立学校。


学校效率驱动因素存在显著异质性 [page::18]


  • 私立学校效率主要受家庭ICT资源、疫情期间设备使用、图书数量以及学校自主权和教师支持影响。

- 公立学校效率受重复率、工作参与、学校氛围恶劣和学校材料匮乏等负面因素主导。
  • 疫情相关政策和远程学习支持对私校效率的提升贡献较大。


结合SHAP局部解释,典型高效私校与低效公校对比说明效率差异根源 [page::19]


  • 高效私校学生拥有丰富家庭资源(图书、PC)、低就业率和良好学校氛围,疫情期间远程学习条件优越。

- 低效公校面临高重复率、逃学率高、学生工作强度大及贫乏的远程学习支持环境。
  • 非认知效率高低差距类似,受学生态度、学校气氛和疫情冲击相关因素显著影响。


DEA模型与可解释机器学习结合探索教育效率新方法 [page::5][page::6]

  • 利用DEA获得私立及公立学校基于认知与非认知输出的效率分数。

- 采用梯度提升树(GBT)模型及SHAP解释技术识别影响效率的42个学生和学校层面变量。
  • 机器学习模型表现优于传统Logit和神经网络,适合处理大型高维教育数据。


政策启示:提升公立学校资源配置与学生非认知能力,缩小效率差距 [page::10]

  • 公立学校存在较大效率提升空间,尤其应聚焦减少认知效率异质性,实现经验共享。

- 优化学生软技能培养(如坚持性、情绪控制等)可促进认知效率提升。
  • 加强远程学习设施与支持,针对疫情带来的教育不平等开展精准干预。

深度阅读

金融研究报告详尽分析报告



---

一、元数据与概览



报告基本信息

  • 报告标题: PRIVATE AND PUBLIC SCHOOL EFFICIENCY GAPS IN LATIN AMERICA—A COMBINED DEA AND MACHINE LEARNING APPROACH BASED ON PISA 2022

- 作者: Marcos Delprato
  • 发布机构: Instituto de Investigaciones Educativas Universidad Nacional de Chilecito Argentina

- 发布时间: (未明确标注,结合引用文献时间推测为2024年及以后)
  • 研究主题: 拉丁美洲地区公立与私立学校效率比较,基于2022年PISA数据,采用数据包络分析(DEA)与可解释机器学习(IML)相结合的方法。


报告核心论点及信息


报告旨在揭示拉丁美洲地区公立学校与私立学校在教学效率上的差异,评估两者在认知成绩和非认知(软技能)输出方面的效率,并分析塑造效率差异的主要驱动因素。通过对2022年PISA数据的分析,作者发现私立学校在认知效率上平均领先公立学校约0.10(或10个百分点),在非认知效率上领先约0.045,而私立学校的效率表现也更为均质。私校高效的关键因素包括家庭藏书和电脑资源充足、学生较少参与有偿工作以及学校享有较高自治权;低效公立学校则受制于糟糕的校园氛围、高复读率、旷课率和学生高强度有偿工作等因素。报告评级倾向于支持私立学校在效率利用上的优势,目标在为政策制定提供依据以优化资源配置,特别是在疫情后教育资源紧张的背景下提出建设性的策略建议。[page::0,1]

---

二、逐节深度解读



1. 引言与背景(Section 1)

  • 内容总结: 描述拉丁美洲教育系统现状——高度分裂且私立与公立学校差异显著;疫情导致的学习危机进一步加剧教育不平等。强调学校效率作为有限资源下评估教育系统可持续性的核心概念。[page::0,1]

- 核心依据与推理: 学习低效与不平等严重,尤其疫情期间,公共学校学生受影响最大。引用多项区域学业表现和学习时间损失研究,强调区域学习差距亟需解决。[page::0-1]
  • 关键数据点:

- 2020-2021年学校平均停课270天,学习时间损失0.9-1.1年。
- 收入底层学生学习损失达81%,为顶层学生的4倍。[page::0,1]

2. 文献综述(Section 2)

  • 内容总结: 总结拉美地区及其他地区公私学校成绩及效率差异的研究现状及争议。多数研究显示私立学校有学习和效率优势,但某些国家(如西班牙部分研究)情况相反。

- 依据与推理: 私校因学生群体较优、资源较多且自主性高,可能在“产出-投入”转化效率上超过公校。权衡原因为私校学生素质差异与资源差异,导致效率差异不同视角。
  • 关键数据点:

- PISA多项研究显示私校学生成绩优于公校,优势幅度约26%-60%。
- 私校效率优势区域内约为6%左右。各国经验差异较大。
- 私校占比17%,其学生进入最高绩效前三分之一的比例达41%,远高于公校。
  • 研究缺口: 先前研究大多为疫情前数据,本研究填补疫情后区域性效率变化的空白。[page::1-3]


3. 数据与样本(Section 3)

  • 内容总结: 使用2022年PISA数据,涵盖阿根廷、巴西、智利、哥伦比亚、多米尼加、墨西哥、巴拿马、秘鲁和乌拉圭共2034所学校,其中1548所公立,486所私立。

利用新增疫情期间远程学习相关数据,丰富了学校环境特征变量,可观测疫情学业中断对效率的影响。
  • DEA模型输入输出定义:

- 输出:
- 认知:学生数学、阅读、科学测试平均分。
- 非认知:整合七个性格及软技能指标(如情绪控制、好奇心等)。
- 输入:学校基础设施(实物与教育设施)、师生比、家庭SES均值。
  • 关键数据点: 私校在家庭SES、基础设施及认知输出上均显著优于公校,认知成绩领先约59-70分,非认知软技能指数高0.07,且均具有统计学显著性。[page::3,20]


4. 方法论(Section 4)

  • DEA效率估计: 分别对私立和公立学校认知与非认知输出构建生产函数,估计技术效率,采用变动收益规模(VRS)模型(常数收益规模假设被拒绝)。效率分数使用输出导向法,介于0和1之间,1表示最高效率。

- 效率分数的随机优势检验: 对两类学校的效率分布进行一阶和二阶随机优势测试,以验证整体效率分布是否显著不同。
  • 效率驱动分析: 采用二阶段方法,第一阶段DEA估计效率,第二阶段使用可解释机器学习(IML),具体为梯度增强树(GBT)模型结合SHAP值分析,二阶段模型将效率指标转换为二元分类(高效学校=1,低效=0),以评估多达42项学生与学校变量对效率的贡献。

- 机器学习算法比较与选择: 通过5折交叉验证比较逻辑回归(Logit)、神经网络(NN)和GBT,结果显示GBT具有最佳的AUROC和AUPRC性能指标,故选用GBT进行效率驱动因素分析。
  • SHAP解释机制: 该方法量化每个特征对单一预测的贡献,允许解释模型黑盒,揭示变量在整体及单一预测中的影响机制。[page::4-7]


5. 结果分析(Section 5)



5.1 DEA效率估计结果

  • 私立学校认知效率均值0.865,公立学校较低为0.768,效率差约10个百分点。公校效率分布更分散(IQR:0.117 vs 0.083),存在更大异质性。各国间效率水平差异达0.13,乌拉圭表现最佳,多米尼加共和国内效率最低。效率差在不同国家均显著存在。

- 非认知效率上,私校依然领先,但差距缩小至约0.045,公校软技能效率还有较大提升空间(约36%在公校)。效率分布对比认知效率更为趋同,差别较小。
  • 认知与非认知效率呈正相关,公校关联更显著,提示性格特质与学业成效在弱势群体中联系更紧密。

- 随机优势测试显示,私校在认知及非认知方面均在一阶和二阶随机优势下显著优于公校,说明私校整体效率水平更高且更为均衡。[page::7-8,16-17,23]

5.2 机器学习驱动解释

  • 全局驱动分析(SHAP值排名)

- 私校认知效率高的主驱动包括家庭ICT资源、多使用数字设备、藏书数量、学校气候、自治权和教师支持。
- 公校则以不良学校氛围、重复率高、学生有偿工作和劣势学生比例为主驱动。实际学生复读率及有偿工作的影响差异巨大。
- 非认知效率驱动中,公校更受教育设备、教学支持和学校氛围影响,私校受无偿工作和政策支持影响更显著。
  • 局部驱动分析(高效私校vs低效公校对比)

- 高效私校学生藏书多、个人电脑普及、学校自治与良好氛围明显,有偿工作及旷课率极低,且在线学习障碍小。
- 低效公校复杂问题多,有高复读与旷课率、高度有偿工作、移民比例高、藏书少及作业完成难度大。教师支持和远程学习支持弱。
- 在非认知效率上,低效公校学生软技能较差、疫情期间停课长达730天,网络障碍明显;高效私校无旷课、学习参与度高,学校自治与资源优渥。[page::8-11,18-19,29]

---

三、图表深度解读



表1:样本关键变量描述统计

  • 展示公私校认知、非认知成绩及DEA输入变量的均值和标准差。

- 私校在家庭SES(均值差1.12)、学校基础设施(物理与教育设施)、认知成绩(数学、阅读、科学分别领先59~70分)及非认知软技能(0.07的指数差)显著优于公校。
  • 学生未见性别比例显著差异,师生比近似。整体展现私校资源与表现优势。[page::20]


表2:学校效率驱动变量的公私校对比

  • 大部分环境变量私校优于公校,具体包括:

- 学生背景(更多书籍、较低重复率、较低工作频率、ICT资源丰富)
- 学校特征(政府政策支持、学校自治、教学方法监督、教育阻碍较少)
- 疫情相关变量(停课时间短、远程教学工具与支持更完善)
  • 反映了私校资源投入优势及疫情期间的学业保障优劣。[page::21]


表3 & 表4:DEA效率分数(认知与非认知输出)

  • 私校认知效率均值0.865明显高于公校的0.768。跨国对比显示多米尼加共和国内公私校均最低,乌拉圭最优。

- 非认知效率依然私校优,均值为0.685,公校为0.640,且非认知效率差值小于认知效率。
  • 效率分布在私校更集中,公校则呈现较大异质性和低效率学校多样态。

- 该数据支持私校在资源与成果转换效率层面的持续优势。[page::22]

图1:效率分布及认知-非认知效率散点

  • (a)(b) 显示私校效率密度明显向高分段聚集,公校分布更分散且均值较低。

- (c) 9国私校相较公校认知效率差异均显著,非认知效率差异在部分国家不显著。
  • (d) 认知与非认知效率呈轻度正相关,尤其公校群体,说明两类技能存在一定共同影响因素。[page::16]


图2:效率分布的随机优势累计密度曲线

  • 私校效率的累计密度曲线整体低于公校,说明私校效率水平在任何分位点均优于公校,同时波动范围较小。

- 包括一阶和二阶优越性,验证了私校效率优势及其更稳定的表现。[page::17]

图3:效率驱动变量SHAP值排名对比

  • 不同变量在私校和公校中的排名差异显著,私校效率主要由资源(ICT、书籍、数字设备使用)和学校自治压力,公校效率则受教师支持、学校氛围、学生学习障碍和重复影响较大。

- 非认知效率驱动呈现类似特征但优先级有所变动,公校更多受学校环境及教师政策影响。
  • 蓝线和红线交叉表明某些变量对于两类学校重要性的巨大差异。[page::18]


图4:私校高效与公校低效学校个案SHAP详解

  • 高效私校:丰富家庭藏书、电脑支持、学校自治权强、校园氛围良好、低学生劳动参与率。

- 低效公校:糟糕校风、复读率极高、有偿工作频繁、旷课普遍、学生移民比例高、技术支持弱、远程学习障碍严重。
  • 此对比突出教育资源配置与社会经济环境对效率的决定性影响。[page::19]


---

四、估值分析



报告重点在于技术效率估算使用的DEA方法,属非参数边界估计技术。
  • 选用输出导向变动规模报酬DEA模型,适合教育资源利用最大化情景。

- 估计效率分数为0~1区间,1为最优效率,无具体货币估值或内在价值定价。
  • 效率驱动力分析结合机器学习算法,评估大量混合变量对效率分值属于顶尖类别概率的影响,为政策优先级排序提供量化依据。

因此,估值以效率分数体现投入产出匹配效果,非传统市值或资产估值方法。
这一创新混合方法兼具定量准确性与解释力,提升教育评估的政策反馈能力。[page::4-7]

---

五、风险因素评估



报告未单独设风险章节,但隐含风险因素包括:
  • 数据完整性和偏差: PISA数据虽全面,但受疫情延迟与国家间采样差异影响,存在未覆盖或数据缺失风险(例如排除哥斯达黎加、巴拉圭)。

- 模型假设局限: DEA假设技术边界和同质性有限,未能完全控制学校间非观察变量差异及潜在内生性冲突。
  • 效率驱动解释复杂性: 机器学习模型黑盒固有风险,虽用SHAP增强解释,但仍可能遗漏变量交互或潜在制度影响。

- 社会经济与政策变动风险: 经济不稳定或政策转变可能影响资源分配及学校自治权,从而影响效率表现的持续性。
报告通过多国大样本及稳健性分析部分缓解了风险,但对未来干预政策的现实实施挑战需重视。[page::3,26-27]

---

六、批判性视角与细微差别


  • 潜在偏见: 报告中心论点倾向突出私立学校效率优势,然而私校生源选择性和资源优势本身可能导致效率评价不可完全归因于管理或教学质量。

- 内生性问题未充分讨论: 例如学生家庭背景与学校类型的关联,可能导致对效率差异原因解读偏颇。
  • 疫情影响复杂难以量化: 疫情变量虽新颖纳入模型,但疫情对心理健康、家庭环境及远程教育的长期影响仍具不确定性。

- 效率衡量的片面性风险: 技术效率集中于输入-产出转换,未充分考虑教育公平、质量多维度或学生长期发展可能的非量化影响。
  • 各国异质性对比解读谨慎: 报告指出有效校内部异质性较大,提示单一国别政策推广受限。

这些细节应成为后续深入研究的方向,以提升结论稳健性。[page::2-3,10-11,26-27]

---

七、结论性综合



本文以2022年PISA数据为基础,系统地评估了拉丁美洲9国2034所中学的公私学校认知与非认知教育效率差异。通过DEA技术效率估计结合基于梯度提升树的可解释机器学习,论文清晰展现出私立学校在教育资源转化效率上的普遍优势:
  • 认知效率私校领先约0.10,非认知效率领先约0.045。同时私校效率表现更均质,公校存在较大效率差异空间:公校认知效率平均仍有23%-24%提升潜力。

- 效率差异跨国存在且均显著,特殊国家如乌拉圭表现优异,多米尼加相对落后。
  • 驱动因素分析表明,私校效率高主要由丰富的家庭和学校资源、学生较少有偿工作、学校高自治权等因素驱动,而公校低效与校园氛围差、学生重复率和劳动负担重密切相关。

- 非认知与认知效率相关性尤其在公校中显著,提升学生软技能有助缩小效率差距。
图表深刻揭示了资源、社会经济背景及学校管理策略在效率塑造中的核心角色,政策启示为需加强公校资源配置、改进学校气氛、限制学生有偿劳动并强化软技能培养,尤其关注弱势学生群体的学业支持。
综合来看,报告支持私校效率优势存在的同时,强烈呼吁通过科学政策干预和资源再分配,推动公校效率提升,减少教育不平等,加速拉美疫情后教育复苏与公平持续发展。[page::0-11,16-19,29]

---

参考引用标识

  • 文章中所有核心论点、数据、模型解释及结论均明确标注溯源页码,方便后期文本自动化追溯和引用匹配。

- 本分析严格基于报告内容,杜绝主观臆断,保持专业客观立场。

---

(全文完)

报告