`

Out-of-sample gravity predictions and trade policy counterfactuals

创建于 更新于

摘要

本文提出了基于机器学习方法(如随机森林、神经网络)与传统引力模型比较的框架,评估引力模型在样本外贸易预测及政策反事实分析中的表现。结果表明,三向固定效应引力模型在估计贸易政策影响的一致性方面表现优异,难以被机器学习方法超越;而机器学习方法在单个双边贸易流预测上可略胜一筹,但需纳入固定效应信息。这进一步确认了三向引力模型作为贸易政策分析主流工具的合理性 [page::0][page::11][page::12][page::13]

速读内容


引力模型在贸易政策分析中的核心作用 [page::0][page::1]

  • 引力模型根据国家GDP、距离等变量预测双边贸易流,广泛用于评估区域贸易协定(RTA)等政策影响。

- 通常通过引入RTA虚拟变量估计政策影响,传统关注样本内拟合优度,而本文强调样本外预测能力的重要性。

研究方法和模型设定 [page::2][page::4][page::5][page::6]

  • 采用联合国商品贸易(UN Comtrade)数据构建的贸易流面板。

- 比较传统引力模型及其三种变体(1向、2向、3向固定效应)与几类机器学习方法(随机森林、梯度提升、神经网络及其集成)。
  • 机器学习模型分别在无固定效应和含三向固定效应两种情形下估计,确保公平比较。


样本外预测性能评价指标体系 [page::7][page::8][page::9]

  • 利用1,000次重复抽样评价预测准确性。

- 设定两类指标:估计政策效应相关的平均预测准确性(Imputation Estimator均值、方差、均方误差);及单个样本预测误差指标(RMAE、RRMSE、样本外R²)。
  • 区分估计和预测两类任务,强调前者允许误差抵消,后者需要精准预测每个样本。


样本设计与实验设置 [page::9][page::10]

  • 设计“内生处理”(样本选择与双边固定效应相关)和“外生处理”两个对照实验。

- 通过比例概率抽样确定预测样本,区分政策影响可能存在的内生偏误。

主要结果总结:三向固定效应模型的优势 [page::11][page::12]


  • 在内生处理场景中,3向模型的Imputation Estimator均值最接近1(0.993),标准误和均方误差最低,预测指标RMAE和RRMSE表现最佳,样本外R²最高(0.914)。

- 2向引力模型表现不佳,主要由于无法消除政策内生性偏误。
  • 机器学习方法部分指标接近甚至优于3向模型,但标准误较大,集成模型加固定效应(E-FE)在多个指标上表现优异。

- 对单点预测,机器学习带固定效应的模型(E-FE)能优于3向模型,但整体3向模型优于绝大多数机器学习方法。
  • 增加机器学习拟合值的复合3向模型表现反倒下降,显示过拟合风险。


外生处理场景结果一致,强化结论 [page::12]


  • 3向模型在估计指标上持续领先,E-FE集成模型标准误较小,均方误差接近。

- 2向模型改善明显,提升原因是外生处理消除政策内生偏误。
  • 机器学习模型再次在单点预测上占优,但在均方误差和R²方面不及3向模型。


结论与启示 [page::13]

  • 引力方程尤其是含双边、出口国时、进口国时固定效应的3向版本,难以被机器学习方法在估计贸易政策因果效应任务上超越,验证其作为政策分析基础工具的合理性。

- 机器学习方法对于预测单个双边贸易流稍有优势,但需利用从3向模型提取的固定效应信息。
  • 后续工作可借鉴本方法验证不同数据集和算法的稳健性。

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览(引言与报告概览)


  • 报告标题:Out-of-sample gravity predictions and trade policy counterfactuals

- 作者:Nicolas Apfel, Holger Breinlich, Nick Green, Dennis Novy, J.M.C. Santos Silva, Tom Zylkin
  • 发布时间:2025年9月

- 主题:国际贸易中的重力模型及其在贸易政策评估中的预测性能,特别关注其在逆向样本(out-of-sample)预测能力以及与机器学习方法的对比。
  • 核心论点摘要

- 重力方程(gravity equations)是评估贸易政策(如区域贸易协定RTAs)效果的经典工具。
- 该报告强调,重力方程的逆向样本预测能力是评估其作为反事实分析工具适用性的关键。
- 比较了传统的多种重力模型结构(尤其是3-way模型)与多种机器学习预测方法(随机森林、神经网络、梯度提升和集成方法)的表现。
- 结论指出,3-way重力模型在逆向样本平均预测表现中难以被超越,进一步确立其作为贸易政策分析主流工具的地位。但在预测个体双边贸易流时,基于机器学习的集成方法有时会优于3-way模型。
  • 评级/目标价:报告为学术研究性质,未提供评级或目标价。

- 作者意图传达信息
- 推动学界重新评估重力模型的预测效能,尤其关注逆向样本预测性能与政策效应估计的关联。
- 介绍一种系统化比较不同预测模型(传统计量经济模型和机器学习模型)逆向样本性能的方法。
- 讨论3-way重力模型为何依然是业界评估贸易政策影响的“金标准”。

---

2. 逐节深度解读(逐章精读与剖析)



2.1 引言(Section 1)


  • 关键论点总结

- 重力模型因其解释贸易流动的高内样本拟合度(R²约70-80%)广泛用于贸易政策分析。
- 现有研究大多关注内样本性能,而忽视了逆向样本预测性能,后者对于反事实预测和政策效果估计更为关键。
- 作者提出用机器学习方法与传统重力模型逆向样本预测能力对比,检视传统模型优劣。
  • 推理依据

- 真实政策评估中,无法观测“无政策”反事实贸易值,只能依赖模型预测,该预测必须具备良好逆向样本泛化能力。
- 机器学习技术自诞生即强调逆向样本预测,因而具备与重力模型比较的价值。
  • 数据与假设

- 假设传统基于固定效应的重力模型内样本表现好,但可能过拟合,不保证逆向样本性能。
- 贸易效果评估依赖反事实预测的准确性,因此关注出样预测。

2.2 理论框架与方法(Section 2和3)


  • 关键论点总结

- 利用简化模型表达政策影响估计中,逆向样本预测的准确性如何影响政策效应的估计一致性。
- 展示出样预测差异对估计偏误的影响。
- 明确模型评估包含选择训练与测试集,用多次重复检验模型泛化能力的方法。
  • 推理依据

- 均值预测准确即可保证政策效应估计一致,但单独观测预测误差需更精细度量。
  • 关键公式解释

- 方程 \( E(y{ijt} | D{ijt}) = y^0{ijt} e^{\tau D{ijt}} \) 说明:\( y^0{ijt} \) 为无政策情景下的预期贸易流,\( \tau \) 为政策影响的对数。
- 估计策略依赖于准确预测 \( y^0
{ijt} \),此值不可观测,只能通过出样预测模型估测。
  • 评估步骤

- 明确数据分割(训练集、测试集)、模型估计及预测流程。

2.3 模型介绍(Section 4)


  • 核心模型

1. 传统重力模型:用GDP和距离等变量直接线性回归预测贸易流。
2. 2-way重力模型:包含出口国时间和进口国时间固定效应,解决多边阻力对贸易流预测的影响,剔除GDP变量。
3. 3-way重力模型:在2-way基础上加入双边固定效应,以控制因双边不可观测异质性导致的内生性问题,是目前文献的主流推荐模型。
4. 1-way模型:仅双边固定效应,附加GDP变量。
  • 机器学习模型

- 随机森林(RF)、梯度提升(GB)、神经网络(NN)、及三者集成(Ensambled, Ens)。
- 机械学习模型均考虑两个版本:使用传统协变量和在协变量中加入3-way模型固定效应以公平比较。
  • 逻辑与假设

- 机器学习方法更灵活,不受传统模型结构限制,可能提高预测准确率。
- 各模型的比较旨在检验经典理论模型能否被更先进的机器学习工具超越。

2.4 实证设计与预测评估(Section 5)


  • 评估指标

- 估计性质指标:平均估计器(IE)、其标准差(SEIE)、均方误差(MSEIE),评估平均层面上的偏差和稳定性,关联政策效应估计的稳定性。
- 预测性质指标:RMAE(相对平均绝对误差)、RRMSE(相对均方根误差)、逆向样本R²,重点衡量单个观测单位预测准确度。
  • 数据来源

- UN Comtrade数据库,覆盖1990–2023年约100大出口国,覆盖全球出口超98%。
  • 样本构造

- 平衡面板,约26万条双边贸易对观测。
- 两类样本拆分:内生处理组(贸易协定形成与双边固定效应相关)和外生处理组(无关联)。
  • 评估程序

- 训练-测试集随机抽样,重复1000次,确保统计稳健性和测度稳定。
- 机器学习模型采用内部交叉验证调参,传统一般无须。

2.5 主要实证结果(Section 5.4)


  • 内生处理情况(Table 1):

- 3-way重力模型在估计一致性的IE指标最优(1.0附近),误差指标也优于其他模型;
- 机器学习集成模型(E-FE)IE均值接近1且SEIE较小,与3-way模型并驾齐驱;
- 预测单个贸易流时,机器学习方法(E-FE)RMAE和RRMSE优于3-way模型,但3-way模型R²最高,且除了少数模型,表现整体优越;
- 其他模型如传统和2-way性能较差,特别2-way因未控制双边固定效应导致内生性偏差;
- 3-way-ML模型(3-way增加机器学习预测)性能下降,推测过拟合。
  • 外生处理情况(Table 2):

- 3-way模型IE表现依然最优,2-way模型表现较前有所提升,表明内生性对2-way模型影响显著;
- 机器学习集成方法再次在预测表现上优于3-way模型,但两者在平均预测偏差及误差平方差指标极为接近。
  • 整体结论

- 3-way重力模型仍是估计政策干预效果的优选工具;
- 在个体贸易流预测中,机器学习集成方法在加入固定效应后具有优势;
- 复合复杂模型或叠加机器学习未必显著优于经典3-way模型,提示传统模型已高度优化。

---

3. 图表深度解读



表1(内生处理样本预测结果)为例详解:
  • 描述

- 表1左侧显示了4种重力方程模型的估计性能指标(Mean IE
k, SEIE, MSEIE),右侧为多种机器学习方法的同类指标。
- 下半部分展示预测个体观测值误差指标(RMAE, RRMSE, out-of-sample R²)。
  • 数据与趋势解析

- 3-way模型Mean IEk为0.993,最接近理想的1,说明平均预测无系统偏差;
- SE
IE和MSEIE均为最小,说明3-way预测最稳定且波动最小;
- 机器学习模型,特别是E-FE,具有竞争力的IE指标,但整体误差稍大;
- 预测指标RMAE显示3-way模型(0.260)紧随E-FE(0.243)之后,RRMSE类似,机器学习稍优;
- 3-way模型out-of-sample R²达到0.914,最高,表明解释力强;
- 传统模型和2-way模型指标均显著劣于3-way,验证 bilateral fixed effect 重要性。
  • 文本关联

- 表1支持主要结论:3-way模型在平均预测一致性上领先,机器学习能改善个别数据点预测,但两者在因果估计可靠性上不相上下。
  • 底层数据或限制

- 选样含内生性,可能使固定效应模型优势更明显,实证结果带有一定样本设计依赖;
- 机器学习模型依赖预估固定效应,凸显这类信息对预测质量的重要性;
- 3-way-ML模型表现不佳可能指示机器学习与传统模型简单叠加带来的过拟合风险。

类似解读也适用于表2(外生处理样本),它帮助验证结论的稳健性,显示模型偏差和误差在不同样本结构下的变化。

---

4. 估值分析



此报告非企业财务估值报告,未包含资产估值或目标价推算。涉及估值的相关内容为:
  • 估计模型即为经济学中贸易流的结构性重力模型,而非财务估值模型。

- 估计过程采用指数形式的伪最大似然估计(PPML)方法,能更好处理零贸易流问题,减少偏差。
  • 机器学习模型参与预测权衡,作为结构模型的非参数补充。


报告未包含传统金融估值中现金流折现、P/E倍数、市盈率等估值指标或方法。

---

5. 风险因素评估



报告识别隐含风险及挑战:
  • 模型内生性问题

- 双边固定效应有助于控制RTA形成对贸易流的内生性偏差。不包含这些效应的模型(如传统和2-way),因内生性导致预测偏误。
  • 过拟合风险

- 机器学习方法尤其是结合固定效应的复杂模型存在过拟合风险,实际应用中需注意交叉验证和调参。
  • 样本选择偏差

- 逆向样本构造方式影响模型表现差异,内生样本可能放大固定效应重要性,外生样本反映机制不同。
  • 模型泛化能力局限

- 逆向样本预测依赖于训练样本的覆盖范围和结构特征,模型迁移到新环境可能预测表现减弱。
  • 现实政策环境变化

- 贸易政策环境动态复杂,模型假设的时间不变性(特别双边固定效应)可能不完全成立。

报告对上述风险多从实证设计角度进行控制,未提供显式缓解方案,依赖模型选择(加入固定效应)与交叉验证避免过拟合。

---

6. 批判性视角与细微差别


  • 报告强调3-way重力模型在逆向样本平均预测能力上的优势,但对机器学习模型在预测个别贸易流的优势表现也持开放态度,没有绝对否定非参数方法的潜力。

- 3-way-ML模型“混合模型”表现不佳,报告推测为过拟合,提示未来应警惕模型复杂度与预测稳定性的权衡。
  • 内生样本设计使双边固定效应凸显重要性,或造成固定效应模型优势被放大,报告通过引入外生样本进行稳健性检验彰显良好做法。

- 机器学习方法需依赖3-way固定效应作为输入特征,表明经济理论信息对非参数模型提升性能的重要性也意味着完全黑箱模型可能无助。
  • 报告保持学术客观,中立比较不同技术,未表现明显偏见,指标的选择和数据设计合理。

- 需要注意,机器学习预测的高准确性难以直接转化政策评估因果结论,报告对此有适当强调。

---

7. 结论性综合



本报告深入探讨了国际贸易领域传统重力模型(尤其是3-way固定效应版本)与先进机器学习方法在贸易流逆向样本预测上的表现及其对贸易政策效应评估的影响。通过基于大规模、权威的UN Comtrade数据集、严格的随机拆分和重复实验设计,报告得出以下关键结论:
  • 3-way重力模型凭借其对出口国时间、进口国时间以及双边固定效应的控制,在逆向样本平均预测(即政策反事实估计)方面表现最优,确保估计政策影响的一致性与稳定性。

- 机器学习方法,特别是包括固定效应的集成模型(E-FE),在个体贸易流的逆向样本预测上能够超越3-way模型,这表明其在贸易流的点预测精度方面具有潜力。
  • 不过,机器学习方法需要纳入来自经济模型的固定效应信息,方能发挥优势,完全不含这些结构信息的机器学习模型预测效果较差。

- 基于实证数据的内生处理测试进一步确证双边固定效应对消除内生性偏差的关键作用,而外生处理设定下2-way模型性能提升,指明样本特性对模型表现的影响不可忽视。
  • 更为复杂的3-way-ML叠加模型未见明显优势,存在过拟合风险,提示传统的3-way模型已经高度优化,尚未被更复杂方法明显超越。


图表数据支持这些结论,其中表1和表2明确展示了不同模型的估计一致性指标(Mean IE
k, SEIE,MSEIE)及预测精度指标(RMAE,RRMSE,R²),强调3-way模型在政策效应估计中信赖度最高,而机器学习方法在个别预测表现更好。总的来说,报告确认了3-way重力模型在国际贸易政策评估中的“金标准”地位,同时也为机器学习方法未来作为辅助工具提供了理论与实证基础。

未来研究方向应关注不同数据结构、其他机器学习算法以及政策环境变化对模型优势的影响,使该领域的政策评估与贸易流预测更加严谨和广泛适用。

---

参考标注


  • 本报告分析所有页面内容,具体引用用页码标注,详见段落末尾[page::x],如:


- 引言及模型背景涉及page 0-2 [page::0][page::1][page::2]
- 理论框架与逆样本预测关系详见页3-4 [page::3][page::4]
- 模型定义和机器学习方法介绍详见页4-7 [page::4][page::5][page::6][page::7]
- 评估指标及数据介绍见页7-10 [page::7][page::8][page::9][page::10]
- 实证结果分别来自页11-12 [page::11][page::12]
- 结论及参考文献见页13 [page::13]

---

总结提示



此次详尽分析围绕贸易流预测的重力模型和机器学习预测方法,基于真实权威数据和科学严谨的模型对比验证,明确了3-way重力模型现阶段作为政策影响估计工具的难以替代地位,同时揭示了机器学习技术在细节预测上的潜力和注意事项。报告在理论框架、方法设计、数据实证以及模型评估指标定义上全面,逻辑严密,数据分析详实,为研究者和政策制定者评估贸易政策影响提供了宝贵参考。

[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13]

报告