`

Forecasting House Prices

创建于 更新于

摘要

本文基于Breiman (2001)的随机森林模型,分析了13个发达国家过去35年房价变动的主要驱动因素。研究发现房价动量、初始估值(价格租金比)及家庭信贷增长是解释房价年增长的核心变量。模型揭示了通胀对房价增长的非线性影响,最高房价增长出现在0-3%的通胀区间。相较于OLS模型,随机森林模型在样本内外预测误差指标RMSE和MAE分别降低约44%-53%,且不依赖于国家固定效应,说明跨国制度差异影响有限[page::0][page::1][page::10][page::11][page::13][page::17]。

速读内容


模型选择及性能比较 [page::5][page::7][page::8]


  • 采用了AR(1)、OLS线性模型及Breiman的随机森林模型进行房价增长预测。

- 随机森林由于能捕捉非线性与复杂交互效应,显著优于传统模型。
  • 当终端节点观测数最小为10并使用500棵树时,随机森林模型RMSE相比OLS降低近48.6%,MAE降低53.3%。


预测准确性及样本外验证 [page::9]


| Stopping Criterion | Trees | AR(1) RMSE | OLS RMSE | RF RMSE | RF相较AR(1) | RF相较OLS | AR(1) MAE | OLS MAE | RF MAE | RF相较AR(1) | RF相较OLS |
|--------------------|-------|------------|----------|---------|-------------|-----------|-----------|---------|--------|-------------|-----------|
| 10 obs/node | 500 | - | - | 2.291 | 0.419 | 0.473 | - | - | 1.699 | 0.426 | 0.474 |
  • 2015-2019年测试样本显示随机森林依然显著优于AR(1)和OLS,RMSE和MAE分别下降40%以上。


关键驱动因素及Shapley值分析 [page::10][page::11]


  • 房价动量为最重要的解释变量,说明市场存在显著的惯性和泡沫效应。

- 其次是价格/租金比作为估值指标和信贷增长,反映基本面与融资条件双重作用。
  • GDP增长、通胀率、利率和人口增长亦有中等影响,股票市场波动性影响较小。


部分变量的非线性效应 [page::12][page::13]



  • 房价增长与价格/租金比呈负相关,高估值区间房价涨幅显著放缓。

- 短期利率上升对房价增长产生抑制,超过4%影响更加明显。
  • CPI通胀对房价涨幅存在非线性影响,0-3%范围内促进房价上涨,超过5%则抑制房价增长。


预测实例对比与说明 [page::14]



  • 2019年房价预测对比显示随机森林模型对跨国房价波动解释能力(R²=43%)远超OLS模型(R²=19%),验证其优越性能。


时间变异性分析与变化趋势 [page::15]


| 驱动因素 | 1988-2019 | 2011-2019 |
|-------------|-----------|-----------|
| 动量 | 0.33 | 0.277 |
| 价格/租金比 | 0.14 | 0.097 |
| 信贷增长 | 0.121 | 0.062 |
| GDP增长 | 0.074 | 0.072 |
| CPI通胀 | 0.069 | 0.069 |
| 短利率 | 0.067 | 0.087 |
| 人口增长 | 0.059 | 0.09 |
| 长利率 | 0.054 | 0.073 |
| 股票市场涨幅| 0.048 | 0.141 |
| VXO波动率 | 0.038 | 0.032 |
  • 最近十年信贷增长和初始估值重要性略有下降,人口增长和收益率曲线重要性上升,可能反映金融全球化和资产配置变化。


稳健性检验 [page::16][page::17]



  • 加入国家虚拟变量后国家效应整体仍极低,表明跨国差异主要被经济变量捕捉。

- 不同终端节点最小观测数设定(5与10)对变量重要性排序影响不大,结果稳健。

深度阅读

深度分析报告:《Forecasting House Prices》—— 基于随机森林模型的房价预测研究



---

一、元数据与概览



报告信息

  • 标题:《Forecasting House Prices》

- 作者:Emanuel Kohlscheen
  • 发布日期:未详,但数据及文献参考涵盖1988年至2019年数据,预计为2020年代初发布

- 研究对象:涵盖13个发达国家的房价动态及预测,方法是随机森林机器学习模型
  • 主题关键词:资产价格、预测、房价、通胀、机器学习


报告核心论点及目标


本文利用Breiman(2001)提出的随机森林非参数机器学习模型,研究过去35年间13个发达国家的房价驱动因素,重点识别房价涨幅中的主要影响变量,并对比随机森林模型与传统计量方法的预测准确度。核心结论为:
  • 房价涨幅主要受价格动量、初始估值(由价格租金比proxy衡量)和家庭信贷增长驱动

- CPI通胀对房价的影响呈非线性,0-3%范围内提升房价涨幅,高于5%时房价涨幅落后于通胀,表明房地产对高通胀的避险能力较弱
  • 随机森林模型在样本内及样本外预测表现均优于OLS,均方根误差(RMSE)和平均绝对误差(MAE)均降低约44%至45%

- 该模型适用于所有国家,且国家固定效应权重极低,暗示各国制度差异在驱动因素中的贡献有限

总体上,作者通过机器学习工具深入量化房价波动驱动因素,并展示随机森林不仅提升预测精度,更能揭示非线性经济关系与变量重要度,弥补传统线性模型限制[page::0,1,2,3]。

---

二、逐节深度解读



1. 引言(Introduction)


引言部分指出房产作为家庭主要资产的重要性及其与宏观经济、金融稳定的紧密联系。鉴于传统模型对房价预测准确性有限,作者选择随机森林凭借其捕捉复杂非线性关系与交互作用的能力,探索发达国家房价的主要驱动因素。其优势还包括无需复杂调参,且拥有良好的样本外预测性能。

引言末梢明确三大核心发现:
  • 随机森林显著优于OLS,RMSE和MAE均下降40%以上,显示非线性及复杂互作用的重要性

- 价格动量为预测主因,紧随其后的是估值指标和信贷增长。近十年人口增长和收益率曲线影响有所增加
  • CPI通胀对房价涨幅有倒U型影响,超过5%的高通胀环境下房地产避险功能减弱,反驳了以往房产受益于高通胀的观点[page::1]


2. 研究背景与数据(Explaining House Prices in Advanced Economies)

  • 数据样本:13个发达经济体(包括比利时、加拿大、德国、日本、韩国等),时间跨度1988-2019年,共374个观测值(跨国-跨年面板)[韩国数据从2001年起]。

- 被解释变量:年度名义房价指数同比增长率,平均约4.3%,波动率6.2%,峰度4.4,偏态接近零,暗示较为集中的波动分布,不常见极端波动。
  • 潜在解释变量涵盖:

- 价格动量(AR(1)部分,捕捉市场从众心理与惯性)
- 初始估值(价格租金比)
- 宏观经济指标:GDP增长、CPI通胀
- 金融变量:家庭信贷增长、短长期利率、股市回报、市场波动率(VXO)
- 人口增长(人口需求)

这一节为建模与后续分析奠定了坚实数据基础和理论输入[page::3,4,5]。

3. 模型选择(Model Selection)

  • 模型类别

1. 自回归模型(AR(1)):仅用前期房价涨幅预测未来
2. 线性最小二乘模型(OLS):纳入全部10个前述解释变量
3. 随机森林(RF):Breiman(2001)提出的集成多颗回归树的非参数模型,能捕捉非线性与变量间复杂交互,且调参简单低风险过拟合。
  • 随机森林机制详解

- 训练采样采用2/3数据,选择最佳变量和阈值拆分以最小化均方误差(MSE)
- 多颗树共同投票均值提高鲁棒性
- 交叉验证和错误率随树数变化曲线显示,100棵树后误差趋于平稳,显示稳定性[page::5,6,7]

4. 样本内与样本外预测表现(In-sample & Post-estimation)


  • 样本内表现

- AR(1)调整后R²为35.3%,OLS为44.0%
- 多数参数组合下随机森林RMSE远低于OLS,最低点对应每终端节点最小观测数为10,树数500时RMSE降低48.6%,MAE降53.3%
- 说明随机森林捕捉更丰富动力学,非线性造成OLS函数限制明显
  • 样本外(2015-2019)表现

- 随机森林仍表现优异,RMSE和MAE分别相对于AR(1)降约50.3%和49%,相对于OLS降44%和44.6%
- 过拟合风险低,证明泛化能力强
- 以(10观测/终端, 500树)配置作为保守基准[page::8,9,10]

5. 关键驱动因素的相对重要性——Shapley值分析


通过Shapley值(一种衡量变量对预测贡献的均摊方法)量化变量相对重要度:
  • 排名前列为:

- 价格动量(显著高于其他变量)
- 初始估值(价格租金比)
- 家庭信贷增长
  • 其次为GDP增长、通胀、利率、人口增长

- 股市收益和波动率贡献较小,暗示房市与股市动力不同
  • 罕用国家虚拟变量,表明制度差异影响较弱[page::10,11]


6. 变量的部分效应(Partial Effects)


作者基于随机森林模型,逐变量调整观察其对房价涨幅的边际影响,核心发现:
  • 价格租金比与短期利率

- 价格租金比低时,房价涨幅可升至6%,高估值时跌至3%以下
- 短期利率上升抑制房价涨幅,超过4%后效果稍显加重
  • CPI通胀对房价的影响

- 房价涨幅于0-3%通胀区间达到峰值
- CPI通胀超过3%后,房价涨幅逐渐减弱,超过5%后甚至低于通胀涨幅
- 该非线性关系有助于揭示房价对货币环境的敏感度[page::12,13]

7. 实证例子及模型效果可视化

  • 以2018年的变量预测2019年房价涨幅,随机森林模型预测与实际值相关度达43%,显著优于OLS模型的19%

- 具体国家散点图展示了随机森林较佳的拟合度,表明该模型对跨国样本的通用性强[page::14]

8. 驱动力的时间变异性

  • 作者按时间分段(例如2011-2019)分析Shapley值权重变化

- 动量、估值始终居首
  • 最近十年中,估值和信贷重要性略有下降

- 收益率曲线和人口增长权重上升,可能反映金融全球化和投资属性增强的趋势
  • 该趋势与量化宽松政策促进资产市场流动性相符[page::15]


9. 鲁棒性测试

  • 加入国家固定效应后,随机森林对国家识别仍极不敏感,国家变量权重最小

- 调整树分裂停止条件(终端节点最小观测数从10调整到5)对变量重要度排序无显著影响
  • 进一步确认模型稳定,非线性驱动机制具有普适性[page::16,17]


10. 结论总结

  • 随机森林显著提高发达国家房价增长预测准确度,RMSE和MAE均较OLS下降40%以上

- 主要驱动因素为价格动量、初始估值和信贷增长,跨国稳定且相关制度差异有限
  • CPI通胀对房价呈现非线性倒U形影响,高通胀环境下房价涨幅显著放缓,反映房产避险能力不足

- 该机器学习模型不再是“黑盒”,可利用Shapley值和部分效应进行经济解释和政策分析
  • 未来研究建议引入更高频或更细粒度数据,探究国家间抵押贷款市场等特殊机制的作用[page::17,18]


---

三、关键图表深度解读



图表1:Kernel密度分布(Fig. 1,page 4)


  • 描述的是374个国家/年度样本的名义房价年增长率分布,呈单峰,平均约4.3%,标准差6.2%,峰度4.4,偏态近0,

- 峰度>3表明分布比正态更尖峭,极端波动较少
  • 说明房价年涨幅在跨国样本中虽波动显著,但大幅异常事件较罕见,整体较为集中


图表2:随机森林模型误差随树数量变化(Fig.2,page 7)


  • X轴为树数量(1至200棵),Y轴为均方误差

- 误差随树数显著下降,100棵以上时趋稳,表明模型复杂度适中且稳定
  • 具说明增加树数量能有效减少方差,提高模型表现,但超过一定数量后收益递减


表1:样本内模型比较(page 8)


  • 包括AR(1)、OLS和随机森林多种配置下的RMSE和MAE

- 随机森林RMSE最低,可下降近50%
  • 该表明线性库限制明显,机器学习能捕获复杂关系

- 终端节点最小观测数和树数量影响表现
  • 此表数据在讨论模型选择和预测性能关键指标时尤为重要


表2:样本外预测性能(page 9)


  • 2015-2019年为测试样本,持续显示RF模型RMSE和MAE相较AR(1)和OLS降低40%以上

- 体现随机森林模型的泛化性和稳健性
  • 测试样本指标验证模型非过拟合,现实预测力强


图表3:变量重要度Shapley值(Fig. 3,page 11)


  • 价格动量遥遥领先,其次为价格租金比例和信贷增长

- GDP增长、CPI通胀、利率、人口增速等影响中等
  • 股票市场变动和波动率指数VXO几乎无明显影响

- 突显房价由房地产市场内部动力及宏观金融变量主导,非股市走向决定

图4:部分效应三维图(Fig. 4,page 12)


  • 展示价格租金比与短期利率对预测房价涨幅的联合影响

- 房价涨幅对低估时反应高达6%,高估时小于3%
  • 短利率提高抑制房价涨幅,阈值效应明显


图5:CPI通胀对房价涨幅的作用(Fig. 5,page 13)


  • 房价涨幅随通胀升至3%达到峰值,通胀再高则房价涨幅下降

- 不同初始估值组别均呈现相似趋势,趋势稳健
  • 突破传统认为通胀涨价利好房市的观点,表现房价在高通胀下的脆弱性


图6和7:2019年房价实际与预测对比(Fig. 6和7,page 14)


  • 6图随机森林预测拟合度高,拟合R²约43%

- 7图OLS较弱,仅19%拟合
  • 证实机器学习模型在现实应用中的优越表现


表3:不同时间段变量重要度比较(page 15)


  • 比较1988-2019与2011-2019两个时期的Shapley平均权重

- 价格动量和估值主导地位持续,信贷增长重要性轻微下降
  • 人口增长和收益率曲线重要性提高,显示经济全球化和投资渠道变化


图8和9:鲁棒性测试变量重要度(page 16,17)


  • 加入国家虚拟变量后,国家本身权重仍最低,说明解释变量已覆盖制度差异

- 改变树停止条件仅致少量变量重要度调整
  • 进一步验证结论稳健性及模型适用性


---

四、估值分析



报告未直接以传统估值模型形式(如DCF或P/E倍数)给出具体估值目标价,重点是在于用机器学习模型提升对影响房价成长驱动力的定量理解和预测精度,从而辅助政策和投资决策。模型输入涵盖宏观变量和市场指标,随机森林综合各变量非线性和交互作用的影响来预测房价增长率。

---

五、风险因素评估



报告未专门列出风险因素章节,但从分析中隐含以下风险点:
  • 模型对极端经济环境或结构性政策变动的适配待检验。

- 国家层面结构差异在本模型中权重极低,可能忽略特定国家细节差异。
  • 模型基于历史数据训练,如未来宏观经济关系发生根本性变化,其预测能力可能下降。


暂未见专门缓解策略说明,更多依赖模型本身的泛化能力和丰富解释变量集成。

---

六、批判性视角与细微差别


  • 优势:报告利用先进机器学习技术,改善房价预测,明确"黑盒"问题,提升经济解释力。

- 不足/疑点
- 国家间"无显著差异"可能掩盖结构性政策和市场制度异质性,提示后续细粒度研究必要
- 仅选取先进经济体数据,可能限制结果对新兴市场的外推性
- CPI通胀对房价的非线性效应模型基于历史区间,面对持续高通胀环境尤需谨慎验证
- 估值指标仅为价格租金比,未覆盖其他潜在估值变量
  • 模型局限:随机森林虽综合表现好,仍依赖输入数据质量和全面性,且解释变量选择影响偏好


---

七、结论性综合



本文创新性地采用Breiman的随机森林模型,利用1988-2019年13发达国家房价年增长数据,定量刻画了价格动量、初始估值和家庭信贷增长在房价调节中的核心地位。该模型不仅在样本内获得了远超传统OLS的预测准确度,样本外测试亦表现稳健,RMSE和MAE降低超过40%。通过Shapley值和部分效应,报告揭示了多变量非线性和交互作用:
  • 价格动量体现市场惯性和情绪,估值及信贷紧随其后,共同驱动房价波动。

- CPI通胀对房价影响非单调,适度通胀提升房价,过高通胀打压房价,说明高通胀环境中房地产作为避险资产的有效性受限。
  • 国家固定效应影响微弱,表明宏观金融因素普遍适用,减少制度异质性烦恼。

- 预测模型示例显示,随机森林在多国环境中表现优异,具备政策制定和投资预测双重应用潜力。
  • 时间维度上,近年来收益率曲线和人口增长对房价贡献提升,反映金融市场全球化和人口结构变迁对房产市场的潜在影响。


综上,作者成功展现随机森林作为一种强大而透明的机器学习工具,不仅可提升房价预测准确性,更深入挖掘宏观经济变量间复杂关系,为理解全球房地产市场提供新的研究范式,也为政策制定者提供量化风险和制定干预策略的有效工具[page::0-18,20-24]。

---

图表展示



为了直观辅助理解,部分关键图表Markdown格式引用如下:
  • 图1(Kernel density)

  • 图2(随机森林误差与树数)

  • 图3(Shapley变量重要度)

  • 图4(价格租金比与短期利率对房价涨幅的影响)

  • 图5(CPI通胀对房价涨幅影响曲线)

  • 图6(2019年房价实际与随机森林预测)

  • 图7(2019年房价实际与OLS预测)

  • 图8(含国家虚拟变量的变量重要度)

  • 图9(改变终端节点大小后的变量重要度)



---

以上分析力求全面覆盖报告的所有核心内容、数据支持与图表细节,详细解构了模型选择、经济含义及学术贡献,具备高度的专业性和可操作性,适用于金融分析师、研究员及政策制定相关人员参考。

报告