`

随机森林模型在REITs基金中的应用

创建于 更新于

摘要

本报告介绍了随机森林模型在REITs基金选股中的应用,采用IC筛选因子并通过10折交叉验证和网格搜索调参,确定最优模型参数,最终策略年化收益率39.76%,超额收益40.01%,并展现出较好的稳定性和风险调整表现,充分体现随机森林在处理高维复杂数据上的优势与不足 [page::0][page::3][page::6][page::8][page::9][page::10]。

速读内容


随机森林模型基本原理与优势 [page::1][page::2][page::3]

  • 随机森林是集成多棵决策树的机器学习方法,利用bootstrap采样和随机特征选择,提高泛化能力和抗过拟合能力。

- 具备非线性关系捕捉、鲁棒性强、能处理高维数据和缺失值、提供特征重要性评估等优势。
  • 缺点包括计算成本高、模型解释性较弱以及需调参工作量大。


样本与因子选取 [page::3][page::4][page::5]

  • 样本涵盖2021年7月1日至2025年7月18日间沪深两市68只未停牌REITs基金。

- 采用因子IC绝对值超过2.5%的因子作为模型输入,因子包括价格指标、波动率、净买入量占比等。
  • 样本内训练期为2021年7月至2024年6月,样本外测试期为2024年7月至2025年7月。


模型参数敏感性与调参结果 [page::5][page::6][page::7]


  • 测试决策树棵数从1到200,发现RMSE随树数增加快速下降后趋于平稳,最终确定树数量为100。

- 最大树深度和叶节点最小样本数通过网格搜索优化,结果选择maxdepth=15,minsamples_leaf=15,以获得样本内外最佳表现。
  • 模型拟合指标:MSE=0.00044,RMSE=0.021,R²=0.501,表明模型能解释50.1%的未来涨跌幅变异。


策略构建与组合回测 [page::8]

  • 每周基于模型得分选取排名前5的REITs基金等权构建组合,调仓频率为周频。

- 组合绩效优异,截至2025年7月18日,年化收益率39.76%,夏普率2.82,超额收益率40.01%。

| 年份 | 组合收益率 | 基准收益率 | 超额收益率 | 年化波动率 | 信息比率 | 最大回撤 | 夏普比率 |
|-------|------------|-------------|------------|------------|-----------|----------|----------|
| 2022 | 24.63% | 0.02% | 24.61% | 15.04% | 3.93 | -17.14% | 1.64 |
| 2023 | 2.36% | -22.95% | 25.13% | 8.39% | 4.08 | -9.95% | 0.28 |
| 2024 | 47.72% | 12.35% | 35.37% | 11.84% | 4.49 | -9.07% | 4.03 |
| 2025* | 73.81% | 13.32% | 60.49% | 12.38% | 6.12 | -4.17% | 5.63 |
| 全期 | 39.76% | -0.25% | 40.01% | 12.38% | 4.78 | -17.14% | 2.82 |

模型评价与风险提示 [page::9][page::10]

  • 优点:有效捕捉非线性关系,鲁棒性强,可分析特征重要性,适应性好且能处理复杂条款数据。

- 缺点:计算成本高,解释性不足,超参数调整复杂,可能存在过拟合风险及数据不平衡问题。
  • 风险提示:量化模型存在失效风险,历史表现不代表未来,投资需谨慎。


深度阅读

【国联金工】随机森林模型在REITs基金中的应用 —— 深度分析报告



---

一、元数据与概览



报告标题: 随机森林模型在REITs基金中的应用
发布机构: 国联民生证券研究所
发布时间: 2025年8月6日
分析师: 陆豪、康作宁、陈阅川
研究主题: 运用随机森林模型进行REITs基金的投资组合构建与策略优化
投资评级: 报告中未给出具体买卖建议评级,聚焦模型构建与策略绩效评估

核心观点摘要:
本报告基于随机森林这一集成学习模型,构建了一个针对REITs基金的选股策略,核心策略为每周选取预测下周涨幅排名前5的基金等权组合。算法通过系统性的因子筛选、参数调优和回测验证,展示出显著超越基准指数的投资绩效,截至2025年7月18日,年化收益率达39.76%,超额收益40.01%,表现出良好的风险调整回报能力。报告强调随机森林模型在复杂金融数据处理中的优势和局限,具有较强的泛化能力和解释力,适合REITs基金投资组合的构建和调整。整体看,作者显示了通过机器学习技术优化REITs投资策略的切实有效路径。[page::0,10]

---

二、逐节深度解读



2.1 报告摘要与要点



报告首先介绍随机森林作为多个决策树的集成学习模型,强调其准确性与适应性适合量化金融领域运用。选取绝对IC值超过2.5%的单因子进行变量筛选,基于样本内10折交叉验证和网格搜索方法确定关键参数(如树的数量、叶节点最小样本数、树最大深度),模型每周选排名前5的基金,构建组合。量化结果显示策略年化收益近40%,超额收益40%以上,夏普率2.82,表现优异。模型优点在于泛化能力强、对高维与缺失数据适应性佳,缺点则包括计算资源消耗大和对收益变化敏感度不足。[page::0,3,5]

2.2 随机森林和决策树基本原理(章节1)


  • 决策树:是一种树状结构的分类或回归模型,节点分为根节点、内部节点和叶节点,内部节点对特征进行条件判断,叶节点输出最终分类或回归结果。对应的划分条件由信息增益或基尼指数衡量,构造过程递归分枝。[page::1-2]
  • 随机森林:通过Bootstrap抽样(有放回抽样)产生多个训练子集,分别训练多棵决策树,每棵树随机选择部分特征进行节点划分,最终对多树预测结果投票(分类)或求平均(回归)。随机森林能有效降低过拟合,提高模型稳定性,并具备对特征重要性的评估能力。[page::2-3]


图表3展示了随机森林建模流程,包含数据子集采样、单树训练、结果汇总,图示直观体现集成学习的多样性和集成性优势。该方法通过多角度采样和特征子集选择,实现强泛化能力和鲁棒性。[page::3]

2.3 样本选定与数据处理(章节2)


  • 样本范围:涵盖2021年7月至2025年7月的上交所、深交所68只未停牌REITs基金,分为样本内训练(2021-07-01至2024-06-30)和样本外测试(2024-07-01至2025-07-18)两个区间。
  • 特征与标签抽取:每周交易日计算因子暴露度作为特征,预测下周基金收益率作为标签。对因子采用z-score标准化,缺失值用前值填充,确保数据连续和一致性。
  • 训练集与交叉验证:采用10折交叉验证确保模型训练的稳定性,同时随机90%样本训练、10%验证,精准调参并防止过拟合。
  • 调参策略:通过网格搜索和交叉验证,最终模型最大树深度定为15,叶节点最小样本数为15,决策树数量选择100,平衡计算成本和模型性能。[page::3-4,6-7]


2.4 随机森林因子选择(章节3)



因单因子对随机森林模型影响大,故以因子IC(信息系数)为筛选标准,选用绝对IC值大于2.5%的因子进入模型。一共27个因子,涵盖价格类型(开盘价、收盘价、最高价等)、波动率、多周期涨跌幅、换手率、净买入量占比(机构、中户)、贴水率、市场估值指标、季度收入增速等多维度信息。

表4清晰列明各因子及对应IC值。正负IC并存,权重反映不同因子对预测未来价格趋势的贡献。此多样化因子库能有效提升模型捕捉市场信号的广度与深度。[page::5]

2.5 模型构建与敏感性分析(章节4)


  • 决策树数量(n_estimators)对模型误差影响显著,图表6展示了RMSE随树数量增加下降趋势,但100棵后趋于平稳,故最终选用100棵树。
  • 特征个数对模型无特殊限制,全部27个特征均参与分裂选择。
  • 树最大深度叶节点最小样本数通过网格搜索调参。样本内十折交叉验证和平滑最优曲线提示最大深度取15,叶节点样本数取15为最佳组合,既保证拟合精度又降低过拟合风险。
  • 样本内评估结果显示均方误差为0.00044,均方根误差0.021,决定系数R²达0.501,说明模型可以解释50.1%的未来涨跌幅变异,表现出良好的预测能力。
  • 样本外测试中,以周次为单位预测下周收益,选取得分最高的5支基金构建等权组合。调仓规则严谨,交易费率暂不考虑。[page::6-7,8]


2.6 组合模拟及绩效表现(章节4和8)


  • 调仓频率为周频,策略通过随机森林每周预测,选出涨幅预期前5基金构建组合。
  • 回测表现优异,2022年至2025年组合收益率为24.63%、2.36%、47.72%、73.81%,相较基准指数均实现超额收益,2025年年初至7月18日超额收益达60.49%。
  • 组合年化收益率39.76%,超额收益40.01%,年化波动率12.38%,夏普比率2.82。
  • 最大回撤相对较低,且策略信息比率良好,表明策略风险调整后收益稳定。
  • 图表9展现策略净值与基准净值对比,策略净值明显持续上升,且超额收益呈持续积累态势。
  • 图表8列示近期两期实际仓位分布,集中持有华夏合肥高新REIT、中航易商仓储等高得分基金,仓位均衡分配,体现多样化风险管理。


该组合策略既保证收益最大化,又控制下行风险,验证了随机森林模型在REITs基金投资中的有效性。[page::8-9]

2.7 模型评价(章节5)



优点


  • 非线性关系捕捉:随机森林能拟合复杂非线性关系,涵盖因子间交互效应,比传统线性多因子模型适应性强。
  • 鲁棒性:多棵树平均减少单棵树过拟合风险,提高稳定性。
  • 特征重要性评估:可分析并识别关键影响因子助力风险管理。
  • 高维数据处理:可接受大量特征且容忍缺失数据。
  • 适应多数据类型:不需特定预处理,可处理连续和分类数据。
  • 可拓展性:适用包含复杂条款的资产(如可转债)数据。
  • 解释性:通过特征重要性等工具,提供模型部分可解释性。[page::9]


缺点


  • 计算资源需求大:大规模参数组合调优消耗时间与计算力。
  • 模型黑箱:相比线性模型,内部决策过程不直观,难以完全解释。
  • 超参数选取复杂:参数很多,需要细致调优。
  • 可能存在过拟合:深树可能导致过拟合影响泛化。
  • 数据不平衡处理不足:在类别不均衡时表现欠佳。


这些限制提示未来进一步模型优化和风险控制方向。[page::9]

2.8 风险提示(章节6)



明确量化模型存在失效风险,市场存在波动与不确定性,历史表现不保证未来收益,强调投资者需根据自身风险偏好做决策,避免盲目跟从。此为标准且必要的合规声明。[page::10]

---

三、图表深度解读


  • 图表1(第2页):通过示例数据表展现决策树的分类逻辑,包括市场情绪、公司财报、行业趋势、交易量等特征,及其如何分类股票上涨与否,为后续随机森林理论铺垫。
  • 图表3(第3页):形象化说明随机森林通过Bootstrap采样、多决策树训练和结果汇总的流程,展现模型的“森林”结构及迭代机制。
  • 图表5(第6页):RMSE与决策树数量关系曲线明显表明,树数量增加降低误差,但100棵后效果趋稳,支持选择100棵树作为平衡点。
  • 图表6、7(第7页):网格搜索阶段的样本内MSE与样本外R²结果展示,数据明确体现最大深度15,叶节点样本数15最优化组合,兼顾训练拟合及泛化能力。
  • 图表8(第8页):显示近期两周实际持仓标的与占比,5只基金均等权配置,体现良好的分散风险策略。
  • 图表9(第8页):时间序列图清晰对比随机森林策略净值、中证REITS指数净值、超额收益率,从图中可见策略自2023年中明显优于基准,超额收益逐步扩大。
  • 图表10(第9页):详细列示2022-2025年及至当前全年策略收益、超额收益、波动率、信息比率、最大回撤、夏普率等关键绩效指标,表格数据直观证明策略的高收益与风险控制效能。


这些图表不仅验证文本逻辑,还为投资决策提供量化基础,对研究者理解模型效果尤为关键。[page::2,3,6,7,8,9]

---

四、估值分析



本报告并未直接涉及传统估值模型(如DCF、P/E等),而重点聚焦于基于机器学习的收益预测和投资组合效果。核心估值“等权前5选股”策略本质为基于模型预测回报率的短期择时和精选,避免了传统估值法在REITs基金频繁变动和复杂参数调整上的局限,增强模型实用性和适应性。

基于随机森林对未来收益率的回归预测,模型通过排名筛选持仓权重,实现准确率和超额收益的叠加,而非简单市盈率倍数比较,属于“量化因子选股”范畴,适合现代量化投资策略。参数调优部分起到“估值信号”的优化作用,提升模型的预测稳定性和准确率。[page::4-7]

---

五、风险因素评估



报告强调如下风险:
  • 模型失效风险:量化模型可能因市场结构变化、数据偏差或新出现的未知风险失效。
  • 市场波动与不确定性:市场行情的剧烈波动可能导致策略失灵或大幅亏损。
  • 历史数据的局限性:未来市场行为可能与历史不同,历史收益不代表未来表现。
  • 模型过拟合风险:过度依赖训练集特征可能在样本外表现不佳。
  • 计算成本风险:模型复杂度高,可能遇到资源瓶颈或实时响应困难。


报告未详述具体缓解方案,提醒投资者结合实际情况审慎决策。[page::10]

---

六、批判性视角与细微差别


  • 模型收益敏感度不足:报告指出随机森林对收益变化敏感度不高,暗示短期价格剧烈变化难以准确捕捉,可能限制策略在高度波动市场的适用性。
  • 计算复杂性:大规模参数调优与模型训练在实际应用中成本和时间需求较高,尤其在高频调仓或大样本环境下,可能影响实操效率。
  • 解释性限制:虽然模型能输出特征重要性,但整体决策机制仍然不如传统多因子模型直观,这在金融监管与合规要求日益严格的背景下可能存在应用障碍。
  • 单因子IC阈值设定:IC阈值选取(2.5%)较低,包含了一部分边际因子,虽增强了因子多样性,但也可能引入噪声,影响模型纯净性。
  • 缺乏风险管理具体策略:报告对风险评估部分相对笼统,未重点提及如何利用模型输出来实时监控和控制投资风险。
  • 示例持仓比例均等:等权分配简单且减少单一资产风险,但可能未充分利用单只基金的预测优势,存在优化空间。


这些细节提示未来模型迭代和应用需要综合考虑效率、解释性及风险控制等多方面因素。[page::0,5,9]

---

七、结论性综合



本报告系统性地阐述了随机森林模型在REITs基金投资中的应用框架和验证过程,覆盖模型原理、样本选择、特征筛选、参数调优、组合构建及绩效分析等重要环节。通过引入多因子数据及机器学习强大的非线性拟合能力,模型成功预测REITs未来收益排名,实现了年化近40%的收益和超越基准的显著超额回报,且夏普率超过2.8,显示出优秀的风险调整表现。

图表中模型拟合指标(MSE、RMSE、R²)和样本外测试结果共同印证了模型的稳定性和预测能力。随时间累积的超额收益曲线进一步体现了策略的实用价值和持续竞争力。

作者客观评估了随机森林模型的优势,比如非线性捕捉、数据适应性、特征重要性分析和对复杂数据的处理能力;同时也指出了计算成本、模型解释性和收益敏感性不足等不足,给投资者提供了全面的理解视角。

报告末尾的风险提示切合实际,强调投资者应谨慎并结合自身风险偏好。整体而言,本报告为金融量化领域尤其是REITs基金提供了一条结合机器学习先进技术的策略实践路线,具有较高参考和应用价值。

---

# 综上所述,本报告完整细致地呈现了随机森林模型在REITs选股中的理论基础、实证方法与应用成效,证明了机器学习技术在现代资产管理中的强大潜力和实际价值,同时也客观指出了面临的挑战和风险,为未来量化投资策略提供了重要参考依据。[page::0-10]

报告