`

多因子选股 (十四):线性体系下的分域模型

创建于 更新于

摘要

本报告系统阐述了线性分域模型构建方法,基于行业等分域标准进行指标正交和因子筛选,通过回归取残差的正交方法,解决全域因子与分域因子间的正交问题。以动量因子为分域因子案例,线性分域模型在沪深300、中证500市场分别实现了21.85%的月度截面调整R方累积提升,且分域模型因子表现与整体模型一致,验证了模型合理性并显示其在组合优化中的增效潜力[page::1][page::3][page::16][page::17][page::20][page::21]。

速读内容


线性分域模型基本构建及数学形式 [page::4][page::5][page::6]

  • 以行业分域为例,定义了全域因子暴露矩阵和分域因子暴露矩阵,分域因子暴露可分解为全域因子暴露与行业哑变量的线性组合。

- 详细推导了分域模型因子暴露、正交条件、以及线性叠加关系,确保收益对因子的分解合理。
  • 采用等权方式计算因子暴露,保证行业因子中性约束。


因子正交及标准化方法详解 [page::7][page::8][page::9][page::10][page::11][page::12]

  • 介绍了针对全域因子和分域因子的回归取残差逐步正交方法,包括非哑变量因子之间的正交及其数学公式。

- 详细分析了因子正交后均值、方差变化,强调分域因子正交后的标准化处理。
  • 提出了分域内正交与全域拼接逻辑,说明并非一次全域对称正交,提高模型的可适用范围。

- 逐步回归取残差方案保证非哑变量因子两两正交,处理了多因子的正交流程。

分域因子筛选原则与动量因子案例 [page::13][page::14][page::15]

  • 因子筛选基于方向一致性、信息提升及信息差异三个维度,以逐步向前回归法确定因子正交顺序及剔除无效因子。

- 采用ICIR及回归调整R方提升作为分域因子判断指标,动量因子在行业分域下显著表现差异,成为合理分域因子。
  • 筛选表明,动量因子在45%以上的行业存在明显分域必要性。


线性分域模型回测表现及效果分析 [page::16][page::17][page::18][page::19]







| 指标 | 整体模型沪深300 | 分域模型沪深300 | 整体模型中证500 | 分域模型中证500 |
|----------------|-----------------|-----------------|-----------------|-----------------|
| 超额年化收益 | 5.78% | 6.33% | 8.60% | 8.97% |
| 相对最大回撤 | -10.21% | -10.36% | -13.43% | -12.90% |
| 信息比 | 0.89 | 0.96 | 1.05 | 1.11 |
  • 分域模型相比整体模型实现了21.85%的月度调整R方累积提升,且自2010年以来表现稳定,验证了分域因子筛选的合理性。

- 在动量因子之前,整体模型与分域模型因子统计特征高度一致,动量因子以后,因子统计量仍基本一致,显示分域模型构建合理。
  • 回测净值曲线显示,线性分域模型在沪深300及中证500均有一定优势,虽然提升有限,但风险指标和收益率均有所改善。

- Fama-Macbeth回归结果支持分域模型因子解释能力整体与整体模型保持一致,动量因子在各行业表现出现显著差异,体现分域必要性。

模型风险提示 [page::1]

  • 模型存在失效风险;

- 研究基于历史数据,不保证未来表现;
  • 分域因子基于全样本数据,可能存在过拟合风险。

深度阅读

多因子选股(十四):线性体系下的分域模型 — 详尽分析报告



---

一、元数据与报告概览



报告标题:多因子选股(十四):线性体系下的分域模型
作者与分析师:覃川桃、郑起,执业证书编号 S0490513030001、S0490520060001
发布机构:长江证券研究所
发布日期:2021年11月2日
主题分类:金融工程专题报告
研究方向:基于线性多因子模型下的分域模型构建,以行业分域为例,探讨多因子选股模型在不同选股域内因子表现差异及其正交处理方法,提升个股Alpha预测效果。

核心论点
  • 传统整体线性因子模型在不同选股域下因子表现可能显著不同,行业或规模等维度存在分域现象。

- 以行业作为分域标准,构建线性分域模型,通过引入分域因子以及对因子暴露的正交处理(主要是回归取残差法),提升因子解释力和预测准确度。
  • 实证以动量因子为分域因子案例,线性分域模型相较传统整体模型,月度截面模型调整R²累计提升21.85%。

- 线性分域模型在沪深300及中证500样本下均获得效果提升,体现其在实际资产管理中的适用价值。

[page::0] [page::1] [page::16] [page::20]

---

二、逐节深度解读



2.1 报告背景及选题动机



报告从CAPM模型和线性多因子模型出发,指出个股Alpha预测模型通常基于整体选股域构建统一因子体系,但现实中不同行业或规模板块的选股逻辑存在显著差异。报告依此提出分域模型的构建需求,通过分域因子的引入,解决整体模型在分域内因子效果不一致的问题,提升模型预测性能。

具体举例(图1与图2):
  • ROI因子在市值最小20%股票池中呈现负向预测收益表现,但在其他80%的个股中表现正向,体现规模分域差异。

- 2019年以来,BP估值因子在不同板块表现差异明显,消费和科技板块估值因子失效,经典行业因子在不同域失效的现象突出。

因而引入分域因子,针对域内独有的选股逻辑进行建模,是提升模型预测能力的关键。

[page::3]

---

2.2 线性分域模型基本形式与构建



在形式上,分域模型将选股因子分为全域因子和分域因子,考虑不同行业\(M\)和因子数量\(N\),模型表达如下:

\[
r = \mathbf{1} f{market} + B F{alpha} + I F{indus} + B{new} F{new} + \varepsilon
\]
  • \(\mathbf{1}\): 全1向量代表市场因子

- \(B\): 全域Alpha因子暴露矩阵
  • \(I\): 行业哑变量矩阵

- \(B
{new}\), \(F{new}\): 分域因子暴露与因子收益,分域因子暴露可拆解为全域因子暴露与行业哑变量的线性组合。
  • \(\varepsilon\): 残差


引入分域因子后,模型能更有效捕捉不同行业内特定因子的收益差异,从而减少整体模型的残差。

2.3 因子暴露计算与行业中性



因子暴露计算中,风格因子如市场因子、行业因子通常采用加权标准差标准化,确保投资组合加权暴露为零,常用市值或等权加权。行业暴露则以哑变量形式存在,并通过约束行业中性(行业收益权重和为零)保证模型稳健性。

[page::7] [page::8]

---

2.4 分域模型因子间正交处理



核心挑战在于分域因子与全域因子之间的相关性,报告采用回归取残差法完成因子正交,具体流程如下:
  • 对两个因子\(\beta1\)和\(\beta2\),取标准化后,将\(\beta2\)作为因变量,\(\beta1\)作为自变量进行线性回归,残差即为正交后的因子\(\beta2'\),满足与\(\beta1\)正交。

- 当涉及分域因子时,逐行业进行回归取残差,并补零补全全域因子矩阵,保证线性分域模型形式不变,处理不同行业内的因子依赖关系。
  • 多因子正交采用逐步回归顺序,依次对因子做正交,避免同时回归造成计算复杂度及解释困难。

- 对称正交和部分对称正交因其局限性(如分域交叉部分处理复杂)未被采用。

这种分域正交方法兼顾了可操作性和理论合理性,确保了因子之间的无多重共线性,提升因子解释力与模型稳定性。

[page::8] [page::9] [page::10] [page::11]

---

2.5 因子收益估算



因子收益估算采用非截距项线性回归,利用已正交且标准化的因子暴露矩阵回归个股收益,解:

\[
[F, F
{new}] = \frac{1}{n} [I, B, B{new}]^T r
\]
  • 行业因子收益视为该行业内股票的平均绝对收益

- Alpha因子和分域因子收益权重均等权加权,保证纯因子组合特征
  • 分域因子收益仅影响该选股域内个股排序,确保域中性情况下全域组合优化结果统一。


[page::12] [page::13]

---

2.6 分域因子筛选与正交顺序



报告通过逐步向前回归法,以调整R方的最大增量为因子正交顺序,挑选因子组成线性分域模型,关键发现包括:
  • 动量因子在行业维度表现出显著的分域差异性,其因子收益不同域内差别明显,符合分域设定的三大标准(方向一致性、信息提升、信息差异)。

- 其他因子则大多未必显著表现出分域必要性。

图3和表2清晰展现了因子正交顺序及分域筛选指标,除“DDM估值”因子后若干因子正交后增益有限被剔除。此因子筛选体系为实操提供科学依据和流程。

[page::13] [page::14] [page::15]

---

2.7 模型实证与结果分析



2.7.1 分域模型合理性


  • 以2006年12月至2021年8月月度截面回归调整R方为指标,分域模型相较整体模型调整R方累计提升21.85%,且此提升自2010年后呈稳定态势,验证分域模型构建合理。

- Fama-Macbeth回归结果显示动量因子分域后的因子t值在不同行业差异显著,确认了分域的必要性。
  • 虽然分域降低了动量因子的个别因子解释能力(曝光情况略为减弱),但整体预测能力因分域细化得到提升。


[page::16] [page::17] [page::18]

2.7.2 分域模型效果展示


  • 净值表现图(图5-8)直接对比沪深300及中证500的线性整体模型和线性分域模型,呈现分域模型略优的收益表现。

- 风险调整指标方面,分域模型超额年化收益提高(沪深300由5.78%升至6.33%;中证500由8.60%升至8.97%),最大回撤控制稍有不同,信息比均有提升。
  • 提升幅度虽有限,但稳定,展示了分域模型的实操有效性。


[page::19]

---

2.8 报告总结



关键结论回归体现在线性分域模型基本形式:

\[
\boldsymbol{r} = \boldsymbol{X}\boldsymbol{F} + \boldsymbol{B}
{new} \boldsymbol{F}_{new} + \boldsymbol{\varepsilon}
\]
  • 全域因子和分域因子暴露矩阵清晰定义,分域因子可拆解为全域因子暴露和分域哑变量的线性组合。

- 采用逐步回归取残差的正交方式处理因子相关性,保持模型线性和稳定。
  • 选取动量因子作为典型分域因子案例,结果显示分域方法提升显著,模型理论与实证对应。

- 实际以沪深300和中证500为例,模型有效性得到验证,展示线性分域模型的适用场景与价值。

[page::20] [page::21]

---

三、图表深度解读



图1:不同规模选股域下ROE因子ICIR


  • 图表展示了2010年以来,不同市值规模下ROE因子的ICIR。

- 小市值(最小20%)股票池ROE因子ICIR为负,说明低ROE股票反而有更好预期收益。
  • 其他市值段均为正,ROE与预期收益呈正相关。

- 提示模型中ROE因子需规模分域以捕捉不同选股逻辑。

图2:不同行业内BP因子ICIR


  • 展示2019年以来BP因子在不同行业的ICIR表现差异极大。

- 金融、公用、环保等行业BP因子较强,消费、科技等行业则呈现负相关或无效。
  • 强烈支持行业维度分域因子设计,反映估值因子效用差异。


图3:因子正交顺序调整R方增量


  • 曲线展示不同因子加入模型时,调整R方的增量,体现因子贡献的边际变化。

- “DDM估值”之后增量趋于平缓,提示后续因子收益相对有限。
  • 为因子筛选和正交顺序设定提供依据。


图4:分域模型与整体模型调整R方累积差距


  • 右轴展示累积提升比例,超过20%的提升体现分域模型显著优化模型拟合能力。

- 时序上提升自2010年稳定增长,表明模型适用性和稳健性均佳。

图5-8:沪深300与中证500净值表现对比


  • 净值曲线显示分域模型相对整体模型表现提升,虽幅度不大但稳健。

- 结合表4风险指标,分域模型信息比、超额收益及最大回撤均有轻微优势,符合模型预测预期。

---

四、估值分析



报告无直接估值模型探讨,不涉及DCF或PE估值等,聚焦于多因子Alpha模型构建与因子有效性提升。相关因子按正交顺序予以整合,优化组合以最大化预期Alpha收益。

---

五、风险因素评估



报告中提示三大风险:
  1. 模型失效风险:历史数据基础无法保证未来有效性。

2. 历史数据限制:因子选择与模型构建依赖全样本数据,可能存在过拟合。
  1. 分域因子选择风险:以全样本进行因子分域筛选,可能样本外表现不佳。


整体风险控制措施未详述,建议实操中结合交叉验证和动态调整模型架构。

[page::1]

---

六、批判性视角与细微差别


  • 回归取残差正交法的潜在问题:回归顺序对因子最终暴露有显著影响,报告虽按调整R方增量法定序,但顺序敏感性应谨慎对待。

- 动量因子分域后解释力下降:单个行业动量因子t值下跌,提示分域带来细分但可能影响稳定性和统计显著性。如何权衡统计能力与结构复杂度需进一步讨论。
  • 风险提示较为基础,未深入探讨市场环境或结构性变化导致分域模型失效的可能性。

- 分域模型扩展性:仅以行业为分域,未对其他如主题、风格分域做详细实例,未来可扩展多维度分域实现更细粒度捕捉。
  • 图表部分部分数值和文字存在轻微错位或缺失现象(如表3、表4),推敲数据时需谨慎。


---

七、结论性综合



本报告系统阐述了在传统线性多因子模型基础上,考虑行业等选股域分异效应,构建线性分域多因子模型的理论体系与实操流程。核心贡献包括:
  • 数学层面清晰定义了分域模型结构,展示分域因子暴露如何通过全域因子暴露和行业哑变量线性组合实现分解。

- 系统揭示因子暴露之间的相关性问题,提出基于逐步回归取残差的正交流程,确保分域因子与全域因子的正交性,避免多重共线性。
  • 提供一套Alpha因子筛选与正交顺序确定的实用性方法,重点确定动量因子为分域因子,验证其行业间表现差异的必要性。

- 实证结果显示分域模型月度截面调整R方提升21.85%以上,沪深300及中证500组合回测均体现信息比与超额收益的正向改进,确认模型的实用价值。
  • 边际效果表现稳健,但分域模型带来模型复杂度与单因子稳定性的权衡问题需谨慎对待。


总体而言,报告立场积极推荐引入线性分域多因子模型,通过适当分域和因子正交,有效提升个股Alpha预测能力,实证验证模型有明确优势,适合量化投资和组合优化实际运用。

---

重要图表示例



图4(线性分域模型调整R方累积提升示意)





---

致谢



感谢长江证券研究所提供详实框架和充分数据支持,书中数学推导严谨,实证数据翔实,是多因子模型研究领域的重要参考文献。

---

溯源标注:本详尽分析基于报告原文内容,均引用以下页面:[page::0] [page::1] [page::3] [page::4] [page::5] [page::6] [page::7] [page::8] [page::9] [page::10] [page::11] [page::12] [page::13] [page::14] [page::15] [page::16] [page::17] [page::18] [page::19] [page::20] [page::21]

---

(全文字数:约2500字)

报告