`

异常值稳健回归控制下的EP因子有效性重估——“学海拾珠”系列之二百四十四

创建于 更新于

摘要

本文基于mOpt稳健回归方法,系统识别并剔除因回报和因子暴露中的异常值对最小二乘回归的负向偏倚影响,重新证实EP因子作为持续显著的价值因子地位,并揭示BP因子在2007年后失效。通过对CRSP、Russell3000、2000及1000股票池1980-2007及2008-2020年的Fama-MacBeth回归分析,mOpt相比传统1%缩尾LS回归,显著提升了因子显著性识别效果。此外,基于盈利预测和修正的CTEF复合因子在多因子模型中表现突出,推荐在投资组合优化中应用该因子。微市值股票异常值比例虽较高,但mOpt仅剔除3%-5%异常值即可有效控制偏倚。整体研究为因子研究及均值-方差投资组合构建中应用稳健回归提供了重要方法论支持[page::0][page::1][page::6][page::8][page::11][page::12][page::13]

速读内容


核心研究方法与问题定位 [page::0][page::1]

  • 传统最小二乘(LS)横截面回归易受异常值影响,致使EP因子显著性被低估。

- 引入mOpt稳健回归方法,自动识别并剔除异常观测,降低异常值偏倚对因子显著性的干扰。
  • 研究涵盖1980-2007年和2008-2020年两个时间段,四个股票池:CRSP、Russell3000、Russell2000、Russell1000。


异常值及稳健回归方法解析 [page::4][page::5][page::6][page::7]




  • CRSP及Russell股票池中回报与EP因子暴露具有厚尾非正态分布,传统1%缩尾处理不足以剔除异常值。

- mOpt利用特定权重函数,对绝对稳健尺度残差大于3的数据赋予零权重,实现有效异常值剔除。
  • 案例分析(2009年5月CRSP数据)显示mOpt线性拟合显著优于LS和LSwin,后两者斜率受负偏倚影响。


EP与BP因子单独与联合回归分析 [page::8][page::9][page::10]


| 股票池 | 时间范围 | EP mOpt显著性 | EP LSwin显著性 | BP mOpt显著性 | BP LSwin显著性 |
|--------------|-----------|---------------|----------------|---------------|----------------|
| CRSP | 1980-2007 | 显著 | 不显著 | 弱显著 | 显著 |
| Russell 3000 | 1980-2007 | 显著 | 弱显著 | 不显著 | 弱显著 |
| Russell 2000 | 1980-2007 | 显著 | 弱显著 | 不显著 | 弱显著 |
| Russell 1000 | 1980-2007 | 弱显著 | 弱显著 | 不显著 | 弱显著 |
| CRSP | 2008-2020 | 显著 | 不显著 | 负向显著 | 不显著 |
| Russell 3000 | 2008-2020 | 显著 | 不显著 | 不显著 | 不显著 |
| Russell 2000 | 2008-2020 | 显著 | 不显著 | 不显著 | 不显著 |
| Russell 1000 | 2008-2020 | 不显著 | 不显著 | 不显著 | 不显著 |
  • mOpt识别EP为主导价值因子,BP自2007年后失效且在部分样本中表现负相关。

- LSwin方法由于异常值偏倚,误导结论为EP不显著,BP为价值因子[page::8][page::9][page::10]

异常值剔除统计与市值分组分析 [page::9][page::10]


| 股票池 | 时间范围 | BP异常剔除率(%) | EP异常剔除率(%) |
|--------------|-----------|-----------------|-----------------|
| CRSP | 1980-2007 | 5.30 | 4.89 |
| Russell 3000 | 1980-2007 | 3.80 | 4.78 |
| Russell 2000 | 1980-2007 | 4.02 | 3.64 |
| Russell 1000 | 1980-2007 | 3.06 | 3.02 |
| CRSP | 2008-2020 | 5.43 | 5.05 |
| Russell 3000 | 2008-2020 | 8.00 | 2.82 |
| Russell 2000 | 2008-2020 | 4.23 | 1.21 |
| Russell 1000 | 2008-2020 | 1.42 | 1.87 |
  • 微市值股票异常值剔除比例最高,依然整体剔除比例控制在3-5.5%,有效避免全面剔除微市值股票。

- 异常值剔除策略确保极少量极端数据影响模型拟合[page::9][page::10]

多因子模型中的EP及CTEF因子表现 [page::11][page::12][page::13]


  • REG10模型包含EP、BP及基于盈利预测修正的CTEF复合因子。

- mOpt方法下EP因子在两个时间段内于CRSP、Russell3000、Russell2000均显著,LS法则未能有效体现。
  • CTEF因子在两个时间段下均高度显著,特别在第二个时间段使用mOpt仍保持有效,推荐在资产配置和组合优化中应用。

- R1000股票池中EP和CTEF因子显著性均不足,市场效率较高[page::11][page::12][page::13]

结论与投资建议 [page::11][page::12][page::13]

  • EP因子是价值投资中持续有效的重要因子,传统最小二乘法因异常值被低估。

- mOpt稳健回归方法有效控制异常值影响,提升因子显著性识别,是未来因子研究及资产组合优化的推荐工具。
  • BP因子在2007年后失效甚至逆向,需要谨慎使用。

- CTEF为一个新颖且符合实务的价值因子,值得深入挖掘与应用。
  • 建议投资者与量化研究者采用稳健回归替代或辅助传统LS回归,以提升模型稳健性与投资决策可靠性。[page::0][page::11][page::12]


深度阅读

【华安金工】异常值稳健回归控制下的EP因子有效性重估——全面详尽分析



---

一、元数据与报告概览



报告标题:《异常值稳健回归控制下的EP因子有效性重估——“学海拾珠”系列之二百四十四》
作者/团队:华安证券金工团队,金工严选
发布日期:2025年08月06日
覆盖主题:基于稳健回归方法对盈利价格比(EP)因子在多时期、多股票池的有效性重新评估,兼及账面市值比(BP)及复合因子CTEF,重点解决横截面因子模型中最小二乘法(LS)对异常值敏感导致因子显著性偏误的问题。
核心观点概述
  • 传统最小二乘法(LS)在横截面回归中容易被异常值干扰,导致价值因子盈利价格比(EP)显著性被低估。

- 引入mOpt稳健回归方法,有效识别剔除异常值,使EP因子在1980-2007年及2008-2020年两个时间段内对CRSP、Russell3000和Russell2000股票池均表现为高度显著的价值因子(t-statistics大于6.0)。
  • 标准1%缩尾处理的LS回归无法有效控制异常值,甚至可能恶化结果。

- mOpt回归确认账面市值比(BP)因子在2007年后失效。
  • 基于盈利预测、预测修正与预测广度构造的复合因子CTEF表现优异。

- 研究基于海外顶级期刊文章成果的再验证,为因子模型的稳健性分析提供新思路。
  • 风险提示强调文献基于历史数据不构成投资建议。

[pag:::0,1]

---

二、逐节深度解读



2.1 研究背景与动机(引言与文献综述)



自Graham和Dodd(1934)以来,EP或市盈率一直被广泛视为核心价值因子。早期实证研究如Basu(1977,1983)强调低PE(高EP)对应超额收益,支持价值投资理念。但Fama-French(1992,1993)通过横截面回归发现在包含规模和BP因子时,EP不再显著。因此,BP成为主流价值因子定义。多年来,BP优势持续被学界接受。然而,2007年以后BP失去作用,诱发对BP失效原因的学术与实务关注,例如无形资产核算不足的问题被指明并尝试以改良BP替代。另一方面,EP因回报与因子暴露存在极端异常值,导致LS方法显著性低估,传统缩尾处理无效。稳健回归方法(如Knez和Ready 1997的LTS方法)虽然能缓解异常值影响,但在资产定价横截面回归研究中鲜有应用,本文将补足这一空白。
[pag:::1]

2.2 数据描述与异常值表现



本文选用1980-2007年和2008-2020年两个关键时间段,涵盖CRSP、模仿的Russell 3000、2000、1000股票池。数据使用Compustat和CRSP数据库资产负债表和回报数据,因子暴露根据倒数期年财报计算,覆盖日历年t−1财年数据。股票市场规模划分遵循Fama-French经典20%和50%界定。股票数量随时间波动,CRSP池涵盖大约7000只股票,模拟Russell指数池分别近似3000、2000和1000只股票。

异常值表现体现在回报分布及EP因子暴露上均为厚尾偏态分布,且联动异常产生明显非正态特征,制约LS拟合质量。
  • 回报算术率的正态QQ图显示显著厚尾异态,异常值范围极大,尤其CRSP池。

- EP因子暴露在大样本中约有一半以上股票存在有效EP值,尤以大市值股票比例更高,缺失主要集中于微市值股票。
  • 1%缩尾处理对EP异常值控制失败,仍留存大规模正负尾异常值,说明传统缩尾不能有效缓解异常值造成的LS偏倚。

- 联合回报与EP的异常值分布图(以Hexbin图示)直观揭示了LS拟合倾斜负偏倚的异常源。
[pag:::3,4,5]

2.3 方法论:稳健回归mOpt与异常值模型



为了克服异常值对LS的影响,本文提出采用mOpt稳健回归估计量,该方法基于Tukey-Huber双分量混合分布模型:
  • 正态分布部分反映主流数据行为,异常分布部分自由生成异常值。

- mOpt权重函数自动辨识残差绝对值超过阈值(标准残差绝对大于3)记录为异常值权重归零,剔除异常数据点,实现平滑非线性加权最小二乘估计。
  • 权重函数特征类似经典三西格玛规则的平滑稳健版本,优雅兼顾抗干扰和效率。

- 迭代加权最小二乘算法(IWLS)确保估计量收敛与计算简便。
  • mOpt回归结果不受缩尾处理影响,并比LS对异常值作用更敏感且更稳健。

- mOpt适合大规模股票横截面回归,能显著减缓偏倚。
通过示例分析(如2009年5月CRSP回报与EP的Hexbin图),显示mOpt拟合线斜率正向且显著,LS和LS窄尾拟合线偏斜为负,与异常值负面影响相对应。异常值剔除比例约5%左右。
[pag:::6,7,8]

2.4 实证结果分析——单因子及多因子模型中的EP和BP



2.4.1 单因子回归(平均斜率与统计显著性)


  • 使用mOpt回归,EP因子在CRSP、R3000、R2000股票池的两个时间段均显著(t-stat>6),展现持久价值因子地位。R1000小幅弱显著。

- LSwin方法(含1%缩尾)仅在第一个时间段对R3000和R2000有弱显著性,未能体现EP的持续重要性。
  • BP因子用mOpt和LSwin均在第一个时间段略显著,但2008-2020年大多不显著,其中CRSP池用mOpt甚至显示负显著性,表明BP因子失效进一步得到确认。



2.4.2 双因子联合回归(EP与BP)


  • mOpt回归结果继续凸显EP因子的高度显著地位,特别在CRSP、R3000、R2000股票池均稳健。

- BP因子只有2007年前,使用非稳健LSwin估计时显示一定显著性,mOpt回归则显示其未来期失效甚至为负因子。
  • 说明LS回归受异常值影响导致对EP显著性的低估和对BP的高估。

- 结果揭示以LS为基础的Fama-French传统结论需要重新审视。
[pag:::9,10]

2.5 异常值剔除统计与分市值分析



统计显示,在mOpt回归中,异常值被剔除比例在3-5%左右,CRSP池最高达到5.2%,各Russell指数股票池大约在3.2%-4.8%之间。
  • 2008年以后,异常值比例普遍有所上升,CRSP上涨较少,Russell池涨幅明显。

- 微市值股票异常值比例远高于小市值和大市值股票,说明估计模型受小市值历史数据噪声影响较大。
  • 然而全部剔除微市值股票并非必要,mOpt稳健过滤已有效剔除大部分有害异常。

- 小市值和大市值股票异常值占比存在递减趋势,但仍需要稳健回归方法做异常控制。
[pag:::10]

2.6 多因子模型中的EP与CTEF因子分析



基于Markowitz等人(2021)研究的10因子模型(REG10模型),增加了基于盈利预测、修正和预测广度的CTEF复合因子,结果发现:
  • EP因子通过mOpt回归在两个时期对大多数股票池保持显著,而LS法则始终不显著,说明异常值影响对其判断极大。

- BP因子表现弱显著或消失,与市场变化同步。
  • CTEF因子在两个时间段都表现出高度显著性,仅在2008-2020用LS估计中不显著,但经mOpt稳健回归仍保持大部分显著或弱显著,强调其在价值投资中的潜力。

- 价格动量因子(PM)在早期显著,后期减弱,与业界共识吻合。
  • R1000股票池中,EP、CTEF均不显著,显示大盘市场相对效率较高,因子影响有限。

- 该模型因子暴露采用排序标准化避免异常值直接影响,增强模型稳定性。
[pag:::11,12,13]

---

三、图表深度解读



图表1 — 文章框架思维导图(page=1)

  • 展示了文献复盘、方法论mOpt稳健回归的理论背景和构建流程,以及主要实证结论,逻辑清晰,框架严密。


图表2 — CRSP股票池及其分市值子集股票数量变化(page=3)

  • 纵轴为股票数,横轴横跨1980-2020年,显示CRSP总股票数约5000-9000间震荡。

- 微市值股票数占比最大且波动显著,小盘和大盘股票数量相对较少。
  • 显示了针对不同股票规模的横截面分析背景。


图表4 — 2009年5月各股票池的回报正态QQ图(page=4)

  • 所有股票池回报数据均显厚尾,明显偏离正态,CRSP尾部尤为肥厚,多双侧存在极端异常点。

- 反映市场回报分布本质及异常风险对模型影响的实证依据。

图表5 — 2009年5月CRSP和R3000股票池EP值正态QQ图及1%缩尾后QQ图(page=5)

  • 原始EP值数据异常值显著,缩尾后异常值依然密集,展现了缩尾处理的不足。

- EP数据分布极具非对称性,极端高低值仍然存在,显示传统预处理的难度。

图表6 — 2009年5月CRSP股票池回报与EP的Hexbin图(page=5)

  • 原始数据中存在大量联合异常点,回报与EP极端值同时出现,且负EP对应正回报的案例尤为突出。

- 缩尾处理去除部分异常值但仍未根除,呈现数据中的潜在统计风险。

图表7 — mOpt权重函数曲线(page=7)

  • 权重为1在残差绝对值<=1范围内,平滑过渡至残差绝对值>=3时权重为0,阐释了mOpt对异常值的自动识别与剔除机制。


图表8 — 2009年5月CRSP股票池回报与EP的mOpt、LS、LSwin回归拟合线(page=8)

  • 黑色mOpt回归线正斜率且显著(t=3.65),红色LS缩尾和粉色LS无缩尾均呈负斜率且t值为负,说明异常值对LS估计的严重负面影响。

- 异常值剔除率大约5.5%,显示mOpt有效过滤异常数据点。
  • 强调缩尾处理并非良策,有时反而加剧偏误。


图表9&10 — 不同股票池分时期EP和BP因子单因子及多因子回归的平均斜率及显著性(page=9-10)

  • 用绿色(显著)和黄色(弱显著)区分统计结果。

- mOpt回归清楚表明EP因子在大多数股票池和时间段均高度显著,LSwin方法下EP显著性差,尤其在后期。
  • BP因子仅在2007以前体现一定显著性,后期表现弱或否定,尤其用mOpt回归。

- 两幅图均显示稳健回归带来结论重大调整。

图表11 — mOpt异常值剔除比例(时间平均值分股票池与分市值)(page=10)

  • 异常值剔除比例随着时间推移有所增加,尤其在小市值群体显著。

- 表明小盘和微盘股票对异常值敏感性高,但mOpt方法有效识别剔除对应影响。

图表12&13 — 1980-2007和2008-2020年期间REG10多因子模型的LS和mOpt HAC t统计量(page=12-13)

  • mOpt方法下EP和CTEF因子均保持强显著,尤其在小盘和中盘池中。

- LS方法对于EP因子稳定呈不显著,CTEF仅部分时间显著。
  • BP因子表现一致,2008年后消失甚至负向。

- 价格动量因子早期显著,但近年逐渐弱化。
  • 图表清晰展示稳健估计手段对价值因子和复合因子识别的重要价值。


---

四、估值分析



报告重点关注基于Fama-MacBeth横截面回归,结合稳健回归mOpt方法解决异常值对因子显著性的影响,并未涉及传统意义上的公司估值分析(如DCF、市盈率倍数估值等)。
通过稳健回归剔除异常值,确保因子暴露与回报关系的准确性,进而在多因子模型中实现更精确的预期收益估计,为基于因子模型的均值-方差最优(MVO)投资组合构建提供稳定的输入。
特别引入CTEF复合因子,基于盈利预测及其修正,拓展了价值因子体系,提高模型的解释力和实用性。
估值提升体现在推翻传统LS方法下BP优先的学术结论,重新确认EP和CTEF因子作为核心价值因子的地位。
[pag:::2, 10, 11, 12]

---

五、风险因素评估


  • mOpt稳健回归虽能大幅降低异常值对因子显著性判断的偏误,但仍依赖于历史数据和模型假设,存在数据缺漏、因子暴露滞后、样本外泛化等风险。

- 异常值剔除比例虽不高,但这些异常点常对应市场结构性变动或财务报告异常,或许蕴含重要信息,完全剔除可能导致信息丢失。
  • EP因子显著性依赖于回报与盈利数据的准确性,盈利数据的非同步性与调整方式可能引发测量误差。

- 复杂度提升的CTEF因子虽有效,但因其构建依赖多重盈利预测数据,数据质量、覆盖范围与预测模型稳健性风险不可忽视。
  • EP与BP因子时序表现的显著转变,反映市场结构变化,表明模型外环境的不确定性,未来因子结构可能演变。

- 以上风险均未在文中详细量化概率和缓解策略,提醒投资者谨慎对待研究结论的投资应用。
[pag:::0, 11, 12]

---

六、批判性视角与细微差别


  • 本报告基于文献与海外成熟市场数据,适用性及有效性在中国及其他新兴市场或行业未被验证,跨市场推广存在潜在局限。

- 传统方法使用1%缩尾被证明无效,指明学界以往研究结论可能误导,但此类结论修正也可能导致新一轮的模型迭代风险。
  • 某些图表中,异常值剔除比例虽小,但未展开异常数据特征深入分析,剔除是否会错过极端事件的重要信息仍待验证。

- R1000股票池中EP和CTEF未显著,反映其市场效率较高,但是否代表无进一步因子可挖掘或样本限制仍待观察。
  • mOpt方法虽先进,但复杂且计算量较大,推广应用难度可能较高,且对参数选择敏感性未充分讨论。

- 因因子暴露采用排序指标处理,可能影响因子本身经济含义的解释,需要在实务配置中谨慎适用。
  • 总体立场虽客观,仍建议进一步研究跨时间、跨市场、跨资产类别的稳健性,以支持广泛应用。

[pag:::0, 6, 12]

---

七、结论性综合



本文通过应用一种理论严密、性能优越的mOpt稳健回归方法,针对传统LS回归受异常值干扰过大的问题,对价值因子EP及复合因子CTEF在多股票池和双时期的有效性进行了深度重估。研究主要发现包括:
  • 长期以来被学术界忽视的异常值对横截面回归因子显著性的影响严重,并导致EP因子在经典模型中被低估甚至误判为不显著。

- mOpt方法成功剔除3.2%-5.2%之间的异常回报和因子暴露数据点,从而显著提升模型拟合质量,揭示了EP是持续且高度显著的价值因子,t-statistics常大于6。
  • 同时确认BP因子在2007年后的价值因子消失甚至表现为负向,呼应了市场结构变迁。

- 传统1%缩尾方法对异常值控制效果有限,甚至可能加剧LS估计偏误。
  • 在多因子均值-方差优化模型中,基于盈利预测的复合因子CTEF表现出超越传统价值因子的显著性,是一具有潜力的新型价值因子。

- 小市值股票异常值频率较高,但mOpt剔除异常点后,无需简单粗暴地剔除全部小盘股,保护了数据的完整性和有效性。
  • R1000大盘股因子显著性整体较弱,可能体现了市场效率高或样本限制。

- 本研究结果不仅为重新理解价值因子演变提供坚实证据,也对资产定价研究方法论提出革新建议,推动因子投资、风险分析及资产配置的科学进步。
  • 最后,mOpt作为诊断工具的价值突出,强烈建议金融学术及实务领域重新评估大量基于LS的因子研究结论。


本文数据图表全面、方法严谨,其理论与实证分析为价值因子研究注入新视角,具有显著的学术价值和实务指导意义。
[pag:::0-13]

---

参考文献及资料来源



华安证券金工团队:《异常值稳健回归控制下的EP因子有效性重估——“学海拾珠”系列之二百四十四》,2025年8月,上海。[pag:::0-13]
Martin R D , Guerard J B , Xia D Z .《Resurrecting Earnings-to-Price with Robust Control for Outliers》,Journal of Portfolio Management, 2024。[pag:::0,2,6]

---

如需更具体的数据解析或模型技术细节讲解,请告知。

报告