`

当我们在做因子正交化的时候,我们在做什么?“拾穗”多因子系列报告(第 18 期)

创建于 更新于

摘要

本报告系统介绍了多因子研究中因子正交化的核心方法,重点对比回归法与分组法在剥离因子间相互影响(特别是剥离市值影响)上的效果与逻辑差异。实证分析表明分组法在单因子中性化中效果更佳,但回归法操作更简便。报告结合换手率因子案例,详细阐释回归残差的含义及引入非线性项对剔除效果的提升,进一步探讨了正交化时样本的选择问题,为投资者开展因子构建与有效性检验提供了实际指导和思路 [page::0][page::2][page::4][page::6][page::8][page::10][page::11]

速读内容


因子剥离方法比较:回归法 VS 分组法 [page::0][page::4][page::6]

  • 回归法通过横截面回归剔除已知因子线性影响,操作简单,但无法完全去除非线性影响,且因子间多重共线性会影响结果;

- 分组法通过分层合并分组实现中性化,适合单因子剥离且效果较好,但不易处理多因子同时剥离,且难以与组合优化相结合;
  • 实证结果显示,分组法后因子样本市值分布更均匀,回归法则会出现部分非线性相关,影响因子纯净度。


换手率因子市值正交化实证分析 [page::2][page::3][page::4][page::6]




  • 换手率因子原始表现受市值影响较强(高换手率对应低市值股票),剔除市值影响后,多空组合年化信息比率(IR)从1.58提升至3.21,因子有效性显著增强。

- 经市值正交化的换手率因子分组累计收益呈现单调收益特征,回归法和分组法均能剥离市值影响,但分组法后组内市值更均匀,回归法存在非线性残留,可能带来收益的额外提升。

| 指标 | 正交化前 | 正交化后 |
|------------|------------|--------------|
| RankIC 胜率 | 27.0% | 18.0% |
| RankIC 均值 | -8.5% | -11.75% |
| RankIC-t 值| -7.16 | -12.76 |
| 年化收益 | 32.4% | 52.1% |
| 年化波动 | 20.0% | 16.0% |
| 年化IR | 1.58 | 3.21 |
| 最大回撤 | 21% | 7% |
| 月胜率 | 68% | 78% |

因子正交化中的线性与非线性剔除问题 [page::8][page::9]


  • 线性相关的因子剔除可以通过回归剔除残差实现,残差与剔除因子呈“无关”状态;


  • 实例进一步显示换手率与市值存在非线性关系,加入市值平方、立方项显著提高拟合度(模型R方提升至21.3%),但回归法仍难完全剔除非线性影响。

- 回归残差近似为换手率和市值线性组合的综合得分,然而市值厚尾特性导致大市值股票调整幅度更大,影响因子纯净化的效果。

| 模型 | 截距(t值) | Size(t值) | Size平方(t值) | Size立方(t值) | R方 |
|---------------------------|-----------|-----------|---------------|---------------|--------|
| Turnover ~ Size | (0.00) | (-25.43) | | | 15.5% |
| Turnover ~ Size + Size² | (-7.16) | (-29.67) | (14.12) | | 20.0% |
| Turnover ~ Size + Size² + Size³ | (-9.82) | (-22.97) | (14.33) | (-7.65) | 21.3% |

正交化时样本选择问题探讨 [page::10]

  • 通常建议在全样本首轮正交化,再在子样本(如沪深300)进行有效性检验,以保证因子处于可比状态;

- 部分子样本样本规模较小或因子分布边缘化(如上证50市值异常集中),直接在子样本中正交化可能导致因子剥离失效或形同无修正;
  • 样本选择影响因子正交化的实际效果,投资者应结合策略需求和样本特性谨慎选择。


结论总结 [page::11]

  • 多因子正交化方法核心有两种:线性回归法和分组法,各有优缺点;

- 分组法适合单因子剥离,剔除效果更佳,但难多因子同时处理;回归法简便但存在线性和非线性剥离不足问题;
  • 实例以换手率因子为例,验证了两种方法在剥离市值影响上的差异及影响因子表现的逻辑;

- 正交化过程需关注因子间相关性、数据分布及样本选择等细节,确保因子有效性和纯净度。

深度阅读

报告详尽分析报告:《当我们在做因子正交化的时候,我们在做什么?》(“拾穗”多因子系列报告第18期)



---

1. 元数据与报告概览


  • 报告标题: 当我们在做因子正交化的时候,我们在做什么?

- 日期: 2019年9月3日
  • 作者及联系方式: 陶勤英(分析师,SAC证书编号:S0160517100002),张宇(研究助理)

- 发布机构: 财通证券研究所
  • 研究主题: 多因子投资中因子正交化方法的原理、实证及应用细节,聚焦于剥离已知因子的影响特别是市值因子,提升因子有效性检验的准确性。

- 系列背景: 属于“拾穗”多因子系列第18期,前述多期报告涉及Barra模型、多因子风险预测、动量因子重构等相关主题,是财通证券系统性量化研究成果的一部分。

核心论点:
本报告系统梳理了因子正交化的必要性、主流方法(回归法与分组法)的逻辑与操作,重点比较两者在剥离市值因子对换手率因子影响中的表现差异,揭示回归法仅能剔除线性影响且受因子相关性和厚尾分布影响,分组法中性化效果更好但只能处理单因子。报告还分析了回归残差的变化机理、样本选择对正交化结果的影响及实际应用中的限制,为实务中精细化多因子模型构建和因子优化提供指导。

---

2. 逐章深度解析



2.1 引言与背景(第2页)


  • 报告指出多因子模型在投资中的广泛应用,强调建立一套精细实用的多因子系统的重要性。

- 因子正交化是多因子研究中最普遍的因子处理步骤,目的是剔除目标因子中其他已知因子的影响,避免因子间的相关性导致有效性检验的失真。
  • 结合“星火”多因子系列中已构建的57个基础因子,实证展示市值因子对大多因子的显著相关性及正交化后RankIC的提升(图1),凸显剥离已知因子必要性。


图1 解读:


  • 内容: 图1比较了对市值进行正交化前后基础因子的RankIC-t值。

- 解读: 多数因子在剥离市值影响后RankIC大幅提升,说明市值因子构成了显著干扰,剥离市值影响提高了因子的纯净度和预测能力,验证了因子剥离的实用价值。

---

2.2 换手率因子与市值的关联及影响(第3页)


  • 以21天换手率因子为例,进行分组排序,发现换手率与市值存在明显负相关(图2),高换手多集中于小市值组。

- 市值与未来收益表现方向相反:大市值股票收益较低,低换手因子表现较好。因此,换手率因子未剥离市值影响时表现扭曲。
  • 图3展示换手率因子原始分组累计净值,未形成明显单调趋势,低换手组收益骤降,与换手率与市值负相关导致表现错位相符。


图2 & 图3 解读:


  • 图2呈现换手率分组后每组市值平均,明显呈单调负相关,验证换手率与市值的相关性。

- 图3换手率原始值分组累计净值未呈单调上升,说明市值因素混淆换手率因子对收益的预测。

---

2.3 因子剥离方法与实证(第4-7页)



2.3.1 回归法


  • 操作步骤:将目标因子(如换手率)作为因变量,对需剔除的因子(如市值)横截面OLS回归,取残差为新因子,实现线性剥离。

- 需注意对因子先标准化去极值,且剔除多因子时因子间相关性导致剥离不彻底。
  • 回归法剥离能剔除线性影响,但对非线性剥离无效。

- 通过示例说明多因子剥离可能引入目标因子与某因子(反转)间的负相关,示意图4和5中因子的变化。

2.3.2 分组法(分层法)


  • 步骤逻辑:按照剔除因子(如市值)分层,每层内将目标因子分组,合并相同组别分层组构成最终组,通过层内剔除实现中性化。

- 中性化效果较强,尤其对单一因子剥离,缺点是多因子剥离复杂且不适合直接用于组合优化。

2.3.3 两方法比较:


  • 回归法简单易操作,但因子间相关性及数据分布带来干扰,剥离非线性影响有限。

- 分组法中性化效果更佳,但局限于单因子剥离,且样本分布和组合优化接轨性不足。

---

2.4 换手率因子剥离市值后的表现比较(第6-7页)


  • 图7与图8分别呈现回归法和分组法剥离市值后换手率因子分组累计收益,都呈现明显单调:低换手组收益最高,反映出剥离市值干扰后换手率对收益的真实作用。

- 图9进一步比较三种处理(原始、回归剔除、分组剔除)后每个换手率组的市值均值。原始因子组的市值呈明显负相关,回归剔除组市值出现非线性曲线(中间高、两边低),分组法组市值平均最均匀。
  • 图10放大分组法组别市值均值,虽然存在细微单调性,但幅度极小可忽略。


结论:
分组法逻辑与实测数据自洽,中性化效果优;回归法剔除结果出现市值非线性关系导致多头收益被抬高,体现回归法剥离不纯粹的弊端。

---

2.5 正交化本质与回归残差解析(第8-10页)


  • 通过蒙特卡洛模拟(图11至图13),展示OLS回归剔除线性相关性的数学机理:残差与剔除变量X不相关,且仍与因变量Y强关联。

- 实际案例(日2018年11月30日换手率与市值回归,图14)显示二者关系非完全线性。
  • 拓展加入市值二次、三次项(图15),显著提高模型解释度(R²由15.5%提升至21.3%,表2),二次项尤为显著,说明需对非线性关系进行考虑。

- 解释残差的统计意义:回归残差形式可看作换手率与市值线性组合后的得分,权重为回归系数。
  • 图16与17展示换手率和市值因子呈厚尾分布,导致残差修正效果呈现非对称影响:大市值股票调整幅度大于小市值。

- 进一步解释残差组市值与原始组市值的差异形成原因(D9-D0组间的复杂关系)。

---

2.6 正交化时样本选择(第10页)


  • 全样本正交化有助于因子分布均匀,方便全市场多样化选股,保证子样本间比较性。

- 两种正交化样本选择策略:
1. 在全样本正交化,再在子样本测效(“星火”系列选择方案)
2. 直接在子样本内正交化
  • 小市值分布极端情况下正交化无效问题举例:如上证50成分股市值均处极端(边界点),导致正交化等同常数偏移,未能实现真实剥离。

- 财通证券提示正交化样本选择的复杂性,鼓励读者参与讨论和未来研究。

---

2.7 总结(第11页)


  • 重申回归法和分组法各有优势与应用限制。

- 回归法适用于线性剥除但受因子间高相关性及厚尾分布影响显著,且对非线性剔离存在不足。
  • 分组法剥离效果优,但复杂多因子剥离困难且与组合优化不匹配。

- 通过换手率-市值实证研究,验证了以上理论和方法的适用性,同时强调样本选择对有效性影响较大。
  • 期待读者及投资者持续关注未来“拾穗”系列后续关于行业因子正交化的研究内容。


---

3. 图表深度解读



| 图号 | 内容描述 | 关键洞察 | 支持论点 | 溯源页码 |
| ------ | ------ | ------ | ------ | ------ |
| 图1 | 市值剥离前后因子RankIC-t值对比 | 市值影响广泛且显著,剥离提升多因子有效性 | 强调剥离市值因子必不可少 | 2 |
| 图2 | 换手率分组后的市值平均(标准化后) | 换手率高者对应小市值,负相关明显 | 揭示因子间相关性导致混淆因子效用 | 3 |
| 图3 | 换手率原始分组累计净值 | 原始换手率因子收益无明显单调,表现被干扰 | 需剥离市值影响,以免误判因子 | 3 |
| 表1 | 换手率因子正交化前后绩效对比 | 正交化后绩效显著提升,IR、收益、回撤皆优 | 印证剥离提高因子表现 | 4 |
| 图4/5 | 特质动量因子正交化前后各组暴露 | 多因子剥离导致部分因子间相关性转化变化 | 突显多因子回归易引入复杂效应 | 5 |
| 图6 | 分层法中性化示意 | 直观展现分组剥离逻辑 | 支持分组法剥离单因子效果明确 | 5 |
| 图7/8 | 回归法与分组法剥离换手率因子分组累计收益 | 两法剥离效果均显著改善因子表现,累积收益单调 | 验证两法剥离优劣比较基础 | 6 |
| 图9/10 | 不同剥离方法后换手率因子组别市值均值 | 分组法组别市值均匀,回归法呈非线性相关 | 分组法更纯粹剥离单因子影响 | 6-7 |
| 图11-13 | 蒙特卡洛模拟X、Y、残差关系散点图 | 回归简化线性关系,剔除自变量影响 | 说明线性剥离数学机理 | 8 |
| 图14/15 | 实际回归模型拟合情况,展示加入二次项效果 | 非线性关系显著提高拟合度 | 说明模型剥离应考虑非线性 | 9 |
| 表2 | 不同回归模型系数及R方 | 赋予定量依据和统计显著性 | 强调实证合理性 | 9 |
| 图16/17 | 换手率和市值因子分布直方图 | 两因子均呈厚尾分布 | 解释因子修正中厚尾影响 | 10 |

---

4. 估值分析



本报告属于方法论研究,不涉及具体企业或行业的估值分析,未包含市盈率、现金流折现等估值方法或目标价设定。

---

5. 风险因素评估



报告明确指出:
  • 统计结果基于历史数据,历史表现不代表未来,市场风格可能发生变化导致模型失效。

- 回归剥离受因子相关性、非线性关系及分布特性影响,非恰当模型可能导致剥离偏误。
  • 样本范围选择对正交化结果有实质影响,边界效应可能导致调整失效。

- 多因子剥离更复杂可能引入隐含负相关,剥离策略和流程需谨慎设计。

风险提示相对充分,提醒研究人员与投资者理性评判模型应用局限。

---

6. 审慎视角与细微差别


  • 回归法虽简单实用,但报告多处提示其只能线性剥离,忽视非线性因素与因子间复杂关联,可能导致剥离结果存在不纯粹甚至错误剥离的情况,如特质动量因子因子关联被显著扭曲。

- 分组法剥离更为严谨中性,但仅限于单因子剥离,面对多因子依赖无能为力,且难以无缝衔接组合优化框架,不足以作为万能方式。
  • 报告强调市值因子厚尾特性带来的调整难题与残留效应,显示实务操作中数据特征对模型影响深远。

- 样本选择未有统一结论,实际操作中需结合策略场景与研究目标权衡,提示了一个现实且不易被忽视的问题。
  • 语言较为审慎,未过度夸大方法优劣,体现专业客观立场。


---

7. 结论性综合



本报告系统深入地探讨了金融量化中多因子模型构建中的核心技术环节——因子正交化(剥离)。首先确立背景,因子间存在显著线性及非线性相关性,特别是市值因子对许多因子存在较大影响,直接影响因子有效性的准确判断。为解决此类问题,报告从理论和实证角度比较了回归法与分组法剥离因子的不同效果。

实证方面以换手率因子为核心示例,通过图表展示:
  • 原始换手率因子不同分组的市值及收益情况,揭示未剥离市值的换手率因子混淆性较强(图2、3)。

- 回归法与分组法剥离效果均能明显恢复换手率因子对收益的单调关系(图7、8)。
  • 分组法剥离后组间市值趋于均匀,逻辑自洽;回归法剥离后仍然存在非线性市值关系,影响组合解读(图9、10)。

- 进一步的统计学分析确认回归法主要剥离的是线性关系,由于市值因子厚尾特性及存在二次、三次非线性,单纯线性剥离难以彻底中性(图14、15,表2)。
  • 对因子分布特征(如厚尾)亦产生实质影响,使得残差随机分布带来更复杂的经济解释。

- 样本选择不同影响剥离效果,尤其在有限子样本范围可能导致剥离无效,体现实施细节对最终效果的重要性。

综上,报告确认:
  • 因子剥离对提升因子纯净度及有效性检测不可或缺;

- 回归法适合快速线性剥离多因子,但对非线性及因子相关性存在局限;
  • 分组法在剥离单因子时效果最佳,但无法处理多因子耦合且难与组合优化衔接;

- 实务中需结合多因子间相关性、数据分布特征和样本范围谨慎选择与设计剥离方法。

报告结语鼓励投资者与研究人员探讨、持续关注后续行业因子正交化研究。报告态度科学、数据详实,充分展现了因子正交化在量化投资实务中的复杂性与挑战,提供了重要的参考路径和实务指导,为多因子策略优化提供了理论基础及应用视角。

---

附:部分重要图表引用展示


  • 图1:基础因子剥离市值前后RankIC对比


  • 图2:换手率分组后每组市值平均


  • 图3:原始换手率分组累计净值


  • 图7:回归法剔除后换手率因子分组累计收益


  • 图8:分组法剔除后换手率因子分组累计收益


  • 图9:经过不同处理后十分组中每组市值均值比较


  • 图10:分组法下十分组市值均值放大图


  • 图14 & 15:换手率对市值及市值二次项回归拟合散点图



  • 图16 & 17:换手率和市值因子分布




---

溯源标注



以上分析论述依据页码标注为:[page::0,1,2,3,4,5,6,7,8,9,10,11]

---

总结



本“拾穗”系列第18期报告在多因子量化投资领域,围绕因子正交化展开细致的理论讲解和实证比较,系统拆解了回归法与分组法的原理及优劣,具体展示了以换手率因子剥离市值影响为例的操作流程及其对因子有效性检验的提升,揭示了非线性关系、分布厚尾和样本选择等深层影响因素,最终为投资者和量化研究者提供了切实可行的技术路线与思考启示,具有极强的实战参考价值和理论研究深度。

报告