如何以 “集成学习” 的眼光看因子选股——多因子统计学习模型 (三)
创建于 更新于
摘要
本报告将传统多因子选股模型视作集成学习框架中的一种两级stacking集成模型,详细分析了IC及Rank IC计算的机器学习等价表示。通过替换线性弱学习器为多项式、分段线性等非线性弱学习器,提升了因子收益的非线性拟合能力,实现年化超额收益提升6.37%,IR达3以上,验证了因子收益的非线性化趋势。同时,报告展示滚动选择弱学习器及多级集成策略进一步增强模型鲁棒性与超额收益,18年末至今实现明显超额收益增长,因子选股模型迎来重要升级。[page::0][page::3][page::10][page::16][page::22]
速读内容
集成学习基础及传统因子选股关联 [page::3][page::7]

- 集成学习通过组合多个弱学习器降低模型偏差,实现模型误差减小。主要方法包括Bagging、Boosting和Stacking。
- 传统因子选股中IC通过相关系数衡量选股因子有效性,可被视作带数据预处理的单变量线性函数模型,Rank IC对应排序加zscore预处理的单变量模型。
- 因子间的IC加权组合对应两级Stacking结构,实现时间截面和因子维度的模型集成。[page::4][page::7][page::10][page::11]
多因子选股及基准测试 [page::12][page::13][page::14]
| 因子类别 | 子因子名称 | 合成比例 |
|-----------|---------------------|----------|
| 规模 | 流通市值对数 | 1 |
| 成长 | 营收同比增速 等 | 1/3 |
| 估值 | PE、PB、PCF、PS等 | 不同占比 |
| 财务杠杆 | 资产负债率等 | 不同占比 |
| beta | 上证指数beta(21/252日) | 各1/2 |
| 波动率 | 21、252日波动率 | 各1/2 |
| 流动性 | 日均换手率对数 | 各1/3 |
| 动量 | 过去12月至2月阶段收益等 | 各1/2 |
| 反转 | 过去1月收益率 | 各1/2 |


- 选股池覆盖剔除特定条件的A股股票,采用月度调仓,5‰交易成本。
- 基准组合年化超额收益45.61%,相对中证500超额收益为20.37%,信息比例2.47,近年多空收益稳定且未见明显衰减。[page::14]
弱学习器的非线性替换及表现提升 [page::15][page::16][page::17][page::18]

- 替换线性弱学习器为多项式(2阶、3阶)、分段线性函数及市值分段多项式,刻画因子复杂非线性特征,尤其针对因子收益的抛物线结构和市值相关效应。
- 替换弱学习器后2011年前收益线性模型表现更优,2017年以来非线性模型普遍领先,体现因子收益非线性化趋势。

- 优选模型poly1_sizeSeg5年化收益由29.03%提升至32.85%,前5%与中证500超额收益提升约3.82%,IR提升至3.00左右。

多级集成及滚动选模设计 [page::19][page::20][page::21][page::22]

- 采用滚动方式选择各因子下表现最优的弱学习器模型,减少前瞻偏差,保证模型实际应用稳定性。
- 设计了多级集成结构,将不同历史窗口(12个月和60个月)的模型输出再集成,进一步提升模型表现。

- 多级集成模型相对中证500年化超额收益提升至26.73%,IR达到3.25,2019年迄今累积超额收益达13.52%,显著好于标准流程的2.63%。


机器学习视角下多因子模型总结 [page::0][page::22]
- 传统多因子模型等价于两级Stacking集成学习过程,弱学习器为带有预处理的单变量线性模型。
- 替换弱学习器至非线性模型更好拟合现实因子收益非线性,显著提升因子选股策略的超额收益及风险调整表现。
- 通过滚动模型选择、多级集成等方法提升策略稳定性及抗过拟合能力。
- 因子统计学习模型未来聚焦更复杂模型和集成方法,有望持续挖掘市场有效信息提升alpha表现。[page::0][page::22]
深度阅读
多因子选股 —— 以集成学习视角看多因子统计学习模型(三)分析报告
---
一、元数据与报告概览
- 报告标题: 《如何以 “集成学习” 的眼光看因子选股——多因子统计学习模型 (三)》
- 发布机构: 长江证券研究所
- 发布日期: 2019年11月1日
- 研究主题: 多因子选股方法,尤其是基于机器学习集成学习框架下的因子合成模型改进与实证验证。
- 分析师团队: 刘胜利、陈洁敏、刘懿、邓越、秦瑶等
- 核心论点: 传统多因子选股可看作一种特殊的集成学习模型,通过替换弱学习器及构筑多层集成结构,实现了因子选股效果的显著提升。采用非线性弱学习器尤其是基于市值分段多项式的弱学习器更好地捕捉因子非线性关系。最终经过“多级集成”模型,年化超额收益可达26.73%,信息比率(IR)提升至3.25以上,较传统线性模型年化收益提升约6.37%。
---
二、逐节深度解读
2.1 集成学习基础(第3-6页)
- 关键论点及定义: 集成学习是融合多个弱学习器为强学习器的系统方法,核心目的是通过多个“高偏差、低方差”的弱学习器组合降低偏差、减少误差。弱学习器需具备多样性(差异性),常用合成方法有简单均值、加权平均及线性回归等。
- 图表解读:
- 图1 给出了数据集输入,多个弱学习器独立学习后,通过集成输出预测的示意图。
- 图2 展示偏差与方差的四种组合状态,强调弱学习器属于“高偏差、低方差”类型。
- 图3与图4 分别示意多弱学习器均值可逼近真实解及弱学习器缺乏差异时依然存在高偏差问题。
- 方法解析: 三大经典集成学习方案:
- Bagging(如随机森林):同质弱学习器,不同数据子集训练,保证差异性,合成方式为简单均值。
- Boosting(如GBDT、XGBoost):同质弱学习器,串行训练,重点强化“难以学习样本”,合成加权均值。
- Stacking:异质弱学习器多层叠加,后端线性模型融合输出,差异来源于模型本身。
---
2.2 传统因子选股与IC的机器学习视角(第7-9页)
- IC定义: 信息系数(IC)是个股期初因子值与该股票区间收益的相关系数。从机器学习视角看,计算IC等价于拟合一个带zscore预处理的单变量线性回归模型,模型系数即IC值。
- 图表解读:
- 图8-10 系统说明如何用机器学习通式及单变量一次函数形式理解IC计算,强调平方损失与OLS回归的数学等价性。
- 图11-12 展示Rank IC通过排序+zscore两步预处理的映射,揭示了Rank IC本身隐含的非线性变换特征(如sigmoid形饱和),表明传统IC计算中存在隐式非线性处理。
---
2.3 多因子IC加权及其对应集成学习模型(第10-11页)
- 因子间IC加权本质上是两级Stacking模型。
- 第一级对应时间切片分割的单因子模型等权融合(类似Bagging抽样),
- 第二级对应因子层面的加权或等权合成。
- 图表分析:
- 图13 (第一级集成)显示同一因子不同时间段模型输出通过均值合成。
- 图14 展示多因子多时间模型输出,再通过加权合成全局alpha得分的流程。
- 这种结构体现传统多因子模型已隐性采用了机器学习中的“数据抽样”和“特征抽样”思想,已经具备较为复杂的模型架构基础。
---
2.4 传统因子模型收益基准及因子体系(第12-14页)
- 多因子筛选及投资组合构建流程(图15)清晰展示数据-选股因子筛选-多因子模型alpha得分计算-投资组合构成的闭环。
- 因子集(表1)包括规模、成长、估值、财务杠杆、Beta、波动率、流动性、动量和反转等典型风格因子,依据IC及分组收益进行筛选,前期做了去极值、标准化和行业市值正交。
- 基准组合表现(表2、图18、图19):
- 以沪市除科创板,剔除ST等股票构成选股池,基于12个月平均Rank IC加权alpha,每月调仓,买卖成本5bp。
- 筛选top 5%与bottom 5%股票,前5%相对后5%组合年化超额收益约45.6%,相较于中证500年化超额收益20.37%,信息比率达到3.54,表明因子模型的有效性。
- 股票池规模从2007年的约50只增加到2019年的约160只,代表策略稳定性良好。
---
2.5 细节改进:训练和预测数据预处理一致性(第15页)
- 传统Rank IC加权合成时,预测(测试)期对因子数据未进行排序处理,仅做zscore;而训练阶段对数据进行了排序+zscore。
- 按机器学习原则要求,训练和测试阶段数据处理流程需一致,对此进行微调后,基准组合年化收益率提升约2.59%,信息比率也有所上升。
---
2.6 弱学习器的非线性替换与收益提升(第15-18页)
- 非线性现象:
- 因子表现时有非线性特征,例如部分组别表现呈抛物线型,中间组表现最佳,线性模型则只能“非黑即白”判定,难以捕捉。
- 因子效力有市值依赖性,传统分规模多重IC计算本质对应于模型系数对市值函数的依赖。
- 非线性弱学习器策略:
- 引入高阶多项式(图20)、分段线性函数(图21)、按市值切分多项式(图22)等,用梯度下降法无解析解情况下优化参数。
- 实证结果:(图23-25,表4)
- 采用poly1sizeSeg5(一阶多项式,5段市值分割)作为弱学习器表现最佳,2011年后非线性模型普遍优于线性模型。
- 该弱学习器组合年化收益率提升至32.85%,超标组对基准模型提升约3.8个百分点。
- 2017年以来非线性效果更显著,反映市场因子关系趋于非线性。
---
2.7 多级集成及动态弱学习器选择(第18-21页)
- 多级集成概念引入,将多个不同弱学习器组合构成更大集成,借鉴Stacking多层结构。
- 滚动选择弱学习器(图26-27):
- 采用历史数据动态滚动调整弱学习器选择,采用“best-out”多元回归选择最优弱学习器输出。
- 该动态策略年化收益达23.9%,信息比率2.87,与单一最优弱学习器收益极为接近,体现实用可行性。
- 时间窗口加权集成(图28-30,表5):
- 结合12个月与60个月不同长度数据集训练结果,进一步用线性回归集成,形成“多级集成”。
- 多级集成模型年化超额收益提升至26.73%,信息比率3.25,较标准流程年化提升6.37个百分点。
- 2019年截止10月多级集成超额收益高达13.52%,远优于基准2.63%。
---
2.8 总结(第22页)
- 传统因子选股实际上是集成学习的特例,IC与Rank IC对应单变量线性模型或排序+标准化的线性模型。
- 经典因子加权方式对应两级Stacking模型,数据抽样与特征抽样思想内含其中。
- 替换非线性弱学习器、高维多级集成以及动态模型选择,显著提升因子组合收益,特别是因子收益日益非线性化的近年市场环境下,非线性多级集成效果更佳。
- 本研究体现了机器学习理论与传统量化投资流程的深度融合路径,提出了系统化改进框架。
---
三、图表深度解读
核心图表及含义:
- 图1 & 图3-7 (集成学习基本理论图)
直观展示集成学习框架,强调弱学习器间差异性重要性,辅助理解后续因子加权对应集成步骤。
- 图8-12 (IC与Rank IC机器学习解释)
说明单变量线性函数(带Zscore)与相关系数等价,强化了传统因子统计的机器学习模型视角。
- 图13-14(因子加权对应集成学习结构)
重点图示传统多因子加权的两级Stacking架构,将时间截面层拟合及因子层加权概念清晰表现。
- 表1与图16-17
展示风格因子选取及因子IC走势,背景知识说明因子选择合理性。
- 表2与图18-19(基准多因子组合表现)
数据体现传统模型选股超越基准指数能力,组合规模逐年增长且稳定。
- 表3(细节改进效果)
预处理一致性提高组合收益,为模型严谨性提供实证证明。
- 图20-24(非线性弱学习器替换对比)
系统比较多种非线性弱学习器效果及时间演变,展示因子收益非线性增强趋势。
- 表4与图25(最佳弱学习器细节表现)
分年收益与累计净值曲线印证改进有效性,提升显著。
- 图26-27(滚动弱学习器选择)
展示动态模型选择设计与稳定表现,实用性强。
- 图28-30与表5(多级集成及最终效果)
多级集成框架示意及优异收益水平图示,是报告最终创新点和核心贡献。
---
四、估值与数学模型解析
- IC计算等价模型:IC的计算等同于通过最小平方损失拟合一个单变量线性回归模型的系数。若因子数据先做到排序和标准化,则该模型应用的是排序加标准化后的变量,亦即Rank IC。
- 多因子IC加权:
该过程在数理上对应两级Stacking模型:
- 第一层:对每个因子,基于时间截面进行一系列单变量线性模型拟合(抽样)。
- 第二层:将各因子输出的alpha得分以IC、ICIR或等权进行加权,利用简单线性回归实现模型集合。
- 非线性弱学习器替换:
通过引入多项式和分段线性函数,扩展模型的表达能力捕获因子非线性关系,切分市值段数引入因子与市值的交互效应。
- 滚动选择与多级集成:
利用历史数据选取表现最优模型,实现模型适时切换,增加模型灵活性,多级集成通过多轮线性加权实现更细粒度的集成。
---
五、风险因素评估
报告列出了基本风险提示:
- 回测风险:历史回测不保证未来表现,模型收益具有不确定性。
- 模拟风险:模拟计算结果不能完全代表真实投资表现,存在市场实际执行和交易成本差异。
- 模型假设风险:如非线性模型表现可能随市场环境变化、模型训练样本选择等因素影响。
- 数据风险:因子数据的预处理和样本选择可能带来偏误。
- 过拟合与前视偏差:对最优模型的选择存在前视偏差,滚动选择机制虽部分缓解,但不能完全消除。
- 报告并未详细给出各风险的发生概率或具体缓解策略,但通过滚动选择等方法尝试降低过拟合风险。
---
六、批判性视角与细微差别
- 报告深度融合传统因子模型与机器学习,理论逻辑清晰,但模型的实际稳定性与执行复杂度仍需实测验证,尤其是多级非线性集成模型计算成本较高。
- 报告强调非线性弱学习器自2017年以来更优,但非线性模型在机器学习中存在过拟合风险,报告未充分讨论模型泛化能力。
- “多级集成”显著提升收益,但部分年份改善不明显甚至略差,提示模型需结合市场状态灵活调整。
- 预处理一致性改进收益提升虽小但提示了机器学习流程严谨性的重要性,值得推广。
- 报告未详细涉及其他机器学习模型(如深度学习)对因子选股潜在改善空间,后续研究或许可进一步拓展。
---
七、结论性综合
本报告从机器学习集成学习视角对传统多因子选股方法进行了系统分析和深入改进。核心贡献体现在:
- 理论创新:
证明并解释了因子IC及Rank IC与单变量线性回归模型的等价性,提出多因子IC加权本质为两级Stacking集成模型。
- 方法提升:
通过引入非线性弱学习器(多项式、分段线性、按市值分段多项式),有效捕捉因子收益的非线性和市值依赖特征,提升了因子选股的表达能力。
- 多级集成架构:
建立多层Stacking框架,同时引入模型滚动选择,减缓前视偏差和过拟合,系统性提升了组合收益,显著优于传统线性模型。
- 实证表现:
多级集成模型相较标准流程年化超额收益提升约6.37%,IR指标提升至3.25,且2019年截至10月底的累积超额收益较大幅领先,反映改进方法的有效性。
- 图表见解:
- 因子IC及Rank IC指标展示出因子表现的稳定趋势,但多因子合成需精准权重调整;
- 替换弱学习器和多级集成策略清晰展示提升路径及相对收益的时间演进。
综上,本报告明确了以集成学习视角提升多因子选股模型的科学路径与方法论,为量化研究提供了理论与实务兼备的先进框架,具有重要的理论与应用价值。[page::0,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22]
---
八、附录:主要图表列表(选取)
- 图1-7:集成学习基础示意图
- 图8-12:IC与Rank IC的机器学习模型解释
- 图13-14:传统多因子因子间IC加权对应两级Stacking示意
- 图16-17:因子IC累计值与平均值趋势图
- 图18-19:基准因子组合单位净值与股票数量曲线
- 图20-22:非线性弱学习器结构示意
- 图23-25:非线性弱学习器替换后年化超额收益及净值对比
- 图26-27:滚动选择弱学习器设计及表现
- 图28-30:多级集成结构及其收益表现
- 表1:因子体系及权重
- 表2、3、4、5:各阶段组合收益率对比表
---
此分析从理论、方法、实证及风险多角度详细解读了该份研究报告,呈现了报告中的关键论点与数据,结合图表展示了模型设计思路与业绩表现,为理解和实践多因子统计学习模型提供了全面清晰的指导。