因子缺失值处理:数以多为贵——“拾穗”多因子系列报告(第 6 期)
创建于 更新于
摘要
本报告系统分析了多因子模型中因子缺失值的现状与处理方法,通过丰富的实证检验比较了市场均值、行业均值、市值分组均值及结构化回归填充三种方法,结果显示结构化填充法在财务因子与价量因子填充准确性上均明显优于其他方法,财通金工因此重点推荐该方法。同时报告还回顾了上一周期市场风格及风险预测,展现了高Beta股近期相对优异表现和中小盘股强势特征,为量化投资研究提供重要的数据支持与方法论参考 [page::0][page::2][page::6][page::8][page::9][page::10][page::12][page::14]
速读内容
因子覆盖率概况及缺失值背景 [page::2][page::3]

- 多因子模型覆盖Beta、规模、动量、波动性等10大类因子,整体覆盖率均高于95%,其中价量因子覆盖优于财务因子。
- 存在缺失原因包括新上市股票数据不足、银行股资产负债科目差异及长期停牌等实际情况。
- 因子缺失值的合理填充对风险偏离和收益归因至关重要。
主要缺失值填充方法介绍与逻辑 [page::4][page::5]



- 主流方法包含:市场均值、行业均值、市值分组均值、前向填充及结构化填充。
- 行业均值填充基于同一行业股票因政策及业务相似表现出风格因子趋同性。
- 市值分组均值填充考虑规模因子影响,市值相似股票风格因子具有相关性。
- 结构化填充采用基于高质量数据样本的回归模型,估计缺失股票因子值,实现更准确填充。
实证检验比较回归法与非回归法填充效果 [page::6][page::7][page::8]


| 因子名称 | 结构化法填充 | 行业均值填充 | 市值分组均值填充 |
|----------|--------------|--------------|-----------------|
| 盈利 | 77.88% | 34.89% | 49.61% |
| 成长 | 34.06% | 7.22% | 13.80% |
| Beta | 72.53% | 39.67% | 2.81% |
| BP | 73.39% | 37.77% | 44.13% |
| 杠杆率 | 65.66% | 34.56% | 61.52% |
| 流动性 | 74.58% | 30.89% | 3.71% |
| 动量 | 53.83% | 28.30% | 44.81% |
| 波动率 | 71.20% | 9.33% | 27.48% |
- 结构化回归填充整体相关性最高,有效改善财务与价量因子数据缺失问题。
- 行业均值填充在某些因子适用,市值分组均值效果相对较弱。
- 综合实证建议采用结构化方法作为首选缺失值处理手段。
市场行情及风格因子表现 [page::9][page::10][page::11]


- 上周市场整体上涨,小盘股和价值风格表现优异,中证500价值指数涨幅达5.19%。
- 综合及餐饮旅游行业领涨,农林牧渔和银行表现相对较弱。
- 市场风格近期显示高Beta股票持续强势,而规模、流动性等因子收益为负。
风格因子收益和指数风险预测 [page::10][page::11][page::12]




- 近期纯风格因子日度及周度收益高度吻合,Beta因子表现持续正向,规模及流动性因子负收益彰显市场小盘偏好。
- 未来一个月多个样本指数预测年化波动维持21%-31%区间,风险水平与上周持平。
- 中小板及成长风格指数风险较大,大盘和价值指数风险水平相对较低。
指数成分收益归因与风格暴露差异 [page::13][page::14]


- 上周表现最好的三只指数集中于中小盘价值股,Beta及非线性规模因子暴露较高。
- 表现较差指数更偏向大规模高盈利风格,体现市场对小盘成长股的青睐。
- 收益归因明晰展现风格暴露在指数表现中的关键作用。[page::14]
深度阅读
金融研究报告详尽分析报告
报告标题: 因子缺失值处理:数以多为贵——“拾穗”多因子系列报告(第6期)
作者与发布机构: 陶勤英(分析师),张宇(联系人),财通证券研究所
发布日期: 2019年3月24日
研究主题: A股多因子模型中因子缺失值处理方法研究及实证检验,同时附带对近期市场风格、风险预测、指数成分收益归因的分析。
---
一、元数据与报告概览
本报告为“拾穗”系列报告第六期,主要聚焦于A股多因子投资模型中因子缺失值的处理问题,提出并比较了数种填充方法,基于实证分析得出结论,推荐结构化填充(基于回归方法)为最佳处理方案。报告另外对最近一周A股市场表现与风险做了简要回顾和分析,展示指数成分股的收益驱动因子暴露情况。
核心信息总结如下:
- 报告强调多因子模型构建中数据覆盖率的重要性,因子覆盖率总体保持高水平(95%以上)。
- 针对因子缺失,比较了市场均值填充、行业均值填充、市值分组均值填充、前向填充及结构化填充,实证验证显示结构化填充效果最佳。
- 市场风格显示高Beta股票近期表现较好,中小盘股票强于大盘,且大规模、高换手股票可能面临回调风险。
- 指数未来一个月年化波动预测区间为21%-31%,市场波动性稳健,提醒投资者留意风险。
综合来看,报告致力于帮助投资者理解多因子数据质量管理与因子填充方法的最佳实践,同时对市场风格和风险形势做出量化展望。[page::0,1,2]
---
二、逐节深度解读
1. 因子缺失值处理:数以多为贵
1.1 因子覆盖率概况
报告开篇说明数据是构建多因子模型的基石,金融模型的精准度依赖于因子数据的完整性。根据统计:
- 财通金工多因子模型涉及10大类因子:Beta、规模、长期动量、波动率、非线性规模、价值(BP)、流动性、盈利、成长和杠杆率。
- 覆盖率方面,规模(99.99%)、波动率(99.30%)、流动性(99.86%)等价量因子覆盖率较高,财务因子(如盈利95%)覆盖较低。整体大类因子覆盖率均保持在95%以上。
- 数据缺失原因多样,如新上市股票历史交易数据不足,行业特殊(银行资产负债表不同),停牌股票无法计算Beta等。
因子覆盖率表(表1)和风格因子覆盖率柱状图(图1)清晰展现主要因子的高覆盖率和微小差异,确保因子样本完整性利于组合风险收益归因的准确性。
此外,数据缺失不能忽视,新股或停牌股票的缺失若放弃,将使风险收益归因模型失去代表性,因此填充是解决方案之一。[page::2,3]
1.2 因子填充方法及逻辑
报告介绍了5种主要缺失值填充方法(图2):
- 市场均值填充:以市场整体因子均值填充;
- 行业均值填充:依据相同行业均值填充,基于“可比公司法”聚类思想,强调同业业务及风险的趋同性;
- 市值分组均值填充:依据不同市值分组统计的均值填充,结合规模与流动性等因子的强相关性逻辑;
- 前向数据填充:利用历史期数据向前填充,细节文中未详述;
- 结构化填充(回归法):将数据完整股票与缺失股票分别归类,利用数据完整股票的因子间线性回归系数,反推缺失股票的因子值。
图3以BP因子行业均值柱状图展示不同中信一级行业间差异显著,银行、钢铁、煤炭等行业BP因子值明显高于科技类,体现行业均值填充比市场均值更合理。
图4展示不同市值层级对应因子均值变化,如盈利与杠杆率因子随市值呈一定趋势,支持市值均值填充的逻辑合理性。
结构化填充采取WLS回归,将完整数据的因子用作自变量,推断缺失数据的因子值,强调因子之间潜在的线性关系及群体特征相似性的利用。[page::4,5]
1.3 实证检验
实证过程中,针对2019年3月15日Wind全A股因子数据,随机制造50只股票因子缺失,分别采用回归法、行业均值和市值均值三种填充方案进行估算,并对比填充后因子值与实际因子值的相关程度。
图5和图6展示财务因子(盈利、成长、杠杆率)及价量因子(Beta、BP、波动率)的实际值与填充值拟合趋势,回归法填充曲线贴合实际值最为紧密,行业均值次之,市值均值较差。
表2进一步量化各因子在不同填充方法下的相关系数,结构化法的相关系数平均普遍高于行业均值和市值均值方法,部分因子(如盈利77.88%,Beta 72.53%)差异明显,显示结构化回归法为数据填充首选。
这表明因子之间复杂的相关性和线性结构对填充缺失数据贡献最大,行业和市值聚类仅是因子空间的简化近似,填充表现有限。[page::6,7]
1.4 小结
归纳为三点:
- 因子覆盖率总体超过95%,价量因子数据更完整,财务因子缺失较多;
- 缺失值填充方法众多,结构化填充基于回归模型,理据充分;
- 实证展现结构化填充法效果优异,推荐采用。
本节精细地展现了因子缺失原因、填充方法多元性及实证效果,强调结构化方法的独特优势,适合量化多因子模型实际应用中提升数据完整性和准确性的需求。[page::8]
---
2. 一周行情回顾
数据反映A股市场近期表现:
- 指数层面,上周多数样本指数均上涨,小盘股表现优于大盘价值股。
- 中证500价值指数与中证500指数上涨分别达到5.19%与4.91%,表现居前;上证50和180价值指数涨幅较低,分别仅有1.44%和1.21%。(图7)
- 行业表现差别大,综合行业和餐饮旅游分别上涨7.85%和7.58%,表现优异;银行及农林牧渔行业涨幅最低,分别仅0.45%与0.24%。(图8)
这显示小盘及非传统板块较强,行业分化明显,给投资者提供选股风格和行业分布的参考。[page::9]
---
3. 市场风格解析及指数风险预测
3.1 市场风格解析
借鉴Barra模型,报告持续追踪了Beta、规模、动量、波动率等10类风格因子收益贡献。采用日度累计收益和周度收益(回归法)两种方式对比,发现结果高度一致,说明短期风格变化平稳且具备可追踪性。
表3和图9数据表明:
- Beta因子持续正收益,说明高Beta股票继续表现较好;
- 规模、波动率和流动性因子周度收益为负,暗示大盘股及高波动/高流动性股票承压;
- 近期市场大小盘博弈激烈,风格轮动特征明显。
图10与图11延伸至过去一个月,净值走势与累计收益形态一致,高Beta股票表现显著升值,规模及流动性因子负收益明显,提示大盘及高换手股票或面临短期压力。此结论辅以图表和累计收益支撑明确、逻辑紧密。[page::10,11]
3.2 指数风险预测
报告构建多因子风险模型,分解风险为共同风险和特质风险,对股票风险矩阵进行了稳健估算,根据指数成分股权重估计指数未来一个月年化波动率。
公式表达风险为:
\[
Risk(P) = W' V W = W' (X' F X + \Delta) W
\]
其中\(W\)为成分股权重,\(V\)为协方差矩阵由共同风险\(X' F X\)和特质风险\(\Delta\)组成。
图12展示样本指数未来一个月(2019.3.22-4.19)预测年化波动率区间为21%-31%,整体较为稳定。风险较大集中于中小板和成长类指数,偏大盘和价值类指数波动较低。
图13进一步说明数据质量较高,模型纳入的成分股比例超过93%,说明剔除缺失因子股票对结果影响有限。此风险预测为投资者后市风险把控提供依据。[page::12,13]
---
4. 指数成分收益归因
报告对表现最佳的三只指数(中证500价值、中证500、上证小盘)和表现最差三只指数(沪深300价值、上证50、180价值)进行了因子暴露度对比:
- 图14显示表现优异指数Beta和非线性规模因子暴露度高,表明市场偏好小盘和高Beta股票;
- 图15则展现表现差指数规模和盈利因子暴露度较高,暗示投资者偏大盘高盈利股票时市场表现较弱。
表4详细展示具体因子暴露数值,支持上述定性结论,数据清晰,解释完整。
这为投资者理解风格因子如何驱动指数表现提供了量化基础,也体现模型在行业和风格归因方面的实用价值。[page::13,14]
---
5. 附录及因子定义
附录一列出了财通金工指数池覆盖的市场指数,涵盖上证、深证及中证多个权重和风格指数,覆盖市场主流且具代表性指数。
附录二详细定义10大类风格因子及子因子计算公式、权重及处理细节,包括:
- Beta用252天日度收益回归法计算,半衰加权;
- 规模、动量、波动率均引入半衰加权权重处理;
- BP(市净率倒数)、换手率作为流动性因子;
- 盈利、成长、杠杆等财务因子基于财报数据;
- 因子间正交化处理中和市值垄断效应;
附录条理清晰,定义和计量严谨,为因子建设奠定良好基础,确保研究的技术可信度。[page::14,15]
---
6. 分析师承诺与免责声明
报告保证作者具备合法证券分析师资质,数据来源合规,观点独立客观,无受第三方干预。
明确公司评级参数,涉及买入、增持、中性、减持、卖出等明确定义。
免责声明全面详尽,提示信息仅供参考,无构成投资建议,提醒投资者自行判断和风险承担。
版权声明保障报告合法合规应用。[page::16]
---
三、图表深度解读
| 图表编号 | 内容描述 | 解读 | 对文本论点的支持 | 评论与溯源 |
| --- | --- | --- | --- | --- |
| 图1 | 十大类风格因子平均覆盖率柱状图 | 覆盖率几乎全部超95%,规模和波动率最高,盈利略低。体现了数据基础扎实,填充必要。 | 数据完整性确保模型适用性,支持因子填充讨论基础。 |

| 图2 | 缺失值填充主要方法示意 | 展示市场均值、行业均值、市值分组均值、前向填充和结构化填充五种方法总体框架。 | 便于读者跟踪方法选择逻辑与实证。 |

| 图3 | BP 因子行业均值柱状图 | 不同行业BP值差异显著,银行及钢铁明显高于科技行业,反映行业特性。 | 说明行业填充逻辑合理优于市场均值,细化填充策略。 |

| 图4 | 不同市值分组因子均值曲线 | 盈利和杠杆率因子随市值呈下降,小市值流动性更高,体现市值与因子相关规律。 | 解释为何基于市值分类填充有一定逻辑及局限。 |

| 图5 | 财务因子实际与填充值对比曲线 | 三种填充方法回归法曲线贴合度最高,行业均值次之,市值均值最差,说明结构化回归法性能最优。 | 量化实验证明结构化填充优势,驱动推荐结论。 |

| 图6 | 价量因子实际与填充值对比曲线 | Beta、BP、波动率同样显示结构化填充拟合最佳,强化该方法全面适用性。 | 巩固因子填充方法的通用性及结构化优势。 |

| 图7 | 上周主要指数周收益柱状图 | 中证500及中证500价值涨幅领先,体现小盘及价值板块活跃。 | 反映市场近期风格及情绪,辅助市场风格分析章节。 |

| 图8 | 上周中信一级行业累计收益柱状图 | 综合和餐饮旅游行业表现优异,银行类表现落后。 | 支持行业层面的市场风格解析。 |

| 图9 | 纯风格因子近两周收益对比柱状图 | Beta为正,规模等负面,确认市场大小盘与风险偏好变动。 | 数据支撑市场风格轮动及因子收益表现分析。 |

| 图10 | 近一月风格因子净值走势图 | Beta持续领先,规模和盈利因子净值走低,展现风格持续表现的动态。 | 帮助理解因子在时间维度的表现持续性。 |

| 图11 | 近一月风格因子累计收益柱状图 | 高Beta因子累计收益最高,规模、盈利、流动性为负。 | 强化市场多因子表现综合解读。 |

| 图12 | 未来一月指数年化波动率预测柱状图 | 风险区间集中21%-31%,如创业板风险较大,偏价值及大盘风险较低。 | 量化预测未来市场波动,为风险管理提供参考。 |

| 图13 | 样本股票占成分股比例曲线 | 所有指数均超93%,显示数据覆盖度高,模型估计具高度代表性。 | 说明模型收益风险分解及预测具有效性基础。 |

| 图14&15 | 上周表现最好/最差指数因子暴露雷达图 | 好指数聚焦Beta及中小盘,差指数偏大盘和盈利高因子。 | 辅助理解指数收益风格差异,验证指数因子暴露关系。 |


---
四、估值分析
本报告未涉及具体估值模型或目标价预测,重点在于多因子因子数据质量管理及市场风格和风险分析,因此无DCF、P/E、市净率或EV/EBITDA的估值计算或假设说明。
---
五、风险因素评估
报告唯一明确风险提示是“统计结果基于历史数据,过去数据不代表未来,市场风格变化可能导致模型失效”,提醒风险投资者关注模型前提的时效性和环境变化带来的潜在模型失灵风险,同时隐含风险特征与市场突变相关。
此外,因子缺失值填充本身存在风险,如新上市股票填充因子可能与实际表现不符,模型可能受填充数据异动影响,需投资者根据自身偏好谨慎操作。
报告未进一步展开外部宏观经济、政策变化或特有行业风险的具体阐述。[page::0,2]
---
六、批判性视角与细微差别
- 偏见与局限
报告整体逻辑严密、数据详实,但对填充方法优劣的推荐过于强调结构化回归填充,尽管实证支持强,但仍存在回归依赖性风险,即假设因子间关系稳定且线性成立,实务中可能遭遇非线性、结构性突变,未来研究可加强非线性或机器学习方法的评估。
- 数据样本和时间限制
实证仅基于2019年3月15日某日数据,缺乏多期、多市场环境检验,样本时效性限制推广范围。
- 风格因子表现时间窗口短
市场风格和风险分析主要基于近两周至一个月数据,短期动态可能受市场事件影响较大,建议关注长期表现和多周期对比。
- 报告结构
附录和正文因子定义详尽但对新手阅读门槛稍高,建议进一步简化解释或配备案例教学提升理解。
- 风险提示
风险提示略为简略,可补充填充方法失败风险、宏观经济扰动风险等细节。
---
七、结论性综合
本报告系统深入地剖析了A股多因子模型中因子缺失值处理的理论与实证问题,并结合市场近期风格与风险数据,形成如下综合判断:
- 数据完整性与因子覆盖率较高,大类因子覆盖率均维持在95%以上,价量因子的完整性优于财务因子;数据基础扎实,为多因子模型提供有力支撑。
2. 因子缺失值填充方法丰富,结构化填充基于因子间回归关系,体现多因子间内在相关性,经实证检验,对各种财务及价量因子均表现出优越的拟合效果,推荐为缺失值最优填充方法。
- 市场风格近期呈现高Beta股票涨幅显著、规模因子表现弱势的格局,小盘股强于大盘,且行业间收益分化明显。指数风险预测显示市场未来一月波动率稳定在21%-31%,成长及中小板块风险稍高。
4. 指数成分股收益归因表明表现最佳指数偏向小盘及高Beta因子暴露,表现较差指数则偏大盘高盈利,显示出明显风格分化。
- 研究严谨注重实证验证,所用图表清晰传递核心信息,报告附录详尽,因子定义科学规范,确保研究成果的高度可信性。
6. 风险提示覆盖理论模型限制,提醒投资者关注风险,适用于量化投资者提升模型数据处理质量与风格风险分析能力。
综上,该报告不仅为投资者和量化研究者提供了因子数据处理的先进思路和实证依据,还通过多层次市场风格与风险的剖析,帮助构建对A股市场短期风格动态的理解框架,具有重要的参考和应用价值。
---
参考文献或数据溯源
- [page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]
---
如需访问报告中的图片与数据,下面附上关键图片展示路径:
- 因子覆盖率图[图1]:
- 缺失值填充方法图[图2]:

- BP因子行业均值图[图3]:
- 不同市值分组因子均值图[图4]:

- 财务因子填充效果对比[图5]:
- 价量因子填充效果对比[图6]:

- 指数收益[图7]及行业收益[图8]:
,
- 纯风格因子收益比较[图9]:

- 风格因子净值、累计收益[图10,11]:
,
- 波动率预测图[图12]:

- 样本股票比例[图13]及因子暴露(图14,15):
,
,
---
以上为本报告全文的详尽解析,涵盖了报告的每一项关键论述、数据分析及推理过程,确保全面且专业的理解。