`

基于二维持仓还原法的低波增强三因素共同持有数量选股因子研究

创建于 更新于

摘要

本报告提出利用二维持仓还原法提升基金持仓数据频率,构建包含共同持有数量、收益率相关性及基金业绩三因素的共同持有数量选股因子,并结合低波因子进行增强。回测显示增强因子在中证800等指数成分股中表现优异,年化收益达18.57%,信息比率提升明显,具有良好的选股能力及稳定性[page::0][page::4][page::10][page::12][page::13][page::18]。

速读内容


二维基金持仓还原方法构建 [page::4][page::5][page::6][page::7][page::8]


  • 真实持仓还原通过结合基金十大重仓股及同基金经理其他产品持仓实现。

- 模拟持仓还原构建备选股票池,结合时间半衰加权最小二乘回归(WLS),最终完成持仓权重确定。
  • 持仓池构建方法有效提升基金持仓还原的完整性与准确性。


低波增强三因素共同持有数量因子构建及持仓修正 [page::9][page::10]


  • 因子构建结合共同持有数量、基金和股票收益率相关性及基金业绩权重。

- 低波因子(20日正收益方差)作为增强因子,对三因素因子进行滚动RankIC加权合成,显著提升信息系数和收益。
  • 季度持仓数据通过修正与月度延递提高因子月频更新效率。


因子参数及基金业绩“反转效应”分析 [page::11]


  • 基金当前业绩排名越高,下一期业绩下降概率越大,体现明显的反转效应。

- 因子权重参数设计体现该反转特征,强化因子预测能力。

回测结果:信息系数及分组测试表现 [page::12][page::13]




| 因子名称 | 年化收益 | 年化波动 | 信息比率 | 最大回撤 | IC | Rank_IC |
|--------------|---------|---------|---------|---------|-------|---------|
| 20日正收益方差 | 10.44% | 14.52% | 0.72 | 19.22% | -4.33%| -9.15% |
| 三因素单因子 | 13.22% | 16.55% | 0.80 | 23.53% | -3.35%| -6.31% |
| 增强三因素因子 | 18.57% | 16.42% | 1.13 | 22.39% | 7.28% | 10.43% |
  • 增强三因素因子显示较强的预测能力和稳定的正相关性,信息比率明显高于基础因子。


多空组合及其他指数成分股测试 [page::14][page::15][page::16]




| 指数 | 年化收益 | 年化波动 | 信息比率 | 最大回撤 |
|------------|---------|---------|---------|---------|
| 中证1000 | 24.98% | 15.37% | 1.62 | 12.71% |
| 中证500 | 34.93% | 15.48% | 2.26 | 16.43% |
| 沪深300 | 30.28% | 17.39% | 1.74 | 15.87% |
| 科创50 | 13.75% | 30.28% | 0.45 | 38.57% |
  • 增强三因素因子在规模偏中等的指数表现优异,但在科创50效果较差,波动幅度较大。


实际组合表现及市值分布 [page::17][page::18]


| 组别 | 平均涨跌幅(%) |
|------|--------------|
| 多头前20 | -0.25 |
| 空头后20 | -5.71 |
  • 多头组合股票以中盘股为主,资金集中度适中,显示良好交易流动性。


深度阅读

基于二维持仓还原法的低波增强三因素共同持有数量选股因子研究 — 深度剖析报告



---

1. 元数据与概览



报告标题: 基于二维持仓还原法的低波增强三因素共同持有数量选股因子研究
作者与机构: 西南证券研究发展中心,分析师郑琳,执业证号S1250522110001
日期: 2023年,具体日期未详
研究主题: 深入探讨公募基金持仓股票的多维度特征,提出并验证基于基金“共同持有数量”的多因子选股策略,重点引入低波(低波动性)因子以增强因子效果,构建出三因素及其低波增强共同持有数量选股因子,并采用二维持仓还原法获取基金持仓以支持因子构建。

核心论点及评级目标:
报告提出并验证了一个创新视角——强调某只股票同时被多只基金持有(称为“共同持有数量”)作为判断股票未来表现的因子。基于此构建三因素因子(持有数量、收益相关性、基金业绩),进一步融入低波动性指标,构建出增强三因素共同持有数量因子。研究显示该因子在信息系数(IC)、收益风险表现均优于单独因素,表现稳定且具有一定的预测能力,适用于中证800及多个大盘指数成分股。报告强调其因子基于历史数据算法构建,过往表现不保证未来。

---

2. 逐章深度解读



2.1 摘要与引言


报告开宗明义,将基金持仓研究视角由单只基金看股票转换为“股票被多只基金共同持有的数量”。强调共同持有数量、基金与股票收益相关性、基金业绩三因素作为影响股票未来表现的关键维度,提出“三因素共同持有数量”选股因子。为精准获得基金季度完整持仓,设计二维持仓还原法(真实+模拟两维还原)。综上,补充引入低波因子(20日正收益方差)强化三因素因子的信号强度,并通过回测验证其有效。摘要也指定风险提示,强调因子基于公开历史数据,不构成投资建议。[page::0]

2.2 二维基金持仓还原法(章节2)



预设条件与背景


由于基金完整持仓披露限制(年度报及半年报披露全持仓,其他季度仅披露前十大重仓),将原始持仓信息对季度频率进行了还原,突破持仓获取瓶颈,且基于基金成立时间、新增筛选条件保证数据样本质量,覆盖2019至2023年区间。[page::3,4]

真实持仓还原(维度一)

  • 依托基金季报公开的“前十大重仓股”与“上市公司前十大流通股东”,计算基金对相关股票的持仓比例。

- 引入基金经理管理旗下多个产品的理念,假设同经理管理的基金持仓具有相似逻辑,融合其他产品信息补充权重,此外有权重上限约束以防止数据不合理膨胀,即以本基金第十大重仓权重及该股票第十大流通股东权重为限制,最终通过加权取得某股票在基金内综合权重。具体权重计算公式扣人心弦地体现了数据整合中对信息边界的严密控制。[page::5]

模拟持仓还原(维度二)

  • 在完成所有基金真实持仓还原基础上,对未能还原完整持仓的行业及股票进行补充。

- 构建备选股票池,筛选持仓相似度较高的基金持仓及本基金前一期持仓,此外添加未覆盖行业中一定数量股票。
  • 持仓相似度由行业相似度(占较大权重)及个股相似度构成,计算公式清晰表达了该多层面相似度对补全持仓的贡献。

- 基于行业权重未覆盖部分计算所需股票数量,设计合理的调整公式兼顾历史持仓结构及剩余权重需求,避免选择股票数不合理。
  • 利用时间半衰加权最小二乘回归(WLS)对备选池中的股票收益进行拟合,二次筛选并确定核心股票池,提高数据可信度。权重拟合设有行业权重、个股权重及正权重约束,保持组合符合监管及常规持仓逻辑。[page::6,7,8]


图表剖析

  • 图1表现基金持仓还原样本数持续增长,说明方法随着时间稳定扩展,适用性增强。

- 图2、图3、图4流程图使持仓逐步演进与筛选逻辑可视化,清晰展现从粗略(十大重仓)到细致(模拟还原)过程。
  • 数学模型与公式强调该过程系统性、严谨性,契合智能量化复合策略设计理念。[page::4,5,6,8]


2.3 选股因子构建(章节3)



持仓还原结果修正及频率提升

  • 季度持仓数据披露滞后现象导致发布时间点存在偏差,报告提出必须对持仓进行“持仓还原修正”和“月度延递”以纠正时点差异,结合基金收益与持仓股票收益相关性进行动态调整,确保持仓数据对当期持仓的代表性。

- 月度延迟机制让因子具有更高频率更新特征,提高因子实用性。[page::9]

三因素共同持有数量因子构建

  • 结合共同持仓数量、累积收益相关性(筛除权重极低的无关股票)、基金业绩(按业绩排名赋予权重,业绩较佳但存在反转风险),构建三因素单因子。

- 设计权重函数,分层赋予基金权重体现业绩排名分布,体现基金表现的非线性影响。
  • 绩效测试显示三因素单因子具有负IC和反向收益特性,表明表现好的基金中持有的股票未来存在回落风险。

- 引入低波因子(20日正收益方差,代表股票波动性),通过三期滚动RankIC加权融合形成增强三因素因子。波动性高的股票更潜在回落风险,因而加强因子表现的负相关信号。
  • 增强后因子在样本内表现出更强的正IC、盈利能力和信息比率,验证低波因子对信号增强的有效性。[page::10]


因子参数分析

  • 考察基金业绩排名的稳定性,观察到基金业绩存在月度“反转效应”,即排名高者下一月往往表现回落,排名低者表现可能改善。

- 图6清晰展示不同排名段基金未来业绩上升与下降概率的统计,为因子权重设计提供逻辑依据。
  • 参数设计体现反转机制,赋予业绩最好基金最大权重,业绩落后基金最低权重,同时呈现连续递减权重。[page::11,12]


2.4 因子测试(章节4)



信息系数(IC)分析

  • 表3与图7、图8展示三种因子的IC及RankIC序列与累计趋势。

- 增强三因素因子RankIC达到10.43%,IC为7.28%,表现最佳且稳定性强(RankIC胜率78.13%),高于三因素单因子及单低波因子。
  • 因子整体具较好预测能力,波动率控制合理,回撤适中。

- 增强三因素因子生成的月换手率最高(1.12),显示因子敏感且跟踪频率较高,更适合较主动的量化运作。[page::12,13]

分组表现测试

  • 利用5分组法检验因子区分能力,分组组合表现单调递增,最高组明显跑赢最低组,确认因子有效性。

- 增强三因素因子分组中最高组收益16.15%,最大回撤22.35%,且相对中证800超额明显,风险调整表现优越。
  • 三因素单因子多头组合波动稍高且回撤最大,但仍体现一定投资价值。[page::13,14]


多空组合测试

  • 多空组合测试显示增强三因素因子相较三因素单因子收益有显著提升,年化收益率达38.14%,且风险指标得到控制。

- 该测试是因子有效性的进一步强证,表明因子不仅在多头择时表现良好,对于构建对冲策略也具备潜力。[page::14,15]

跨指数验证

  • 在沪深300、中证1000、中证500上因子表现稳定,有效年化收益均超过10%,而科创50成分股表现不佳,提示因子对不同市场环境适应性存在差异。

- 多空组合收益也体现市场适应度差异,科创50多空组合波动与回撤相对较大。
  • 说明因子在主流大盘及中盘股上更为有效,可能受行业结构、波动特征差异影响。[page::15,16]


2.5 组合及特征分析(章节4.5)

  • 根据2023年8、9月实际组合回测,前20只低波增强三因素因子筛选出股票表现优于同期市场及后20只股票明显逊色,验证因子实战效果。

- 多头组合的市值分布偏向中盘股(100-500亿元区间占比约36%),说明因子聚焦的是流动性较好、资金关注度较高的中大型股票。
  • 大盘股占比较低,表明因子在大盘股上信号相对弱化,适合中盘股策略运用。[page::16-18]


2.6 总结与风险提示(章节5、6)

  • 报告总结,二维持仓还原法成功提升了季度完整持仓的频次,并通过持仓修正和月度延续实现月度频率因子更新,是实现高频因子研究的基础。

- 明确提出三因素共同持有数量因子结合低波正收益方差因子实现选股效应增强。
  • 风险提示强调算法及因子基于历史公开数据,不确保未来表现,存在数据滞后、第三方数据不准确及策略可持续性风险,因子仅供学术和研究参考,不构成投资建议。[page::18,19]


---

3. 图表深度解读



图1:持仓还原每期基金数


显示从2019年8月到2023年8月,参与持仓还原的基金数量明显增长,由约2000只增长至近4700只,体现数据规模与样本多样性不断扩大,有助于因子稳定性和普适性的提升。[page::4]

图2:二维基金持仓还原流程


清晰呈现真实持仓和模拟持仓两阶段步骤,体现从基金报告十大重仓、前十大流通股东到同基金经理其他产品,再到备选股票池筛选及加权回归,强调方法的层次化和系统性。[page::5]

图3:备选股票池构建流程


说明在完成真实持仓还原后,如何针对未完全还原行业,补充备选股票,实现覆盖持仓盲区,确保持仓信息更加完整和精准。[page::6]

图4:核心股票池筛选流程


通过行业内股票数量计算和基于WLS回归的权重排序,将备选股票池精炼为核心股票池,保证回归权重合理分配及行业权重匹配,增强模型拟合度和策略稳定性。[page::8]

图5:持仓修正与月度延递流程


展示原始季度持仓数据披露滞后,通过修正和挪动延续,使得持仓数据时间点更接近真实持仓状态,实现了持仓频率的提升,支撑高频选股策略开发。[page::9]

图6:业绩上升与下降概率


柱状图展示基金分5档业绩排名对应的下一期业绩变化概率,排名靠前基金下降概率明显高于上升概率,全面验证基金业绩反转效应基础逻辑,支持基于业绩排名的因子设计思路。[page::11]

图7-8:因子RankIC序列和累计表现


因子RankIC序列表明增强三因素因子稳定站正并呈上升趋势,累计RankIC曲线明显向上,表明该因子长期表现出较强一致性和稳健的收益预测能力,20日正收益方差与三因素单因子则相对较弱。[page::12]

图9-12:5分组回测及超额收益表现


多组回测图显示因子分层明显,增强三因素因子分组间收益差异更大,层次分明,表现出良好的组合区分度和业绩持续性。其超额收益图表明因子不仅绝对收益优异,也能相对基准实现超额收益。[page::13]

图13:多空组合净值曲线


多空组合回测表现,增强三因素因子净值上升更陡峭,表现出在同样风险背景下获取更高收益的能力,且回撤控制良好,印证增强因子的优化效果。[page::14]

图14:其他指数成分股多空组合净值


跨指数验证进一步支持因子在主流大中盘指数上的有效性,科创50表现相对异常,提示该因子更适合成熟市场和风格。[page::15]

图15:多头组合市值分布


市值分布显示组合偏重中盘股,资金面活跃,且具备合理流动性水平,为因子的实用性和可执行性加分,降低因子因流动性受限带来的实施风险。[page::18]

---

4. 估值分析



报告未涉及具体的公司估值,但核心在于构建量化选股因子并量化测试其风险调整后的超额收益能力。以信息系数(IC)及多空组合收益为主要衡量标准,体现因子在投资组合层面对股票价值的筛选与评判。使用时间半衰加权最小二乘回归(WLS)的回归模型估算不同行业内的股票持仓权重,这本质上类似于因子暴露权重的估值优化,保证了组合行业权重约束与流动性限制。

---

5. 风险因素评估


  • 数据问题风险:因子和持仓还原完全基于公开历史数据,存在数据滞后、第三方数据缺失或偏误可能,影响策略的准确性。

- 策略过拟合和历史依赖:因子有效性仅基于回测区间,未来市场状况和基金行为可能变化,未必持续有效。
  • 市场环境变化风险:因子在科创50等特定市场表现不佳,可能受市场结构和波动特征影响,存在适用范围限制。

- 信息披露不完全风险:基金持仓报告的时效性和完整性限制,以及对管理逻辑的假设可能导致持仓还原存在误差。
  • 交易成本和实施难度:月度换手率较高,可能导致交易成本上升,侵蚀超额收益。


报告建议投资者应谨慎对待因子预测能力,注意策略延续性风险,[page::0,19]

---

6. 批判性视角与细微差别


  • 报告高度依赖基金持仓还原的准确性,尤其在模拟持仓还原过程中,对持仓相似度的计算及行业补充股票的选择存在较多主观参数,可能对结果产生较大影响。

- 持仓修正及月度延递过程虽提高了数据频率但增加了复杂度,该过程的数据滞后调整是否足够精准直接影响因子实用性。
  • 基金业绩排名反转效应作为因子核心假设,但基金管理风格及市场周期不同阶段可能导致该规律不稳固。

- 增强三因素因子的构建以负IC加权结合低波动性指标,有助减小噪声,但可能过分强调了反转风险,忽略部分价值稳定性因素。
  • 因子在科创50表现差异说明不同市场风格可能存在限制,关注此类因子推广的适用边界十分必要。

- 报告未充分讨论交易成本和实际操作难度,月换手率数据提示活跃但转化为实际收益的可行性仍需审慎评估。
  • 图表均源于历史回测,报告强调不构成未来业绩保证,应避免模糊预期风险。


总体来看,因子设计思路新颖、逻辑严谨,但现实市场应用需综合考虑上述风险及限制因素。[page::19]

---

7. 结论性综合



本报告系统地提出并验证了基于公募基金持仓视角的“共同持有数量”三因素选股因子,创新采用二维持仓还原法大幅提升季度基金持仓数据可用性,并通过持仓修正及月度延续实现因子月度频率更新。三因素因子考察股票被多只基金持有数量、基金与持股收益相关性及基金业绩排名的综合影响,发现当期被多基金持有且基金业绩较好股票,下一期因反转风险表现往往下滑。引入低波动性因子进一步强化该机制,构建低波增强三因素因子,基于历史回测表现出更高的预测相关性(RankIC提升到10.43%)、更高的年化收益(18.57%)、更佳的风险调整表现及争取到跨指数的稳定有效验证。

各项图表及数据清晰支持了报告的创新点:
  • 持仓还原复合真实与模拟两种方法,充分利用权重限制和行业相似度筛选,【图1-4】体现了数据还原技术层面的突破。

- 因子信息系数数据及累计趋势图【图7-8】、分组收益【图9-12】及多空组合表现【图13-14】全方位体现了因子的预测效度和投资价值。
  • 多频率持仓修正与延续机制提升因子及时性。【图5】

- 业绩反转效应被图【图6】数据深刻揭示并有效地被转化为因子权重设计原则。
  • 组合流动性和市值分布分析【图15】显示因子实用潜力。


尽管存在历史数据依赖、数据质量波动、适用范围限制及潜在实现交易成本风险,报告通过层层数据、统计和实证研究展现了低波增强三因素共同持有数量因子在中国A股市场尤其是中证800、中证1000及中证500等指数成分股中具有较强的选股能力和稳健的区分度。

总体而言,报告在基金持仓数据还原技术和基于持仓信息的多因子投资策略构建领域做出了重要贡献,为利用公募基金持仓信息提升选股效率和预测准确性提供了新方法与实证基础。

---

参考溯源页码


本报告分析核心内容及推断均源自西南证券研究发展中心《基于二维持仓还原法的低波增强三因素共同持有数量选股因子研究》,主要页码覆盖0-19页,本分析各处均附加对应页码标识。

---

结束语


如需进一步询问具体算法细节、图表解读或数据处理过程,可继续提问。

报告