`

基于相似股票历史收益的选股因子研究

创建于 更新于

摘要

本文基于股票价格、规模、风险、盈利能力、投资水平五维度构建股票间的欧式距离,提出相似股票动量因子,并在中国A股市场进行验证,发现该因子与股票下期收益正相关,IC均值为0.0305,IR为0.2689,多空组合年化收益率达12.89%,最大回撤仅8.39%。通过相关系数及Fama-Macbeth回归分析,排除动量、规模、流动性等干扰后该因子仍显著有效。此外,进一步引入股票自身历史收益构建相似预期差因子,IC均值提升至0.0910,组合年化收益率达18.72%,最大回撤8.60%,表现优于相似动量因子,验证了相似股票历史收益信息在A股选股中的重要价值 [page::0][page::4][page::6][page::8][page::12][page::13][page::15][page::16].

速读内容


相似股票动量因子构建与定义 [page::3][page::4]

  • 通过股票价格、规模、市净率、净资产收益率、资产增长率五大指标计算股票间欧氏距离,距离越小股票越相似。

- 相似股票动量因子定义为某只股票与其距离最近的r只股票过去一个月历史收益的市值加权平均。
  • 因子值越大,代表相似股票收益越好,预示该股票后续收益较高。


因子有效性验证 [page::4][page::5][page::6]


| 分组 | 因子均值 | 平均月收益率 | 年化收益率 | Sharp比率 | 最大回撤率 | 月胜率 |
|-----|---------|--------------|------------|----------|------------|--------|
| 组1 | -0.0315 | -0.29% | -3.54% | -0.26 | 49.05% | 41.67% |
| 组5 | 0.0359 | 0.72% | 9.02% | 0.39 | 29.15% | 48.33% |
| 5-1 | | 1.01% * | 12.89% | 1.08 | 8.39% | 66.67% |
  • 多空组合收益显著,且在牛熊市中均表现稳定,累计净值差异明显images/42c60ce266787f025099396736b270ae7d5197572697d96ca38c0dcd12c8141d.jpg?page=5

- 多空组合累计净值稳步增长且最大回撤较小,表现优于市场基准。[page::5]

信息系数及相关回归分析 [page::6][page::7][page::8]

  • 相似动量因子IC均值0.0305,IR0.2689,信息稳定且显著。

- 单因子及多因子Fama-Macbeth回归显示,相似动量因子在控制异质波动、流动性、动量、规模后依旧显著,具备选股新信息。
  • 相关性分析表明相似动量与非流动性、动量有一定相关性,但仍提供有效增量信息。


因子参数敏感性分析 [page::9][page::10][page::11]

  • 样本容量80只相似股票构建因子效果最佳,IC均值稳定提升。

- 股票距离阈值为1时IC均值最高(0.0340),构建的相似股票样本代表性最优。
  • 过去一个月历史收益率作为因子输入最有效,过长时间窗口显著降低IC。[page::11]


相似预期差因子改进与表现 [page::12][page::13][page::14][page::15]

  • 结合相似股票动量因子与股票自身历史收益率差异构建相似预期差因子。

- 初步分组净值图显示原因子组5表现异常,原因在于组5中混合了强势和弱势股票。
  • 对股票按超额收益分组后,在强势组内分组检验显示组5-组1多空组合月均收益1.95%,年化收益26.08%,Sharp 1.52,最大回撤11.09%。

- 控制股票自身历史表现后,净值分组呈显著单调性,因子选股能力大幅提升。
  • 信息系数IC提升至0.0910,IR达0.9609,显著优于相似动量因子。

- 累计IC曲线显示相似预期差因子稳定上升,表现优于相似动量因子。[page::13][page::14][page::15]

多头组合与市场对比表现 [page::16]

  • 相似预期差多头组合净值大幅超过万得全A指数及沪深300指数,累计净值达3.08,复合增长208‰。

- 优异的超额收益证明因子选股效率高。[page::16]

风险提示 [page::17]

  • 因子基于2016-2021年历史数据,历史表现不代表未来,市场环境变化可能影响因子表现。


深度阅读

金融研究报告详尽分析报告


报告标题:基于相似股票历史收益的选股因子研究
作者及机构:西南证券研究发展中心,分析师邓函
发布时间及覆盖期限:2022年,研究样本覆盖2016年至2021年中国A股市场
研究主题:本报告聚焦于通过股票间“相似性”定义及其历史收益构建选股因子,探索相似股票动量因子及相似预期差因子的构建方法、有效性及其选股表现。

---

1. 元数据与概览(引言与报告整体概览)


本报告旨在探讨为何经典的动量因子在不同市场(美国与中国A股)表现截然不同,通过行为金融学视角,尤其投资者心理偏差,研究股票间基于价格、规模、风险、盈利能力、投资水平构建的“股票距离”并据此定义“相似股票”,提出利用相似股票历史收益构建的新型动量因子。核心论点在于,相似股票的历史表现对个股的未来收益具有积极预测能力,进而有效用于选股策略。

报告明确提出:
  • 相似股票动量因子与未来股票收益正相关,IC均值0.0305,IR为0.2689;

- 多空组合月均收益1.01%,年化收益12.89%,最大回撤仅8.39%;
  • 在控制了异质波动率、流动性、动量及规模等因子后,相似动量因子仍保持显著有效;

- 通过将股票本身历史收益引入,构建相似预期差因子,IC均值进一步提高到0.0910,月均收益1.44%,年化收益18.72%,最大回撤8.60%,组合复合年增长率达25.23%;
  • 风险提示明确说明历史表现不代表未来表现,市场环境发生变化时可能影响因子有效性。[page::0,4,5,6,12,15,17]


---

2. 逐节深度解读



2.1 因子构建


关键论点
  • 股票距离定义:选用价格、规模(市值对数)、账面市值比(BM)、净资产收益率(ROE)、资产增长率五维度数据,经截面标准化后,用欧氏距离测量两只股票间的“相似度”,距离越小,股票间越相似,排除股票自身影响(距离取\(+\infty\));

- 相似股票动量因子:给定参数r(如80),计算目标股票距离最近r只股票过去1个月市值加权平均收益作为因子值;
  • 心理学理论支持因子构建,投资者受代表性启发、后悔理论、锚定效应影响,会参考相似股票的历史表现形成未来预期。


逻辑与假设
  • 假设投资者的投资行为基于相似股票的历史收益构成路径依赖;

- 排除自身股票历史收益影响因子的偏误,使因子独立于自身动量。

公式清晰表述了距离计算和因子构造逻辑,建立了明晰的理论机制。[page::3,4]

2.2 因子有效性检验


分组检验(表1,图1,图2)
  • 按因子值五分组,组均值从负转正,月均收益率逐组递增,组5(最高因子值)月均收益率0.72%,组1(最低)为-0.29%;多空组合(组5-组1)均值月收益1.01%,t值2.71显著;

- 年化收益从-3.54%到9.02%递增,夏普比率正相关,最大回撤逐组减少,多空组合最大回撤仅8.39%;
  • 累计净值走势图显示净值长期稳步增长,熊牛市均体现策略优势。


信息系数分析(表2,图3)
  • IC均值0.0305显著非零,标准差0.1134,信息比率( IR)0.2689,说明因子有较强预测未来收益的能力,且波动稳定且呈持续上升趋势。


回归分析(表3,4,5)
  • 与异质波动率、非流动性、动量、规模因子之间相关性分析说明相似动量与异质波动、规模相关性弱,流动性、动量相关较强;

- 单因子检验表明相似动量、异质波动率、非流动性显著,动量和规模不显著;
  • 多因子Fama-Macbeth回归进一步验证,即使控制动量、规模等,因子依然显著有效,解释了新信息,特别是与异质波动率等存在较低信息重叠。


综上,因子显示稳定有效性及独特信息价值。[page::4,5,6,7,8]

2.3 敏感性分析


相似股票样本构建敏感度
  • 固定样本容量法:样本容量从20到200,IC均值随容量扩大先显著提高后趋于平稳,80只为优选容量;

- 固定距离阈值法:股票距离分布集中在0-3区间,设置距离阈值1时因子IC达到最大0.034,优于固定80只法,代表样本代表性更高。

历史收益度量敏感度
  • 不同月份历史市值加权平均收益作为因子输入,选择过去1个月收益作为历史收益指标,信息系数最大0.0305;超过1个月的历史收益平均显著降低IC至约0.01,因子效用降低。


结论:样本构建及时间窗口设定对因子有效性有实质影响,最佳参数已确定。[page::9,10,11]

2.4 因子的改进与优化:相似预期差因子构建


基于市场行为心理,考虑股票本身与其相似股票历史收益的差异,定义相似预期差因子 \(\Delta ERi^{(t)}=SIMi^{(t)} - r_i^{(t)}\),用以捕捉投资者预期的“差额效应”——当相似股票表现较好而个股表现较弱时,投资者预期个股有上涨空间,明星效应显现。

回测发现
  • 因子IC均值提升至0.0450,分组净值却未呈单调递增,组5反转。

- 分析认为组5混入两类股票:
- 本身月度收益为正,符合预期差逻辑,具有较大上升潜力;
- 本身月度收益为负,尽管相似股票收益较高,实际为投资者不看好,导致组5净值被拖累。

分市场表现分层测试
  • 按超额收益(相对于万得全A指数月收益)将股票分成强势组和弱势组;

- 对强势组再做基于相似预期差因子的分组检验,结果显示月均收益率、年化收益率、夏普比率及最大回撤均显著改善,组5与组1月均收益差达1.44%,年化26.08%,统计显著[page::12,13,14]

---

3. 图表深度解读



表1:相似股票动量因子分组检验结果(page 4)

  • 体现股价未来收益与相似股票动量因子正相关,5组月均收益从-0.29%增长至0.72%,夏普比率和胜率指标同向,最大回撤由高到低;

- 多空组合效果稳健,收益显著,风险控制良好。

图1和图2:分组净值及多空组合累计净值变化图(page 5)

  • 图1显示5组净值趋势明显分化,单调递增,支撑分组检验结论;

- 图2多空组合净值稳定上涨,回避了大幅回撤,说明策略抗风险能力强。

表2和图3:信息系数分析(page 6)

  • 表2显示IC均值显著大于零,波动率适中,IR良好;

- 图3累计IC曲线稳定上升,验证因子预测能力稳定。

表3、4、5:因子相关与回归分析(page 7-8)

  • 表3显示相似动量与动量因子高相关,弱相关异质波动和规模;

- 单因子回归表4显示相似动量显著,对下期收益有解释力;
  • 多因子回归表5,控制多因子,相似动量依然显著,说明含新信息。


图4-7:敏感性分析图示(page 9-11)

  • 图4:样本容量 寻找最大IC均值80只左右;

- 图5:个股距离频数示例,体现距离分布集中;
  • 图6:距离阈值与IC均值,阈值为1时IC最高;

- 图7:历史收益月份长度与IC,短期过去1个月最佳。

图8、9和表6、7:相似预期差因子测试(page 13-15)

  • 图8显示初始分组净值未单调,但分解后识别出混杂因素;

- 表6及图9强势组分组收益指标显著改善,净值呈单调递增趋势,稳健性加强;
  • 表7信息系数IC大幅提升到0.0910,IR高达0.9609;

- 图10显示相似预期差因子的累计IC远超相似动量因子,实现效能的显着改进。

图11:相似预期差因子多头组合 vs 沪深300与万得全A指数净值(page 16)

  • 多头组合净值显著超过两个指数,表明因子构建的策略获得明显超额收益,增长率208%展示了因子长期投资价值。


---

4. 估值分析


报告未涉及传统的估值方法(DCF、PE、EV/EBITDA等),本报告核心关注基于量化动量因子的因子构建与有效性验证,而非公司估值本身。

---

5. 风险因素评估

  • 主要风险警示在于历史数据样本的时效性及中国A股市场特性,历史有效性不保证未来表现;

- 市场环境变化(制度、流动性、宏观经济等)或投资者行为改变可能削弱因子预测能力。
  • 对于相似股票动量和预期差因子的依赖,未来因子表现可能受构建参数及市场情绪影响较大。


未提出明确缓释方案,提示投资者须关注市场环境动态。

---

6. 批判性视角与细微差别

  • 报告中相似预期差因子初期累积净值分组不单调现象表明,因子构造中“负收益但相似股票表现好”可能导致对部分样本的错误判断,显示因子构建对样本筛选的敏感性和复杂性;

- 保守处理情绪分层(超额收益)后因子表现明显提升,暗示因子依赖于市场情绪或股票趋势,对非理性或波动市场的适用性需谨慎评估;
  • 因子参数最优值依赖于样本期和市场环境,实际应用中需动态调节,避免过拟合和参数稳定性不足;

- 样本仅为A股2016-2021年,缺乏跨市场、跨周期的验证,限制因子普适性论断;
  • 报告对行业因素未加区分,未来行业内差异可能对因子稳定性产生显著影响。


---

7. 结论性综合



本报告系统提出并验证了基于“股票距离”定义的相似股票动量因子,发现其与中国A股市场股票未来收益显著正相关,信息系数IC均值0.0305,形成稳健的选股策略,多空组合年化收益率达到12.89%,最大回撤较低,体现了较好风险调整收益表现。

通过多因子回归,确认相似动量因子在控制传统风险因子后依然具有独立信息增量,表明其有效揭示了市场尚未充分定价的信息。

进一步引入个股自身历史收益,构造相似预期差因子,因子信息效率显著提升(IC均值0.0910),选股表现大幅改善,年化收益率高达18.72%,最大回撤受控,累计净值与沪深300、万得全A指数比较显示出显著超额收益潜力。

因子构建过程中,参数敏感性分析确认最优样本容量约为80只相似股票,距离阈值约为1,历史收益期数为1个月。

风险提示强调历史收益与未来不确定性,市场环境变化可能制约因子表现。

总之,该研究为行为金融学视角下基于“相似股票历史收益”的量化选股策略提供了有力的实证支持,表明投资者心理与行为偏差在中国A股选股中具备实用价值,为市场提供了一种创新选股思路。

---

参考文献


报告引用了He, Wang 和 Yu (2021)的相似股票定义,Amihud (2002)非流动性指标,Ang 等(2006)的异质波动率理论,Fama & French (2015)五因子资产定价模型,以及经典的行为金融学文献Tversky & Kahneman (1974)和Bell (1982)的后悔理论等重要文献。为理论支撑和实证分析提供坚实基础。

---

附注


报告附带详尽联系信息,声明与投资评级制度,各类合规声明,保证研究的规范性与透明性。

---

总体评价


作为行为金融与量化投资结合的典范研究,报告数据充分,分析严谨,逻辑清晰,创新性强,既具备理论深度又兼顾实证应用,适合量化研究机构及专业投资者参考。未来若结合行业层面拓展和结构性风险纳入,前景广阔。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17]

报告