推动个股价格变化的因素分解与“花隐林间”因子——多因子选股系列研究之十【方正金工】
由small_q创建,最终由qxiao 被浏览 208 用户
\
更新
本文为旧版实现,仅供学习参考。
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
本文来自方正证券研究所于2023年3月27日发布的报告《推动个股价格变化的因素分解与“花隐林间”因子——多因子选股系列研究之十》,欲了解具体内容,请阅读报告原文,分析师:曹春晓 S1220522030005,联系人:陈宗伟。
摘要
推动个股价格发生变化的因素,通常可以分为三大类:市场层面的推动力、个股层面的推动力、噪声。其中个股层面的推动力又可以划分为近期突然到来的信息和中长期的基本面信息。在上述4种推动力中,个股突然到来的信息、中长期的基本面信息和噪声的推动力量越小,预示着股票未来收益率越高。
其一,个股突然到来的信息较少且较平稳时,表明这只股票较为冷门,投资者对其关注较少且相对理智,其当前价格相对被低估,未来容易产生较高收益;相反,那些经常突然到来信息,并在短时间内影响股价的股票,投资者更有可能发生过度反应和交易,未来收益较低。
其二,个股中长期走势在短时间内是相对确定的,一旦这部分的信息短时间内对价格变化产生了较大影响,则表明投资者对股票中长期基本面情况的看法出现了分歧,其未来容易产生较低收益;相反,这部分信息对价格推动较少的股票,表示投资者对其中长期基本面的看法仍然较为一致,因此未来容易产生高收益。
其三,噪声交易者通常具有投机、追高、博彩偏好等特点,因此如果推动股票价格变化的因素中,有太多噪声,则股票价格容易被高估,进而未来产生低收益;相反,噪声较少的股票,未来则更容易产生高收益。
基于上述三条逻辑,我们认为个股在未来如果想走出较好行情,需要在上述三个非市场层面信息上“隐没”,并构造了“朝没晨雾”因子、“午蔽古木”因子、“夜眠霜路”因子,最终合成为“花隐林间”因子,寓意较好的股票(花)往往非市场层面的信息较少(隐没于林间)。
我们对“花隐林间”因子在月度频率上的选股效果进行测试,结果显示 “花隐林间”因子表现非常出色,Rank IC达-9.34%,Rank ICIR为-5.69,多空组合年化收益率达32.39%,信息比4.46,因子月度胜率88.43%。此外,在剔除了常用的风格因子影响后,“花隐林间”因子仍然具有非常强的选股能力,Rank IC均值为-4.63%,Rank ICIR为-4.15,多空组合年化收益率16.62%,信息比率2.99。 主流宽基指数中,“花隐林间”因子在沪深300、中证500、中证1000指数成分股内均表现不俗,多头组合年化超额收益分别为7.46%、9.42%、14.68%。
风险提示
本报告基于历史数据分析,历史规律未来可能存在失效的风险;市场可能发生超预期变化;各驱动因子受环境影响可能存在阶段性失效的风险。 感谢实习生田妍在数据核验方面对本报告的贡献。
报告正文
1引言
推动个股价格发生变化的因素,通常可以分为三大类:市场层面的推动力、个股层面的推动力、噪声。其中个股层面的推动力又可以划分为近期突然到来的信息和中长期的基本面信息。 在上述4种推动力中,我们认为个股突然到来的信息、中长期的基本面信息和噪声的推动力量越小,股票未来的潜在收益率越高。
其一,个股突然到来的信息较少且较平稳时,表明这只股票较为冷门,投资者对其的关注较少并且相对理智,因此其当前价格可能相对被低估,未来可能会产生较高收益;相反,那些经常突然到来信息并在短时间内影响股价的股票,投资者更有可能发生过度反应,产生过度交易,因此未来可能产生较低收益。
其二,个股中长期走势在短时间内是相对确定的,一旦这部分的信息短时间内对价格变化产生了较大影响,则表明投资者对股票中长期基本面情况的看法出现了分歧,因此其未来容易产生较低收益;相反,这部分信息对价格推动较少的股票,表示投资者对其中长期基本面的看法仍然较为一致,未来更容易产生较高收益。
其三,噪声交易者通常具有投机、追高、博彩偏好等特点,因此如果推动股票价格变化的因素中有太多噪声,则股票当前价格容易被高估,进而未来产生低收益;相反,噪声较少的股票,未来则更容易产生高收益。 基于上述三条逻辑,我们认为个股在未来如果想走出较好行情,需要在上述三个非市场层面信息上“隐没”,我们据此分别构造了“朝没晨雾”因子、“午蔽古木”因子、“夜眠霜路”因子,并将其等权合成为“花隐林间”因子,寓意较好的股票(花)往往非市场层面的信息较少(隐没于林间)。
2推动股价变动因素的数据分解
上面我们从逻辑上给出了影响个股价格变化的4种因素,并分别论述了它们与股票未来收益率的关系。接下来我们在数据层面上,对这些个股股价的影响因素进行拆解,分别找出上述4种因素的代理变量。
我们使用每日个股的分钟行情数据进行最小二乘回归,来拆解上述因素,具体做法如下:
1)取个股A每天1分钟频率的行情数据。
2)使用分钟收盘价,分别计算A每一分钟的收益率(即t分钟收盘价/t-1分钟收盘价-1);再使用分钟成交量,分别计算A每一分钟的增量成交量(即t分钟成交量减去t-1分钟成交量)。
3)对每天第6分钟至第240分钟的上述数据进行带截距项的最小二乘回归,其中被解释变量y为第t分钟的收益率,解释变量x包括6项,分别为第t、t-1、t-2、t-3、t-4、t-5分钟的增量成交量。
4)记上述回归得到的截距项的t值为t-intercept,第t、t-1、t-2、t-3、t-4、t-5分钟的增量成交量的回归系数的t值分别为t0、t1、t2、t3、t4、t5,回归方程的F值为F-all。
5)依据前述逻辑,t0、t1、t2、t3、t4、t5分别表示了第t、t-1、t-2、t-3、t-4、t-5分钟的增量成交量对第t分钟价格变化的推动程度,F-all衡量了第t、t-1、t-2、t-3、t-4、t-5分钟中,是否存在某一分钟对第t分钟的价格变化存在显著推动。上述6个t值1个F值综合衡量了个股短期内突然到来的信息的多少,t-intercept则包含了市场层面的信息和个股中长期的基本面信息,而残差部分则衡量了噪声的强弱。 至此,我们初步刻画了上述四种不同信息的量化指标,接下来我们对这些指标进行组合、改进和拆分,使它们可以更好地表达前述的三条逻辑,并分别构造了“朝没晨雾”因子、“午蔽古木”因子和“夜眠霜路”因子。
3 “花隐林间”构建及测试
3.1 “朝没晨雾”因子
首先我们来考察个股突然到来的信息,并构造“朝没晨雾”因子,具体步骤如下。
1)对于个股A在T日1分钟数据,使用上述回归得到t1、t2、t3、t4、t5,计算5个t值的标准差,作为股票A在T日的“日朝没晨雾”因子。(由于同分钟的增量成交量对同分钟的收益率影响过大,如果放在一起计算标准差,会对结果产生较大影响,因此在此处予以剔除,仅保留第t-1、t-2、t-3、t-4、t-5分钟的t值t1、t2、t3、t4、t5)
2)该标准差衡量了每分钟的之前5分钟的信息到来的平稳程度,该标准差越小,表示该股票短时间内流入的信息越平稳,即越没有突然到来的信息。
3)每月月底,计算过去20个交易日的“日朝没晨雾”因子的均值,记为“朝没晨雾”因子。依据前述逻辑,该因子值越小越好。
从测试结果来看,上述“朝没晨雾”因子Rank IC为-8.55%,Rank ICIR为-4.47,多空组合年化收益率为28.17%,信息比率达3.65,具有较强的选股能力。
3.2 “午蔽古木”因子
接下来我们来综合考察个股突然到来的信息和噪声,并构造“午蔽古木”因子。
1)对于个股A在T日的1分钟数据,使用上述回归得到的t-intercept和F-all,对t-intercept取绝对值,记为T日的abst-intercept,则其大小表示了市场信息和个股中长期基本面信息对价格影响的程度。
2)而对于T日的F-all,它表示了近期突然到来的信息中,是否有某一分钟对价格产生了显著影响。因此F-all值越大,表示这一影响越显著;F-all值越小,表示越不存在某一分钟的突然信息对价格产生了显著影响。基于前述逻辑,我们认为F-all值较大时,股票将产生低收益,而F-all值较小时,股票将产生高收益。
3)我们再深入分析当F-all值较小时,表示近期没有突然到来的信息对收益率产生影响,那么此时全部推动力量都来自另外三种——市场信息、个股中长期基本面信息、噪声。而abst-intercept表示了市场信息和个股中长期基本面信息对价格的影响程度,如果abst-intercept的值越大,则表示噪声对价格的推动力量就越小,个股未来就越容易产生高收益。
4)基于上述分析,我们使用F-all值对abst-intercept值进行“球队硬币”式的截面翻转,即我们将每天截面上F-all值小于截面均值的股票的abst-intercept值乘以-1,而对F-all值大于截面均值的股票的abst-intercept值保持不变(即乘以1),将翻转后的值记为“日午蔽古木”因子。
5)由于abst-intercept的值均为正数,因此经过反转后,F-all值较大(即近期突然到来的信息对股价产生了显著影响的部分)的部分,全部位于空头端;F-all值较小的部分全部位于多头端,且abst-intercept的值越大(经前论述,表示噪声越小;abst-intercept的值越大即“日午蔽古木”因子值越小),股票越位于多头组,即其未来收益率越高。
6)每月月底计算过去20个交易日的“日午蔽古木”因子的均值,记为“午蔽古木“因子。该因子充分融合了个股突然到来信息部分的逻辑和噪声部分的逻辑,因子值越小越好。 此外,值得一提的是,“午蔽古木”因子值中正数占比约为27%,表明F-all平均每天大于截面均值的股票约占27%。并且在5%的显著性水平下,第一自由度为5、第二自由度为228的F分布,其临界值约为4.5左右,而2013-2023年间,F-all值大于4.5的比例约为24.3%,与我们翻转的27%的比例非常接近。因此F-all值的截面均值是个很好的进行翻转的标准,F-all值大于截面均值的部分,其F统计量几乎都在5%的水平下显著;而相反F-all小于截面均值的部分,其F统计量几乎都在5%的水平下不显著。
从测试结果来看,上述“午蔽古木”因子Rank IC为-6.40%,Rank ICIR为-4.29,多空组合年化收益率为19.90%,信息比率达2.85,具有较强的选股能力。
3.3 “夜眠霜路”因子
最后我们来考察个股中长期的基本面信息,并构造“夜眠霜路”因子。 1)对于个股A在T日的1分钟数据,使用上述回归得到的t-intercept。 2)每月月底,分别计算每只股票过去20天的t-intercept序列,与当期截面所有股票过去20天的t-intercept序列之间的相关系数的绝对值(以2023年2月这一期为例,相关系数为正的部分约占88.3%,因此这一部分取绝对值的影响很小,但为了逻辑的一致性,我们依然取了绝对值),并取均值,记为该股票的“夜眠霜路”因子。 3)依据前述内容,t-intercept中,同时包含了市场层面的信息和个股中长期的基本面信息(我们暂且将二者合称为其他信息)。因此我们通过这种求相关系数的方式,将市场层面的信息与个股中长期的基本面信息剥离开。如果这一相关系数越大,就表明该股票的其他信息中,与其余所有股票的其他信息共同的部分越多(共同部分即市场信息),也就是说该股票的市场层面的信息,占其他信息的比重越大,即个股中长期的基本面信息占比就越小。因此这一因子值越大越好。 图片
从测试结果来看,上述“夜眠霜路”因子Rank IC为6.06%,Rank ICIR为3.06,多空组合年化收益率为20.20%,信息比率为2.23,选股效果较为优秀。
3.4 “花隐林间”因子
我们将上述“朝没晨雾”因子、“午蔽古木”因子、“夜眠霜路”因子等权合成,得到“花隐林间”因子。
从测试结果来看,上述“花隐林间”因子Rank IC为-9.34%,Rank ICIR高达-5.69,多空组合年化收益率为32.39%,信息比率高达4.46,选股效果非常优秀。 从十分组表现来看,各组保持严格的单调性,多头组合年化收益率23.42%,空头组合年化收益率-7.94%,整体区分能力较佳。
分年度来看,“花隐林间”因子各年份表现均较为显著,大多数年份各分组表现整体单调性较为明显。
分行业来看,“花隐林间”因子在除银行与综合金融外的全部一级行业内都表现较为出色,大多数行业内Rank IC均值超过-8%。
3.5 剥离其他风格因子影响后“花隐林间”因子仍然表现很好
从上述测试结果来看,“花隐林间”因子选股能力出色,进一步,我们测试其与其他常见风格因子的相关性,如下图所示,“花隐林间”因子与流动性、波动率因子、估值因子相关性较高,与其余因子相关性均较低。为进一步验证因子的增量信息,我们使用常用风格因子及行业因子对“花隐林间”因子进行正交化处理,得到“纯净花隐林间”因子,再检验其选股能力。
可以看到,在剔除了常用的风格因子影响后,“花隐林间”因子仍然具有很好的选股能力,Rank IC均值为-4.63%,Rank ICIR为-4.15,多空组合年化收益率16.62%,信息比率2.99。
3.6 “花隐林间”因子在不同样本空间下的表现
为了检验“花隐林间”因子在其他样本空间下的选股表现,我们分别选取了沪深300成分股、中证500成分股、中证1000成分股作为股票池,测试其选股能力。可以看到,“花隐林间”因子在沪深300、中证500、中证1000指数成分股内均表现不俗,多头组合年化超额收益分别为7.46%、9.42%和14.68%。
3.7 指数增强模型下“花隐林间”因子有效性检验
我们进一步通过指增模型来验证“花隐林间”因子在沪深300/中证500/中证1000指数增强中的效果。这里我们仅通过“花隐林间”因子对股票收益进行打分预测,严格控制市值中性、行业中性,个股权重偏离在1%以内,同时约束指数成分股权重之和大于80%。 从组合历史表现来看,“花隐林间”因子在沪深300/中证500/中证1000指数增强中均表现较好,年化超额收益分别为6.02%、9.95%、11.27%,信息比分别为1.77、1.99、1.92。
4 “花隐林间”因子与现有量价因子相关性适中
根据方正金工多因子选股系列研究,截至本篇报告已发布9个全新的量价因子,其中大多数因子均将高频信息低频化,从各因子历史表现来看,表现均较为出色。自2013年至2023年2月底,全市场月频调仓十分组测试因子绩效如下: 因大多数量价因子均与流动性及波动率等因子存在一定的相关性,我们将上述因子与传统风格因子及行业因子进行正交化,再测试其业绩表现。
从因子相关性来看,“花隐林间”因子与现有量价因子相关性适中。
进一步我们剥离常用风格因子和行业因子影响之后各因子之间平均截面相关系数如下表所示:
5 风险提示
本报告基于历史数据分析,历史规律未来可能存在失效的风险;市场可能发生超预期变化;各驱动因子受环境影响可能存在阶段性失效的风险。
\