构建多因子策略的细节探讨-民生证券-20200301
由qxiao创建,最终由qxiao 被浏览 186 用户
摘要
原始数据处理
原始数据的选取是多因子模型的基础,只有高质量的数据才能保证后续研究的准确。研究中遇到的数据问题主要有财务数据的滞后性与真实性问题,资产重组导致前后数据不可比问题,行业划分覆盖不全面等问题。对比数据在可比性与时效性上的不同侧重,使用最新的数据进行回测能得到更好的结果;考虑上市公司在借壳上市之前与之后的数据均含有较多的噪声,我们需要同时处理借壳公司与被借壳公司。
股票池构造
多因子选股的第一步是选择合适的股票池,而股票池的选取需要根据策略的需求进行相应的调整。类比全样本股票池,我们根据股票的流动性大小构造流动性1500股票池进行替代。
异常值与缺失值处理
数据预处理的好坏很大程度上决定了模型分析结果的可靠与否。异常值的存在很有可能改变回归方程的拟合结果,据此得到的结果不合理。因此,使用正确的数据对于金融建模而言是最低限度的要求。由于缺失值处理与数据标准化在方法上都使用了截面均值,异常值的处理会影响到后续缺失值的填充以及数据标准化,在处理顺序上应先进行异常值处理。
因子标准化
经过异常值处理和缺失值处理后,大部分因子仍然呈现偏态或尖峰厚尾的非正态的分布,故需要在此基础上进一步做标准化处理。
目前业内采用的标准化方法有两种,z-score标准化与排名标准化。其中z-score标准化是将数据标准化为标准正态分布,一定程度的保留了因子截面信息,但是容易受到极端值的影响。排名标准化将数据标准化成均匀分布,完全忽略了因子截面的距离信息,但是可以避免极端值的影响。
单因子检验多因子模型的核心是研究个股收益率均值在截面上的差异。评价一个因子的好坏也就是在评价因子是否能使得个股在截面上的预期收益率区分度高。学术界与投资界经常使用的方法有多空组合法与回归法。二者本质上都是在测试因子对收益率的预测能力。
风险提示:报告结果均基于模型和历史数据,模型存在失效的风险,历史数据存在不被重复验证的可能。
正文
/wiki/static/upload/8f/8f58bf8f-b317-4c8d-97d1-2c28ba169121.pdf
\