机器学习因子：在线性因子模型中捕获非线性-德邦证券-20210917

由small_q创建，最终由small_q更新于2022-10-08 03:51 被浏览 83 用户

摘要

本文的研究表明，在因子与收益的线性关系之外，还有很强的待挖掘的非线性关系。

因子与收益之间的非线性关系可能是复杂函数，而用机器学习算法可以高效地对这种非线性关系进行建模、近似。

线性模型是具有明显含义且相对容易理解的部分。我们保留线性模型的这一优势，用机器学习模型拟合线性回归的残差。机器学习的训练数据需要进行筛选和处理。训练机器学习模型时，需要选择正确的回顾期和频率。尤其重要的是，输入的回报数据需要进行标准化处理。

由于回报数据的低信噪比，机器学习模型总是在拟合信号的同时拟合了噪音，论文通过训练多个机器学习模型，再计算模型预测的平均值，以尽可能消除噪音、提取信号。

论文计算了机器学习因子和其他风格因子之间的线性相关系数，发现其绝对值都很小，这表明了机器学习因子的非线性特征。

机器学习的软肋之一是其黑箱特征，故其作用机制难以理解。论文通过分析各个风格因子对机器学习输出的影响来推测机器学习的输出逻辑和衡量各个风格因子的非线性贡献。论文衡量了各个风格因子的特征重要性以及风格因子两两之间的交互作用。

论文把机器学习因子作为一个选股因子，单独回测其历史表现，这个因子在 1998 年至 2020 年间产生了约 500%的多空收益回报。这证明了因子的强选股能力。

论文将机器学习因子插入到风格因子当中，用多因子的方法回测这些因子历史表现。投资组合在 1998 年至 2020 年间产生了超过 80%的回报。

论文统计了所有风格因子与机器学习因子的表现，包括 t 值、回报、波动率、信息比率、R 平方、最大回撤、方差膨胀因子 VIF、月自相关系数等，多数统计量表明，机器学习因子是最强的选股因子。

论文的作者推断，机器学习因子的强大选股能力来源于很多风格因子的非线性选股效应的累积。

风险提示：海外市场波动风险，宏观数据、政策变化风险，模型失效风险