机器学习在量化投资中的趋势和应用

由ftkj2018创建，最终由small_q更新于2024-12-11 08:16 被浏览 240 用户

来源：SSRN 作者：Sophie Emerson, Ruairi Kennedy, Luke O’Shea, and John O’Brien

机器学习是人工智能的一个子领域，它使用统计技术为计算机模型提供从数据集学习的能力，允许模型在没有显示编程的情况下执行特定任务。近年来，机器学习技术激增，人们对其在金融领域的应用也越来越感兴趣。在投资管理中，已被应用于新闻的情绪分析、趋势分析、投资组合优化、风险建模等。那么，机器学习在量化投资中有哪些潜在应用呢？

1.常见的机器学习算法

机器学习算法主要有三种：监督学习、无监督学习和强化学习。监督学习是在已知输入和输出的情况下训练出一个模型，将输入映射到输出。无监督学习是使用无标记的数据，从中发现隐藏的模式信息。强化学习是使算法根据过去经验的反馈，通过试错进行学习。强化学习与无监督学习一样，不需要标记数据。半监督学习，则结合了监督学习和无监督学习，使用了有标记的数据和无标记的数据来训练模型，这在数据有限或使用有标记数据的过程中可能有偏差的情况下非常有益处。

监督学习的主要研究领域是回归和分类，这种方法通常应用于开发预测模型。回归技术使用线性回归、决策树和人工神经网络（ANN）之类的算法来预测连续响应；分类技术则使用逻辑回归、支持向量机（SVM）或K-最近邻（KNN）等算法来预测离散响应。无监督学习的主要研究领域是聚类，聚类是按照给定的相似性将数据分组，使得同组数据彼此相似，而不同组数据不相似。

人工神经网络（ANN）已成为机器学习发展的关键技术。首次提出还是在七十多年前，灵感来自于人类大脑的运作。它们是在神经元层面复制生物大脑过程的算法集合。

人工神经网络有很多种，包括卷积神经网络（CNN）、循环神经网络（RNN）和递归神经网络等。卷积神经网络（CNN）是图像分类和视频处理的理想选择，因为它们能通过聚焦图像片段来识别模式。循环神经网络（RNN）则更适合处理语音或文本分析之类的，因为它们使用时间序列信息，例如利用每月股票价格数据来预测下个月的数据。生成式对抗网络（GAN）自2014年首次推出以来，引起了人们极大的兴趣。生成式对抗网络（GAN）由两个相互竞争的神经网络组成，一个神经网络生成与训练数据集相似的数据，另一个神经网络则判别数据是来自训练数据集还是生成网络。

除了神经网络外，还有其他人工智能算法，包括SVM、KNN。其中，SVM用于分类和回归分析，寻找n纬空间中距离超平面最近的一组数据点。贝叶斯网络是根据概率分布构建的，使用概率法则进行预测和异常检测。KNN则选择训练数据集中最近的数据点，算法以相同的方式对未来的数据输入进行分类。重要的是，评估算法的有效性，可帮助你在未来的应用和研究中选择合适的算法。

2.量化投资的演变 1929年华尔街崩盘后，Graham and Dodd 著作的《证券分析》（Security Analysis）于1934年出版，是关于基本面投资的开创性著作，至今仍在出版。它是最早将投资与投机进行区分的书籍，提倡使用系统的证券分析框架来选股。

1952年出版的《投资组合选择》（Portfolio Selection），提出了投资组合构建和风险分析的系统方法。书中，Markowitz将风险的定义为收益的标准差。该方法侧重于通过优化风险和回报之间的权衡来最大化投资组合收益，这是现代投资组合理论的基础，为投资组合的构建和分析提供了框架。

随着计算机技术的进步，收集和分析大量市场数据成为可能，市场分析的量化方法也越来越受欢迎。这使得市场模型的开发和验证达到了前所未有的规模，对理解金融市场做出了重大贡献，包括资本资产定价模型（CAPM）和有效市场假说（EMH）。

1973年，Fama 和 MacBeth 利用证券价格研究中心（CRSP）的金融数据集（首批此类数据集）对CAPM进行了实证分析。分析表明，CAPM在为市场数据的实证横截面分析设定标准的同时，为证券价格的行为提供了一个很好的定量近似值。

从Markowitz投资组合优化到CAPM、EMH和因子模型，量化投资者已表明他们愿意接受新的技术和策略。将机器学习技术应用于金融的关键点是，机器学习方法捕捉了数据中的非线性关系。在输出与输入不成正比的情况下，需要使用非线性方法对数据进行建模，许多传统的分析方法假设线性关系，或可以简化为线性模型的非线性模型。典型的非线性机器学习方法包括KNN和ANN。

机器学习已应用于量化投资的多个领域，包括投资组合优化、因子投资、债券风险可预测性、衍生品定价、对冲和拟合以及回测，都取得了很好的成果。

3.常见的机器学习案例和算法（学术文献在文末）

表1展示了学术报告中重复出现的主题，出现次数最多的是：回报预测、投资组合构建、风险建模。

{w:100}

表2展示了在这三个主题下不同机器学习算法出现的频率。

{w:100}

（1）投资组合构建投资组合构建是结合回报预测和风险模型，在给定投资者约束条件的情况下创建最优投资组合的过程。各种ANN方法被应用于投资组合优化，通常优于传统的优化技术。在投资组合构建的背景下，深度学习在这次搜索中多次出现。深度学习是指由非线性信息处理的多个层或阶段组成的模型（例如，具有许多隐藏层的神经网络）。使用层次聚类和强化学习来改进投资组合多样化。多篇论文还讨论了应用马尔可夫（Markov）模型预测股票表现的方法。马尔可夫模型是一种对随时间随机变化的变量进行建模的机器学习方法。全球市场的复杂性使得使用这种模式成为一种可行的选择。

（2）回报预测回报预测，即预测资产或资产类别的投资回报，是投资管理的核心，在文献中占有重要地位。测试了许多类型的ANN预测收益的能力。深度神经网络、CNN、LSTM都被应用于收益预测。第一种，新的机器学习技术被应用于改进传统输入预测（如基本会计数据或技术指标）。第二种，使用机器学习从可选数据中提取新的输入，例如从新闻数据中提取情感。最后，作者在市场层面而不是在单个证券层面预测动态，例如使用机器学习来识别。

（3）风险建模在风险的大标题下确定了三个不同的主题。第一个主题尝试使用机器学习来改进均值方差框架中使用的传统风险度量。第二个主题是寻找有违约或破产风险的公司，自然语言处理等技术用于识别表示较高风险的词语。最后一个主题则是使用机器学习来开发对冲策略，一些作者着眼于确定哪种机器学习方法的选择最适合风险建模问题。

随着新工具和技术的出现，各种机器学习方法已广泛应用于量化投资领域，最流行的方法是MLP，其次是SVM和LSTM。机器学习已应用于回报预测、投资组合构建和风险建模等领域。这些机器学习方法利用传统的金融数据，以及新类型的替代数据。大数据正在提供需要分析的新数据，而机器学习技术能够对复杂（非线性）关系建模并分析新数据。

值得注意的是，传统对冲基金雇佣越来越多的STEM毕业生担任投资组合构建职位，因为他们具备复杂分析和计算机建模所需的数学技能。所以，对机器学习的认知，以及构建复杂模型所需的语言和框架，对量化投资来说都是有利的。

案例分析引用的文献：

{w:100}

机器学习量化策略

DeepAlpha短周期因子研究系列之：DNN在量化选股中的应用

DeepAlpha短周期因子系列研究之：StockRanker在量化选股中的应用

DeepAlpha短周期因子研究系列之：随机森林在量化选股中的应用

DeepAlpha短周期因子系列研究之：XGBoost 在量化选股中的应用

DeepAlpha短周期因子系列研究之：CNN在量化选股中的应用

DeepAlpha短周期因子系列研究之：TabNet在量化选股中的应用

DeepAlpha短周期因子研究系列之：LSTM在量化选股中的应用

机器学习在量化投资中的趋势和应用

机器学习量化策略

标签