时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验
更新时间:2022-07-29 06:13
更新时间:2022-06-15 05:58
更新时间:2022-05-22 01:17
交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时 序交叉验证的比较。我们采用机器学习公共数据集以及全 A 选股数据集, 分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉 验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交 叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能 够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高 并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序 交叉验证方法。
更新时间:2022-05-05 09:17
更新时间:2022-04-21 06:21
更新时间:2022-04-11 11:00
更新时间:2022-03-31 18:20
更新时间:2022-03-09 09:08
更新时间:2021-12-14 13:18
导语:本文介绍如何对一个回测结果进行深入分析。
我们先看一个AI策略,以下是完整的策略代码。
https://bigquant.com/experimentshare/eb2f4ca3f7c0474c95341ae1202cac0f
\
更新时间:2021-12-14 13:11
\
更新时间:2021-11-30 03:40
机器学习容易给人“黑箱模型”和“过拟合”的印象,但事实上一些机器学习算法的逻辑和结果都非常直白,而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明,机器学习方法的预测能力大部分情况下都强于线性模型,很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果
机器学习模型众多,不存在所谓的最强模型,不同的数据,不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法,最终选择用随机森林,主要是因为它结构简单、参数少、过拟合概率低,同时还具有非常强的样本外预测能力
机器选股模型省去了“因子筛选”、“因子加权
更新时间:2021-11-22 07:53
更新时间:2021-11-19 10:42
更新时间:2021-11-12 11:39
更新时间:2021-09-08 03:03
自 BigQuant AI策略详解 继续讨论: @soft05jun
拟合是一种学习能力,过度拟合是机器学习方法重点在优化解决的问题之一。
关于过拟合,机器学习方法相对传统人工调参有明显的优势:
更新时间:2021-08-24 05:46
作者:James Le 编译:caoxiyang
在机器学习中,有一个叫做“世上没有免费午餐”的定理(NFL)。简而言之,我们无法找到一个放之四海而皆准的最优方案,这一点对于监督学习(即预测建模)尤为重要。例如,你不能说神经网络总是比决策树好,反之亦然。因为其中有很多因素在起作用,比如数据集的大小和结构。
因此,您应该针对您的问题尝试多种不同的算法,同时,保留一组数据,即“测试集”来评估性能并选
更新时间:2021-08-24 05:46
\
更新时间:2021-08-23 01:56
机器学习里面究竟有多少经典的算法呢?本文简要介绍一下机器学习中的常用算法。这部分介绍的重点是这些方法内涵的思想,数学与实践细节不会在这讨论。
在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即 线性回归 和 逻辑回归 。
线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是
更新时间:2021-08-18 06:37
更新时间:2021-07-30 09:11
回归、分类和排序是我们经常遇到的问题场景。本文主要介绍如何实现回归和分类两类问题的模型构建。
首先我们明确一下算法在机器学习中的地位。一般来说,机器学习有三个要素: 数据、算法和模型 。
下面我们来举两个例子,看看回归和分类问题的应用场景有什么不同。
![](/wik
更新时间:2021-07-30 08:22
更新时间:2021-07-30 07:26
更新时间:2021-07-30 06:27
当前应用于NLP领域的Transformer,结构过于庞大,并不适用于股票数据(开盘价,收盘价,最高价,最低价,等)这样的时序数据,因此,本文提出一种简化的适用于股票数据的Transformer结构,其根据时间嵌入的思想构建,能很好的应用于量化选股中。下面以一个例子来介绍用于股票数据的Transformer体系结构,以及
更新时间:2021-02-03 07:05