过拟合

在金融领域,"过拟合"是一个重要概念,尤其在使用复杂模型和算法进行数据分析和预测时。过拟合主要指的是模型在训练数据上表现过于优越,以至于把训练数据中的噪声或特殊情况也考虑进去,从而使得模型在新的、未见过的数据上表现不佳。 更具体地说,当一个模型过度拟合训练数据时,它会将自身调整得过于复杂,以适应训练数据中的每一个细节。这导致模型对训练数据的预测非常准确,但对新数据的预测能力大大降低。在金融市场的应用中,这可能意味着模型在历史数据上表现良好,但在实际交易中却无法实现预期的回报。 过拟合的原因有很多,例如训练数据量不足、模型复杂度过高、训练时间过长等。为了防止过拟合,金融从业人员通常会采用一系列策略,如交叉验证、使用正则化方法、提前停止训练、增加训练数据量、降低模型复杂度等。这些方法的目标都是使模型能够在不见过的数据上保持稳健的预测性能,从而在实际金融决策中提供可靠的依据。

华泰人工智能系列之十四:对抗过拟合,从时序交叉验证谈起 华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间:2022-07-29 06:13

https://bigquant.com/community/t/topic/164619新闻文本情感文章里的策略报错

https://bigquant.com/experimentshare/5f74d02dff0e45d595f7494edb417019

\

更新时间:2022-06-15 05:58

高质量AI量化策略

https://bigquant.com/experimentshare/dd9cff01459a41f9be40d7e660164795

\

更新时间:2022-05-22 01:17

【研报分享】华泰证券——对抗过拟合:从时序交叉验证谈起

报告摘要

时序交叉验证方法适用于时间序列数据,能够有效防止过拟合

交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时 序交叉验证的比较。我们采用机器学习公共数据集以及全 A 选股数据集, 分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉 验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交 叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能 够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高 并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序 交叉验证方法。

传统交叉验证用于时序数据可

更新时间:2022-05-05 09:17

xgboost自定义目标和评估函数

https://bigquant.com/experimentshare/648ff204e53d44059c2d726e9219cfa3

\

更新时间:2022-04-21 06:21

文档整合


AI量化策略快速理解

https://bigquant.com/wiki/doc/celve-Uu3N6WbJNJ

更新时间:2022-04-11 11:00

xgboost自定义目标和评估函数

https://bigquant.com/experimentshare/85eb463354e54a9695eddc0c570040e6

\

更新时间:2022-03-31 18:20

策略回测正常,模拟不正常

https://bigquant.com/experimentshare/fd3d5958d8d840e3b8897aaa971443d1

\

更新时间:2022-03-09 09:08

因子过滤

https://bigquant.com/experimentshare/b6bb3c84df0c4da5bb0b495bc52feb06

\

更新时间:2021-12-14 13:18

回测数据深入分析(代码)

导语:本文介绍如何对一个回测结果进行深入分析。

策略案例

我们先看一个AI策略,以下是完整的策略代码。

https://bigquant.com/experimentshare/eb2f4ca3f7c0474c95341ae1202cac0f

\

更新时间:2021-12-14 13:11

超参搜索状态保存

test h1

test h2

test h3

test h1


\

更新时间:2021-11-30 03:40

《因子选股系列研究之十五》:东方机器选股模型Ver1.0-东方证券-20161107

机器学习容易给人“黑箱模型”和“过拟合”的印象,但事实上一些机器学习算法的逻辑和结果都非常直白,而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明,机器学习方法的预测能力大部分情况下都强于线性模型,很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果

机器学习模型众多,不存在所谓的最强模型,不同的数据,不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法,最终选择用随机森林,主要是因为它结构简单、参数少、过拟合概率低,同时还具有非常强的样本外预测能力

机器选股模型省去了“因子筛选”、“因子加权

更新时间:2021-11-22 07:53

回归模型评估

https://bigquant.com/experimentshare/2173eaeebea6424eba623aaf2a7f3ba5

\

更新时间:2021-11-19 10:42

CTA程序化交易实务研究之六:基于机器学习的订单簿高频交易策略-民生-131211

/wiki/static/upload/7e/7e6629bc-ac8d-42ad-85a0-c74ecff7229b.pdf

\

更新时间:2021-11-12 11:39

神经网络交易算法

策略案例

https://bigquant.com/experimentshare/723e10568f294571924b89f3953ce20b

\

更新时间:2021-09-08 03:03

关于过拟合:机器学习方法 vs. 传统人工方法

BigQuant AI策略详解 继续讨论: @soft05jun

拟合是一种学习能力,过度拟合是机器学习方法重点在优化解决的问题之一。

关于过拟合,机器学习方法相对传统人工调参有明显的优势:

  1. 让过拟合可衡量:if you cannot measure it, you cannot improve it
    • 机器学习中,我们一般会将数据划分训练集和测试集,通过对比训练集和测试集上的效果差异,我们

更新时间:2021-08-24 05:46

机器学习新手十大算法之旅

作者:James Le 编译:caoxiyang


在机器学习中,有一个叫做“世上没有免费午餐”的定理(NFL)。简而言之,我们无法找到一个放之四海而皆准的最优方案,这一点对于监督学习(即预测建模)尤为重要。例如,你不能说神经网络总是比决策树好,反之亦然。因为其中有很多因素在起作用,比如数据集的大小和结构。

因此,您应该针对您的问题尝试多种不同的算法,同时,保留一组数据,即“测试集”来评估性能并选

更新时间:2021-08-24 05:46

深度学习为什么回测时间改变之后收益率不一样

\

更新时间:2021-08-23 01:56

机器学习常见算法

导语

机器学习里面究竟有多少经典的算法呢?本文简要介绍一下机器学习中的常用算法。这部分介绍的重点是这些方法内涵的思想,数学与实践细节不会在这讨论。

回归算法

在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即 线性回归逻辑回归

线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是

更新时间:2021-08-18 06:37

lightGBM_AI选股

https://bigquant.com/experimentshare/2fbb2629dcb0450bbf72e224835b4957

\

更新时间:2021-07-30 09:11

回归、分类模型构建

导语

回归、分类和排序是我们经常遇到的问题场景。本文主要介绍如何实现回归和分类两类问题的模型构建。

首先我们明确一下算法在机器学习中的地位。一般来说,机器学习有三个要素: 数据、算法和模型

  • 数据 是场景的描述,包括输入和输出。
  • 算法 是得到模型的过程,狭义上说,特指机器学习算法,如传统线性回归、树和支持向量机以及深度学习; 广义上说,从输入数据到最终确定模型输出的所有过程,即建模流程都可以看作算法,如分类、回归模型,搜索最优参数算法。

下面我们来举两个例子,看看回归和分类问题的应用场景有什么不同。

回归模型

![](/wik

更新时间:2021-07-30 08:22

用支持向量机-回归算法实现A股股票选股

策略案例


https://bigquant.com/experimentshare/587dfa30731644aeac4499c052f9a686

\

更新时间:2021-07-30 07:26

分类模型评估

https://bigquant.com/experimentshare/769a812d8a474463a9067d10d62917c0

\

更新时间:2021-07-30 06:27

Transformer在量化选股中的应用

一、基于时间嵌入的方法

原文链接:https://towardsdatascience.com/stock-predictions-with-state-of-the-art-transformer-and-time-embeddings-3a4485237de6

当前应用于NLP领域的Transformer,结构过于庞大,并不适用于股票数据(开盘价,收盘价,最高价,最低价,等)这样的时序数据,因此,本文提出一种简化的适用于股票数据的Transformer结构,其根据时间嵌入的思想构建,能很好的应用于量化选股中。下面以一个例子来介绍用于股票数据的Transformer体系结构,以及

更新时间:2021-02-03 07:05

分页第1页第2页第3页第4页
{link}