`

神经网络因子挖掘 (二)——1 分钟频量价因子

创建于 更新于

摘要

本报告基于TCN深度学习模型,挖掘每日1分钟频率量价数据,构建高频量价因子以提升选股能力。通过分日多模型设计,解决了日内数据间断性问题,实现了对未来5日收益的有效预测。1分钟因子与日频因子合成后提升了因子稳定性和有效性,但依然存在多空收益失衡和短期回撤风险。报告详细展示了模型设计、数据处理、因子验证及回测结果,并分析了2024年因子表现的市场动态及风险提示[page::2][page::4][page::8][page::12][page::15][page::18].

速读内容


TCN日频量价因子表现回顾及发现 [page::4][page::5][page::6]


  • 2023年四季度,TCN日频量价因子多头策略持续有效,相对万得全A获得5.9%超额收益。

- 2024年初出现明显失效,多头净值比持续下行,主要回撤集中在小市值股票的多头端。
  • 深度学习模型关注胜率多,易忽视盈亏比,导致短期较大回撤。


1分钟频率量价数据及建模挑战 [page::7][page::8][page::9]



  • 1分钟频率快照数据包含26个行情特征,包括价、量和10档买卖委托信息,数据量大幅增加至150GB。

- 为解决内存和训练速度瓶颈,采用每日分批预处理存储并采用分日多模型TCN训练。
  • 数据归一化处理兼顾价格尺度和成交量特征,捕捉日内微观变化信息。


预实验及主实验设计与结果 [page::9][page::10][page::11][page::12][page::13]





| 模型和损失函数 | Day1 | Day2 | Day3 | Day4 | Day5 | 最终预测值 |
| -------------- | -------| -------| -------| --------| --------| -----------|
| 单模型 | | | | | | 10.84% |
| 多模型Loss1 | -7.37% | 7.26% | 8.80% | -9.87% | -6.65% | 12.58% |
| 多模型Loss2 | 7.57% | 7.47% | 8.08% | 8.33% | 9.41% | 11.84% |
| 多模型Loss3 | 9.79% | 10.08% | 10.39% | 10.70% | 11.83% | 11.71% |
| 多模型Loss4 | 9.71% | 9.67% | 10.32% | 10.39% | 11.65% | 12.89% |
  • 使用过去5日日内1分钟量价数据预测未来5日收益率,分日多模型TCN优于单模型。

- 最优损失函数Loss4同时优化每日预测和加权合成预测,验证集最终RankIC达12.89%,泛化良好。
  • 2018年以来合成因子样本外RankIC均值约9.9%,2024年初因子表现回撤类似2021年。


高频因子有效性、稳定性与合成优势 [page::14][page::15][page::16]





  • 高频因子与日频因子相关性提高,合成因子整体RankIC和超额收益明显优于单一因子。

- 合成因子前5%多头组超额收益达28.41%,空头组负超额达-58.05%,但存在多空收益失衡问题。
  • 2024年因子表现反映了春节前后大幅波动,中证全指多头超额收益跌至约-20%,后反弹至-2.35%。


因子在成分股内的表现分布及多空收益分析 [page::16][page::17]







| 指数 | 2018 | 2019 | 2020 | 2021 | 2022 | 2023 | 2024YTD | 平均 |
|---------|---------|---------|---------|---------|---------|---------|---------|-----------|
| 上证50 | 11.51% | -13.85% | -17.82% | 22.92% | 22.82% | 24.38% | 6.57% | 12.29% |
| 沪深300 | 16.70% | -6.33% | 0.89% | 13.15% | 19.29% | 18.66% | 5.75% | 13.88% |
| 中证1000 | 27.33% | 19.80% | 21.82% | 4.40% | 26.03% | 9.39% | 3.94% | 21.12% |
| 国证2000 | 29.57% | 23.77% | 18.77% | 9.23% | 30.88% | 9.20% | 4.76% | 23.14% |
| 中证全指 | 25.79% | 15.61% | 11.46% | 26.30% | 33.69% | 21.45% | -2.35% | 24.84% |
  • 合成因子在小市值指数(中证1000、国证2000)表现尤为突出,平均多头超额收益均超20%。

- 2024年春节后该因子多头收益经历明显大跌反弹,表现波动较大且表现再次触及低点。
  • 空头端预测能力强,多空组合收益稳定性高,小市值成分股多空收益显著优于大市值。


结论与风险提示 [page::18][page::19]

  • 深度学习神经网络挖掘的日频及1分钟频率量价因子均有一定选股能力,但短期因回撤风险需警惕。

- 分日多模型TCN设计解决了日内数据间断性问题,核心模型及损失函数的选择显著提升预测效果。
  • 高频因子与日频因子信息互补,合成因子提升了因子表现稳定性及选股超额收益,但多空收益失衡依然存在。

- 风险提示包括模型随机性、历史数据规律失效风险以及实际交易滑点和成本风险。[page::18][page::19]

深度阅读

金融工程深度报告分析 — 神经网络因子挖掘(二)——1分钟频率量价因子



---

一、元数据与报告概览


  • 报告标题: 神经网络因子挖掘(二)——1分钟频率量价因子

- 发布机构: 长江证券股份有限公司
  • 发布日期: 2024年3月12日

- 分析师: 郑起、韩轶超(具有SAC及SFC执业资格)
  • 研究主题: 运用时间卷积神经网络(TCN)处理股票1分钟频率的量价数据,挖掘日内量价变化因子,辅助选股策略构建,旨在提供比传统日频因子更多的选股信息和提升选股能力。


核心论点与结论:
本报告基于前期《神经网络因子挖掘——TCN日频量价因子》的延伸,尝试用深度学习TCN模型对1分钟频率量价数据进行处理,挖掘更多日内量价信息以提升因子稳定性和选股有效性。实验采用分日多模型TCN架构,通过分别学习每日1分钟数据后组合因子。结果显示,1分钟频率因子与日频因子合成后,稳定性和有效性均得以提升,但仍存在量价深度学习因子普遍的“多空收益失衡”及“短期回撤严重”问题。2024年以来,合成因子经历大跌后反弹的市场波动特征。报告重点警示了深度学习模型关注胜率而忽视盈亏比的潜在风险。

---

二、逐节深度解读



1. 报告要点与研究背景



报告启动于前期研究基础,观察到2023年四季度TCN日频量价因子有效性良好,但进入2024年1月后多头策略表现出现明显回撤,尤其小市值股票多头端受损严重。原因推测深度学习模型更关注样本的“预测胜率”而忽视“盈亏比”,导致短期内潜在的较大回撤风险。

针对这些问题,研究者意图利用1分钟频率的快照量价数据,结合TCN深度学习模型,挖掘更丰富的日内选股信息,从而弥补日频因子的不足。该策略数据处理难度大,训练速度慢,采用牺牲内存换取训练速度的方案,并使用分日多模型TCN解决数据间断问题,取得较好模型表现。

2. TCN日频量价因子回顾


  • 挖掘方法: 通过TCN深度学习模型,使用过去63日的日频量价数据预测未来20日收益率,组合64个量价因子形成日频信号。

- 历史表现: 2018年至2023年9月底,回测样本外表现优异,特别在2023年四季度取得约5.9%的超额收益。
  • 最新状况: 2024年初开始多头策略相对万得全A指数净值比例下行,且超额回撤迅速放大,显示因子短期失效。

- 图表支撑: 图1和图2详细展示策略净值走势及超额回撤情况,显示策略在全年趋势性牛市(2018-2021年)中表现稳健,出现阶段性回撤主要与结构性市场调整相关。

3. 深度学习模型的高胜率低盈亏比特征


  • 深度学习模型的损失函数主要优化预测胜率(均方误差、相关系数),却忽视单次回撤的幅度和盈亏比例,导致收益曲线虽表现出较高胜率,但极端市场情形下容易出现大幅亏损。

- 小市值股票错误定价更为常见,深度学习模型对其偏好显著,增大了策略风险。
  • 多空收益分析显示,2024年回撤主要集中在全A中多头端,空头端策略有效,指向多头仓位的安全边际不足。


4. 1分钟频率量价数据与因子挖掘


  • 数据特点: 1分钟数据包括26个特征,其中有6个传统日频价格量价字段,以及20个买卖档位的委托量价信息,提供更精细的价格和订单簿快照。

- 数据量大: 2004年末至2024年初,所有股票1分钟数据存储约150GB,相比之下同周期日频数据仅约2.5GB。
  • 技术挑战: 数据读取、模型训练速度、内存占用高。特别是批量训练对内存需求极高,故采用分日批量生成并存储pickle序列数据解决内存瓶颈。


5. 模型设计与架构创新


  • 单模型TCN:增加残差模块深度,使最大回看时长满足1200分钟,可完成5日数据的学习;

- 分日多模型TCN(创新点):每日1分钟数据单独训练TCN,后续输出合成,该结构克服数据间断性带来的学习障碍,提高模型泛化和预测能力。
  • 训练目标设定:

- 预实验:用当天240个1分钟数据预测次日收益率,表现稳健(平均测试集RankIC 6.41%)。
- 主实验:用5天1分钟数据预测未来5天收益率,采用分日多模型TCN,使用组合预测值与单日因子结合的复合损失函数(Loss4),显著提升预测效果(验证集最高RankIC近13%)。
  • 损失函数设计及效果:

- Loss4兼顾分日因子和合成因子的预测效果,取得最佳结果,表明同时优化分日输出及其组合更加有利于模型学习。

6. 因子表现与复合模型优势


  • 因子稳定性: 合成因子(1分钟频因子与日频因子等权合成)稳定有效,常表现超越单一频因子。

- 相关性趋势: 自2018年以来,1分钟频因子与日频因子的相关性呈上升趋势,但在市场极端环境(如2024年初)存在明显背离。
  • 因子收益说明: 合成因子多头前5%超额收益28.41%,空头5%负超额收益达-58.05%,但多空收益明显不平衡。

- 按年份和指数表现: 合成因子2018-2023年表现稳定,2024年以来分钟因子相对疲软,合成因子仍保持11.19%的RankIC。
  • 成分股多空收益分析表明,长期来看合成因子在小市值指数(中证1000、国证2000)内效果更好,2024年以来市场结构有所变化,大盘蓝筹如上证50、沪深300表现反而较优。


7. 风险因素


  • 深度学习模型训练存在随机性,预测结果波动较大,可能对策略稳定性造成影响。

- 市场规律具有时变性,模型基于历史数据的统计规律存在失效风险。
  • 回测结果理想化,实际策略交易中滑点、交易成本、市场冲击等因素不可忽视。


---

三、图表深度解读



图1 & 图2:TCN日频因子净值走势


  • 多头策略净值逐月攀升于2023年四季度达峰值,显示因子有效性强。2024年初多头净值比崩盘明显,超额回撤扩大,预示回撤主要由多头持仓带来回吐。

- 历史比较显示,因子策略在2020年疫情后反弹及2021年初表现较强,反映模型对市场环境适应性一般,但极端市场条件冲击较大。

图3 & 图4:成分股内多空收益表现


  • 多空收益在小市值指数(中证1000、国证2000)更高,长期表现良好但2024年初小市值指数多头收益回撤明显,因子表现分化。

- 分域分析指出维持多头超额的指数中大盘权重指数维持正收益,说明因子小市值偏好大概率引发近期回撤。

图5:1分钟频率量价数据示例


  • 展示了包含价格、买卖档位价、委托量等多维特征的数据结构,展示特征丰富性及其复杂度,为后续深度学习模型输入提供支撑。


图6 & 图7:5日收盘价与卖五量时间序列走势


  • 收盘价序列波动细节突显,量价信息实时性高,卖五量大幅波动体现市场活跃度和订单簿动态,说明数据处理及归一化方法合理,能反映实际市场状态。


图8:预实验TCN模型结构示意


  • TCN采用残差结构,膨胀卷积结合多层堆叠实现长序列捕获,输出序列映射到未来收益预估,体现深度学习因子挖掘原理。


图9:分日多模型TCN结构图


  • 图清晰展示五个独立TCN模型各自处理单日量价数据,最终以全连接层进行融合,解决跨日数据间断问题,实验数据显示显著优于单模型方案。


表1:滚动训练 RankIC表现


  • 2018-2024年滚动训练验证集和测试集RankIC均维持在4%-9%区间,表现稳定。2024年测试集RankIC下降至2.78%,直观反映当前年度行情对模型造成的压力和挑战。


表2:不同损失函数及模型表现对比


  • 多模型-Loss4组合效果最佳,最终预测RankIC达12.89%,验证了同时优化日内单日输出与组合输出的效果优于其他单一策略。


表3&4:未来5日与未来1日收益率预测因子有效性


  • 因子RankIC分日呈现小幅递减趋势,说明靠近T日的数据稳定性和预测能力尚未明显优于前几日,但等权合成因子在两个时间尺度均表现出较好的样本外有效性。


图10:三类因子RankIC及相关性趋势


  • 合成因子RankIC稳步优于单独因子,2024年极端市场条件下单频因子相关性降至29.07%,表明频率信息互补价值依然显著。


图11:分组超额收益


  • 多头和空头超额收益存在较大正负偏斜,凸显模型在构建策略时寿命较短、回撤较大及多空不平衡的显著弊端。


图12-16:分年及成分股内多头及多空收益表现


  • 2018至2023年合成因子表现尤为突出,小市值指数多头超额收益高达20%以上,但2024年春节后呈先跌后涨持续震荡态势。

- 多空收益显示空头端选股能力高于多头,重申深度学习模型多空收益失衡风险。大盘指数表现优于小盘,反映短期市场情绪与结构性差异。

---

四、估值分析



本报告为因子挖掘与策略构建深度研究报告,故未包含传统证券估值方法(如DCF、P/E等)。主要使用因子RankIC、超额收益率分组及滚动验证作为因子有效性的度量指标与投资价值判断。

---

五、风险因素评估


  • 模型随机性风险:深度学习模型训练过程具有随机分割数据及dropout,可能引发预测波动。

-
历史数据失效风险:模型拟合的是历史市场规律,市场环境变化可能导致模型失效。
  • 交易现实风险:回测理想化,实际交易中滑点、交易成本及流动性问题可能减损策略收益。


报告虽未提出具体缓解策略,但提示对策略实时监控和及时调整尤为关键。

---

六、审慎视角与潜在不足


  • 多空收益失衡及盈亏比忽视问题:虽然报告最大限度揭示深度学习因子潜在回撤问题,但缺乏针对该缺陷的明确解决方案,如盈亏平衡训练目标设计或风险控制机制。

-
模型复杂度及数据处理门槛:大量数据存储和计算资源要求高,技术壁垒较大,策略适用性受限于资源配置。
  • 市场条件变异敏感性:2024年异常市场情况对因子表现影响显著,反映模型对极端行情适应不足。

-
缺乏多频率因子动态协同研究:虽利用合成因子提升稳定性,但对因子间动态权重调整方案探究不足。

---

七、结论性综合



本报告深入探讨了采用TCN神经网络模型对1分钟频率量价数据进行因子挖掘的可行性与效果,重点解决了1分钟原始数据庞大、计算密集和时间序列间断带来的挑战。通过对比和结合了传统日频因子,最终提出了分日多模型TCN加权合成因子,实验证明合成因子显著优于单一频率因子。

实证数据显示,合成因子2018年至今表现稳健,在沪深主要指数成分股中获得可观的超额收益,特别在小市值股票中效果显著。但2024年春节后,该因子表现出现先跌后反弹的剧烈波动,反映深度学习因子面临市场极端情绪时波动性风险突出。此外,因子仍存在多空收益结构不平衡和短期回撤较大的“通病”,主要源于模型关注胜率、忽视盈亏比的设计缺陷。

图表数据清晰展示了因子净值演化、RankIC趋势、超额收益分布、多空收益动态及频率因子之间的相关性与互补性,为投资者和研究者提供了详实且具启发性的解析视角。总结来看,该深度学习因子虽具备较强选股能力和潜在投资价值,但在实际应用中需对模型风险管理和市场环境适应性保持高度警惕。

---

参考溯源



报告核心内容均来源于长江证券《神经网络因子挖掘(二)——1分钟频率量价因子》全篇,[page::1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]

---

以上分析详尽梳理了报告的每一章节内容、数据、图表及模型设计,聚焦金融工程与深度学习在量价因子挖掘的创新应用,兼顾实证表现和风险提示,为投资决策提供坚实的研究基础。

报告