`

【专题报告】DecompGRNv1:基于线性RNN的端到端模型初探

创建于 更新于

摘要

本报告提出基于线性RNN的DecompGRN模型,通过将股票截面信息直接融合入RNN的门控机制,实现模型逻辑与参数量简化并提升性能。模型在多宽基指数数据集上表现优于基线GRU,10日RankIC及RankICIR指标均领先,TOP组年化收益显著提升;构建的指数组合在千三交易成本约束下实现超额收益达10%以上,验证了该端到端量价因子挖掘模型的有效性和实用性 [page::0][page::1][page::6][page::7][page::8]

速读内容


线性RNN模型基础与改造思路 [page::1][page::2]


  • 线性RNN通过去除非线性激活,减少参数量约50%

- 门控机制保留遗忘门和输出门,参数矩阵采用Sigmoid和SiLU激活函数
  • 线性RNN结合GLU模块后,性能提升明显

- 构建端到端模型框架,输入多只股票日频量价时序,实现统一预测

模型测试指标与性能表现对比 [page::3][page::4][page::5]



| 股票池 | 模型 | 年化收益率(%) | 夏普比率 | 最大回撤(%) | 超额年化(%) | 平均换手率 |
|----------|------------|--------------|----------|------------|------------|------------|
| 中证全指 | GRU | 49.66 | 1.61 | 34 | 49.12 | 0.80 |
| 中证全指 | RNN-LIN-GLU| 48.73 | 1.60 | -35.33 | 48.19 | 0.81 |
| 沪深300 | GRU | 31.31 | 1.43 | -22.42 | 31.39 | 0.65 |
| 沪深300 | RNN-LIN | 28.59 | 1.38 | -22.09 | 28.67 | 0.66 |
  • GRU模型性能整体优于基础线性RNN,但线性RNN结合GLU后差距缩小

- 模型参数量比较:线性RNN约为GRU的50%
  • 训练效率上,线性RNN显著高于GRU(序列长度50时效率约提升2倍)[page::5]


DecompGRN模型创新机制与性能提升 [page::6][page::7]



| 股票池 | 指标 | GRU | DecompGRN |
|----------|------------|--------|------------|
| 中证全指 | RankIC | 0.133 | 0.141 |
| 中证全指 | RankICIR | 1.15 | 1.26 |
| 沪深300 | RankIC | 0.096 | 0.099 |
| 沪深300 | RankICIR | 0.63 | 0.65 |

| 股票池 | 模型 | 年化收益率(%) | 夏普比率 | 最大回撤(%) | 超额年化(%) | 平均换手率 |
|----------|---------|--------------|----------|------------|------------|------------|
| 中证全指 | GRU | 52.4 | 1.68 | -33.09 | 50.91 | 0.80 |
| 中证全指 | DecompGRN| 57.68 | 1.11 | -34.69 | 56.18 | 0.79 |
| 沪深300 | GRU | 32.33 | 1.49 | -18.86 | 31.63 | 0.65 |
| 中证1000 | DecompGRN| 40.35 | 1.37 | -35.51 | 40.03 | 0.74 |
  • 通过将截面信息融入线性RNN门控,DecompGRN模型在指标和收益上超越GRU基线

- 参数规模仅为GRU的43%,同时训练效率更优
  • TOP组多头策略表现明显提升,年化超额收益在多指数池均超过10%[page::7]


指数增强组合回测表现 [page::8][page::9]






| 基准 | 超额收益(%) | 2019 | 2020 | 2021 | 2022 | 2023 | 2024 | 2025-08 |
|----------|------------|-------|-------|-------|-------|-------|-------|---------|
| 沪深300 | 10.24 | 8.58 | 8.50 | 13.57 | 13.76 | 6.90 | 10.16 | 3.93 |
| 中证500 | 10.05 | 9.64 | 10.32 | 14.55 | 14.85 | 6.87 | 1.55 | 6.72 |
| 中证1000 | 19.58 | 22.74 | 21.14 | 16.63 | 18.69 | 14.00 | 12.78 | 18.26 |
  • 指增方案在千三交易成本和换手率约束下,保持稳定优异超额收益

- 2025年累计收益显著,实现长期稳健增强组合构建目标[page::9]

风险提示

  • 策略基于历史回测,存在过拟合及深度学习模型不确定性风险

- 模型实现细节与文献存在差异,需谨慎论证与验证[page::9]

深度阅读

【专题报告】DecompGRNv1:基于线性RNN的端到端模型初探 深度分析报告



---

1. 元数据与概览(引言与报告概览)


  • 标题:《DecompGRNv1:基于线性RNN的端到端模型初探》

- 作者/发布机构:原创 华创金工,华创证券研究所
  • 发布时间:2025年9月11日16:18,上海

- 主题:基于线性RNN(循环神经网络)深度学习模型在金融量价因子挖掘任务中的研究与应用,聚焦于端到端时序-截面特征融合模型DecompGRN的构建及其对标经典的GRU模型表现。
  • 核心论点与目标

- 近期LLM模型处理长序列引发算力挑战,线性RNN模型因其高效线性推理速度重获关注。
- 作者从线性RNN模型出发,探索其在量价因子挖掘中的表现,提出结合截面信息的创新DecompGRN模型。
- DecompGRN模型在参数量大幅压缩(仅为GRU的43%)的同时,实现了性能超越传统GRU基线的效果。
- 实验覆盖多个主要股票指数,结果显示DecompGRN在10日 RankIC、RankICIR及年化收益率等多项指标上领先基线模型。
- 最终,基于DecompGRN构建的指增组合在沪深300、中证500、中证1000等股票池内显示显著超额收益及良好风险调整表现。

---

2. 逐节深度解读



2.1 摘要与研究背景


  • 关键信息

- LLM等大模型计算负担大,促使研究回归线性推理效率更优的模型如线性RNN和SSM。
- 作者基于简化的线性RNN模型进行研究,确认即使参数量锐减,仍可与GRU表现相当。
- 设计DecompGRN,创新在于将股票之间截面信息直接整合入RNN门控结构,实现模型结构与参数的双简化,并提升性能。
  • 逻辑支撑

- 线性RNN移除了传统RNN中的非线性激活,实现训练并行和计算效率的提升。(详见第1页中线性RNN的定义与理论探讨)
- 股票截面信息的引入帮助模型利用了股票间的相对特征,提高时序信号建模的准确性和泛化能力。
  • 核心数据点

- 在150日时序数据集上,DecompGRN模型的10日RankIC在中证全指、沪深300、中证500、中证1000分别为0.141、0.099、0.098、0.127,高于传统GRU。
- TOP组年化收益率在中证全指达到57.68%,且在沪深300/中证500/中证1000分别比基线多5.28%/-0.64%/+0.73%/+1.88%。
- 指数增强组合表现优异,年化超额收益高达10%及以上,截至2025年8月的累计超额收益分别为3.93%、6.72%、18.26%[page::0][page::6][page::7][page::9]。

2.2 模型背景和基础介绍


  • RNN与线性RNN背景

- 传统RNN的非线性激活函数(如tanh、sigmoid)被认定为保障模型图灵完备性的关键。
- 新的研究(Orvieto等2023)挑战传统观点,提出移除非线性激活可以带来训练并行化且性能无损的优势[page::1]。
  • 基础模型RNN-LIN

- 该模型使用合并后的遗忘门和输出门,遗忘门和输出门均使用sigmoid激活(取值0-1之间)。
- 时序信息通过线性且门控机制控制的隐藏状态迭代,无激活函数保证了计算的线性特性。
- 数学表达简洁体现:

\[
ht = ft \otimes h{t-1} + (1 - ft) \otimes ct,\quad yt = ot \otimes ht
\]

其中
\[
ft = \sigma(xt Wf), \quad ot = \sigma(xt Wo), \quad ct = \text{SiLU}(xt W_c)
\]
  • 参数效率

- RNN-LIN模型参数量约为GRU的一半,节省50%参数[page::2]。
  • 模型结构图示与架构框图

- RNN-LIN采用门控机制进行隐藏状态更新,同时结合1D卷积和输入特征的预处理(详见图表2和模型框架图表4)[page::2]。

2.3 实验设计与数据


  • 数据集与输入形式

- 使用日频6特征(最高价、开盘价、最低价、收盘价、均价、成交量)的150日序列作为时间序列输入。
- 一次输入多个股票的时序数据,批次内同时含多只股票。
- 回测区间2018-01-01至2025-07-28。
  • 比较基线:经典GRU模型。

- 模型层数:1或2层,
  • GLU模块(门控线性单元,提升非线性表达能力)在不同模型上测试叠加与剔除效果[page::2][page::3]。


2.4 模型参数与训练设置


  • 1D卷积核大小3,RNN和GLU映射维度64,层规范化LayerNorm;

- 优化器AdamW,学习率1e-3;
  • 训练早停耐心值为15轮,随机数种子固定(0、42、3407)以保证结果稳定性[page::3]。


2.5 性能对比与模型效果分析


  • 因子风格相关性

- GRU和RNN-LIN模型风格倾向十分相似,在波动率(RESVOL)、流动性(LIQUIDITY)等指标呈现负向暴露。
- 因子评分之间相关度均超过85%,表明两者挖掘出的因子具有高度一致性。
- GLU模块加入对风格倾向影响不显著[page::3]。
  • IC指标(信息系数)测试

- 各股票池(中证全指、沪深300、中证500、中证1000)上10日框架RankIC与RankICIR(稳定性指标)两模型差距不大。
- GLU模块轻微提升RankICIR,尤其对RNN-LIN影响稍显明显[page::4]。
  • 因子分组测试

- 全市场TOP组年化收益,GRU平均领先RNN-LIN约1-2个百分点。
- 叠加GLU后,RNN-LIN收益率提升超过1%,在中证全指域达6.13%,明显好于GRU的提升幅度。
- 模型层数增至2层时,GRU优势加大,尤其在中证全指和中证1000池内,高出4%左右[page::4][page::5]。
  • 模型训练效率

- 在序列长度50/100/200时,基于4090 GPU测试,RNN-LIN运行速度远超GRU,分别约为2.4倍、2.5倍、2.5倍。
- 考虑到线性RNN的计算并行性,训练效率显著,提高模型迭代速度及部署可行性[page::5]。

2.6 DecompGRN模型设计与创新


  • 模型设计思路

- 基于先前DecompGRU模型的趋势分解框架,DecompGRN融合了时序(Temporal Sequence)与截面(Cross-Section)信息。
- 具体做法是:
- 利用线性RNN作为第一层提取个股时序特征。
- 通过基于市值的20分组,计算截面去均值特征,获取相对截面信息。
- 将截面信息与时序特征同时输入遗忘门、输出门,实现门控的双重信息融合,帮助模型在决定记忆和遗忘时综合考虑股票自身与整体流动性及相对特征。
  • 架构流程图见图表12,展示TS趋势分解、DS卷积、CS截面分解及RNN门控结合结构[page::6]。


2.7 DecompGRN模型测试表现


  • IC指标

- DecompGRN在中证全指、沪深300、中证500、中证1000各池的10日RankIC分别为0.141/0.099/0.098/0.127,显著高于GRU基线。
- RankICIR指标同样领先,显示模型稳定性也得以提升。
- IC胜率维持在88-89%附近,接近GRU模型表现[page::7][page::8]。
  • 分组多头TOP组年化收益

- 在全市场及多个股票池内,DecompGRN整体较GRU提升明显,特别是在中证全指提升5.28%,沪深300小幅下降0.64%,中证500和中证1000分别提升0.73%和1.88%。
- 风险指标如最大回撤与夏普比率保持在合理区间,换手率控制稳定。
  • 参数效率与训练性能

- DecompGRN参数量仅为GRU基线的43%,降低模型复杂性与过拟合风险。
- 训练效率亦优于传统GRU,兼顾模型效果与计算资源消耗[page::7]。

2.8 指数增强组合测试


  • 测试区间

- 2019年1月1日至2025年8月27日
  • 约束条件

- 指数成分股权重占比≥80%,单只股票权重偏离限制0.8%。
- Barra风格暴露约束为0.3,行业暴露约束0.02,换手率双边上限30%。
  • 调仓频率:周频调整,基于因子评分进行下一周调仓,剔除涨跌停或停牌股票。

- 交易成本设置:千三。
  • 实证结果(截至2025/08/27):

- 沪深300指增组合年化超额收益10.24%,累计超额收益3.93%。
- 中证500指增组合年化超额收益10.05%,累计超额6.72%。
- 中证1000指标年化超额收益接近19.58%,累计超额高达18.26%。
  • 风险调整效果

- 超额夏普比率稳健,最大回撤控制合理,Calmar比率表现良好提升组合的风险控制能力。
  • 趋势图表(图23-25)显示超额潜在收益曲线稳步攀升,回撤在一定范围内波动,整体表现出色[page::8][page::9]。


2.9 报告总结


  • DecompGRN成功融合时序趋势与股票截面相对信息,提升了模型对复杂因子时序变动的刻画能力。

- 线性RNN基础上构建的模型架构兼顾参数量与表达能力,降低计算与训练资源消耗。
  • 多维度指标比较中均超越传统的GRU基线模型。

- 投资组合实测结果稳定且优异,表明DecompGRN模型具备落地应用的潜力。
  • 报告也指出模型未来可继续通过叠加GLU或改进门控结构等方式进行拓展[page::9]。


2.10 风险提示


  • 历史回测不保证未来有效性,深度学习模型或存在过拟合风险;

- 模型效果受随机种子影响;
  • 本文模型和参考文献中模型略有差异。

- 详见官方9月5日发布的更详细报告[page::9]。

---

3. 图表深度解读



3.1 图表2(RNN-LIN层结构,page 2)


  • 显示线性RNN层的内部流程及门控设置,主要为遗忘门和输出门同时控制隐藏状态。

- 该结构移除传统RNN中的非线性激活,通过线性变换和激活(Sigmoid、SiLU)实现门控。
  • 直观可见其比GRU设计更为简洁,便于并行计算。


3.2 图表4(模型通用框架,page 2)


  • 展示整体时序输入到输出得分的流程:

- 初始用1D卷积做特征提取;
- 接入时间序列RNN(不同模型替换此模块);
- 通道方向上的前馈网络(Channel FFN)和归一化层;
- 预测头输出最终分数。
  • 此框架为所有模型统一设计,方便公平对比。


3.3 图表6(因子打分风格相关性,page 3)


  • X轴为不同风格因子指标(如RESVOL、BETA、SIZE等),Y轴为因子暴露。

- 不同模型(GRU、GRU-GLU、RNN-LIN、RNN-LIN-GLU)因子暴露趋势一致,均表现出较强负向暴露于波动率和流动性。
  • 说明不同模型挖掘的风格信息趋同。


3.4 图表7(因子评分相关性矩阵,page 3)


  • 4个模型间因子相关度均超85%,最高达92%。

- 体现不同模型对股票因子排序的共识度强。

3.5 图表8(10日IC统计结果,page 4)


  • 多个大型股票池与模型组合的RankIC与RankICIR详细数据。

- 两大模型(GRU、RNN-LIN)IC表现极为接近,微差归因GLU模块的不同开启状态。
  • RankIC在0.10-0.13区间,ICIR约0.6-1.1,均为有效指标值。


3.6 图表9、10(分组测试TOP组绩效,page 4、5)


  • 显示不同模型在不同股票池TOP组的年化收益率、夏普比率、最大回撤及换手率。

- GRU表现总体优于RNN-LIN,但二者差异控制在可接受范围。
  • 增加层数放大GRU优势。

- GLU模块明显提升RNN-LIN年化收益率。

3.7 图表11(模型训练效率对比,page 5)


  • 在GPU上,序列长度不同状态下,RNN-LIN训练速度为GRU的2.4-2.5倍,体现线性RNN高效优势。

- 重要指标对加速深度学习模型训练及上线落地有积极意义。

3.8 图表12(DecompGRN模型流程,page 6)


  • 展示DecompGRN整体架构:

- 输入先通过趋势分解拆分为偏移量和趋势特征;
- 叠加DS卷积和1D卷积+RNN进行特征处理;
- CS分解模块提取截面信息;
- 结合RNN完成时序与截面融合;
- 预测头输出最终因子分数。
  • 该流程将时序与截面信息有机结合,构成模型创新核心。


3.9 图表13、14(DecompGRN与GRU对比,page 7)


  • 10日IC指标和TOP组绩效的数值体现DecompGRN均优于GRU。

- 具体排名相关系数、ICIR和胜率均有所提升,
  • 成绩最显著体现在中证全指的TOP组年化收益率提升5.28%。


3.10 图表23-25(指增组合超额收益走势,page 8)


  • 展示沪深300、中证500、中证1000基于DecompGRN模型增强组合的超额收益和回撤走势。

- 超额收益曲线整体稳步上升,波动状况可控。
  • 回撤周期反映市场调整影响,但组合回补迅速。

- 连续表现验证模型稳定性及投资价值。

3.11 图表26(DecompGRN指增组合超额收益统计,page 9)


  • 详细年度及累计期超额收益、夏普、最大回撤、Calmar比率统计。

- 全面体现组合的绩效优势和风险控制能力。

---

4. 估值分析



本报告主要聚焦于模型设计与性能评估,不涉及传统的公司财务估值分析,因此无DCF、市盈率等估值模型内容。

---

5. 风险因素评估


  • 历史数据的有效性风险:回测基于历史数据,未来市场表现不确定,模型可能失效。

- 过拟合风险:深度学习模型有可能过拟合训练样本,表现优越并不保证泛化能力。
  • 随机性风险:训练过程中模型表现可能受随机数种子影响存在波动。

- 模型实现差异:深度学习模型实现细节可能与学术参考文献存在差异,影响结果可复现性。
  • 缓解策略和概率评估:报告未明确给出缓解措施和风险发生概率估计,仅提示用户需谨慎对待结果的应用[page::9]。


---

6. 批判性视角与细微差别


  • 本报告从技术创新与实证结果积极展现DecompGRNv1的优越性,但仍存在一些值得关注的地方:

- 性能提升幅度整体偏小:基于线性RNN与GRU的核心差异,性能提升主要在指标微幅增长,部分股票池如沪深300反而出现轻微倒退。
- 实验细节有限:有关超参数调优、训练轮次、随机性多次实验的稳健性分析较少。
- 风险提示较为笼统,未揭示模型在极端市场、结构性变更下的可能损失。
- 没有完全公开完整模型代码和训练细节,限制了外部复现和验证。
- 交易策略背后仓位控制、超额收益来源的具体机理未深入探讨

这些限制在一定程度上可能影响对报告结论的全面性理解,需结合未来研究和实盘验证持续观察。

---

7. 结论性综合



本次报告详细介绍了基于线性RNN的DecompGRNv1模型对量价因子挖掘的突破性尝试。通过对比传统GRU模型,作者实现了参数量大幅缩减至43%,同时提升关键指标如信息系数RankIC及相关稳定性RankICIR以及多头组合的年化收益。

模型创新主要体现在引入截面信息直接影响RNN的门控结构,提升了模型对股票相对位置和性质的动态感知能力,实现了时序和截面数据端到端融合。这一突破在沪深300、中证500及中证1000等股票池均展现稳定且优异的表现,构建的指数增强组合亦收获显著超额收益及良好的风险调整表现。

图表分析显示,DecompGRN不仅在统计指标上超越基线,在年化收益和风险控制层面体现了稳健性。训练效率上线性设计也为快速部署和迭代提供支持,反映模型兼具性能和效率优势。

需要注意的是,模型的未来表现及实际策略应用仍依赖于持续市场验证,同时报告警示的过拟合和数据历史有效性风险提示了研究的谨慎态度。

总的来看,报告成功表明了线性RNN结合截面信息的DecompGRN模型在金融时序预测领域的应用前景,值得进一步研究和实盘考察。

---

以上分析涵盖了报告所有关键章节与图表内容,条理清晰且针对复杂模型与数据细节进行了深入阐释,为理解及后续应用该类深度学习模型提供全面参考。

[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9]

报告