Mamba Outpaces Reformer in Stock Prediction with Sentiments from Top Ten LLMs
创建于 更新于
摘要
本文提出了一种将十大大型语言模型(LLMs)生成的情绪评分与苹果公司1分钟级别股价数据融合的新型框架,应用两种先进时序模型Mamba和Reformer进行股价短期预测。实验发现,Mamba模型结合LLaMA 3.3–70B情绪信号表现最佳,预测误差显著低于Reformer,展现了更强的市场波动响应能力和更优的时间序列建模效果[page::0][page::1][page::12][page::13]。
速读内容
研究背景及动机 [page::0][page::1]
- 短期股价预测受高波动性和新闻影响困难,基于情绪的非线性时间序列建模迫切需要高效架构。
- LLM能提供丰富的情感语义评分,结合技术指标有望增强预测准确率。
数据集构建与特征工程 [page::2][page::3][page::4]
- 数据包含2025年4月4日至5月2日苹果公司新闻及对应1分钟K线数据。
- 利用10个不同LLM(如GPT3.5、Claude、LLaMA、Gemini等)对财经新闻执行情绪评分,评分归一化于0-1区间。
- 合并情绪分与技术指标(RSI、ROC、BBW、成交量等)以及时间编码特征(sin/cos周期性),形成$60\times10$输入特征矩阵。
模型架构与训练策略 [page::4][page::5][page::6][page::7][page::8][page::9]
- Mamba基于选择性状态空间模型,利用低维嵌入与卷积捕获长依赖,带来线性时序复杂度;Reformer采用LSH注意力机制优化长序列Transformer。
- 双模型分别针对各LLM情绪评分训练,超参使用Optuna在验证集最小均方误差(MSE)目标下调优。
- 输入为60分钟滑动窗口,输出预测下一分钟收盘价,训练集覆盖15个交易日,测试集为3天。
量化结果和模型表现对比 [page::10][page::11][page::12][page::13]
- Mamba模型在所有10个LLM情绪信号下均优于Reformer,典型MSE低至0.137(LLaMA 3.3–70B)。
- Reformer在Qwen Turbo和DeepSeek V3情绪下表现较好,能捕捉大趋势但对突发波动响应较弱。
- Mamba更灵敏,能快速反映股价短期波动,Reformer易出现平滑过度现象。

关键结论与未来工作 [page::13][page::14]
- LLM情绪分析与高频时序深度模型结合显著提升股票分钟级价格预测性能。
- Mamba+LLaMA 3.3–70B组合建议优先采用,未来拟扩大时段与标的,加深LLM文本提示设计。
深度阅读
深度解读报告:《Mamba Outpaces Reformer in Stock Prediction with Sentiments from Top Ten LLMs》
---
1. 元数据与概览
- 报告标题:Mamba Outpaces Reformer in Stock Prediction with Sentiments from Top Ten LLMs
- 作者:Lokesh Antony Kadiyala 和 Amir Mirzaeinia
- 发布机构:美国北德克萨斯大学(University of North Texas)
- 日期:2025年
- 主题:以苹果公司(AAPL)1分钟粒度的股价数据及来自十个大型语言模型(LLMs)的财经新闻情绪分析,比较两种先进时间序列预测模型——Mamba和Reformer对股价短期预测的性能表现。
核心论点与目标
本研究提出了一个融合了十种不同LLM情绪评分与每分钟股价数据的预测框架,旨在提升分钟级股价的预测精度。报告比较了采用两种最新序列模型Reformer(基于Transformer改进)和Mamba(基于选择性状态空间模型,SSM)在该任务上的表现。结论显示,Mamba模型不仅计算效率更优,而且在所有十种LLM情绪评分下均优于Reformer,最低均方误差(MSE)为0.137(LLaMA 3.3–70B输入下)。报告强调了将LLM的语义分析与高效时序模型结合用于实时金融预测的重要潜力。[page::0,1]
---
2. 逐节深度解读
2.1 引言部分(Introduction)
- 关键论点:股价短期预测极其困难,原因在于高波动性、数据非平稳性及复杂非线性因素。除传统的结构化数据(财报、宏观经济指标)外,新闻等非结构化文本数据亦对股价走势影响深远。
- 支撑依据:LLM因其拥有数十亿参数,可以理解语境、情绪、意图,提供比传统的基于字典和浅层分类器更精准的情绪信号,成为金融领域文本情绪分析的有效工具。
- 模型挑战:秒至分钟级股价数据需模型具备高度时间敏感性和内存效率,传统Transformer模型内存消耗呈二次方增长且缺乏先验顺序偏置,难以处理超长且高频变动的时间序列,故需探索新型架构。
- 总结:本研究聚焦两个先进模型——Reformer和Mamba,前者用局部敏感哈希(LSH)优化Transformer的长序列处理,后者基于状态空间模型能线性处理长时序,适合密集高频数据。[page::0,1]
2.2 数据与情绪得分(Methodology - Data Collection & Sentiment Extraction)
- 数据源:
- 新闻文章(2025年4月4日至5月2日),通过NewsAPI获取苹果相关新闻,时间戳转为美国东部时间。非交易时间新闻被映射至下一个交易日9:30 AM。
- 1分钟间隔的股票交易数据(OHLCV),通过Polygon.io获得,时间同步。
- 情绪评分:对每篇文章,利用10个LLM的API(包括DeepSeek-V3、GPT-3.5 Turbo、LLaMA 3.3–70B、Claude 3.5 Haiku、Gemini 2.0 Flash、Qwen Turbo、Mistral 8B等)生成0-1区间的情绪分数(0极负面,1极正面,介于0.26-0.75视为中性),构建每篇文章的10维情绪特征向量。
- 预处理:时间戳对齐后,将情绪分数映射到对应的1分钟股价记录。部分情绪缺失值用线性插值填补。
- 技术指标与时间特征工程:
- 传统技术指标:RSI、ROC、价格及收益变化率、布林带宽度、交易量。
- 时间编码:分钟编码的正余弦函数(minsin, mincos)捕获日内周期性,minuteofday及minuteoffset辅助模型识别日内阶段。
- 最终数据结构:每行数据对应1分钟,包含时间戳、收盘价、10个LLM情绪分数中的一个(训练时单独使用其中一列)、技术指标与时间编码。[page::2-4]
2.3 模型架构与训练流程(Modeling and Evaluation)
Mamba模型
- 模型原理:基于Selective State Space Model(SSM),通过嵌入层将10维输入投影至128维,经过1个Mamba块(d
- 训练细节:输入为60分钟×10维特征的序列,输出下1分钟收盘价。训练5个epoch,用AdamW优化器,参数借助Optuna调优。所有变量归一化至[0,1]。
- 优势:能有效滤除短期噪声,快速响应股价及情绪波动,适合高频股价预测。
Reformer模型
- 模型架构:Transformer变体,引入LSH注意力降低传统自注意力的内存复杂度,结合可逆残差层节省空间。
- 网络结构:输入先映射至256维,深度3层,每层8个注意力头,bucket size=64。序列长度补齐至128(2×bucket size)倍数。
- 训练细节:同样用60分钟×10维特征,预测下1分钟价格。使用Adam优化器、Optuna超参调优,训练5个epoch。[page::4-7,8-9]
2.4 实验设计与评估
- 数据划分:
- 训练集:2025年4月7日-4月28日(15个交易日)
- 验证集:4月29日(1个交易日,Optuna调参)
- 测试集:4月30日-5月2日(3个交易日)
- 评估指标:均方误差(MSE),用于衡量模型预测价格与实际价格的误差大小。
- 模型训练:每个LLM情绪得分分别训练一个独立模型,以捕捉不同情绪输入的影响,实现公平横向比较。
- 预测过程:滑动窗口输入前60分钟数据,预测第61分钟价格,滚动执行完成3日1170分钟的预测。[page::8-9]
2.5 实验结果与图像解析(Results and Discussion)
视觉预测走势对比
- Mamba模型趋势表现:
- 使用LLaMA 3.3–70B情绪得分的预测结果与真实价格曲线极为贴合,能快速响应价格变化(图4)。
- 类似DeepSeek-V3、Claude 3.5 Haiku、GPT-4.1 Mini的情绪源也展现良好效果。
- Mistral 8B与Gemini 2.0 Flash则表现平滑,无法捕捉及时的趋势转折。
- Reformer模型趋势表现:
- Qwen Turbo和DeepSeek V3显著跟踪趋势,预测紧随实际走势(图6)。
- GPT-3.5 Turbo、Claude 3.5 Haiku表现中等,存在响应滞后。
- LLaMA 4 Maverick和Gemini 2.0 Flash未能快速反应急剧市场波动,曲线较为平滑。
数值性能比较(MSE)
| LLM 来源 | Reformer MSE | Mamba MSE |
|---------------------|--------------|-----------|
| DeepSeek V3 | 2.9918 | 0.192 |
| Qwen Turbo | 2.6468 | 0.2308 |
| GPT 3.5 Turbo | 5.1086 | 0.4505 |
| LLaMA 3.3 70B | 4.3236 | 0.1367 |
| Claude 3.5 Haiku | 4.203 | 0.3554 |
| GPT-4.1 Mini | 3.9706 | 0.2012 |
| GPT-4o Mini | 3.2649 | 0.1859 |
| Gemini 2.0 Flash | 7.2459 | 0.5047 |
| LLaMA 4 Maverick | 4.2261 | 0.3324 |
| Mistral ministral 7B| 3.018 | 0.3121 |
- Mamba模型在所有LLM情绪得分上均取得明显更优表现,最低误差0.1367(LLaMA 3.3-70B),最高也远优于Reformer。
- Reformer表现最佳的Qwen Turbo组合MSE为2.647,远高于Mamba的最佳值。
- 图7条形图清晰反映两者在全部10个LLM来源上的大幅差距,Mamba误差多在0.1-0.5范围,Reformer多在2-7之间。[page::10-12]
2.6 模型行为与结论洞察
- Mamba模型特点是对短期波动和快速变化的响应能力强,能保留市场的细微情绪信号,因此表现优异;
- Reformer模型倾向于对变化进行平滑处理,捕获趋势层面但对尖锐跳变反应不足;
- 不同LLM的情绪评分存在性能差异,LLaMA 3.3–70B及DeepSeek-V3对提升预测精度贡献最大;
- 研究证明结合LLM情绪的时间序列模型在实时高频预测中极具前景。
2.7 应用与未来展望
- 本文还展示了情绪提取的统一API调用方式和自动化流程,确保方法的可复制性和可扩展性;
- 未来研究方向包括拓展样本时间和股票池、优化LLM提示策略、及提升情绪评分的财务相关性。
---
3. 图表深度解读
图1:LLM-Based Stock Price Prediction Pipeline(第2页)
- 展示了完整的数据流和处理流程:数据收集(NewsAPI和Polygon.io)→情绪提取(10 LLMs)→预处理(时间对齐,插值)→特征工程(技术指标和时间编码)→模型训练(Mamba和Reformer,输入60分钟×10特征)→测试与推断→评估指标MSE。
- 该图明确了研究的端到端框架和工作流。
图2:Mamba Block架构(第6页)
- 以方框图形式展示Mamba模块的核心组件含线性投影、状态空间模型(SSM)、卷积及非线性变换。
- 蓝色方块(SSM)作为序列转换的主核,用于捕捉时序长距离依赖。非线性包括激活或乘法操作,增加模型表达力。
图3:Reformer架构(第7页)
- 说明Reformer模块结构,包含层归一化(LayerNorm)、自注意力、自残差连接及前馈网络。
- 该模型使用局部敏感哈希提升注意力机制的效率,适合处理长序列且减小内存压力。
图4-6:股价预测趋势比较(第10-11页)
- 实线(黑色)为真实股价,浅色线为模型预测。
- 图4(Mamba+LLaMA 3.3–70B)展示预测曲线几乎与实线重合,特别是在大幅波动点响应敏捷。
- 图5(Mamba+GPT-4o Mini)亦表现较优,预测紧随真实波动。
- 图6(Reformer+Qwen Turbo)趋势捕捉良好但部分时段存在滞后,尤其在快速波动时预测相对平滑。
表1与图7:MSE计量结果与对比(第12页)
- 表格详细列出两模型10个LLM输入下的MSE数值,图7配以条形图更形象地视化对比。
- 该图表动态显示了Mamba在绝大多数情景下均明显领先Reformer,差距在5倍及以上。
表2:样本新闻情绪得分(第16页)
- 以一个定性样本,展示20篇新闻在10个LLM下的情绪评分情况。
- 不同模型对同一新闻的情绪判断存在一定差异,体现情绪源多元化。
- 该表有助理解模型对输入情绪的依赖和不同LLM的语义捕获差异。
---
4. 估值分析
本报告未涉及公司估值模型或财务预测,侧重于构建基于复杂时序与文本情绪特征的机器学习预测框架及其性能比较。因此无现金流折现法(DCF)、市盈率分析或估值敏感性分析内容。
---
5. 风险因素评估
报告虽未明示具体风险部分,但基于文本可推断:
- 模型泛化风险:训练数据时间及标的有限,3日测试轮廓或不能覆盖所有市场情况。
- 情绪评分噪声:LLMs对情绪的判断存在内在不确定性,某些模型评分表现平滑可能导致信号延迟。
- 数据同步风险:新闻发布时间与市场反应时间不对齐时→可能引入噪声或时序错位。
- 超参数调优风险:虽然Optuna系统优化,训练轮数有限,过拟合或欠拟合风险依旧存在。
- 无缓解策略细节公开,但文中强调用时间排序数据分割和正则化手段降低过拟合。
---
6. 批判性视角与细节
- 模型选择基于最新论文(Reformer 2020及Mamba 2023)理论,前者针对长序列优化Transformer,后者为SSM应用,二者代表当前长序列时间序列建模主流方向,合理且前沿。
- 实验仅使用单一股票(AAPL)和约1个月数据,可能导致结论在其他标的或不同周期的泛化能力有限。
- LLM情绪评分的主观性及API调用的限制没深入探讨,尤其对不同模型评分一致性的影响。
- Mamba远优于Reformer的结果虽明显,但两者超参数空间不同、模型复杂度差异也未完全展开对比分析。
- 情绪信息的时间对齐策略(对非交易时段新闻的调整)虽然合理,但存在潜在的信息时间滞后和混叠风险,可能未充分揭示该影响。
- 预测任务集中于价格收盘价预测,未涉及交易量预测或更复杂的多目标预测,也未评估模型在极端行情下的稳健性。
- 总体报告结构严谨,图表充分,数据详实,语言专业,符合学术研究规范。
---
7. 结论性综合
本报告系统构建了基于十种主流LLM情绪评分和1分钟高频股票数据的融合时序预测数据集,采用两类前沿架构Mamba(基于选择性状态空间模型)和Reformer(基于改进Transformer的LSH注意力)分别对苹果股价进行预测比较。通过连续15天训练、3天测试的有序时间切分,结合技术指标和周期时间编码,模型输入包括单一LLM情绪得分与多维技术特征的60分钟序列窗口。
关键发现包括:
- Mamba模型在所有10种LLM情绪输入条件下均显示显著优势,最低MSE仅0.137(LLaMA 3.3–70B),表现出其在捕获短期、快速变化的金融情绪信号方面的领先能力。
- Reformer模型虽能捕获股价大趋势,尤其结合Qwen Turbo和DeepSeek V3情绪表现较好,但普遍存在对尖锐价格变动响应不足及预测平滑的问题,整体误差显著高于Mamba。
- 多种LLM间情绪评分差异对预测性能有明显影响,反映语义预测的准确性是驱动模型效果的关键因素。
- 结合详细的技术指标与时间序列编码优化输入,辅助模型更好地建模市场内在节律和波动性。
该研究展现了将现代大型语言模型的深层语义理解与高效状态空间模型结合,为股票分钟级价量预测提供有效路径的可行性。未来工作可考虑多股票跨时间段验证、模型结构优化及情绪提取提示工程的深化,以进一步提升模型的实用性和泛化力。
---
重要图表图片复现
图1:整体数据处理与预测流水线

图2:Mamba Block结构示意

图3:Reformer架构示意

图4:Mamba+LLaMA 3.3 70B预测趋势

图6:Reformer+Qwen Turbo预测趋势

图7:Reformer与Mamba MSE对比柱状图

---
综上,该报告以详实的实验设计、丰富的多模型对比和深度的情绪与时间序列结合分析,为高频实时股价预测领域带来有力的研究贡献,展示了前沿ML架构与大语言模型融合的广阔前景。[page::0-16]