`

Can LLM-based Financial Investing Strategies Outperform the Market in Long Run?

创建于 更新于

摘要

本文提出了FINSABER框架,系统地评估了基于大规模语言模型(LLM)的投资策略在更长时间跨度及更广股票范围内的表现。研究发现此前文献中LLM策略的优势在跨市场和长期评估中显著减弱,且LLM策略在牛市中过于保守,在熊市中风险管理不足导致损失加剧。报告强调未来策略需注重趋势识别与市场状态感知的风险控制,而非单纯模型复杂度提升,为LLM投资研究指明方向[page::0][page::1][page::7].

速读内容


传统LLM策略盈利能力短期有效但长期表现弱化 [page::3][page::4]


  • 在2022-10至2023-04的短期回测中,LLM策略FinMem对TSLA表现较优,但整体表现不稳定,MSFT等股票收益波动大且存在较高风险。

- 长期(2004-2024)和更广股票池下,Buy-and-Hold等传统策略在多数股票上超过LLM,显示LLM优势依赖于短期及有限样本[page::3][page::4].

FINSABER框架多模块设计及偏差缓解机制 [page::2]

  • 多源数据模块整合股票价格、新闻与10-K/10-Q监管文件,覆盖2000-2024年,纠正了幸存者偏差、前视偏差与多重测试偏差。

- 策略库涵盖择时及选股策略,支持规则基、机器学习、强化学习及LLM投资者。
  • 采用两步滚动窗口测试,实现持续动态股票池选择及状态感知,有效降低过拟合风险[page::2].


系统性评估下LLM表现逊色于传统及机器学习策略 [page::4][page::5]


| 策略类别 | 典型策略 | 重要指标(Sharpe比率、年化收益率) |
|----------|---------|--------------------------------|
| 规则基 | Buy-and-Hold, ATR Band, ARIMA | Sharpe值优于LLM,稳定性高 |
| 预测模型 | ARIMA, XGBoost | 多数情况下表现优于LLM |
| LLM策略 | FinMem,FinAgent | 部分环境下年化收益尚可,但Sharpe较低,最大回撤大 |
  • LLM在多选股策略下表现更弱,FinAgent表现优于FinMem,但均未超越基准[page::4][page::5].


统计显著性检验与行为特征分析显示缺乏有效Alpha [page::5][page::6]

  • 配对t检验表明,在广义股票选择环境中,Buy-and-Hold显著优于两大LLM策略,且两者均未产生统计显著Alpha。

- FinMem交易过于频繁且风险管理欠佳,FinAgent较为稳健但仍无实质性技能体现。
  • LLM策略对于强趋势环境(动量选股)表现相对改善,表明其优势可能在于捕捉已有市场动向而非发掘新信号[page::5][page::6].


市场状态分解揭示LLM过于保守且风险管理不当 [page::7]


  • 牛市中,LLM策略Sharpe比率显著低于被动投资,表现出过度谨慎。

- 熊市中损失尤为严重,风险控制失败导致负Sharpe值,FinAgent虽稍好但仍逊色传统策略。
  • 研报建议未来LLM投资者应加强趋势识别与基于市场状态的风险敞口动态调整,而非单纯提升模型规模[page::7].


行为风险分析与可视化案例验证LLM策略失败机理 [page::6][page::13][page::14]


  • LLM策略在牛市多出现严重单股波动,FinMem特别表现不佳,交易频繁且回撤深远。

- 熊市中LLM策略放大亏损幅度,未做有效避险。
  • 侧向震荡期,策略保守且频繁缺乏交易信号,导致机会错失。

- 行为分析表明当前LLM投资者缺少适应不同市场环境的机制和风险管控能力[page::6][page::13][page::14].

成本分析及未来方向建议 [page::14]

  • LLM策略尤其FinAgent因多Agent调用而成本高昂,API费用不容忽视。

- 推荐未来研究可倾向开源模型以降低测算成本,并纳入成本因素评价策略综合效能。
  • 强调设计具备领域知识与精准风险管理的智能投资代理的必要性[page::14].

深度阅读

金融研究报告深度解析


报告标题:Can LLM-based Financial Investing Strategies Outperform the Market in Long Run?


作者及发布机构:

  • Weixian Waylon Li(爱丁堡大学,英国)

- Hyeonjun Kim(成均馆大学,韩国)
  • Mihai Cucuringu(加州大学洛杉矶分校 & 牛津大学,美国 & 英国)

- Tiejun Ma(爱丁堡大学,英国)

---

1. 元数据与报告概览



该报告旨在系统评估基于大型语言模型(LLM)设计的金融投资策略,特别是时机型(timing-based)投资策略在长期及更广泛市场环境中的表现表现。作者基于新构建的回测框架FINSABER,弥补了现有研究短期、样本选择局限的缺陷,批判性地审视此前LLM策略声称的超额收益优势。核心结论显示:
  • LLM策略在更长周期和更大股票池中表现劣化明显。

- 在牛市中策略过于保守,未能超越被动基准;熊市中又过于激进,导致重大损失。
  • 未来研究应重点改进趋势识别能力和市场状态感知的风险控制,而非单纯提升模型复杂度。


关键词包括:自动交易、LLM投资者、回测、基准[page::0][page::1][page::2]

---

2. 逐节深度解读



2.1 摘要与引言部分



摘要部分明确指出当前LLM在金融投资领域的应用,尤其是利用未结构化数据如财经新闻,进行买卖时点决策。此前研究因短时间窗口和有限股票样本,普遍存在幸存者偏差、预知数据偏差和数据窥探偏差,导致性能被高估。作者提出的FINSABER回测框架囊括20年数据、100+股票,显著缓解这些偏差,结果显示LLM优势大幅减弱。同时进行市场状态细分分析,指出LLM策略对牛市和熊市的不适应性。研究呼吁设计具备状态感知和风险管理的智能投资策略。[page::0][page::1]

2.2 相关工作



文献回顾覆盖LLM在金融投资决策中的多种用途,从简单的情绪分析到多代理系统及强化学习等。现有主流研究多关注情绪导向预测,缺少完整交易策略的构建(如仓位规模、执行时点及成本管理)。并且大多数开源或商业系统只提供了有限的评估基准,且评价周期偏短,样本股票偏少。[page::1][page::2]

2.3 投资策略定义



报告区分两类策略:
  • 时机型(Timing-Based)策略:基于市场价格和技术指标,动态生成每日买/卖/持有信号,目标捕捉短期价格波动;

- 选股型(Selection-Based)策略:按排名或阈值筛选资产子集,注重横截面因子alpha,周期性调仓。[page::1]

2.4 回测中的三大偏差及其影响



对回测偏差进行详细剖析:
  • 幸存者偏差主要由只含存续股票引起,忽略退市或破产股票,造成收益高估;

- 预知偏差指策略在回测时无意间使用了未来信息;
  • 数据窥探偏差为反复测试同一数据集导致过拟合假阳性概率上升。

应对方法需拓展时间窗及股票池,覆盖多个市场环境真实反映表现。[page::1]

2.5 FINSABER回测框架设计



核心在于:
  • 多源数据模块,结合股票价、财务新闻、监管文件等结构化和非结构化数据,时间范围2000-2024年。数据严格时间对齐,含历史退市股票,保证无幸存者和预知偏差。[page::2]

- 策略基模块,集成多类别策略,包括开源LLM投资者(FinMem、FinAgent),传统规则策略,ML/DL预测器(如ARIMA,XGBoost),强化学习(A2C、PPO等)以及选股策略。确保覆盖多样方法对比。[page::2]
  • 两步管道设计,先用选股策略确定股票池,再在该池上执行每日交易,实现偏差缓解。采用滚动窗口多轮测试,防止过拟合并适用多市场阶段。

- 评估指标涵盖收益(如年化收益AR、累积收益CR)、风险(年化波动率AV、最大回撤MDD)及风险调整收益(Sharpe比率SPR、Sortino比率STR),衡量投资策略综合表现及资本效率。

如此设计支持多维度、公正、长期的策略评估,提升结果可信度和可推广性。[page::2]

---

3. 图表深度解读



表1(第0页)


总结现有LLM金融投资策略评估的时间周期、样本规模及代码开源程度。数据显示多数研究周期不足1年,样本股票极少(多低于10只),且多无代码开源。此表奠定了当前研究经常陷入短期及样本限制的基础,凸显了FINSABER设计的必要性。[page::0]

---

图1(第2页)


展示FINSABER框架架构图:从左至右依次为基准设置→选股策略→时机策略→滚动窗口回测→结果输出。框架集成多种时机型与选股型策略,支持多源数据输入(包括股票价格、新闻、监管文件),通过滚动训练-测试窗口充分测试模型泛化能力,输出多维度财务指标。可视化直观呈现了框架设计,强调模块化及全面评估流程。[page::2]


---

表2(第3页)


回测2022年10月至2023年4月期间基于TSLA、NFLX、AMZN和MSFT等四只股票的多策略性能对比。
  • 细分策略类型为规则基础、预测器和强化学习(RL)、及LLM(FinMem、FinAgent)。

- 评价指标包括Sharpe比率(SPR)、累积收益(CR)、最大回撤(MDD)和年化波动率(AV)。
  • 结果显示FinMem在TSLA上表现最佳,但其他股票并无明显优势,甚至一些传统规则策略和RL策略表现不俗。

- LLM策略波动率高且最大回撤剧烈,风险敞口大。此表暗示,仅凭有限窗口和股票,LLM策略非显著领先,且对风险控制需重视。[page::3]

---

表3(第4页)


2004年至2024年长期回测,延续表2中的四只股票。
  • 大部分情况下,传统“买入并持有”策略持续优于LLM策略,尤其在NFLX、AMZN和MSFT。

- TSLA为例外,LLM策略FinMem和FinAgent在年化收益上表现领先。
  • 说明先前短期研究的超额收益在长期和更广股票池中不再明显。

- 进一步指明选择股票时若忽略退市股,仍存幸存者偏差问题,需更系统化的股票池设计保证公平性和代表性。[page::4]

---

表4(第5-6页)


FINSABER的复合评估设置,采用随机选股(RANDOM FIVE)、动量因子(MOMENTUM FACTOR)、低波动率效应(VOLATILITY EFFECT)及FinCon选股代理四种多样选股策略,计算对应的时机策略绩效。
  • 总股票数量分别达91、84、63与80只,时间跨度2004-2024。

- 结果显示在无偏评估下,LLM策略表现进一步落后传统策略(例如ARIMA、Buy and Hold、ATR Band等),风险调整后的收益(Sharpe)显著偏低,且最大回撤较大。
  • FinAgent在动量策略下的年化收益最高(13.95%),但风险指标如Sharpe比和最大回撤均不理想,暴露了LLM风险管理不足。

- 选股质量显著影响RL与LLM策略表现,VOLATILITY EFFECT选股表现最佳。
  • 强调模型复杂度本身并不必然带来更强市场表现,合理选股和风险管理是影响绩效的关键。


表4完整揭示了在扩大评估深度和广度后的真实表现差异,[page::5][page::6]

---

表5与表6(第6页)

  • 表5采用配对t检验统计学意义检验各策略间性能差异,结果显示无偏复合设置下,买入持有策略显著优于FinMem和FinAgent,LLM策略无证据能产生统计显著alpha。

- 表6行为分析揭示FinMem交易频率极高(交易佣金比率5~9倍于FinAgent),表现出过度交易且风险管理差的特征。FinAgent风控略优但依旧无显著alpha。不同选股环境促使策略表现差异,动量驱动环境下FinAgent有正alpha迹象,但统计上不显著。
  • 该章节强有力地佐证报告主旨——当前LLM投资策略缺乏有效市场适应力和选股能力。[page::6]


---

图2(第7页)


展示各策略在三种市场状态(牛市、熊市、震荡市)下的平均Sharpe比率热力图。
  • 牛市中,买入持有被动策略表现最好(0.61),所有主动策略包括LLM均未超越,部分LLM甚至显著负绩效。

- 熊市环境普遍亏损严重,LLM尤其惨烈(FinMem -0.97)。FinAgent相对表现较好,但仍落后传统指标策略如ATR Band、动量策略。
  • 震荡市表现多为中性或微正。

- 反映出LLM策略在牛市过度保守且无法充分利用行情,熊市则缺乏有效风险控制导致巨大损失。
  • 报告呼吁未来LLM设计需结合市场状态识别与动态暴露管理,而非仅仅模型复杂性扩展。

[page::7]

---

图3(第13页)


深度行为分析的“水下图”(Underwater Plot),展示FinMem与FinAgent两策略及基准持有策略在不同市场阶段的回撤情况。
  • 牛市阶段,FinAgent表现较FinMem保守,回撤一般较小,但有时过于保守错过机会。FinMem回撤深且时间长,显示其风险管理欠佳。

- 熊市阶段,FinMem损失巨大,甚至超过指数(SPX)回撤50%。FinAgent表现比FinMem稳健但仍无法有效避免重度亏损。
  • 震荡市阶段,FinAgent回撤较浅但交易不频繁容易错失反弹机会,FinMem同样表现波动大。

- 该图直观体现LLM策略在风险控制和市场适应性上的缺陷,为定量分析提供生动佐证。
[page::13]

---

4. 估值分析



报告集中于金融投资策略的效能评估,采用回测的收益、风险及风险调整收益进行系统量化,无涉及直接企业估值方法(如DCF、市盈率)。其“估值”可理解为基于历史市场表现的策略收益风险平衡分析,以评估模型投资能力。指标体系定义详见附录C,涵盖:
  • 年化回报(AR)、累积回报(CR)

- 年化波动率(AV)、最大回撤(MDD)
  • Sharpe比率(SPR)、Sortino比率(STR)


通过这些指标综合衡量策略投资的“估值”表现及稳定性。[page::2][page::10]

---

5. 风险因素评估



报告明确指出LLM策略面临的主要风险包括:
  • 市场状态适应性差:策略在牛市时表现过于保守,难以把握利润机会;熊市中风险管理失效,导致巨大亏损。

- 过度交易与高频操作风险:FinMem因高交易频率带来高佣金成本及重复损失。
  • 数据偏差风险:现有基准及评测中存在幸存者、预知及数据窥探偏差,未经控制容易误判策略效能。

- 成本风险:大型LLM模型回测API成本高昂(超过700美元),这在商业化应用中构成技术和经济负担。[page::14]

报告未提出具体缓解措施,而是强调需要设计具备市场状态感知和风险控制能力的新型LLM策略。

---

6. 审慎视角与细微差别



尽管论文通过严谨方法批判性揭示当前LLM策略缺陷,但也展现出LLM潜力的一面,如在动量盛行环境下FinAgent可能获得正alpha迹象(但无显著统计支持)。这表明未来策略若能结合领域知识、风险管理与市场状态感知,仍可改进。此外,报告客观指出当前LLM策略往往误用复杂度扩展策略架构,而忽视金融领域的特有逻辑与市场动态适配,这是限制表现的根本原因。

报告也提醒研究者注意:
  • 不同市场状态下策略行为差异巨大,统一假设不成立,评估设计需考虑多元市场格局。

- 交易成本及API费用对实际策略可行性影响显著,不应忽视经济成本。
  • FINSABER框架为未来公正、全面评测提供了基础,但实际FinCon等开源多代理系统尚未纳入对比,未来研究需扩展策略库。


---

7. 结论性综合



综上,报告基于FINSABER框架,系统评测了LLM基时机型投资策略在2004-2024年、超过百只股票的长周期、多样市场环境下的表现,得出关键见解:
  • 当前LLM策略声称的超额收益多为短期、局部样本的偏差结果,经系统回测后显著减弱甚至逆转。

- 传统简单策略如买入持有、ARIMA等表现更稳定且风险调整收益更优,LLM策略无法显著产生统计学意义上的alpha。
  • 策略行为存在严重市场状态错配,牛市过于谨慎错失收益,熊市过于激进导致放大损失,缺乏有效的风险动态管理。

- 策略的复杂度和参数扩展并未带来优势,未来发展应当重点关注融入领域知识、风险控制和市场动态适应能力。
  • 高交易频率及大规模模型计算成本也是现实部署障碍,推荐开发更经济高效的本地开源LLM替代方案。


图表展示了策略在不同股票、时间窗口的多维绩效差异与水下回撤路径,直观反映风险特征与适应性不足。统计检验进一步确认基准策略的显著优势,强化了研究结论的稳健性和现实指导意义。

总体来看,报告以全面、严谨、数据驱动的实证方法,有力挑战了目前LLM在金融量化投资领域的乐观预期,同时提出具有指导性的未来研究方向。这对于金融AI策略设计者和学术领域皆具重要参考价值。[page::0][page::2][page::3][page::4][page::5][page::6][page::7][page::13][page::14]

---

附:报告核心图表清单



| 图表编号 | 内容简介 | 关键意义 | 页码 |
| --- | --- | --- | --- |
| 表1 | 现有LLM投资策略评估简介(时间、股票数、开源情况) | 揭示评估时间和样本规模普遍不足 | 0 |
| 图1 | FINSABER回测框架结构示意 | 体现框架模块化、多源数据和双管道偏差控制设计 | 2 |
| 表2 | 短期精选股票多策略回测(2022-2023)| LLM表现非持续领先,风险波动大 | 3 |
| 表3 | 长期精选股票回测(2004-2024)| 长期维度下LLM优势显著降低 | 4 |
| 表4 | FINSABER复合评估设置(多选股策略、全样本)| 体现无偏评估中LLM泛化能力不足 | 5-6 |
| 表5 | paired t检验结果 | 统计学支持买入持有优于LLM | 6 |
| 表6 | LLM行为定量分析(交易频率、alpha、beta)| 揭示交易过度与缺乏有效alpha驱动 | 6 |
| 图2 | 不同市场状态下策略Sharpe表现热力图 | LLM策略牛熊市错配严重 | 7 |
| 图3 | 水下图(Drawdown轨迹) | 直观反映策略回撤差异与风险容忍度 | 13 |

---

总结



该研究首次建立了兼具多源数据与长期大样本的LLM投资策略偏差缓解框架,系统揭示LLM金融投资策略在现实复杂市场中的表现缺陷,强调未来着力于市场状态适应、风险管理的必要性,提醒业界勿盲目追求模型规模化,需结合金融领域深刻理解。其方法论及实证发现对学术研究和实际量化投资产品开发均具有重要指导价值。

报告