MM-DREX: Multimodal-Driven Dynamic Routing of LLM Experts for Financial Trading
创建于 更新于
摘要
本论文提出MM-DREX,一种基于大语言模型的多模态动态路由专家交易框架。通过视觉-语言模型驱动的路由器,结合K线图与时间序列特征,实现对多种专长交易策略的动态权重分配。采用监督微调与强化学习混合训练,提升非平稳市场中策略自适应能力。实证涵盖股市、期货和加密货币,展示显著超越多种现有模型的收益率、夏普比率及最大回撤表现,具备卓越稳健性与解释性 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8]
速读内容
MM-DREX框架设计与核心创新 [page::0][page::1][page::2]

- 构建多模态观察编码融合视觉K线图、时间序列及文本信息。
- 动态路由器基于视觉语言模型实时分配四大专家(趋势、反转、突破、仓位)权重。
- 专家独立优化策略方针,提供多样化细粒度子策略。
- 采用SFT预训练加RL精调的混合训练范式,平衡分类能力与策略回报最大化。
多市场多模态数据集构建及性能对标 [page::3][page::4]

- 覆盖美股、中概股、ETF、期货和加密货币,集成22,638张金融图像及127,474时序样本。
- 综合比较FinAgent、FinMem等主流模型,指标全面领先。
- MM-DREX在美股牛市回报达到47.5%,夏普1.83,期货市场27.31%回报,明显超越深度强化学习及LLM基线。
交易绩效对比及风险控制表现 [page::4][page::5]
| 分类 | 模型 | A股 TR% | A股 SR | A股 MDD% | 美股 TR% | 美股 SR | 美股 MDD% | 期货 TR% | 期货 SR | 期货 MDD% |
|--------|----------|---------|--------|----------|----------|---------|-----------|----------|---------|-----------|
| 传统 | B&H | 10.94 | 0.75 | 17.5 | 60.56 | 1.76 | 22.8 | 18.2 | 0.84 | 24.53 |
| RL | PPO | 13.2 | 1.25 | 8.42 | 29.34 | 1.73 | 8.73 | 18.53 | 1.25 | 12.54 |
| LLM | FinAgent | 21.77 | 1.82 | 12.36 | 39.34 | 1.61 | 20.37 | 5.38 | 0.56 | 13.20 |
| 本文 | MM-DREX | 24.36 | 2.15 | 11.42 | 47.5 | 1.83 | 14.5 | 27.31 | 1.61 | 14.24 |
- MM-DREX在多资产类别中展现优异的风险调整收益及最大回撤管理能力。
- LLM传统模型在加密货币及期货市场表现受限,MM-DREX显示了显著跨市场适应力。
动态路由和多模态融合效果验证 [page::5][page::6]

- 实验证明动态路由的TR提升至25.75%、夏普1.63,显著优于静态均匀权重及单专家策略。
- 移除视觉K线特征导致性能掉落21.9%,凸显视觉-时序信息融合价值。
- 在黑天鹅事件中,MM-DREX表现出卓越的韧性和风险控制,优于标普500基准。
量化因子与策略设计概览 [page::9:page::16]
- 构建四类专家策略:
- 趋势跟踪(包括移动平均交叉、动量策略、Turtle突破)
- 均值回归(布林带反转、RSI反转、KDJ反转)
- 突破跟踪(成交量突破、ATR突破)
- 仓位策略(全仓多头、全仓空头、持有现金)
- 每个策略具体算法清晰,支持多层加仓及止损机制,保证策略细节的多样性和稳健性。
多模态LLM金融预测模型评测与训练数据构建 [page::18][page::21]

- 评估12款主流视觉-时序融合LLM,覆盖30/100/250天多时间窗口。
- GPT-o3模型在100天分析期和90天预测期表现最优,方向准确率达60%+。
- 设计复杂Prompt策略结合视觉与序列数据,实现高质量趋势预测与置信度输出。
- 以此数据训练MM-DREX的路由模块,确保多专家动态权重调配的鲁棒性和精度。
模型架构与优化细节 [page::28][page::30]

- 核心采用Qwen 2.5 VL 72B大模型,结合LoRA微调技术保障训练计算效率。
- 路由器基于[CLS]标记向量融合多专家策略权重,执行动态调控。
- 多专家独立训练并联合输出策略概率分布,提升策略多样性和市场适应性。
- 详尽的技术指标特征工程与文本总结,强化输入信息丰富度与深度。
结论与未来方向 [page::6]
- MM-DREX实现多模态、大规模LLM驱动的动态多专家交易,显著提升收益与稳健性。
- 未来将探索实时多资产组合优化、专家基于元学习的自适应演进、长周期记忆机制及人机交互透明度提升等方向。
深度阅读
MM-DREX: Multimodal-Driven Dynamic Routing of LLM Experts for Financial Trading — 深度报告分析
---
1. 元数据与报告概览
- 报告标题: MM-DREX: Multimodal-Driven Dynamic Routing of LLM Experts for Financial Trading
- 作者及机构: Yang Chen 等,浙江大学、中国香港城市大学联合团队
- 发布日期: 报告具体日期未明确给出,但引用中包含2024年的工作,可推断为2024年
- 研究主题: 本报告提出并验证了一种依托大语言模型(LLM),采用多模态输入和动态专家路由的金融量化交易体系——MM-DREX,旨在提升模型在非平稳金融市场环境下的适应性、鲁棒性和风险控制能力。
核心论点与贡献
报告强调传统金融交易模型因结构固定、数据单一,难以应对市场的「非平稳」特性,尤其缺乏对视觉(K线图等)信息的利用。而现有基于LLM的方案虽然具备跨模态理解能力,但多采用静态路由和同质专家策略,缺乏动态权重分配与多样化决策机制,限制了实盘适用性。
为此,报告提出MM-DREX框架,其核心创新在于:
- 视觉语言模型(VLM)驱动的动态路由器,用于实时分析包含图像和时间序列的多模态市场特征,动态分配四个设计差异化的交易专家权重。
- 四类异构专家(趋势、反转、突破、仓位)分别产出细致子策略,实现策略多样性与互补。
- 结合监督微调(SFT)与强化学习(RL)的混合训练范式,强化路由器的市场分类能力和专家的风险调整决策。
- 引入可解释模块,实现实时路由与专家决策轨迹的解释,提高模型透明度,便于合规审计。
报告通过跨市场多模态数据(股票、期货、加密货币)验证,显示在收益、夏普率和最大回撤方面显著超过15个传统及前沿基线,凸显其适应复杂多变市场条件的能力[page::0,1,4]
---
2. 逐节深度解读
2.1 摘要与引言
- 挑战识别: 金融市场的非稳定性和多模态信息复杂性导致传统固定结构、单一数据源模型难以有效应对市场状态转变,尤其忽略可视化K线图中的关键技术模式。现有深度强化学习及基于LLM方法缺乏灵活的动态调整机制,不能实时对不同市场环境做出细粒度响应。
- 已有尝试的不足: 包括FinGPT、PIXIU等多模态金融LLM虽然强化理解力,但多聚焦在信号检测,难以实现自主连续交易决策;混合专家模型如TradExpert存在同质专家和静态路由问题。
- 解决方案:提出MM-DREX,通过“动态路由器→异构专家→加权组合”的架构, 形成功能解耦,提升灵活性和多样性,同时引入视觉与时间序列的融合编码,增强市场背景感知[page::0,1]
2.2 问题定义
- 将交易任务形式化为部分观测马尔可夫决策过程(POMDP),状态空间为不可完全观测的市场潜状态,动作为空间包含高级交易子策略而非简单买卖指令,奖励关注累积风险调整收益。
- 观测空间包含多模态信息(视觉图像、时间序列数据、文本提示)构成[page::1]
2.3 MM-DREX架构详解
2.3.1 多模态观测编码
- 输入$\omegat = (Vt, Tt, Lt)$ 三模态,分别为图像(如K线图与技术指标)、时间序列(历史价格及指标数据)、文本(行情指令及趋势摘要)。
- 共享的VLM编码器融合三模态特征,形成统一市场表征。
2.3.2 动态路由器设计
- 核心是基于视觉语言大模型(预训练VLLM)的路由器,通过LoRA适配微调。
- 输入多模态观测,捕捉关键技术图形(头肩顶、双底、均线交叉、成交量突破等),结合时间序列数据推断当前市场状态,进而动态分配四个专家权重$\mathbf{w}=(w{\text{trend}}, w{\text{reversal}}, w{\text{breakout}}, w{\text{static}})$,满足$\sum w_i=1$和非负约束。
- 设计分离宏观市场感知与微观策略执行,有效应对市场非平稳变化。
2.3.3 异构专家策略层
- 四种独立专家,各自参数独立训练,具备不同交易逻辑:
- 趋势专家: 指标涉及均线交叉(MACROSS)、动量跟随和龟兔策略(突破)。
- 反转专家: 利用Bollinger带、RSI和KDJ等指标,捕捉价格反转机会。
- 突破专家: 监测成交量突破和平均真实波幅(ATR)相关突破。
- 仓位专家: 确定基础持仓方向(多头、空头、现金),调整整体基准风险暴露。
- 该组合提供丰富多样的策略选择池,配合动态权重实现风险分散与收益互补[page::1,2]
2.3.4 优化训练机制
- 采用“监督微调(SFT) + 强化学习(RL)”混合训练方案:
- SFT阶段在标注的市场趋势分类任务上训练路由器,注入基础市场趋势知识以降低RL阶段探索难度。
- RL阶段基于SFT初始化参数微调路由器,联合训练专家策略,最大化联合收益,权衡收益与风险。
- 路由器策略损失函数包括收益基线调整及信息熵正则,专家则使用PPO算法带剪切目标、价值函数误差和策略信息熵正则化共同优化。
- 奖励设计兼顾绝对绩效和专家差异化,避免专家策略趋同,提升群体多样性和风险分散[page::2,3]
---
3. 图表与数据深度解读
3.1 图1 — MM-DREX系统结构示意(页2)
- 图展示三阶段流水线:预训练的VLLM首先处理多模态输入(K线图、时间序列JSON、文本说明),生成市场全息特征。
- 动态路由器接受该特征,调控四个异构专家的权重,专家并行输出策略建议,最终综合形成最终组合决策。
- 训练过程中路由器与专家均启用LoRA模块实现高效微调,红色箭头强调基于专家表现的回传调整机制。
- 该图强调模型解偶架构和端到端训练机制的设计思想[page::2]
3.2 图2 — 多维度数据集比较雷达图(页4)
- MM-DREX 使用数据集覆盖10个全球交易所,涵盖5大资产市场类别,图像数据量22,638张,时间序列点127,474个,设计特征13个。
- 与竞品FinAgent、FinMem、PIXIU相比,在覆盖度和数据广度上具有显著优势,特别是在图像及特征数量上遥遥领先。
- 该图体现所构建多模态长周期跨市场数据集的权威性和多样性,为模型训练和泛化测试奠定坚实数据基础[page::4,17,18]
3.3 表1 — MM-DREX多模态数据集规格(页4)
- 细数具体资产,包括纳斯达克100成分股(15只)、中国A股(10只)、美国及香港ETF(15只)、加密货币两个(BTC、ETH)、期货(20个品种)。
- 时间跨度最长均至2025年中,提供充足的训练样本,涵盖牛熊市和黑天鹅事件。
- 特征涵盖OHLCV、技术指标(如MA、MACD、RSI、KDJ、布林带等),视觉层面有对应指标绘制的图表,文本层面抽取高阶趋势分析摘要。
3.4 表2 — 交易表现与基线对比(页5)
- 横跨A股、美国股市、ETF、期货、加密货币五类资产。
- MM-DREX在总收益(TR)、夏普率(SR)、最大回撤(MDD)三项指标上均显著领先所有传统指标、机器学习、深度RL和其他LLM方法。
- 例如美股牛市中MM-DREX总收益47.5%,高于次优FinAgent的39.34%,夏普比1.83超越PPO的1.73,展现了风险调整后优异收益能力。
- 在高波动的期货和加密市场中,MM-DREX保持强健,防止极端事件导致重大亏损,普遍表现稳定[page::4,5,27]
3.5 图3 & 图11 — 黑天鹅事件下净值表现(页5,31)
- 选取包括COVID-19首次爆发、2021-2022年美联储加息周期、全球贸易战加剧等极端事件。
- MM-DREX净值曲线明显优于标普500基准,尤其在2020年疫情暴跌期跌幅远小于大盘,显示模型出色的风险控制和抗跌能力。
- 补充图11展示后续经济衰退及俄乌冲突等压力期,仍维持强势韧性,支持报告关于多策略动态风险分散的论断。
3.6 表3 — 路由策略对比(页6)
- 比较动态路由、均匀权重、最佳单一专家、随机路由。
- 动态路由的总收益25.75%、夏普1.63、最大回撤14.76%均优于其他方式。
- 均匀权重因无法适时调整权重,带来45.3%更大回撤;
- 单专家策略虽优于随机,但仍表现欠佳,突破单一策略瓶颈。
- 证实动态路由提升非平稳市场下资金配置灵活性和风险分散的重要价值。
3.7 表4 — 多模态输入消融实验(页6)
- 三种输入组合:完整(V+T+L),无视觉(T+L),无时间(V+L)。
- 移除视觉模态使精准率下降了21.9%(25.75%→20.11%),夏普比下降25.8%,最大回撤增加31.2%,显著降低预测与交易表现。
- 视觉与时间序列信息是补充且协同的关系,缺一不可。
- 也体现文本信息虽支持,但视觉及时间序列数据对于精确趋势把握和决策至关重要。
3.8 表5 — 极端行情表现对比(页6)
- 对六大黑天鹅时期的回报率比较,MM-DREX均显著优于标普指数。
- 如2022年加息周期期间MM-DREX收益60.04%,标普输9.67%,难得的市场逆势正收益。
- 说明算法多策略组合和动态切换有效应对市场极端震荡。
---
4. 估值与指标分析
虽然报告未涉及标的估值定价,但深入解释了多个金融指标和模型输入的构成,包括:
- 总收益(Total Return, TR)计算资产净值增长比率,衡量策略整体盈利能力。
- 夏普比率(Sharpe Ratio, SR)衡量风险调整后收益,用平均超额收益除以标准差,指示单位风险的超额回报。
- 最大回撤(Maximum Drawdown, MDD)反映投资组合经历的最大历史峰谷跌幅,强调风险控制。
此外,表格和算法附录部分详细列举了金融技术指标的计算方法与典型交易信号,包括:
- 均线交叉MACD、RSI等动量指标,Bollinger带、KDJ等振荡指标
- 各类深度学习基线模型架构(LSTM、Transformer)、强化学习策略(SAC、PPO、DQN)
- 具体交易策略逻辑与动作空间细节,如趋势跟随、反转策略、多突破策略及仓位管理[page::26,27,9-16]
---
5. 风险因素评估
报告强调多策略融合和动态路由提升了市场适应能力,降低了:
- 单一策略在市场切换期的失效风险
- 极端行情(政治经济危机、疫情、贸易战等)带来的系统性风险
- 由于专家间策略差异化,有效缓解策略同质化导致的风险集中
- 其内置的风险调整奖励函数也提升了回撤控制能力(最大回撤最低至5.56%)[page::5,6]
---
6. 审慎视角与细微差别
- 潜在偏见与假设:模型训练依赖的市场状态标签由定量指标和人为专家联合定义,存在主观性,可能影响模型泛化。
- 视觉模态虽关键,但依赖预设的技术图谱与指标,对于新兴资产或结构性转折的适应能力有待观察。
- 报告侧重于长周期(日内100+日)预测与策略,短期高频波动的应对能力未充分探讨。
- 训练与基线测试部署环境基本一致,保证了公平性,但未涉及实际交易成本、滑点等市场摩擦因素,这些在商业实盘应用中极为重要。
- 批量训练使用大型GPU和72B参数模型,普通投资机构或许难以复制,成本门槛较高。
总体报告结构逻辑自洽,数据量大且全面,实验设计完整,兼顾宏观趋势与子策略微观执行,展现前沿的LLM结合多模态信息技术在金融领域应用的革新意义。
---
7. 结论性综合
本文提出的MM-DREX框架系统性地解决了传统交易模型在非平稳环境下的适应性差、多数据模态利用不足及专家策略单一等难题。通过基于视觉语言模型的动态路由机制,有效融合不同专家模块的交易策略,以实现对市场多变状态的灵活响应和多样化交易部署。其基于混合训练范式的优化机制确保了市场态势识别和专家绩效的协同提升。综合:
- 大规模跨市场、跨资产类别的多模态数据集提供了坚实的训练和评测基础。
- 实验结果显示,MM-DREX在收益率、风险调整后收益和最大回撤控制上均显著优于15个技术分析、机器学习、深度强化学习及其它LLM基线。
- 动态路由机制被验证为关键核心元素,极大提高了模型适应非平稳市场与风险分散能力。
- 视觉信息在多模态融合中证明不可或缺,显著提升市场情绪与趋势识别的精准度。
- 模型对历史黑天鹅事件表现出强劲的下行保护和恢复能力,保证了策略在极端环境中的鲁棒性。
- 可解释性模块增加了策略透明度,便于未来监管审计及策略调整。
综上,MM-DREX开创了一种融合LLM、视觉和时间序列数据、动态专家路由的金融交易新范式,具备极大的理论价值和应用前景,尤其适合复杂动态市场环境与多变资产特色的实盘策略设计[page::0-6,9-18,22,28,31]
---
附录:核心图表引用
— MM-DREX框架概览及训练机制示意图[page::2]
-

— 极端市场情况下MM-DREX和标普500的净值曲线对比[page::5]
-

— MM-DREX整体架构框图[page::30]
-

— 不同LLM厂商在主要资产类别上表现热力图[page::22]
---
综上所述,本报告具备理论深度与实践导向兼备的研究价值,充分展现了多模态大语言模型结合动态专家路由策略在金融量化交易领域的先进性与突破性。