Multimodal Language Models with Modality-Specific Experts for Financial Forecasting from Interleaved Sequences of Text and Time Series
创建于 更新于
摘要
本研究提出了一种基于模态专家的统一多模态架构MSE-ITT,针对交织的金融新闻文本与股价时间序列进行建模,通过设计跨模态对齐目标SALMON及动态显著词加权机制STW,实现了文本与时间序列的深度融合与联合推理。在大规模金融预测任务中刷新多项指标表现,并通过案例分析展示模型在语义歧义和情感理解上的优势,最终投资模拟也体现出显著经济效益 [page::0][page::1][page::5][page::7][page::8]
速读内容
模态专家多模态架构设计及优势 [page::0][page::2][page::6]

- 引入模态特定专家(Text和Time Series独立QKV和MLP层),有效捕捉两个模态的内在特征,减少交叉干扰,实现联合自注意力建模。
- 采用交叉模态注意仅在深层网络中使用,使底层专注模态特定特征学习,提升性能;离散化时间序列输入,增强鲁棒性。
- 该设计使基础语言模型能力保留同时增添时间序列感知能力,提升理解财经文本和价格数据的协同效果。
跨模态对齐框架SALMON及显著词加权STW机制 [page::4][page::6]

- SALMON通过预测交织序列中下一文本及时间序列token,实现跨模态联合训练,增强表征对齐。
- STW动态赋权机制基于对比估计,将模型文本预测概率增加最多的词赋予更高权重,聚焦于对时间序列信息敏感的显著信息词。
- 该机制显著提升语言理解和下游预测表现,消除冗余词的训练噪声,优化多模态对齐。
量化实验与基准对比结果 [page::5][page::6]
| 模型类别 | 模型 | 基础LM | 输入模态 | 7日AUC(%) | 30日AUC(%) |
|------------|-----------------------|-----------|------------|----------|-----------|
| Zero-ShotLLM | GPT-4o Direct (Williams et al.) | GPT-40 | text, ts | 52.09 | 52.71 |
| Unimodal | Text-Only (Chen et al.) | Llama3-8B | text | 53.76 | 54.13 |
| MMTSF | TTSR (Chow et al.) | Mistral-7B| text, ts | 55.93 | 56.17 |
| SFF | MTFE-MICM (Koval et al.) | BigBird | text, ts | 55.44 | 54.49 |
| Proposed | MSE-ITT | Llama3-8B | text, ts | 57.94* | 58.48 |
- MSE-ITT显著超越包括多种零样本LLM策略和最先进多模态/金融专用模型,7日和30日预测任务AUC均领先,提升具有统计学显著性。
- Ablation验证了SALMON预训练和STW加权机制对性能的增益,独立设计的模态专家结构和交叉注意层位置对模型表现有显著贡献。
真实案例分析与语义解释 [page::7][page::8]
- 以辉瑞-艾尔干合并案为例,展示MSE-ITT模型如何结合历史新闻与股价走势,实现对情感歧义事件的正确语义推断。
- 模型通过联合推理消除文本孤立判断误差,预测合并终止对股价的积极影响,显著优于单模态文本或时间序列模型。
- 使用金融情感词典分析,模型对具有情感色彩的词汇从时间序列中获益最大,验证STW机制的合理性和必要性。
投资模拟表现 [page::8]
| 方法 | 净收益(%) | 波动率(%) | 净夏普比率 |
|-----------------|----------|----------|-----------|
| TS-Only | 5.99 | 13.11 | 0.46 |
| Text-Only | 8.60 | 10.47 | 0.82 |
| TTSR | 12.37 | 11.28 | 1.10 |
| Hybrid-MMF | 11.60 | 10.19 | 1.13 |
| Proposed MSE-ITT| 17.01 | 11.26 | 1.51 |
- 构建市场中性多空组合,纳入交易成本保守估计,MSE-ITT投资策略带来最高净收益与净夏普比率,表现出强大的经济价值。
- 实验覆盖多种市场周期,验证方法的稳定性和实用性。
深度阅读
金融多模态语言模型研究报告深度分析
---
1. 元数据与概览
报告标题:
Multimodal Language Models with Modality-Specific Experts for Financial Forecasting from Interleaved Sequences of Text and Time Series
作者及机构:
Ross Koval、Nicholas Andrews、Xifeng Yan
加州大学圣塔芭芭拉分校(UCSB)与约翰霍普金斯大学等
发布时间点:
报告最新版本集中在2024年及之后的数据和文献引用,技术和实验截至2024年初至中期。
研究主题:
本报告聚焦于金融领域的多模态数据融合,尤其是将文本(新闻报道)与时间序列数据(日度股票回报)进行交织式序列联合建模,以提升金融市场短中长期的股价变动预测准确性。
报告核心论点与贡献:
- 提出了一种基于模态专属专家模型(MSE-ITT)的统一神经网络架构,实现文本与时间序列数据的深度融合分析。
- 引入了跨模态对齐框架(SALMON)与动态显著性权重机制(STW),提升多模态交互学习,侧重于对价格与新闻关联最强的重要文本token赋予更大权重。
- 通过大规模实证测试,显著超越当前多种单模态及多模态强基线,且在投资模拟中体现经济价值。
- 同时开发了模型解释方法,揭示时间序列上下文对语言理解的贡献,进一步强化设计合理性与应用前景 [page::0,1,5,6,7,8]
---
2. 逐节深度解读
2.1 引言与背景(1章)
报告指出,文本与时间序列数据提供互补视角:新闻讲故事式描述公司事件,股价则体现市场对事件的反应。两者时间对齐但语义迥异,联动建模可提升理解和预测能力。
核心观点:
- 时间序列反映投资者行为模式(包括认知偏差)和因果动态,即市场如何响应新闻。
- 新闻文本提供历史和前瞻信息,能支持模型理解市场上下文的复杂因果关系。
- 联合建模可学习文本与价格间跨模态交互和上下文依赖,从单一模态无可比拟。[page::0]
2.2 挑战与解决方案方案概述(2章)
- 时间序列与文本的本质差异(结构、连续性、频率不均)使得简单将数值转文本的策略难以捕捉内在规律,且预训练LLM天然集中于离散语言文本,不适合直接处理时间序列。
- 模块化设计理论:引入模态专属专家组件,既保证文本预训练能力不被破坏,又具备解析时间序列内在规律的能力。
- 提出MSE-ITT架构与SALMON跨模态对齐目标,及动态显著性加权机制(STW),以提升时间序列上下文对关键文本token的辅助预测能力。
- 希望研究成果激励其他领域(如气候、医疗)处理此类多模态时序数据应用 [page::1]
2.3 相关工作(2章)
- 回顾LLM在多模态领域(视觉、语音等)已有突破,但时间序列的解读仍存在瓶颈,零次学习或微调时常受限,需要专门编码策略支持。
- 现有方法多采用:
1. 时间序列转文本或向量作为上下文条件,令LLM预测,但牺牲了对时间序列的专属建模能力。
2. 固定语言模型抽取文本特征,输入单独时间序列模型,但阻碍深层跨模态推理。
- 金融领域已有运用语言模型预测股价趋势的研究及基于历史价格模式的分析,但多模态模型通常采用“后期融合”,难以挖掘深层次交互。
- 报告提出了实现早期融合和跨模态深度推理的新方案 [page::1]
2.4 问题定义与数据描述(3章)
- 交织序列输入包括:
- 时间序列输入:过去一年的每日股价回报(252个交易日);
- 文本输入:过去一年内某公司最新的10篇新闻文章文本。
- 预测任务:基于当前时点$t$预测未来7天和30天内股价涨跌方向(二分类),评价指标以AUC衡量连续概率预测的效果。[page::2]
数据集:
- 使用英文FNSPID金融新闻数据集覆盖3000+家美国上市公司,含多渠道新闻。
- 数据按时间分为训练(2010-2017)、验证(2018-2019)、测试(2020-2024)三部分,样本量、公司数均详见表1。[page::2]
2.5 模型架构——MSE-ITT模型设计(4章)
- 采用基于Llama3-8B自回归语言模型的稀疏专家网络(Mixture-of-Experts, MOE)设计,详情见Fig.1。
- 每层引入模态专属参数(层归一化、查询键值投影QKV、多层感知机MLP),分别独立处理文本和时间序列隐状态,避免模态间干扰。
- 采用选择性交叉模态注意力机制(仅在网络后半层16-32层实行),早期层专注局部、模态专属特征学习,后期层跨模态推理,减少对语言理解低层次特征的干扰。
- 输入设计为时间顺序的交织token序列:股票回报离散化为若干bin的离散token,新闻文章为文本token,统一编码为embedding序列。
- 保留基于旋转位置编码的相对位置,利用输入序列自然时序结构,支持变长不规则事件间隔 [page::2-4]
2.6 跨模态对齐框架SALMON与显著性加权机制STW(4.2节)
- SALMON构建联合预测任务,目标为预测下一个文本token和下一个时间序列token,以交叉熵损失训练。
- 文本部分参数冻结,TS新加参数微调,促使模型在不破坏语言理解能力的情况下学习时间序列特征并实现多模态对齐。
- STW动态赋权机制基于对比估计(Token预测概率相比于文本独立版),挑选对时间序列辅助敏感的文本token(如具市场情绪色彩的词)给予更大权重,提高模型对关键因果关系的捕捉能力。
- 训练初期权重统一为1,逐步放宽,避免权重不合理导致训练不稳定。
- 图4直观显示注释了令权重提高的与股价变化强关联的新闻词汇,如"slumping"和"surged sharply",[page::4]
2.7 实验设计与基线(5章)
- 全面选择基线:
- 零次学习LLM基线:GPT-4o,通过多种prompt策略(直接预测与Chain-of-Thought)验证模型对文本及转换后的时间序列文本的处理能力;
- 单模态基线:纯文本与纯时间序列模型;
- 多模态时间序列预测基线:TaTs、TTSR、TimeMDD等最新模型;
- 金融专用多模态预测模型:FinMA、MTFE-MICM、StockTime等。
- 训练调优细节整体遵循严谨流程,裁剪参数与学习率调节均在附录详细说明。 [page::5,6]
2.8 实验结果及消融分析(6章)
关键发现:
- MSE-ITT模型在7D与30D预测任务均显著优于所有基线(示例:30D AUC达58.48%,其他最好多模态基线仅约56-57%),且统计显著(DeLong检验
- 神经网络层模态专属专家设计显著降低语言模型损失(LM Loss从2.20降至1.78),提升预测能力。
- SALMON预训练目标使模型混合模态能力提升,STW机制在此基础上带来进一步性能提升,验证了显著词权重要性。
- 交叉模态注意力仅后半层的设计有效,早期层交叉注意力会削弱性能,验证了模态层级处理假设。[page::5-7]
2.9 模型分析与案例研究(7章)
- 以2015-2016年辉瑞与Allergan拟合并事件为案例,展示模型如何结合新闻文本与股票市场动态,通过因果推理解决单一模态无法辨识的语义歧义。
- 该事件中,终止合并消息文本负面,单纯文本模型错误预测负收益,单纯价格模型亦误判,MSE-ITT模型准确捕获上下文反转的积极含义,预测正收益概率由0.32提升至0.79。
- 通过对金融词典Loughran-McDonald分词类别分析,发现时间序列上下文对情绪词(积极、消极、诉讼性词等)的预测提升最大(权重达2.17倍以上),而对停用词则表现为负面价值(0.71),有效体现SALMON与STW设计的合理性。
- 投资模拟表明,基于MSE-ITT预测构造的市场中性多空投资组合,考虑交易成本后年化策略收益17.01%,显著高于最优基线13.91%,夏普率1.51亦明显领先,体现模型实际经济应用潜力。[page::7-8]
2.10 报告结论与局限(8~9章)
总结:
- 本研究首次系统构建了基于模态专属专家的统一多模态语言模型,成功融合时间序列与文本,实现跨模态深度推理与联动学习,提升金融预测性能及经济效益。
- 采用显著性动态加权的跨模态对齐策略,有效缓解模态噪声,重点关注辅助性强的关键文本信息。
- 该模型架构及训练范式具备跨领域迁移潜力(如医疗、气候等领域),期待未来扩展。
局限:
- 实验限定于英语财务新闻与美国股市,文本与时间序列数据类型及市场结构差异可能限制一般化。
- 投资模拟虽包含保守交易成本估计,真实交易需考虑更复杂的执行风险和策略管理。
- 报告特别提醒,财经预测系统为研究用途,投资组合表现仅供示范,不构成投资建议。 [page::8-9]
---
3. 图表深度解读
图1(page 0):MSE-ITT模型架构示意图
- 该图展示了交织序列输入在两条模态专属路径(文本-红色,时间序列-蓝色)中的处理流程。
- 底层:输入由离散化时间序列token与文本token按时间顺序排列。
- 中间层:加入模态专属专家,分别进行嵌入转换及QKV投影。
- 顶层:通过选择性交叉模态注意力实现联合推理,输出各自模态的多层感知机(MLP),最后完成预测。
该设计清楚划分模态责任,避免先验冲突且高效利用预训练语言模型能力,[page::0]
图2(page 4):SALMON跨模态对齐示意及示例
- 图中左侧图展示股价时间序列上下起伏,右下则是对应新闻中的情绪词汇重点标注(例如红色“slumping”对应价格下跌,绿色“surged sharply”对应上涨)。
- 该图形象体现STW机制针对有明显财务含义和股价变动相关联的词,动态加权放大影响力,驱动跨模态对齐。
- 结合概率对比计算,量化了跨模态时间序列信息对文本token的重要性赋值。[page::4]
表1(page 2):数据集统计
- 详细展示训练、验证、测试集的数据采集周期(分别2010-2017、2018-2019、2020-2024),样本数量分别为约15.5万、3.7万、11.5万篇新闻,覆盖公司数从2591至3564不等。
- 反映数据规模广泛、时间跨度充分,有利于模型学习长期演化规律。[page::2]
表2(page 5):主流模型比较结果
- 按类别展示零次学习LLM基线、单模态、专门多模态时间序列模型、多模态金融预测模型,及本报告提出MSE-ITT模型结果。
- MSE-ITT在7D和30D预测均实现最高AUC(57.94%与58.48%),且统计显著优于多模态强基线如TTSR、Hybrid-MMF。
- 明确表明妈态专属、联合训练设计的技术领先性与实际性能增益。[page::5]
表3(page 6):SALMON及STW模块消融结果
- 展示MSE-ITT在无SALMON预训练、仅SALMON无权重调整、以及SALMON+STW三种条件下的性能,分别是7D:56.93%、57.56%、57.94%,30D:57.14%、57.89%、58.48%。
- 显示两部分设计均显著提升模型性能,STW机制带来最后的改进,验证预训练及动态加权机制的效用。[page::6]
表4(page 7):参数共享与模态专属专家架构对比
- 对比文本单模态及多种参数共享方式(共享QKV、参数共享MLP等),以及不同层级跨模态注意力结构。
- MSE-ITT(模态专属专家+后半层跨模态注意力)在语言模型损失(LM Loss)指标和30D预测准确率均实现最佳(LM Loss最低1.78,30D最高57.14%)。
- 进一步体现了专属专家减少跨模态干扰、提升两模态性能。[page::7]
表5(page 8):不同词类从时间序列获得的预测增益
- 采用金融领域权威词典对词汇类别分类,计算跨模态时间序列情境对词频预测的“似然比”,数值体现时间序列对词汇预测帮助程度。
- 发现停用词(Stop Words)得分最低(0.71),非情感词1.45,情绪词高达1.83,且情感强词(积极2.17,消极1.74,诉讼性1.76)提升最显著,特别是弱模态词(Weak Modal)意外高达2.95。
- 说明时间序列显著辅助理解涉及投资者情绪及市场变化的词汇,提高文本解析的准确性和细粒度语义捕捉。[page::8]
表6(page 8):投资组合模拟业绩
- 模拟构建基于模型预测的每月多空市场中性组合,列出净收益率、年化波动率和净夏普比率,考虑估计交易成本后的净表现。
- MSE-ITT领先,年化净收益17.01%,夏普比1.51,稳健优于最佳多模态基线StockTime(13.91%,1.10)和纯文本、纯时间序列基线。
- 表明性能提升转化为实际经济收益,模型具备强的实用应用潜力。[page::8]
图3(page 7):辉瑞-Allergan并购事件新闻与市场响应示例
- 通过事件时间轴对应不同时点新闻标题及股票收益率,展示市场如何对逐步披露的交易消息反应,从低迷到反弹。
- 对比文本单一模型、时间序列单一模型与MSE-ITT联合模型不同预测分值差异,体现多模态方法通过整合上下文解决文本字面含义的语义歧义,实现准确金融事件解读。[page::7]
---
4. 估值分析
本报告不涉及传统的企业估值财务模型(如DCF、P/E等),其目标为基于多模态数据提升股价方向性预测准确率。其“估值”主要体现在:
- 采用基于概率输出的分类模型,利用AUC衡量预测精度;
- 通过投资组合效果衡量预测模型的经济价值,间接体现模型预测的投资回报潜力;
- 模型性能提升来自深度神经网络结构改进与专门设计的预训练任务,而非传统财务指标估值。
---
5. 风险因素评估
- 数据质量风险:金融新闻和价格数据噪声大,且时间序列值转离散存在信息丢失风险,不过报告通过对新闻筛选和时间序列离散化设计做了缓解。
- 模型泛化风险:实验仅覆盖英语美国上市公司,结果在其他语言、市场环境中可能表现不佳。
- 训练稳定性风险:对显著性权重计算依赖初期模型能力,采用warm-start策略降低训练震荡风险。
- 实际交易风险:模拟投资组合未涵盖实时交易执行、流动性等复杂变量,实际应用中交易成本与市场冲击可能影响收益。
- 潜在偏差风险:模型依赖历史数据进行训练,可能无法充分捕捉未来市场新兴事件或剧烈环境变化。
报告在第9页明确指出局限性,并呼吁未来研究深入解决上述问题。[page::8-9]
---
6. 批判性视角与细微差别
- 依赖已有预训练模型:虽然利用Llama3-8B大幅提升语言能力,但该基础模型在金融专业语境下的语言理解可能有偏差,虽有专属专家设计缓解,但仍存在预训练偏差。
- 权重机制假设:STW基于对比学习定义“显著性”,但实际重要词不一定完全与时间序列动态相关,此假设可能略显理想化。
- 结构设计选择:虽有消融实验支持,但选择跨模态注意力只在深层施加,是否适合所有市场/文本类型仍需进一步验证。
- 实验聚焦单一模态数量:核心实验采用单变量时间序列,尽管附录有多变量尝试,但多变量实际应用复杂度及效用尚待进一步评估。
- 标签设计简化:预测为涨跌二分类,忽略了涨跌幅度、波动率等更复杂的金融信息,实际应用中可能局限。
总体,报告设计合理,论证充分,潜在假设均有实验支撑,缺陷主要集中于实际部署环境和泛化能力问题。[page::6,9]
---
7. 结论性综合
本报告系统地提出并验证了MSE-ITT模型,一种结合了模态专属专家机制与跨模态对齐预训练的先进多模态语言模型,专门用于金融领域文本和时间序列数据交织序列的联合建模与股价方向预测。主要贡献和成果包括:
- 模型创新:
- 设计了支持文本和时间序列各自特点的模态专属专家组件,显著减少模态干扰,增强两类数据的特征提取能力。
- 开发并验证了选择性交叉模态注意力机制,有效提升后期层的多模态交互效率,避免浅层噪声干扰。
- 引入SALMON跨模态联合建模目标及动态显著性加权STW策略,针对性强化时间序列对关键文本token的辅助作用,提升多模态对齐与表示能力。
- 实验验证:
- 在美国3000多家上市公司历史财务新闻及股票数据上进行大规模严格测试,MSE-ITT超越多模态和单模态强基线,AUC提升显著。
- 结合投资组合模拟,经济收益率和风险调整后夏普比率均领先,切实展现模型金融实用价值。
- 通过案例分析明确展示模型的跨模态推理能力和对历史上下文的深刻理解,弥补单一模态的潜在认知盲点。
- 图表深读支持观点:
- 图1-3清晰呈现模型架构、跨模态交互及实际事件预测的优势。
- 表1-6的数据统计、性能比较、多样化实验与投资回报指标全方位佐证设计合理性。
- 表5对金融词汇的分类权重分析深化对模型显著性加权机制的理解,理论与实证相互映衬。
- 前瞻意义:
- 本模型框架可扩展至多变量时间序列及其他跨模态时序领域,潜力巨大。
- 研究强调传统LLM对时间序列的天然不足,呼吁结构性设计与模态感知方法的必要性。
- 提供基础代码与开源资源,教学意义强,实用性佳。
总体立场:作者积极推荐MSE-ITT及SALMON框架作为未来多模态金融预测研究和应用的有力工具,评级倾向于“强烈推荐”,目标价论述不适用。[page::0-9]
---
附录
- 实验细节完善,诸如学习率、硬件、训练规模等解释清晰(A.8)。
- 多变量时间序列扩展实验表明模型具备良好的泛化拓展能力(A.9)。
- 数据预处理和样本构造过程详实,确保训练数据质量与代表性(A.4)。
- 详细说明与公开大量参考文献,研究背景扎实、技术路线前沿。[page::12-14]
---
总结
本报告通过深入且系统的设计与实证,破解了金融文本与时序数据联合建模的核心难题,展现了多模态语言模型在金融预测领域的卓越潜力与价值。模型结构创新,跨模态学习机制严谨有效,实验结果稳健可信,经济模拟有力支持理论成果,可为金融智能决策与跨领域多模态时序解析树立新的标杆。
---
(全文完)