Alternative Loss Function in Evaluation of Transformer Models
创建于 更新于
摘要
本文以机器学习中Transformer与LSTM模型在股票和加密货币时间序列预测中的表现为研究对象,提出使用Mean Absolute Directional Loss (MADL) 损失函数优化投资策略信号生成。通过超过八年的滚动窗口实证测试,结果显示Transformer模型显著优于LSTM和Buy&Hold基准,表现出更高的风险调整收益率和更优的最大回撤指标,证明了MADL函数在算法交易中的有效性和Transformer在金融时序预测中的优势 [page::0][page::1][page::8][page::9]。
速读内容
研究背景与目标 [page::0][page::1]
- 探讨Transformer与LSTM两类深度学习模型在股票和加密货币时间序列预测中的性能比较。
- 引入Mean Absolute Directional Loss (MADL)损失函数,用以提高算法交易策略的信号质量。
- 使用步进式滚动窗口方法,避免过拟合,确保样本外验证的稳健性。
模型架构与超参数设置 [page::2][page::5]
- Transformer模型包含2层多头注意力机制,每层4个头,序列长度为3。
- LSTM模型包含3层,隐藏层神经元数分别为512、256、128,激活函数为tanh,带L2正则化和Dropout。
- 优化器采用Adam,Transformer与LSTM的学习率分别为0.01和0.5。
- 训练周期:Transformer 50 epochs,LSTM 300 epochs。
- MADL损失函数设计用于反映预测方向的准确性及其潜在收益幅度。
投资策略绩效对比(股票市场)[page::8]
| 资产 | 策略 | 年化收益率(aRC) | 年化波动率(aSD) | 最大回撤(MD) | IR (信息比率) | 交易次数(nTrades) |
|------|-------|-----------------|-----------------|--------------|-----------------|-----------------|
| JPM | TRANS | 11.89% | 26.89% | 56.01% | 0.094 | 1672 |
| | LSTM | 6.91% | 27.53% | 54.01% | 0.032 | 1378 |
| | B&H | 11.06% | 36.42% | 70.12% | 0.048 | 2 |
| SPX | TRANS | 6.56% | 14.05% | 30.04% | 0.102 | 1698 |
| | LSTM | 6.25% | 14.64% | 32.42% | 0.082 | 1594 |
| | B&H | 8.29% | 19.22% | 56.78% | 0.063 | 2 |
| XOM | TRANS | 6.56% | 18.89% | 49.35% | 0.046 | 1723 |
| | LSTM | 5.86% | 19.41% | 57.78% | 0.031 | 1290 |
| | B&H | 7.06% | 26.67% | 62.11% | 0.030 | 2 |
- Transformer策略在所有股票资产中表现出最高的风险调整收益率(IR
- 与传统买入持有(B&H)策略以及LSTM相比,Transformer显著提升了策略的稳定性和盈利能力。
投资策略绩效对比(加密货币市场)[page::8]
| 资产 | 策略 | 年化收益率(aRC) | 年化波动率(aSD) | 最大回撤(MD) | IR (信息比率) | 交易次数(nTrades) |
|------|-------|-----------------|-----------------|--------------|-----------------|-----------------|
| BTC | TRANS | 92.86% | 47.12% | 34.53% | 5.301 | 1130 |
| | LSTM | 73.61% | 49.96% | 55.93% | 1.939 | 1254 |
| | B&H | 86.35% | 69.49% | 83.40% | 1.287 | 2 |
| ETH | TRANS | 100.47% | 66.84% | 74.66% | 2.022 | 1031 |
| | LSTM | 80.65% | 64.22% | 71.62% | 1.414 | 1557 |
| | B&H | 93.51% | 92.41% | 93.91% | 1.008 | 2 |
| LTC | TRANS | 36.55% | 62.87% | 78.92% | 0.269 | 1210 |
| | LSTM | 14.45% | 58.93% | 86.84% | 0.041 | 1348 |
| | B&H | 28.98% | 85.48% | 93.45% | 0.105 | 2 |
- 加密货币市场中,Transformer策略的年化回报和信息比率均优于LSTM和买入持有策略。
- 最大回撤指标显示,Transformer策略在波动性更大的市场环境中表现更为稳健。
回测实证图示与结论 [page::9]

- 六大标的的权益曲线显示Transformer策略的累计收益优于其他比较策略。
- 该方法的成功验证了MADL损失函数和Transformer架构在算法交易中应用的有效性与前景。
研究贡献与未来展望 [page::9][page::10]
- 首次系统地将MADL损失函数应用于Transformer与LSTM结合的算法交易中。
- 使用严格的步进滚动窗口方法,长达九年以上的样本外测试增强结果可信度。
- 为金融监管和策略透明化提供理论依据,促进对算法交易模型评估标准的探索。
- 建议未来研究进一步数据频率拓展、超参数灵敏度测试以及MADL的函数改进。
深度阅读
报告详尽分析报告:Alternative Loss Function in Evaluation of Transformer Models
---
一、元数据与概览
- 报告标题:Alternative Loss Function in Evaluation of Transformer Models
- 作者:Jakub Michan´ków(Triple Sun, Krakow, Poland)、Paweł Sakowski(University of Warsaw, Dep. of Quantitative Finance and Machine Learning)、Robert S´lepaczuk(University of Warsaw, Dep. of Quantitative Finance and Machine Learning)
- 日期:最新数据截止2024年10月(具体发布日期未明,但内容更新到了2024年中)
- 研究主题:应用新的损失函数(Mean Absolute Directional Loss, MADL)评估Transformer模型在金融量化交易中的预测能力,并与经典LSTM模型进行比较,实证分析股票与加密货币市场的表现。
核心论点:
本研究提出了MADL作为更适合算法投资策略中预测模型训练和评估的损失函数,并通过对比Transformer和LSTM两种神经网络模型,在股票和加密货币两个资产类别中进行了长时间窗的实证测试。结果表明,Transformer模型在MADL的指导下表现显著优于LSTM及传统Buy&Hold策略。
---
二、逐节深度解读
1. 引言(Introduction)
- 报告定位于机器学习(ML)与量化金融的结合点:选择合适模型架构和损失函数构造高效的投资交易信号。
- 争论焦点为Transformer模型是否适用于时间序列预测:研究中利用实证数据对Transformer和LSTM进行比较。
- 研究对象涵盖两类资产——股票(如JP Morgan,S&P500,Exxon Mobil)和加密货币(BTC, ETH, LTC)。
- 使用步进滑窗(walk-forward)验证,兼顾训练期和长时间的测试期,以保证结果的泛化能力。
- 评估指标涉及风险调整收益、回撤、权益曲线等。
这一部分明确指出研究问题与方法论基础,强调实证对话科学界对Transformer适用性的争议。[page::0]
2. 文献综述(Literature Review)
- Transformer模型基于自注意力机制,强化了长距离依赖关系捕捉,已被广泛用于自然语言处理(NLP)和部分时间序列预测领域[18]。
- 研究指出,简单模型在某些时间序列任务中可能优于复杂Transformer[23],但也有不少研究证实改进版Transformer或结合结合CNN等创新结构在金融时间序列预测中取得显著优势[19][24][13]。
- LSTM与注意机制结合的研究(如[16][26])表现良好,能超越传统统计模型如ARIMA。
- 突出当前算法交易研究中常见缺陷:如过拟合、使用不适损失函数、数据泄漏、未扩展样本窗口、性能评估不完整等,这使得已有成果可信度受限[1][4][7][12]。
- 报告提出细致的方法以避免上述缺陷,增强结果的有效性和稳健性。
本节强化了采取MADL损失函数和步进滑动验证步奏的必要性,旨在解决当前领域方法论漏洞,增加研究信度。[page::1]
3. 方法与数据(Methodology and Data)
3.1 Transformer模型架构
- 基于Transformer原始设计[18],重点解释自注意力机制的工作原理及其优势。
- Transformer允许对输入序列的不同部分赋予不同关注度(注意力),并通过并行架构实现高效训练。
- 时间序列预测中通常只使用Decoder部分,以自回归形式预测未来时点。
- 介绍两种核心注意力机制:Scaled Dot-Product Attention和Multi-Head Attention,并解释Q(查询)、K(键)、V(值)的意义及其在时间序列上的映射。
- 多头注意力通过多个并行注意力头捕捉序列中不同子空间的依赖关系,提升学习能力。
3.2 LSTM模型简介
- LSTM是一类带记忆单元和门控机制的循环神经网络,适合捕捉短中期时间依赖,但顺序计算限制并行训练。
- LSTM模型具有较强的序列处理能力,但对长序列的长期依赖捕捉不及Transformer。
图示部分(见附图2、3)加强了两者结构对比和理论基础理解。[page::2][page::3][page::4]
3.3 模型超参数与训练
- Transformer模型设置:两层多头注意力层,每层含4个注意力头,序列长度为3,输出单神经元。
- LSTM设置为三层,神经元数分别为512、256、128,激活函数为tanh,配合L2正则化和dropout提高泛化能力。
- 优化器采用Adam,Transformer学习率设为0.01,LSTM为0.5(说明Transformer训练较为温和),序列长度均为4。
- 采用扩展窗口与滚动滑动方法,每次训练用一年数据,测试随后一年数据,迭代扩展至最长四年训练窗口。
- 训练时Transformer使用50 epochs,LSTM使用300 epochs,保存最优模型参数。
表1详细列出了超参数,体现两模型设计差异及训练策略。[page::5][page::6]
3.4 损失函数简介:Mean Absolute Directional Loss (MADL)
- MADL旨在衡量预测方向与实际收益方向的一致性,注重方向正确率及相关收益幅度,计算方式结合符号函数和绝对值函数。
- 损失函数表达式:
$$
\mathrm{MADL} = \frac{1}{N} \sum{i=1}^N (-1) \times \mathrm{sign}(Ri \times \hat{R}i) \times |Ri|
$$
其中
- $Ri$为实际收益
- $\hat{R}i$为预测收益
- 该函数负值代表策略整体盈利,正值预示亏损,直观反映交易方向正确性与收益相关性。相比均方误差等传统指标,MADL更聚焦投资策略结果相关的“方向优先”目标。
- 本研究采用MADL作为训练损失函数和模型性能评价标准,改善了模型在投资策略上的实用性和稳定性。
该损失函数特点符合量化交易领域对“方向预测重要性”的需求,是本文提出的核心贡献点之一。[page::6][page::7]
3.5 性能衡量指标
- 采用多种风险调整指标,保障全面评价策略表现,包括:
- 年化复合收益率 (aRC)
- 年化收益标准差 (aSD)
- 最大回撤 (MD)
- 最大亏损持续时间 (MLD)
- 信息比率的三种版本(IR, IR, IR),其中IR权重较重,综合收益与风险及回撤致使其成为最重要指标。
- 指标公式详尽,确保结果解读可追溯并基于数学定义。
此部分指标系统严谨,符合金融量化研究标准,提升结果分析有效性。[page::6][page::7]
3.6 计算环境与耗时
- 使用R和Python语言,结合Keras及TensorFlow深度学习框架。
- 硬件配置为中高端桌面级CPU+GPU配置,15分钟可以训练完成一次完整训练流程(包含N轮迭代×50 epochs)。
- 说明实验可复现且在实务层面可接受。
---
4. 结果分析(Results)
4.1 股票市场(Equity)表现
- 表2列出了三个股票资产(S&P500,JP Morgan,Exxon Mobil)三种策略表现:Buy&Hold (B&H),LSTM,Transformer。
- 关键发现:
- Transformer在所有风险调整表现指标中(IR、IR、IR)均优于LSTM和B&H策略。
- 年化复合收益率方面,Transformer多数高于LSTM,并有相对稳定的年化标准差与较低最大回撤。
- 交易频次(nTrades)更多,表明模型灵活反应市场变化。
- 图4左侧面板展示权益曲线,Transformer线路稳定上升明显优于LSTM和B&H,视图强化数据表论据。
4.2 加密货币市场 (Cryptocurrency)
- 表3展示BTC, ETH, LTC表现,类似结论:
- Transformer取得最高年化收益率及信息比率,且波动率及最大回撤明显小于B&H和LSTM。
- 特别是在BTC上,Transformer策略年化收益达92.86%,信息比率(IR)高达5.301,远超对比模型。
- 加密货币市场波动剧烈,Transformer模型依然展现较强的风险调控与收益能力。
- 图4右侧面板权益曲线佐证表格结论,Transformer曲线整体领先且更平滑。
数据和图形的结合阐释了Transformer结合MADL损失函数,在现实金融资产中带来的显著优势。[page::8][page::9]
---
三、图表深度解读
图1(Transformer结构示意)
- 展示Transformer模型,输入层经嵌入和位置编码进入多层多头注意力和前馈神经网络,输出层通过线性层及Softmax生成概率分布。
- 示意图加强对模型自注意力机制的理解,有助于说明Transformer如何高效处理时序数据中长期依赖关系。
图2(Scaled Dot-Product Attention与Multi-Head Attention)
- 左图为Scaled Dot-Product Attention,展示查询Q与键K的点积乘积经过缩放和softmax映射,后乘以值V编成输出。
- 右图为Multi-Head Attention,多头机制并行执行多组缩放点积注意力,输出通过拼接和线性变换融合。
- 图示强化了文本中Q,K,V与多头注意力机制的数学与实现细节解释。
图3(LSTM结构)
- 表达LSTM内部的记忆单元和门控机制:输入门、遗忘门、输出门,说明信息流的计算过程。
- 说明LSTM如何捕获短、中期依赖及处理序列数据的逻辑。
图4(权益曲线)
- 六个面板,分别显示JPM、SPX、XOM、BTC、ETH、LTC基于Transformer、LSTM及Buy&Hold三种策略权益变化。
- Transformer策略曲线整体走势优异,波动较小且持续攀升,表明更高风险调整后的收益表现。
- 视觉上支持理论陈述和数据统计结果,为报表提供直观印证。
以图片形式呈现各资产权益曲线,直观展示策略稳定性及优越性,是理解策略实用效果的关键。[page::2][page::4][page::9]
---
四、估值分析
此报告主要聚焦模型预测与交易策略性能评估,并未涉及估值分析内容(如DCF、PE等),故本部分不适用。
---
五、风险因素评估
报告未细致展开未来可能风险,仅在文献部分间接提及常见的模型风险,如过拟合、过度优化、数据泄漏、前瞻性偏差、数据淘汰偏差等。这些风险通过严谨的训练测试设计(滑动窗口,长期样本及多资产)进行了防范,体现较高严谨度。
隐含风险包括:
- MADL损失函数存在某些非可微区域[14],这可能对模型训练稳定性产生影响;
- 模型训练的超参数选择对最终性能有较大影响,未来需拓展敏感性分析以降低结构性风险;
- 高频率交易及市场微结构变化未被考量,实务操作中可能带来滑点与交易成本风险。
报告对风险的缓解策略主要是通过严格的实证设计和交叉验证,但对实际操作风险没有专门论述。[page::1][page::10]
---
六、批判性视角与细微差别
- 报告模型训练中LSTM的学习率为0.5,远高于Transformer的0.01,可能影响两者训练效果的公平比较,缺少对此参数选择背后的详细说明与敏感性分析。
- 探讨MADL作为损失函数虽具创新,但非全局可微的特性可能导致优化过程复杂,若无适当技术处理,结果稳定性可能受限。
- 表格中交易次数差异明显(Transformer通常交易频次更高),这或导致隐含较高交易成本,未在绩效指标中考虑交易费用对最终净收益的影响,实际效果有待验证。
- 文献回顾提到部分文献批评Transformer不适用于时间序列,但报告未深入反驳部分观点,仅通过实证数据站队支持Transformer,争议面仍存在。
- 结果集中体现Transformer优越表现,缺乏对极端市场环境下模型鲁棒性的特别测试(如金融危机、行情剧烈波动等)。
整体来看,报告的实验设计与结果完备严谨,有很强的说服力,但在模型公平性、成本因素及极端环境适用性等方面仍存进一步完善空间。[page::1][page::5][page::10]
---
七、结论性综合
本报告成功地通过设计并应用专门针对算法投资策略的Mean Absolute Directional Loss(MADL),结合步进滑动数据分割法和长周期跨资产实证,验证了Transformer模型相较于传统LSTM及买入持有策略的明显优势。
主要结论如下:
- Transformer模型通过自注意力机制有效捕捉长期时间依赖,提升了未来收益方向的预测准确性,特别是在量化交易策略信号生成中表现优异。
- MADL损失函数聚焦方向正确性和潜在收益的结合,使模型训练更贴合实际投资需求,提升了策略的风险调整后回报。
- 实证覆盖股票和加密货币两类别资产,均展现Transformer在年化收益、风险控制(标准差、最大回撤)、信息比率(三种版本)方面的消耗成果。
- 权益曲线图直观展示Transformer策略更高稳健性和持续性盈利能力。
- 研究运用严格的模型测试程序,包括跨年训练、长期滑动窗口测试,较好避免了过拟合和数据泄露问题,确保结论的外推性和稳健性。
- 报告还展望了其对政策的影响,如金融市场监管可能需关注AI算法交易的风险及透明度管理,促进公平技术接入。
- 后续研究方向建议深化敏感性分析、拓展更广频率和资产类型验证、以及继续优化MADL函数的数学性质。
图表见解总结:
- 表2和表3汇总了6个资产在Transformer、LSTM及B&H三种策略下的关键指标,Transformer在全部指标均表现最优,尤其信息比率显著高于其他方法。
- 图4的权益曲线支持数值结论,Transformer策略曲线波动更小且增长更平稳。
- 图1至图3提供的模型结构与机制示意,有效帮助理解Transformer的优势来源及对比LSTM的局限。
综上,报告以严谨的数据驱动方法和创新的损失函数设计,证实Transformer模型在量化投资领域的适用性和优越性,贡献显著且具备实践参考价值。[page::0-10]
---
总结
本文通过创新的MADL损失函数及严格的longitudinal实验设计,系统性比较了Transformer与LSTM两类深度神经网络在股票和加密货币交易信号生成中的表现,彰显Transformer结合MADL产生的投资策略在风险调整收益上的明显优势。研究兼顾理论与实践,既为金融机器学习领域内Transformer的应用提供了实证支持,也为算法投资策略的构建和评估提供了新的思路和方法,具有较高的学术价值和应用潜力。
---
(完)