`

Comparing Normalization Methods for Portfolio Optimization with Reinforcement Learning

创建于 更新于

摘要

本论文针对利用强化学习进行投资组合优化中的状态归一化问题,比较了三种归一化方法在不同市场(IBOVESPA、NYSE和加密货币)上的表现。研究发现,相较于传统的状态归一化,先对数据进行归一化再训练的方式能更好地保留资产真实价值信息,显著提升了agent的收益表现和稳定性,且市场波动越大该方法优势越明显。结果同时揭示了状态归一化易导致agent过拟合和模型性能波动较大的缺陷,为后续基于RL的量化投资研究提供了重要参考 [page::0][page::4][page::5][page::6][page::7]。

速读内容


强化学习在投资组合优化应用框架介绍 [page::0][page::1][page::2]

  • 利用基于策略梯度的强化学习算法,通过卷积神经网络(EIIE架构)处理资产时间序列,实现连续调整资产配置权重。

- 状态包含多维价格特征(收盘价、高价、低价),动作为组合权重向量,奖励函数设计为投资组合收益的对数收益率。
  • 该强化学习框架具备在线学习能力,能够动态适应市场变化。


状态归一化 vs 数据归一化方法比较 [page::3][page::4]

  • 状态归一化:包括“以最后收盘价归一化”和“以最后价格归一化”,均基于时间窗口内的相对价格变化,可能导致丢失资产绝对价格信息。

- 数据归一化:先对时间序列整体除以最大绝对值,训练时提供资产历史真实价位参考,便于识别估值偏离。
  • 研究假设数据归一化能提升agent的表现,尤其在高波动市场中优势更明显。


三个市场的实验设计与超参数设置 [page::4]

  • 市场:NYSE(11只美股)、IBOVESPA(10只巴西股票)、加密货币(9种主流币)。

- 训练周期与测试周期覆盖不同时期,包含疫情危机和加密货币近年行情波动。
  • 超参数如学习率、批量大小、时间窗口及手续费统一设定,保证评测一致性。


各市场归一化方法效果差异化显著 [page::5][page::6]

  • NYSE市场:数据归一化在FAPV(1.19)和Sharpe比率(0.033)上领先,风险指标MDD稍逊于状态归一化。

- IBOVESPA市场:数据归一化同样表现最好,且波动更大,说明高波动市场中状态归一化不稳定性增强。
  • 加密货币市场:数据归一化优势最为明显,FAPV和SR显著优于两种状态归一化方法(后者普遍亏损)。





过拟合风险及归一化方法对训练稳定性影响分析 [page::6]

  • 状态归一化简化了状态空间,导致不同市场阶段出现相似状态,限制了策略的泛化能力。

- Tensorboard结果显示状态归一化导致训练过程中性能显著下降,数据归一化则收敛至更优局部最优。


结论与未来方向 [page::7]

  • 数据归一化相比状态归一化,显著改进了基于强化学习的资产配置策略表现,特别是在高波动市场。

- 状态归一化虽然有时能产生有效策略,但不稳定性较高,归一化方法应视市场环境灵活调参。
  • 未来将深入探索数据归一化与在线学习率以及在线训练步数的耦合关系,提升策略鲁棒性和实用性。

深度阅读

金融研究报告详尽分析报告


报告标题


Comparing Normalization Methods for Portfolio Optimization with Reinforcement Learning
(《基于强化学习的投资组合优化中归一化方法的比较研究》)

元数据与概览


作者及机构
  • Caio de Souza Barbosa Costa,Escola Politécnica, Universidade de São Paulo (USP), Brazil

- Anna Helena Reali Costa,Escola Politécnica, Universidade de São Paulo (USP), Brazil

主题
本报告聚焦于强化学习(Reinforcement Learning, RL)在金融领域投资组合优化中的关键预处理步骤——归一化方法,分析不同归一化技术对强化学习投资组合优化算法性能的影响。

核心论点
近年来,强化学习在金融投资组合优化上有颇多应用和进步,特别是使用专门的策略梯度算法对加密货币市场表现优异。然而,该方法在股票市场表现不稳定。这种差异的一个可能原因是常用的状态归一化方法可能导致智能体丢失资产真实价格信号,进而影响性能。报告通过对比“状态归一化”和“数据归一化”两类方法,在不同市场(IBOVESPA巴西股市、NYSE美国股市与加密货币市场)中测试,发现状态归一化确实可能降低性能,且数据归一化在波动性更大的市场效果更优。[page::0,1]

---

报告章节深度解析



I. 引言


投资组合优化旨在基于市场动态调节资产权重,以最大化利润。传统的机器学习预测方法受手续费等市场真实因素影响较大,而强化学习通过奖赏机制直接优化未来回报,更贴合实际交易。

早期关键贡献是[6]提出使用卷积神经网络(EIIE架构)结合专门设计的策略梯度算法,在加密货币投资组合管理中超越多种经典策略。后续研究则在网络架构上持续创新(如多尺度卷积EI³、图神经网络DeepPocket、Transformer架构等),推动性能提升。

遗憾的是,虽该方法在加密货币市场表现优良,但在股票市场性能明显逊色,怀疑归一化方式导致了效果分化。报告指出状态数据归一化尚未被充分研究,其潜在负面影响是本文研究的切入点。[page::0]

II. 投资组合优化的数学建模


定义了投资组合权重向量 \(\vec{W}t \in \mathbb{R}^{n+1}\),其中第0元素为留存现金,其他元素为各资产的投资比例。满足权重非负且和为1。

价格向量 \(\vec{P}
t\) 第0个元素为1(现金价格基准),其他为资产相对价格变动。资产价格变化推导投资组合价值转移公式,考虑交易成本 \(\mu{t+1}\),最终目标是寻得在整个时间区间 \(T\) 内使终值最大化的权重序列。初始时全部资金为现金。

这些假设中,资产可即时交易且不影响市场,适用于高流动性小规模投资组合。[page::1]

III. 强化学习基础及其应用


强化学习包括状态 \(S
t\)、动作 \(At\)、奖励 \(Rt\)、策略 \(\pi\) 四个核心要素,智能体基于状态采取行动,通过正向奖励强化有效策略。
强化学习对连续高维空间广泛适用,使用神经网络可逼近最佳策略。

A. 投资组合优化中的状态、动作和奖励定义

  • 状态: 由资产的多维时间序列构成(包含收盘价、最高价、最低价),形状为 \( (f,n,t) \),分别表示特征数量、资产数量和时间窗口长度。

- 动作: 投资组合权重向量 \(\vec{W}t\)。
  • 奖励: 投资组合对数收益增量,即投资组合增值的对数。

- 策略网络采用EIIE卷积架构,特别设计考虑了前一动作 \(A
{t-1}\),以模拟交易成本影响,增强策略实际应用能力。

B. 培训算法——域特定策略梯度(Policy Gradient, PG)


PG算法依据批次经验更新策略参数,优化的目标函数直接对应利润最大化。其优点是:基于固定历史价格,实现快速批次训练,支持在线训练更新,适合实际生产环境下持续学习。[page::1,2]

IV. 归一化方法及其影响


因资产价格尺度差异极大,归一化对神经网络学习至关重要。报告区别了两大类:

A. 状态归一化(State Normalization)


基于[21],将状态中价格通过最近收盘价或最近价格做除法处理,简化成相对价格变化率。优点是与利润相关的目标函数契合,但缺点也很明显:丢失了资产绝对价值信息,使智能体难以识别资产是否被低估或高估。图4形象说明,波动率相同但绝对价格不同的两只股票在归一化后表现一致,损失关键信息。[page::3]

B. 数据归一化(Data Normalization)


指的是先对整个时间序列独立归一化(例如除以最大绝对值),然后再用于训练。这保留了资产的绝对价格信息,可以辅助智能体识别资产估值水平。缺点是价格在测试集可能超出训练范围(超过1),导致策略执行异常,但可通过在线学习动态适应缓解。[page::3]

V. 实验设计


构建了三个分别代表不同市场波动性的投资组合:
  • NYSE美国市场,11只蓝筹股,波动小且稳定

- IBOVESPA巴西市场,10只巴西股票,波动显著高于NYSE
  • 加密货币市场,9个主要币种,最高波动性


历史数据分别从Yahoo Finance和Kaggle获得,均包含日频收盘、最高、最低价。
超参数详见表I,包含学习率0.00005、时间窗口50步、交易手续费0.25%、初始金额10万单位币种等。

三个归一化方法分别进行了50轮训练测试。股票市场测试期选为2020年整年(COVID-19市场剧烈波动),加密货币市场测试为2023年。
使用三项指标评价:终值累计回报(FAPV)、最大回撤(MDD,越小越稳健)、夏普比率(SR,衡量风险调整后收益)。[page::3,4]

VI. 实验结果分析



A. 美国市场(NYSE)


表II显示数据归一化法在FAPV和SR上表现最佳,终值回报平均1.19且夏普率0.033,显示收益与风险调整表现较优。状态归一化按最后收盘价效果最差(FAPV < 1),导致整体亏损。按最后价格归一化表现中等,但不稳定,部分训练可获2倍回报。分布图5强化了数据归一化更稳定且更可能产生好策略的观察。

MDD三法差异不大,最后价格归一化略优,显示略微更低风险。[page::4,5]

B. 巴西市场(IBOVESPA)


由于市场更波动,差异更明显,表III显示数据归一化明显提升FAPV(1.79),且夏普指标最高(0.069),但MDD也最大(0.7),表明更高回报伴随更大风险。状态归一化中两方法表现相较美国市场有所互换,最后收盘价归一化表现更分散。此现象表明状态归一化策略效果受市场特性影响较大,需要针对市场调试。[page::5]

C. 加密货币市场(Crypto)


表IV和图7显示数据归一化方法优势极为显著,FAPV近1.78远超状态归一化(均不足0.8),且夏普比率为正(0.059),表明该策略在高波动市场表现出较好收益与风险平衡。两种状态归一化相近且均产生亏损。

报告指出加密货币市场与[6]原论文实验不一致的可能原因:资产组合不同,数据频率(日频vs30分钟),训练测试区间不同(较新市场相对平静),均可能导致性能差异,提示模型及参数需针对具体市场调优,泛化能力有限。[page::5,6]

D. 综合分析

  • 市场波动越大,数据归一化带来的性能提升越明显

- 状态归一化更易过拟合训练数据,造成测试时策略劣化(图8训练过程日志显示)
  • 状态归一化使不同市场时点附近表现类似,限制智能体区分真实市场环境

- 数据归一化保留绝对价格信息,模型训练更完整,多样化适应能力更强
  • 不同归一化方法优劣随市场变动,状态归一化需要作为超参数调优

- 训练多次选择最优模型仍是解决方法,但越可靠的归一化方法越降低训练运气成分,提升效率

最大FAPV(表V)显示无单方法在所有市场都完胜,需多维度权衡选择。[page::6,7]

---

图表深度解读



图1 Reinforcement Learning Cycle(第1页)


描述RL智能体与环境交互流程:智能体根据观察选择动作,环境反馈奖励和下一观察。该流程图清晰说明RL核心机制,实现了本研究的操作框架。[page::1]

图2 状态数据结构(第2页)


三维堆叠的时间序列矩阵,分维度为资产特征数量f,资产数量n,时间长度t。形象说明了智能体输入的复杂结构,有助理解输入数据的多维性质。[page::2]

图3 状态构建(第3页)


展示如何使用收盘价、最高价、最低价叠加构造状态张量。强调归一化方法基于这些价格数据进行,支持后续归一化策略比较。[page::3]

图4 状态归一化信息流失示意(第3页)


曲线显示两只绝对价格不同但相对波动一致股票被状态归一化为梯度相同,智能体无法区分实际估值。该图直观表明状态归一化固有的缺陷。[page::3]

表I 训练超参数(第4页)


包括学习率、批量大小、样本偏置概率、训练步数等,保证实验复现性与严谨性,体现参数统一管理的重要性。[page::4]

表II-NYSE,表III-IBOVESPA,表IV-Crypto(第5-6页)


整合50次跑平均值±标准差,对比三种归一化方法的FAPV、MDD、SR,展示方法各方面表现的稳定性与差异,凸显数据归一化的优势与局限。

图5-7 各市场FAPV分布密度估计


直观展示各归一化方法性能的频率分布,印证数据归一化稳定且平均表现优异,而状态归一化结果高度分散且有失败风险。
特别是图7说明在加密货币市场状态归一化完全不利,可见归一化方法对不同市场表现的显著影响。[page::5,6]

图8 训练过程过拟合示例


通过Tensorboard日志曲线,揭示状态归一化下,训练过程中策略测试绩效持续恶化,主因过拟合训练集,验证了前述分析。[page::6]

---

估值分析


本报告非传统金融估值报告,而是算法性能评估。估值当作强化学习收益指标:FAPV代表最终投资组合价值倍数,MDD反映风险控制,SR为风险调整收益表现。各模型策略通过这三个指标被综合评估,并无直接现金流贴现等传统估值方法。

---

风险因素评估


主要风险体现在:
  • 状态归一化导致信息损失,使策略难以识别估值,带来不稳定和低效学习风险。

- 市场差异风险,归一化方法在不同市场之间表现波动,错误方法选择可能导致投资失败。
  • 训练过拟合风险,尤其状态归一化,使得模型在历史数据表现良好,但无法适应未来市场。

- 数据时间分辨率风险,训练和测试数据频率不同(如日频与30分钟),影响模型泛化。
报告提及在线学习作为缓解之一,但未深究其他风险缓解策略。[page::6]

---

批判性视角

  • 研究聚焦于归一化方法,但未充分探讨模型架构、算法超参变化对结果的交互影响,存在一定局限。

- 数据归一化虽表现优异,但面临测试数据超出训练范围的风险,依赖在线学习缓解,实际应用中稳定性需验证。
  • 论文仅采用单一算法(EIIE+PG算法),未对比其它可能更鲁棒的强化学习算法,限制了结论普适性。

- 训练和测试时间段选取虽合理,但加密市场的走势选择偏向近期,可能影响结论外推。
  • 实验多以平均性能衡量,少量极端结果未充分剖析,可能掩盖潜在风险。

- 报告对市场结构动态变化的适应能力和现实执行成本因素考量不足,未来可深化。

---

结论性综合


该报告通过系统实验验证,投资组合强化学习中输入数据的归一化方法选择至关重要。结论强调:
  • 状态归一化方法因只反映相对价格变化而丢失了资产绝对价格信息,导致智能体策略表现不稳定,易过拟合。

- 数据归一化保留绝对价格尺度,更好地支持策略识别资产估值,从而显著提升收益指标,尤其在高波动性的市场(加密货币、巴西股市)中优势明显。
  • 不同市场对状态归一化的敏感程度不同,甚至两种状态归一化技术之间表现互有优劣,提示需根据市场特性精细选择归一化方法。

- 在线学习机制可缓和数据归一化可能带来的输入分布漂移问题,提升模型适应性。
  • 即使存在差异,所有归一化方式均能产出优质策略的潜力,但数据归一化技术使训练效率更高且结果更稳定。


报告为基于强化学习的投资组合优化领域,特别是在金融时间序列处理的预处理环节提供深刻洞见,为后续算法设计、数据处理和市场选择提供了实际意义的指导。

---

参考文献与附录


文献丰富,涵盖了强化学习基础、金融机器学习、最新深度网络架构、领域应用及评价指标,确保学术严谨度及技术前沿性。[page::7]

---

综上,报告不仅详细剖析了三种归一化方法的算法影响机理,也通过多市场多次实验验证了其对实验结果的决定性作用,凸显了金融强化学习研究中文本数据预处理的重要价值。

报告