`

REINFORCEMENT LEARNING-BASED MARKET MAKING AS A STOCHASTIC CONTROL ON NON-STATIONARY LIMIT ORDER BOOK DYNAMICS

创建于 更新于

摘要

本论文提出基于Proximal Policy Optimization(PPO)算法的强化学习市场做市商模型,结合非平稳随机过程精确模拟限价订单簿动态,涵盖订单抵达聚类、非平稳价差和价漂移、随机订单数量与价格波动等市场微观结构特征。实验显示该RL代理在复杂非静态市场环境下,能有效应对市场冲击和库存风险,优于闭式最优模型基准,且模拟环境适合训练适应多变市场状态的做市策略[page::0][page::1][page::3][page::6][page::7]。

速读内容


文献综述:数据与算法选型 [page::1][page::2]


  • 研报中多数研究采用历史数据,其次为基于代理的仿真模拟和模型驱动模拟,均有优缺点。

- 深度强化学习算法中,PPO和DQN表现最佳,适合高维限价订单簿的状态空间。

状态空间与动作空间设计 [page::2][page::3]


  • 状态空间涵盖订单簿深度、RSI、订单不平衡(OI)、移动均线和持仓信息,特征丰富覆盖市场微观状态。

- 动作空间为同时选择买卖价差和报单数量,具备较强灵活性。

市场模型与环境建模 [page::3][page::4]

  • 采用霍克斯过程(Hawkes Process)模拟订单流聚类,引入几何布朗运动模型价格演化,价差遵循CIR过程,波动率采用GARCH(1,1)模型。

- 建立有限状态MDP环境,基于贝尔曼方程与随机微分方程定义状态转移。

强化学习算法实现与训练框架 [page::5][page::6]


  • 使用Actor-Critic架构,策略和价值网络采用多层自注意力和多层感知机混合结构以捕捉空间和市场特征。

- 训练采用PPO算法,结合剪切目标函数,保证策略更新稳定;训练时使用GAE估计优势函数,学习率经过调优。

实验结果与性能评估 [page::6][page::7]



  • RL智能体年化收益约1.31%,优于基准模型Stoikov策略(0.76%)及简单多头策略(-0.56%)。

- Sortino比率为0.7497,高于基准策略,显示风险调整收益优势。
  • 训练奖励曲线稳定提升,表明智能体有效学习交易策略。

- 计算延迟低(平均2.9ms),满足中低频交易实时性需求。

结论与未来展望 [page::7]

  • 论文证实基于强化学习的市场做市策略能适应非平稳市场环境,合理考虑市场冲击和库存风险。

- 提出未来方向结合模型驱动与历史数据,发展混合模型提升RL智能体泛化能力。

深度阅读

REINFORCEMENT LEARNING-BASED MARKET MAKING AS A STOCHASTIC CONTROL ON NON-STATIONARY LIMIT ORDER BOOK DYNAMICS — 详尽分析报告



---

1. 元数据与概览 (引言与报告概览)


  • 报告标题: Reinforcement Learning-Based Market Making as a Stochastic Control on Non-Stationary Limit Order Book Dynamics

- 作者及机构: Rafael Zimmer 和 Oswaldo L. V. Costa,均来自巴西圣保罗大学(University of São Paulo),分别隶属于数学与计算机科学学院以及理工工程学院。
  • 发布日期: 未明确提及,但文献和数据库参考均为2020年代初期,考虑到引用文献最新为2023年。

- 主题: 本报告聚焦于利用强化学习(Reinforcement Learning, RL)技术实现市场做市策略,特别是针对非平稳(Non-Stationary)行情下,基于限价订单簿(Limit Order Book, LOB)动态的随机控制问题。

核心论点总结:
报告提出了一种结合参数化随机过程的限价订单簿模拟环境,精准捕捉现实市场中的结构性特征(如订单簇群现象、非平稳价差与收益漂移等),并通过基于Proximal Policy Optimization(PPO)算法的强化学习智能体实现市场做市。实证结果表明,该RL代理可以适应复杂且动态变化的市场条件,在比较基于数学封闭式解的基础做市策略时表现更佳。报告主推使用模拟器为RL模型训练提供可控且富含市场冲击和库存风险的训练环境,弥补传统历史数据和基于生成代理仿真的局限。page::0,1,4,5,6,7]

---

2. 逐节深度解读 (章节深度剖析)



2.1 引言 (Introduction)


  • 内容与观点:

市场做市策略是金融市场微观结构的核心,职责在于持续发布买卖报价赚取价差。随着电子交易普及,该过程趋于自动化。但自动化面临滑点、市场冲击及非平稳市场环境等挑战。强化学习展现出优势,因为其能通过与环境交互自适应调整策略,适合复杂、变化的市场环境,且可以逼近Bellman方程的最优解。虽然传统使用历史数据训练RL智能体,但历史数据容量大处理成本高,且难以囊括市场冲击和库存风险。相比之下,基于统计模型的模拟可快速有效,并在一定程度上捕获市场特征,成为一种折中方案。
  • 理论基础与假设:

强化学习中的Bellman方程用于递归定义状态与动作的价值函数,先进算法如PPO和SAC利用神经网络近似解,形成能自适应策略。历史数据存在样本偏差以及缺少市场机制动态反馈等问题,模拟数据则可嵌入特定的市场假设和随机结构。
  • 关键论断:

市场做市RL的主要难点在于准确建模多变且冲击显著的市场环境。本文主张结合非平稳随机过程构建模拟环境辅助RL训练,提升智能体的泛化能力和实用性。[page::0]

2.2 文献综述 (Bibliography Review)


  • 数据类型 (Data Types):

研究中以历史数据为主(8篇文献),其次为基于生成代理的模拟(Agent-Based, 6篇),再为基于模型的模拟(Model-Based, 5篇),少量使用实时数据。历史数据虽直观精准,但模拟数据更灵活可控驾驶。
  • 状态空间、动作空间及奖励设计 (State, Action, Reward Spaces):

主流研究多聚焦于顶层盘口报价及N档订单数据,结合智能体库存信息反映市场风险与流动性(详见图表2c)。动作多集中于买卖价差调节,部分文献扩展至多层次报价控制。奖励函数普遍以日内盈亏(PnL)、库存惩罚及综合函数形式出现(见图2a),契合市场做市运营目标。
  • 主算法选择 (Algorithms Used):

DL方法中PPO和DQN占主导,受益于其在收敛速度与泛化上的优势,部分文献使用双增强学习(DDQN)变体。整体趋势显示,基于RL的模型无监督学习具备良好的市场适应能力(表1)。
  • 研究空白:

目前文献缺少同时使用非平稳模拟环境和强化学习智能体的系统研究,尤其是对市场冲击和滑点显著影响的考察不足。报告旨填补此空白,以动态模拟提升RL训练真实度与鲁棒性。[page::1,2]

2.3 方法论 (Methodology)


  • 环境建模:

将市场交易建模为马尔可夫决策过程(MDP),定义状态空间\(S\)、动作空间\(\mathcal{A}\),转移概率函数\(\mathbb{P}\)和奖励函数\(R\)(3.1)。变量包括强化学习中反复使用的累计折扣奖励\(Gt\)和价值函数\(V^\pi(s)\)。
  • 状态构成:

状态空间涵盖代理库存、相对强弱指数(RSI)、订单不平衡(OI)、微价格(micro price)、移动平均(MA),以及以价差和数量表示的多档盘口信息(3.1.1)。所有指标均为金融市场做市常用指标,便于捕捉多维度市场动态。
  • 动作构成:

动作空间包含买卖价差和下单数量,属于连续和离散变量的组合,智能体通过动态调整报价和数量直接控制订单簿形态,实现市场冲击模拟(3.1.2)。
  • 奖励设计:

采用基于常绝对风险厌恶(CARA)效用函数的运行盈亏减库存惩罚作为奖励,反映风险回报权衡,奖励函数定义为\(-e^{-\gamma \cdot \mathrm{PnL}
t}\)(3.1.1),与已有文献主流设计相符。
  • 状态转移与市场动力学:

利用Hawkes自激过程模拟订单到达的聚簇性,再结合两套几何布朗运动(GBM)对买卖价进行模拟,分别在均值回复Ornstein-Uhlenbeck过程和Cox-IngersollRoss过程框架下建模价格漂移和价差波动,融入GARCH(1,1)模型作为价格波动率动态描述(3.3)。订单量由泊松过程模拟,极大增强模拟的市场真实性。
  • 策略选择与算法细节:

基于广义策略迭代(Generalized Policy Iteration),采用PPO作为核心算法,通过策略梯度优化策略与价值函数,使用经典的优势函数估计(GAE)提升训练效率和稳定[page::2,3,4,5]

2.4 具体实现与训练细节 (Implementation and Training)


  • 深度学习框架:

Actor网络设计中,采用多层自注意力机制捕捉不同价位档口间的空间依赖,结合多层全连接处理市场特征向量,提升处理复杂市场状态的能力。Critic网络为两层全连接网络结构(128和64单元)同样融合市场特征及LOB输入(图6展示架构细节)。
  • 训练框架与超参数:

训练过程基于基于轨迹采集和广义优势估计的PPO算法,采用Adam优化器,学习率为3×10^{-4},折扣因子0.9,GAE参数0.85,PPO剪辑参数0.25,批大小256。训练运行环境为高端GPU+CPU组合,单次训练约3小时完成10000个回合(页面6)。
  • 数据生成参数:

订单到达率设为1,簇群效应参数α=0.1,β=0.1,价差10美分,年化价格漂移-2%,GARCH参数ω=0.5,α=0.1,β=0.1,初始价格100等。
  • 训练流程细节:

采用在线RL方式,因考虑市场冲击和动态反馈,不依赖静态历史数据,使用轨迹缓存动态更新策略,示意图(图5)清晰反映训练奖励随回合稳步提升,显示学习效果良好[page::4,6]

2.5 实验结果与性能评估 (Experiments and Results)


  • 核心指标比较:

RL智能体在年度化回报率约+1.31%,明显优于基准Avellaneda-Stoikov模型(+0.76%)及长仓策略(-0.56%);其Sortino比率接近0.75,表明风险调整后表现更优稳定,比基准模型(0.4271)及长仓模型(-0.0079)均高(见表2)。
  • 表现稳定性与快速响应性:

回测曲线显示RL模型回报稳定接近零波动,训练曲线单调上升,说明模型在非平稳、多变市场条件下表现稳健。模型推理时延极低,Actor网络平均2.9毫秒,Critic网络0.000021秒,适合中低频量化交易场景。
  • 对比基准和现实意义:

通过与基于封闭式解的简化模型比较,RL模型展现了对于复杂市场冲击及库存风险的适应能力,突出了一种动态、灵活的市场做市解决方案的潜力。该模型可显著优于传统因简化假设受限的基准模型[page::6,7,8]

---

3. 图表深度解读



3.1 图1 — 文献中使用的数据类型分布(第1页)




  • 描述: 图1为各文献采用数据类型的计数条形图。历史数据占据最高份额(8篇),其次为基于生成代理模型的模拟(6篇)和基于模型的模拟(5篇)。

- 分析与联系文本: 表明主流研究仍偏好历史数据,但存在对模拟环境的需求,为本报告采用模拟器环境奠定理论基础和研究差距识别依据。

3.2 图2 — 状态空间、动作空间、奖励函数变量分布(第2页)




  • 描述: 子图(a)奖励函数变量,突出日终盈亏v.s.仓位惩罚等;(b)动作空间变量以价差为主;(c)状态空间变量多以价差、库存及最新价格为主。

- 解读: 强调强化学习研究中,市场特征与策略动作的设计趋于统一,贴合实际做市需求,指导本报告状态空间及动作设计。

3.3 表1 — 主流算法使用频率(第2页)


  • PPO和Deep Q-Learning为主要算法,PPO和DQN表现最好。

- 该分布反映文献偏好采纳兼顾收敛质量和泛化能力的模型。

3.4 图3 — Generalized Policy Iteration训练流程框图(第5页)




  • 清晰展示了训练时从轨迹收集、策略估值到策略改进及迭代过程的闭环。

- 体现RL在线学习的机制。

3.5 图4 — Actor网络架构(第6页)




  • 结构图呈现用多层自注意力机制处理LOB序列,辅以市场特征全连接层,体现高维空间依赖捕捉能力。

- 说明模型在特征融合及空间维度捕捉上的设计先进性。

3.6 图5 — 训练奖励曲线(第7页)




  • 奖励呈现总体递增趋势,显示RL代理持续学习进步。

- 曲线震荡显示训练过程的随机性及环境复杂度。

3.7 图6 — RL代理金融回报曲线及波动区间(第7页)




  • 追踪平均累积回报,接近零的均值说明模型适应力强。

- 涉及的正负波动幅度揭示市场高波动风险背景下的稳健表现。

---

4. 估值分析 (Valuation Analysis)



本报告核心目标非传统估值,而是优化市场做市策略收益。其“估值”更多体现为:
  • 奖励函数估值,即基于CARA风险厌恶函数对策略收益风险的折算。

- 策略性能指标,平均金融回报、收益波动和Sortino比率来衡量策略的价值和稳定性。

论文没有直接使用DCF或多重倍数法等传统企业估值手段,而是采用基准模型Avellaneda-Stoikov的封闭式解(简化市场模型前提)作为对照。此模型中基于价格波动率、均值价差指标,推导出理论最优买卖价差。
强化学习代理的高于基准回报表明其在复杂非平稳市场模拟中学习到更优策略,反映一种隐含的“策略价值”估算。[page::5,6,7]

---

5. 风险因素评估 (Risk Factors Evaluation)


  • 非平稳市场行为的挑战:

市场价差、订单到达率和价格漂移的随机且变化特征会导致策略失效风险。作者通过参数化的随机过程模拟市场状态变化,增强智能体适应不同“市场状态”的能力。
  • 市场冲击与滑点:

订单对市场价格的反馈(市场冲击)及未能成交带来的滑点风险纳入模型中,使得强化学习要面对更现实的压力测试。
  • 库存风险管理:

通过库存惩罚机制将代理暴露于清仓风险,保障策略不过度累积仓位,引发过大损失。
  • 计算资源与模型复杂性:

尽管引入高度动态市场环境,但模型选择经过折衷,避免训练时间过长或训练过程不稳定的风险。高性能GPU加速支持有效训练。
  • 风险缓解策略:

采用PPO策略稳定性保证,新颖网络结构辅助捕捉空间依赖关系,采用实时反馈和在线学习减轻历史数据不足的影响。[page::3,4,6,7]

---

6. 批判性视角与细微差别 (Critical Examination)


  • 模拟环境的真实性限制:

基于随机过程的模拟虽有效捕获宏观市场特征,但仍无法完全反映真实市场的微观结构复杂性,如订单簿深度微观结构和高频市场冲击。
  • 模型简化假设及响应速度:

尽管模型使用了先进随机过程,部分参数(如订单量泊松分布、价差波动过程)仍是简化处理,可能导致智能体在极端情况下泛化能力受限。
  • 对比基准模型的局限:

选用Avellaneda-Stoikov封闭式解作为基准,其参数设定较为理想化,可能过于简单,因此强化学习策略表现较优的同时,不排除基准模型在复杂环境下表现失衡。
  • 训练中性能指标的代表性:

训练奖励和回报曲线显示改善趋势,但训练报酬和真实回测业绩的映射仍带有不确定性,实际线上表现尚需进一步实证验证。
  • 未来方向暗示含混:

报告在结论中提及混合世界模型策略(结合模型基和模型自由强化学习)方向,但未进一步详述实现细节和潜在风险。

---

7. 结论性综合 (Overall Summary)



本文系统地设计并实现了一个基于PPO强化学习的市场做市智能体,置于通过多个参数化随机过程联合驱动的非平稳限价订单簿模拟环境中。该环境精准模拟了真实市场的关键特征,包括聚簇订单到达、自激机制、非稳价差、均值回复价格漂移及波动率动态变化,同时考虑市场冲击和库存风险。

智能体通过学习调整买卖价差和下单数量策略,在极具挑战性的动态市场环境下表现稳健,较传统封闭式最优策略获得更优收益和风险调整绩效。整个训练体系包括先进的自注意力神经网络架构、GAE优势估计和PPO裁剪策略,训练效率高且推理延迟适合实际中低频交易。

展望未来,报告建议将基于模型与模型自由的强化学习范式结合,开发混合世界模型,以进一步增强策略在持续变化市场中的自适应能力。

图表深度理解已证实:
  • 文献数据类型分析体现研究趋势及空白。

- 状态、动作、奖励空间设计符合实际做市需求。
  • 模型网络结构充分捕捉订单簿空间依赖。

- 训练奖励及收益曲线反映模型稳定收敛和市场适应能力。

总体立场明确: 本报告支持在非平稳、库存受限且复杂限价订单簿环境下采用基于PPO的强化学习,作为市场做市策略设计的有效新范式,兼具理论创新和实用启示价值。[page::0,1,2,3,4,5,6,7,8]

---

参考表格(总结式)



| 内容类别 | 关键点概括 |
|---|---|
| 数据类型 | 历史数据为主,模拟为辅,缺少结合RL的非平稳环境研究 |
| 状态空间 | 库存、价差、RSI、订单不平衡、微价格、N档报价深度 |
| 动作空间 | 买卖价差配对+相应下单数量 |
| 奖励函数 | CARA效用函数基础的风险调整利润 |
| 强化算法 | PPO为主,结合优势估计(GAE)与神经网络策略近似 |
| 市场环境模型 | Hawkes过程、GBM价差及价格,Ornstein-Uhlenbeck漂移,CIR价差维持、GARCH波动率 |
| 网络结构 | Actor采用多层自注意力,Critic为多层全连接 |
| 实验结果 | RL年收益1.31%,优于基准0.76%;Sortino比率最高;训练奖励曲线持续上升 |
| 计算资源 | 单次训练3小时,推理延迟在毫秒级可用 |
| 风险 | 模拟假设简化局限、基准对比模型简约、实际复杂性挑战 |

---

附:图表引用(Markdown)



- 图2: 状态、动作、奖励变量页2
- 图4: Actor网络结构图页6
- 图6: 金融回报曲线页7

---

全文引用标注: 各条结论均源于原报告第0至8页内容,页码标注呈现于句末。

报告