`

Forecasting Liquidity Withdraw with Machine Learning Models

创建于 更新于

摘要

本研究采用机器学习方法,特别是基于Nasdaq市场逐单数据构建的流动性撤回指数(LWI),开发了短期流动性撤回预测模型。通过比较线性自回归模型与非线性XGBoost模型,发现1-2秒内线性模型表现优异,而5秒预测采用树模型效果最佳,验证了流动性撤回的记忆性及非线性特征,为市场执行与风险监控提供了有效预警手段。[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7]

速读内容


研究背景与指标定义 [page::0][page::1]

  • 引入流动性撤回指数(LWI),定义为订单取消数量与最佳报价流动性总和的比值,实现对订单簿脆弱性的实时测量。

- 利用Nasdaq市场逐单(MBO)数据,选择14:00-15:00交易时段及多个活跃股票构建样本,覆盖从低流动性至大盘股票。


特征工程及筛选 [page::0][page::3]


| 特征 | 出现股票数 | 平均排名 | 筛选方法得分 | 是否共识 |
|-----------------|------------|----------|--------------|----------|
| LWImals | 4 | 1.00 | 12 | 是 |
| LWIlag1 | 4 | 1.00 | 8 | 是 |
| LWI
sdls | 4 | 2.00 | 10 | 是 |
| dLWI1s | 4 | 2.50 | 12 | 是 |
| LWIlag2 | 4 | 2.75 | 8 | 是 |
| adds
ratels | 4 | 5.00 | 8 | 是 |
| cancratels | 4 | 5.75 | 6 | 是 |
| QIlag1s | 4 | 5.75 | 4 | 是 |
| depth-L1-lagls | 4 | 5.75 | 4 | 是 |
| depth
L1lag4 | 4 | 6.00 | 4 | 是 |
| QI-sd1s | 4 | 6.25 | 6 | 是 |
| LWI
ma10s | 4 | 6.75 | 5 | 是 |
| QI-lag4 | 4 | 6.75 | 4 | 是 |
| LWI.ma2s | 4 | 8.00 | 6 | 是 |
| LWIsd2s | 3 | 7.00 | 4 | 是 |
| spread
sd1s | 3 | 8.00 | 5 | 是 |
  • 综合互信息(Mutual Information)、XGBoost重要性和LASSO回归,选出稳定且具预测力的特征。


LWI性质及模型选择 [page::3][page::4]

  • ADF检验显示LWI在4个标的中均平稳,无单位根,具短期记忆特征,适合自回归建模。

  • 模型类别:线性AR(5)、HAR(多尺度自回归)、非线性XGBoost树模型。

- 验证采用滚动时间切分的walk-forward交叉验证,减少信息泄漏。

模型性能比较与时域依赖 [page::5]


| 股票 | 模型 | 250ms | 1s | 2s | 5s |
|-------|-------|--------|--------|--------|--------|
| AAPL | AR(5) | -0.146 | 0.468 | 0.632 | -0.684 |
| | HAR | -0.008 | 0.527 | 0.850 | 0.727 |
| | XGB | 0.006 | 0.786 | 0.862 | 0.950 |
| NVDA | AR(5) | -0.294 | 0.462 | 0.649 | -1.245 |
| | HAR | 0.053 | 0.640 | 0.904 | 0.799 |
| | XGB | 0.049 | 0.843 | 0.913 | 0.963 |
| TSLA | AR(5) | -0.098 | 0.499 | 0.658 | -0.270 |
| | HAR | -0.043 | 0.519 | 0.850 | 0.735 |
| | XGB | -0.225 | 0.706 | 0.822 | 0.936 |
| 其余 | ... | ... | ... | ... | ... |
  • 250毫秒模型均表现差,噪声主导。

- 1-2秒间HAR优于AR,体现多尺度特征优势。
  • 5秒时XGBoost显著领先,捕获非线性依赖,$R^{2}$大多超过0.9。


XGBoost模型诊断与残差分析 [page::6][page::7]

  • 1秒预测残差表现偏右尾,轻微欠预测极端撤回,5秒预测残差趋于对称,表明更好的拟合校准。

- 采用加权损失函数(Huber,分位数)及敏感特征改进短期预测效果。

  • 高流动性股票(如AAPL,NVDA,TSLA)XGB模型残差更集中,提示流动性层面存在差异,建议对不同流动性规模股票采用专门化模型。



结论与未来方向 [page::7]

  • 流动性撤回集成线性记忆与非线性跳变特征,1-2秒适合使用线性AR/HAR模型,5秒启用非线性树模型提升效果。

- 复杂深度序列模型效用有限,未来研究应聚焦于轻量且可解释的混合模型架构,兼顾性能与低延迟。

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览


  • 报告标题:《Forecasting Liquidity Withdraw with Machine Learning Models》

- 作者:Haochuan (Kevin) Wang,来自麻省理工学院(MIT)
  • 发布日期:2025年8月

- 研究主题:利用机器学习模型预测股票级别的流动性撤回(Liquidity Withdrawal)
  • 核心内容:本研究旨在提出并验证一种预测限价单簿(limit order book, LOB)流动性撤回的框架,定义了一个新的指标“流动性撤回指数”(Liquidity Withdrawal Index, LWI),并通过多种模型(线性模型与树模型)对短时序列内流动性压力进行预测,对不同时长(250毫秒至5秒)内模型的相对表现进行了比较。


本报告的核心结论包括:
  • 短时间尺度(250 ms)下的流动性撤回难以预测,表现主要受噪声干扰。

- 1-2秒时间尺度,线性模型(如AR,HAR)表现较好。
  • 5秒尺度,非线性树模型(XGBoost)表现明显优越,能捕捉非线性和交互效应。

- 该指标及预测框架为市场参与者(如做市商)提供了提前预警市场流动性紧张的工具,有助于风险管理与交易策略制定。[page::0,1,2,5,7]

---

2. 逐节深度解读



2.1 摘要与引言



核心论点:
  • 流动性撤回是市场脆弱性的关键指标,尤其在公告或订单突发时刻体现明显。

- 构造了流动性撤回指数(LWI)作为可解释、有限制(bounded)的流动性紧张度量。
  • 利用纳斯达克市场按单数据(MBO)构建特征,预测短期订单簿的流动性撤回。


推理依据:
  • LWI定义为特定时间窗口内取消订单量占当前顶部订单簿流动性(深度及新增挂单)之比,反映流动性消失的即时程度。

- 采用250毫秒为时间粒度,统一不规则订单事件序列为等时间间隔时序,利于模型训练。
  • 研究还关注不同模型的性能表现,及其在不同时间尺度下的适用性。[page::0,1]


---

2.2 流动性撤回指数(LWI)与特征构建



定义:

$$
\mathrm{LWI}t = \frac{\mathrm{Cancels}t}{\mathrm{MA}{1s}(\mathrm{DepthL1}){t-1} + \max(\mathrm{Adds}t, \epsilon)}
$$
  • 分子为当前时间窗口的订单取消量,分母则为前一时间点到当前的顶部盘口深度的移动平均加上新增挂单,加入正值$\epsilon$防止除零或极端值。

- 该比值界定在有限范围内,可实现即时订单簿脆弱性的衡量。

特征构建:
  • 数据来自纳斯达克MBO的订单流,提取多层级价差(spreads)、盘口深度、订单流不平衡(OFI)、队列不平衡(QI)、滚动均值与波动率、订单新增/撤销速率等特征。

- 经过特征筛选,核心特征以短周期LWI滞后项及其波动率为主,说明LWI自身动态对预测有显著信息贡献。[page::0]

---

2.3 模型类别及比较



模型类别:
  • 线性模型:

- 自回归模型 (AR(5)),捕捉短期(1秒内)线性依赖。
- 异质自回归模型(HAR),结合多尺度聚合(0.25秒、2秒、10秒),较适宜中等时长预测。
  • 非线性模型:

- XGBoost梯度提升树,擅长捕捉阈值效应和变量交互,展现强非线性拟合能力。

模型评估:
  • 采用步进式(walk-forward)交叉验证,带信息禁带期以拟合实盘条件,防止未来信息泄漏。


结论:
  • 250ms尺度噪声主导,模型难以有效预测。

- 1-2秒尺度以线性模型最佳。
  • 5秒尺度以XGBoost领先,体现非线性结构凸显。

- 与大多数研究不同,本报告聚焦流动性撤回,聚焦对执行及市场监控直接相关的指标。[page::1,2]

---

2.4 文献回顾


  • 传统市场流动性度量关注价差、深度与恢复速度(resiliency)[1,2]。

- 事件研究发现公告发布前后,流动性提供方会撤单、报出更宽价差,立即影响市场可用流动性[3]。
  • 与此保持一致,本研究提出的LWI能够在亚秒级别捕捉这类短暂流动性消失现象,实用且可预测。

- MBO数据细致但噪声较大,报道的技术策略包括固定时间采样、平滑处理及防止分母爆炸均与相关文献[4,5,6]一致。
  • 线性模型在高频预测中的效能及其在不同时间尺度下的优势,得到前人HAR模型研究支持[7,8],非线性模型优势在于捕捉复杂交互[9]。


[page::1,2]

---

2.5 数据与方法


  • 以2025年7月30日下午14:00–15:00 ET的纳斯达克MBO数据为样本,涉及多只活跃交易股票(例:HIMS、NBIS、RKLB、SNAP)。

- 原始订单事件通过250毫秒ET网格时序化处理,获得等间隔数据,生成约14400条观测。
  • 构造目标变量LWI及多种市场微观结构特征。

- 采用互信息、XGBoost特征重要度、LASSO三种方法择优特征,达成跨股票的共识特征集。
  • 检测LWI为平稳序列,具有限时记忆特性,符合使用AR模型的统计要求。

- 评估指标用$R^2$及均方误差(RMSE)衡量,同时运用增强交叉验证的步进窗口设计,模拟实盘预测。[page::2,3,4]

---

2.6 结果与模型表现


  • 250ms:所有模型$R^2$为负值或极低,预测效果不佳。

- 1-2秒:HAR模型对AR有显著提升,捕获多尺度信息有效。
  • 5秒:XGBoost显著领先,$R^2$多数超过0.9,说明复杂非线性交互作用在该时间尺度更为突出。

- 误差分布显示:
- 1秒预测中,XGBoost倾向低估尖峰型撤单,残差右偏,表现不完全对称。
- 5秒预测残差趋于对称且中心化,校准更佳。
  • 针对1秒尺度表现不足,提出改进方向:

- 采用对异常波动更敏感的损失函数(如Huber损失、分位数回归)。
- 引入更具压力感知的特征(比如深度下降、撤销/替换订单突发)。
  • 不同流动性等级股票上表现差异明显,流动性较高股票(如AAPL、NVDA、TSLA)预测残差更对称、拟合更好,建议不同流动性集群采用专属模型策略。[page::5,6,7]


---

3. 图表深度解读



图1:RKLB的LWI与中间价格走势(第1页)


  • 图示展示了2025年7月30日14:00–15:00 ET间,RKLB股票的LWI(左轴)与中价走势(右轴)。

- 观察LWI有明显尖峰,集中出现在价格跃迁前后,表明流动性突然撤出往往预示价格剧烈变化。
  • 这种关联支持模型构建的意义,提前识别此类LWI尖峰可供做市商动态调整价差或头寸,降低风险暴露。



[page::1]

表1:共识特征筛选结果(第3页)


  • 展示特征跨4个股票(HIMS、NBIS、RKLB、SNAP)参与筛选情况,包括出现在多少股票中、平均最佳排名、不同方法中被选中次数、是否达成共识。

- 主要特征多为LWI本身的不同滞后和波动率指标,比如LWI
mals(移动平均短期)、LWIlag1(滞后1期)、LWIsdls(波动率),说明LWI历史行为是强预测因素。
  • 其他如新增率(addsratels)、撤单率(canc_ratels)、队列不平衡滞后(QIlag1s)也入选,反映订单簿状态的流动性相关信息。


表2:ADF平稳性检验(第4页)


  • 所有4个股票均显著拒绝单位根原假设,ADF统计量大幅为负,p值趋近零,确认LWI平稳性。

- 平稳序列符合AR/HAR模型对时序的要求,也显示流动性撤回变量虽波动频繁但无长记忆,符合短期冲击暂时性特点。

图2:LWI自相关函(ACF)及偏自相关函(PACF)(第4页)


  • 不同股票ACF显示前1-2期显著相关,之后迅速衰减至零,符合短记忆过程。

- 说明适宜使用包含少量滞后期的自回归线性模型。


[page::4]

表3:不同模型与时长下的$R^2$表现(第5页)


  • 典型趋势:

- 250 ms尺度$R^2$多为负值或很低,模型无效。
- 1-2秒尺度HAR优于AR,XGB优于HAR,但1s尺度XGB优势显著。
- 5秒尺度XGB多数$R^2$超0.9,明显优越,有效捕获复杂非线性。
  • 该表系统展示多股票(包括大型股票AAPL、NVDA及中小盘股票RKLB、SNAP)上一致的横向规律。


图3 & 图4:XGBoost 1秒与5秒LWI预测与残差(第6页)


  • 图3(1秒)显示XGB预测存在较大误差波动,残差分布带右偏,表现出对极端撤单低估。

- 图4(5秒)显示随着时间聚合,预测更平滑,残差趋近正态对称。
  • 表明时间窗口拉长提高模型稳定性和预测效果,也印证非线性效应在多秒范围重要。




[page::6]

图5:对流动性较高股票AAPL、NVDA、TSLA的1秒XGB预测与残差(第7页)


  • 这些高流动性股票的预测残差较为对称,远比中小盘股票表现平稳,说明其风险动态更符合线性或轻非线性假设。

- 这支持了作者提出针对不同流动性“簇”使用不同模型的策略。


[page::7]

---

4. 估值分析



本报告不涉及传统企业财务估值,聚焦交易微观结构与流动性预测,因此不包含市盈率、DCF等财务估值方法。但模型性能本身的“价值”可视为对市场执行和风险管理的定量支持。
  • 预测模型的效果,尤其XGBoost的高$R^2$,实际映射为市场参与者在流动性撤回风险的即时识别能力。

- 不同时间尺度表现显示了不同模型对应的操作适用场景——短期交易/市场监控可侧重短期线性模型,长期或复杂策略则可融合非线性预测器。

---

5. 风险因素评估



报告未专门列出风险章节,但可从内容推断关键风险与挑战:
  • 数据噪声与薄弱流动性风险:250 ms尺度的严重噪声限制短期可预测性,非稳健信号可能导致误判。

- 模型过拟合风险:尽管XGBoost表现优良,但复杂模型存在过拟合可能,尤其在极端撤单事件预测时低估风险。
  • 实时部署风险:高频交易环境下延迟与计算复杂度要求严苛,过于复杂模型可能不适用,需权衡准确率与执行时延。

- 模型泛化能力风险:不同流动性等级与市场状况下,模型表现差异明显,单一模型难全面适应所有股票。

报告对部分风险提出应对策略:
  • 采用步进交叉验证和信息禁带设计防止未来信息泄漏。

- 引入多种特征选择方法确保稳定且通用的特征集。
  • 针对极端事件考虑使用尖峰感知损失函数。

- 区分不同流动性层级,构建专属模型以提升预测稳定性和准确度。

---

6. 批判性视角与细微差别


  • 报告立场较为客观,广泛比较线性与非线性模型,避免对深层序列模型过度乐观,考虑了效率与可解释性。

- 但缺乏对数据样本一天内仅选取一个小时的讨论,模型泛化性及日内时变性的潜在影响未展开说明。
  • 缺少对于极端宏观事件日(如发布重要经济数据日)的特别分析,可能影响流动性特征与预测表现。

- 残差分析指出1秒尺度残差右偏,表达对极端流动性撤回事件的预测不足,凸显当前模型仍有改进空间。
  • 没有深入讨论多因子市场环境变化对模型稳定性的影响。


---

7. 结论性综合



本文提出并实证了基于机器学习的短时流动性撤回预测框架,创新在于定义了流动性撤回指数(Liquidity Withdrawal Index, LWI),并结合细粒度的纳斯达克MBO订单数据构造特征,采用步进交叉验证模拟实盘环境检验多模型预测能力。
  • LWI定义与意义:作为订单簿顶部流动性消失的即时比率,LWI为市场参与者提供实时监控的直观工具,预示潜在市场脆弱性。

- 特征与数据处理:采用统一250ms时间网格及滤波、分母加地板等技术,保证数据稳定,同时多方法融合确保特征稳健。
  • 模型表现

- 短期(250ms)噪音主导,难以有效预测。
- 1-2秒尺度以线性模型良好拟合,简单解释流动性短记忆特性。
- 5秒尺度非线性树模型(XGBoost)优势显著,拟合效果优异。
  • 不同股票表现差异,流动性较高股票预测更稳定,建议针对不同流动性集群设计定制模型。

- 操作性启示:模型对做市商和执行策略设计有实际应用价值,通过提前预警流动性撤回,市场参与者可调整价差和仓位,降低风险敞口。
  • 未来方向:深度序列模型价值有限,建议探索轻量级混合模型,在保持解释性和实时性能的同时,进一步提升预测精度。


该报告通过多个精细图表和数据表强化了上述结论,充分展示跨股票、多时间尺度下模型表现规律和相关特征的重要性,为高频流动性风险管理和市场监控提供了科学且操作可行的基础。[page::0~7]

---

参考文献



报告涵盖了市场微结构理论、事件市场影响、高频数据处理、机器学习在LOB预测中的应用等多方面著作和文章,保证理论与方法的严密性和现代性。[page::8]

---

总结



本报告以严谨的数据处理流程、明确的指标定义、细致的特征筛选及多模型对比实验,系统阐释了纳斯达克市场内部流动性撤回的复杂动态,展示了机器学习在金融微观结构领域的实践价值。该工作不仅贡献了可操作指标LWI,也揭示了不同时间尺度下流动性动态的潜在模式及相应的预测方法适用性,为市场参与者提供了重要的风险管理和交易决策支持工具。

报告