Enhanced fill probability estimates in institutional algorithmic bond trading using statistical learning algorithms with quantum computers
创建于 更新于
摘要
本文针对欧州公司债券市场算法交易中的订单成交概率估计问题,提出利用量子计算生成特征,配合统计学习模型进行填充概率预测。基于真实大规模交易数据,采用IBM量子硬件与无噪声模拟对比实验,结果显示量子硬件生成的特征能够显著提升机器学习模型预测效果,测试AUC较经典特征提升高达34%。该研究展示了量子计算在金融量化模型增强中的潜力及探索价值 [page::0][page::1][page::3][page::7][page::10][page::12][page::13]
速读内容
研究背景及问题定义 [page::0][page::1][page::2]
- 算法交易中,订单成交概率估计是核心问题,涉及处理高维度、多时序、稀疏且噪声重的金融市场数据。
- 任务目标为构建填充概率估计器 \(\tilde{\Lambda}\) ,预测交易RFQ响应是否被接受,旨在优化交易策略路径和风险调整。
- 受限于采样偏差和非平稳性,传统模型泛化能力有限,需引入新的特征转换以降低预测误差。
量子特征生成方法 [page::4][page::5][page::6]
- 定义量子特征转换映射 \(\phi:\mathbb{R}^p \to \mathbb{R}^q\),利用Projected Quantum Feature Map (PQFM),包含量子态映射和期望值测量两阶段。
- 采用Heisenberg Ansatz构造参数化量子线路,输入经典特征映射为相应影子态,测量多个局域Pauli算符期望构成量子特征向量。
- PQFM特征为经典数据的函数映射,不增加信息量,但假设转换后更利于统计学习模型捕捉交易信号。
- 量子硬件基于IBM Heron架构,噪声通过Pauli Twirling和TREX方法进行误差抑制。
交易数据与样本设计 [page::7]
- 使用2023-2024年欧州公司债券市场1,073,926条RFQ数据,构造216维的高维市场状态特征,样本时间跨度69个交易日,随机抽取16000事件进行训练和特征生成。
- 特征数据归一化处理并通过具体变换缩放到适合量子门旋转的区间。
- 量子特征通过在IBM Quantum系统(ibmtorino)及无噪声模拟器上产生,量子线路涉及109个qubit并执行不同长度的Heisenberg电路。
基于量子特征的回测模型表现 [page::10][page::11]
- 选用Logistic回归、梯度提升树(XGB)、随机森林(RF)和神经网络(NN)四种模型进行训练和测试。
- 经典特征测试AUC约为0.63,无噪声量子模拟略低(~0.60),量子硬件特征显著提升AUC,短电路峰值约0.75,长电路峰值高达0.97。
- 硬件噪声反而带来更优表现,且AUC随训练数据集与预测时在时间窗口中的“盲区”增长呈现衰减趋势。
- 性能提升最高达34%,显著降低了预测误差 \(\tilde{\varepsilon}q < \tilde{\varepsilon}_0\)。
事件匹配技术验证量子特征泛化性 [page::12]
- 引入经典-量子事件匹配技术,通过对市场状态空间的离散化实现特征复用,放宽对事件“标签”依赖。
- 在排除训练样本的测试集上复用量子计算特征,依然获得较高的预测AUC,最高约0.89,保持量子特征效益。
- 类别概率分布显示,量子特征能更有效区分成交与未成交事件,验证了量子数据转换的有效性。
讨论与未来方向 [page::11][page::13]
- 现有理论难以解释噪声量子硬件数据带来的显著性能提升,怀疑噪声本身或处理顺序导致时间相关漂移提供了额外信号。
- 进一步模拟噪声和噪声改进策略未能复制该优异表现,需深入研究量子噪声与金融数据特性的潜在交互。
- 工作演示了量子计算作为金融建模新兴工具的潜力,鼓励未来探讨基于纠错量子系统的实用应用推广。

| 数据集来源 | 模型 | 无盲区测试AUC | 1天盲区测试AUC | 相比经典无盲区提升(%) |
|------------------|----|--------------|-------------|------------------|
| 无噪声模拟 | 全部 | 0.60 ± 0.03 | 0.60 ± 0.03 | -3 / -4 |
| | LR | 0.61 ± 0.01 | 0.64 ± 0.02 | -1 / +2 |
| | XGB | 0.59 ± 0.03 | 0.61 ± 0.03 | -6 / -5 |
| | RF | 0.59 ± 0.02 | 0.59 ± 0.02 | -7 / -7 |
| | NN | 0.58 ± 0.02 | 0.59 ± 0.01 | ±0 / +1 |
| 量子硬件(短电路) | 全部 | 0.75 ± 0.02 | 0.62 ± 0.03 | +12 / -2 |
| | LR | 0.75 ± 0.02 | 0.61 ± 0.02 | +13 / -1 |
| | XGB | 0.77 ± 0.02 | 0.63 ± 0.03 | +12 / -3 |
| | RF | 0.75 ± 0.02 | 0.64 ± 0.03 | +9 / -2 |
| | NN | 0.74 ± 0.02 | 0.62 ± 0.03 | +16 / +4 |
| 量子硬件(长电路) | 全部 | 0.97 ± 0.02 | 0.88 ± 0.06 | +34 / +24 |
| | LR | 0.95 ± 0.03 | 0.81 ± 0.06 | +33 / +19 |
| | XGB | 0.96 ± 0.02 | 0.89 ± 0.06 | +31 / +23 |
| | RF | 0.98 ± 0.01 | 0.93 ± 0.03 | +32 / +27 |
| | NN | 0.97 ± 0.02 | 0.86 ± 0.04 | +39 / +28 |
量化因子/策略总结:量子特征生成与应用 [page::4][page::5][page::6][page::10]
- 核心思想:引入Projected Quantum Feature Map(PQFM)将经典市场状态向量通过参数化量子电路映射到高维量子态,再通过测量Pauli算符期望值转为量子特征。
- 具体构建:采用Heisenberg Ansatz电路,109 qubit,测量单和双局部Pauli算符期望,生成维度为3N的量子特征。
- 应用范围:欧州公司债券市场的RFQ交易,216维度经典特征映射为327维量子特征。
- 回测区间:2024年7-10月,16k训练样本构建量子特征,127k待测样本进行经典-量子事件匹配验证。
- 关键绩效指标:基于包括逻辑回归、梯度提升、随机森林和神经网络的模型,量子硬件特征使AUC提升高达34%,验证了算法交易订单成交概率估计的实用价值。

深度阅读
金融研究报告详尽分析报告
报告题目:Enhanced fill probability estimates in institutional algorithmic bond trading using statistical learning algorithms with quantum computers
作者:Axel Ciceria 等多位作者,HSBC与IBM Quantum合作团队
发布机构:HSBC Holdings Plc. 与 IBM Quantum联合发布
发布时间:2025年
研究主题:基于量子计算机的量化统计学习算法在机构算法化公司债券交易中提升成交概率估计的实证研究
---
1. 元数据与概览
本报告聚焦于机构算法化交易中对企业债成交概率(fill probability)的估计问题,创新地引入了量子计算生成的特征作为机器学习模型的输入,以期提高模型的预测精度。传统金融市场的复杂性、多变量时间序列的随机性以及隐藏的时间模式,让成交概率的准确估计成为一大挑战。报告提出了一套利用IBM量子计算机通过特定量子电路(Heisenberg Ansatz)转换交易数据获得“量子特征”的方法框架。该框架将量子转换作为脱离在线交易决策模块的独立组件,可被机器学习模型调用。
核心结论是:使用量子硬件生成的特征输入后,模型在真实欧债交易数据上的成交概率预测准确度(以AUC衡量)的表现比使用原始数据或无噪声量子模拟数据均有显著提升,最高提升约34%。该结果暗示量子硬件的噪声反而在这一特定问题上有利于模型性能,报告对此未知原因提出进一步研究需求。报告肯定了量子计算作为金融量化工具的潜力,尤其在交易领域的应用探索价值。[page::0,1]
---
2. 逐节深度解读
2.1 引言与问题背景
报告指出,企业债券算法交易策略的核心在于估计提交报价被成交的概率,即fill probability。该指标是策略优化的重要环节,但其准确估计困难重重,因市场数据稀疏、复杂,且存在隐含时序模式难以捕捉。基于物理与统计学的金融建模虽有成效,但由于市场本质上的信息不完备和非静态性,模型存在不可逾越的限制。量子计算机近年的出现开启了新的可能性,提供了高维特征空间转换的能力,从而可能揭示更深层的市场信号。[page::0,1]
2.2 方法论
- 时间依赖性与市场状态的不确定性:市场状态无法被完整观测,且市场非时间不可逆导致过去的市场信息不回归,增加预测难度。时间差(tau - t) 越大,预测误差越大。[page::2]
- 市场状态表示:构造市场状态特征向量x,融合RFQ基本信息、历史时间序列统计特征(价格变动、交易量、聚合买卖侧响应概率等),构成高维度信息空间。
- 填充概率估计:建立监督学习问题,通过机器学习模型学习 $P(Y=1 | X)$,其中Y为成交与否标签。模型使用包括逻辑回归、梯度提升树、随机森林和神经网络。引入指标为对数损失(logistic loss),使用正则化及交叉验证控制泛化能力。[page::2-4]
- PQFM(投影量子特征映射):采取两步映射 $x \to |\psix\rangle \to x'=\langle \psix|\hat{O}|\psix\rangle$。
- 第一步通过Heisenberg ansatz构造参数化量子态,借助量子门受输入特征调控。
- 第二步通过测量一系列局部Pauli算符,获得多个期望值作为量子转换后的经典特征。
- 该映射保留了数据的全部信息(是无信息增益但特征转换),但希望通过拓展可学习空间改善拟合偏差。[page::5-6]
2.3 实验与数据设置
- 数据集:真实欧债市场2023-09至2024-10近300天,共超过100万RFQ事件,覆盖5000+债券和700+股票代码,内含216维度的归一化多尺度时间特征。市场状态向量随时间动态变化,事件标签给出成交与否。选取2024-07-24至10月底的69交易日为活跃采样期,抽样16k事件用于量子特征映射生成。[page::7-8]
- 量子仿真与硬件实验:在IBM量子机“ibmtorino”上部署Heisenberg PQFM电路,测量109个量子比特单体Pauli观测值;噪声、门错误通过两种误差抑制技术缓解。对比同一电路在无噪声的经典矩阵乘积态仿真器上的结果。
- 经典-量子事件匹配:采用基于特征向量离散化后的标识$\kappa$对未生成量子特征的事件进行匹配,扩大量子特征实用范围,减少重复计算。[page::8-9]
2.4 模型回测评估
- 采用时间滚动窗口训练/测试方法,保证训练数据严格领先测试数据,防止数据泄露及时间反向因果。
- 评估指标为AUC,能够体现模型对正负样本排序能力,适合不平衡数据集。
- 对比四种常见模型(LR, XGB, RF, NN)在三类特征输入上的表现(纯经典,量子仿真,量子硬件)随时间窗口移动的测试表现。
- 给予充分参数调优及交叉验证,控制模型复杂度,确保相对公平标准。[page::9]
---
3. 图表深度解读
3.1 图1—业务问题嵌入示意图 [page::1]
该图描述了债券做市商在盲拍市场中接受RFQ后,基于当前市场状态和自身库存形成交易策略反应。量子计算作为离线过程,将市场状态信息转换为量子特征,被在线填充概率估计模型查询使用。该流程体现量子转换与线上模型分离,支持低延迟交易响应。图示清晰展示了量子计算的角色和业务流程集成。
3.2 图2—市场动态抽象关系图 [page::3]
概念化地将债券市场视作时间依赖图$\mathcal{M}_t$,展示不同请求者$r$与做市商$d$间交互。图中节点代表参与者,边对应RFQ事件,从一个时刻向下一时刻转移体现市场演进。该图辅助理解市场状态时空演化及数据采集逻辑。
3.3 图3—交易策略优化吸引子子空间示意图 [page::3]
通过画面表达随着填充概率估计器精度提高,交易策略优化空间约束子空间的收缩效应。该吸引子子空间“吸引”交易路径向高成交概率区域集中,形成策略的动态偏好。图形化强化了数学定义中的关键目标:降低预测误差,优化交易结果。
3.4 图4—Heisenberg量子电路示意图 [page::6]
展示4个量子比特的特征映射电路,初始随机单比特单元后接以特征调制的成对量子旋转门。清楚体现量子态的参数化方式及特征与量子门关系。为理论构建与硬件实现架构提供具体实例。
3.5 图5—日常RFQ交易事件数时间序列 [page::7]
展示整个数据采集期内日交易事件数归一化曲线,表明数据集保持相对稳定且波动合理。7月24日标定实际分析活跃窗口,支持时间序列划分与回测设计。
3.6 图6—交易事件示例及标签分布统 计 [page::7]
(a)市场状态均值变动图显示事件特征随时间波动,表征市场动态复杂性;(b)标注成交标签事件分布饼图(约37%成交)验证数据标签均衡度,为模型学习提供合理难度。
3.7 图7—IBM量子硬件量子电路编译示意 [page::8]
完整的109量子比特Heisenberg量子电路编译图,展示具体硬件门序列结构,表现出控制门与旋转门复杂剧本,为硬件实验安全、误差抑制和测量奠基。
3.8 图8—理论可表征市场状态与实际观测状态数量对比 [page::9]
双坐标轴图呈现,横轴为特征离散化分辨率,纵轴为可表示市场状态数(理论指数级增长)与实际市况下观测状态数(有限且远小于理论)。展示市场状态空间的高维性及数据覆盖不足,同样验证了量子特征转换处理高维度的潜力。
3.9 图9—典型特征分布直方图对比 [page::10]
对比经典特征与量子特征的分布,观察量子特征分布更平滑、接近正态分布,且硬件噪声使得分布趋于进一步集中归一。体现量子转换不仅是简单映射,而是对数据进行了“正则化”与特征形态重塑。
3.10 图10—不同特征输入模型的AUC随时间blinding变化 [page::10]
展示经典输入,量子仿真和量子硬件(“短”“长”电路版本)的学习模型AUC统计。
- 经典与仿真输入表现平稳且接近,AUC约0.6-0.63。
- 量子硬件输入表现显著优于两者,尤其长电路版本起始AUC高达0.97,且随着时间blinding递减。
显示量子硬件噪声反而有助模型预测能力提升,结果出人意料且引人深思。
3.11 表2—模型细分AUC性能统计 [page::11]
细致列出LR、XGB、RF、NN各模型在三类输入与不同时间窗口下的中位数AUC分值及相对于经典输入的差异百分比,均印证“长”量子硬件版本优势最大,最高提升达近40%。同时确认“短”版本提升有限,有些在长时间盲区表现不佳。
3.12 图11—“长”电路量子硬件测量特征稳定性分析 [page::11]
分析16k重复输入事件的量子特征在硬件上输出的短时间序列表现,显示少量噪声引起的统计漂移,但整体变化非常微小,验证硬件噪声的稳定性。
3.13 图12—经典量子事件匹配(CQEM)后的回测表现 [page::12]
利用CQEM方法将量子特征映射到未测事件,模型性能仍显著优于纯经典输入,最高达约0.89的AUC,无盲区情况下性能最好。进一步印证了量子转换生成特征的普适价值。
3.14 图13—RF模型成交概率预测分布比较 [page::12]
对比RF模型用经典与量子特征预测的成交概率分布,量子特征模型在正负样本概率分布上展现更好的区分度,支持量子特征提升的实际业务价值。
---
4. 估值分析
本报告不涉及传统意义上的企业估值内容,而是“模型估值”层面,即通过统计学习模型对成交概率的预测精度间接衡量“数据输入变换价值”。使用的统计指标为AUC,这里已系统说明其定义与适用性。
---
5. 风险因素评估
作者指出:
- 量子硬件噪声效应虽带来预测提升,但其机理尚不清楚,可能存在噪声编码数据标签信息成分,存在因果混淆风险。
- 事件匹配技术虽控制了标签信息泄露风险,但统计样本相对有限,性能评估可能存在一定偏差。
- 本研究为经验性验证,缺乏理论推广保障,结果依赖于具体市场环境和数据集,外推时需谨慎。
- 量子硬件的稳定性和实验重现性已通过多设备复测获证实,但噪声对模型性能的实际贡献仍需深入研究与理解。[page::11-12]
---
6. 批判性视角与细微差别
- 报告团队明确强调未得出通用理论,所有改进均为单一数据集实证结果,避免过分解读。
- 量子硬件噪声导致的性能提升颇具争议,传统理论通常期待噪声为不利因素,当前表现可能为噪声隐含某种结构信息或过拟合的副作用。
- 无噪声模拟版本表现不佳,提出“硬件噪声可能做为某种正则化”或“隐式数据增强”假设,值得后续更严格统计学与因果分析。
- 事件匹配方案虽巧妙,站在工程实操角度有效扩充了量子数据,但从理论上打一平衡披露了部分标签信息依赖,需警惕潜在信息泄露。
- 量子电路设计基于物理模型启发,非严谨物理对称性,为特定输入特征编码做经验调优,显示方法具高度自适应与可拓展性,但缺乏解释力。
---
7. 结论性综合
该报告系统引入了量子设备生成的量子特征映射作为算法交易中RFQ成交概率预测的输入特征,取得了相较于传统与无噪量子模拟并行模型明显的预测性能提升,升级幅度高达34%。该现象反映量子硬件噪声或复杂量子变换表现出与经典数据截然不同的特征分布,提升了机器学习模型的表达能力及拟合精度。
在实证框架内,基于欧债市场超过百万条真实交易事件和丰富多尺度市场状态特征构建量子映射,展示了量子计算机在金融领域,尤其是市场微观结构及算法交易方案中作为辅助探索工具的巨大潜力。尤其是基于Heisenberg ansatz设计的量子电路为高维复杂时序数据特征转换提供了新思路。
尽管该提升的机理尚不清楚,且缺乏理论一般化保证,但报告清晰划分了线下特征生成与线上模型决策的模块化结构,辅以事件匹配技术保证量子特征的复用性及试验的可控性,防止标签信息简单泄露,增强了实验的说服力。
总体而言,该研究开启了量子计算在复杂金融工程及市场模型中的应用新方向,呼吁深入探讨量子噪声与金融信号交织机制,并预示着未来量子硬件发展成熟后在算法交易系统中应用的巨大空间。
---
补充与图表索引
- 关键图表如图10(不同输入特征模型性能对比)、图9(特征分布对比)、表2(各模型Test AUC中位数统计)为验证报告核心结论的定量依据。
- 附录包括详细模型超参数搜索空间和回测套件配置,保障研究的重复性与透明度。
- 多个量子硬件设备的跨平台验证提供结果稳定性基础。
---
引用标注示例:本报告结论所述性能提升达34%:[page::10,11]。使用Heisenberg ansatz作为特征映射的关键设计之一:[page::5,6]。事件匹配策略细节及对实验结果影响:[page::8,12]。
---
总结
这篇报告通过严谨的实验设计与多重验证,首次将实操规模的机构算法化债券交易数据与量子计算结合,验证了量子特征映射在成交概率估计中的实际性能优势。其研究不仅推动了量子金融计算的前沿,也为未来量子机器学习与金融市场交叉领域深入探讨提供了范例和实验素材。