基于统计套利的配对交易策略

由bqu1vdra创建，最终由small_q更新于2026-03-19 07:28 被浏览 145 用户

一、配对交易的思想

配对交易（Pairing Trading）是指八十年代中期华尔街著名投行Morgan Stanley的数量交易员Nunzio Tartaglia成立的一个数量分析团队提出的一种市场中性投资策略

Ganapathy Vidyamurthy在《Pairs Trading: Quantitative Methods and Analysis》一书中定义配对交易为两种类型：一是基于统计套利的配对交易，二是基于风险套利（并购套利）的配对交易

基于风险套利的配对交易策略是一种相当复杂的交易策略，它包括两种基本类型：债务重组和收购兼并。在换股并购中，风险套利者通常做多被收购公司的股票，同时做空收购公司的股票；在现金并购中，风险套利者寻求收购价格与目标公司价格之间的差异

基于统计套利的配对交易策略是一种市场中性策略，具体的说，是指从市场上找出==历史股价走势相近的股票==进行配对，当配对的股票价格差偏离历史均值时，则做空股价较高的股票同时买进股价较低的股票，等待他们回归到长期均衡关系，由此赚取两股票价格收敛的报酬

这种策略不关心市场的整体方向，属于市场中性策略

二、配对交易的步骤

配对交易策略的时期分为形成期和交易期。在形成期挑选历史走势存在规律的股票对，并制定交易策略；在交易期模拟开仓平仓交易，而后计算收益。

配对交易的核心在于如何科学地筛选出股价具有长期稳定关系的股票对，因此在整个配对交易策略过程中，我们最关注的问题就是，如何获取两只股价高度相关/走势相近的股票呢？

配对构建方法大致可以分为三大类：

1️⃣ 基于距离的方法

最短距离法
标准化距离法

2️⃣ 基于统计关系的方法

协整方法
相关性方法
主成分分析

3️⃣ 基于机器学习/优化的方法

聚类
稀疏建模
深度学习

此外，我们知道，截至2026年3月，A股市场共有5400多家上市公司，若完全两两配对，则一共可以配出不低于14000000个股票对（组合数知识）。因此，从这样的股票对中寻找出历史价差走势稳定的股票对，势必耗费大量计算资源。其中可行的方法就是进一步将市场划分为多个子空间（即寻找特定的板块）分别进行检索。

Eg：行业内匹配：选取行业公司规模相近的股票进行配对（比如，选取银行板块或者券商板块进行两两配对）

方法多种多样，本文详细介绍三种最经典、应用最广泛的股票对构建方法：最短距离法、协整模型法和随机价差法*

一、最短距离法（Minimum Distance Approach）

最短距离法由 Gatev et al.提出，是最直观的==非参数方法==。其核心思想是：如果两只股票的历史价格走势高度同步，则它们的==标准化价格序列==之间的累积离差平方和应最小。

该方法不需要任何统计假设，仅通过度量历史价格的相似性来筛选配对

数学模型

（1）价格标准化

由于不同股票的绝对价格水平差异较大，直接比较价格序列没有意义。因此，需要将价格序列转化为累计收益率形式，使所有股票的起始值统一为 1

经过标准化后，==所有股票的初始值均为 1==，后续走势在同一基准上可比（涉及复利的计算）

（2）距离度量

对于股票 X 和 Y，定义标准化价差的平方和（Sum of Squared Differences, SSD）为：

SSD 值越小，表明两只股票的历史走势越相似，价差波动幅度越小。

（3）筛选规则

在全市场或行业内计算所有可能股票对的 SSD 值，选取最小的 K 对作为候选交易对：

（4）辅助筛选指标

为进一步提高配对质量，可引入以下辅助指标：

1.3 优缺点

优点	缺点
计算简单，易于编程实现	缺乏统计理论基础，无法保证价差的均值回复性
无需参数估计，适合大规模初筛	对数据标准化方式敏感
直观易懂，便于解释	可能选出伪相关的股票对

二、协整模型法★★★

协整理论由 Engle 和 Granger（1987）提出，解决了非平稳时间序列的“伪回归”问题。若两个非平稳序列的某种线性组合是平稳的，则称它们存在==协整关系==。这意味着尽管单个价格序列随机游走，但它们之间存在长期均衡约束，短期偏离最终会回归均衡。

数学定义：

操作步骤

2.4 Johansen 检验*（两个以上）

2.5 优缺点

优点	缺点
统计理论完备，有严格的检验框架	线性假设可能过于严格，无法捕捉非线性关系
能够刻画长期均衡关系	需要较长的历史数据（通常至少 1-2 年）
对冲比例有明确的经济含义	协整关系可能随时间改变，需定期重检

三、随机价差法*

随机价差法将价差本身视为一个随机过程进行建模，最常用的是 Ornstein-Uhlenbeck（OU）过程。该方法能动态捕捉价差的均值回复速度、长期均值和波动率，对交易信号的刻画更精确，尤其适合高频交易或对进出场时机要求较高的策略。

OU过程的数学定义

统计性质

解析解

条件分布

无条件矩

参数估计

交易信号构建

优缺点

优点	缺点
动态建模，捕捉时变特征	模型复杂，参数估计要求较高
可计算条件分布，生成精确交易信号	对离散化方法敏感，需谨慎选择时间间隔
理论基础坚实，有成熟统计推断框架	需要较长历史数据估计参数，否则估计误差大

总结与选择建议

方法	适用场景	优势	劣势
最短距离法	大规模初筛，快速获取候选池	简单高效，无需统计检验	无法保证均值回复，可能选出伪相关
协整模型法	经典策略，追求长期均衡关系	理论完备，有统计显著性检验	线性假设可能过于严格
随机价差法	高频交易，对进出场时机要求高	动态建模，信号精确	计算复杂，对数据质量要求高

三、策略分享

我选择采用最短距离法快速筛选出相似度较高的股票对，再对候选对进行协整检验。（一+二）

使用Cowork实现股票对的选择

**故选取601398.SH（工商银行）& 601939.SH（建设银行）——距离最近，协整极显著

🌟 策略展示 — 配对交易策略（银行股示例）

1️⃣ 策略核心逻辑

样本内选股
- 使用 2018–2023 数据选出两只价格关系最稳定、距离最短的股票（如 601398.SH + 601939.SH）
- 核心假设：样本外（2024–2026）这对股票的价格关系仍然稳定
==滚动回归==计算残差
- 以 y ~ x 做回归，计算 alpha + beta
- 得到残差 resid = y - (alpha + beta * x)
- 什么是滚动回归——假设今天是2024年4月1日：
  - 取 2024年1月2日到 2024年3月31日的60个交易日数据（因为4月1日当天还没收盘，所以用截至昨天的数据）。
  - 用这60天的价格做回归：y = α + β·x，得到当天的 α 和 β。
  - 然后计算这60天残差的均值和标准差。
  - 最后用今天的收盘价（4月1日）计算当天的残差，并标准化得到 z-score。
  - 因此，残差的分布也是动态更新的
z-score 信号开平仓
- 计算残差 z-score：zscore = (resid_today - mean_resid)/std_resid
- 开仓：
  - zscore > entry → y 高估，做多 x、卖出 y
  - zscore < -entry → y 低估，做多 y、卖出 x
- 平仓：
  - zscore 回归到 exit 阈值 → 平仓
  - 或者达到极端止损 stop_z
  - 或达到最大持仓天数 → 时间止损
状态管理
- 避免重复开仓
- 每次平仓后重置持仓状态、持仓天数

==PS：A股市场无法做空的限制下，其实是转化为一种“强弱轮动”策略==

2️⃣ 风险控制手段

极端 z-score 止损 → 防止残差异常波动导致亏损
时间止损 → 避免长时间持仓导致回归不发生
只做已选协整对 → 样本内筛选的配对已经稳定
低 Beta（≈0） → 市场中性，熊市风险小

3️⃣ 策略特点

交易逻辑：均值回归 + z-score
市场相关性低：β≈0 → 策略几乎独立于大盘波动
收益稳健：收益主要来源于配对价差回归，而非市场趋势
风险可控：最大回撤 10% 左右，夏普 1.66

https://bigquant.com/codesharev3/6dd8a22d-e967-4b4a-a805-c7bb271441cd