`

长江金工高频识途系列 (一) 基于买入行为构建情绪因子

创建于 更新于

摘要

本报告基于高频盘面数据区分积极买入与保守买入行为,构建买入情绪因子BM。实证显示该因子对预测个股下期收益具有显著正相关性,回测期间BM因子多空组合年化超额中证500收益率高达14.53%。经过反转因子和市值中性化处理后,因子依然展现良好选股能力,分别实现13.24%和9.3%的超额收益,显示该情绪因子有效捕捉了股价下跌过程中买盘支撑的alpha信号[page::0][page::5][page::7][page::8][page::9][page::11][page::16][page::17]

速读内容


高频数据中买入行为区分及因子构建 [page::5][page::6]


  • 积极买入为投资者主动下单以卖盘价格成交,通常推高股价。

- 保守买入为投资者以限价挂单等待成交,代表价格敏感。
  • 根据过去N日保守买入量与积极买入量比构建BM买入情绪因子,本文采用20日比值。


BM因子表现及相关性分析 [page::7][page::10]


  • BM因子与当月股票收益率呈现正相关,平均相关系数0.052,说明因子可信。

- BM因子的平均RankIC为0.0724,验证了其对股票未来收益的预测能力。

BM因子分组回测结果及绩效指标 [page::8][page::9]




| 分组 | 年化收益率 | 年化超额收益率 | 最大回撤 | 夏普比率 | 月绝对胜率 | 月超额胜率 |
|---------|------------|----------------|------------|----------|------------|------------|
| 第一组 | 24.60% | 18.12% | -55.42% | 0.71 | 58.14% | 74.42% |
| 多空组 | 26.01% | — | -15.55% | 2.79 | 81.39% | — |
  • 多空策略年化超额收益26.01%,最大回撤15.55%,夏普率高达2.7924,展示因子较强的盈利能力和风险控制。

- 分年绩效显示2010-2016年大部分年份跑赢基准,中间受2015年大盘下跌影响较大。

因子反转效应影响及中性化处理 [page::11][page::12][page::13][page::14]





  • BM因子与过去20个交易日反转因子高度负相关。

- 通过线性回归剔除反转因子影响后,BM因子依旧保留显著单调收益特征。
  • 反转中性化BM因子平均RankIC0.0512,年化超额收益13.24%且回撤有所收敛。


市值效应影响及进一步中性化 [page::14][page::15][page::16]




  • 反转中性化后BM因子仍受明显市值效应影响,小市值占优情况明显。

- 进一步剔除市值因素后,因子依然具备稳定alpha,但超额收益率下降至9.3%。
  • 中性化处理提升风险调整指标,降低部分极端回撤风险。


投资结论及未来展望 [page::17]

  • 高频盘面数据能够有效还原投资者交易行为,买入情绪因子BM捕捉到股价下跌中买盘支撑信号,具备显著选股效力。

- BM因子在剔除反转和市值因素后依旧稳定有效,历史回测中超额收益有保障。
  • 报告为系列研究首篇,后续将继续挖掘交易行为相关的alpha因子,拓宽量化投资策略边界。

深度阅读

高频识途——基于买入行为构建情绪因子的深度解析报告



---

1. 元数据与概览(引言与报告总体概述)


  • 报告名称:《长江金工高频识途系列(一)基于买入行为构建情绪因子》

- 发布机构:长江证券研究所
  • 发布日期:2017年3月10日

- 主要作者:师覃川桃等,联系方式及执业证书编号详见报告封面
  • 研究主题:围绕高频交易数据,运用买入行为识别投资者情绪,构建买入情绪因子(BM因子),进而用于选股策略。

- 核心论点
- 高频数据频率越高,信息含量越丰富,尤其是盘口的逐层数据能够更精细识别交易行为。
- 区分积极买入与保守买入,基于二者比例构造买入情绪因子BM。
- BM因子展现优异的选股能力,能显著预测未来个股收益,回测超额收益率最高达14.53%。
  • 风险提示

- 历史回测不代表未来收益保证。
- 因子有效性的持续性需样本外跟踪以验证。[page::0,3]

---

2. 逐节深度解读



2.1 简介



报告开篇强调了不同数据频率级别信息含量的差异,频率越高则信息越细致,目的在于通过盘口数据的复原来精准捕捉投资者的交易行为。尤其着眼于高频盘口数据直接反映投资者行为,从而构建选股因子,超越传统的量价指标。报告阐述了“闻‘单’识东西,扶‘盘’辨南北”的理念,即通过深度解析盘口订单揭示交易意图。[page::3]

2.2 数据分析


  • 最高频数据为tick数据,包括逐笔委托与成交数据,深交所支持逐笔委托但上交所限制较多,因而tick数据虽近似还原但仍为切片数据。

- tick数据以3秒(深交所)或5秒(上交所)推送一笔,时间间隔不固定且不同数据源间存在差异。
  • 提供了2017年1月12日某股票tick数据示例,展示了买卖五档价格及成交细节,体现盘口深度和流动性特征。[page::4]


2.3 买入行为


  • 明确A股为多头市场,重点分析买入动机。

- 买入行为分为两类:
- 积极买入:主动作价买单,成交价大于等于卖一价,表现出强烈买入意愿,通常推动股价上涨。
- 保守买入:限价挂单等待卖单成交,成交价低于买一价格,反映投资者价格敏感度高,较为谨慎。
  • 通过tick级盘口数据识别积极和保守买入比例,作为情绪指标基础。[page::5]


2.4 因子构建


  • 根据定义采用tick数据,近似计算每日积极买入量(PB)与保守买入量(CB)。

- 定义买入情绪因子BM为过去N日保守买入量与积极买入量之比,即:

$$
BM = \frac{\sum{t=T-N}^{T-1} CBt}{\sum{t=T-N}^{T-1} PBt}
$$
  • 采用过去20交易日数据进行因子计算,认为BM值越高,显示股价虽有下跌迹象但买盘支撑强劲。[page::6]


2.5 因子影响


  • 通过图表2展示BM因子值与当月股票收益率的正相关性(平均相关系数0.052)。

- 解释逻辑为:保守买入比高说明虽股价下跌,但买盘挂单消化大量卖单,显示买方力量强,未来收益较好。
  • 反之,积极买入占比高,往往意味着追高,未来收益潜在风险较大。

- 该相关性表明BM因子具有一定的预测股价趋势的能力。[page::7]

2.6 买入情绪因子回测与分组表现


  • 从2010年至2017年2月,按BM因子值对全A股按月分10组回测,保持行业中性,不计算交易成本比较分组之间收益。

- 结果显示:
- 从低到高BM组别,组合年化收益率明显递增。
- 多空组合年化超额收益率26.01%,最大回撤-15.55%,夏普比率2.79,月超额胜率81.39%。
- 第一组年化收益24.60%,超额收益18.12%,最大回撤-55.42%,夏普比率0.71,换手率83.19%。
  • 表3分年表现显示该因子除2017年数据样本较少外,其余年份均跑赢中证500指数,表现稳健,最大相对回撤控制良好。

- 说明BM因子具有实际投资价值,能在不同年份有效选股。[page::8,9]

2.7 BM因子RankIC表现


  • BM因子的平均RankIC为0.0724,体现其对下一期股票收益的持续解释力。

- RankIC是衡量因子与未来收益排序相关性的统计指标,值越正说明因子预测意义越强。[page::10]

2.8 因子剖析—反转中性化


  • BM因子受反转因子影响显著,反转因子指过去20个交易日涨跌幅,A股反转效应明显。

- 图5显示BM各组过去20天涨跌幅与BM因子值负相关,提示股票BM高值组多处于下跌状态。
  • 采用线性回归剔除BM因子与反转因子相关性后,用残差作为新因子。

- 剔除后新因子各分组过去20天涨跌幅不再呈现单调负相关,反转因子影响几乎为零。
  • 反转中性化后,BM因子仍表现出优异的分组收益表现(图7),年化收益率略有下降,仍能跑赢市场。

- 反转中性化BM因子平均RankIC为0.0512,显示因子解释力依然较强。
  • 表5显示反转中性化后第一组分年表现,与原始因子差异不大,持续稳健。[page::11-14]


2.9 因子剖析—市值中性化


  • 规模效应明显影响因子收益,市值越小股票通常存在alpha。

- 反转中性化BM因子第一组市值中位数明显偏小,可能产生市值偏强效应图9显示明显的市值分布梯度。
  • 进一步通过多元回归剔除反转和市值影响:


$$
BM = \alpha + \beta1 Last{20t} + \beta2 MVt + \varepsilon_t
$$
  • 剔除后回测结果显示,因子年化超额收益有所下降(从13.24%降至9.3%),稳定性有所提升,最大相对回撤缩小,捉住了更纯粹的因子表现。

- 表6与表7的分组年化收益及第一组分年表现均表明该中性化因子仍有较强的实用价值。
  • 图11对比了原始、反转中性化、反转市值中性化因子收益曲线,体现中性化因子收益及风险表现的变化。

- 历史回撤主要出现在2014年12月和2015年6月至7月市场极端行情,附录中列出相关月份跌幅较大的持仓股票,提示市场极端情况可能对因子有效性产生压力。[page::14-17,18]

---

3. 图表深度解读



图 1:积极买入与保守买入示意图(page 5)


  • 显示了盘口买一至买五价,示例中卖一价为3.31。

- 投资者若以3.31价主动买入,属积极买入。
  • 若挂单价低于卖一价,则被动等待成交,保守买入。

- 该图将抽象定义具体化,有助理解两种买入行为的差异及交易心理。[page::5]

图 2:BM因子与当月股票收益率相关系数时间序列图(page 7)


  • 纵轴为相关系数,整体正偏,均值约0.052。

- 时间序列波动显示该因子相关性在不同月份有强弱差别,有部分月份负相关。
  • 支持BM因子作为收益预测指标的有效性,但存在周期性及市场阶段依赖性。[page::7]


图 3:BM因子十组表现(累计收益,page 8)


  • 横轴为时间,纵轴为累积收益。

- 各组曲线呈现从中上方到底线递减排列,第一组(高BM值)领先至尾组。
  • 多空组合累计收益最高,显示BM因子在极端分组上的显著选股能力。

- 可见BM因子有效地划分了不同预期收益表现的股票群。[page::8]

表2 & 表3:BM因子分组详细绩效指标(page 9)


  • 年化收益率、夏普率、信息比率、最大回撤均呈现分组递减趋势。

- 第一组表现优秀,最大回撤虽大但与收益成正比。
  • 分年表现揭示因子在不同市场环境下的稳定性,尤其在2015年大牛市α显著。[page::9]


图4:BM因子RankIC时间序列(page 10)


  • 和图2类似,RankIC保持正值且波动明显。

- 表明因子在不同时间段对未来收益的排序预测能力保持较强,虽有周期波动,但整体有效。[page::10]

图5 & 图6:BM因子原始与反转中性化后过去20天涨跌幅对比(page 11-12)


  • 图5展示BM因子原始分组20日涨跌幅负相关明显。

- 图6中性化后,该负相关性消失,涨跌幅呈现整体正向,显示去除反转因子干扰后的纯净信号。
  • 说明BM因子筛选的是在下跌过程中买盘支撑强的股票,非纯粹下跌股。[page::11-12]


图7 & 表4 & 表5:反转中性化BM因子分组表现及分年绩效(页12-14)


  • 图7表现为分组收益曲线仍单调递减。

- 表4与表5展示分组及分年绩效保持较优,尽管收益稍降,稳定性增强。
  • 支持因子独立于反转因子仍具投资价值。[page::12-14]


图8:反转中性化后BM因子RankIC表现(page 14)


  • RankIC依旧正向,平均约0.05,尽管较原始值下降,但因子相关性依然稳定。

- 体现剔除反转影响后因子纯净度提升。[page::14]

图9 & 图10 & 表6 & 表7:反转市值中性化情况(page 14-16)


  • 图9显示分组中小市值的集中度,说明部分因子效果可能受市值偏好驱动。

- 图10为剔除反转和市值影响后的分组收益曲线,虽收益率较原始略低,但仍保持分组区分力。
  • 表6与表7展示中性化后的分组及分年详细表现,表现虽有所下降,但尤其是最大相对回撤有所改善,换手率及胜率保持稳定。

- 表明剔除规模因子后BM因子更趋纯净,稳健性增强。[page::14-16]

图11:三种中性化阶梯对比(page 16)


  • 蓝色(原始)收益最高,红色(反转中性化)其次,黄色(反转市值中性化)最低。

- 说明因子收益来源部分受到规模因子影响,但剔除后因子仍具较好alpha。
  • 止损及回撤表现反映不同中性化处理对因子稳健性的影响。[page::16]


---

4. 估值分析



报告核心不涉及传统的估值模型如DCF或市盈率,而是构建和验证基于高频盘口行为数据的情绪因子,属于量化选股策略研究范畴,主要通过因子的收益表现、信息系数和夏普指数体现估值及投资价值。

因此此处估值方法基于因子表现的统计效率衡量,如年化超额收益、最大回撤、信息比率、夏普比率等指标,通过历史回测数据推断因子预测能力。

---

5. 风险因素评估


  • 历史收益不代表未来表现,市场极端波动可能导致因子失效。2014年12月及2015年6月至7月因子表现受挫,相关股票跌幅大,市值偏小且较为集中。

- 高频数据自身存在缺陷,如tick数据受交易所推送间隔影响,可能无法完全捕捉真实交易行为。
  • 因子构建基于买入行为的近似计算,tick数据时间间隔不均及数据提供商差异带来一定误差。

- 因子有效性需长期样本外跟踪确认持续性。
  • 未见报告中特别提出缓解策略,仅警示投资者关注交易成本及市场极端风险。[page::0,4,16-18]


---

6. 批判性视角与细微差别


  • 因子策略受到A股市场特有多头偏好与制度因素影响,结论可能不完全适用于其他市场。

- BM因子主要依赖tick数据的近似统计,难完全复现投资者买入心态,数据噪声较大。
  • 反转及市值中性化表现出因子多重驱动因素,显示这类情绪因子非完全独立,需注意多因素的交叉验证。

- 极端行情对因子影响较大,如2015年市场大跌阶段,因子失效严重,这提示策略对市场环境依赖敏感。
  • 报告长期收益表现出色,但近期表现(如2017年)有所波动,说明该因子存在阶段性风险和有限的预测稳定性。

- 交易成本较高(换手率80%+),实际实现收益可能被交易费用显著侵蚀,实际应用需谨慎考虑成本因素。[page::7,9,16-17]

---

7. 结论性综合



本报告系统研究了基于高频盘口数据的买入情绪因子BM,该因子通过区分积极买入和保守买入构建,反映股价虽处于下跌趋势但买盘支撑充足的股票,进而预测未来股价表现。主要发现涵盖:
  • 高频数据在细化量价信息及挖掘投资者行为方面具备独特优势,直接观察买入行为优于传统量价指标。

- BM因子从结构设计到统计回测均展现优异的选股能力,过去7年间最高年化超额收益达14.53%,且信息比率和夏普率均体现其稳健性。
  • 因子与传统反转因子负相关,但剔除后仍保持高效,说明其alpha收益独立于市场反转效应。

- 市值影响显著,剔除反转与市值中性化后,因子仍保持约9.3%的超额收益,显示因子本身捕捉有效交易行为信号。
  • 风险主要源于极端行情带来的因子失效以及高换手率导致的交易成本侵蚀。

- 报告配以详实的图表(如BM因子与收益相关性、分组表现、RankIC时间序列和中性化效果对比),充分展示了因子构建逻辑及实证表现。
  • 作为长江金工高频系列的首篇研究,报告为后续研究投资者买卖订单行为奠定了坚实基础。


总体来看,本报告论述严谨、数据翔实、逻辑清晰,展示了高频数据在投资行为识别与alpha构建上的领先探索价值。[page::0-18]

---

参考关键图表与数据汇总(示例)



| 图表编号 | 描述 | 核心结论 | 页面 |
|----------|--------------------------------|------------------------------------------------------------------------------------------|------------|
| 图1 | 积极买入与保守买入示意图 | 说明了两类买入的盘口价格区间和交易意愿差异 | 5 |
| 图2 | BM因子与当月股票收益相关系数 | BM因子与未来股票收益正相关(平均0.052) | 7 |
| 图3 | BM因子分组累积收益曲线 | BM因子由大到小组合年化收益单调递减,多空组合收益最高达26.01% | 8 |
| 表2 | BM因子分组详细绩效数据 | 第一组年化收益24.60%,最大回撤55.42%,夏普比率0.71,表现稳健 | 9 |
| 图4 | BM因子RankIC | 平均RankIC0.0724,验证因子预测稳定性 | 10 |
| 图5&6 | BM因子原始与反转中性化20天涨跌幅 | 反转中性化消除原始因子与反转因子负相关,形成更纯粹的买入情绪信号 | 11-12 |
| 图7 | 反转中性化分组收益表现 | 因子效力仍强,年化收益轻微下降 | 12 |
| 表4&5 | 反转因子中性化分组及分年收益 | 因子表现依旧优异,年化收益保持领先 | 13 |
| 图9&10 | 反转市值中性化因子市值分布与表现 | 市值中性化后因子仍有效但收益稍降,回撤更小,表现更稳定 | 14-15 |
| 图11 | 三种中性化因子归一化收益对比 | 显示因子收益受市值影响较大,剔除市值影响后收益降低 | 16 |

---

总结



本报告详尽解析了以高频盘口数据为基础的买入行为情绪因子BM,证明其在A股市场具备稳定的超额收益和良好风险调整表现,是高频信号挖掘领域的重要成果。通过设置积极买入与保守买入差异,报告创新地捕获了投资者不同价格敏感度下的买入动机。反转和市值因素加权影响剔除进一步凸显BM因子的纯粹alpha能力。

尽管面临极端行情风险和交易成本压力,BM因子为量化投资提供了一种可行的新思路。未来随着高频数据及模型持续进化,基于买卖订单行为的因子研究前景广阔。

---

(全文分析严格对应报告原文结构和内容,所有数据和图表均已纳入且解析到位,结论均基于报告本身内容,与个人观点无关)

报告