`

高频因子 (十三):广义拥挤度

创建于 更新于

摘要

本报告系统梳理广义拥挤度的定义及量化计算方法,重点构建了17个基于成交属性和维度属性匹配的选股因子,剔除行业与风格影响后仍具备显著选股能力。报告阐述了三种常用计算方法及因子相关性、风险指标,并通过全市场及中证800的分组回测验证因子的有效性,确认拥挤度因子与传统量价因子相关但具差异化收益特征,为量化选股提供新视角与方法指导 [page::2][page::11][page::13][page::16][page::17]

速读内容


广义拥挤度定义及理论框架 [page::2][page::4][page::5]


  • 广义拥挤度定义为某成交属性在维度属性上的分布情况,扩展狭义拥挤度概念。

- 维度属性(时间、价格、波动、成交量等)及成交属性(成交占比、均价、收益率等)匹配刻画交易行为和行为偏好。
  • 三种成交属性计算方法:局部计算(VaR下置信度)、加权计算(偏移程度)、相关性计算(线性匹配)均反映匹配程度。


广义拥挤度因子体系构建及因子逻辑 [page::11][page::16]


| 维度属性 | 成交属性情况 | 因子名称 | 计算方法 | 因子逻辑 | 理论方向 |
|----------|--------------|------------------|------------------------|--------------|----------|
| 时间 | 成交量 | 开盘成交占比 | 开盘5分钟成交占比 | 过度交易 | -1 |
| 价格 | 成交量 | 高价成交占比 | 最高20%区间成交量占比 | 羊群效应 | -1 |
| 价格 | 成交量 | 低价成交占比 | 最低20%区间成交量占比 | 羊群效应 | 1 |
| 波动率 | 成交量 | 波动加权成交占比 | 日度波动率加权成交量占比 | 风险偏好 | -1 |
| 量 | 均价 | 高成交量交易成本 | 高成交量区间均价比全区间均价 | 羊群效应 | -1 |
| 每笔成交量| 收益率 | 高每笔收益率 | 高成交密度区间收益率 | 过度交易 | -1 |
| 方向 | 成交量 | 主动资金流入 | 主动资金流入占比 | 多空力量 | -1 |
  • 因子多数具备明确选股逻辑,如羊群效应、风险偏好和过度交易。

- 维度和值之间相互匹配,因子相关性较高,但差异化表现构成有效选股信号。

因子表现及风险指标分析 [page::13][page::14][page::15]



  • 多个因子在全市场和中证800均表现出较好的信息比率(ICIR)和超额收益,具备选股能力。

- 拥挤度因子与传统量价反转、换手率、波动率因子相关性较高,但仍体现差异化股票风险定价。
  • 行业风格中性处理后,部分因子仍保选股能力,说明因子信息独立于风格与行业影响。

- 特别以高成交量每笔成交因子为例,展示了良好的分组回测曲线,具有稳定的多空收益。

量化策略及应用建议 [page::13][page::15]

  • 推荐结合多个广义拥挤度因子,构建多因子选股模型,提高挖掘市场结构性机会的能力。

- 因子剥离风格和行业影响后仍有效,适合应用于风格中性和行业中性量化选股策略。
  • 风险提示包括模型存在失效可能性,投资者应结合市场环境动态调整模型参数。

深度阅读

元数据与概览



本文是一份名为《高频因子(十三):广义拥挤度》的深度金融工程研究报告,由长江证券研究所发布,发布日期为2023年7月23日。该报告的核心研究主题围绕“广义拥挤度”这一量化因子展开,探讨了成交属性和维度属性在股票交易中的匹配关系及其在选股中的有效性。报告作者郑起(SAC编号:S0490520060001)为资深分析师。报告旨在系统整理广义拥挤度相关的17个选股因子,展示其对股票价格行为的刻画能力及选股价值,结论指出这些因子即使剔除行业和风格线性影响后,仍有显著的选股能力。

逐节深度解读



报告要点(第1-2页)



报告首先定义了广义拥挤度为“某成交属性在某维度属性上的情况”,即成交属性(如价格变动收益率、成交成本等)与维度属性(基于交易行为区分的数据特征)之间的匹配关系。通过交易行为和成交属性的结合,分析交易活动的内在逻辑。

报告整理了17个选股因子,涵盖时间、均价、波动率、成交量、每笔成交量和方向等方面,系统地刻画交易拥挤现象。重要的是,报告强调因子与传统量价因子高度相关,但剔除风格和行业之后,这些因子仍有独立的选股能力,体现了其作为高频因子的价值和创新性。

报告也提出风险提示,模型存在失效风险,且所有举例基于历史数据,不保证未来收益[page::1,2]。

广义拥挤度定义(第4-5页)



报告回顾了狭义的拥挤度定义,交易拥挤度即成交量等在某一特定交易属性上的分布,如价格区间成交量相关性、高波动区间成交占比等。报告中图1展示了2005年至2022年沪深300指数及两种交易拥挤度指标的动态变化,表明量价相关性和高波动占比体现了市场风险偏好。

基于此,广义拥挤度被定义为成交属性(不仅限于成交量,还可包括收益率、均价、资金流入等)在维度属性(时间、价格区间、波动率区间等)上的表现。通过局部计算(某区间成交量占比)、加权计算(以成交属性加权成交量占比)和相关性计算(成交属性与维度属性的线性相关)三种方法,刻画交易行为匹配程度。

报告指出组合维度属性和成交属性时需防止测量同一交易行为,避免“天然正向匹配”且无选股能力的情形。举例包括成交量与非流动性因子的嵌套,收益率与主买比例的重复度等。

文中还提及相关研究,暗示广义拥挤度框架具备扩展性和关联性[page::4-7].

因子构建与计算方法(第5-7页)



报告详细解释三种计算方法:
  • 局部计算:在特定维度属性区间计算成交属性(如均价区间成交量占比),反映成交集中程度和VaR置信度。

- 加权计算:用维度属性加权成交属性(如均价加权成交量占比),体现成交属性相对于时间维度上的偏移。
  • 相关性计算:计算维度属性与成交属性的线性相关性,类似于加权计算但以正负处理为权重。


第六页表2详细展示这些计算方法下,不同维度属性(成交量、每笔成交量、波动率)与成交属性(收益率、均价等)因子之间的相关性矩阵,发现同一维度和成交属性下因子高度相关,但计算方法表现上有所区分,例如局部计算产生的高低区间因子负相关明显,说明信息分布的变化。

风险指标比较(表3)表明不同计算方法对因子风险暴露的影响,指导实操中采用哪种方法更为稳健。

总结时强调因子组合需有交易行为逻辑,避免同属性拥挤度带来的无效因子(表4),同时证明交叉属性拥挤度因子本质相同,但存在表现差异(表5)[page::6-8].

具体因子分析与逻辑(第9-11页)



报告聚焦成交量与每笔成交量的区别,指出成交量作为活跃度标准,构建的拥挤度因子具备选股能力,而每笔成交量(代表成交密度,反映交易单大小差异)构建的因子无选股能力(表6)。

基于成交属性收益率的拥挤度因子分析(表7、表8)表明不同维度属性选择的因子表现差异,但整体均表现出一定的反向动量特征,符合市场短期反转机制。

最终,报告确认17个有效的广义拥挤度选股因子,涵盖时间、价格、波动率、成交量、每笔成交量和方向6个维度属性和5个成交属性不同组合的因子,涵盖开盘成交占比、价格区间成交量占比、波动率加权成交量及资金流入等,明确对应的因子逻辑如羊群效应、风险偏好、多空力量等,并给出理论因子方向(多数为负向,符合反转逻辑)(表9)[page::9-11].

因子相关性与风险指标(第12-13页)



表10和表11展示了广义拥挤度因子内部的相关性和风险表现:
  • 价格和成交量因子高度相关,说明不同维度属性对同一成交属性的刻画具有共性。

- 波动率相关因子整体与风险溢价逻辑契合较好。
  • 成交量加权收益率、高每笔收益率、开盘成交占比因子表现较好,具有明显选股能力和超额收益。

- 风险指标显示大部分因子无论在全市场还是中证800范围均表现稳健,信息比和夏普比指标整体较为理想。

图2与图3展示了高成交量每笔成交因子在全市场及中证800的分组回测净值表现。不同分组的净值曲线表现差异明显,显示因子有效捕捉了股票收益的差异化,具备较强的投资价值[page::12-13].

因子与传统风格相关性以及剥离效果(第14-15页)



拥挤度因子与传统风格因子存在显著关联,特别是在量价、反转、换手率和波动率维度(表12),显示这一因子体系在一定程度上具有传统量化因子的风格特征。

在剔除行业和风格影响后的中性风险调整分析(表13)中,多数因子依然保留了其选股能力和显著超额收益,尤其量价相关因子展现稳定的多空收益和信息比,表明拥挤度因子具有较好的独立性和预测能力。

图4、图5通过回测净值展示了剥离风格和行业中性后的高成交量每笔成交因子依然稳定跑赢基准市场,验证了因子的选股价值在净化因子后仍被市场认可[page::14-15].

报告总结与风险提示(第16-18页)



总结部分再次强调广义拥挤度的定义、计算方法和因子组合逻辑。三种计算方法虽形式不同,但本质都是匹配维度属性与成交属性,需保证组合逻辑合理避免无效因子出现。共识整理的17个因子覆盖了广义拥挤度研究的核心,且大多数因子在去风格、去行业的条件下依旧保持有效性。

风险提示部分提醒模型可能因宏观经济环境和市场交易行为演变而失效,且所有举例基于历史数据,未必适用于未来,提示投资者谨慎参考[page::16-18].

图表深度解读



图1:不同属性刻画的交易拥挤度 ([page::4])


  • 图1展示2005年至2022年期间量价相关性(红线)、高波动占比(橘点)和沪深300指数(灰色柱)的动态变化。

- 量价相关性周期性波动较大,体现了不同时间段成交量对价格区间的依赖变动。
  • 高波动占比相对平稳,与量价相关性时间序列相关系数为0.15,显示两指标反映市场交易拥挤的不同维度。

- 材料说明量价相关性反映了在高位价格的成交活跃度,称为市场风险偏好的象征。

表1:广义拥挤度组合 ([page::5])


  • 该表列举了不同维度属性和成交属性的组合及其市场含义,例如均价-成交占比对羊群效应的刻画,波动率-收益率对应风险溢价。

- 表格指出有些组合无实际效果,体现了组合逻辑的重要性。

表2与表3:不同计算方法下因子相关性及风险指标 ([page::6-7])


  • 表2显示局部计算、加权计算、相关性计算不同方法得出部分拥挤因子间高度相关,但也存在较大差异。

- 表3展示不同计算方法下因子的IC(信息系数)、ICIR及超额收益等指标,指导实际选用何种计算方法。

表4与表5:同属性及交叉属性因子表现([page::8])


  • 表4显示同属性拥挤因子的风险指标低,因无选股能力。

- 表5显示成交量与均价交叉属性的因子之间高度相关,因子本质相似。

表6-8:成交量与成交属性收益率的因子表现([page::9-10])


  • 表6凸显成交量维度优于每笔成交量维度的选股能力。

- 表7和表8展示成交属性收益率因子间相关性及风险表现,确认因子大多与反转策略相关。

表9-11:核心广义拥挤度因子定义及表现([page::11-13])


  • 表9详列17种因子的维度属性、成交属性、名称、计算方法、逻辑与方向。

- 表10与11分别展示该因子组的相关性和风险指标,体现因子间的内在联系及稳定的超额收益潜力。
  • 图2和图3显示“高成交量每笔成交”因子的分组回测净值,表现显著优于市场基准。


表12-13、图4-5:与传统因子关系及中性剥离效果([page::14-15])


  • 表12展示拥挤度因子和传统风格因子(规模、价值、盈利等)关系,量价与反转关联最高。

- 表13考虑风格和行业中性后的风险指标,大部分因子仍保持有效。
  • 图4和图5显示行业风格中性后,“高成交量每笔成交”因子依然实现稳定超额收益。


估值分析



报告聚焦因子研究和回测表现,无涉及具体公司或行业的估值模型构建,因此未包含经典DCF、市盈率计算等估值内容。

风险因素评估



报告明确提出两大风险:
  • 模型失效风险:由于宏观经济环境变化和市场交易行为演变,因子模型可能失去原有效性。

- 历史数据局限性:因子和回测均基于历史数据,未来收益无保证,且市场结构变化可能影响模型适用性。

该风险提示客观反映量化模型的普遍限制,没有提出具体缓解策略,但强调投资者需保持谨慎态度[page::2,18].

批判性视角与细微差别



报告方法上系统细致,因子逻辑明晰,但以下几点值得注意:
  • 因子剥离风格和行业后表现差异较大,提示部分因子或更多体现了行业风格效应,独立性受限。

- 成交属性和维度属性重复含义时因子无效,提醒研究者构建因子时需精准区分,但报告未提供自动筛选重复因子的机制。
  • 相关性较高的因子间可能存在替代性,实际投资组合构建时需考虑多样性和冗余风险。

- 测算和回测均基于中国市场,结论对其他市场适用性未论述。

结论性综合



本报告全面系统地定义并拓展了“广义拥挤度”因子,从单一成交分布拓展至成交属性与维度属性的匹配分析,提出三大计算方法(局部、加权和相关性),并构建了17个具有代表性的广义拥挤度选股因子。报告强调:
  • 因子逻辑基于匹配交易行为不同维度的特征,避免交易行为重叠的无效因子,确保组合严谨。

- 多因子在不同计算方法下表现稳健,尤其成交量维度与价格相关因子,在全市场和中证800均显出显著选股能力和稳定的超额收益。
  • 拥挤度因子同传统量价和风格因子高度相关,但在剔除行业和风格影响后,仍保留多因子的选股能力,展现出独到的价值捕捉。

- 分组回测和风险调整测试验证了因子的有效性及实用性,特别是在高成交量单笔成交因子上展现的持续超额回报。

报告同时保持谨慎态度,强调模型受宏观环境影响存在失效可能,并提醒投资决策基于历史表现不保证未来收益。

整体而言,报告为量化研究提供了基础严谨且实操性强的高频因子框架,广义拥挤度因子的定义和筛选方法为交易行为分析提供了新视角,适合量化投资者和研究机构进一步拓展和应用。

---

以上分析严格基于报告内容构建,引用页码均已明确标注,确保研究透明且可追溯。[page::0-19]

报告