`

Machine Learning Classification and Portfolio Allocation: with Implications from Machine Uncertainty

创建于 更新于

摘要

本文采用多分类机器学习模型预测股票表现,将个股划分为超额收益者、次优收益者和低收益者,构建多因子量化模型,实现年化夏普比率达1.67至3.35且alpha高达29%-48%。引入机器不确定性指标衡量信息稀缺性,发现信息不完整性与股价回报显著负相关,尤其对过去表现不佳的股票影响最大,量化模型的预测性能与信息环境紧密相关[page::0][page::2][page::4][page::16][page::20][page::24][page::25][page::34][page::39][page::41]。

速读内容


机器学习分类模型的投资组合构建与表现 [page::15][page::34]


  • 采用多分类方法预测股票回报状态,将个股划分为超额收益者(前10%)、次优收益者和低收益者(后10%)。

- 组合通过买入超额收益者、卖空低收益者实现长期持有,年化夏普比率分别达到1.67(价值加权)和3.35(等权重)。
  • 排除小盘股后策略依然表现稳健,价值加权组合年化夏普比率仍达1.15[page::34][page::35]。


因子模型与机器学习回归对比分析 [page::17][page::36][page::53]


| 模型 | 组合 | Alpha | T值 |
|-------------------------|------------|-------|--------|
| CAPM | Long-Short | 0.034 | 8.327 |
| FF3F | Long-Short | 0.033 | 9.925 |
| FF5F | Long-Short | 0.027 | 7.932 |
| FF5F + ML回归组合 | Long-Short | 0.024 | 6.982 |
  • 标准因子模型难以完全解释分类模型组合的超额收益。

- 即使加入对应的机器学习回归组合因子,分类模型的alpha依然显著,显示分类方法捕捉独特的预测信息。
  • 两种机器学习方法的简单叠加能提升部分组合的表现,价值加权组合alpha达1.85[page::36][page::37][page::53]。


机器不确定性度量及其与预测准确性关系 [page::20][page::39][page::40]

  • 定义机器不确定性为预测概率的信息熵,反映机器对回报状态预测的置信度。

- 机器不确定性每增加1 bit,预测正确率下降约9%。
  • 信息不确定性与分析师收益预测分歧、股票交易不确定性等人类代理指标呈显著正相关。

- 机器和人类不确定性指标同时升高时,预测正确率下降更明显,揭示信息环境复合影响[page::39][page::40]。

机器不确定性与股票回报的关系及分层效应 [page::24][page::41][page::42][page::43]


| 子样本 | 机器不确定性对年化回报的影响 |
|-------------|---------------------|
| 过去表现较差股 | -18% |
| 过去表现中等股 | 无显著影响 |
| 过去表现较好股 | +6% |
  • 机器不确定性总体上与股票未来回报呈负相关,符合信息不充分降低估值的理论预期。

- 该负相关主要由过去表现较差的股票驱动,表明信息不对称拖延了负面股票的表现反转。
  • 机器不确定性与交易成本指标及分析师预测分歧的交互对回报有显著影响,强化信息-价格传递机制[page::24][page::42][page::43]。


主要模型架构与训练策略 [page::30][page::31][page::32][page::33][page::45][page::52]

  • 采用三种分类算法:人工神经网络(ANN)、随机森林(RF)、梯度提升树(GBT)。

- 训练策略使用滚动时窗,数据分为训练集、验证集和测试集,每10年更新一次模型。
  • 网络层数、节点数、树深度等超参数通过网格搜索优化,模型输出概率进行交叉熵损失最小化。

- 各模型预测概率平均聚合形成最终组合权重,实现稳健性能[page::30][page::31][page::32][page::33][page::45][page::52]。

量化因子特征与机器不确定性的关联 [page::22][page::54][page::55][page::56]

  • 机器不确定性与52个财务特征呈正相关,如收益波动(ROAVOL)、分析师预测分歧(DISP)、盈利能力(ROIC)。

- 与29个财务指标呈负相关,包括市值(MVE)、公司年龄(AGE)、股息支付持续性(DIVO0)。
  • 说明机器不确定性不仅由单一指标主导,而是综合财务特征的信息复杂度体现。

- 因子与不确定性的关系深刻揭示量化模型如何捕捉信息稀缺程度[page::22][page::54][page::55][page::56]

深度阅读

深度分析报告:《Machine Learning Classification and Portfolio Allocation: with Implications from Machine Uncertainty》



---

1. 元数据与概览


  • 报告标题:《Machine Learning Classification and Portfolio Allocation: with Implications from Machine Uncertainty》

- 作者:Yang Bai, Kuntara Pukthuanthong
  • 发布日期:2025年7月24日(Draft版本)

- 主题:运用机器学习多分类模型进行股票回报预测与组合配置,探讨机器不确定性(Machine Uncertainty)对回报预测和资产定价的影响。
  • 关键词:人工神经网络、分类、梯度提升树、机器学习、投资组合配置、样本外预测、随机森林

- JEL分类:C14(统计与计量方法-非参数与半参数估计)、C38(分类方法与聚类)、C55(回归与时间序列模型)、G11(资产定价;资本市场)
  • 核心论点:报告创新性地将横截面股票回报预测问题作为多类别分类问题,以预测股票是否为表现优异者(顶端10%)、中性表现、中下游表现者(底端10%)。构建的基于预测结果的多分类长短组合表现卓越,年化夏普比率高达1.67-3.35,年化超额收益(alpha)介于29%-48%。机器不确定性(基于模型预测概率的熵值测量)降低了预测准确率并与股票回报负相关,特别是与人类信息不确定性指标(如分析师预测分歧)一致时,机器不确定性影响更显著。


---

2. 逐节深度解读



2.1 摘要及引言



报告提出将股票横截面回报预测问题视作多类别分类,划分为三类:优异者(top decile)、中等表现者及表现较差者(bottom decile)。分类模型不是预测具体回报金额,而是预测股票位于各类别的概率。该设计基于资产定价中的状态定价理论,认为股票回报是不同经济状态(好、中、坏)下状态概率和状态收益的加权和。投资者如果能有效辨识股票在“好状态”出现的概率高,且在“坏状态”出现概率低,即可通过构建长优异者、空表现差者的组合实现收益超额。
分类模型的损失函数采用交叉熵(cross-entropy),用于衡量预测分布与真实分布差异,从而优化预测输出。最终利用概率排名构建长短组合,进行资产配置。[page::0,1]

2.2 经济表现(Section 3)


  • 关键数据点


- 股票样本为1983年1月至2021年12月的月度数据。
- 分类模型构建的长短组合(长优异者,短表现差者),年化夏普比率:
- 价值加权组合(Value-weighted)约1.67
- 等权重组合(Equal-weighted)约3.35
- 价值加权组合月均收益率超额大约3%
- 移除小盘股后(只选市值前50%股票),组合表现略减但仍显著,如价值加权夏普率1.15,月均收益3%。
- 机器学习分类模型表现优于机器学习回归模型(Gu et al. 2020方法)(见表2、表3、附录A5)
  • 组合风险与成本


- 投资组合最大回撤(Max Drawdown)和换手率(Turnover)与市场及回归模型构建的组合相当,说明策略成本合理,具有现实可投资性。[page::15,16,19]
  • 因子模型解释(Factor Models)


- 应用CAPM、Fama-French三因子和五因子模型进行alpha测试。
- 分类模型生成的组合alpha显著且正向,五因子模型无法完全解释复合组合的超额收益,如月度alpha最高达2.7%。
- 即使在混合机器学习回归模型因子的条件下(FF+ML回归组合),分类模型组合alpha仍保持显著,说明分类模型捕捉了回归模型无法解释的额外信息。[page::17,18]
  • 混合(Stacking)模型


- 将分类和回归模型有效预测的股票组合交集构建组合,进一步提升了价值加权组合表现,提高夏普比率至1.85,但对等权重组合提升有限,显示两模型各有侧重互补性。[page::18]

2.3 模型设计与技术方法(Section 2)


  • 分类问题设定


- 目标是预测股票属于三类中哪一类。
- 交叉熵损失函数优化分类,最大化模型对实际样本分布的拟合度。
- 长短组合分别基于预测概率排名构建。
  • 机器学习模型选择


- 实验主要采用三类模型:人工神经网络(ANN,使用双曲正切激活函数tanh)、随机森林(RF)和梯度提升树(GBT)。
- ANN架构设计:输入层 -> 多个隐藏层(神经元数量范围详细见表1)-> 输出层(对应三分类输出,通过SoftMax生成概率)。
- RF和GBT均基于决策树,在多样本内通过bagging(RF)或boosting(GBT)机制优化。GBT通过迭代残差拟合最小化交叉熵,提高分类概率准确率。
- 模型训练采用滚动时间窗口,采用训练集拟合、随后的验证集进行超参数调优,最后于测试集进行样本外预测(图3)。[page::7-14]

2.4 机器不确定性(Machine Uncertainty)的定义与分析(Section 4)


  • 机器不确定性定义


- 基于机器学习分类模型输出的预测概率,计算信息熵(Shannon entropy):

$$
\mathrm{Machine\ Uncertainty}{i,t+1} = -\sum{d \in D} \hat{Q}(d{i,t+1}) \log2 \hat{Q}(d_{i,t+1})
$$

- 机器不确定性反映模型对未来回报状态的信心程度,概率分布越集中,熵越小,表示信息充分,预测的确定性强。
  • 预测准确性评价


- “Correct”变量定义:预测概率最高的类别与实际回报类别一致为正确。
- Fama-MacBeth回归显示机器不确定性每增加一个bit,预测正确率下降约9%,控制了102个公司特征和行业、过去回报状态的固定效应。
- 机器不确定性与人类信息不确定性代理(如分析师预测分歧、股票交易波动性等)交互作用增强了信息稀缺对预测准确性的负向影响(表7、表8)。
  • 机器不确定性与股票回报关系


- 以机器不确定性为解释变量,控制多种特征与行业效应,回归股票未来月度超额收益,发现机器不确定性显著负相关(每增加一个bit,预期月收益降低0.1%至0.2%)。

- 作用机理符合Merton (1987) 关于信息不足作为折扣因子的理论,导致股票返报被压制。

- 不同表现股票中效果异质:过去表现较差的股票,信息稀缺导致未来回报下降幅度更大(年化降约18%);而过去表现优异的股票信息稀缺反而与较高回报相关(年化升约6%)。此消彼长效应符合市场信息扩散缓慢、价格延续假说。
  • 机器不确定性与公司特征关联


- 进行机器不确定性与102个公司特征的Fama-MacBeth回归。

- 52个特征正向影响机器不确定性,如ROA、分析师预测分歧、现金比例等;29个特征负向影响,如市场价值、公司年龄等。(附录A6)

- 说明模型合成了传统财务与市场信息,从多维度综合评估信息完整性。[page::20-25,54-56]

---

3. 图表深度解读



3.1 图1:预测流程图(第30页)



该图直观展示输入至机器学习算法的主要信息包括:公司特征、过去回报状态和行业信息。算法通过训练生成输出的三分类概率:优异者概率、表现差者概率和中等者概率。算法优化目标是最小化预测概率分布与实际回报类别的交叉熵差距。最终基于预测概率构建投资组合,实现股票的买入卖出决策。
  • 图表揭示:分类预测过程的核心逻辑和投资组合构建思路。清晰展现了特征输入、模型算法及输出结果的连接,强调预测概率跳脱传统回归,直接聚焦类别概率,有利于构建多样化的长短组合。[page::30]


3.2 图2:人工神经网络结构示意(第31页)



展示一例两层隐藏层的ANN架构,输入层连接全部公司特征,经过多个隐藏层的非线性变换(激活函数tanh),最后输出层采用SoftMax函数生成类别的概率分布。
  • 意义:体现模型的非线性表达能力及多层次特征整合能力,支持复杂的股票回报状态映射,提升分类准确率。
  • 实际操作说明:通过网格搜索并结合L1正则化(缩减)优化各层隐藏单元数量和参数,实现模型性能的调优。[page::31]


3.3 图3:滚动时间窗口建模流程(第32页)



本策略采用固定长度训练窗口(例:1962年至1977年),之后的5年为验证集,轮流划分更新模型,确保模型适应不同历史时期数据。轮滑式验证支持稳健性和时变适应性。
  • 体现方法论上的严谨:避免数据泄露,保证预测结果的样本外有效性,是机器学习中常用的防止过拟合手段。[page::32]


3.4 表1:模型超参数搜索空间(第33页)


  • ANN隐藏层数从1到5层不等,每层神经元数从8-128;

- RF和GBT树深度设置幅度为2到10;
  • 结合l1正则化(缩减)以及不同架构组合进行网格搜索。
  • 作用:通过探索超参组合充分挖掘模型潜能,平衡模型复杂度和过拟合风险。此细节为报告方法的实际可操作性和严谨性做出支撑。[page::33]


3.5 表2-3:分类模型构建投资组合表现


  • 表2(全文股票样本)和表3(排除小盘股样本)体现整体策略的稳健性;

  • 在等权组合,长短组合的年化夏普均在3左右,价值加权在1.15以上,月均超额收益在3%左右,显著优于市场基准;

  • 排除小盘股略低但仍保持强势,说明策略不仅依赖小盘股套利[page::34,35]。


3.6 表4:因子模型alpha检验


  • 分类模型构建组合的不解释alpha全为正且高度显著,因子模型覆盖不全;

  • 即使加入机器学习回归组合因子,alpha依然存在,强调分类模型提取了额外未被传统因子或回归捕捉信息[page::36]。


3.7 表5:分类与回归混合组合表现


  • 仅当回归与分类均同意的预测股票才纳入组合;

  • 这种“套叠”组合进一步提升价值加权投资组合表现,夏普比率提高到1.85,收益略有增长;

  • 对等权组合提升有限,暗示价值加权组合更能通过多模型信息的融合而获益[page::37]。


3.8 表6:最大回撤与换手率(实施成本)


  • 最大回撤数值与市场和机器学习回归模型相当,换手率在合理、可接受范围水平,表明实现现实操作时的交易成本和风险不高[page::38]。


3.9 表7-8:机器不确定性与预测准确率关系


  • 机器不确定性每增加1bit,预测正确率下降9%(带有丰富控制变量);

  • 机器和人类信息不确定性代理(如分析师预测分歧)交互后,该负效应迹象更显著,意味着机器不确定性捕捉了投资者信息环境的核心特征[page::39,40]。


3.10 表9-10:机器不确定性与股票回报的负相关关系


  • 机器不确定性与未来股价表现呈负相关;

  • 该负向关系在控制人类信息不确定性指标后依旧显著;

  • 交互项检验显示当机器和人工不确定性升高一致时,组合收益受到更大负面影响[page::41,42]。


3.11 表11:不同回报状态股票中机器不确定性的影响异质性


  • 对过往表现较差者,机器不确定性负向回报关系最强烈;

  • 反向地,过往表现优异者机器不确定性提升与收益正相关;

  • 说明信息不完全导致价格延续效应,支持以往学术结论(Daniel et al.等)[page::43]。


3.12 附录表格(A1 - A6)


  • A1-A2:滚动时间窗口与参数优化策略详细表,展现方法学科学性;

  • A3:完整102个财务和市场特征变量定义及统计描述,为机器学习模型提供丰富解释变量;

  • A4:模型最终选择的超参数集合;

  • A5:机器学习回归模型构建的组合业绩作为基准;

  • A6:机器不确定性与公司特征的相关性,分正负影响特征统计,揭示机器不确定性背后的经济机制[page::44-56]。


---

4. 估值分析



报告作为方法与实证研究,侧重预测模型与投资组合表现的测评,未直接包含传统的股票内在价值估值及DCF等分析。
  • 机器学习技术通过分类概率和回归预测辅助组合配置,实现超额利润。

  • 评价体系以夏普比率、Alpha与因子模型为主要指标。


---

5. 风险因素评估


  • 报告指出,机器不确定性揭示了信息不完整/稀缺的市场状态,是影响预测准确性和回报的重要风险因素。

  • 机器与人类信息不确定性一致时,风险表现更突出,意味着市场信息环境的复杂性与不完备性会加剧预期偏差。

  • 机器学习模型在处理信息时存在信心不足的区域,预测误差较大,投资组合也相应表现较弱。

  • 出现此类信息缺失风险时,预测模型的指导作用被削弱,但报告没有具体提出缓解策略,重点在于量化该风险及其经济影响。


---

6. 批判性视角与细微差别


  • 创新性优势:报告首拓横截面股票回报预测的分类框架,为机器学习在资产定价领域提供了不同于常规回归的视角,对模型不确定性的量化及其经济解释尤为突出。
  • 稳健性:采用多种模型架构,严格滚动样本验证,控制信息变量,具有较强的实证说服力。
  • 局限性


- 机器不确定性虽与回报相关,但因果机制尚非完全揭示,报告偏向于相关揭示,未深入探讨如何利用此指标降低投资风险。

- 组合实现交易成本在统计学意义上合理,但实际执行中高频调整、市场冲击成本未深入估计。

- 报告对中间群体(midperformers)分析较少,聚焦集中于两端表现优劣者,可能忽略了市场整体结构复杂性。
  • 结果一致性良好,无明显内部矛盾,所有论点均有数据支持且符合理论预期。


---

7. 结论性综合



本报告创新提出将股票横截面回报预测设为多分类问题,应用人工神经网络、随机森林和梯度提升树等先进机器学习技术,以预测股票为优异者、中间者和表现差者的概率。基于该预测概率构建的长短组合实现了显著的经济超额收益,表现优于传统基于机器学习回归的预测方法,且该优异表现稳健于大市值股票样本。组合Alpha与夏普比率的统计显著性揭示了分类模型独特的信息捕捉能力。

利用预测概率计算的信息熵进一步引入机器不确定性概念,该量化指标衡量了模型对回报预测的信心程度,机器不确定性与预测准确率成显著负相关,同时对股票未来收益率亦有重要负面影响,尤其在机器不确定性与人类信息不确定性指标(如分析师收益预测分歧)一致时,表现更显著。该结果支撑资产定价理论中信息不完全引致价格折价的观点,且异质性分析发现此效应在表现较差的股票中特别突出,反映信息扩散缓慢和价格延续的市场微观结构特征。

图表与实证结果充分支持上述结论,如:
  • 图1清晰阐释了分类预测流程;
  • 表2-3展现了分类模型构建组合的卓越风险调整收益表现且不依赖小盘股套利;
  • 表4因子模型验证组合Alpha显著,且无法被传统因子及机器学习回归解释;
  • 表7至表11深入揭示机器不确定性的预测性能、与人类信息指标的交互效应及其对未来收益的经济影响;
  • 附录A表全面展示了预测所用变量、模型参数调优及稳健性检验。


综上,报告验证了机器学习分类方法在投资组合构建中的有效性及其对信息不完整市场机制的解释力,为金融机器学习领域提供了新的理论和实证视角。

---

总结



该研究通过系统的机器学习分类方法与经济实证分析,首次整合机器不确定性量化为信息稀缺代理,创新连结机器学习预测准确度、信息环境及股票定价偏差。方法论严谨、数据广泛且结果稳健,显示了在资产定价和投资策略构建中,机器学习分类及其不确定性测度的巨大潜力。[page::0-56]

报告