机器学习白皮书系列之二:无监督学习的方法介绍及金融领域应用实例
创建于 更新于
摘要
本报告围绕无监督学习方法进行深入介绍,包含聚类和降维两大类模型,结合因子分析、主成分分析及多种聚类算法解析其原理与金融实务应用。通过实证案例展示降维方法在股票选股中的收益优势及聚类方法在股票分类与基金研究中的辅助作用,强调无监督学习在数据特征提取及预处理的重要性,为金融量化研究提供技术指引 [page::0][page::8][page::9][page::10][page::18][page::20]。
速读内容
无监督学习方法体系介绍 [page::2]

- 无监督学习主要包括聚类和降维方法
- 常见聚类算法:K-Means、Ward层次聚类、DBSCAN等
- 降维方法包括因子分析、主成分分析等
降维方法——因子分析与主成分分析原理及应用 [page::3][page::4][page::5][page::6]

- 因子分析通过公共因子模型降维,因子旋转提升解释性
- 主成分分析(PCA)基于协方差矩阵特征值分解提取主成分,减少维度同时保留主要信息
- PCA侧重方差最大化,因子分析侧重模型解释性,二者使用场景和性质不同
主成分分析选股策略实证 [page::8][page::9]

| 年份 | top20%收益率 夏普比率 | top20%最大回撤 | bottom20%收益率 夏普比率 | bottom20%最大回撤 | 沪深300收益率 | 沪深300夏普比率 | 沪深300最大回撤 |
|--------|---------------------|--------------|-----------------------|----------------|-----------|------------|-------------|
| 平均 | 19.54% 0.72 | 38.34% | 0.64% | 59.50% | 9.36% | 0.34 | 42.71% |
- PCA策略年化收益19.54%,超越基准沪深300,但低于多因子选股策略,反映部分信息丢失
因子分析选股策略实证与比较 [page::10][page::11][page::12]


| 年份 | top20%收益率 夏普比率 最大回撤 | bottom20%收益率 夏普比率 最大回撤 | 沪深300收益率 夏普比率 最大回撤 |
|--------|-------------------------------|------------------------------|-------------------------------|
| 平均 | 19.18% 0.67 34.67% | 3.22% 0.11 52.20% | 9.36% 0.34 42.71% |
- 因子分析选股表现优于部分单因子选股,如市值,但整体收益仍逊于多因子监督学习方法
- 公共因子载荷体现指标解释效果的差异,提高因子对目标变量解释能力是改进方向
聚类方法原理、算法及金融领域应用 [page::7][page::13][page::14]

- K-Means为典型硬聚类,适合处理形态接近球形的数据
- DBSCAN基于密度,适合识别任意形状簇且能排除噪声点
- 合理选择聚类算法与参数直接影响聚类结果和解释力
聚类在股票特征挖掘及资产配置中的应用 [page::16][page::17][page::18]



| 年份 | top20%收益率 夏普比率 最大回撤 | bottom20%收益率 夏普比率 最大回撤 | 沪深300收益率 夏普比率 最大回撤 |
|--------|-------------------------------|------------------------------|-------------------------------|
| 平均 | 20.87% 0.70 37.88% | 2.98% 0.09 55.12% | 9.36% 0.34 42.71% |
- 基于换手率与市值的聚类能有效分组,提升分组内选股策略表现,较传统PCA略有提升
- 聚类结果可用于进一步刻画不同风格股票群体,实现更精细化的量化投资
聚类结果可视化与评价指标 [page::19][page::20]

- 通过Ward层次聚类热力图清晰展示个股相关性及收益走势聚类结构
- 引入多项聚类效果评价指标(CP、DBI、ARI等)辅助聚类效果量化分析
总结 [page::20]
- 无监督学习方法在金融领域以数据特征提取和预处理为主
- 降维方法(PCA与因子分析)有助于降低维度和提纯信息,适合多因子构建前期
- 聚类方法广泛用于股票分组、资产配置与基金分类,提升分析效率和投资决策质量
- 建议将无监督学习作为监督学习及深度学习等复杂方法的基础工具,构建更完善的量化框架
深度阅读
机器学习白皮书系列之二:无监督学习的方法介绍及金融领域应用实例——详尽分析报告
---
1. 元数据与报告概览
- 报告标题:《机器学习白皮书系列之二:无监督学习的方法介绍及金融领域应用实例》
- 发布机构:长江证券研究所
- 发布日期:2017年11月27日
- 研究领域:金融工程、机器学习,重点聚焦无监督学习方法及其金融应用
- 作者及联系方式:
- 陈洁敏,电话:(8621)61118706,邮箱:chenjm5@cjsc.com.cn
- 标注执业证书:编号 S0490513030001
核心论点:本报告作为机器学习系列的第二篇,系统介绍了无监督学习的两大核心方法类别——降维和聚类,详细阐述其理论基础与金融领域实际应用,辅以实例验证了其应用效果。报告强调,相较于复杂的监督学习和深度学习算法,无监督学习着重于数据的特征提取和结构识别,是提升监督学习效果的重要基础和前提。
本报告认为,无监督学习虽算法相对简单,但在金融实务中,特别是因子策略构建和资产风险管理领域具有重要价值,且其效果依赖于数据本身的质量和特征挖掘能力。报告通过降维(因子分析、主成分分析)和聚类(多种聚类算法及实践)的详细介绍,为投资策略开发提供数据预处理与特征提取的有效工具。[page::0,1]
---
2. 逐节深度解读
2.1 报告导入及无监督学习方法简介(第0-2页)
报告起首回顾了机器学习算法的分类:监督学习、无监督学习、深度学习及其他。无监督学习的定义为“无标签”的学习,即不依赖输入输出的监督信息,直接从数据的分布特征或结构中学习,主要包括聚类、降维、关联规则等。图1形象列出了各机器学习类别及其包含模型,如聚类中的K均值、层次聚类,降维中的PCA、ICA等。[page::2]
关键点:
- 降维主要目标在于通过提取数据的主要驱动因素,将高维数据投影到低维空间,去除噪声,提纯信息。
- 聚类方法基于相似性概念,将样本分组,使组内相似度最大化,组间差异最大化,适合数据分组和特征识别。
- 报告明确无监督学习是“数据分析和特征提取”的手段,不直接依赖标签预测,常为监督学习和深度学习的预处理步骤。
---
2.2 无监督学习方法的原理详解(第3-7页)
2.2.1 因子分析(FA)
- 因子分析模型表述为:每个原始变量等于潜在公共因子线性组合加误差项,且假设公共因子间相互不相关,实现变量降维和风险因子的分解。
- 核心优势:可做“去噪”并且通过旋转变换,可以找到具有明确经济解释的因子(图2展现因子旋转前后变量载荷的差异及可解释性)。
- 应用层面:因子分析分解变量结构,有助于识别潜在风险因子和共性特征,对金融资产的绩效归因和风险管理极为重要。[page::3,4]
2.2.2 主成分分析(PCA)
- PCA是基于线性代数的KL变换,选择投影方向使得投影后数据方差最大化,利用协方差矩阵特征向量构造主成分。
- 具体数学步骤详尽,包括向量展开展开、均方误差定义及最小化,基于拉格朗日乘子法求解最大特征值对应特征向量。
- PCA与因子分析区别界定:
1. PCA强调数据方差最大化投影,构成主成分组合;
2. 因子分析有明确的统计模型含义,更侧重于变量的潜在因子建模和解释;
3. 因子分析允许旋转获取更具解释性的因子载荷,而PCA旋转则会改变其方差最大化性质,不易解释。
- 报告指出,数据标准化是PCA必不可少的环节,避免量纲差异对结果影响。[page::4,5,6]
2.2.3 K-Means聚类算法
- 详细介绍K-Means聚类的核心思想:通过迭代分配样本到最近的中心点并更新中心点,最小化类内误差平方和。
- 提出K-Means优缺点:算法简单快速,适合大规模数据;但需预定义聚类数K且对初始化敏感,不适合复杂形状的聚类。
- 其他聚类方法简述涵盖层次聚类(Ward)、BIRCH、聚集聚类、AP、谱聚类、Mini Batch K-Means、DBSCAN。不同算法各有优势,如DBSCAN适合任意形状聚类且能识别噪声点。[page::7,13]
---
2.3 无监督学习在金融领域的应用示例(第7-20页)
2.3.1 降维方法应用:Barra多因素模型与主成分分析(PCA)
- Barra多因素模型是金融领域最经典的因子模型,采用降维方法将股票、固定收益和货币资产的多种指标压缩为少量风险因子,方便风险管理和绩效归因。
- 报告展示了将主成分分析用于股票选股策略构建的案例(样本涵盖2009-2017年沪深300成分股,使用换手率、beta、PB、PE等11个指标构建主成分,基于第一主成分进行排序打分构建投资组合)。
- 图4展示了选出前20%和后20%股票组合的净值走势,表1给出了年度收益、夏普比率和最大回撤数据。结果显示主成分分析策略年化收益约19.54%,超出沪深300指数的9.36%,但收益波动较大,且部分关键信息被降维遗漏,表明收益与选取主成分数量及涵盖信息存在权衡。[page::8,9]
2.3.2 因子分析应用实例
- 选用指标包括换手率、PB、ROE、净利润增速、动量、反转、月涨跌幅等,提取两个公共因子分解指标结构。
- 表2展示不同时间点部分指标在两个因子上的载荷,体现因子之间独立且各变量解释力不同。
- 图5为因子分析选股策略净值曲线,显示策略产生了一定超额收益,优于沪深300;图6对比单指标选股(主要是市值),显示因子分析策略效果更优。
- 表3分年度表现显示因子分析策略总体有效,特别在市场上涨阶段表现较好,但在风格转变年份表现逊色,且收益波动较大。
- 报告指出:无监督的因子分析未利用标签信息,其因子对目标变量(收益)的解释能力未被直接衡量,可能导致提取因子无效,建议后续引入 supervised factor models 以增强解释力。[page::10,11,12]
2.3.3 聚类方法及其金融应用
- 报告介绍多种聚类算法适用场景及原理,重点示例为K-Means和DBSCAN,图7对比了两者在双环数据分布上的聚类效果,DBSCAN能更合理识别复杂结构。
- 提供多种聚类评价指标(表4),涵盖紧密度、分离度、准确率、F1值等,多角度评估聚类效果。
- 实际应用中,对沪深300成分股基于流通市值和波动率两个指标,使用K-Means在不同K值(2~5类)下聚类,图8与图9展示时间序列与类别数变化对聚类结果的影响,体现了市场结构和资产特征随时间的演变及聚类颗粒度与解释性的平衡。
- 聚类可作为选股策略的预处理,例如对股票先做聚类分组,再分别在每组内用主成分分析进行选股。图10和表5展示该方法的净值曲线及年化收益数据,结果比单纯PCA略优,尤其在市值较小组表现突出。
- 更进一步,聚类也能用于基金分类,通过收益率数据聚类发现同质基金群体,突破传统基金名或基准分类的局限。
- 聚类可视化方法(图11)如Ward层次聚类形成的热力图帮助理解资产相关性结构,表6进一步展示分层聚类下不同层级的个股数量分布。还有利用最小生成树对资产相关性做直观网络展示,有助资产组合风险分散决策。[page::13-20]
---
3. 图表深度解读
图1(机器学习方法总览,page 2)
- 展示了机器学习框架下的各类算法,强调无监督学习包括聚类与降维两大类方法,图形化结构有助直观理解不同技术的关系和区别。
图2(因子旋转效果,page 4)
- 左侧图为原始因子载荷散点云,因子1可合理解释,因子2则无明显解释力。右侧图是旋转后载荷图,变量在两个因子上的载荷差异加大,各因子均可结合部分变量获得良好解释,有利于经济意义的提炼。
图3(Barra多因素模型及降维,page 8)
- 清晰展现Barra模型以资产类型(股票、固定收益、货币)为一级分类,不同资产应用不同降维工具(因子分析或PCA)获得风险因子(如风格因子、行业因子、利率风险因子等),体现降维方法在资产风险管理中的系统弥合作用。
图4(PCA选股策略净值,page 9)
- 包含top20%组合和bottom20%组合净值曲线,top20%策略表现卓越,净值显著上涨远超沪深300,验证该PCA主成分打分方法的选股有效性。
表1(PCA组合分年表现,page 9)
- 详细展示每年收益率、夏普比率和最大回撤,top20%组合在多数年份获得正收益且夏普比率较高,标示策略稳定性;但部分年份仍见负收益及回撤,反映投资周期波动。
图5、6(因子分析选股与对比,page 11)
- 图5显示因子分析选股组合净值趋势明显优于沪深300,且top20%与bottom20%差异大。图6将该方法与单因子市值选股对比,因子分析策略整体优于单一指标选股,突出多因子框架优势。
表2(因子载荷矩阵,page 10)
- 展现同一批指标在两个公共因子上的不同时期载荷强度与方向,可见不同因子对变量的贡献存在时变性,反映金融指标的动态特性。
表3(因子分析年度表现,page 12)
- 详述收益、夏普比率及回撤数据,顶层组合在牛市阶段表现优异,而熊市或转折期表现不佳,提示策略稳定性需谨慎评估。
图7(K-Means与DBSCAN聚类对比,page 14)
- 显著展现DBSCAN能清晰划分双环结构,K-Means则将样本错误划分成两半直线分割,强调不同算法在处理复杂几何模式的数据时效果差异。
表4(聚类效果评价指标,page 15)
- 罗列了多维度聚类评价指标,为聚类结果的科学选取和方法比较提供系统工具。
图8(沪深300成分股聚类时间变化,page 16)
- 展示不同年份不同聚类类别分布,反映市场结构演变及资产特征随时间变化趋势。
图9(K类别数不同聚类结果对比,page 17)
- 显示聚类类别数对聚类细致度的影响,类别数增加可揭示更多细分特征,但聚类解释复杂度也随之增大。
图10(K-Means聚类选股组合收益,page 18)
- 多组合净值变化轨迹,top20%_第1组表现最佳,揭示聚类预处理提升选股策略效率。
表5(聚类分析组合年化收益,page 18)
- 通过时间序列对比分析不同组合收益,增强实证应用的说服力。
图11(Ward层次聚类可视化热力图,page 19)
- 高维度数据结构化显示,提供全貌视角观察资产间相关性及群聚关系。
表6(Ward分层聚类个股数量统计,page 20)
- 体现聚类树结构中不同层级的组成,实现对聚类规模的量化描述。
---
4. 估值分析
本报告不涉及具体证券的估值或目标价设定,主要聚焦于无监督学习技术和其金融数据处理上的应用,强调其为投资策略和风险管理的前置步骤。
---
5. 风险因素评估
- 报告风险提示主要集中在模型建构风险与历史数据的局限性。
- 无监督方法中,提取的因子或聚类类别可能与未来市场动态脱节,存在“历史拟合”风险。
- 降维过程中可能丢失部分关键信息,导致策略表现欠佳。
- 聚类方法对聚类数和初始化敏感,若参数设定不当,分类结果失真。
- 报告建议进一步结合监督学习引入目标变量解释机制,缓解因子提取效率低下问题。
- 风险提示较为一般,无详细缓解措施,仅提出实务使用时应谨慎。
---
6. 审慎视角与细微差别
- 报告整体内容较为客观,技术层介绍与实证分析结合,未见明显偏颇。
- 表现出无监督学习方法本身作为辅助工具的定位,未夸大其直接盈利能力。
- 在实例选股策略中,股票池均以沪深300为主,限制了样本多样性及算法的充分发挥,报告本身也提醒全市场聚类及选股可能获得更好效果。
- 因子分析与主成分分析的用途和本质易被混淆,报告做了良好区分,但非专业读者仍需深入学习理解。
- 聚类算法介绍详尽,但未提及部分现代深度聚类算法和非线性降维方法,后续更新中可考虑涵盖。
- 报告强调降维与聚类是监督学习的基础步骤,但在实际应用中,这两大板块与直接监督学习结合的方案较少,需要进一步探究其整合策略。
- 部分数学公式表述推导略显晦涩,初学者可能理解存在难度,缺乏直观解释和统计背景辅助。
---
7. 结论性综合
本报告系统介绍了无监督学习的两大关键方法--降维(因子分析、主成分分析)和聚类(K-Means及其他常用算法),并结合中国沪深股市数据展开多维度实证分析,验证其在金融数据分析和投资组合理财中的实际应用价值。
- 降维方法,通过提取主要公共因子或主成分,实现指标浓缩和信息过滤,有效辅助选股策略构建。实证中,利用PCA和因子分析搭建的策略均优于基准沪深300指数,表现出一定超额收益,同时揭示信息提纯与策略收益的权衡问题。Barra模型作为行业典范充分说明降维在风险因子构建中的重要性。
- 聚类分析,基于资产特征(如波动率、市值等)进行业务划分,辅助策略预处理和情景分析。实例分析证明,先聚类后选股的策略较单一选股有一定提升空间,并通过时间序列和类别数的变化展现聚类应用的灵活性及资产结构演化。聚类可视化手段为资产相关性分析和极端风险管理提供直观支持。
- 报告强调无监督学习并非万能,更多作为辅助和预处理工具,是复杂监督学习和深度学习成功落地的基础保障,算法效果受限于原始数据品质及方法合理选取。
- 报告全局采用大量数学定义与金融实证数据支持,图表丰富,清晰展示理论与实操结合的完整路径,为金融量化研究和投资策略开发提供重要参考。
综上,报告为金融领域的机器学习应用中无监督方法的理论与实践建立了坚实的框架,体现了将复杂大数据转换为结构性信息的关键步骤,对相关领域研究员及实务投资经理均具启发意义。[page::0-21]
---
附:部分重点图表展示
图1:机器学习/人工智能方法介绍

图2:因子旋转与可解释性

图3:Barra 多因素模型及可用到的降维方法

图4:主成分分析组合收益

图7:K-Means 和 DBSCAN 在双环分布聚类上的比较

图8:沪深 300 成分股聚类(时间序列变化)

图10:K-Means 聚类组合收益

图11:Ward 分层聚类的可视化

---
总结:本报告系统且详尽地揭示了无监督学习方法在金融领域的理论基础及实验路径,既为学术研究又为实务应用奠定了坚实基础。报告贯穿实证与理论,强调结合数据特征选取算法的重要性,提出无监督技术最核心的价值是在数据分群和降维上帮助提取潜在结构及提升后续学习模型表现,同时指出无监督学习本身在选股策略上的局限,为后续与监督学习的结合和深度学习的整合指明方向。[page::0-21]