Predictive Performance of LSTM Networks on Sectoral Stocks in an Emerging Market: A Case Study of the Pakistan Stock Exchange
创建于 更新于
摘要
本研究针对巴基斯坦股票交易所十个主要行业的股票,应用LSTM深度学习模型进行收盘价预测,结合大量技术指标和财务数据,取得了稳定、高流动性行业(如发电、水泥、化肥)股票的高预测准确性(R²>0.87),但对高波动性及外部冲击敏感股票的表现较差。通过特征相关性、SHAP和集成梯度解释性分析,揭示模型重视中长期技术趋势和部分财务基本面,对短期波动及股息信息依赖较少,提出在新兴市场股票预测中深度学习模型的应用框架与局限,为投资提供参考[page::0][page::3][page::7][page::9]。
速读内容
研究背景与目标 [page::0][page::1]
- 目标:利用LSTM神经网络预测巴基斯坦证券交易所10只代表性股票的收盘价。
- 选取多行业样本,覆盖农化、银行、发电、水泥、石油等板块。
- 数据融合日频OHLCV及财务指标,体现数据稀缺的新兴市场特点。
数据处理与模型架构 [page::1][page::2]
- 经过对数收益率、移动均线(SMA、EMA)、MACD、布林带等技术指标特征工程。
- 模型采用两层64单元LSTM,序列长度60天,加入dropout防止过拟合。
- 按时间顺序分割训练集(80%)与测试集(20%),使用Adam和MSE训练25个epoch。
预测结果表现分析 [page::3][page::6]
| 公司 | 代码 | R² |
|--------------------------------|--------|-------|
| Fauji Fertilizer Company | FFC | 0.9045|
| Gillette Pakistan | GLPL | 0.7246|
| Habib Bank Limited | HBL | 0.8706|
| Hub Power Company | HUBC | 0.9235|
| Lucky Cement | LUCK | 0.8921|
| Nishat Chunian Power | NCPL | 0.9457|
| Oil & Gas Development Company | OGDC | 0.9197|
| Pakistan Petroleum Limited | PPL | 0.8895|
| Pakistan State Oil | PSO | 0.7444|
- 稳定高流动性行业(发电、水泥、化肥)预测准确率高,R²大多超过0.89。
- 低流动性或受油价等外部冲击影响的股票预测准确度显著下降。
- 时间序列预测图显示模型能捕捉大趋势,但对剧烈波动阶段较为欠缺。

特征相关性与模型解释分析 [page::3][page::4][page::5][page::7][page::8]
- 各技术指标(SMA、EMA、MACD、布林带)间相关性极高(>0.85),需适度特征选择避免冗余。
- 交易量与收益率呈中度相关,表明交易量反映价格变化强度而非绝对价格。
- 股息与价格、交易量负相关,短期内不具预测力。
- 财务基本面指标内部高度相关但与日常价格相关性较弱,提示需适配时间序列特征。
- 集成梯度(IG)与SHAP分析显示,中长期移动平均线(EMA-12、EMA-5、SMA-10、SMA-5)和部分财务指标是模型重要输入;交易量、短期收益及股息的贡献较小。



结论与展望 [page::9]
- LSTM适用于新兴市场中流动性好、结构稳定行业的中长期股价预测。
- 高波动、信息外生因素强的股票预测效果受限,需接入新闻情绪等外部数据改进。
- 未来研究方向:结合多源异构数据的混合模型,考察交易策略应用,提高实际投资价值。
深度阅读
深度解析报告:《Predictive Performance of LSTM Networks on Sectoral Stocks in an Emerging Market: A Case Study of the Pakistan Stock Exchange》
---
1. 元数据与概览
1.1 报告基本信息
- 标题:《Predictive Performance of LSTM Networks on Sectoral Stocks in an Emerging Market: A Case Study of the Pakistan Stock Exchange》
- 作者:Ahad Yaqoob(北伦敦女子学校迪拜分校),Syed Muhammad Abdullah(拉合尔管理科学大学)
- 发布日期:2025年9月19日
- 研究主题:利用长短期记忆网络(LSTM)对巴基斯坦股票交易所(PSX)十大行业代表股的股价预测能力进行实证研究,特别关注新兴市场的股价时间序列预测问题。
1.2 报告核心信息
本报告开发并评估了基于LSTM的深度学习模型,针对巴基斯坦十大主要行业股票的收盘价进行预测。核心论点是LSTM能够有效捕捉复杂的时间序列依赖,尤其在数据稀缺的新兴市场表现优异,尤其是流动性较高、行业相对稳定的股票(如电力、水泥、化肥品种)预测准确度极高(R² > 0.87),而波动性大、流动性低且受外部冲击影响较大的行业(例如石油类股)则预测难度较大。报告为类似市场提供了可复制的LSTM建模框架,以及深刻的实证分析意义。
关键词涵盖LSTM、股票预测、新兴市场、巴基斯坦股票交易所、深度学习及金融预测等核心内容。[page::0, 1]
---
2. 逐节深度解读
2.1 摘要与引言(Abstract & Introduction)
- 摘要指出,尽管深度学习在成熟市场应用丰富,但新兴市场特别是巴基斯坦市场用例仍较少,且由于市场波动性大及数据杂乱等问题,模型面临挑战;本研究设计并训练针对PSX的LSTM模型,基于OHLCV(开盘、高点、低点、收盘、成交量)数据及技术指标,得出了强劲的预测效果。
- 引言部分强调股票价格预测历经从统计到机器学习的演变,LSTM具备处理序列数据的优势,且已有文献多基于成熟市场,为填补针对PSX多行业个股的研究空白,本文特别选择10只不同行业股票,重点考察LSTM策略,并比较其他模型简要提及,最后结合回测探讨策略实用性。[page::0]
2.2 文献回顾(Literature Review)
- 介绍了LSTM的起源和优势,特别是在缓解RNN梯度消失问题中的作用。提及[3]号文献验证LSTM优于传统统计和机器学习模型(如逻辑回归和随机森林),并指出市场指标及防止过拟合的重要性。
- 重点强调对新兴市场的研究较少,但已有证据表明经过调参和特征工程的LSTM能显著提升对PSX的预测能力。文献还显示集成模型(例如LSTM与技术指标结合)提升结果的稳定性。
- 讲述了先前研究多着重于指数预测而非行业个股,且未充分考虑行业间差异,促使本报告填补针对不同行业大盘股的细致研究空白。此外,指出巴基斯坦的弱式市场有效性支持应用技术指标进行预测。[page::1]
2.3 方法学(Methodology)
2.3.1 问题与数据描述
- 目标是基于价量历史数据,预测未来收盘价。
- 选取10家来自不同部门的PSX大型公司,涵盖化肥、个人护理、银行、能源、水泥、油气等行业(详见表1)。
- 数据来源包括网络抓取的每日OHLCV数据及手工整理的财务指标,整合为时间序列格式。
2.3.2 特征工程与预处理
- 构建包括对数收益率、百分比收益率、移动平均线(SMA、EMA)、MACD指标、布林带,以及时间序列季节性因素(日、月、周)等多元特征。
- 缺失值采用前向填充,非数值数据作转换,归一化采用Min-Max缩放。
- 代码清晰展示了如何用Python和TA库计算各指标(具体代码见3.2节)。
2.3.3 模型架构与训练
- 基于TensorFlow/Keras构建LSTM网络,输入为60步长时间序列,含多维特征。
- 包含两层64单元LSTM,间以Dropout层防止过拟合,输出层为单节点全连接层预测次日收盘价。
- 训练配置为Adam优化器,MSE损失函数,数据按时间80/20拆分为训练和测试集,运行25轮epoch,批次大小32,并保存最佳权重。
- 该参数设计和训练流程与目前金融时间序列深度学习最佳实践相符。[page::1, 2]
2.4 结果与分析(Results and Analysis)
2.4.1 预测性能统计
- 表2展示各股票预测模型在测试集上的R²得分,整体表现优异,尤其是化肥(FFC R²=0.90)、电力(HUBC R²=0.92,NCPL R²=0.95)、水泥(LUCK R²=0.89)等稳定流动行业。
- 流动性低的个人护理(GLPL R²=0.72)和油价敏感的石油国企(PSO R²=0.74)样本结果逊色明显。
- 图1中,实际与预测价格曲线高度吻合,趋势跟踪能力强,但在高波动阶段预测误差放大,反映模型难以捕捉突发市场剧烈变动。[page::3]
2.4.2 特征关联性分析
- 相关热力图(图2、图3)揭示技术指标间高度相关(多个移动平均线和MACD信号相关度>0.85),其多重共线性对模型训练构成威胁,提示需做特征筛选,以防过拟合并提升效率。
- 交易量与收益率间存在中等正相关,表明成交量更多反映价格变动强度而非绝对价格。
- 股利指标与收益及交易量呈负相关,表明在巴基斯坦市场,支付股息的公司通常被视为低增长、少炒作对象,短期预测贡献有限,建议剔除。
- 基本面财务指标内部高度相关,但与日频价格关联度弱,受限于时间尺度差异,说明原始财务数据对短期预测价值有限,适合中长期或复合模型。
- 四个价格序列OHLC内部一致性高,Close价与Open和High最相关,High与Low负相关,提示技术特征设计中可利用价差及价位分布刻画多空情绪。
- 静态公司属性(面值、资本额等)与市场动态指标关联不到,剔除减维合理。[page::3,4,5]
2.4.3 分行业典型股预测表现
- 选取农化、银行、水泥、能源、油气五个板块代表股展示完整预测曲线(图4~8),模型能较好拟合历史价格波动并保持短期预测稳定,远期预测不确定性随时间加大,符合金融时间序列的随机本性。
- 图例中黑线为实际开盘价,蓝线为模型历史估计,绿虚线为未来投影,验证了模型的实用性与局限。
- 结合相关实证与图像,模型对稳定行业价格时序拟合优,而受外部冲击行业 难以精准预测。[page::5,6,7]
2.4.4 解释性特征分析
- 采用Integrated Gradients和SHAP两种模型解释技术,发现技术指标中长周期移动平均线(EMA-12,EMA-5,SMA-10,SMA-5)对模型预测贡献最大,表明LSTM更依赖平滑趋势而非短期扰动。
- 基本面变量中销售、总资产、实收资本等公司实力指标也具备一定解释力,反映模型能捕捉价值层面信息。
- 相反,股利支付、成交量、日收益率(对数及百分比)贡献有限,符合前述特征相关性发现。
- SHAP交互图揭示短周期技术信号及收益率与其他特征交互效应弱,模型对短期技术指标依赖较低。
- 这些解释性结果支撑了结合技术趋势与稳健基本面指标的选用策略,适应巴基斯坦市场特征。[page::7,8]
2.5 讨论(Discussion)
2.5.1 主要发现总结
- LSTM模型对新兴市场中流动性高、行业稳定的股票预测准确,能学到中长期趋势。
- 高波动行业表现欠佳,主要因其价格序列缺乏结构性及受外部未纳入变量(如政治风险、国际油价、汇率等)影响大。
- 差异可归因于市场结构与效率的行业分布,稳定行业更符合半强形效率,支持技术指标监管下的预测有效。
2.5.2 研究贡献与局限
- 为新兴市场提供了一套基于深度学习的股票价格预测方法论,适合数据稀缺环境。
- 适合中期投资决策指导,非高频交易工具。
- 限制包括假设历史模式未来依旧适用(对黑天鹅事件无力),以及未整合外部宏观信息,且部分股票数据质量限制了预测性能。
2.5.3 未来研究方向
- 融入新闻文本、社交媒体情绪、经济指标等外生变量,采用混合模型提高波动型股票预测稳定性。
- 结合GARCH波动率模型或注意力机制强化序列捕捉。
- 推动预测驱动的实盘交易策略回测评估模型商业化落地。[page::9]
---
3. 图表深度解读
3.1 表1:PSX选定股票及所属行业
- 图表列明了10家公司名称、股票代码及对应行业(化肥、个人护理、银行、电力、水泥、油气等),凸显行业覆盖范围宽泛。
- 该表支撑了多样化样本构造,保证模型评估的全面性和结论的普适性。[page::1]
3.2 表2:LSTM模型预测R²表现
- 明确展示了各支股票预测的决定系数,最高达到0.9457(NCPL),最低为0.7246(GLPL),整体较高精度表明模型强捕捉能力。
- 结果体现行业差异显著,稳定行业显著优于波动大、流动差或受外部影响行业。
- 该表直观揭示模型性能边界和应用适用性。 [page::3]
3.3 图1:实测与预测股价对比示例 (FFC,GLPL)
- FFC显示预测线紧密围绕实际价格,趋势拟合优良;GLPL表现出较大偏离,且预测曲线较平滑,侧面体现低流动性股票的随机噪声影响。
- 支持文本中对于流动性与预测准确度关系的论断,突显市场结构对预测模型稳定性的影响。
- 提醒投资者对弱流动性个股预测需谨慎。[page::3]

3.4 图2、图3:Fatima Fertilizer及Lucky Cement的相关性热力图
- 显著展现技术指标如SMA、EMA、MACD及布林带高度相关,且财务指标内在高度正相关但与日价格关联较弱。
- 不同公司展示共性与个性差异,对特征选择及模型设计提供依据。
- 确认剔除高冗余及无显著关联变量以防止过拟合的必要性。[page::4, 5]


3.5 图4-8:五大支代表股预测图(开盘价实际 vs 预测 + 未来投影)
- 各图曲线清晰展示模型追踪历史价格波动的能力及末期未来趋势预测。
- 价格波动中预测误差随波动幅度增大呈现动态扩散,契合金融市场特性。
- 投影显示模型在近期保持较佳预测能力,远期不确定性较大。[page::6,7]





3.6 图9:NCPL的Integrated Gradients特征归因
- 长周期EMA,SMA,布林带下轨拥有最高特征重要度,财务指标中销售、总资产也贡献明显。
- 股利、短周期波动率指标和交易量归因较低,映射模型核心信息焦点分布。
- 为理解模型判断逻辑提供可信依据。[page::7]

3.7 图10:NCPL SHAP交互作用总结
- 说明短周期指标如SMA-5、收益率及交易量交互依赖甚微,模型未过度依赖这些高频交易噪声信号。
- 支撑模型以中长期趋势及部分基本面为预测依据的核心结论。[page::8]

---
4. 估值分析
本报告未涉及传统的股票内在价值或市盈率等估值分析内容,焦点集中于基于LSTM结构的时间序列预测方法及其实证效果。因而不存在具体折现率、增长率假设等估值参数。其“估值”意义更多体现在预测准确度和模型稳定性层面,对投资决策提供辅助判断依据。[page::0-9]
---
5. 风险因素评估
报告明确指出以下风险因素:
- 高波动性与外部冲击风险:受政治、经济、国际价格波动影响的股票预测性能较差。
- 数据质量和稀缺性:部分股票因数据不完备影响模型泛化。
- 模型假设局限:历史数据模式在非结构性跳变下失效,如黑天鹅事件。
- 特征选择风险:过多冗余指标会导致过拟合,减弱模型效率。
报告提及通过模型正则化、特征筛选、分行业处理和未来引入外部变量进行缓解,但未详细量化概率或风险等级。[page::9]
---
6. 批判性视角与细微差别
- 偏见分析:报告偏重技术指标与历史价格,不充分体现基本面财务数据和外部宏观经济变量的潜在价值,可能低估这些因素在特殊时点的影响。
- 方法局限:尽管强调模型优越性,但缺少与其他机器学习或统计模型的量化对比(仅文献性引述),难以准确评估相对竞争力。
- 行业样本覆盖:选股集中在大盘股,忽视中小市值和新兴行业,可能限制结论推广。
- 未来预测不确定性:短期投影虽稳定但远期波动性未处理,对投资者使用时风险认识需加强。
- 数据依赖与非结构化风险:PSX数据质量尤其是异构财务指标整合尚不足,潜在数据偏误未充分讨论。
整体上,报告展示了稳健而谨慎的分析思路,但部分假设推断需结合外部验证及多模型对比以增强说服力。[page::0-9]
---
7. 结论性综合
本报告通过深度学习中的LSTM结构,针对巴基斯坦新兴市场的多行业大盘股展开实证研究,验证了在数据有限且市场波动显著的环境下,LSTM模型依旧具有强大的价格预测能力。具体来说:
- LSTM在稳定的高流动性行业(如电力、化肥、水泥)表现卓越,预测决定系数普遍超过0.89,显示该模型能有效从历史数据学习中长期价格趋势。
- 与此形成鲜明对比,低流动性或受外部变量影响较大的石油板块预测能力相对较弱,指示仅靠价量历史数据无法捕获全部市场信息,体现了模型的边界。
- 通过细致的特征工程与多样化技术指标选取,结合季节性和财务数据特征,模型表达能力进一步提升。
- 相关性分析及特征重要性解释(IG和SHAP)证实,模型最依赖于中多周期技术指标(如EMA-12)及部分基本面指标,而短周期指标和传统股利指标贡献有限。
- 研究提出的LSTM建模框架为类似新兴市场提供了可操作、可复制的技术路线,对于投资者制定中期策略具有较高参考价值。
- 未来应引入外生宏观变量和新闻情绪,提高对信息敏感型股票的预测能力,并结合风险波动建模实现更全面的风险管理。
总结而言,报告证明了深度学习技术在新兴市场证券价格预测的潜在适用性和局限,提供了数据驱动的行业细分洞察及基于技术与基本面混合的模型解释方法,为金融工程师和投资者拓展了研究与应用路径。[page::0-9]
---
注:本文所有分析均遵循报告内容原文推断,并在句末标记了对应页面以便后续溯源,确保信息的准确性和可追溯性。