Extracting the Structure of Press Releases for Predicting Earnings Announcement Returns
创建于 更新于
摘要
本论文利用2005至2023年超过138,000份财报新闻稿文本数据,比较传统词袋模型与BERT家族模型,发现软信息对公告日股票收益预测同硬信息(盈利惊喜)同样有效,FinBERT表现最佳。结合多模型提升解释力,证实股价于开盘时已完全反映新闻稿信息,支持市场效率假说。同时揭示管理层话语中的自利偏差,为实时收益预测提供可解释框架 [page::0][page::3][page::4][page::5]
速读内容
数据样本与文本预处理 [page::1][page::2]

- 样本涵盖2005-2023年6,543家美国公司138,676份财报新闻稿,平均每篇含1万字符。
- 95%以上新闻稿发布于盘后或盘前,避免市场即时反应前的干扰。
- 规范化清洗文本内容,去除无关信息和异常长度文章。
多维度文本向量化方法比较 [page::2][page::3]
| 模型 | 预测收益解释力R2 | SHAP重要性占比(软信息) | 备注 |
|------|-----------------|-----------------------|------|
| BKMX (主题模型) | 3.4% | 19.2% | 传统词袋,解释力一般,增强文本主题解读 |
| oLDA (在线主题模型) | 3.3% | 14.6% | 增强连续性和动态性,支持持续训练 |
| BERT | 4.0% | 45.8% | 提取上下文嵌入,捕捉复杂语义 |
| MPNET | 3.5% | 33.5% | 改进语言模型,综合空间与序列信息 |
| FinBERT | 4.4% | 52.1% | 财务领域微调,预测能力最强 |
- 文本软信息与硬信息(盈利惊喜)同等重要,组合模型显著提升收益预测能力。
- 软变量对收益解释贡献超过或接近硬变量,FinBERT贡献最大。[page::3]
软信息与盈利惊喜的综合回归分析 [page::3][page::4]
- 综合多软变量后,盈利惊喜的边际解释贡献略有下降,软信息组合稳定提升预测。
- 热力图显示,最高收益集中于软硬信息均高的组合象限,反映软信息带来超越硬信息的增量解释力。

市场效率与预泄露检测 [page::4][page::5]
- 利用滚动窗口法构造软信息和盈利惊喜的收益预测,发现软信息不会提前反映于股价,除非存在新闻稿泄露情况。
- 长短策略实证显示若按开盘价交易,则无超额收益,支持市场效率假说。
- 泄露情形下,交易者能够以56%的准确率预测前10名表现股票,显示信息泄露的套利机会。
主题分析及文本内容解读 [page::5][page::6]


- 主题模型(BKMX、oLDA)揭示关键议题包括公司公告、财务表现、经济增长和行业新闻。
- 经理人叙事中存在自利偏差,积极成果多归因于内部财务指标,负面结果则多归因于外部宏观环境。
- FinBERT在捕捉财务调整和业绩相关词汇更具表现力,增强模型解释力。
量化交易应用及预测准确度提升 [page::6][page::7]
| 类别 | 精确率 P@10 (盈利惊喜) | 精确率 P@10 (软信息) | 精确率 P@10 (一致信号) |
|-------|-----------------------|----------------------|----------------------|
| 最高收益前10只 | 0.3472 | 0.2453 | 0.5170 |
| 最低收益前10只 | 0.3578 | 0.2714 | 0.5192 |
- 同时利用软硬信息提高对极端收益股票的识别能力,超越单一信息源。
- 结果支持加强对新闻发布系统安全的投资,防范信息泄露风险。[page::7]
总结 [page::7]
- 软信息同盈利惊喜一样,显著影响公告日股价表现。
- FinBERT模型表现卓越,结合传统主题模型提升可解释性。
- 市场总体现效率,消息公布后无可持续套利机会,但提前泄露使交易者获利。
- 未来工作计划整合电话会议文本与音频,深化对信息流和市场反应的理解。[page::7]
深度阅读
报告详尽分析报告
1. 元数据与报告概览
报告标题:Extracting the Structure of Press Releases for Predicting Earnings Announcement Returns
作者:Yuntao Wu、Ege Mert Akin、Charles Martineau、Vincent Grégoire、Andreas Veneris
发布机构:多位作者来自多伦多大学,部分来自HEC Montréal
会议:6th ACM International Conference on AI in Finance (ICAIF ’25),2025年11月15–18日,新加坡
报告主题:以自然语言处理技术分析企业财报新闻稿的文本文档内容,探索其对公告日股价回报的预测能力。
核心论点与贡献
本文基于2005至2023年超过138,000份企业财报新闻稿,利用多种文本向量化技术(包括传统的词袋模型LDA和基于Transformer的金融领域专用模型FinBERT)提取新闻稿中的软信息(文本信息),并与硬信息(如盈余惊喜)进行比较。研究发现,软信息对于解释和预测股价回报的作用不亚于硬信息,FinBERT在预测效果最高,结合多模型可提升解释力和预测力。市场开盘时股价已充分反映新闻稿内容,若新闻稿内容提前泄露,则可获得超额收益。此外,主题分析揭示管理层叙述存在自利偏差。研究框架支持实时回报预测和模型可解释性,揭示语言对价格形成机制的细腻影响。[page::0]
2. 逐节深度解读
2.1 引言与背景(第1页)
- 关键论点:财报公告是金融市场中最重要的信息披露事件之一,传统研究主要关注硬数据——盈余惊喜。软信息(管理层语调、前瞻性陈述)同样含有大量市场相关信息,但对新闻稿内容的研究较少。新闻稿通常比电话会议更早发布、更普及且结构化语言更简洁;同时其在黑客攻击事件中被证明具有高度价值。
- 推理和假设:新闻稿作为首发渠道,同时含有硬软双重信息,投资者反应机制值得研究。新闻稿采用多样的NLP技术可以解码软信息,是否能够补充盈余惊喜的信息不足?是否能预测公告日价格变动?
- 数据规模与方法:使用2005-2023年138,000份新闻稿,结合Bag-of-Words、LDA及BERT家族模型(尤其FinBERT),采用滚动窗口预测方法避免未来信息泄露,回归和Shapley值解释模型。
- 初步发现:软信息重要且与硬信息预测能力相当,FinBERT表现最佳,题目主题分析揭露管理层自利倾向,市场开盘后价格反映所有软信息,泄露事件中提前交易获利。[page::0]
2.2 研究贡献与相关工作(第2页)
- 贡献:
1. 不同于传统静态训练集划分,采用支持在线学习的动态模型,适应数据变动。
2. 结合词袋、BERT及大型语言模型优势,实现文本内容的解释性提高。
3. 证明软硬信息在公告日回报预测中同等重要,线性模型得到约4%的解释变异度。基于策略测试市场效率,上市后交易无超额收益,提前信息预测顶级股票准确率提升至56%。
- 相关文献梳理:
- 经典EMH文献(Fama等),及盈余公告后漂移(PEAD)的结构研究。
- 软信息市场处理不足,尤其新闻稿文本含管理层语调等信号,Akey等人用Elastic Net捕捉黑客事件中软信息。本文扩展模型种类和样本范围。
- 与会议电话研究比较,新闻稿覆盖更广、时间更长,支持面向股票回报的一阶矩预测(回报均值)及信息反映速度研究。[page::1]
2.3 数据采集与预处理(第2页)
- 数据源与样本选择:
- 2005-2023年,获得盈余公告日期、分析师预期、实际EPS(来自LSEG IBES学术版本);股票价格与成交数据来自CRSP及NYSE TAQ。
- 保留有分析师追踪的公告。盈余惊喜定义为公告EPS与预期EPS之差,归一化为公告前5日股价[公式详见原文]。
- 新闻稿以SEC Edgar的8-K附录HTML格式爬取,初始样本超过158,000份,最终清洗后剩138,676份,覆盖6,543只股票。分析样本主数据为2006-2023年的134,354份。
- 文本清洗步骤:去除标签外的正文,剔除表格、重复模板内容(免责声明、联系方式等)、页码与特殊符号、极短或极长文本。进一步的词袋预处理包含HTML解码、词形还原、停用词删除等。
- 数据特征:公告多在盘后公布(97%符合4pm后至9:30am前),公告日涨跌幅定义为公告前收盘价与公告后收盘价的变动比率。
- 图表1显示样本规模及文章长度稳步增长,覆盖股票数量逐年增加,文本平均长度稳定约1万字符。[page::2]
2.4 文本向量化方法(第2页)
- Bag-of-Words方法:
- 不用单纯的计数或TF-IDF,而是采用话题模型LDA降维主题提取。
- 采用BKMX模型有180主题,分11个元主题,但由于训练语料为1984-2017年WSJ,词汇覆盖与新闻稿不完全匹配,有歧义词例子。
- 因而自训练在线LDA(oLDA)模型,动态逐年训练避免未来信息泄漏,提取50主题,每主题选前10关键词,并用GPT-4自动标签合并到10个元主题。
- 优势是主题解释性强,缺陷是部分词汇多主题重复,语义区分有限。
- BERT家族模型:
- 选用BERT-base-uncased、MPNET及FinBERT(特化金融文本的BERT变体)。
- 采用均值池化前512tokens的最后隐藏层获得768维向量。
- 研究发现BERT与FinBERT语义相似度中等(均值0.72),BERT与MPNet大部分正交,说明捕捉文本信息角度互补。
- 结合多模型向量化可提高信息捕捉和预测性能。[page::2]
2.5 返回率预测模型与回归分析(第2-3页)
- 模型框架:
- 对每个公告日文档向量$X{c,\tau}$,回归预测当日回报$\mathrm{Ret}{c,\tau}$,采用Lasso回归选出稀疏预测特征,参数$\lambda=10^{-5}$,保证变量压缩与稀疏性。
- 训练采用滚动窗口,每年模型训练当年数据预测次年回报,避免未来信息渗透。
- 回归方程中同时包含盈余惊喜(Surprise)和软信息得分(Soft)。
- 重要发现(表1):
- 单变量分析:盈余惊喜与公告日回报显著正相关(1%显著性),1个标准差盈余惊喜增量(0.02)对应1.6%回报提升,解释变异度$R^2$达到3.3%。
- 加入软信息后$R^2$提升,FinBERT软信息使得$R^2$达4.4%,软信息对回报的解释贡献可与盈余惊喜媲美,SHAP值显示软信息贡献占52%,盈余惊喜48%。
- 不同向量化方法表现差异,FinBERT最佳,词袋方法表现稍弱但提升解释力。
- 多种软信息合并后的分析(表2):
- 多软信变量合并后,盈余惊喜的边际贡献出现递减,但整体模型稳定,$R^2$约为4.4%。
- 展示了不同软特征间交互影响及其解释权重分布。
- 软信息与硬信息交互显著影响股价解释能力。[page::3]
2.6 软硬信息联合重要性与热图(图2,第4页)
- 合成指标SoftMean为多软变量均值,结合盈余惊喜分组展示平均公告日回报
- 结果显示当软信息和硬信息同时处于高四分位时,回报最高(4.58%),双低时回报最低(-5.06%)
- 盈余惊喜单独使用无法充分捕捉回报波动,软信息解释了大量额外变异,展示了软信息不可忽视的重要性。

2.7 离线盈余惊喜预测与前一日预测
- 构建滚动测试的离线盈余惊喜预测(OOS-Surprise),验证软信息的预测稳健性(表3)。
- 软信息在公告日前一日未显示出对回报的预测能力,暗示正常情况下新闻稿信息未被提前泄露,支持市场效率。
- 盈余惊喜则含“陈旧”信息,故前一日回报与盈余惊喜相关性存在。[page::4]
2.8 主题分析(第4-6页)
- 主题分布及解释:
- BKMX主题中,企业公告、企业盈余、金融中介、国家政治及科学/艺术主题较为重要。
- 经济增长主题在经济衰退和选举年权重波动明显,与市场波动和政治周期关联紧密。
- oLDA模型提取的主题聚焦金融绩效和行业特定新闻。
- 情绪倾向分析(图4):
- 在盈余超预期时,企业话语更为积极,对财务调整指标描述尤为突出;而盈余不达预期,管理层偏向以行业外部因素为负面解释,体现自利偏差(成功归因于内部,失败归因于外部)。
- BERT相关主题刻画(表4):
- FinBERT更擅长捕捉“财务调整与指标”、“财务绩效”等积极信号,负面信号多集中于市场经济因素、时间敏感报告等外部因素。
- 体现管理层叙述的内部积极赋因和外部负面归因格局,支持自利偏差与管理者过度自信理论。
- GPT-4辅助主题标签,部分token分类存在困难,FinBERT的专业性提升了解释能力。


[page::5,page::6]
2.9 市场效率测试(第5页)
- 划分市场流动性标准,剔除买卖价差超20%数据,确保样本流动性充足
- 构建基于软信息和盈余惊喜一致信号的多模型汇总指标SoftMean,实施长短仓策略(开盘后9:45买入,收盘前清仓)
- 拟合三因子模型(市场因子Mkt-Rf,大小因子SMB,价值因子HML)对策略超额收益测试
- 结果显示策略Alpha均为负且接近零,统计显著主要受交易成本侵蚀,策略无超额收益,支持信息快速反应与市场效率假说。
- 结合不同模型提升预测均无法绕过市场效率。
[page::5]
2.10 黑客事件与提前泄露获利分析(第6-7页)
- 参考Akey等人文献,黑客入侵新闻稿发布渠道获得未公开数据,配合盈余惊喜进行前期交易获利逾亿美元
- 本文进一步分析发现,在黑客事件期间,如果软硬信息提前可得,投资者识别表现最优的股票精确率提升至56%
- 结合两类信息能明显提升顶端股票的预测准确性(表5和表6),从单独0.25~0.36提升至0.44~0.52
- 说明软信息补充硬信息极大增强表现预测效果,强调新闻稿安全的重要性。
[page::7]
2.11 总结(第7页)
- 盈余惊喜与新闻稿文本软信息均能显著解释公告日股价变化,软信息重要性不亚于硬信息。
- FinBERT表现最佳,词袋LDA模型增加解释力和语义清晰度。
- 市场对新闻公告快速反应,无超额交易机会,泄露情境除外。
- 未来将整合电话会议语音文本进一步深入信息流传递的分析。
[page::7]
3. 重要图表/图片详解
图1(第3页)
- 描述:展示2005-2023年新闻稿样本规模指标统计
- (a) 新闻稿总数逐年递增,2005年约4500篇,2023年逼近10000篇。
- (b) 涉及独立股票数稳步增长,2005年约1600只,2023年约3000只,覆盖全市值范围。
- (c) 每篇文章字符平均数保持约10000字符水准,无明显扩张趋势。
- 意义:数据覆盖广泛且逐年增长,保证分析模型具有代表性和稳定性,结合不同市值股票提升泛化能力。

[page::3]
表1(第3页)
- 描述:盈余惊喜与不同软信息模型对公告日回报的回归解释力及SHAP贡献
- 关键数据:
- 盈余惊喜单变量回归$R^2=3.3\%$,标准差0.02转化为1.6%均值回报变化。
- FinBERT软信息模型$R^2$最高至4.4%,贡献回报解释变异显著提升。
- SHAP值揭示FinBERT软信息贡献52%,硬信息贡献48%,体现软信息重要性。
- 意义:软信息模型提供了比传统硬信息更多维度的补充信息,尤其FinBERT敏感捕捉金融特化语言中的信号。
[page::3]
表2(第3页)
- 描述:多软信息变量联合回归对公告日回报的解释表现
- 要点:
- 多软信息交叉控制后,硬信息系数边际下降,但整体解释力保持稳定($R^2$约4.4%)。
- SHAP分布中FinBERT与其他软模型分摊解释量,说明多模型融合对理解股价变动至关重要。
[page::3]
图2(第4页)
- 描述:将公告日回报依照盈余惊喜和软信息分五分位排序的热力图
- 解读:发现高盈余惊喜与高软信息组合下,平均回报最大(4.58%),单高任一变量时回报次之,双低时回报明显负向,最低达-5.06%。
- 联系文本:强化了软信息与硬信息均不可或缺,后者未捕捉回报的全部变异。

[page::4]
表3(第4页)
- 描述:交叉验证中用离线盈余惊喜预测与软信息预测公告日回报能力与前一日回报预测
- 关键点:
- 软信息在公告日前一日回报预测中不显著,表明市场未提前反映新闻稿内容。
- 离线盈余惊喜预测能力有所下降,说明软信息具有当期独特信息价值。
[page::4]
图3和图4(第6页)
- 描述:
- 图3显示元主题对回归解释方差的贡献分布(箱型图表)
- 图4展示不同元主题权重的正负极性数量
- 解读:
- BKMX和oLDA主题均显示“企业公告”、“财务绩效”等主题导向最大解释力。
- 主题极性与盈余表现相关,体现管理层语气对内外归因的自利偏差。


[page::6]
表4(第6页)
- 描述:基于GPT-4标签的BERT家族模型提取token的金融主题分类比例,按正负信号分组
- 要点:
- FinBERT的积极正面tokens多聚焦于财务调整和绩效,负面tokens关联宏观经济和市场因素。
- 体现了文本中内部成功赋因与外部失败归因的心理偏差。
[page::6]
4. 估值分析
报告并未直接涉及传统意义上的估值方法(如DCF、市盈率等),而是通过机器学习模型(Lasso回归结合不同向量化技术)对文本信息与盈余惊喜预测股价回报的解释力进行衡量。评估指标为$R^2$和SHAP值,量化软硬信息对回报预测贡献,未对企业估值做现金流折现或类似的财务估值模型搭建。
5. 风险因素评估
- 新闻稿泄露风险:黑客攻击导致未发布财报新闻稿被预先获知,形成非法交易优势,侵蚀市场效率。虽然普遍市场中软信息未提前反映,黑客事件显示存在突发性系统性风险。
- 文本处理的模型风险:新闻稿格式差异大,文本噪声及多义词语义歧义可能干扰主题提取和模型训练效果。
- 模型泛化性风险:BKMX模型为旧语料训练,金融事件新词覆盖不足,故采用oLDA自适应更新模型以缓解。
- 交易策略实施风险:策略重度依赖高流动性股票,低流动性可能导致执行成本和估计误差。
报告对上述风险指出,并通过数据清洗、在线训练、流动性筛选等措施减轻影响。[page::1,page::2,page::5,page::6]
6. 批判性视角与细微差别
- 模型主要依赖当期文本及历史训练数据,仍接受文本内在噪声及潜变量的限制,跨期信息变动及经济周期影响可能无法完全被捕捉。
- FinBERT虽表现优异,但部分token分类依赖GPT-4标签存在一定误差或误分类,揭示文本解释仍有改进空间。
- 交易策略实证结果基于均值策略和四因子模型,未考虑更复杂的市场微观结构效应和订单执行风险。
- 自利偏差的解读是基于主题情绪强度对应收益,因果关系解释需进一步探究管理层动力及市场反馈机制。
- 由于主要采用线性模型解读,某些非线性及交互复杂效应可能未充分挖掘。
- 不同文本向量模型间的正交性表明多模型融合潜力,但融合策略设计复杂,未来可进一步规范和优化。
7. 结论性综合
本报告运用领先的自然语言处理技术与海量企业财报新闻稿文本,系统研究了软信息(新闻稿文本内容)与硬信息(盈余惊喜)对公告日股票回报的预测与解释能力。关键发现包括:
- 软信息与盈余惊喜对回报具有相当解释能力,文本挖掘技术,尤其是FinBERT,能提取有效且丰富的市场反应信号,提升预测$R^2$至4.4%。
- 结合多文本指标提高解释范围,软信息覆盖管理层情绪、财务指标、行业新闻等多维面向,揭示管理层可能存在自利归因偏差。
- 市场开盘时股价快速反映新闻稿内容,公开信息交易策略无超额收益,支持有效市场假说。
- 提前获取新闻稿与盈余惊喜信息,可显著提高顶级回报股票的识别准确率,体现信息泄露带来的不公平市场优势。
- 主题分析结合机器学习与GPT-4辅助标签,实现了对文本软内容的细致结构化理解,丰富了财报新闻稿研究框架。
综上,报告深化了对财报新闻稿软信息作用的理解,拓展了财务文本分析的技术边界,并为监管机构与市场参与者防范信息泄漏、提升信息利用效率提供理论与实证支持。未来引入会议电话音频与文本分析将继续丰富信息流传递的全景视角。[page::0,page::3,page::4,page::5,page::7]
---
本分析全面覆盖报告的结构、数据、方法、图表及结论,解析了复杂概念和金融术语,期待能为相关领域专业人士和研究者提供权威信息参考。