`

FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence

创建于 更新于

摘要

本报告提出FinReflectKG-MultiHop,一个基于结构化金融知识图谱的多跳问答基准,涵盖S&P100公司多文件、多年份间的财务披露。与传统文本窗口检索相比,KG精确检索提升问答准确率约24%,减少输入令牌使用约84.5%,显著提高推理效率。实验基于多型号LLM验证在不同证据检索策略下的表现,强调KG在多跳金融推理中的关键作用,且发布了含555条高质量问答的子集推动社区研究发展[page::0][page::1][page::4][page::6][page::8][page::9]。

速读内容


基于知识图谱的多跳金融问答基准构建 [page::2]

  • 采用FinReflectKG知识图谱,包含17.5M三元组,覆盖743家S&P 500公司2014-2024年

- 利用财务分析师视角开发高质量2-3跳关系模式,经过财务语义及Cypher查询校验
  • 样本覆盖领域包括金融、信息技术等多个行业,问答问题涉及文档内、跨年份和跨公司多种场景

- 生成的QA对通过双阶段质量控制,确保多跳逻辑和财经专业性

证据检索模式与评估体系设计 [page::3][page::4]

  • 实验设计3种证据检索类型:(S1)精确KG链接最小上下文,(S2)以关键词为中心的±5页窗口,(S3)含干扰随机窗口

- 使用Qwen3与OpenAI GPT开源模型(8B至120B参数规模)进行推理及非推理版本测试
  • 评估指标覆盖答案正确率(LLM Judge)、语义相似度(BERTScore)、输入与输出Token数量,体现准确率与资源消耗平衡


多模型多策略表现与对比 [page::4][page::5]


| 模型 | 证据类型 | 正确率(LLM Judge) | 语义相似度(BERTScore) | 输入Tokens | 生成Tokens |
|------------|-----------|-----------------|---------------------|----------|----------|
| GPT-OSS 120B | KG-linked | 8.09 | 0.66 | 1967 | 1192 |
| GPT-OSS 120B | Page-window | 7.12 | 0.60 | 12414 | 1724 |
| Qwen3 32B | KG-linked | 8.23 | 0.71 | 2069 | 703 |
| Qwen3 32B | Page-window | 6.59 | 0.66 | 13602 | 965 |
  • KG-linked证据显著提升正确率(最高提升39.2%),同时输入Token减少超84.5%

- 小模型(如Qwen3-8B)从KG增强中获益更明显,表明精确检索对计算资源有限模型尤为重要
  • GPT-OSS-120B在非KG窗口环境下表现较优,显示其具备更强抗噪声能力


文档关系维度的多跳问答难度分析 [page::6]

  • 按文档关系分类准确率:文内(intra-document)最高,跨公司(cross-company)其次,跨年份(inter-year)最难

- 交叉公司问题因语义一致性较高,相较跨年份问题表现更好
  • 该观察提示未来数据构建需加大跨年份与跨公司样本覆盖以提升全场景能力


推理能力对性能影响分析 [page::5][page::8]

  • 有推理能力的模型整体优于非推理模型,尤其在较小参数规模下差异更显著

- 语义相似度指标对推理与非推理差异不敏感,说明推理能力主要提升精确答案生成能力
  • 高效推理是多跳财务问答中提高准确率的关键


量化因子/策略总结

  • 本研报未涉及具体量化投资因子构建或量化交易策略设计,属于金融智能问答和知识图谱应用研究范畴,不包含股票、基金或量化策略等投资实操内容。


  • 图示为人工标注工具界面,展示问答问题、对应答案、关键信息高亮与知识图谱推理路径,体现多跳金融问答数据集质量控制流程。


深度阅读

金融多跳问答基准——FinReflectKG-MultiHop详尽分析报告



---

1. 元数据与概览


  • 报告标题:FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence

- 作者团队:Abhinav Arun、Bhaskarjit Sarmah、Reetu Raj Harsh、Stefano Pasquali 等,均隶属于Domyn,分布于纽约和印度等地。
  • 发布日期:由预印本形式发布,具体发布时间未标明(2024-2025年期间)。

- 研究主题:该报告聚焦于金融多跳问答(Multi-hop QA)任务,特别是在SEC 10-K公司财务报告领域,提出并验证基于金融知识图谱(KG)辅助的问答框架,实现跨文档、跨年份、跨公司多跳推理和检索。
  • 核心论点与创新点

- 多跳推理过程首先是检索问题,金融事实分散且复杂,现有大模型(LLMs)面临上下文噪音和跨度管理难题。
- 基于结构化金融知识图谱进行证据检索,实现精准的上下文筛选,极大提高了答案的准确性和模型推理效率。
- 提出FinReflectKG-MultiHop基准,建立在的FinReflectKG金融知识图谱基础上,涵盖了2022-2024年S&P100公司的财报数据,通过典型的2-3跳子图模式生成类似分析师风格的多跳问答并严格筛选验证。
- 比较三种证据检索方案:
(S1) 精准KG路径检索;
(S2) 以相关文本片段为中心的页面窗口检索;
(S3) 携带干扰信息的随机文本窗口检索。
- 结果显示,KG驱动的检索策略比传统文本窗口方法正确率提升约24%,token消耗降低约84.5%,展现出知识图谱在金融多跳QA任务中的核心价值。
  • 核心结论:结构化的KG辅助检索不仅提升了多跳推理的准确率,也极大提高了资源利用效率,是改进金融问答系统的关键路径,并公开释放了555对高质量多跳问答样本促进社区研究。

【page::0, 1】

---

2. 逐节深度解读



2.1 摘要与引言(Abstract & Introduction)


  • 关键论点

- 多跳推理中的难点来自于信息分散在多份文档、多公司和不同年份之间,LLMs在处理时容易因上下文冗余而效率低。
- 需要以知识图谱作为导航,精准定位与问题相关的证据路径,降低token浪费。
- 设计的基准覆盖单文档、跨年份、跨公司的多跳查询,填补了现有金融问答数据集单一文档或非系统化多跳分类的空白。
  • 支撑逻辑和假设

- 现有工作多聚焦单文档或对多跳特征覆盖不足,金融领域特有的时序依赖及法规语义需求尚未被满足。
- 通过KG建模和模式挖掘,能够形式化表达复杂的金融关系并进行多跳问答。
  • 报告目标:验证KG辅助检索在准确率和计算资源两方面均显著优于无结构文本检索模式,并构建涵盖多层次、多关系的问答系统。【page::0,1】


2.2 相关工作(Related Work)


  • 数据集与问答任务

- FinQA、ConvFinQA等问答数据集中数值推理和单文档对话得到一定突破,但未覆盖财报多文档和跨时序关系。FinanceBench虽然问题数量多,但缺乏系统多跳评估。
- 多跳推理通用基准存在,但难以迁移至复杂金融领域,且多缺少时序和监管语义。
  • 知识图谱驱动与金融验证

- 现有KG-QAGen等尝试基于单文档模板生成QA,缺少跨文档时序跳转。FinDVer提供金融领域内容验证,但多为单文档单跳。
  • 研究空白:报告明确指出金融多跳问答需融合:系统的时间关系、高质量KG检索与多种语义检索对比、以及严谨的审计追踪和质量控制。FinReflectKG-MultiHop正是为此设计。

【page::1】

2.3 数据集设计(Dataset Design)



2.3.1 金融分析师模式生成(Pattern Generation)


  • 报告基于包含17.5M三元组、覆盖743家S&P 500公司、跨2014-2024年间的丰富FinReflectKG金融知识图谱。

- 设计和利用了24种实体类型及29种关系类型,覆盖了公司、财务指标、风险因素、ESG议题等多维信息。
  • 采用大型语言模型(Qwen3-235B-A22B)辅助生成具有高度金融应用价值和分析价值的2跳与3跳图谱模式。

- 设定严格的多维打分标准(8分及以上通过),确保保留的模式既具有财务相关性又符号实际KG数据,保证问题生成基础的质量和严谨性。
  • 典型实例:揭示ESG议题与财务指标正相关、供应链短缺风险与宏观经济条件的关联等多跳关系,体现了深度行业知识嵌入。


2.3.2 KG驱动的文档块识别(Chunk Identification)


  • 结合模式密度、实体多样性、关系强度和跨模式连通性指标,从知识图中定位关键上下文块(chunks)。

- 采用中介中心性(betweenness centrality)分析来挖掘在多跳推理中起桥梁作用的数据块,支持跨百万三元组大图的复杂推理连接。

2.3.3 问答对生成(QA Generation)


  • 通过结合GICS行业分类跨部门生成跨时序、跨公司的多跳问题,覆盖2-hop(52%)和3-hop(48%)模式;证据源涵盖同文档内(48.7%)、同公司不同年(41.6%)、不同公司同年(9.7%)。

- 设计双阶段机制,由特定模式驱动prompt初步构造金融术语和时间上下文丰富的问句,再用质量评估标准(满分50分,阈值40分)确保问题具备分析师特征、多跳真实度、背景扎实、相关且专业。
  • 每个问答对配套三种证据环境:精准的KG关联数据块、聚焦的文本页面窗口,以及带有相关干扰的页面窗口,模拟真实检索与生成场景。

【page::2】

2.4 实验设计与评估协议(Experimental Design)


  • 实验变量

- 多跳文档关系:单文档内(intra-document)、跨年同公司(inter-year)、同年不同公司(cross-company)。
- 证据模式:KG精准链路证据、$\pm 5$页窗口证据(包含精确检索文本信息)、以及混合干扰(模拟真实语义搜索的杂讯)。
  • 模型选择:基于私有云部署的Qwen3(8B与32B参数规模)和GPT OSS系列(20B与120B)模型。模型均采用“高级推理”模式,且对非推理版本也进行对比,所有实验保持prompt和解码参数不变。

- 评价指标
- LLM作为裁判(LLM-as-a-Judge),采用Qwen3-235B评定答案正确度(0-10分)。
- 语义相似度以BERTScore(DeBERTa模型)F1分数衡量。
- 资源消耗评估包括输入token数量与输出完成token数。
  • 评估范围:选取了150个高评分问答对,覆盖金融和信息技术两大GICS行业,以体现多跳推理风格和模式。

【page::3】

2.5 实验结果详解(Results & Analysis)



2.5.1 证据模式对比(Table 2)


  • KG链接证据 consistently outperforms page-window 和 window+distractor模式,LLM-Judge正确率提升约24%,输入token数大幅减少约84.5%,体现KG的高效性与精准性。

- BERTScore差异较小,说明模型均能捕获基本语义,但KG证据使得答案生成更准确。
  • 大模型(如GPT-OSS-120B)在带噪声文本中表现更稳健,能过滤无关信息。

- 小模型对检索效率依赖更大,体现知识图谱辅助对算力有限模型的提升作用。

2.5.2 评估者一致性(Table 3)


  • 使用另一个高性能开源评估模型Gemini-2.5-Pro验证评估结果,发现与Qwen3-235B趋势高度一致,验证了方法的普适性和结论的稳健性。

- Qwen3系列模型在KG证据模式下表现优于GPT系列,反映不同模型在结构化知识推理与文本抓取上的优势分布。

2.5.3 推理与非推理模型对比(Table 4和5)


  • Reasoning版本的模型明显优于non-reasoning版本,特别是在较小模型上,这进一步表明多跳金融问答对推理能力尤为依赖。

- 两种模型在语义层面相近,但在如何检索和合成答复上,推理模型更胜一筹。

2.5.4 不同文档关系表现(Tables 6和7)


  • Intra-document问题准确率最高,符合直觉因全部证据集中,无需复杂跳转和时序协调。

- Inter-year(跨年)问题难度最大,因涉及时间序列调整、术语变化、财务结构演变。
  • Cross-company(跨公司同年)准确率居中,可能因同行业财务指标语义相似,模型更易对齐和比较。

- 跨年份多跳问题的覆盖率预计提升,将有助于此方向的深入研究。
【page::4,5,6】

---

3. 图表深度解读



图表1(表1):典型2跳和3跳金融模式示例


  • 描述:概述了本项目通过LLM生成并严格筛选的2-hop和3-hop Financial KG子图模式,含对应的分析意义及质量得分。

- 解读数据与趋势
- 2-hop示例中既有以ESG主题与财务度量正向影响的关联,也包含供应链原材料短缺与突发事件的风险因果链,体现跨类别多角度分析能力。
- 3-hop模式增添宏观经济变量、市场指数反应等层次,反映多层次、多域的复杂关联。
- 得分均位于8分(充分快)至满分10分,证明模式设计符合现实分析需求且具实证代表性。
  • 联系文本:表1代表的模式直接指导了题目生成过程,确保问答覆盖财务、风险、市场及ESG多维度。


图表2(表2):多跳问答模型指标对比


  • 描述:4种推理模型(GPT-OSS 120B/20B及Qwen3 32B/8B)下,3种证据模式的正确率(LLM-Judge)、BERTScore、输入token数量及生成token数量比较。

- 解读数据趋势
- KG-linked模式在正确率指标上领先明显,且输入token数仅约2000,相较页面窗口模式(约12000-19000)有显著降幅。
- 页面窗口和含干扰窗口正确率基本持平,体验了语义检索带来的噪音影响。
- GPT-OSS-120B对带噪证据的抗干扰能力较强,但在KG证据模式中Qwen3-32B表现最优。

图表3(表3):不同评判模型的一致性对比


  • 结果表明不论采用基准评分模型Qwen3-235B或Gemini-2.5-Pro,整体评测结论高度一致,验证可信性。


图表4与5(表4,5):推理与非推理模型比较


  • 在KG-linked模式中,推理激活的模型整体表现优于非推理,且差距随模型规模减少而扩大,强调推理机制的重要性。


图表6与7(表6,7):不同文档关系问答表现


  • 统计多种模型跨三种文档关系的平均正确率和资源消耗。

- 结论表明,文档关系复杂度与难度成正比,最简单的一跳(单文档)表现最佳,而跨年推理要求最大资源与推理能力。

图表8与9(附录:表8,9):Page-window证据下推理对比


  • 与KG-linked对比,推理模式仍较非推理表现更好,尽管整体性能因带噪声上下文下降明显。


图表10与11(附录:表10,11):KG-linked对Page-window性能提升和token保存统计


  • 表10显示KG-linked版本正确率提升从13.6%至39.2%不等,平均接近24%。

- 表11展示token输入量节省比例超过84%,从12400左右降至2000左右,资源效率革命性提升。

图1 & 图2(附件图)


  • 交互式标注工具界面示例,提供问答对验真和证据链路的清晰视图,体现了项目的严谨注释与验证机制,确保数据质量。

- 高亮区分问题相关文本、答案文本、实体名称和关系词,支持多跳关系的可视化和追踪。
【page::3,4,5,6,8,9,10】

---

4. 估值分析



此篇研究报告并不涉及公司的财务估值分析,而聚焦于金融知识图谱驱动的问答任务与模型性能评测;因此未包含DCF、P/E等估值模型解析。

---

5. 风险因素评估



报告未专门列出风险因素章节,但隐含风险包括:
  • 推理模型的局限性:尽管KG辅助显著提升性能,但模型仍可能面对复杂多变金融语境的推理失败风险。

- 数据覆盖范围限制:目前基准以S&P 100为主,跨行业和跨规模公司覆盖较少,可能影响模型泛化。
  • 噪声文本干扰挑战:即使KG辅助明显,但现实中检索系统依然充斥随机噪声和相似干扰,限制实际应用准确率。

- 人工标注负担与验证迟缓:目前人工审核仍在进行,数据质量和规模扩充存在资源瓶颈。

报告提到未来工作将增加专家审核、增加跨年度跨公司查询覆盖以减缓上述风险。【page::6,7,9,10】

---

6. 批判性视角与细微差别


  • 基准设计的优势与潜在局限

- 本研究系统实现了较为严谨的KG驱动问答生成和质量控制,极大推动了金融领域多跳QA的系统化研究。
- 但当前多跳问答对上下文窗口大小限制较小(±5页),在大规模文档库检索条件下的表现或需继续验证。
- 评判依赖开源LLM作为判官,虽已引入第二评测者以减轻偏见,但尚缺乏人工判定的最终确认。
- 仍需进一步评估商业闭源大模型和更大文本范围下的适应性。
  • 模型对比的细微差距

- GPT-OSS 120B显现对含噪上下文的较强鲁棒性,Qwen3系列在结构化KG驱动下表现更优,提示不同模型架构适应不同检索策略。
- 跨年份推理难度较高的发现符合实际财报分析挑战,表明该基准有效反映真实世界难题。

---

7. 结论性综合



FinReflectKG - MultiHop建立了首个系统化的金融多跳问答基准,基于结构化、时间序列标注的知识图谱,充分覆盖跨文档、跨公司、跨年份的复杂关系。借助金融领域专业化的大规模KG和高质量生成机制,该基准生成的问答对兼具分析师风格和多跳推理严谨性。

实验验证显示:
  • 基于KG的精准路径检索极大提升了LLM在多跳金融问答任务中的正确率(平均提升约24%),并显著降低输入token数量(约缩减84.5%),提升效率和准确率两手抓。

- 不同LLM家族展现互补优势:Qwen系列更善于利用结构化知识进行推理,GPT系列更适合处理含噪文本宽上下文,同时推理机制启用显著提升模型推断质量。
  • 多跳场景难度层级分明,文档内最易处理,跨年多跳尤为艰难,反映实际财务分析中的复杂性。

- 研究结果对金融问答系统设计有深远启示,鼓励结合结构化KG和高质文本检索,优化现有RAG架构,实现精准且高效的金融智能问答。
  • 公开释放的555问答对子集为社区提供重要资源,推动后续研究和模型公平比较。


此外,报告附带详尽的交互式标注工具界面,为数据质量保障提供有力技术支撑,体现从设计到验证的完整闭环。

总体而言,FinReflectKG-MultiHop团队成功构筑了一个具备科学严谨性、数据规模与实用价值的金融多跳问答评测体系,为未来面向复杂金融场景的知识驱动问答系统开发奠定坚实基础。
【page::0-10】

---

附:关键表格与图示展示



表1:典型2-hop和3-hop分析模式示例




表2:多跳问答性能对比(正确率和token消耗)




表3:两评测模型一致性验证




表6&7:问题类别(文档关系)影响分析




图1、图2:多跳问答人工标注工具界面示意图





---

以上即对FinReflectKG - MultiHop金融领域多跳问答基准报告的系统、详尽解构与专业评析。

报告