FINCH: Financial Intelligence using Natural language for Contextualized SQL Handling
创建于 更新于
摘要
本报告提出FINCH,一个覆盖33个金融相关数据库的大规模财务领域Text-to-SQL基准数据集,包含292张表及75725条自然语言和SQL配对样本。此外,针对财务领域特有的SQL结构和执行容忍性,设计了FINCH评分指标,实现对模型性能更精准的衡量。基于此数据集,评估了多种大中小规模及推理专用模型,发现领域微调显著提升SQL结构和语义准确率,且FINCH指标能更细致地反映财务查询的实用价值。[page::0][page::1][page::2][page::4][page::5]
速读内容
FINCH数据集构建与特点 [page::1][page::2][page::3]
- 整合BIRD、Spider、BULL、BookSQL四大数据资源,筛选并统一规范金融相关数据库,涵盖零售销售、银行卡交易、贷款、保险、电商等33个数据库。
- 数据集包含292张表,2233列,177个关系,合计75725条自然语言-SQL对,涵盖不同难度等级(易、中、难)和丰富SQL操作(ORDER BY、GROUP BY、嵌套查询等)。
- 严格执行验证SQL语句,修正大量语法及引用错误,确保数据质量。

评测方法及FINCH评分指标设计 [page::3][page::4]
- 采用Exact Matching (EM)、Execution Accuracy (EX)、Component Matching (CM)和效率分数(VES)等传统指标作为基线。
- FINCH评分权重不同SQL组件,特别强调WHERE、JOIN、GROUP BY、HAVING、AGG等关键财务子句,反映财务语义重要性。
- 引入执行结果的容忍阈值τ,减少因浮点误差或微小数值偏差产生的过度惩罚,契合财务实务中“重要性”原则。
- 综合结构得分和执行准确度,运用带惩罚项的乘法模型捕捉结构与执行兼顾的查询质量。
模型评测与表现分析 [page::5][page::6]
- 评估模型包括:大规模Qwen3-235B-A22B、GPT-OSS-120B,中小规模Qwen3-8B、GPT-OSS-20B,以及推理导向Phi-4-mini-reasoning、Arctic-Text2SQL-R1-7B。
- GPT-OSS-120B总体表现最佳,展示大规模语言模型在复杂金融SQL任务上的优势。
- Arctic-Text2SQL-R1-7B虽参数较少,但受益于领域专项微调,表现紧随其后,验证领域适应的重要性。
- 传统指标中表现和FINCH评分均显示SELECT、FROM和WHERE子句仍为模型错误集中区域,多数模型在复杂多表联合、组合逻辑推理上存在显著挑战。
| 模型 | Exact Matching (%) | Execution Accuracy (%) | Component Matching (%) | FINCH Score (%) |
|---------------------|--------------------|-----------------------|-----------------------|-----------------|
| Qwen3-8B | 0.50 | 0.80 | 3.50 | 1.20 |
| Arctic-Text2SQL-R1-7B| 0.60 | 2.30 | 3.70 | 1.50 |
| Phi-4-mini-reasoning | 0.00 | 0.20 | 1.00 | 0.40 |
| GPT-OSS-20B | 0.30 | 7.50 | 5.20 | 3.00 |
| GPT-OSS-120B | 1.80 | 27.80 | 16.60 | 11.60 |
| Qwen3-235B-A22B | 0.70 | 2.50 | 2.80 | 1.20 |
SQL子句精度差异 [page::6]
- SELECT、FROM、WHERE三大核心子句准确率最低(均不足10%),成为性能瓶颈。
- 较次关键的GROUP BY、HAVING、ORDER BY等子句表现略好,但整体仍未达到理想准确度水平。
| 子句 | Qwen3-8B | Arctic-Text2SQL | Phi-4-mini | GPT-OSS-20B | GPT-OSS-120B | Qwen3-235B |
|----------|----------|----------------|------------|-------------|--------------|------------|
| SELECT | 1.6% | 2.5% | 2.0% | 1.4% | 4.7% | 2.0% |
| FROM | 3.9% | 3.6% | 2.3% | 6.2% | 27.3% | 2.9% |
| WHERE | 0.9% | 0.7% | 0.4% | 1.5% | 6.9% | 0.8% |
| GROUP BY | 4.8% | 4.7% | 2.1% | 8.4% | 7.5% | 5.4% |
| HAVING | 2.2% | 1.0% | 1.3% | 3.7% | 6.3% | 1.5% |
| ORDER BY | 1.4% | 1.3% | 0.4% | 1.5% | 6.3% | 1.0% |
未来展望 [page::5]
- 推动多模态数据融合,结合金融文本、表格与SQL查询。
- 强化复杂SQL的语义联结与执行容错能力。
- 发展交互式和多轮金融Text-to-SQL系统,帮助分析师迭代式提问和即时反馈。
深度阅读
FINCH: Financial Intelligence using Natural language for Contextualized SQL Handling —— 详尽分析报告
---
1. 元数据与报告概览
- 标题:FINCH: Financial Intelligence using Natural language for Contextualized SQL Handling
- 作者与机构:Avinash Kumar Singh 等三位作者,均来自 Domyn,不同城市(印度 Hyderabad、印度 Gurgaon、美国纽约)
- 发布时间:报告未明确标记具体发布日期,引用文献中最早涉及2024~2025年,推测为2024年或2025年发布
- 主题:
本文聚焦金融领域的Text-to-SQL任务,即将自然语言问题自动转化为对应的SQL查询。因金融领域数据库结构复杂、专业性强、且错误代价高,传统通用Text-to-SQL方法难以直接应用,金融领域缺乏大规模专用数据集和评估方法。报告旨在填补此空白,提出大规模金融Text-to-SQL数据集(FINCH)、进行综合模型评测,并提出金融专用的评价指标(FINCH Score)以更准确衡量模型表现。
- 核心论点与贡献:
- 构建了包含33个数据库的综合金融Text-to-SQL数据集FINCH,涵盖29万个表、2,233列、75,725组自然语言-SQL对,是目前最大规模的金融专用Text-to-SQL基准。
- 对多类模型(大型开源模型,中小规模模型,强调推理能力的模型)进行全面评测,发现中规模经过领域微调的模型(如Arctic-Text2SQL-R1-7B)可显著超越部分大模型表现。
- 设计了针对金融应用的评估指标FINCH Score,融入结构依赖加权和结果值容差,保障评价更贴合金融业务重要性和容差标准。
综上,报告明确指出金融Text-to-SQL的独特挑战和需求,系统性地提出解决方案及评估体系,推动该领域发展[page::0,1,2,4,5]。
---
2. 逐节深度解读
2.1 引言(Introduction)
- 关键论点:
- Text-to-SQL是NLP关键研究领域,历经规则方法、神经网络、强化学习等技术演进。
- 开放领域已有大量跨领域数据集(Spider, BIRD等)和方法推进了技术,但金融具体场景下模型表现仍弱,表结构复杂、专有术语和执行准确性要求高,且现有评价指标(严格匹配、执行准确)难以体现财经领域细微差异的重要性。
- 金融领域虽有数值推理、表文结合、多轮对话等数据集(FinQA, TAT-QA, ConvFinQA),但缺少针对直接SQL生成和查询的专门大规模数据集与细腻的评估体系。
- 支持依据与推理:
- 引用了多项基准及相关文献,说明目前跨领域Text-to-SQL虽然技术进步显著,但金融领域需求特殊,且数据标注质量差异及错误影响大。
- 针对金融领域的任务往往涉及复杂的多表连接、大量聚合和合规性筛选,现有公开数据集覆盖面不足。
- 结论:迫切需要领域专用数据集和评价标准,以实现金融场景下实用且可靠的Text-to-SQL模型[page::0,1]。
2.2 FINCH数据集构建(Section 2)
- 关键论点:
- FINCH数据集由Spider、BIRD、BULL、BookSQL四个数据集筛选整合而成,专注金融相关数据库。
- 通过严格执行SQL语句进行数据验证,识别出大批查询中的语法和字段引用错误,并予以修正,确保数据质量。
- 数据集规模显著:33个金融域数据库,292张表,2,233列,177表间关系,75,725条自然语言-SQL对。
- 難度分布覆盖简单至复杂SQL查询,包含ORDER BY、GROUP BY、子查询等多种关键SQL操作,为推理能力测试提供保障。
- 关键数据点:
- 预整合数据源错误率高,举例:BookSQL中约9526条错误(逾12%),BIRD、BULL亦存在不同质量问题,显示数据清洗非机械操作,需结合业务语义判断。
- 表/数据库平均比例为8.85,体现数据结构丰富。
- 推理与论据:
- 精挑细选与验证并修正语句确保数据集适合金融实际业务。
- 按照财务语境区分各类子领域,统一格式保证可扩展性和易用性。
- 总结:FINCH不是简单堆积,而是在金融领域得到明确聚焦、语义准确且结构复杂度充足的权威基准[page::1,2,3]。
2.3 实验与评估方法(Section 3)
- 关键论点:
- 评测模型涵盖从巨型(Qwen3-235B、GPT-OSS-120B)到小型(Qwen3-8B、GPT-OSS-20B)及专门推理模型(Phi-4-mini、Arctic-Text2SQL-R1-7B),以此探讨参数规模与领域微调对性能影响。
- 使用统一prompt设计,规定SQL生成严格符合数据库结构及语法规则以保证评测结果纯净可信。
- 评测指标包含传统Exact Match、Execution Accuracy、Component Matching及创新的“FINCH Score”。
- 推理细节:
- 统一prompt减少因提示差异产生的性能偏差,专注模型内在能力评估。
- 选择推理能力模型是因为金融SQL查询通常涉及复杂逻辑和多表关联,需要推理能力支持。
- 结论:设计严谨的方法确保结果的公平可比,且“FINCH Score”针对金融场景优化,更真实反映模型实际业务价值[page::2,3,4]。
2.4 FINCH评分指标设计(Section 3.2)
- 核心逻辑:
- 传统指标准确性苛刻,如Exact Match对稍微的无害性差异判为错误,Execution Accuracy忽略误差财务影响等问题。
- FINCH Score设计三方面指标:
1. 组件分权得分(SELECT、WHERE、GROUP BY等SQL子句分别赋权,权重反映财务影响力)
2. 执行容差准确率(允许结果有微小误差,体现财务“重要性原则”,比如0.01%以内波动算正确)
3. 结合得分函数(通过参数β和δ调整结构与执行的权衡,现实中偏好结构准确度更高,执行错误可容忍一定比例)
- 核心公式:
- 组件加权分数 \( S \)
- 执行相似度 \( e \)(带容差 \(\tau\))
- 结合公式:\[
\mathrm{Score}(\hat{q},q^{})=S(\hat{q},q^{})^{\beta} \cdot \left(\delta + (1-\delta) e(\hat{q},q^{*}) \right)
\]
- 语义意义:
- 通过调整权重体现现实财务场景中不同SQL子句对决策的重要程度。
- 容差设计避免小数点误差导致完全失分,贴合财务合规和决策需求。
- β和δ作为可调参数,根据不同任务调整评价严格度。
- 举例:
- VaR计算中WHERE子句关键,漏掉则财务风险误报,故权重高。
- 微小的浮点运算误差不会直接导致执行失败。
- 总结:FINCH Score显著提升评估指标的实用价值和适应金融领域的判定标准,兼顾结构和执行,权衡严谨与弹性[page::4]。
2.5 结果分析(Section 4)
- 整体表现:
- GPT-OSS-120B大型模型表现最佳,表面看规模优势明显。
- Arctic-Text2SQL-R1-7B虽参数小,却通过面向金融领域的微调显著提升效果,排名第三,体现领域知识融入的重要性。
- 小型模型及部分推理模型表现较弱,但推理能力对准确性贡献不可忽视,尤其在中到难度查询上。
- 分句子性能:
- SELECT、FROM、WHERE子句错误率最高,反映金融SQL语法中最重要部分仍为瓶颈。
- GROUP BY、HAVING、ORDER BY表现略好但整体仍需提升。
- 多表JOIN和复杂条件处理是整体验证难点。
- 难度分布:
- 模型易查询平均20%左右表现,中难题迅速降至约10%以下,难题仅4%-5%左右,展现推理和组合能力不足。
- 指标对比:
- FINCH Score细腻地区分部分正确结构与执行,优于Exact Match和纯执行指标,体现其应用价值和金融适配性。
- 数据表解读:
表3(模型整体性能):
| 模型 | Exact Match | Exec. Accuracy | Comp. Match | Strict Accuracy (EM+EX) | FINCH Score |
|------------------|------------|---------------|------------|------------------------|-------------|
| Qwen3-8B | 0.50% | 0.80% | 3.50% | 0.10% | 1.20% |
| Arctic-Text2SQL-R1-7B | 0.60% | 2.30% | 3.70% | 0.20% | 1.50% |
| Phi-4-mini-reasoning| 0.00% | 0.20% | 1.00% | 0.00% | 0.40% |
| GPT-OSS-20B | 0.30% | 7.50% | 5.20% | 0.30% | 3.00% |
| GPT-OSS-120B | 1.80% | 27.80% | 16.60% | 1.70% | 11.60% |
| Qwen3-235B-A22B | 0.70% | 2.50% | 2.80% | 0.20% | 1.20% |
观察:GPT-OSS-120B在所有指标中遥遥领先,尤其是执行准确率和综合FINCH评分。强调领域微调的Arctic-Text2SQL在严格准确率和FINCH Score上表现稳健,规模较小但优化明显。
表4(SQL子句表现):
| 模型 | SELECT | FROM | WHERE | GROUP BY | HAVING | ORDER BY | LIMIT |
|------------------|--------|-------|-------|----------|--------|----------|--------|
| Qwen3-8B | 1.6% | 3.9% | 0.9% | 4.8% | 2.2% | 1.4% | 38.2% |
| Arctic-Text2SQL-R1-7B | 2.5% | 3.6% | 0.7% | 4.7% | 1.0% | 1.3% | 42.7% |
| Phi-4-mini-reasoning| 2.0% | 2.3% | 0.4% | 2.1% | 1.3% | 0.4% | 27.6% |
| GPT-OSS-20B | 1.4% | 6.2% | 1.5% | 8.4% | 3.7% | 1.5% | 65.2% |
| GPT-OSS-120B | 4.7% | 27.3% | 6.9% | 7.5% | 6.3% | 6.3% | 73.8% |
| Qwen3-235B-A22B | 2.0% | 2.9% | 0.8% | 5.4% | 1.5% | 1.0% | 29.8% |
| 平均 | 2.37% | 7.37% | 1.87% | 5.48% | 2.67% | 1.98% | 46.55% |
观察:SELECT、FROM、WHERE子句准确率整体偏低,尤其是WHERE(过滤条件)作为规则关键点,误差率高严重影响财务数据准确性。ORDER BY和LIMIT子句准确率相对高,但其业务影响较小。大型模型如GPT-OSS-120B在FROM和WHERE提升明显,反映买通复杂多表结构能力。
- 总结:
- 领域微调对于财务Text-to-SQL任务至关重要,小模型在特定优化后竞争力强。
- SQL关键权限子句依旧是瓶颈,有待更先进的schema linking和推理算法提升。
- FINCH评分指标有效地捕捉部分正确性,避免绝对的“全或无”判断,更符合财务所需的风险管理[page::5,6]。
---
3. 图表深度解读
3.1 图1:FINCH数据集结构示意图
- 描述:
图1为环形树状结构,展示FINCH数据集整合的33个数据库、292张表及其关系。各种颜色节点代表不同数据源,连接的分支表示表与数据库的层级结构,最外围显示表和字段名称,内层是数据库名称,中心为“FINCH”节点。
- 数据趋势与意义:
展示了数据集极高的多样性和复杂性。数据库覆盖金融、零售、保险等多个子领域,底层表结构繁多且关联复杂,反映金融场景数据特点。丰富的表结构对模型schema linking能力提出更高要求。
- 文本关联:
该图形象证明FINCH在广度与深度上的突出优势,支持报告对金融Text-to-SQL多样且复杂任务的定位,直观体现了数据集的行业垂直特性及严格筛选过程[page::3]。
3.2 表1:FINCH与其他数据集对比
- 描述:
表格横列显示Spider、BIRD、BULL、BookSQL、FINCH五个数据集的样本数、数据库数和数据库到表的比率。
- 关键数据:
- FINCH包含33个数据库,75,725个样本,平均8.85个表/数据库。
- 相较Spider(22 DB, 5.1表/DB)和BIRD(7 DB, 7.3表/DB)规模更适中,但领域更专注,综合了规模和金融专注度。
- BULL表/DB比例最高达26,BookSQL巨大但单一数据库。
- 意义:
表明FINCH既避免了单数据库依赖,也避免了泛化不足,专注实用的金融多样性。恰当的表/数据库比例提升模型理解复杂模式的可能性。
3.3 表2:Prompt示例
- 描述:
展示了对所有模型统一使用的提示模板,明确任务描述、问题、数据库模式及SQL生成限制,确保语法规范和结构一致。
- 意义:
保证比较公平,防止非模型能力因素(如提示设计差异)干扰评测结果。提示内容强调结构准确、不含无端假设,有利于模型聚焦逻辑生成,体现金融领域对严谨性的需求。
3.4 表3 & 表4:模型整体表现及子句表现(详见上节“结果分析”)
- 详尽体现模型分布,支持对规模、架构、领域微调的深入解析。
---
4. 估值分析
本文中“估值”概念不涉及公司财务估值,而是对模型性能和数据集价值的归纳和评价。
- 模型评测方法:
- 采用切实可行的评价指标融合——传统准确率与创新FINCH Score,估值模型优劣。
- 通过对不同模型系列对比体现性能边际贡献和领域匹配价值。
- 评估结论:
- 大模型性能强,领域适配模型竞争力突出,表明未来金融Text-to-SQL需兼顾通用能力和专业微调。
- FINCH Score为评估工具提供更精细层面价值量化,弥补传统指标盲区,价值显著。
- 敏感性分析未详述,但通过β、δ参数可调,实现多场景适配。
---
5. 风险因素评估
报告间接提出的风险与挑战:
- 数据质量问题:
- 初始数据集存在大量SQL错误(字段名、表名、语法错误),必须人工严格校正,否则模型训练易陷入误导。
- 模型泛化风险:
- 即使在FINCH数据上调优,模型仍难以应对金融数据库中不断拓展的复杂模式和新业务需求。
- 评价指标风险:
- 传统指标严格或片面,导致模型训练和选择偏向表面准确率,忽视语义合理性和业务重要性。
- 实际部署风险:
- 文本转SQL中,任何细微的逻辑错误均可能造成重要财务报表错误,产生合规与法律风险。
- 报告提出的缓解措施:
- FINCH Score采用容差和分权机制减轻无害错误惩罚。
- 领域微调和架构设计专门针对金融业务,提升可靠性。
- 总体没有明确风险概率评估,但强调了金融场景高度风险敏感,推动未来聚焦可靠性与人机交互(如人选突校对等)[page::0,1,4,5]。
---
6. 批判性视角与细微差别
- 潜在偏见:
- 大量强调使用特定模型(如GPT-OSS-120B)的性能优势,但该模型未必对所有任务同样有效,且资源消耗巨大,部署有限制。
- 领域定制模型尽管表现突出,但报告未详述训练成本和数据需求,实际可复制性有限。
- 指标设定的主观依赖:
- 权重参数(如β和δ)虽设计灵活,但如何科学确定缺乏公开细节,指标的代表性和公平性依赖于具体参数选择,评测结果可能受影响。
- 数据集局限:
- 虽努力整合多数据源并修正错误,但金融数据库快速变化的特点意味着FINCH可能难以长期涵盖新业务场景,报告未提持续更新机制。
- 模型表现普遍偏低:
- 即使最佳模型FINCH评分仅为11.6%,表明现有技术与金融复杂需求依然存在巨大差距,尚未达到商业实用水平。
- 结构和执行的平衡难题:
- FINCH Score设计复杂,但实际应用时对执行错误的分值赋予可能导致部分语法正确但结果错误的查询被宽容,潜在业务风险。
- 图表可视化中的标签模糊:
- 图1展示虽直观,但节点标签密集,实际理解有难度,且未提供进一步的交互细节,限制用户深入探索数据结构。
---
7. 结论性综合
本文系统介绍了FINCH——首个大规模、面向金融领域的Text-to-SQL数据集,涵盖33个数据库、292张表、逾7.5万组自然语言-SQL对,数据质量通过严格校验保障。通过统一、严谨的prompt设计,评测了多种规模及架构模型,发现:
- 大规模预训练模型(如GPT-OSS-120B)具备最强整体性能,尤其在结构和执行准确度上领先;而小型领域特定微调模型(如Arctic-Text2SQL-R1-7B)表现尤为抢眼,突显领域知识对提升金融SQL转译的巨大价值。
- 传统准确率指标不适合金融场景,FINCH Score引入结构加权与执行容差,更加合适捕捉金融SQL查询的语义精确度及业务重要性。
- 模型在SELECT、FROM、WHERE等关键子句上的准确率依旧不足,尤其在中难度以上股票多表关联和复杂条件查询中体现推理能力缺陷。
- FINCH数据集因融合多个领域数据库,具备丰富多样的表结构和业务语义,理想地促使模型提升schema链接能力和组合推理能力。
- 未来工作应关注多模态信息(文本、表格、SQL)联合推理、鲁棒schema链接与对话式交互,以更好匹配金融分析师和审计员复杂的工作流程。
结合图表数据与全文,FINCH代表了金融领域Text-to-SQL研究的重要里程碑,既是模型的评测基准,也是研发的催化剂。通过该平台,研究社区能够更精确、更实践地推进金融数据库访问的自动化与智能化,助力实现对金融数据的高效准确认知与应用[page::0-6]。
---
总体评价
FINCH报告内容翔实、结构完备,针对金融Text-to-SQL任务策划了重要数据与评估体系,体现先进的研究视角与实务需求相结合。报告结合详实数据、严谨评价,围绕任务核心进行了深入剖析,数据及模型表现清晰,金融领域特色鲜明。建议后续发布时补充具体参数调优细节、数据更新机制和模型应用的实际成本分析,以利推动学术与产业落地。
---
附图解读示范
---
图1:FINCH数据集结构示意图

---
表2:统一Prompt示例

---
以上为本次报告极其详尽的分析解构,对金融Text-to-SQL研究的理论基础、数据资源、评估指标、模型表现及未来展望进行了全方位且专业的解读。