The AI Productivity Index (APEX)
创建于 更新于
摘要
本报告介绍了首个AI生产力指数(APEX-v1.0),该指数评估前沿AI模型在投资银行、管理咨询、法律和初级医疗四大知识工作领域完成经济高价值任务的能力。通过专家设计的200个真实任务案例和详细评分标准,使用语言模型评审员自动评分,涵盖23个模型的测试结果,揭示最佳模型与人类专家间依然存在显著性能差距,为衡量AI实际经济价值提供了新的标准和方向 [page::0][page::1][page::5][page::6].
速读内容
APEX的设计与构建流程 [page::1]

- 数据集包括200个案例,均由具备多年行业经验的专家设计,涵盖投资银行、医疗、管理咨询和法律四领域。
- 每个案例平均耗时约3.5小时,配有详尽的质评标准(rubrics)和证据来源,确保任务难度和专业性。
- 采用多轮专家审核及自动化语言模型评审员(LM judge)面板确保评分质量。
模型评测结果与排行分析 [page::4][page::5][page::6]
| 模型名称 | 平均得分(%) | 排名 |
|-------------------------|------------|------|
| GPT 5 (Thinking=High) | 64.2 | 1 |
| Grok 4 | 61.3 | 2 |
| Gemini 2.5 Flash (On) | 60.4 | 3 |
| Qwen 3 235B(开源) | 59.8 | 7 |
| Phi 4 Multimodal | 20.7 | 23 |
- GPT 5表现最佳,13个封闭源模型整体比10个开源模型得分高9.4个百分点。
- 各领域难度不同:法律最高(56.9%),医疗和投资银行较低(约47.5%)。
- 头对头胜率显示GPT 5胜率77.5%,Phi 4仅4.3%,模型之间差异显著。
语言模型评审员面板效能与一致性分析 [page::5][page::6]
- 使用三个具有不同“thinking”设置的LM模型组成评审小组,通过多数投票方式评分。
- 评审员内部一致率约99.5%,三者之间一致通过率81%,与人类评审一致率高达89%。
- 不同模型存在评判宽松度差异,采用面板减少评分偏差。
各模型特点及性能影响因素分析 [page::7][page::8][page::9]

- 模型响应长度差异较大,最长模型接近3万字符,但长文本不显著导致高分。
- 同一厂商不同版本模型性能改善有限,思考(thinking)模式开启与性能呈正相关。
- 模型得分与其他公开基准相关性中等,表明APEX评估内容具有独特价值。
各领域模型表现与未来改进方向 [page::9][page::10]
- 投资银行任务覆盖面有限,特别是部分非公开业务,未来将扩充。
- 管理咨询覆盖策略与绩效评估较充分,偏弱人本与实施领域。
- 法律领域成绩最好,未来聚焦公司与诉讼法细分及工作场景。
- 医疗领域最具挑战,需增强临床深度和多样化专业覆盖。
APEX数据集局限及未来展望 [page::10][page::11]
- 测量误差因评分、标注复杂性存在,使用多评审和多轮采样降低误差。
- 目前未对模型误导输出(hallucination)直接扣分,未来可能引入负面指标。
- 计划扩展至更多知识密集型职业及集成工具和多轮交互等应用场景。
深度阅读
AI生产力指数(APEX)报告深度解析
---
一、元数据与报告概览
- 报告标题:The AI Productivity Index (APEX)
- 作者与机构:多名作者联合完成,机构涉及Mercor、哈佛法学院、Scripps研究院等
- 发布日期:2025年(报告内容涵盖2025年相关数据和模型)
- 主题:介绍了AI生产力指数APEX-v1.0,这是一套针对前沿AI模型执行高经济价值知识工作的能力的评测基准,覆盖投资银行、管理咨询、法律和初级医疗四大领域。
核心论点与信息
- APEX意在解决现有AI基准测试未能有效衡量模型在经济有价值任务上表现的缺陷,推广一种贴近实际生产环境的评测方案。
- 依托行业专家设计真实高价值任务和对应评分标准,APEX-v1.0包含200个测试案例。
- 测试23款前沿模型,封闭源模型GPT 5(Thinking=High)表现最佳,获得64.2%的平均分,后续为Grok 4和Gemini 2.5 Flash。
- 尽管最优模型在APEX上的表现领先,但与人类专家仍存在明显差距,显示目前模型在经济贡献能力上尚有较大提升空间。[page::0]
---
二、逐节深度解读
1. 引言
- 传统AI基准测试多关注抽象能力,缺乏对经济价值产出的直接衡量。
- APEX设计目标是专注于贴近实际的经济有价值知识工作任务,测量AI模型的产出效率与质量,以提升对实用AI性能的理解。
- APEX首版面向投资银行、管理咨询、法务和初级医疗四大知识密集型岗位,设为保密隐藏数据集以确保评测严谨性。[page::0]
2. 数据集创建过程
- 通过Mercor平台招聘高资历专家(投资银行、管理咨询、法务、医疗),专家平均7.25年工作经验。
- 专家根据实际工作设计任务提示(prompts),每项任务平均需3.5小时完成,涉及逻辑推理与高复杂度问题。
- 针对每个任务,专家构建评分细则(rubrics)、搜集和制作证据文件,评分细则以“通过/未通过”判定条目分解质量标准。
- 完整质量把控流程包括专家的多轮审核和由语言模型(LM)组成的评分小组自动评分,评分与人工评分高度相关。
- 提供公共排行榜,23款模型参与测试,13为闭源,10为开源。[page::1][page::2]
2.1 数据集概览
- 200条任务,四领域均分,各50条。
- 每条任务包含平均29个评分标准,涉及多个证据来源,总证据文本量巨大(平均约2.67万标记)。
- 各域任务复杂度和任务描述长度差异明显,医学领域评分条目最多且精细,而投资银行任务评分条目相对较少。
- 任务提示长短不一,医学领域提示较短,管理咨询提示较长,因任务设计不同依赖度不同。
- 评分细则精准对应工作真实需求,兼顾细致度与实际操作冲突平衡。[page::2][page::3]
2.2 实验设计与模型选择
- 测试23款模型(2024年底至2025年版本),从OpenAI的GPT系列到谷歌的Gemini,再到Meta、Anthropic、XAI等。
- 13款闭源API模型和10款开源模型参与,利用推荐的“thinking”令牌(推理增强机制),默认为高温度0.7进行非确定性生成。
- 模型响应3次采样,中值得分用作排行榜分数,强调稳定性和中位表现防止偶然好运。[page::3]
3. 模型表现和评分方法
- 采用3款语言模型作为评分员(o3,Gemini 2.5 Pro,Sonnet 4),通过多数投票决定每条评分标准的通过与否。
- 评分模型表现稳定、高度一致,三者一致性约81%,且与人类标注者评分一致率达到89%。
- LM评分员偏差通过多模型投票部分抵消,避免评分自利情况,保持评分公允客观。[page::5][page::6]
4. 关键实验结果
- GPT 5(Thinking=High)整体最高得分64.2%,Grok 4、Gemini 2.5 Flash紧随其后,头部模型得分差距较小(59.3%-61.3%)。
- 底部模型得分显著较低,如Phi 4(20.7%)。
- 跨领域表现显示法律任务最易(平均得分56.9%),管理咨询次之(52.6%),投资银行和医学最难(约47.5%)。
- 模型间综合排名较为稳定,GPT 5在四领域均为最优。
- 16款具备“thinking”功能的模型平均得分(55.8%)明显优于无此功能模型(40.4%),但需注意封闭源和开源、发布日期可能带来混淆。[page::6][page::7][page::8][page::9]
5. 性能关联分析
- 模型间相似任务难度高度相关,尤其同厂商产品间相关度高达0.9以上。
- 一般闭源模型得分优于开源模型(平均55.2% vs 45.8%)。
- 响应长度对得分几乎无显著影响,否定了单纯靠超长答案堆砌以提升分数的猜测(回归R²=0.02)。
- 与其他知名基准(HLE、MMLU Pro、MMMU、GPQA)相关系数约0.79,说明APEX在经济价值导向下与现有基准具有一定差异性和互补性。[page::7][page::8][page::9]
---
三、图表深度解读
图1:模型APEX平均得分榜单
- 图表展示23个模型的平均得分排名,横向条形图以百分比表示成绩。
- 紫色与绿色分别代表非开源与开源模型,前五名均为封闭源,开源模型中Qwen 3 235B排名第七。
- 标注“Thinking”启用状态与等级,显示“High”思考令牌能提升模型得分。
- 数据反映模型之间的实力梯度,最高得分差距显著但非绝对拉开距离。[page::0]
图2:APEX数据集构建流程图
- 流程图清晰展示:专家招募 → 任务提示制作 → 评分标准制定及证据搜集 → 模型应答采集 → LM评分。
- 参与专家跨四领域,合作确保任务真实、标准科学严谨。
- 强调多层质量控制,保障数据与评测质量的高水准。[page::1]
图3:法律领域示范评分细则(部分)
- 表格分条列出具体评分标准(如文档格式、字数限制、版权归属法律条款阐述等)。
- 细则详细且对应法律专业要求,体现评分的专业度与细致性。
- 任务依托丰富文本证据,要求模型综合多条法规和合同内容推理判断。
- 这些细化标准能够有效防止模型敷衍回答,促进模型输出贴近行业真实需求。[page::2]
图4:模型响应长度统计
- 条形图分秀平均字符数,中位数及标准差,极大变量显示部分模型输出回应严重冗长。
- 如Qwen 3 235B平均超过29,000字符,异常案例字符量达数十万,影响解读。
- 对比之下,GPT 4o输出文档较短但分数靠后,表明简单短文本难以涵盖所有评分标准。
- 说明模型输出长度与评分之间无明显正相关,保证模型效率和质量间的平衡。[page::3]
图5:模型两两胜率对比
- 条形图展现每个模型与全部其他模型在所有任务头对头胜率比例。
- GPT 5胜率最高(约77.5%),Phi 4最低(不足5%),表现两极分化明显。
- 小误差条显示胜率数据统计可靠,头部模型间的微小分差转化成明显胜率优势。
- 该指标综合多任务胜负,可更精准反映相对模型实力。[page::5]
图6:模型间得分相关矩阵
- 热力图展示23款模型两两之间在APEX任务得分的皮尔逊相关系数,取值区间0.39~0.93。
- 同厂商模型相关度显著高(最高0.93),反映相似体系和训练路径。
- 开源模型相关度迷你稍低,闭源群体表现更一致。
- GPT 5虽为最高得分模型,其与他模型相关性反而较低,意味着其表现差异化。
- 该图有助于理解模型设计及训练对任务表现影响的共同性与差异性。[page::8]
各领域示例任务评分细则
- 报告中详细附上投资银行、法律、管理咨询、医疗四个领域的完整评分细则,体现任务的技术性和行业专业标准。
- 每个任务包含20-40多条评分标准,包含财务计算准确性,法律法规解读,市场预测,临床诊断与治疗方案推荐等典型高价值工作内容。
- 这些细则保证评测不仅考察模型基础知识,更侧重现实工作中多维推理和信息整合的能力。[page::22-26]
---
四、估值分析
报告主要为AI能力评测性质,未包含财务估值模型。但报告设计了APEX作为经济价值任务能力指标,目标价体现在提供行业专家认可的任务难度与评分体系,间接促进计算经济价值的AI模型表现。
---
五、风险因素评估
- 测量误差:由于任务和评分标准设计复杂,存在专家评分偏差和LM评分误差的可能性,特别是医学领域更具挑战。
- 评分标准问题:APEX不惩罚生成错误信息的模型回答,可能导致“散弹式”长文本获取高分,但一体到质的分析无系统发现大量错误信息。
- 现实价值匹配:模型APEX得分不完全等同其创造的经济价值,实际效益依赖模型在用户环境的部署方式及交互产品设计。
- 数据集污染和饱和:长远看模型可能对APEX过拟合或数据集被预训练包含导致数据污染,影响其作为持续评测标准的有效性,但报告设法通过隐藏测试集限制风险。[page::10]
---
六、批判性视角与细微差别
- 评分过程依赖LM评判,虽已有较高一致率,但语言模型自身偏差与判断上下文细节处理仍不可完全排除。
- 由于不同模型启用“thinking”机制和参数设置不统一,可能影响公平对比,报告指出需要进一步ablation检验。
- 开源与闭源模型间性能差距明显,但缺乏模型具体训练与架构公开细节,限制更深入因果分析。
- 任务设计虽覆盖四大关键行业,但仍存在领域覆盖不足、任务场景有限的现实;例如投资银行部分产品线未充分涵盖。
- 对临床医疗等敏感且高风险领域,报告强调更多谨慎与人工审查不可替代,AI辅助仍有距离。[page::7][page::9][page::10]
---
七、结论性综合
AI生产力指数APEX-v1.0是当前首个基于专家设计、聚焦经济价值任务的多领域AI能力评测基准,涵盖投资银行、管理咨询、法律和医学四大关键知识工作领域。其设计严谨,包含高复杂度任务提示与详细评分细则,通过LM评分与人工验证相结合的方式,确保评分的高效性与准确性。
实测23款前沿大模型显示,封闭源模型,尤其是OpenAI的GPT 5(Thinking=High)领先,占据明显优势,平均得分达64.2%。表现最强的模型在所有领域均明显优于开源或老旧版本模型,但距离人类专家水平仍有显著差距,彰显当前经济价值产出能力的局限性。
四领域任务难度差异明显,其中法律任务得分最高、医学与投资银行最难。模型响应长度虽差异显著,但其对得分影响甚微,反映任务质量评判指标合理制衡。模型间得分相似度分析揭示了同一家族模型的表现趋同性,同时也显示顶尖模型表现更具独特性。
APEX与其他学术基准同样具备差异性,强调实用经济效益导向评测,这为未来AI模型商业化应用以及生产力提升提供了更现实和精确的参考工具。未来版本规划进一步扩展领域覆盖、任务复杂度界定,并纳入即时工具使用、交互能力等更丰富的生产场景。
总体而言,APEX为AI经济价值能力提供了重要的量化指标及方法,推动AI模型性能向实际知识工作应用迈进。但测评仍面临测量误差、领域局限及数据集污染风险,需持续完善和迭代更新。该项工作对学术界与产业界均具有重要借鉴意义,是推动人机协同与智能生产力提升的关键基石。[page::0-26]
---
参考图表
-

-

-
