The (Short-Term) Effects of Large Language Models on Unemployment and Earnings
创建于 更新于
摘要
本文利用合成差分法,实证分析了大型语言模型(LLM)自ChatGPT发布以来对不同职业的薪酬和失业率影响。结果发现,高暴露职业的薪酬显著提升(周薪增加约89美元),但失业率未见显著变化,表明短期内LLM通过提升生产率推动工资增长,而非劳动供给调整,反映劳动市场存在刚性。[page::0][page::1][page::9][page::11][page::12]
速读内容
LLM对劳动力市场的理论影响 [page::1]
- LLM既可作为人力技能的补充,提高生产效率并推动劳动需求和工资上升。
- 也可能替代部分人力,导致相关职位工资和就业下降。
- 不同职业对LLM暴露程度不同,因而影响存在异质性。
数据与暴露测度 [page::3][page::4]
- 使用美国CPS数据获取职业层面的失业率和周薪信息,时间跨度2010年1月至2025年8月。
- LLM暴露度基于Handa等(2025)利用O*NET任务及LLM提示词的对应关系构建,反映各职业任务受LLM影响的程度。
- 职业暴露度存在较大分布差异,主要依赖写作、编程等任务的职业暴露度更高。

描述性统计:失业率与薪酬趋势 [page::9][page::10]
- 各职业群体失业率总体稳定,疫情期间短暂波动。
- 高暴露职业(暴露度上二分位)历年薪酬水平高于低暴露职业,2024-2025年薪酬增幅显著高于低暴露组。


事件研究法分析 [page::11]
- 失业率的平行趋势假定不成立,预期无法获得因果效应。
- 薪酬平行趋势更可靠,LLM发布后显著正向冲击薪酬。


合成差分法(SDiD)估计结果 [page::11][page::12]
- 失业率变化中心值接近零,平均影响仅0.2个百分点,未见明显系统性变化。
- 周薪中位数正偏,平均影响约89美元,绝大多数职业薪酬增长,表明普遍的正效应。


LLM暴露的异质性效应与短期劳动力市场调整机制 [page::12]
- LLM主要通过生产力提升推动高暴露职业薪酬上涨,未导致短期就业减少。
- 短期内劳动力市场供给弹性较低,调整主要通过提高工资实现。
- 成果与部分文献相符,反映技术采纳短期内主要表现为工资增长而非失业变化。
估计结果对行业和政策启示 [page::12]
- 技术创新初期对就业威胁较小,但提高劳动者价值。
- 政策应关注劳动供给弹性的提升,促进劳动市场灵活性,保障长期适应能力。
深度阅读
报告标题与概览
标题:《The (Short-Term) Effects of Large Language Models on Unemployment and Earnings》
作者:Danqing Chen, Carina Kane, Austin Kozlowski, Nadav Kuniesvky, and James A. Evans
发行机构:未明确说明,属于学术研究类工作论文
发布日期:2025年9月22日
主题:研究大型语言模型(LLMs)对劳动市场短期影响,尤其是对失业率和工资的作用。
核心论点与结论摘要:
本文的核心研究问题是LLMs(以ChatGPT为代表的生成式AI)对美国劳动市场的影响路径。作者采用合成差分法(Synthetic Difference-in-Differences,SDiD)算法,基于职业对LLM的暴露度,衡量LLM的引入如何影响不同职业的薪酬和失业水平。
主要发现是:
- 高暴露职业的工人收入显著增加(约每周增加89美元,2010年价格),而失业率基本无显著变化。
- 这一结果支持LLMs作为劳动生产力的补充工具,通过提高生产率拉升了工资,但短期内并未引发劳动者的大规模替代或重组。
- 劳动力供给短期内对科技冲击缺乏弹性,导致调整显示为工资上扬而非就业结构改变。
总的来说,作者传达的是,LLMs初期的劳动力市场效应更倾向于提高工资,而不是增加失业,这与技术即补充劳动者的视角相符。[page::0,1]
---
逐节详尽解读
1. 引言
引言部分指出LLMs是近年最具变革性质的技术,尤其自2022年11月ChatGPT公开以来,其应用范围和速度超乎想象。虽然这些工具已广泛嵌入各行业的日常工作,但其对经济,尤其劳动市场的影响尚无定论。作者明确问题背景:LLMs既可能增强劳动者技能(补充效应),也可能替代部分人工任务(替代效应),这导致劳动需求的方向不确定。研究旨在定量评估LLM引入后,工资和失业率两大关键指标的实际变动。[page::0,1]
2. 文献综述(相关文献)
作者系统回顾了关于AI及LLMs劳动市场影响的先行研究,分两类:
- 潜在暴露度衡量研究:如Frey & Osborne(2017)用专家评估自动化概率,Handa等(2025)利用AI提示(prompt)数据将O*NET工作任务映射至LLM能力,对暴露进行细致分类(自动化、增强等)。
- 生产力与劳动力效果评估:包括实验对生成式AI提升特定工作(写作、编程、客户支持)生产力的量化,以及司法L等对就业、工资影响的观察(混合结果),且发现影响因年龄、自动化偏好、多模态技术演进而异。
这部分梳理了测量方法多样化的发展和实际应用效果的复杂性,为本文研究设计与解释提供了理论基础。[page::2,3]
3. 数据来源
数据结合了美国当前人口调查(CPS)的月度工资和失业数据(2010年1月-2025年8月),职业编码基于2010年人口普查标准,从中抽取具有劳动状态、收入信息的样本。工资数据经通胀调整至2010年美元,失业定义则遵循经典劳动力统计标准(失业且积极找工作者)。此外,职业对LLM暴露的测量基于Handa等(2025)提供的任务-提示匹配,计算占职业任务总比重,以形成暴露率指标。该指标反映“潜在”受影响程度,而非直接采纳度(即属于技术能力范围,而非实际应用),避免了内生性偏误。数据分析充分考虑了权重和时间变异因素。[page::3,4,5]
4. 经验策略(方法论)
4.1 差分中的差分(DiD)设计
作者将2022年11月ChatGPT发布视为“处理时间”,将暴露程度高于中位数的职业定为“处理组”。采用两维固定效应回归,控制职业和时间效应。DiD基本估计参数β度量LMM暴露对工资和失业的平均处理效应(ATT)。
然而,文中提出关键问题:
- LLM的采用并非瞬间完成,存在渐进性和职业间差异,导致假想的“统一处理时间”存在误差。
- 初步事件研究显示失业的平行趋势假设被明显违反,说明简单DiD不够稳健。
为此,他们拟补充估计事件研究模型,提供动态反应轨迹,同时指出预趋势检验的固有缺陷(Roth, 2022),即仅依赖平行趋势假设的推断有限。[page::5,6,10]
4.2 合成差分中的差分(SDiD)
为克服DiD平行趋势假设不足,采用Arkhangelsky等(2021)提出的SDiD方法:
- 单元权重(Unit weights)为控制组职业赋予权重,以合成与处理组职业在处理前趋势极其匹配的“虚拟”对照。
- 时间权重(Time weights)强调对后期预言效果有最大信息量的处理前时间点,增强对潜在时间因子的捕捉。
- 最终通过加权固定效应回归估计处理效应。
SDiD模型基于交互固定效应潜在结果模型,能够放宽传统DiD对平行趋势的严格要求,处理因职业特征不同而导致的潜在动态异质性。本文采用逐一职业单位分别估计,再合成统计整体效果,有利于减少因数据不平衡造成的样本损失,并可显示职业间响应差异。[page::7,8]
5. 结果分析
5.1 描述性统计及趋势观察
- 失业趋势(图1):各暴露四分位数间失业率较为稳定,2020年疫情引发短暂高峰。高暴露职业群体的失业率整体较低(均值4.1% vs 5.8%)且差异稳定。
- 工资趋势(图2):高暴露职业平均周薪显著高于低暴露者,两者预处理趋势(2010-2022)平稳且平行。2023年后高暴露职业出现明显跃升,2022年末至2025年8月,高暴露群体周薪增加约105美元,低暴露组仅涨60美元左右。
- 使用基于增强与自动化的不同暴露指标重复分析,结果一致,支持鲁棒性。[page::9,10]
5.2 事件研究(Event Study)
- 失业事件研究显示显著预趋势差异(图3),排除简单DiD因果推断有效性。
- 工资事件研究预趋势较为稳定(图4),处理后期显著提升,如描述性数据所示。
- Naive DiD在工资和失业上得出分别为约95美元提升和1.2个百分点失业提升的估计,但因预趋势违规而不被视为因果。
不同暴露类别及连续暴露指标下的重复分析显示模式相似,增强结果的一致性。[page::10,11,17]
5.3 SDiD估计结果
- 失业(图5):横跨职业的职业级单元估计集中于0,平均仅0.2个百分点,说明LLM引入未显著改变职业层面失业率。
- 工资(图6):多数职业显示正面效应,均值提升接近89美元/周。仍存在异质性,部分职业可能出现工资下降,暗示LLM影响非均质,受任务类型与技能匹配影响。
- 分解增强/自动化暴露依然展现类似模式(附录图A14-A17)。
因此,SDiD结果强化原先结论:LLMs短期主要通过工资渠道影响劳动市场,失业变化有限。[page::11,12,18,19]
---
图表解读
图1 & 图2(第10页)
- 图1: 以职业LLM暴露四分位分组,展示失业率2010-2025年趋势。疫情异常峰值清晰。高暴露组失业总体较低,且差距稳定。
- 图2: 同样分组的平均每周实质工资趋势。预期期内四组收入轨迹平行且稳定。发布ChatGPT后,高暴露组出现显著跃升。
图表验证了数据描述的稳定预趋势和后期分化,支持因果推断的必要性及SDiD方法的选择。[page::10]
图3 & 图4(第11页)
- 图3: 失业率事件研究显示预处理期内高暴露与低暴露组显著不同趋势,造成平行趋势假设被拒绝。
- 图4: 工资事件研究预处理期平稳,处理后工资差异迅速扩大。
两图强化简单DiD估计的偏误,促使更复杂调整方法。[page::11]
图5 & 图6(第12页)
- 图5: SDiD估计的失业效果分布直方图,集中于零,体现失业率整体无显著变化。
- 图6: SDiD估计的工资效果分布,多数职业正效应,平均增加89美元。
用于展示估计异质性及平均正效应,明显区别于传统DiD结果,突出SDiD的优势。[page::12]
附录相关图表(第14-19页)
- 显示不同暴露指标(自动化 vs 增强)、二元及连续处理变量的失业及工资事件研究和SDiD估计结果,均保持了主结论的稳健性。
- 表1列出了暴露最高的职业,诸如计算机程序员、写作者等,符合预期。
- 各图均提供了置信区间及标准误,展示统计显著性及估计精度。[page::14-19]
表2(第17页)
- 简单DiD固定效应模型结果显示高暴露组在后期周薪约增95美元(标准误约20美元),失业率增加1.2个百分点(标准误0.2个百分点),但因预趋势违背须谨慎解读。[page::17]
---
估值分析
报告未涵盖定价或估值分析,因其为劳动经济学实证研究,不涉及企业融资或估值模型。
---
风险因素评估
作者识别的主要限制与风险:
- 暴露测量潜在偏差:暴露指标反映的是潜在的任务适用性而非实际采用,存在“意向处理效应”(intent-to-treat)性质,可能导致估计偏向保守或错配。
- 统一处理时间假设:ChatGPT发布日期作为“处理开始”是简化,实际采用过程异质且渐进,导致时间点不准确。
- 平行趋势假设不成立:简单DiD因预处理期趋势差异产生偏误,需SDiD方法校正。
- 劳动市场结构变化时滞:短期研究可能遗漏中长期就业效应及结构调整。
报告未具体提供风险缓释策略,但通过方法论设计尝试控制数据和模型限制,保持稳健推断。[page::5,6,10]
---
审慎视角与细微差别
- 报告谨慎强调其结论为“短期”效应,未探讨中长期技术冲击,潜在长期结构性冲击尚不明确。
- 暴露度测量无法完全界定实际技术采纳和使用强度,可能混淆因果通道。
- 预处理失业率较低的职业可能存在选择效应(高暴露职业工资和失业率本就优于低暴露组),即便方法调节后,残留异质性或影响估计。
- 事件研究及SDiD异质性显示某些职业作用逆向(工资下跌或失业增加),揭示行业/职业差异大,不宜一概而论。
- 研究假设劳动供给相对刚性,这一前提出发解释调整渠道是否普遍适用仍需后续验证。
综上,结论具有较强的内部一致性与方法论支持,但面对快速变化的AI技术,未来调整及动态机制需持续关注。[page::6,11]
---
结论性综合
本报告系统评估了大型语言模型(如ChatGPT)在其快速扩散初期对美国劳动市场的短期影响。通过构建基于任务的职业暴露度指标并结合当前人口调查数据,采用合成差分中的差分(SDiD)方法校正了传统DiD方法中平行趋势假设的缺陷,得出以下深刻见解:
- 工资提升为主要反应机制:高度暴露于LLM的职业在ChatGPT发布后,平均周薪显著提高约89美元(2010年价格调整),表明LLM对相关工种提升了生产力并促进工资上涨。
- 失业率变化不显著:失业率分布围绕零波动,说明短期内LLM并未引发大规模的就业流失或者结构性失业。
- 预趋势及异质性验证重要性:初步简单DiD估计因预处理时间趋势差异而产生偏误,SDiD有效利用预处理时期对比信息完成偏误修正,并揭示职业内部显著的异质反应,强调行业与任务差异化影响。
- 暴露指标多维度支持:任务级自动化和增强两类暴露指标均支持主要结论,体现了LLM技术各种功能对劳动市场的综合效应。
- 劳动市场供给弹性有限:结果符合劳动力供应短期刚性的框架,即产出提高后劳动力数量难以迅速调整,导致主要通过工资发现机制完成市场平衡。
图表展示的稳定的预期特征和后期分化,辅以严谨的估计技术,增强了结论的可信度。无论工作任务是否强调自动化、增强或两者兼具,高暴露职业普遍受益于工资提升,而失业风险短期未显著增大,为针对新一代AI技术的劳动经济政策提供了初步量化依据与分析框架。
---
参考文献出处标注示例
文中关键结论附带页码溯源示意:
- LLM暴露度与工资提升验实 [page::1, 11]
- 失业率短期无显著变化 [page::11, 12]
- SDiD方法及其优势详解 [page::7, 8]
- 简单DiD存在预趋势偏误 [page::10, 11]
- 职业暴露分布与高暴露职业示例 [page::14]
---
综上,本报告准确把握了LLM技术快速扩散背景下,美国劳动力市场的首批宏观效应,以稳健的计量方法规避传统分析陷阱,提供了短期内工资增长而失业率基本稳定的实证支持,揭示了新一代AI革命对劳动市场影响的复杂性和异质性,为后续政策制定和学术研究设立了重要的基准。