`

Can GenAI Improve Academic Performance? Evidence from the Social and Behavioral Sciences

创建于 更新于

摘要

本文基于Scopus数据库构建作者面板数据,利用差分中的差分设计和倾向得分匹配方法,研究生成式人工智能(GenAI)采纳对社会与行为科学领域科研产出数量和质量的影响。研究发现GenAI使用显著提升了研究产出,特别是在早期职业研究者和非英语国家作者中表现突出,同时带来研究质量(期刊影响因子)适度提升,表明GenAI推动学术生产效率提升且有助于降低语言等结构性障碍,促进学术参与平等。[page::0][page::14][page::18]

速读内容


研究设计与数据来源 [page::4][page::5]

  • 使用Scopus数据库,涵盖2021-2024年社会科学及心理学领域的同行评议文章。

- 构建作者-年份面板数据,包括发表论文数、GenAI相关词汇使用占比及期刊影响因子(SJR,固定2019年值)。
  • 作者特征包括性别、职业年龄、所属领域及国家英语接近度。

- 采用基于关键词变化的文本指标识别GenAI用户。

GenAI用户识别方法及匹配策略 [page::6][page::7][page::9][page::10]

  • 利用65个与GenAI写作相关的词根关键词,筛选2021-2024年论文标题和摘要中出现频率增幅显著(≥200%)的词汇。

- 以作者关键词占比的增长确定GenAI用户,分别验证不同阈值的稳健性。
  • 采用最近邻倾向匹配(1:3匹配),匹配变量涵盖过往发表论文数、期刊影响因子、职业年龄、性别、研究领域及所属国家的英语接近度,消除样本特征不平衡。

- 匹配后各变量标准差差异显著降低,确保比较组的可比性。

GenAI采纳对科研生产力与质量的影响 [page::14][page::24]


  • 差分估计显示,2023年GenAI用户科研产出论文数相较于非用户增加约15%,2024年增至36%。

- 期刊影响因子测量的研究质量提升较为温和,2023年提升约1.3%,2024年约2%。
  • 无匹配和不同匹配比例下结果趋同,验证方法稳健性。


异质性分析:技术强度、职业阶段、语言距离与性别因素 [page::15][page::25]

  • 技术含量较高的经济学及心理学领域研究者中,GenAI效应更显著。

- 早期职业研究者受益更多,可能因其资源和经验较为有限。
  • 非英语母语国家作者产出提升最大,提示GenAI减缓语言壁垒。

- 性别差异不明显,女性与男性研究者均获得生产力和质量提升。

鲜明的因子或量化策略总结 [page::6][page::9]

  • 本研报主要为实证文献,未构建量化投资因子或策略,无相关量化策略回测内容。


稳健性检验及政策建议 [page::16][page::17][page::18][page::19]

  • 通过调整关键词筛选阈值和用户识别严格度检验结果稳健。

- 采用不同匹配策略保证估计结果一致。
  • 建议科研机构和资助方保障高质量GenAI工具的公平获取,特别关注非英语国家研究者支持。

- 强调在提升效率的同时需关注伦理、透明度及学术诚信。

深度阅读

详尽分析报告:《Can GenAI Improve Academic Performance? Evidence from the Social and Behavioral Sciences》



---

1. 元数据与概览


  • 报告标题:《Can GenAI Improve Academic Performance? Evidence from the Social and Behavioral Sciences》

- 作者及机构:Dragan Filimonovic、Christian Rutzer、Conny Wunsch,分别隶属于瑞士巴塞尔大学商学院,德国CESifo,DIW柏林和IZA。
  • 发布日期:2025年10月6日

- 主题:报告关注生成式人工智能(Generative AI,简称GenAI)对社会科学及行为科学领域学术表现的影响,聚焦于个体科研人员的产出及质量改变。
  • 核心论点与结论

- GenAI的采纳与科研产出数量的显著增加相关,同时伴随适度的发表质量提升(以期刊影响因子衡量)。
- 效果在早期职业科研人员、技术复杂领域及非英语国家科研人员中尤为显著。
- 这一发现体现了GenAI对降低学术出版结构性障碍、促进科研包容性的潜力。

该报告通过详尽的数据和严谨的准实验设计,实证了GenAI可提升学术效率和质量的作用,且对政策制定有重要启示意义。[page::0]

---

2. 逐节深度解读



2.1 引言


  • 主要论述

- ChatGPT自2022年11月发布以来,迅速获得超过1亿用户,标志着GenAI进入大众化使用阶段。
- AI技术已影响劳动力市场结构,且有证据显示其广泛提高了生产率(文献如Brynjolfsson等2025)。
- 在科研领域,GenAI被用于写作、编程、数据分析和文献综述(Korinek 2023等)。
- 相关的语言学标记(如文章标题、摘要中的关键词)在生物医学、人工智能会议、预印本中被检测到显著上涨,反映出广泛采用的趋势。
  • 逻辑支撑

- 以上文字基于现有研究,说明GenAI的介入普遍且具体表现为语言层面的写作风格变化。
- 报告旨在填补缺乏个体层面系统量化影响的研究空白,利用Scopus数据构建作者面板数据,采用差异中的差异设计结合匹配,识别GenAI用户为行为指标。
  • 核心方法亮点

- 通过AI相关语言标记识别个体采纳情况,防止单一领域数据偏差。
- 使用疫情前后(2021-2022 vs 2023-2024)变化鉴别采纳效应,控制时间趋势。

该部分奠定了研究设计和意义基础,强调了技术扩散对科研生产力潜在变革。[page::1]

2.2 研究发现


  • 核心结果

- GenAI采纳显著提高科研产出(论文数量),且在语言非母语科研人员及早期职业研究者中提升幅度较大。
- 发表论文平均期刊影响因子适度上升,表明质量未随产量提升而下降。
- 这些发现意味着GenAI提升写作效率的同时能够保持甚至略微增加学术质量。
  • 和已有研究对比

- 与Hao et al. (2024)的横截面分析与Tang et al. (2025)的性别差异研究相比,本报告采用了个体面板追踪方法,更好控制异质性和时间特效,且严格区分GenAI工具类型。
- 前者未控制时间变化和领域差异,后者未基于个体采纳识别,均存在一定局限。
  • 创新点

- 利用面板数据跟踪变化,结合匹配技术降低选择偏差。
- 估计了GenAI的动态累积效应,实现个体内的因果推断。

通过文献回顾明确了研究的贡献和科学价值。[page::2]

2.3 相关文献背景


  • 学术技术演进回顾

- 互联网的兴起改变了科学产出,通过个体通信、信息检索提升发表效率(Barjak 2006、da Fonseca Pachi等2012、Xu & Reed 2021)。
- 早期辅助技术如Google Translate和Grammarly对语言障碍研究者有积极作用,但存在风险和限制(Mundt & Groves 2016, Abu Qub’a等2024)。
- 疫情下数字工具对科研女性产出分化的影响得到关注(Liu等2022)。
  • 语言不平等视角

- 英语主导全球科学,非母语者面临额外障碍,GenAI可能缓解部分不平等,但访问不均也可能加剧差距(Warschauer等2023,Prakash等2025)。

该部分为研究的社会意义和理论背景提供重要补充,强调了GenAI在语言平等方面的双刃剑性质。[page::3]

2.4 研究设计与数据


  • 数据来源:Scopus数据库,涵盖2021-2024年社会科学和心理学类同行评审论文。

- 样本构建:平衡面板—每个作者每年论文数、GenAI相关论文数、平均期刊影响因子(SJR,2019年固定值避免时间动态影响)。
  • 变量设计

- 作者信息包括国家、机构、学科分类、性别(通过姓名推断)、职业年龄(首次发表年数)。
- 只选包含发布过论文且跨2022年分界线的作者,确保数据的时序连贯。
  • 识别策略

- ChatGPT发布作为准自然实验时间点。
- 基于文献中定义的65条GenAI相关词汇词根,筛选其中2022-2024年增长超过200%的关键词作为采纳标记。
- 分析标题与摘要文字中这些关键词的占比,变化作为个体是否使用GenAI的判定依据。
  • 匹配方法

- 采用倾向得分最近邻匹配(1:3匹配),控制2021-2022期论文数量、期刊影响因子、职业年龄、性别、领域、英语熟练度对应国家等关键变量。
- 以减少选择偏差,增强用户和非用户群体的可比性。
  • 匹配效果

- 匹配后所有关键协变量差异显著缩小,平衡性大幅提高(标准均差降至0.04以下)。
- 说明匹配质量较好,为后续DiD估计奠定坚实基础。

这一部分详尽阐明了数据来源、样本筛选逻辑、关键变量定义及处理流程,为估计的准确性及可信度提供保障。[page::4-12]

2.5 模型设定与主结果


  • 模型

- 应用差异中的差异(DiD)模型,加入作者固定效应和年份固定效应。
- 核心设计是GenAI用户身份与年份互动,参考年为ChatGPT前的2022年,估计不同年份的边际效应。
- 结果变量为论文数和期刊影响因子经+1对数转换,方便解释和控制偏态。
  • 假设

- 关键是共性趋势假设——用户与非用户在无GenAI情况下应体现平行趋势。
- 通过动态DiD检查,未发现显著的预期趋势差异,增强识别有效性。
- 采用固定值期刊影响因子以减轻发表行为策略变化的干扰,不过仍对期刊选择潜在影响保持谨慎。[page::13]
  • 主结果

- 产出在2023年较非用户增长15%,2024年增长36%,显示明显的累积提升。
- 期刊影响因子提升虽小但显著:2023年增长1.3%,2024年2%,说明质量有所提升。
- 图2清晰展示这些动态系数及95%置信区间,时间上刻画出明显的“跳升”效应与持续动力。

这些结论展示了GenAI在量的扩张和质的提升中的双重作用,凸显其推动科研效率改善的潜力。[page::14]

2.6 异质性分析


  • 划分维度

- 领域技术密集度:经济学、心理学归入“技术密集”组,社会学归为“技术较少”组。
- 职业阶段:早期(≤7年)与晚期研究者。
- 性别:女性与男性。
- 英语距离:以国家为代理划分“英语母语国家”和“远离英语国家”。
  • 结果

- 所有子组均显示正向产出效应,技术密集领域和非英语母语国家收益最大。
- 早期职业科研人员产能提升更显著,可能因其资源限制更依赖自动化工具。
- 文献质量影响呈现异质性,非英语国家群体的质量提升最明显。
- 性别层面未见显著差异,表明GenAI的积极影响跨性别均衡。
  • 政策含义

- GenAI潜在促进群体差异缩小,尤其支持语言障碍和技术门槛较高的研究者群体。
- 建议在推广GenAI支持政策时考虑这些维度,精准发力。[page::15-25]

2.7 鲁棒性检验


  • 关键词筛选阈值

- 试验100%、200%(基础阈值)、500%三档关键词增幅过滤标准,结果稳健且相似,显示参数设定合理。
  • GenAI用户划分阈值

- 除了基线条件(任何正增长),也测试了5%,10%,15%分位切割,聚焦更强使用者。
- 样本缩小但效应保持稳定,表明关键信息不是极端使用频率带来的伪效应。
  • 匹配比例与方法

- 分别使用1:3、1:2和1:1匹配,结果方向和幅度保持一致,验证模型对匹配设置的稳健性。
  • 总结

- 多维检验显示结果不仅不依赖于具体样本划分和参数选择,且不太可能是文字风格变化或选择偏差的产物。

这些多重验证增强了研究因果推断的可信度,充分证明了文中主张的科学严谨性。[page::16-28]

2.8 结论与政策建议


  • GenAI明显提升了社会和行为科学领域的科研产出与质量,尤其从早期职业科学家、技术密集领域和非英语国家获得最大红利。

- 没有观察到产量与质量的明显折中,甚至呈现双向正向改进。
  • 研究承认限度:

- 关键词检测法存在漏检与误判风险,不包含非文本应用如代码/data分析辅助。
- 内生性偏差难以完全消除,例如对技术敏感性、开放性个性因素未能完全控管。
- 仅限社会行为科学领域,其他学科适用性需进一步验证。
- 长期均衡效应(如评审与编辑标准)尚未展开。
  • 政策建议:

- 需为具有最大潜力的群体,如非英语国家研究者,提供平等且高质量的GenAI工具访问与培训支持。
- 强调伦理问题,确保透明度、署名权和学术诚信的维护。
  • 未来研究方向:

- 集成机器学习与人工验证手段提升采纳识别准确性。
- 利用随机对照或机构政策变动探究更强因果关系。
- 拓展STEM等其他学科。
- 关注长期科研生态与出版体系的变化。

整体结论展现出GenAI在推动更包容、高效科学生态上的积极作用,为后续政策和学术追踪研究奠定了基础。[page::18-20]

---

3. 图表深度解读



3.1 图1(第8页):GenAI语言标识词选择及趋势


  • 描述

- 面板(a)展示“关键词2024年相对2021年使用频次变化”与“2021年基线出现频率”散点图。
- 选中关键词均满足频次增长>200%,以红点标记,黑色点为未选词。
- 面板(b)展示入选关键词2019至2024年逐年使用频率的时间序列趋势图。
- 纵线标示ChatGPT 2022年底发布。
  • 解读

- 关键词使用在2022年以前稳定,2023年后显著上升。
- 反映这些词汇快速扩散,符合GenAI技术推广的时间窗口。
- 确认筛选机制有效隔离了非相关语言变化。
  • 文本联系

- 该图支持关键词阈值选择合理,增加后续GenAI采纳检测的信度。



---

3.2 图2(第14页):GenAI使用对科研产出和质量的效应


  • 描述

- 两个面板分别显示基于DiD模型的年份交互系数估计,2022年为基准。
- 面板(a)为发表文章数量的对数(+1)效应,面板(b)为期刊影响因子的对数(+1)效应。
- 置信区间为95%。
  • 解读

- 产出于2023年见现增0.15,2024年增至0.36,对应15%-36%的提升,且趋势持续升高。
- 质量提升虽幅度小(1.3%-2%),但统计显著且有增长期趋势。
- 反映GenAI影响呈渐进式累积,且未引发质量贬损。
  • 文本联系

- 支持核心结论,即GenAI主要提升产量,同时兼顾提升发表质量,缓解了理论上产量与质量的矛盾。



---

3.3 图3(第23页):匹配前后协变量标准均差(SMD)


  • 描述

- 展示多个关键协变量(出版物数、影响因子、语言距离、性别、领域类别等)在匹配前后用户与非用户两组的标准均差。
- 前后两组分别以空心和实心圆点标识。
  • 解读

- 匹配前多项变量SMD超0.1甚至0.4,说明不均衡显著。
- 匹配后所有变量SMD均下降至0.04以下,远低于推荐阈值。
- 显示匹配成功明显改善组间可比性,减少混杂偏差。
  • 文本联系

- 显著提升了DiD设计的内部有效性,增强因果推断可信度。



---

3.4 表2(第11页):各领域作者描述性统计


  • 描述

- 按领域划分(经济学、心理学、社会学)列示样本描述,如职业年限、性别比例、英语熟练度、论文数及期刊影响因子均值和标准差。
  • 解读

- 心理学研究者职业年龄最长,英语母语者最多,期刊影响因子和发表量均高于其他领域。
- 经济学研究者性别比例女性偏低,平均发表量较低。
- 社会学分布居中,特点为英文非母语比例明显。
  • 意义

- 差异强调了不同领域在研究产能和语言禀赋上的异质性,符合报告后续异质性分析目的。

---

3.5 表3(第23页):匹配前后平均统计比较


  • 描述

- 按用户与非用户分类,报告2021年各协变量均值。
- 匹配前存在多项显著差异(如发表量差0.8-1.1篇、影响因子差异显著、英语母语差异显著等)。
- 匹配后差异大幅缩小,多数不再显著,表明显著均衡改善。
  • 意义

- 说明匹配过程有效控制了基线差异,提升了后续DiD估计的准确性。

---

3.6 表4(第24页):GenAI使用对产出与质量的具体效应估计


  • 描述

- 回归系数显示2023年与非用户相比,用户产出增加约0.149(经对数转换),质量提升约0.0126。
- 到2024年,产出效应增至0.361,质量提升至0.0202。
- 均达到高统计显著水平(p<0.01)。
  • 含义

- 具体量化了GenAI采纳后的效果强度,是全文最具力量的数值证据。

---

3.7 图4(第24页):未匹配样本中的效应估计对比


  • 解读

- 效应趋势与匹配样本类似,但在基线前后存在更明显的不平衡趋势。
- 侧面强调匹配步骤在消除潜在预趋势偏差中的作用。

---

3.8 表5(第25页):异质性效应估计详细数据


  • 主要发现

- 语言距离较远国家的用户产能、质量提升最大。
- 技术密集领域的产量和质量提升均显著高于低技术领域。
- 早期职业阶段科研人员受益更大,且性别差异不显著。

该表具体定量展示了多维异质性,使结论更具精细度和实用价值。

---

3.9 图5、6、7(第26-28页):鲁棒性检验结果


  • 关键词筛选阈值变化图(图5)

- 使用100%和500%阈值,产出和质量效应持续显著一致。
  • GenAI用户阈值变化图(图6)

- 从5%、10%、15%分位阈值划分用户,效应仍稳定。
  • 匹配方法变化图(图7)

- 1:1与1:2匹配中,效应方向和幅度稳健,验证模型稳定性。

这些图表完美体现了本文结果的可靠性和方法论的严谨设计。

---

4. 估值分析



本报告没有涉及传统的企业股票估值方法如DCF或P/E估值,其研究性质为实证经济学文献,重点在于估计技术采纳对科研产出绩效的影响,因此无估值分析栏目。

---

5. 风险因素评估



报告虽未显式设立风险章节,但在结论部分及讨论中提及若干潜在风险与限制:
  • 关键词检测法的准确性受限,存在误判和漏判风险,可能低估非文本形式GenAI应用。

- 选择性偏差虽用多种固定效应和匹配方法缓解,但个体时间变异特征仍可能引起残余偏差。
  • 研究范围仅限社会与行为科学,难以推广到其他学科。

- 产出和质量的长期影响尚未能观察到,存在审核标准和科研生态变迁风险。
  • 使用GenAI可能带来的伦理问题,包括作者署名及责任归属的不确定性。


报告建议未来研究结合更先进的检测手段和随机干预设计以强化因果推断,也强调政策制定时应结合伦理监管以防范潜在负面风险。[page::19]

---

6. 批判性视角与细微差别


  • 潜在偏差

- 依赖文本关键词法作为采纳标记不能完全涵盖科研中所有GenAI使用场景,如代码生成、数据分析或隐性辅助,导致某些类型采纳被遗漏。
- 职业年龄、性别及语言能力可能与未观察的接受GenAI的态度或技术熟练度相关,固定效应与匹配不能完全控制这类变化性内在因素。
- 期刊影响因子固定于2019年虽降低了时间变化波动,但无法完全排除发表策略调整引起的选择偏差。
  • 数据与样本选择局限

- 样本限定于发表论文的作者,忽视了未发文的潜在“沉默”群体及其技术采用情况,可能导致结果有选择性活跃者偏差。
- 英语距离由国家粗糙代理,无法精确反映个体语言能力和实际辅助需求。
  • 对结论需持谨慎乐观

- 现有数据显示质量略有提升,但未分析内容真实性、创新性或审稿人接受度的潜在变化。
- GenAI的社会扩散可能带来后续竞合环境和学科演变,报告未能涵盖这些长远影响。

总的来说,研究方法严谨且设计合理,但仍需警惕文中识别策略的内生性问题和外推局限,未来工作可通过多方法交叉验证减少这类风险。

---

7. 结论性综合



此次研究基于包含超过3万名作者的Scopus面板数据,利用差异中的差异的计量经济学框架及倾向得分匹配技术,严谨地估计了ChatGPT等生成式AI对社会和行为科学领域科研人员产出的影响。全文的核心发现包括:
  • GenAI采纳显著提升科研产出,2024年产出较2022年非用户提升36%。

- 发表论文的平均期刊影响因子也出现统计显著的小幅提升,表明质量未因产出提高而下降,甚至略有改善。
  • 早期职业科研人员、技术密集领域从GenAI工具中受益更为明显,且非英语国家背景的作者因语言协助效应获得更大提升,凸显技术对降低结构壁垒和提升科研包容性的作用。

- 性别差异不显著,表明GenAI使用在性别层面较为均衡。
  • 采用多重稳健性检验(关键词阈值、用户划定阈值、匹配算法等)保证结果的可信度和稳健性。


报告数据与图表清晰呈现了各关键环节,尤其图1验证了关键词选择逻辑的合理性,图2与表4量化了主要效应,图3和表3展示了严格的匹配流程改善样本均衡,图5-7表明多参数设置下模型稳健,表5揭示了丰富异质性及影响机制。

报告对技术推广的政策建议明确:鼓励学术机构为非英语背景研究者与早期学者提供GenAI工具访问与培训,并强调伦理监管平衡科技进步与学术诚信。其局限也坦诚指出,提示未来方向需拓展方法、领域和时间范围,强化因果识别并关注长期影响。

综上,本文为理解生成式AI在学术界的实际效能提供了实证标准,揭示了其不仅提高产出,更可能推动科研质量和公平性提升的潜能,具有重要的理论意义和政策价值。[page::0-28]

---

总结



本报告以严谨的计量方法、丰富的面板数据和详细的稳健性测试,科学地解答了生成式人工智能是否能提升学术表现的问题。数据显示,在社会和行为科学领域,GenAI技术促进了论文数量和质量的双重增长,尤其帮助早期职业、技术性强领域和非英语国家学者,这彰显AI技术在学术生态中的积极驱动作用。报告通过对数据的详实分析和图表的深入解读,呈现了GenAI应用的现实影响,为学术界、政策制定者及公众提供了有力的证据支持和未来研究方向的启示。

报告