`

People Are Highly Cooperative with Large Language Models, Especially When Communication Is Possible or Following Human Interaction

创建于 更新于

摘要

本研究通过两个实验考察人类在囚徒困境游戏中与大型语言模型(LLM)对手的合作行为。结果发现,尽管与LLM的合作率较人类对手低10-15个百分点,但依然较高;允许沟通显著提升了与人类及LLM的合作率,沟通对双方合作的提升幅度相近。此外,人类对LLM的合作意愿会在之前与人类合作后有所增强,体现了合作行为的溢出效应。该研究支持在具备合作成分的商业环境中审慎使用LLM,并为人机合作机制提供了重要理论和实践启示[page::1][page::11][page::15][page::18][page::21]。

速读内容


实验1:三轮囚徒困境游戏中不同对手的合作水平[page::7][page::8][page::9]


  • 参与者分别与人类、专用机器人(bot)、大型语言模型(LLM)进行30轮游戏。

- 合作率最高的是人类对手(72%),其次是机器人(59%),LLM最低(34%)。
  • 机器人表现相对宽容,易被利用;LLM策略较激进,初期占优但长期双方得分均较低。

- 首轮合作决策中,人类对手的合作意愿明显高于机器人和LLM,后者首轮合作无显著差异。
  • 受此前回合行为影响,后续合作率对不同对手呈现持续差异。


实验2:单轮囚徒困境游戏与预先沟通对合作意愿影响[page::11][page::12][page::14]


  • 192名参与者在沟通/无沟通和先后顺序(人-LLM或LLM-人)两因素设计下作单轮决策。

- 整体合作率随对手由人类变为LLM下降约12个百分点,但顺序效应显著:先与人类交互后LLM合作率提升。
  • 允许预先沟通显著提升对人类及LLM的合作率(提升约12个百分点),沟通对于两个对手的促进效应相当。

- LLM在各种条件下几乎总是选择合作,显示出对合作策略的自适应。

合作动机及行为差异分析[page::13][page::14]


  • 合作动机中,“公平”比“不占对方便宜”更强烈,且人类对手情景下动机表现更为明显。

- 缺乏沟通时,防御动机主导不合作行为;沟通后,对LLM的不合作更多基于“占便宜”动机。
  • 语义分析无法准确预测沟通文本中的合作或背弃意图,表明交流中谎言难以识别。


量化模型与实验设计亮点[page::27][page::29][page::30]

  • 实验1中采用了基于理想观察者模型和广义线性模型(GLM)等多模型框架,解析合作概率并动态调整对自身及对手机率的预期。

- LLM通过GPT-3.5及GPT-4驱动,设计了禁止使用“以牙还牙”策略的决策提示,提升决策多样性。
  • 实验2采用4组2x2设计(沟通×顺序),强控制设计保障因果推断质量。

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览


  • 报告标题:

People Are Highly Cooperative with Large Language Models, Especially When Communication Is Possible or Following Human Interaction
  • 作者: Paweł Niszczota, Tomasz Grzegorczyk, Alexander Pastukhov

- 发布机构:
- 波兹南经济与商业大学(Poznań University of Economics and Business),人类与人工智能实验室
- 班贝格大学(University of Bamberg)心理学与方法论系
  • 发布日期: 未明确,但基于引用时间,是2023年底至2024年期间完成的研究。

- 主题领域:
人工智能(特别是大型语言模型,LLMs)与人类合作行为研究,通过经济行为游戏“囚徒困境”分析人类与LLMs的合作倾向及影响因素。

核心论点总结:
本研究通过“囚徒困境”这一社会困境经济模型,考察人们在面对人类、传统机器人、和LLM三种类型的对手时的合作行为差异。研究重点在于:
  • 尽管与人类对手相比,人们对LLM的合作率低约10-15个百分点,但仍表现出较高合作意向,尤其在预先允许沟通时合作率显著提升(约88%提升);

- 交流沟通对增强合作率有显著效果,且这一效果在人类与LLM对手间相似;
  • 与人类先行交互后,面对LLM时表现出更高的合作意愿,体现了合作行为的潜在“溢出”效应。


这指出人类对基于LLM的智能代理持较为高度的合作态度,特别是在有沟通或有人类交互背景时,为商业环境中引入LLM辅助合作提供了验证。[page::0, page::1]

---

2. 逐节深度解读



2.1 引言(Introduction)


  • 关键点

介绍LLM自2022年以来的爆炸式发展及其广泛影响,强调研究人类与LLM互动不同于人类之间互动的必要性。囚徒困境游戏被选作试验模型,用来模拟现实中合作与背叛的冲突。解释传统观点认为合作是社会规范,而面对机器时,因缺少情感和责任认同,背叛的心理成本可能降低。
LLM由于具备自然语言交流能力,其“人类化”特征使社会合作规范可能更具适用性,这成为本文研究的核心动力。
  • 逻辑支撑

基于Fehr与Schurtenberger(2018)的社会规范理论,机器因缺乏情感和惩罚机制,可能降低人类面临的合作约束。同时,交流被视为促进合作的关键机制,而传统机器不具备有效交流能力,LLM则可能改变这一局面。研究希望量化这一改变程度。
  • 关键假设

LLM的类人交流能力能缩减人类与机器之间的合作差距,即人们在面对具备“类人”行为表现的LLM时,更倾向合作。[page::2]

2.2 文献综述(Related Literature)


  • 合作价值

文献广泛表明LLM即使作为工具集成到人力流程中,也能显著提升业务生产力(如提升15%业绩,低经验员工收益高达30%)和决策质量(促进系统2的理性分析,减少偏见),并在市场营销、客户服务等方面表现出积极协同效果。人机协作被证实优于纯人力操作,形成“锯齿形技术前沿”,彼此优势互补。
  • 合作难点

信任缺失为人机协作最大阻碍,信任受透明度、连贯性和拟人化影响,复杂的“黑箱”AI系统透明度不足易削弱合作信心。同时,社会规范如公平和负责任因缺乏拟人特质,在人机互动中难以完全施展。拟人化属性的加入(通过情感表达、幽默等)可能提升合作倾向。
  • 研究差距

过去研究多聚焦人机交互的“机器人”或非LLM AI,缺少详细比较人类与具备自然语言交流能力的LLM对手间合作差异的实证研究。本文即弥补该差距。 [page::4, page::5, page::6]

2.3 实验1:重复囚徒困境(Experiment 1)


  • 设计

100名参与者进行30轮重复囚徒困境游戏,分别面对3种对手:真人、人形机器人程序(bot),及LLM(GPT模型)。LLM对手允许文本交流,支持参与者体验其人性化特点。
  • 结果

- 总体合作比例最高为真人(72%),其次为bot(59%),最低为LLM(34%),呈明显阶梯式降低趋势。
- 策略差异显著:bot表现宽厚,易被利用;LLM采取激进策略,早期屡屡背叛使人被压制,约第15轮后人们调整适应。
- 参与者首轮合作更倾向真人,对机器对手无显著区分,显示初始预设中LLM的类人交流未起到明显提升合作作用。
- 后续轮次合作率下降趋势持续,尤其对LLM更低,受制于机器策略及心理防御机制。
  • 分析模型

应用二项式广义线性模型(GLM)和理想观察者模型,探究玩家合作决策受其及对手前轮决策影响以及回合数的动态作用。发现参与者根据对手反馈调整合作意愿,尤其识别并应对LLM的激进策略。[page::6, page::7, page::8, page::9]

2.4 实验2:单轮囚徒困境与沟通影响(Experiment 2)


  • 设计

192名参与者参加单轮囚徒困境,对手为真人或LLM,设置2x2实验设计(可沟通/不可沟通;对手出现顺序人→LLM或LLM→人)。允许沟通组可在游戏前限时交流,模拟现实中协作前磋商情景。
  • 结果

- 重现实验1核心发现:总体上与真人对手合作概率高于LLM(约高12%),尤其当对手先为LLM时差异显著。
- 允许沟通显著提升合作率,且沟通带来的合作提升在人类及LLM对手间幅度相当(均提升约88%合作可能性),但沟通并未完全消除合作差距。
- 阅后参与者动机调查显示,人们与真人合作更多基于公平、公正原则,而与LLM合作则更多关注避免占便宜。非合作时,针对真人主要为防御,而针对LLM则多倾向于“利用”机器,显示情感及责任归属意识影响。
- 参与者交流文本中无法有效预测其最终合作或背叛行为,表明言语内容与实际策略存在一定脱节。
  • 逻辑解读

沟通被证实促使合作生效的关键推动力,其效果对人机无差异,体现了LLM自然语言沟通的力量,但人们认知上仍未将LLM视作完全等同人类的合作伙伴。此外,交互顺序体现潜在心理效应——先与人类合作“暖身”有助促进后续与LLM合作。[page::10, page::11, page::12, page::13, page::14]

---

3. 图表深度解读



3.1 图1(实验1合作率与累计积分趋势)


  • 描述:

图1A显示三类对手中,参与者在30轮游戏中的平均合作率变化趋势;图1B展现参与者及对手的累计积分走势(bot和LLM两类机器分别展示)。
  • 趋势解读:

- 合作率顺序为:人类(约72%-稳定) > bot(约59%,逐渐降低) > LLM(约34%,急速降低),显示该差异随着游戏进展逐步放大。
- Bot表现宽厚,允许参与者利用使玩家积分领先;LLM策略激进,初期压制玩家积分,玩家后期调整适应,双方积分接近但皆低于完全合作理想线。
- 展示了机器策略多样性对人机合作行为的显著影响。
  • 数据溯源与限制:

- 参与者与LLM预先非任务相关对话未有效促使初轮合作率提高,暗示短期对话的拟人作用有限。
- 累计积分差异反映机器策略造成的互惠合作稳定性差异,提示机器伙伴设计对合作绩效影响关键。
  • 图示引用:

[page::8]

3.2 图2(实验2不同条件下合作概率)


  • 描述:

细分为4个象限,左右分对手出场顺序,上下分沟通条件,展示不同组合下参与者对人类及LLM对手的合作率平均值及置信区间。
  • 趋势解读:

- 人类对手合作率普遍高于LLM,尤其在LLM先出现且无沟通时差异显著。
- 沟通在两种对手间均促使合作率显著提升,且提升幅度相当。
- 当人类先出场时,合作差异缩小,暗示交流顺序产生较大心理影响。
  • 图示引用:

[page::12]

3.3 图3(实验2参与者合作与背叛动机调查)


  • 描述:

利用贝叶斯有序Logit模型展示合作与背叛时针对“公平”“不占便宜”“防御”“占便宜”四类动机的平均响应水平分布,区分沟通条件及对手类型。
  • 趋势解读:

- 合作时,“公平”动机普遍高于“不占便宜”,且对人类对手更重要。沟通增强了双方动机,限制中对LLM提升更显著。
- 背叛时,在无沟通条件下“防御”动机高于“占便宜”,且对手类型差异不显著;有沟通时,对LLM背叛更多基于“占便宜”,对人类仍以“防御”为主。
- 反映沟通强化了不同对手间道德动机权重的细微差异,暗示人们对LLM持不同心理态度。
  • 图示引用:

[page::14]

---

4. 估值分析



本文非典型企业估值类研究,未涉及财务估值模型,但在合作效率和行为经济学层面,隐含对商业应用场景中“人机协同效应”的价值讨论:
  • 实验数据表明,允许沟通、先人后机的交互顺序均是增强合作(即提高社会福利)和降低冲突成本的关键变量。

- 结合文献,作者隐含估计LLM在人机混合协作体系中潜在的“合作收益溢价”,即相较于传统机器人,LLM增加了合作的可能性,进而提高整体业务绩效和效率。

因此,报告建议商业机构可将“促进人机通信和交互顺序管理”视作提升人机合作“估值”的策略输入,进而优化AI辅助系统的部署和设计。[page::4, page::5, page::18]

---

5. 风险因素评估


  • 信任与透明性不足:LLM作为“黑箱”模型,会削弱用户信任感,限制合作意愿,尤其在策略不透明时更甚。

- 责任感缺失与拟人化不足:LLM缺乏真实的责任意识,用户更可能对其展开剥削,减少合作刺激。
  • 利用偏见与阴影交易:人们可能利用LLM作为“道德缓冲”,规避责任,从而增加对LLM的非合作行为风险。

- 沟通内容不足或沟通时长短:当前实验沟通期短暂,缺少情感及个性化交流,限制了拟人化的潜力释放。
  • 机型局限与模型异质性:仅使用GPT模型,其他LLM是否表现一致尚待考证。


风险缓解建议包括引入解释性AI(XAI)、增强LLM的伦理指令和情感模拟、融合人机混合策略及透明披露系统功能,提升用户对AI系统的信任与责任感。[page::6, page::16, page::17, page::18, page::19]

---

6. 批判性视角与细微差别


  • 研究未观测明确规定LLM策略,存在模型行为不确定性的潜在偏差。

- 实验1中LLM因策略主动凶猛,可能加剧玩家非合作行为,是否反映实际应用中LLM的策略设计尚未定论。
  • 预游戏沟通虽有利合作,但内容与游戏决策脱节,沟通质量和策略尚需深入解析。

- 实验仅限于囚徒困境社会困境,结论能否泛化至更多经济博弈场景尚需验证。
  • 交互序列效应令人关注,但“暖机”效应是否长期存在未知,未来研究需要纵向考察。

- 报告在强调LLM合作潜力的同时,谨慎指出其合作率始终低于人类,提醒实际应用需平衡期望与风险。[page::9, page::16, page::20]

---

7. 结论性综合



本报告基于两项实证实验,首次系统地比较了人类对LLM和人类对手合作行为,结合社会规范理论与经济博弈论,得出如下深刻见解:
  • 合作率水平较高但仍有差异:尽管人们在囚徒困境游戏中,面对LLM与人类对手时合作率有10-15个百分点差距,绝大多数人依然表现出显著合作倾向。这种现象充分体现人类对LLM存在一定的社会规范认同,尤其在弱化经济利己激励的单轮博弈中亦然。

- 沟通显著提升合作,但不会消除差距:允许在博弈前进行有限的沟通,显著增加了合作概率(增加近88%),且此提升在人类与LLM对手中无显著差异,显示自然语言交互极大增强了人机间的合作潜力。
  • 交互顺序存在溢出效应:先与人类对手互动能提升随后的与LLM合作率,暗示合作心理与态度有跨对象传递性,企业可通过混合模式设计优化人机协同体验。

- 策略差异及心理动机细节揭示合作复杂性:LLM采用较为激进策略促进玩家防御性反应,且针对LLM的非合作理由更多基于“利用”而非“防御”,这反映了用户对机器责任感与道德感的异质认知。
  • 商业实践建议:基于以上发现,企业应注重整合交流功能、透明及人性化设计,结合道德规范及责任追踪机制,提高用户信任与合作,同时注意不同业务流程中人机交互的顺序和方式设计。


重要图表启示


  • 图1明确展示了人类对LLM合作率显著下降的量化差距,及机器对策略不同所造成的游戏结果。

- 图2突出了沟通介入和交互顺序的关键影响,阐明了沟通虽增加合作但未消除人机差距的现实情况。
  • 图3深度揭示了合作与背叛动机的心理基础差异,说明了人类对机器和人类对象合作背后的不同社会心理机制。


整体看,这份研究在激发对LLM作为业务辅助主体潜在合作效用的信心的同时,也倡导对其应用时潜藏风险的审慎态度,是对当下人机合作研究领域极具价值的贡献。[page::1, page::8, page::12, page::14, page::15, page::18, page::21]

---

总结



本报告以严谨的实验设计和多维数据分析,系统解构了人类在面对LLM时合作行为的态度与动力机制,并验证沟通和交互顺序对合作的促进作用。其对LLM商业应用中人机协同效益的实际价值具有关键指示意义,同时也揭示了信任、责任感等影响合作的深层心理风险。对于未来LLM更好融入复杂人类工作和社会互动场景,具有重要的理论和实践参考价值。

报告