`

Financial Stability Implications of Generative AI: Taming the Animal Spirits

创建于 更新于

摘要

本文通过实验室风格的实验,利用大语言模型复制经典股市羊群行为研究,发现AI代理相比人类展示更为理性的交易决策,表现出更强的私人信息依赖而非跟随市场趋势,减少了价格泡沫的形成。优化引导的AI代理会在特定情况下做出理性羊群行为,但仍可能对金融稳定构成影响。此外,AI决策并非完全面向逻辑,带有一定人类偏见,提示大量AI使用对金融市场稳定性的复杂影响,是理解AI对未来金融风险的重要微观基础研究[page::0][page::4][page::5][page::28]

速读内容


研究背景与动机 [page::1][page::2]

  • 人类非理性行为(动物精神)是金融脆弱性和价格泡沫形成的关键因素,历经郁金香狂热、2008年金融危机等案例。

- 生成式AI作为新兴参与者,其是理性算法还是会继承并放大人类偏见,影响金融稳定的角色尚未定论。

实验设计与方法 [page::4][page::8][page::14]

  • 基于Cipriani和Guarino(2009)使用金融专业人士的羊群行为实验模型,采用Avery和Zemsky(1998)理论,构建包含三个交易情景(Treatment I-III)的实验。

- 使用四种大型语言模型(Anthropic Claude 3.5/3.7、Meta Llama 3、Amazon Nova Pro),替代人类参与者进行决策对比。
  • 系统提示与用户提示高度模拟真实人类实验流程,支持模型记忆历史交易信息。


AI与人类交易行为比较及理性表现 [page::16][page::17][page::21]


| 行为类型 | 人类(Treatment I) | AI基线(Treatment I) | AI最优引导(Treatment II) |
|-------------|-----------------|-----------------|-----------------------|
| 理性行为比例 | 46%-51% | 61%-97% | 97%-100% |
| 羊群行为比例 | 存在约20% | <10%,多为反向交易 | 47%(理性引导下) |
| 错误决策比例 | 3.4% | 0% | 0% |
  • AI模型决策更依赖私人信号,减少传统人类投资者常见的非理性跟风[page::16][page::17][page::21]


AI代理的决策推理分析 [page::18][page::19][page::20]

  • Claude 3.7模型在95%以上的决策中基于价格和资产基本面预期作判断,但约三分之一不充分考虑交易历史导致部分次优决策。

- Llama 3表现更有人类判断色彩,包括对交易历史与市场趋势的更大关注,情感色彩评分明显高于其他模型。
  • 主题分析显示大多数模型围绕基于信号与价格的理性判断展开,Llama 3更多体现“认为”“相信”等主观词汇。


最优AI与基线AI的差异及风险隐患 [page::21]

  • 给LLM明确最优行为指引显著提升理性群聚交易(47.43%对比基线0%)。

- 最优引导AI存在部分非最优羊群与反向交易,暗示模型微调带来的复杂稳定性问题。
  • 最优AI期望收益明显高于基线AI,特别在事件不确定性场景下收益优势显著。


实验变体与AI偏见发现 [page::22][page::23][page::26]

  • 颜色信号编码改变(绿色/红色与红色/绿色)测试表明AI不是纯算法机器,部分模型受人类色彩认知偏见影响显著,导致大量错误决策和羊群交易增加。

- AI代理的行为对不同角色人格设定不敏感,表明当前模型对赋予个性化特征响应有限。
  • 支付结构和实验长度扩展对AI决策无显著影响。


金融稳定影响与展望 [page::26][page::27][page::28]

  • AI降低了羊群效应,可能缓解极端价格波动和资产泡沫,提升市场稳定性。

- 最优AI羊群行为增强市场纪律,加快价格发现,但可能引起剧烈波动,增加短期系统风险。
  • AI非纯理性特性及人类和AI行为混合会为市场监管和风险管理带来新挑战,需进一步研究AI在金融系统中的长期影响。




经典实验流程图:三种Treatment交易顺序 [page::34][page::35][page::36]

  • 設計框架覆盖无事件不确定性(I), 存在事件不确定性(II),无价格更新(III)

- AI代理和人类均在这三个实验设计中执行多个交易轮次





价格动态对比:AI实验中价格随交易轮次变化走势 [page::37]

  • 无事件不确定性下价格偏离50基准价幅度较大,呈现价格校正趋势。

- 存在事件不确定性时价格较为稳定,围绕50波动。



AI代理推理主题词云 [page::38]

  • 体现AI理性基于信号权衡价格与预期基本面关系的推断

- Llama 3模型推理包含大量主观词汇如“相信”、“可能”“认为”,表现出更强人类化倾向



实验主结果概览:理性与部分理性决策比例 [page::39][page::40]

  • AI基线模型在三种Treatment中理性与部分理性决策均明显优于人类。

- 最优AI模型下Treatment II(事件不确定性)与Treatment III(无价格更新)中大量理性羊群行为出现。
  • 逆转色彩信号极大削弱AI理性表现,尤其部分模型发生大量错误决策。





AI实验核心交易行为数据表格摘录 [page::41][page::42][page::46][page::47]


| 行为类型 | Treatment I AI Baseline | Treatment II AI Baseline | Treatment II Optimal AI | Treatment III AI Baseline | Treatment III Optimal AI |
|-------------|----------------------|-----------------------|-----------------------|-------------------------|-------------------------|
| 理性 | 61.0% | 97.36% | 18.65% | 99.65% | 51.05% |
| 部分理性 | 29.48% | 2.64% | 21.88% | 0.16% | 0.0% |
| 羊群交易 | 9.42% | 0.0% | 59.48% | 0.0% | 48.95% |
| 最优羊群 | 0.0% | 0.0% | 47.43% | 0.0% | 44.36% |
| 次优羊群 | 0.0% | 0.0% | 0.0% | 0.0% | 4.01% |
| 错误决策 | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
  • AI代理拒绝羊群交易导致基线模型无次优羊群行为,但也忽略部分最优羊群机会[page::16][page::21][page::47]


AI代理偏见与信号色彩实验结果摘要 [page::49][page::50]


| 信号编码 | Rational比例 Treatment I | Error比例 Treatment I | Herding比例 Treatment II |
|----------------------|------------------------|---------------------|-------------------------|
| 绿色(好)-红色(坏) | 54.83% | 0% | 0% |
| 红色(好)-绿色(坏) | 20.23% | 25.20% | 12.5% |
  • 逆转红绿信号导致AI出现大量错误决策和羊群交易,表明AI受人类条件反射和偏见影响。

- 颜色信号实验验证AI决策并非完美理性,存在被编码标签影响的非理性风险。

结论与政策启示 [page::26][page::27][page::28]

  • AI降低了羊群行为倾向,有望提高金融市场稳定性,减少泡沫风险。

- 优化AI模型可能加速价格发现,但增加短期波动和市场风险。
  • AI嵌入金融市场使传统基于情绪的市场情绪测度失效,监管需创新方法应对新风险。


深度阅读

深度分析报告:《Financial Stability Implications of Generative AI: Taming the Animal Spirits》



---

1. 元数据与概览



标题: Financial Stability Implications of Generative AI: Taming the Animal Spirits
作者: Anne Lundgaard Hansen 和 Seung Jung Lee
发布机构: 美国联邦储备系统(Board of Governors of the Federal Reserve System)及联邦储备银行里士满分行(Federal Reserve Bank of Richmond)
发布日期: 2025年10月3日
主题: 以生成式人工智能(Generative AI)对金融稳定性的影响为核心,重点研究AI在金融市场中的决策行为特别是羊群效应(herd behavior)的表现及其后果。

核心论点总结:
报告通过实验室风格的实验,将大型语言模型(LLMs)替代人类金融专业人士的交易决策,深入剖析生成式AI在金融市场中羊群效应行为及其对金融稳定性的潜在影响。研究发现,AI代理体相较于人类更具理性,更依赖私人信息而非市场趋势,因而可能减少由羊群效应产生的资产泡沫,同时探索在不同实验设置下AI表现出的偏向和非纯粹算法性质。报告最后指出,尽管AI或许会减少非理性行为带来的金融不稳定,但其行为的复杂性和潜在风险仍需持续研究与监管关注。[page::0,1,4-5,28]

---

2. 逐节深度解读



2.1 引言(Introduction)


报告从凯恩斯“动物精神”(animal spirits)理论出发,强调人类非理性与乐观预期常驱动金融市场中的泡沫与危机。随着生成式AI的兴起,金融领域广泛引入AI辅助甚至自主决策,文中提出两种互斥假设:(1)AI的算法理性会减弱动物精神对市场的负面影响,提升稳定性;(2)AI可能继承并放大人类的偏差与非理性,甚至增强市场波动和金融危机风险。作者指出目前净效应尚不明确,因此需实验验证。[page::1,2]

2.2 研究重点:羊群行为与金融稳定(Herding and financial stability)


羊群行为是指投资者忽视自身私人信息,模仿其他投资者,导致资产价格偏离基本面,产生泡沫和风险。文中区分“最佳(optimal)羊群”与“次优(suboptimal)羊群”:前者指基于理性信息模仿,有助于价格发现但可能增加短期波动;后者源自认知偏差,容易引发恐慌和流动性枯竭。报告用图示(图1)总结该分类及对应对金融稳定的影响,指出抑制次优羊群需改善信息透明和激励机制,而优化最佳羊群则更为复杂。[page::6-8,33]

2.3 理论模型与实验设计


报告依据Avery和Zemsky (1998)模型及Cipriani和Guarino (2009)的经典实验,构建包含有限交易者、离散时间的资产市场。资产基本价值0或100,交易者可能获得噪音或私人信号(信号准确率70%)。价格由市场做市商根据贝叶斯原理更新。
实验设有三套参数:(1)Treatment I无事件不确定性且所有交易者均知情,理应无羊群行为,全部依据私人信号交易;(2)Treatment II含事件发生不确定与部分知情交易者,允许理性羊群行为;(3)Treatment III无价格更新,羊群依交易偏差形成,集中于次优羊群研究。
模型将交易者行为分为理性、部分理性、羊群(顺势或逆势)、不交易及错误五大类,并定义了羊群的判断标准及最优与非最优交易策略。[page::8-12]

2.4 人类实验室复现及AI实验室构建


人类实验由32名伦敦金融专业人士参与,完成多轮交易,配合上述Treatments,记录其决策行为。AI实验室则将人类参与者替换为四款LLM(Anthropic的Claude 3.5及3.7、Meta的Llama 3和Amazon的Nova Pro),模拟同样交易环境,模型调用带有记忆机制(完整交易历史及之前决策原因),使AI能参考全局信息做出决策。
不同于人类,AI无须练习阶段,也采用系统和用户双Prompt指导交易,后者包括当前信号、价格、历史交易、是否被选中以及自身过往决策及原因,确保AI基于全面信息做出反应。实验条件严格复制原人类设置,随机种子统一保证决策一致性。[page::12-15]

---

3. 图表深度解读



图1:羊群行为与金融稳定的关系图


描述了两类羊群行为(最优与次优)及其对金融稳定的不同影响。最优羊群因理性模仿迅速修正价格,揭示市场风暴前的风险,但导致价格剧烈波动;次优羊群则通过噪声放大引发恐慌和流动性危机,造成系统性风险。图形清晰展示了“动物精神”可能以不同形式影响市场,帮助理解后续实验中AI如何改变这两种羊群行为。[page::33]


图2:各Treatment实验流程图(I, II, III)


展示每个Treatment中交易决策的顺序,包括资产价值抽取、信号观察、交易选择和价格更新等步骤。该流程图有助理解实验框架下交易者如何逐步形成决策及反馈,体现模型设定差异,尤其是Treatment II的价格更新方式和信息事件不确定性,提供理解AI和人类行为对比的实验背景。[page::34-36]




图3:Price Dynamics


显示两种Treatment下(I无事件不确定性及II有事件不确定性)的平均价格轨迹。
  • Treatment I中价格显著偏离初始值50,部分实验趋近极端值(0或75),体现理性交易者用私人信息逐步反映真实资产价值;

- Treatment II中价格多数时间徘徊于接近50,反映市场做市商由于事件不确定性而保守调整价格,压缩价格波动。
这一对比体现Pricing Mechanism对市场动态的关键作用,支持后续分析AI决策对价格路径影响的可视化验证。[page::37]


图4:LDA主题词云


基于LLMs给出的决策理由文本做主题建模,区分三大主题:
  • 主题0和主题1分别聚焦于白/蓝信号对应的资产估值与价格对比逻辑,词语多为“expected,”“price,”“asset”等;

- 主题2包含“think,”“believe”等主观性较强的词汇,呈现较多推测和判断成分。
尤其Llama 3模型的解释文本几乎全部聚类于主题2,表现其可能运用更多主观情绪或判断,这与其他模型更理性、数值驱动的理由区分明显。[page::38]


图5:各Treatment下AI与人类理性及部分理性决策比例对比

  • AI在Treatment I和II中理性及部分理性决策显著高于人类,特别是Treatment II理性决策率达97%,人类仅约51%;

- Optimal AI调优版本中,AI理性有下降,部分理性减少,表明更多机会下AI参与羊群行为;
  • 信号标签重新编码(“红”代表好、绿代表坏等)实验中表现多样,表明AI受人类偏见影响。

整体图示突出报告论点:AI较人类更理性但非完全理性,存在对羊群行为的“厌恶”,不同编码强烈影响决策结果。[page::39-40]



---

4. 估值分析



报告无传统企业估值分析,重点在基于贝叶斯更新的资产定价机制(由市场做市商设定价格$pt$,作为资产价值的条件期望$\mathbb{E}[v|ht]$),其反映和反馈了私人信号及交易历史影响。AI代理体的行为从理性买卖信号,到忽略历史导致的逆势买卖(contrarian),到羊群效应,都对价格形成路径产生影响。价格动态(图3)体现了交易行为的市场反馈,间接反映了AI代理与人类交易行为的差异对估值稳定性的作用。
此外,“optimal herding”机制揭示了在特定信息不对称和市场做市商价格调整下,羊群行为可能是利润最大化的理性选择,具有“内生性”的效率含义,但也可能引发系统风险。[page::8-12,16-18,21-22]

---

5. 风险因素评估



报告识别的风险因素主要包括:
  • AI继承与放大人类偏差:实验发现当信号标签与人类直觉不符(如“红色代表好”),AI决策出现大量错误,且某些模型(如Llama 3)对信号色彩极大敏感,表明AI不仅是逻辑工具,还继承了人类“动物精神”及偏见。

- AI决策“厌恶羊群”可能带来的市场变化:AI避免羊群行为可能降低泡沫风险,但若大规模市场主体行为趋同,会改变市场流动性结构,可能增加短期波动。
  • 调优行为的副作用:尝试将AI提示为“最优决策”虽增加理性羊群,但同时带来更多较少预期的次优决策,可能导致新的金融稳定风险。

- AI与人类交互复杂性:人机混合交易环境可能产生难以预测的市场动态,可能放大或抑制市场波动,现有监管框架缺乏对应工具。
  • 市场情绪测度难题:AI参与将削弱传统基于人类情绪的市场情绪指标的有效性,需要开发新的情绪及风险监测工具。


报告建议,监管需密切关注AI技术引入后市场行为的新特征,探索AI特定压力测试和监控机制。[page::5,26-28]

---

6. 批判性视角与细节点评


  • 实验环境与现实市场差异: 纸上实验尽管模拟了金融专业人士交易环境,但最初模型简化且受限于具体设定,未涵盖复杂的市场互动、多资产、多策略环境,部分结论的外推需慎重。

- AI模型差异显著: Claude系列与Llama、Nova表现存在明显差异,说明不同模型设计、训练数据及推理策略对行为影响甚大,AI行为非同质。
  • 对人类偏差的继承提醒谨慎: AI并非纯粹理性算法,存在对非理性因素的“学习”与复制,这带来更多不确定性,且生成式AI的不断迭代更新可能导致行为模式不可控。

- 优化指导潜藏风险: 指导AI“最优决策”未必能全局优化市场稳定,有可能导致新的次优行为,着眼点需扩大至系统性视角。
  • 监管与技术发展需同步: 报告反复强调市场监管需与AI技术进步并行,尤其面对AI引发的新形式的市场动态和风险,并呼吁继续深入跨学科研究以应对未知风险。


整体而言,报告分析深刻,数据翔实,但承认当前研究仍为初步探索,强调未来工作和监管策略的重要性。[page::21,26-28,64-65]

---

7. 结论性综合



本研究以经典羊群行为实验为蓝本,创新运用四款大型语言模型再现人类金融专业人士的交易决策,首次揭示生成式AI在金融决策中行为的多维面貌。关键发现与意义如下:
  • AI代理体现更强理性决策:AI依赖私人信息的概率显著高于人类,理性与部分理性决策累计达90%以上,超越人类约65%的表现,且AI几乎无错误决策,表明AI能够有效减少次优羊群与非理性行为(表1,图5)。

- 羊群行为显著减少且倾向逆势而非随势:AI决策中信息级联出现比例远低于人类,且多表现为逆势(contrarian)决策,显示生成式AI对羊群效应的“厌恶”,为金融市场提供更稳定的微观基础(表1)。
  • AI忽视价格更新中隐含信息:大多数AI模型未能充分利用交易历史来估计资产价值,导致部分决策非最优,解释了部分逆势行为,这反映出AI虽理性但尚未完美,存在盲点(6.4节详细AI推理分析,表2)。

- 输入信号标记对AI行为影响显著:当信号颜色编码与人类自然偏见不符时(如“红=好”),AI表现混乱,甚至出现大量错误,强调AI继承和受限于人类经验与知识,使市场风险呈现出新复杂性(表6,7.1节)。
  • 最优AI行为指导提升收益但伴次优交易:通过在Prompt中加入理论最优羊群规则指导,AI更频繁地采用最优羊群行为,收益显著提升,然同时带来一定的次优羊群交易,表明优化过程复杂且需警惕可能的金融稳定风险(表4,5)。

- 人格化设定对AI决策影响有限:输入多样化人格特征未实质改变AI决策模式,表明当前LLM对自我特征理解有限,行为仍高度依赖基础训练与Prompt设计(表10)。
  • 价格变动轨迹呈现基于决策不同的动态差异:AI与人类决策差异映射到价格动态上,AI价格变动趋于稳健而人类市场更易产生极端波动,体现生成式AI具备潜在稳定市场的微观机制(图3)。

- 未来监管挑战与研究方向:AI非完美理性,且行为随技术进步变化,立法和监管需要开发AI专属市场监控和压力测试工具,考虑人机混合市场中复杂风险传导机制,深化AI与行为金融交叉研究。

综上,生成式AI交易决策倾向抑制非理性羊群行为,有望减少金融市场的极端波动与泡沫,但同时其“混合理性”特质及优化导向不确定性也可能引发新型金融风险。报告为金融市场AI应用提出重要理论与实证基础,呼吁政策制定者重视AI技术进步对金融稳定性的双刃剑效应。[page::0-6,16-22,26-28,33-40,41-50]

---

参考关键表格与图示链接


  • 表1:AI与人类在三种Treatment下的行为分布对比

- 表2:AI理由文本分析(情绪成分、是否参考交易历史等)
  • 表4:引导最优行为的AI代理交易表现

- 表5:AI与最优AI的预期收益对比
  • 表6:信号颜色编码变动对AI交易行为的影响

- 图1–5详见上述图表解读段落

---

(此分析基于完整文档第0至69页内容,引用示例:[page::12],[page::16],[page::33],[page::39]等)

报告