Evaluating and Aligning Human Economic Risk Preferences in LLMs
创建于 更新于
摘要
本报告针对大型语言模型(LLMs)在个体风险偏好识别与经济决策中的理性表现进行系统评估。通过设计三种任务逐步加深复杂度,检验模型是否能准确反映个人画像的风险偏好及其经济合理性,并提出风险差异评分(RDS)作为量化指标。鉴于复杂任务中模型表现下降,报告进一步探索了当前有效的对齐方法——直接偏好优化(DPO)与上下文学习(ICL),实验证明DPO显著提升了模型对损失相关风险偏好的识别能力,且促进更合理的资产配置策略生成,为行为经济学中基于个性化风险的AI决策提供新视角[page::0][page::1][page::4][page::6][page::7]。
速读内容
LLMs风险偏好识别的三阶段评估框架 [page::0][page::1]

- 三项任务涵盖:风险偏好分类、股票/债券投资模拟、基于前景理论的复杂决策分析。
- 设计的风险差异评分(RDS)用于量化模型是否反映不同人格画像的风险差异。
- 数据集包含400个多样化用户画像,体现多维人口统计属性。
评估结果揭示LLMs在复杂经济决策中的局限性 [page::3]
| 模型 | 任务1识别准确率 | 任务2风险投资准确率 | 任务3基于前景理论参数(α) | 任务3基于前景理论参数(β) |
|---------------------|-----------------|---------------------|--------------------------|--------------------------|
| Llama3-8B-Instruct | 88.46% | 83.23% | 32.03% | 51.62% |
| OLMo-2-7B-Instruct | 86.73% | 55.98% | 60.36% | 43.88% |
| Qwen2.5-7B-Instruct | 65.48% | 52.62% | 19.18% | 39.80% |
- LLMs在简单任务(偏好分类、投资分配)表现较好,但在复杂、基于前景理论的任务中准确率大幅下降。
- 模型表现下降明显反映了其对细粒度风险感知与经济理性的不足。
量化风险偏好对齐方法:DPO与ICL的对比分析 [page::5][page::6]
| Alignment Method | Llama α | Llama β | OLMo α | OLMo β |
|-----------------------|---------|---------|--------|--------|
| 原始模型 (Ori) | 30.99% | 0.58% | 56.00% | 38.78% |
| Direct Preference Optimization (DPO) | 29.02% | 97.02% | 35.17% | 76.89% |
| Consistent ICL | 42.15% | 52.41% | 0.38% | 10.52% |
| Random ICL | 8.90% | 54.52% | 23.91% | 68.40% |
- DPO在损失相关参数β上表现最优,显著提升模型对不同风险人格类别的区分度。
- 交易损失参数提升带来真实资产配置策略改善,体现对现实应用价值的促进。
DPO对人格风险参数调整的影响与统计显著性验证 [page::6]
- DPO显著提升风险寻求人格类别中损失相关参数β,统计显著性达到1%水平。
- 资产配置案例验证,DPO对高风险(seeking)人格的加密货币和成长股投资比率明显提升。
- 这表明优化后的模型更有效捕捉复杂风险偏好,支持个性化资产配置。
资产业务个性化配置案例研究 [page::7]

- 四类风险人格对应资产:C1(加密货币)、C2(成长股)、C3(违约债)、C4(国债)。
- DPO对C1和C3类资产偏好调整明显,分别提升10%及14%的相关资产配置。
- 展示对齐模型在经济实务中的潜在应用,提升用户满意度和决策合理性。
量化风险因子构建与个性化对齐方法详解 [page::10][page::11][page::12]
- 引入风险差异评分RDS评价LLMs对不同人口统计学风险偏好差异的捕捉能力。
- DPO基于正负风险偏好语句对,通过最大化偏好响应概率实现直接优化。
- ICL利用示例驱动模型调整,但效果不及DPO,特别是在复杂的损失敏感性参数上。
深度阅读
详尽分析报告:《Evaluating and Aligning Human Economic Risk Preferences in LLMs》
---
1. 元数据与概览
- 标题:Evaluating and Aligning Human Economic Risk Preferences in LLMs
- 作者:Jiaxin Liu, Yixuan Tang, Yi Yang, Kar Yan Tam
- 机构:The Hong Kong University of Science and Technology
- 主题:大型语言模型(LLMs)在经济风险偏好识别和对齐的表现研究,特别聚焦于如何让LLMs展现出与人类经济理性一致的风险行为。
- 核心论点:
- 虽然LLMs在简单的个性化风险评估中表现合理,但在复杂经济决策任务中的表现较差。
- 提出一种风险偏差评分(Risk Disparity Score, RDS)以衡量LLMs是否能基于用户画像展示符合人类经济理性的风险偏好。
- 通过采用两种对齐技术(Direct Preference Optimization,DPO;In-Context Learning,ICL)提升LLMs对个性风险偏好的适应能力。
- 结果表明DPO在损失相关参数上显著提升了模型的经济理性,朝向更符合人类行为模式的AI决策迈进。
上述内容反映了作者想突出的主要信息:LLMs能在风险识别领域进行一定的个性化推理,但在更复杂的经济决策任务中尚存在不足,适当的对齐方法能显著改善表现 [page::0,1]。
---
2. 逐节深度解读
2.1 引言与研究问题
- 背景:风险偏好是经济理性的关键维度,体现个体如何面对不确定性。经典经济学的前景理论(Prospect Theory)揭示了人类对损失的规避性,这对AI系统适应个性化风险评估至关重要。
- 问题定义:
- RQ1:LLMs是否能基于用户画像正确识别个体风险偏好?
- RQ2:如何通过方法改进LLMs在复杂风险相关任务中的经济理性?
- 思路与方法:设计三个逐渐复杂的实验场景(风险偏好分类、股票/债券投资决策、基于前景理论的复杂决策),并设计RDS指标评估模型表现。
- 数据基础:多样化的用户画像数据集,涵盖性别、年龄、教育水平和收入四个人口统计维度。
2.2 评估方法与RDS指标设计
- RDS指标定义为:
\[
R D S=\frac{\sum{g \in G} n{g}(\bar{y}{g}-\bar{y})^{2}}{\sum{i=1}^{N}(y{i}-\bar{y})^{2}}
\]
其中$yi$是模型输出,$G$为统计学上的群体(如男女),$n_g$为群体大小。指标反映了模型输出中有多少方差源自于人口统计学差异。
- 指标意义:RDS越接近1,说明模型能很好反映实际群体间风险偏好的差异;为0说明模型输出缺乏对已知人口差异的敏感度,即未能识别风险差异。
- 三个实验设计:
- 实验1:风险偏好分类。直接判断输入画像对应的风险偏好类型(风险爱好、中性、风险规避)。
- 实验2:股票/债券投资模拟。模型在给定10美元预算和历史投资风险收益数据情况下,决定投资股票(高风险)或债券(低风险)的金额。
- 实验3:基于前景理论的风险决策。模型基于Prospect Theory,通过一系列赌博任务计算和拟合参数$\alpha, \beta$(分别对应收益和损失的风险偏好),并使用RDS评估模型能否区分不同风险画像群体。
2.3 实验结果剖析(见表1)
| 模型 | 任务 | 性别RDS | 年龄RDS | 教育RDS | 收入RDS | 平均RDS |
|-------|--------------|---------|---------|---------|---------|---------|
| Llama3-8B-Instruct | Study 1 | 96.30%(+) | 91.76%(+) | 71.43%(+) | 94.36%(+) | 88.46% |
| | Study 2 | 90.81%(+) | 85.91%(+) | 71.80%(-) | 84.42%(+) | 83.23% |
| | Study 3 - $\alpha$ | 17.02%(+) | 31.51%(-) | 8.65%(-) | 70.95%(-) | 32.03% |
| | Study 3 - $\beta$ | 7.38%(-) | 70.85%(-) | 63.13%(+) | 65.10%(+) | 51.62% |
| OLMo-2-7B-Instruct | … | … | … | … | … | … |
| Qwen2.5-7B-Instruct | … | … | … | … | … | … |
- 总结要点:
- 对于简单任务(Study 1和2),模型普遍能较好区分不同人口统计属性下的风险倾向(高RDS)。
- 对于更复杂的前景理论任务(Study 3),尤其是对收益风险偏好参数$\alpha$的拟合,所有模型性能下降显著,RDS大幅减少。
- 表示LLMs在简单识别层面具备一定经济理性,但难以应对复杂情境的个性化风险对齐。
- 性别信息对风险差异的识别相对较稳定(多数表现为正趋势),但年龄、教育、收入对复杂参数的贡献不足或表现不一。
- 技术细节说明:
- 评价中,"$+$"表示模型输出趋势符合文献经验,"$-$"表示不符合。
- 参数$\alpha$反映收益风险偏好,$\beta$反映损失风险偏好,较低的RDS显示模型对这些深层次风险特征的捕获不理想。
---
3. 图表深度解读
3.1 表1解读(RDS指标表现)
- 表1清晰展示了三款LLM在三项任务中的风险偏好对齐表现。
- 明显看出随着任务复杂度加深(从简单分类到前景理论参数拟合),各模型的性能有明显下降,特别在收益风险偏好参数$\alpha$上表现差强人意(部分低至不足20%的RDS)。
- 性别维度的风险趋势识别较为准确,符合大量行为经济学实证。
- 教育和收入维度影响较为复杂且表现不稳定,提示模型内部可能缺乏对相关变量与风险偏好内在关联的有效编码。
3.2 图1解读(整体评估流程示意)

- 图1形象展示了评估框架的三个流程阶段:
- 风险偏好分类:根据用户画像推断风险类型。
- 股票/债券投资模拟:具体权衡风险资产与稳健资产投资比例。
- 前景理论复杂决策:基于概率性收益和损失进行估计和决策。
- 右侧的前景理论示意图突出损失规避与风险对称性的心理学基础,说明本研究基于经典经济行为理论构建实验。
- 示意图增强了论文的理论逻辑支撑,表明评估不仅是技术实验,更具行为经济学深度。
3.3 表3解读(对齐技术对Study 3的影响)
| 模型 | 方法 | α(RDS) | β(RDS) |
|--------|---------------|----------|----------|
| Llama3-8B | 原始 (Ori) | 30.99% | 0.58% |
| | DPO | 29.02% | 97.02% |
| | Consistent ICL| 42.15% | 52.41% |
| | Random ICL | 8.90% | 54.52% |
| OLMo-2-7B| 原始 (Ori) | 56.00% | 38.78% |
| | DPO | 35.17% | 76.89% |
| | Consistent ICL| 0.38% | 10.52% |
| | Random ICL | 23.91% | 68.40% |
- DPO显著提升了损失相关参数$\beta$的RDS,表明其在增强模型风险规避损失偏好的能力方面非常有效(例如Llama由0.58%提升至97.02%)。
- ICL的效果不稳定,且相比DPO较弱,尤其Consistent ICL对OLMo收益参数甚至表现较差。
- DPO针对损失风险偏好优化存在一定折中,对收益参数$\alpha$可能造成轻微下降。
- 体现出直接优化策略在对齐复杂行为特征方面的优势。
3.4 表4解读(DPO对不同风险画像类参数影响)
| 类别 | 模型 | α值变动 | β值变动 | 统计意义 |
|-------|---------|------------------|-------------------|----------------------|
| C1 (获益/损失风险均偏好) | Llama | +0.005 (提升轻微) | +0.101 显著提升 | β值提升显著(1%级别) |
| C2 (获益风险偏好,损失风险规避) | Llama | +0.004 | -0.073 有效下降 | β值下降有统计支持 |
| C3 (获益风险规避,损失风险偏好) | Llama | -0.0006 微降 | +0.0435 显著提升 | β值提升显著 |
| C4 (获益损失风险均规避) | Llama | -0.0087 轻微下降 | -0.0711 下降 | β下降有一定显著性 |
- 反映出DPO可针对特定风险画像调整风险参数,尤其对损失相关参数β调节明显,符合前景理论对不同风险画像的划分。
- 统计显著性标记表明参数变动非偶然,DPO方法能系统性提升模型行为与人格化风险属性的一致性。
- 对收益参数α的变化较小或轻微下降,体现了前述优化的权衡。
3.5 图2解读(资产配置案例)

- 展示了4类不同风险偏好的用户群体(C1-C4),在普通模型(Llama)与DPO对齐模型下的资产配置比例对比。
- 重点显示了与对应风险画像匹配的资产类别(例如,加密货币对应C1,成长股对应C2,困境债券对应C3,国债对应C4)变动。
- DPO模型使得:
- C1在加密货币投入提升10个百分点,符合高风险高收益偏好。
- C3困境债券配置提升14个百分点,体现更精准的风险偏好适配。
- 该图表高度直观地展示了风险对齐改善对实际投资决策的正向影响。
---
4. 估值分析
本报告未涉及传统金融资产估值模型,焦点在于风险偏好识别和个性化对齐策略,不涉及估值计算或目标价格设定。
---
5. 风险因素评估
报告未专门罗列风险因素章节,但间接提示了以下风险点:
- 模型局限性:当前LLMs在复杂经济决策中的风险行为识别能力不足,尤其是对收益风险部分的捕捉。
- 对齐偏差风险:DPO等对齐策略在提升损失风险偏好识别同时,可能在收益风险偏好上出现表现下降,提示对齐存在权衡。
- 数据和任务复杂度的影响:随着任务复杂度提升,模型输出趋于同质化、非差异化,风险偏好判断偏离真实。
- 泛化能力风险:当前仅评估了部分模型和小规模参数模型,模型泛化至更大规模与真实场景可能存在差异。
报告强调未来工作需解决对风险偏好更细致层面的识别(如RDS不能衡量同一人口组内部差异),并扩大验证范围 [page::8]。
---
6. 批判性视角与细微差别分析
- 模型选择和规模局限:研究聚焦小参数规模LLMs(均不超过10B),限制了结果的广泛适用性,未涵盖当前较主流的大规模模型,如GPT-4等。
- 对齐方法效果差异明显:虽然DPO表现优异,但在某些情形下会牺牲收益风险的识别能力,说明对齐策略的设计具有复杂的权衡关系,后续需设计更全面的对齐框架。
- RDS指标的单一性:该指标反映群体间整体差异,可能忽视个体差异中细微但重要的风险行为特征,未来应结合多维度指标。
- 人物画像的多样性与准确性:尽管基于大量synthetic personas,但不同文化、地理背景层面的风险偏好真实差异未充分覆盖,带来潜在偏见。
- 复杂情境下性能下降显著:实验3前景理论任务指出模型在复杂心理经济机制下的推理与记忆能力不足,表现为准确性显著下降,反映了LLMs现阶段认知能力的限制。
---
7. 结论性综合
本研究系统评估了当前多款开源LLMs(包括Llama3-8B、OLMo-2-7B与Qwen2.5-7B)在个性化经济风险偏好识别中的表现,通过设计三阶段从简单到复杂的实验:
- 核心发现一:LLMs能够在较简单、直观的人物画像风险分类(Study 1)以及基于投资组合的风险选择(Study 2)中,较好体现人口统计学维度的风险偏好差异,RDS表现总体不错(平均超过80%)。
- 核心发现二:面对前景理论等复杂风险评估任务时(Study 3),所有模型性能普遍下降,尤其是收益风险偏好参数$\alpha$,RDS大幅下滑,显示LLMs对复杂经济心理行为建模能力不足。
- 核心发现三:针对这一不足,本文引入Direct Preference Optimization (DPO)和In-Context Learning (ICL)两种对齐技术,实验证明DPO能显著提升模型对损失风险偏好参数$\beta$的识别能力,RDS由极低提升至近100%的高度,尤其对损失敏感性的改善尤为重要。
- 实际应用示例:通过案例研究,DPO优化后的模型能产生更为合理的资产配置建议,体现对风险偏好更精准的适配,提升个性化和经济合理性。
- 理论与实践贡献:该研究首次针对LLMs个性化风险偏好识别提出定量且多层次的测评指标,并成功应用对齐技术显著改善其经济理性输出,推动AI经济决策行为向人类行为规范靠拢。
---
附注
- 本分析充分涵盖表1~4及图1、2的详细数据与趋势,结合前景理论参数$\alpha$、$\beta$意义,解析了复杂风险心理与模型表现间的联系。
- 对齐方法的数学原理(DPO通过最大化正向相对概率,减少负向概率)以及ICL示范构建逻辑均有明确说明,突出技术创新点。
- 研究虽有局限,但为未来LLM在高风险决策场景的用户画像个性化适配奠定了重要基础。
---
参考文献
- 本文引用了包括Kahneman和Tversky经典前景理论、行为经济学研究人口统计风险偏好差异,以及LLM与对齐技术的最新AI论文,融合了经济与AI两大领域的前沿知识体系。
---
总结
本文是一份极具创新性的跨学科研究成果,严谨设计并系统验证了LLMs在模拟和适配人类经济风险偏好方面的能力及其不足,提出了衡量标准RDS以及有效的优化路径DPO,展现了AI与行为经济学的深入结合。该成果对未来个性化智能决策系统的构建具有重要指导价值。