`

Mean-Variance Stackelberg Games with Asymmetric Information

创建于 更新于

摘要

本文研究了两个投资者之间基于均值-方差目标函数及信息不对称的Stackelberg博弈:一方完全知晓股票真实动态(领导者),另一方通过观察股票演变和领导者的交易动作进行滤波推断(追随者)。在相对表现关切下,领导者采用熵正则化的随机化策略以防止信息泄露,追随者基于观测到的交易路径制定策略。结果表明,追随者的均衡策略线性依赖于领导者的随机交易,均衡价值函数却是确定性的;领导者的策略服从均值依赖于当前过滤概率、常方差的高斯分布。此框架为含信息不对称的多阶段资产配置提供了新的策略设计思路 [page::0][page::3][page::10][page::15][page::18]

速读内容


研究背景与动机 [page::0][page::1]

  • 研究两个投资者基于均值-方差模型的资产配置,考虑信息不对称(一方完全知晓动态$\mu$,另一方只能通过滤波推断)。

- 引入相对表现关切,即投资者关注自身财富与两者平均财富的比较。
  • 采用Stackelberg博弈架构,领导者先行动,追随者观察后响应。

- 领导者需平衡收益最大化与隐藏信息的随机化交易策略。

模型设定与数学构架 [page::3][page::4][page::5]

  • 股票价格动态定义,领导者拥有信息过滤器$\mathbb{F}^{\mu,S}$,追随者仅有$\mathbb{F}^S$。

- 追随者用后验概率$P(t)$滤波$\mu$值,财富过程含有随机控制变量$ui(t)$。
  • 投资者均采用含相对表现权重$\lambdai$和风险厌恶参数$\gammai$的均值-方差效用。

- 领导者的交易策略为随机化策略,服从概率分布$\Pi
t$(反馈型随机策略)。
  • 实际操作中策略动作离散采样,导航理论测度可行性问题。


追随者的优化问题与均衡策略 [page::7][page::9][page::10]

  • 追随者观察领导者的离散采样动作$u1(\delta(t))$,进行基于条件($\mathcal{G}t$)的均值-方差优化。

- 采用内在时间一致性,定义追随者的内-人均衡策略$u2^$。
  • 追随者的策略表达式:

$$
u
2^{
}(t,p)=\frac{\theta(p)-r}{\sigma^{2}\gamma2(1-\frac{\lambda2}{2})} - \frac{\beta(p)\partialp a2(t,p)}{\sigma(1-\frac{\lambda2}{2})} + u1 \frac{\lambda2}{2-\lambda2}
$$
  • $a2(t,p)$满足二维偏微分方程(Cauchy问题)。

- 该均衡策略中包含直觉可理解的三个部分:估值驱动的盲目持仓,对滤波波动的对冲需求,以及对领导者交易行为的响应。
  • 追随者均衡价值函数确定性,不依赖领导者随机采样路径,源于财富线性动态结构。


领导者的优化与随机策略设计 [page::11][page::12][page::15]

  • 领导者采用熵正则化的随机策略,随机动作来自具有期望$\widetilde{b}t$与方差$\widetilde{\sigma}t^2$的概率分布,量化随机度。

- 通过强化学习中的探索模型引入此随机框架,熵项度量信息保护需求。
  • 领导者财富过程的探索性版本涉及两个独立布朗运动,体现原交易噪声与随机化噪声。

- 领导者最优策略$\Pi
t^$服从均值为:
$$
\frac{\theta(p)-r}{\sigma^{2}}l - \frac{\beta(p)}{\chi\sigma}(\partialp a1 + (1-\chi)\partialp a2)
$$
方差为常数$\frac{\lambda0}{\gamma1 \sigma^2 \chi^2}$ 的高斯分布。
  • $a1(t,p)$满足类似追随者的Cauchy问题,领导者策略体现对追随者反应的前瞻性考虑。

- 方差不随时间递减,强调随机化稳定性。
  • 熵正则化系数$\lambda0$调节策略随机程度,但不影响均值部分。


$\epsilon$-Stackelberg均衡及采样动态逼近 [page::16][page::17]

  • 离散采样策略动态可弱收敛至探索性策略动态,保证采样轨迹和随机化模型一致性。

- 领导者随机策略$\Pi^
$为$\epsilon$-内-人均衡,配合追随者的均衡策略,形成时间一致的$\epsilon$-Stackelberg均衡。
  • 误差与采样网格大小相关,可通过细化采样时间网格减小。

- 该均衡保证随机信息保护机制与基于观察反馈的动态最优响应策略的完美协调。

结论与未来展望 [page::18]

  • 本文建立了均值-方差框架下基于信息不对称的Stackelberg投资博弈模型,确定了随机化领导者策略的形态与追随者最佳响应。

- 随机化策略服从高斯分布且具有固定方差,用以保护领导者私人信息。
  • 该模型有潜力推广至含价格冲击、非完备市场及多代理均衡等更复杂场景。

- 鼓励后续研究考虑N人Nash均衡或更一般的市场结构,及利用强化学习方法求解。


深度阅读

金融数学研究报告分析:


《Mean-Variance Stackelberg Games with Asymmetric Information》

---

1. 元数据与概览


  • 标题:Mean-Variance Stackelberg Games with Asymmetric Information

- 作者:Yu-Jui Huang, Shihao Zhu
  • 发布日期:September 5, 2025

- 领域与主题:运用博弈论和均值-方差投资组合选择理论,研究具有信息不对称的两名投资者之间的Stackelberg博弈。
  • 主要内容:报告考察一个两投资者的博弈模型,其中一位投资者掌握股票价格动力学的真实信息(完全信息者,称为“领导者”),另一位投资者观测价格演变并基于此推断其动态(部分信息者,称为“追随者”)。两投资者的收益目标带有“相对表现关切”,即不只关心自身终期财富,还关心与另一方的平均财富的比较。领导者先行选择策略并采用随机化方法防止信息泄漏,追随者观察领导者实际执行的动作但不能获悉随机策略分布,其目标函数是条件随机的随机场。理论上导出连续和离散采样情形下的(ε-)Stackelberg均衡策略。

- 作者意图与贡献:作者希望揭示在投资组合选择中信息不对称与相对表现意识如何交织影响策略选择,提出随机策略和熵正则化机制防止信息泄露,并首次将此结构放入均值-方差与Stackelberg博弈框架。该报告也将强化学习中熵正则化的数学框架引入金融博弈。
  • 评级与目标价:无此类评级或估值指标,属于理论研究报告。


---

2. 逐节深度解读



2.1 摘要与引言解读


  • 论文核心在于研究双投资者Stackelberg博弈,双方对股票的动态了解不对称。领导者知晓真实$\mu$,追随者仅通过观察价格演化以后验概率$P(t)$推断。

- 投资者的效用包含终期财富及相对表现,定义为混合绩效指标$\mathscr{P}{i}(T)=(1-\lambdai)Xi(T)+\lambdai(Xi(T)-\overline{X}(T))$,其中$\overline{X}(T)$为双方财富平均值,$\lambdai\in[0,1)$为相对权重。
  • Stackelberg结构对应领导者先选策略,追随者观测后响应,领导者预判追随者响应优化策略。为了防止信息泄露,领导者应用基于熵正则化的随机策略。

- 理论结果包括在连续采样下可得完全的Stackelberg均衡,且追随者策略是领导者采样动作的线性映射,领导者动作服从高斯分布;离散采样情形为$\epsilon$-Stackelberg均衡。
  • 报告强调,既不是传统博弈中透明信息,也非单纯顾及自我终期效用,而是兼顾信息保密和相对表现关切的结合。


逻辑及假设
  • 真实股票回报率$\mu$为两个数值某一个且被领导者完全知晓。

- 追随者观测到的为股票价格过程,利用非线性滤波获取关于$\mu$的后验概率$P(t)$。
  • $P(t)$满足非线性随机微分方程(2.3),满足经典滤波理论。

- 投资者遵守自融资策略,财富动态线性依赖投资组合权重与股票价格波动。
  • 投资者关注自己财富的均值-方差与相对表现(体现竞争动机)。

- 领导者为了防止信息泄露,采用随机化且熵正则化强化这一随机程度,追随者只能观察实际执行的结果。

---

2.2 模型结构(第2节内容)


  • 股票价格遵从在概率空间下的Itô过程,$\sigma>0$固定波动。

- 领导者观察过滤更大的信息流$\mathbb{F}^{\mu,S}$;追随者仅根据价格演进$\mathbb{F}^S$,不直接知晓$\mu$。追随者基于$\mathbb{F}^S$用非线性滤波理论表达$P(t)$。
  • 领导者财富动态(折现形式)为:

$$ dX1(t) = u1(t)(\mu - r) dt + \sigma u1(t) dW(t), \quad X1(0)=x1. $$
  • 追随者基于估计的$\theta(p) := (\mu1-\mu2)p + \mu2$定义股票动态,财富动态为:

$$ dX2(t) = u2(t)[\theta(P(t)) - r]dt + \sigma u2(t) d\widehat{W}(t), \quad X2(0) = x2. $$
  • 关注的均值-方差目标函数:

$$ J
i(t,\pmb{x},p) = \mathbb{E}[Xi(T) - \lambdai \overline{X}(T)] - \frac{\gammai}{2} \mathrm{Var}[Xi(T) - \lambdai \overline{X}(T)], $$
其中$\gamma
i$风险厌恶度,$\lambdai$相对表现权重。
  • 模型明确了领导者与追随者的连续时间财富控制过程,且注重于层级博弈结构下的均值方差期望目标与相对绩效影响。


---

2.3 随机化策略与采样动态(2.1与2.2节)


  • 领导者策略采用随机化形式,即于时点$t$从概率分布$\Pit$中采样动作$u1(t)$。此机制旨在混淆追随者的信息推断,防止直接利用策略反演真正的$\mu$。

- $\Pi
t$依赖当前状态$(t,X1(t),X2(t),P(t))$,为反馈式随机策略,满足渐进可测性和二次可积律。
  • 采样动作不能连续独立采样,否则测度论上不可行(参考Szpruch等人2024年发现),因此实际采样为离散时间采样,组成时间格子$\mathcal{D}$,控制变量在每个时间间隔保持常数。

- 折现财富流程替代品$X1^{\mathcal{D}}(t)$满足随机微分方程(2.8),动作为最近采样点的随机变量。
  • 追随者轨迹也采样表述,且追随策略为确定性,因为其策略基于已观察的行动,无随机化设定。


关键点:随机策略与采样机制一方面保护领导者,另一方面追随者仍在观察动作轨迹求解最优反应。离散采样促使理论上的连续模型近似实际操作。

---

2.4 追随者优化问题(第3节)


  • 追随者在观察到领导者动作采样历史$\mathcal{F}T^\xi$基础上,选择策略$u2\in\mathcal{A}2$,使其条件均值-方差目标最大化。

- 注意,追随者策略依赖于观测到的领导者的动作轨迹,且优化目标是随机场,因其条件期望和方差均条件于$\mathcal{G}t = \mathcal{F}^St \otimes \mathcal{F}T^\xi$。
  • 针对时间不一致性,追随者最优策略定义为intra-personal equilibrium,即其当前与未来多次自我间的纳什均衡,确保动态上的合理性。

- 由领导者动作$u
1$固定路径(样本路径)条件下,求追随者最优控制策略。
  • 通过变换变量,定义$Z2(t)$为两投资者财富的加权差,财富动态线性化。

- 追随者最优策略存在半解析表示,利用扩展HJB方程系统(类似Bj\"ork et al. 2017框架),带有偏微分方程约束。
  • 核心结果(定理3.1)表明追随者的均衡策略为

$$ u
2^(t,p) = \frac{\theta(p)-r}{\sigma^2 \gamma2 (1-\frac{\lambda2}{2})} - \frac{\beta(p) \partialp a2(t,p)}{\sigma (1-\frac{\lambda2}{2})} + u1 \frac{\lambda2}{2 - \lambda2}, $$
其中函数$a2(t,p)$满足特定Cauchy问题(椭圆方程带边界条件)[page::10].
  • 该策略包含部分表现为“从估计的漂移值$\theta(p)$演化的经验需求”,部分表现为“对滤波过程波动的对冲需求”,以及对领导者动作的线性依赖。

- 追随者价值函数初始化对领导者样本动作$u
1$无随机性,确定性地表达。这是财富线性动态的重要性体现。

---

2.5 领导者优化问题(第4节)


  • 领导者面对追随者的最佳响应,需选择随机策略$\Pi$最大化熵正则化的均值-方差目标。

- 採用了强化学习中常见的探索性控制(exploratory control)框架,即将动作随机化曲线视作服从某概率分布,在连续时间极限下等价于引入独立布朗运动$\overline{W}(t)$表达控制的随机波动组件。
  • 领动作的平均和波动对应即为$\widetilde{b}t$和$\widetilde{\sigma}t$,分别是$\Pit$的均值和标准差。

- 构造领导者财富的随机方程(4.2),含随机策略带来的随机扰动。追随者财富受领导者随机策略影响而修正表达。
  • 领导者加入熵的形式化收益项$\lambda0 \int0^T H(\Pit) dt$,其中$H(\Pit) = - \int \Pit(u1) \log \Pit(u1) du1$代表随机策略的熵值。熵作为激励领导者随机化程度的正则项,防止过度暴露信息。

- 定义领导者探索性优化问题的intra-personal equilibrium以及时间离散版本的$\epsilon$-intra-personal equilibrium,反映在有限采样频率下的近似最优性。
  • 采用与追随者相似的技巧,将领导者财富加权差$Z1(t)$作为控制变量,简化均值-方差目标。

- 领导者均衡策略的主要数学结论(定理4.1):
- 领导者随机策略$\Pi
t^
$是高斯分布
- 均值与后验概率$p$相关,二维偏微分方程$ a1(t,p)$唯一解控制
- 方差$\sigma^2$与熵正则参数$\lambda
0$决定,保证随机性固定,不随时间演化
  • 领导者的均衡方程中呈现探索-利用分离:均值决定执行策略,独立于$\lambda0$;方差依赖$\lambda0$,反映随机化程度。

- 领导者随机策略的高斯性质是信息保密与动态最优结合的结果,与前述强化学习文献中的探索目的相似但动机不同。[page::15-16]

---

2.6 采样动态与$\epsilon$-Stackelberg均衡(4.3节)


  • 理论均衡为探索性财富过程的连续版,实际中需通过离散时间网格采样领导者策略动作。

- 采用Jia等人(2025)的结果,证明随机采样的财富进程弱收敛于探索性量化模型。
  • 由此得出:任意精度$\epsilon>0$,通过充分细化时间网格,可实现领导者策略的$\epsilon$-intra-personal均衡。

- 基于以上,领导者随机策略$\Pit^$和追随者均衡策略$u2^$形成时间一致的$\epsilon$-Stackelberg均衡策略组。
  • 此结论保证模型的理论策略在有限频率实际交易系统下可近似实现。

- 伴随的价值函数收敛结论保证估值的理论严谨性。[page::16-17]

---

2.7 结论部分(5节)


  • 本文构建了一个包含信息不对称和竞争相对表现的均值-方差Stackelberg博弈模型。

- 领导者为保信息优势采用高斯随机化策略,实现了均衡,且策略随机性由熵正则项动机得到合理解释。
  • 追随者基于滤波过程和领导者动作调整策略,形成内在时间一致的均衡响应。

- 框架可拓展到纳什均衡、非完全市场、价格冲击等复杂设定,具有较强实用和研究推广潜力。[page::18]

---

3. 图表、数学公式与模型深度解读



尽管本报告无实际图表,但有大量形象化的数学公式及模型架构。关键内容总结如下:
  • 股票动态

$$ dS(t) = \mu S(t) dt + \sigma S(t) dW(t). $$
领导者完全知晓$\mu$,追随者观测不到$\mu$,基于价格序列推断;滤波后验概率$P(t)$满足
$$ dP(t) = \frac{\mu1 - \mu2}{\sigma} P(t)(1-P(t)) d \widehat{W}(t), $$
$\widehat{W}(t)$为追随者过滤的创新过程。
  • 财富动态(折现形式)

领导者:
$$ dX1(t) = u1(t)(\mu - r) dt + \sigma u1(t) dW(t). $$
追随者:
$$ dX
2(t) = u2(t)[(\mu1 - \mu2) P(t) + \mu2 - r] dt + \sigma u2(t) d\widehat{W}(t). $$
  • 投资目标函数

$$ J
i(t, \mathbf{x}, p) = \mathbb{E}[Xi(T) - \lambdai \overline{X}(T)] - \frac{\gammai}{2} \mathrm{Var}[Xi(T) - \lambdai \overline{X}(T)]. $$
  • 领导者随机策略定义:反馈策略$\Pit$为动作$u1$的概率密度,动作以此分布独立采样,满足渐进可测性和二次可积。
  • 采样动态表达

离散采样财富过程满足分段常数控制的SDE形式,确保数学意义上的随机积分定义明晰。
  • 追随者均衡策略(定理3.1):解析形式包含对滤波偏导的边值问题函数$a2(t,p)$,投射在均衡策略表达式内:


$$ u2^* = \text{myopic demand} + \text{hedging demand} + \text{领导者作用项}.$$
  • 领导者探索性财富过程:引入独立布朗运动增添由策略随机性带来的波动:


$$ d\widetilde{X}
1(t) = \widetilde{b}t (\theta(Pt)-r) dt + \sigma \widetilde{b}t d\widehat{W}(t) + \sigma \widetilde{\sigma}t d\overline{W}(t). $$
  • 熵正则化:在目标函数积分项中以熵增加随机化程度定量调节,具体为:


$$ H(\Pit) = - \int \Pit(u1) \log \Pit(u1) du1. $$
  • 领导者均衡策略(定理4.1):以高斯$\mathcal{N}(\mut, \nut)$形式显著体现,其中均值和方差的复杂依赖于解偏微分方程$ a1, a2$及参数。方差由熵正则权重$\lambda0$决定且时间不变,均值反映收益与信息滤波推断。
  • 采样误差估计与均衡近似:利用高阶微分空间范数$Cp^4$对采样财富过程期望差异评估,保证采样财富过程对探索性过程的收敛和价值函数近似。


---

4. 估值分析



本报告主体为博弈均衡理论的数学结构性证明与构造,无传统意义上的估值模块。均值方差目标本身构成投资者效用函数的表述。
  • 采用扩展Hamilton-Jacobi-Bellman方程体系,以解决时间不一致性问题,定义intra-personal equilibrium

- 领导者的策略随机化方差由熵正则化权重控制,显示出策略随机性的内生形成机制。
  • 价值函数通过解析偏微分方程确定,反映博弈双方动态信息更新和互动。

- 粗略可视为带有熵正则项的线性二次型(LQ)随机控制问题的一种推广。

---

5. 风险因素评估



该报告作为理论研究,对协同均衡策略推导,未直接展开对金融市场或模型风险的详细讨论,但可隐式归纳如下风险:
  • 信息泄露风险:领导者策略的随机化具有减少追随者过度推断真实$\mu$的风险,从而避免策略失衡。

- 策略时间不一致风险:均值-方差目标内在时间不一致性,通过intra-personal equilibrium解决。
  • 采样频率不充分风险:实际离散采样频率若不足,可能导致策略近似失真,产生$\epsilon$-均衡误差。

- 模型参数假设风险:二值漂移假设、固定波动率及显式滤波过程可能与现实复杂动态存在偏差。
  • 市场反应与价格冲击忽略风险:报告没有考虑价格冲击与流动性变化,可能影响策略的应用稳健性。


报告没有明确缓解措施,但通过熵正则化策略随机性、一致性均衡定义和采样误差控制减少部分风险。

---

6. 批判性视角与细微差别


  • 信息不对称假设设定精妙且创新,但对领导者完全知晓$\mu$且追随者仅两个可能值的设定较简化,实际市场情况信息结构更为复杂。

- 追随者忽略领导者动作序列带来的隐含信息可能高估现实中信息对称转化效率,限制了策略反应能力。
  • 强烈依赖线性财富动态简化,非线性因素与市场冲击效应尚未涵盖。

- 报告主要关注二维两方博弈,扩展多方和多资产场景仍需研究。
  • 信息泄露防控通过随机化动作实现,但在实际交易中随机策略实现成本与交易摩擦未考虑。

- 结论中强调了方法能推广至纳什均衡和不完全市场,表明当前模型为理论起点,未来改良尚需多方面完善。
  • 文本中多处复杂HJB方程和偏微分方程解的唯一性依赖严格条件,对泛化适用范围有一定质疑空间。


---

7. 结论性综合



本文详细构建并解析了基于均值-方差投资目标的两人具有信息不对称的Stackelberg博弈模型。两投资者通过相对表现关切连接,其策略设计促进了对竞争与隐私保护的平衡。
  • 追随者利用非线性滤波理论形成对未知股票回报$\mu$的后验估计$P(t)$,基于领导者实际动作形成时间一致性均衡策略。追随者策略具有解析表达,结合了对估计均值的直接投资需求及对滤波不确定性的动态对冲。

- 领导者为了防止信息泄露,引入熵正则化的策略随机化,动作服从均值依赖$p$、固定方差的高斯分布。随机性有效保护信息优势且保持动态最优。
  • 离散时间采样模型确保理论策略在实际操盘时可行,采样误差可控,形成$\epsilon$-Stackelberg均衡。

- 所有价值函数和控制策略均通过扩展HJB方程严格求解,利用动态规划原理和强化学习的探索性思想获得半解析解。
  • 该研究首次结合了金融投资组合中均值-方差优化、信息不对称、Stackelberg博弈和政策随机化,框架严密且具有较强理论创新性。


总结而言,论文成功揭示了投资者信息结构差异与相对绩效动机如何驱动策略复杂互动,拓展了博弈论与金融数学的交叉应用,并为后续研究提供了稳健的理论基础和可操作策略框架。

---

文本引用:以上内容关键推理均源自章节正文与附录证明,包括(1-26页)[page::0,...,26]。

报告