Unravelling the Probabilistic Forest: Arbitrage in Prediction Markets
创建于 更新于
摘要
本报告通过对Polymarket去中心化预测市场平台一年内成交数据的量化分析,揭示两类套利机会——市场再平衡套利和组合套利,发现套利交易者从中获利约4000万美元,说明此次实证揭示了链上预测市场中依赖关系引起的价格错配及其利用方式,为未来预测市场的设计和监管提供了数据支持与方法基础 [page::0][page::1][page::2][page::8][page::14][page::18].
速读内容
研究背景与目标 [page::0][page::1]
- Polymarket作为基于Polygon链的领先预测市场平台,支持用户交易与未来事件结果相关的条件代币。
- 预测市场价格应体现所有可能结果概率和为1,异常则产生套利机会。
- 本文探讨三个核心问题:哪些条件产生套利?套利是否实际存在?是否有人利用这些机会?
方法论:LLM辅助推理和数据处理 [page::2][page::5][page::12]
- 采用大语言模型(LLM)结合语义嵌入与人工规则,自动识别市场间条件的依赖关系,降低组合套利搜索复杂度。
- 针对条件多的市场,筛选流动量前4的条件以简化模型输入,确保计算可行。
- 结合链上历史订单薄数据,计算交易量加权均价,动态跟踪套利机会。
两类套利定义与示例 [page::7][page::8]
- 市场再平衡套利:同一市场中各条件“YES”代币价格之和偏离1,形成无风险买入或卖出机会。
- 组合套利:不同依赖市场中条件组合价格不合理,构造多头组合获利。

数据概况与主题分布 [page::9][page::10][page::11]
- 分析8659单条件市场、1578多条件市场,共17218个条件。
- 主体市场聚焦“政治”“体育”主题,2024年美国选举期间活动骤增。
- 交易活跃度主要集中在政治类,尤以2024年11月选举时间段最高。


套利机会识别结果与分布 [page::14][page::15][page::16]
- 7051条件中检测到套利机会,大都为“长套利”即买入价格低于理论价值,利润中位数高达\$0.60/Dollar。
- 政治市场尤其 U.S.选举相关市场,带来大量高利润套利机会;体育类市场套利机会多但利润中位相对较低。
- 组合套利机会主要存在于13对依赖市场中,利润较小且流动性有限。




套利交易者行为与收益 [page::17][page::18][page::19]
- 约1%合格套利机会被用户实际利用。
- 套利者利用买卖组合策略获利合计约3959万美元,体育类市场套利交易比政治更为活跃。
- 大型套利账户行为类似算法交易,前10账号收益超过百万美元。



研究贡献与未来展望 [page::20]
- 首次基于链上真实订单簿数据对去中心化预测市场套利展开大规模实证分析。
- LLM辅助识别复杂依赖关系并实现套利机会国家级穷举筛查。
- 结果提示未来更去中心化预测市场中依赖性和套利策略多样化趋势。
- 提出未来研究方向包括处理更大集合市场依赖、套利风险管理及套利市场机制设计优化。
深度阅读
极其详尽与全面的分析报告
题目与报告概览
报告题目:Unravelling the Probabilistic Forest: Arbitrage in Prediction Markets
作者:Oriol Saguillo(IMDEA Networks, Madrid)、Vahid Ghafouri(Oxford Internet Institute)、Lucianna Kiffer(IMDEA Networks)、Guillermo Suarez-Tangil(IMDEA Networks)
发布日期:2025年(根据引用时间,具体日期未标明)
主题:基于Polymarket区块链平台的预测市场中的套利机会识别与分析。
核心论点:预测市场中,尤其是基于区块链的Polymarket,存在依赖条件资产错误定价的现象,导致套利机会。本文提出了两类套利:单一市场的市场再平衡套利与跨市场的组合套利,通过对Polymarket链上历史订单簿数据的实证研究,量化套利机会及其被利用情况,发现至少4千万美元的实际利润被提取。
报告希望传达的主要信息是:虽然Polymarket设计上预期条件应互斥且齐全,价格总和应为1以代表概率,但在实际交易中由于依赖关系和市场结构,存在严重定价失效和套利机会,且这些机会不少已被套利者利用。文中提出了一种结合启发式、语义分析与大型语言模型(LLM)的方法来高效识别和验证这些套利机会。[page::0][page::1][page::2]
---
逐节深度解读
1. 引言与研究问题明确
- 介绍预测未来事件的经济学和金融学重要性,传统方法局限。
- 预测市场作为新颖快速反馈概率的平台,举例Tradesports.com案例。强调Polymarket作为领先的部分去中心化预测市场平台在2024年美国大选中的高速增长及影响力。
- 套利定义及其在传统和去中心化市场中的作用,指出链上套利因碎片化交易和多市场依赖而复杂。
- 研究问题明确:Q1: 哪些条件产生套利?Q2: Polymarket上套利是否存在?Q3: 是否有人利用了套利?[page::1][page::2]
2. 方法论与相关工作回顾
- 提出利用时效性、语义嵌入和LLM抽取逻辑依赖的方法以高效缩减搜索空间。
- 首次大规模研究Polymarket套利,结合 MEV(最大可提取价值)理论探讨链上套利的游戏理论背景。
- 区分非原子套利与原子套利,强调前者存在执行风险。
- LLM在语义、社会标注和逻辑推理中表现优异,引入prompt工程以提升依赖检测能力。[page::2][page::3][page::5]
3. 预测市场背景介绍
- Polymarket平台介绍,包括基于Polygon链,条件和市场定义,同时强调条件本身需齐全且互斥(即一真多假)。
- 介绍交易机制:基于混合去中心化的中心限价订单簿(CLOB),交易过程涉及USDC锁定、新TOKEN铸造及销毁,通过事件(OrderFilled, PositionSplit, PositionsMerged)链上记录。
- 市场结果由UMA Optimistic Oracle确定,存在挑战期和投票机制风险,且投票权可能集中。
- LLM与prompt engineering用于结构化推理和逻辑关系识别的背景。[page::3][page::4][page::5]
4. 依赖性与套利定义
- 用数学语言定义条件和市场之间的齐全性、互斥性。单市场中,唯一真条件存在,其他均为假。多市场中,若两市场结果联合状态空间小于乘积,则两市场依赖。
- 定义两类套利:
- 市场再平衡套利(Market Rebalancing Arbitrage):单一市场内条件“YES”价格总和不为1时出现。若少于1,买入所有“YES”可套利;若大于1,则通过做空获得套利。
- 组合套利(Combinatorial Arbitrage):跨市场条件依赖,通过构建跨市场组合持仓实现保证盈利。
- 公式和图示(见Figure 1)给出套利条件和策略的严谨刻画。[page::6][page::7][page::8]
5. LLM驱动的依赖检测分析
- 利用LLM推理单市场条件组合的有效解,验证大部分市场能正确返回仅有一真条件的分布。处理多条件数据时须缩减条件数量以规避LLM输入限制,设计方法包含选取主流流动性条件合并为“其他”条件。
- 扩展至跨市场情况,在同一主题和结束日期内批量检测市场对,多数市场对独立,部分依赖。
- 依赖检测较为精准但存在少数假阳性,主要因竞选语义复杂及LLM理解局限(例如“最大票差”等模糊表述)。
- 通过人工校验,将符合严格套利定义的依赖筛选出来,标注和汇总典型的依赖市场对。[page::12][page::13]
6. 套利机会识别与量化
- 采用加权成交均价(VWAP)计算不同时段资产估价,设置利润阈值$0.05$ USD过滤。使用区块时间窗口捕获较短周期内的价格波动。
- 单条件套利:7,051个条件中出现套利机会,平均套利利润高达0.6美元/美元投入,表明市场低效。Crypto主题中套利波动最大。
- 单条件套利潜力巨大,特别是在政治类别和NegRisk市场中,按最高流动性计算,总套利金额达数百万美元水平。
- 市场内部条件套利:约662个多条件市场存在套利,套利机会数量和潜在利润多;体育赛事市场表现出更多机会,存在“长”与“短”套利。
- 跨市场套利:13个依赖市场对集中于2024美国大选,套利潜力较单市场低,平均规模约100美元左右,套利次数差异极大。
- 图表解析详见下文图表深度解读部分。[page::14][page::15][page::16][page::17]
7. 实际套利行为与套利者分析
- 数据库中共有8600万笔交易,剔除小额后聚合用户BID,在大约1小时区块窗口内复原套利操作。
- 单条件套利实际捕获利润近1,000万美元,买入廉价“YES”与卖出溢价“YES”收益均衡,最大套利案例交易额接近6万美元单笔利润。
- 多条件套利收益更高,尤其是买入“NO”策略优于卖出,凸显对冲套利优势。
- 跨市场套利虽有表现但相对有限。
- 账号层面显示极端获利账户特征,少数顶级用户累积盈利超过200万美元,表明专业量化/自动化套利策略已落地且利润丰厚。[page::18][page::19][page::20]
---
图表深度解读
图2(月度市场数与条件数分主题分布)
- 显示2024年4月至2025年3月期间,Polymarket市场与条件的季度活跃度分布。
- 政治和体育主题占比最高,呈现2024年美国大选期间活动激增特征,反映了该事件对市场流动性的驱动。
- 单条件市场数量远多于多条件市场(NegRisk),但多条件市场占据较多的条件比例。
- 通过主题词向量匹配的方法分类准确率约92%,表明嵌入模型有效辅助主题分配。[page::9][page::10]
图3(市场流动性与成交量时间序列)
- (上) 每月按主题划分的最大锁定流动性,显示政治类市场尤其在2024年11月达到峰值,流动性达数十亿美元。
- (下) 每日成交量趋势,日成交额峰值出现在选举相关时段。
- 数据反映市场交易活跃性与现实重大事件(选举)紧密相关。
- 交易事件均记录于ERC-1155 Conditional Token合约,有效支撑后续套利分析。[page::11]
图4(依赖市场检测流程图)
- 说明算法从条件集结构化推理市场可能解空间,使用LLM验证逻辑一致性并输出依赖/独立判定。
- 显示多市场逻辑联合检查的复杂度变化,强调利用启发式与LLM能力缓解指数爆炸问题。
- 图中用矩阵表示条件真假分配,辅助说明验证步骤。
- 该流程保障依赖识别的准确性,为套利机会甄别奠定基础。[page::12]
图5(“Assad是否连任”某条件价格及套利事件追踪)
- 分时刻双轴图,左轴为“YES”和“NO”代币加权均价(VWAP),右轴为两代币价格和(接近1为理想合理值)。
- 显示多次套利机会(价格和偏离1超2%)及套利动作时间点。
- 反映市场价格波动中的套利窗口以及套利者实际捕捉行为。
- 耗时较短的套利机会对市场价格作出调整,有助于市场价格回归合理区间。
- 证明套利机会并非理论存在,确有用户参与实践。[page::14]
图6(单条件套利机会数量与中位利润分布)
- 统计各主题单条件套利机会数量及单机会中位利润率。
- 大部分条件仅有少数套利机会,Crypto显示极端多套利的异常值。
- 中位利润均显著高于仅0.02美元的阈值,说明市场严重低效。
- 技术与体育主题套利利润尤其突出。[page::15]
图7(单条件套利潜在利润,含最大流动性与限额100美元对比)
- 按月累计潜在套利利润。
- 上图展示不设交易限额,政治类别最高,因涉重大选举且资金量巨大。
- 下图设限100美元交易额,体育类别套利机会增长明显,更多机会被捕捉。
- 显示$n$量化套利与风险分布,说明现实中部分可捕获套利存在资金限制。
- 与较大时间窗口均价计算得分对比,发现捕获利润有所降低,强调短期价格波动套利捕捉重要性。[page::15]
图8(多条件市场内最大套利机会分“长/短”策略)
- 体育类市场整体套利额度领先,尤其“长”方向(买入低估“YES”)。
- 政治类出现显著高利润峰值,反映选举事件影响。
- “短”策略套利多见于特定月份,可能因市场信息不对称波动导致。
- 不同主题套利空间分布提示套利者可有针对性策略设计。[page::16]
图9(跨市场组合套利盈利分布)
- 11对依赖市场中,大部分套利机会较少,少数对如与大选普选与总统当选、席位平衡相关市场对套利频率和收益明显更高。
- 利润集中在小数个套利事件,多数为低流动性时段。
- 显示跨市场套利门槛较高,规模较小。[page::17]
图10-12(套利实际捕获利润与套利者活跃度)
- 图10显示单条件套利利润时间序列,体育类别捕获利润超过选举。
- 图11左展示多条件套利捕获利润多集中于政治,体育套利捕获偏少,右图利润率分布显示多数套利回报率中低,极少数极高收益机会。
- 图12账户交易次数与收益正相关,大量盈利由少数高频交易账户产生,说明自动化、程序化套利活跃。
- 表1列出前10套利账户,笔数与收益均具规模,反映专业套利团队主导现状。[page::18][page::19][page::20]
---
估值分析(伏笔与暗示)
报告不涉及传统意义上的估值模型(如DCF或市盈率等),更多依赖以下两点风险与机会估值:
- 假设1:条件价格为事件概率的代理,确保概率和为1为合理定价基准;套利即价格偏离时的“隐含利润”。
- 假设2:利用成交量/流动性作为可交易规模估计,结合价格偏差量化潜在利润规模。
- 注重风险(非原子性造成的执行风险)与套利机会成本的权衡。
- 敏感性体现在对时间窗口,流动性约束和阈值选择的影响上,数据显示不同参数选择对套利规模估计有明显影响。[page::7][page::14][page::16]
---
风险因素评估
- 预测市场条件定义不严或模糊导致逻辑不一致(候选人是否有资格,最大胜差界定不清)引入套利识别困难与误判风险。
- UMA Oracle 的挑战机制和投票治理的集中性带来市场结局操控风险,影响预测结果与套利的公允性。
- 历史订单簿数据中存在噪音与不连续交易,导致价格估计误差与套利机会辨识风险。
- LLM推理局限,面对复杂或条件众多市场出现数组越界、逻辑循环等失败案例。
- 链上交易非原子性存在执行失败风险,套利可能遭遇部分成交无法完成全套动作造成亏损。
报告针对部分风险提出补救策略,如条件数量限制,人工复核,基于时间和主题过滤依赖市场等,但仍存在一定误差与模型局限性。[page::5][page::12][page::27]
---
审慎视角与细微差别
- 报告清楚区分套利与其他形式的MEV价值提取,但未深入探讨套利行为的潜在负面影响(如对普通用户的市场操纵风险),展现谨慎立场。
- LLM推理依赖prompt精心设计,某些复杂市场或低概率事件市场逻辑推断存在局限,可能造成依赖标签的假阳性/假阴性。
- 由于价格是基于成交均价估计,实际套利利润可能存在低估,特别是在高波动与高流动性时刻。
- 研究主要聚焦明确概率和状态的套利,对弱依赖和临时依赖(如对跨事件时间序列套利)未深究,指出为未来研究重点。
- 数据合理剪裁简化系统复杂度,牺牲了部分精细度,需警惕过度简化导致遗漏。此外,套利风险和执行失败成本虽提及但未充分量化。
总体,报告逻辑严密而谨慎,切实结合了区块链交易细节和大规模数据分析,呈现出算法与经验双重验证体系。[page::13][page::20][page::27]
---
结论性综合
本报告以Polymarket平台为案例,首次系统梳理并量化了基于条件概率依赖的两类套利机会:单一市场内的市场再平衡套利和跨市场的组合套利。通过结合区块链链上历史订单簿数据、市场文本内容及最先进的LLM推理技术,构建了高效准确的依赖检测和套利识别框架。结果显示:
- 预测市场条件设计虽保证理论上的概率一致和互斥性,但实际交易价格存在显著偏差,导致成千上万明确套利机会。
- 预计存在超过4000万美元的套利利润实际被成交,尤以政治与体育主题市场最显著,体现了市场效率尚未达到理想状态。
- 利用LLM的语义和逻辑推理能力结合时效、主题等启发式筛选手段,有效减少了指数级的比较开销,使跨市场依赖分析成为可能。
- 大部分套利利润由少数高频交易账号实现,表明专业套利者通过自动化策略赚取超额收益。
- 报告还揭示了Polymarket等链上预测市场未来潜在改进方向,包括更高级的依赖挖掘、更准确的市场设计和交易执行原子性改进。
图表中的深刻发现:从图2、3可以看出政治事件显著驱动市场活跃度和流动性;图5和图6揭示价格不合理波动导致大量单条件套利;图9则说明跨市场套利受限于临界依赖的数量,规模整体小于单市场套利;图10-12对比套利机会与实际利润表明套利者确实活跃在市场中,为价格修正发挥重要作用。[page::10][page::14][page::17][page::18]
总结,本文既贡献了对考虑依赖关系预测市场中套利现象的理论细分与定义,也开辟了结合机器学习技术挖掘链上复杂市场依赖与套利的新路径。研究展现了链上预测市场的复杂性和未来发展壁垒,为学术和实务界理解与应对去中心化预测市场套利典型问题提供了坚实基础和切实工具。
---
参考页码溯源
[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23][page::24][page::25][page::26][page::27][page::28][page::29][page::30][page::31][page::32][page::33][page::34][page::35]