为什么同一个策略，在不同数据源上的回测结果差异巨大？

由bqb18wzv创建，最终由bqb18wzv更新于2025-12-30 09:21 被浏览 14 用户

在量化研究中，很多人都遇到过类似的情况：

同一套策略逻辑，参数完全一致，只是换了一个行情数据源，回测结果却出现了明显差异。有时是收益曲线变得更平滑，有时是胜率下降，有时甚至连交易次数都对不上。

这类问题经常会被简单地归因为“数据质量不一样”。但在实际研究中，真正展开对比之后会发现，差异并不总是来自明显的脏数据，而是隐藏在一些更基础、也更容易被忽略的地方。

这篇文章尝试从研究视角，讨论几个在回测中经常影响结果、却不太容易被第一时间注意到的数据层细节：字段定义、时间戳处理，以及复权逻辑。

回测并不是“策略 + 数据”的简单拼接

在刚开始做回测时，很多人会下意识地把它理解为一件很直接的事情：

给策略一份历史行情，看它在过去赚不赚钱。

但在实践中，更接近事实的说法是：

策略并不是运行在“原始行情”上，而是运行在一套被解释、被加工过的数据之上。

从交易所的撮合信息，到研究环境中可直接使用的 K 线或 Tick 数据，中间往往经历了多层处理。不同数据源在这些处理环节中的选择，并不总是完全一致。

策略代码本身没有变，但策略“看到的市场”，可能已经发生了变化。

最容易被忽视的，是字段本身的定义差异。

以最常见的 OHLC 为例，在不同数据源中：

这些差异在日线级别策略中未必明显，但在一些场景下会被明显放大，例如：

在这类策略中，回测结果的差异往往并不是“数据错了”，而是策略对字段语义的隐含假设，与数据源的实际定义并不完全一致。

当回测中出现“交易次数对不上”的情况时，时间戳往往是一个被低估的因素。

在不同数据源中，时间戳的处理方式可能存在多种差异：

当策略逻辑涉及以下条件时，这些差异会变得非常敏感：

在回测中，看似“同一根 K 线”，在不同数据源下，可能对应的是略有错位的市场片段。这种错位在单次交易中并不显著，但在长期累计后，往往会反映为收益曲线的分歧。

复权问题并不只存在于股票市场。

在任何存在分红、换月、合约切换或制度调整的品种中，都绕不开“价格是否连续”的处理方式。而即便在股票市场，不同数据源对复权的处理方式也可能存在差异，例如：

如果策略直接基于价格水平、均线位置或历史极值来判断信号，复权方式的不同，会直接改变信号出现的时点。

更容易被忽略的一点是： 有些数据源在展示层面使用的是复权价格，但在底层字段中，策略计算使用的却是未复权数据。

这种“表面一致、内部不一致”的情况，往往也是回测结果难以复现的原因之一。

当回测结果不一致时，很多人的第一反应是去寻找“更准的数据”。

但从研究角度看，更值得追问的问题可能是：

不同数据源，只是以不同方式对这些问题给出了答案。

如果一套策略对这些假设高度敏感，那么结果的差异本身，其实也是一种重要的研究信号。

在实际研究中，与其纠结“哪个数据源更好”，不如尝试做两件事：

当一套策略在不同数据解释下表现差异巨大时，问题往往不在数据本身，而在策略对市场结构的假设是否足够稳健。

回测结果的差异，并不是量化研究中的意外，而是研究过程的一部分。理解这些差异，往往比得到一条看起来更漂亮的收益曲线，更有价值。

如果你正在经历“同一策略，不同结果”的困惑，也许可以从这些数据层的基础选择开始，重新审视一次自己的策略假设。