在 TiDB 的官方博客《事务前沿研究丨事务并发控制》中,有一个关于 MVCC 中不可重复读的问题,具体问题描述如下:
图8 - MVCC 中的一致性问题MVCC 通过一个快照去读取相同的数据是一个很理想的想法,但是图 8 描述了 MVCC 中的一致性问题,如果一个事务在 Commit 过程中另一个事务用更新的 ts 进行读,那么对于尚未存在的数据,MVCC 无法正确处理,导致出现不可重复读的现象。
图9 - MVCC min_commit_ts 实现一致读为了解决这个图 8 的问题,MVCC 有两种办法,图 9 在系统中加入了一个约束,也是 TiDB 所使用的方法,==写事务的 ts 必须大于所有与之相交的读事务==,在实现中会让读事务推高 key 上的 min_commit_ts = read_ts + 1
,在提交时候需要计算 commit_ts = max{commit_ts, min_commit_ts}
,图 9 中,ts=2
的第一次读取将 min_commit_ts
推高到 3,进而让写事务写入的版本不影响 ts=2
的重复读取。
上面问题的本质是因为事务 T1 进入提交流程后,==有一个比当前事务时间戳更高的读事务 T2 进来了==,T2 第一次读的时候因为 T1 还没写 x,因此读的是老版本的 x 值;但是当 T1 成功提交后,T2 再次读就可以读到 x 的新值了,造成了不可重复读。
我们来看看 TiDB 的事务实现,TiDB 的事务实现类似于 Percolator,其总体流程分为 Prewrite 和 Commit 两个阶段:
- Prewrite:检查锁和数据冲突,并对需要写入的数据上锁
- Commit:从 TSO 获取一个
commit_ts
作为本次事务的时间戳,提交事务并释放锁
对于读操作:
- ==检查该行是否有 Lock 标记==,如果有,表示目前有其他事务正占用此行,如果这个锁已经超时则尝试清除,否则等待超时或者其他事务主动解锁。==注意此时不能直接返回老版本的数据,否则会发生幻读的问题==。
- 读取至 startTs 时该行最新的数据,方法是:读取 meta,找出时间戳为
[0, startTs]
,获取最大的时间戳 t,然后读取为于 t 版本的数据内容。
如果图 8 中的情况发生,那读事务 T2 的时间戳一定是在 Commit 阶段拿到 commit_ts 后,读操作也在拿到 commit_ts 后,事务 T1 提交完成之前,也就是说 T2 读的时候 x 上一定还有 T1 加的锁没释放,此时读事务 T2 会等锁,并不会直接读老版本的数据,因此不会有图 8 中的情况发生。
既然如此,TiDB 的博客为什么还说 TiDB 为了解决这个问题使用读事务推高 min_commit_ts 的方法呢?实际上,上面所说的 TiDB 事务提交的流程是在 TiDB 5.0 之前的实现。在 TiDB 5.0 中实现了 Async Commit,与之前的方案最大的区别是:事务的 commit_ts 不再是从 TSO 获取,而是在 Prewrite 阶段就确定了。
引入 Async Commit 之前,事务的 primary key 被提交才意味着这个事务被提交。Async Commit 力图实现的,就是把确定事务状态的时间提前到完成 prewrite 的时候,==让整个提交的第二阶段都异步化进行==。也就是说,==对于 Async Commit 事务,只要事务所有的 keys 都被成功 prewrite,就意味着事务提交成功==。
下图是 Async Commit 事务的提交流程(你可能发现==原来获取 Commit TS 的环节没有了,在 prewrite 前多了从 PD 获取时间戳作为 Min Commit TS 的操作==):
Async Commit 事务的状态在 prewrite 完成时就必须确定了,Commit TS 作为事务状态的一部分也不例外。
默认情况下,TiDB 事务满足快照隔离的隔离级别和线性一致性。我们希望这些性质对于 Async Commit 事务同样能够成立,那么确定合适的 Commit TS 非常关键。
==对于 Async Commit 事务的每一个 key,prewrite 时会计算并在 TiKV 记录这个 key 的 Min Commit TS,事务所有 keys 的 Min Commit TS 的最大值即为这个事务的 Commit TS==。
下文会介绍 Min Commit TS 的计算方式,以及它们是如何使 Async Commit 事务满足快照隔离和线性一致性的。
TiDB 通过 MVCC 实现快照隔离,事务在开始时会向 TSO 获取 Start TS,为实现快照隔离,我们要保证以 Start TS 作为快照时间戳始终能读取到一个一致的快照。
为此,==TiDB 的每一次快照读都会更新 TiKV 上的 Max TS==。Prewrite 时,Min Commit TS 会被要求至少比当前的 Max TS 大,也就是比所有先前的快照读的时间戳大,所以可以==取 Max TS + 1 作为 Min Commit TS==。在这个 Async Commit 事务提交成功后,由于==其 Commit TS 比之前的快照读的时间戳大,所以不会破坏快照隔离==。
下面的例子中,事务 T1 要写 x 和 y 两个 keys。T2 读取 y 将 Max TS 更新到 5,所以接下来 T1 prewrite y 时,Min Commit TS 至少为 6。T1 prewrite y 成功即意味着 T1 提交成功,而 T1 的 Commit TS 至少为 6。所以之后 T2 再读取 y 时,不会读取到 T1 更新的值,事务 T2 的快照保持了一致。
T1: Begin (Start TS = 1) | |
---|---|
T1: Prewrite(x) | T2: Begin (Start TS = 5) |
T2: Read(y) => Max TS = 5 | |
T1: Prewrite(y) => Min Commit TS = 6 | |
T2: Read(y) |
TIPS:
如果读不推高 Max TS 会发生什么?假设事务 T1 进入提交流程,从 TSO 上获取了一个时间戳作为其 Min Commit TS,然后读事务 T2 从 TSO 获取了一个新的时间戳作为其 Read TS(Resd TS 一定比 Min Commit TS 大),T2 开始读 x,T1 对 x 加锁。==因为在 T1 从 TSO 拿时间戳和对 x 加锁之间有个 GAP,这个时间段内的读是可以读到旧版本的数据的==。
假设读不推高 min_commit_ts:
T1 T2 Write(x, 2) Prewrite: (min_commit_ts = 10) Begin (read_ts = 15) Read(x, read_ts) = 1 Prewrite: Lock Row Prewrite END: commit_ts = min_commit_ts Commit Txn and Unlock Row Read(x, read_ts) = 2 可以看到,T2 出现了不可重复读,如果 T2 的 Read 在 T1 Lock Row 之后发生,就会等锁,不会出现不可重复读的情况。
==而在 TiDB 4.0 以及之前的实现中,Prewrite 阶段完成加锁后,到了 commit 阶段才从 TSO 拿 commit_ts,如果有一个 read 事务的 start_ts > commit_ts ,那么读的时候一定会等待锁,不会出现上面的读到旧版本数据的情况;但是在有了 Async Commit 后,min_commit_ts 是在 prewrite 开始,加锁之前就生成了,如果有一个 read 事务的 start_ts > min_commit_ts,那么读的时候如果还没加锁,就有可能读到旧版本的数据。==
线性一致性实际上有两方面的要求:
- 循序性(sequential)
- 实时性(real-time)
实时性要求在事务提交成功后,事务的修改立刻就能被新事务读取到。==新事务的快照时间戳是向 PD 上的 TSO 获取的,这要求 Commit TS 不能太大,最大不能超过 TSO 分配的最大时间戳 + 1==。
在快照隔离一节提到,Min Commit TS 的一个可能的取值是 Max TS + 1。用于更新 Max TS 的时间戳都来自于 TSO,==所以 Max TS + 1 必然小于等于 TSO 上未分配的最小时间戳==。除了 TiKV 上的 Max TS 之外,协调者 TiDB 也会提供 Min Commit TS 的约束,但也不会使其超过 TSO 上未分配的最小时间戳。
循序性要求逻辑上发生的顺序不能违反物理上的先后顺序。具体地说,有两个事务 T1 和 T2,如果在 T1 提交后,T2 才开始提交,那么逻辑上 T1 的提交就应该发生在 T2 之前,也就是说 T1 的 Commit TS 应该小于 T2 的 Commit TS。
TIPS:
如果 T1 和 T2 的提交过程在时间上有重叠,那么它们逻辑上的提交的先后顺序则是无法确定的。
==为了保证这个特性,TiDB 会在 prewrite 之前向 PD TSO 获取一个时间戳作为 Min Commit TS 的最小约束。由于前面实时性的保证,T2 在 prewrite 前获取的这个时间戳必定大于等于 T1 的 Commit TS==,而这个时间戳也不会用于更新 Max TS,所以也不可能发生等于的情况。综上我们可以保证 T2 的 Commit TS 大于 T1 的 Commit TS,即满足了循序性的要求。
综上所述,每个 key 的 Min Commit TS 取 prewrite 时的 Max TS + 1 和 prewrite 前从 PD 获取的时间戳的最大值,事务的 Commit TS 取所有 key 的 Min Commit TS 的最大值,就能够同时保证快照隔离和线性一致性。
在基于 HLC 的实现中,因为没有 TSO 可以保证获取全局最大的 commit_ts 作为事务时间戳,一般生成 commit_ts 的方法类似于 TiDB 的 Async Commit 中的流程。区别在于 Min Commit TS 不是从中心节点获取的,而是直接使用 HLC 获取。在 prewrite 时会记录并计算所有 key 的 Min Commit TS,取其最大值作为事务的 Commit TS。
可以看到 HLC 的实现中,事务的 Commit TS 也是在 prewrite 阶段就确定的,因此也必须要读推高节点的 Max TS,prewrite 时取 Max TS + 1 作为 Min Commit TS,这样才能保证快照隔离级别(防止不可重复读发生)。
TIPS:
- 可以看到,HLC 的实现天然就支持了将整个提交的第二阶段异步化进行,因为其在 prewrite 结束后就可以得到事务的 Commit TS 了。
- HLC 的实现无法满足线性一致性,这是由 HLC 本身的特性决定的。
可以看到不可重复的的本质是因为在生成 commit_ts 和 Lock Row 之间有一个 GAP,如果读操作在这个 GAP 之间进来,读到旧版本的数据,当写事务提交后,重新读到的就是新版本的数据了。如果写操作是在 Lock Row 之后进来的,第一次读会一直阻塞到写事务提交,不会出现不可重复读的情况。
另外,如果是先 Lock Row,然后才获取的 commit_ts,就像 TiDB 没有实现 Async Commit 之前的做法,那么就不会有这个问题。
- 事务前沿研究丨事务并发控制:https://cn.pingcap.com/blog/transaction-frontiers-research-article-talk4
- TiKV 事务模型概览,Google Spanner 开源实现: https://pingcap.com/zh/blog/tidb-transaction-model
- TiDB 最佳实践系列(三)乐观锁事务: https://cn.pingcap.com/blog/best-practice-optimistic-transaction
- TiDB 新特性漫谈:悲观事务: https://cn.pingcap.com/blog/pessimistic-transaction-the-new-features-of-tidb
- TiDB 悲观锁实现原理: https://tidb.net/blog/7730ed79
- Async Commit 原理介绍丨 TiDB 5.0 新特性:https://cn.pingcap.com/blog/async-commit-principle