从Leaderless multi-Paxos到Leader-based multi-Paxos

从leaderless到leader-based

在上篇Leaderless multi-Paxos Replicated State Machine中分析了leaderless multi-paxos的一些特点,包括支持client通过各个server并发提交(但是需要注意并发度大时,log index的选择很容易冲突)、每次提交执行一轮完整的single decree流程、每个paxos instance内要保证所有的提议ID必须唯一、冲突的发生导致提议可能在预提议阶段或提议阶段被拒绝、“空洞”的存在,等等。

leader-based multi-paxos是对leaderless方案的一种优化。由于log index的冲突原因在于client互相不知道对方的提议,所有的提议如果通过单一leader或少量leader进行,就不容易甚至不会冲突。并且,通过leader同样可以实现并行提交,只是对于leader的资源使用比leaderless更多。另一方面,leaderless方案中每个paxos instance需要预提议阶段,原因是在多个client同时像paxos instance提议情况下,需要学习可能选中的旧值,确保唯一性,但是在单一leader下,对于paxos instance的提议都可通过唯一leader进行,在单一leader工作时,无需预提议阶段(在leader transfer过程中仍然需要)。因此,在引入新的、可接受的代价下,leader-based方案能够保证并发度,减少冲突,减少消息数量。

优点:

  1. 冲突解决:leaderless方案中,log index在不同的server上生成,容易冲突,冲突既可能在预提议阶段发生,也可能在正式提议(accept)阶段发生,后者重试的代价更大(假设有算法可以满足各个server并发选择的log index冲突几率较小,这一定也是个分布式算法,执行代价也不可不计)。leader-based方案在一个leader lease内完全可通过本地原子计数器并发地为不同的paxos instance选择log index,不会冲突,且代价小。
  2. 预提议优化:leaderless方案中,每个paxos instance都要走完整个single decree流程,由于不知道其他server是否提交过新的提议,所以总是要通过预提议流程去确认。leader-based方案由于在自己的leader lease内所有提交都是通过自己,因此可以在lease内完全省去预提议流程,节省资源开销。
  3. 正确性:Leader-based multi paxos还有个好处是,即便出现brain split,大不了短期内退化成leaderless方案,不会对正确性有影响。

缺点:

  1. leader负载高:Leaderless方案中,大量client可以通过负载均衡选择向不同的server请求。leader-based方案,所有client只能向唯一的leader请求,对leader的网络带宽和cpu是个挑战。同时,无法像leaderless那样照顾到不同地理位置的client,减少延迟。也无法支持通过不同server读以提高读吞吐率(在线性一致性前提下)。

Leader-based方案的改进点

增加Leader的选择

leader机制大概存在两种:

  1. 在某个提议者提交成功后,接受提议的接受者之后一段时间内不再接受client请求(lease机制),使得之后的请求都route到提议者,提议者周期性地发送心跳消息给每个server以更新自己的lease(提议者心跳间隔要比lease短,且之前的多数接受者只接受当前leader的心跳),这是一种通过调整请求接受的策略达到自动选择leader的功能 [chubby做法]。(接受者只能接受一个leader的心跳,就能保证唯一leader)
  2. 通过single decree决议出一个leader,然后类似方案1的方式实现lease管理(这种leader也叫master)。

不管是那种实现方式,leader的产生都需要一个额外的预提议过程。
注:leader lease的语义:只要leader的lease不到期,其它server就不能成功向paxos提交。

提议ID的选择

leaderless方案中,采用了一个统一的、全局唯一、单调递增的ID生成方式(比如:local timestamp + ip,参考leaderless方案),实际上前文分析了每个paxos instance的提议ID之间并不需要保证不相同,在一个leader lease内针对各个log index的所有提议都可以使用同一个提议ID,如果提议被拒绝,反而表示存在其它leader也在提议,当前被拒绝leader可以放弃leader身份了,因此可以把提议ID的变化看成是一次leader角色的变化。

Log index的选择

leaderless方案中,由于要解决external causality问题,并且各自不知道其它server的client请求前提下,只能确保新的log index > 已提交的最大log index。多个server容易在log index选择上冲突(参考leaderless方案)。然而,leader-based方案只需要使用last_log_index + 1即可(不会冲突,也不需要向其它接受者询问,但是会引入“幽灵复现”问题)。

发起部分single decree

single decree比leaderless简单许多,只有唯一leader,直接正式提议(accept)即可,log index递增。

数据不一致的处理

在leaderless方案中曾提到由于“空洞”以及server crash、消息没收到等原因会导致server之间数据的不一致(leaderless数据不一致处理),需要通过“拉”(Pull)数据的方法进行确认更新。leaderless方案中,由于每个server都能并行请求,所以经常需要在多个server上“拉”数据,对于leader-based方案来说,所有的请求都通过leader执行,leader作为提议者知道哪些paxos instance是否提交成功,因此, leader对于自己处理过并已经commit的paxos instance不需要single decree去确认一致性(收不到足够多回复要不停重试),只要leader一直有效,不会出现数据不一致的情况。数据不一致的情况只会发生在leader crash导致的leader transfer后新leader的数据不一致,那么这时新leader只能采用leaderless的方法进行一致性确认与修复。首先,从某多数集合中查询最大log index作为end index(log index不需要已经commit)。然后,从已commit的下一个log index开始到end index,对每一个log index执行single decree流程。如果新leader在log上“落后”较多,延迟会比较大。

读写操作

leader-based方案的读写操作过程和leaderless方案大致相同(参考leaderless方案),但是可以进行若干优化。

读操作优化

leaderless方案不能直接从本地state machine读取数据的原因在于client支持从任意server提交指令,然而,server可能是“落后”的,为了防止stale data,必须进行一轮新的paxos。

对于leader-based方案来说,leader一定是up-to-date的,或者通过新执行一轮paxos达到up-to-date。

参考资料:
[1] Lamport, L. 2001. Paxos made simple.
[2] Tushar Chandra, Robert Griesemer, Joshua Redstone. 2007. Paxos Made Live - An Engineering Perspective.
[3] John Ousterhout and Diego Ongaro. 2013. Implementing Replicated Logs with Paxos.
[4] Diego Ongaro. 2014. Consensus: Bridging Theory And Practice.
[5] 郁白. 2015. 使用Multi-Paxos协议的日志同步与恢复.