類Paxos共識算法研究進(jìn)展

2019-04-18 05:14章明星武永衛(wèi)鄭緯民

計算機(jī)研究與發(fā)展 2019年4期

王江章明星武永衛(wèi) 陳康鄭緯民

(清華大學(xué)計算機(jī)科學(xué)與技術(shù)系北京 100084) (北京信息科學(xué)與技術(shù)國家研究中心北京 100084) (清華大學(xué)深圳研究生院廣東深圳 518055)

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，單機(jī)服務(wù)早已無法滿足業(yè)務(wù)需求，越來越多的應(yīng)用需要分布式系統(tǒng)的支持.由于數(shù)據(jù)量的快速增長，集群機(jī)器數(shù)目越來越大，因為服務(wù)器宕機(jī)等問題使得各類業(yè)務(wù)組件失效的可能性也越來越高.如何保證服務(wù)的可靠性和高可用性變得越來越重要.

副本復(fù)制技術(shù)是提供可靠性的基礎(chǔ)技術(shù)之一，為數(shù)據(jù)或者服務(wù)提供冗余.副本狀態(tài)機(jī)能夠在有效隱藏服務(wù)器宕機(jī)問題的情況下，保證整個系統(tǒng)的強(qiáng)一致性,是分布式容錯系統(tǒng)的一個基本結(jié)構(gòu).圖1是副本狀態(tài)機(jī)的基本原理，圖1中展示了上下2個副本狀態(tài)機(jī)的狀態(tài)變化過程，實(shí)際中可能用到更多的副本狀態(tài)機(jī)來保證更高的可靠性.2個狀態(tài)機(jī)的初始狀態(tài)都為S0，此后每1個狀態(tài)變化都是一樣的，且狀態(tài)變化是具有確定性的.“確定性”的含義是只要輸入相同，由輸入引起的狀態(tài)變化是確定且唯一的.根據(jù)數(shù)學(xué)歸納法，在保證了初始狀態(tài)一樣、狀態(tài)切換順序一致的情況下，所有狀態(tài)機(jī)到達(dá)的最終狀態(tài)也是一樣的.

Fig. 1 The principle of replicated state machine圖1 副本狀態(tài)機(jī)工作原理

越來越多的系統(tǒng)使用副本狀態(tài)機(jī)作為核心協(xié)同服務(wù)，例如Google公司的Spanner[1]、Oracle公司的MySQL[2]等數(shù)據(jù)庫系統(tǒng)，以及Ceph[3]等分布式文件系統(tǒng).為了能夠發(fā)揮副本狀態(tài)機(jī)技術(shù)的優(yōu)勢，也陸續(xù)有機(jī)構(gòu)將該技術(shù)實(shí)現(xiàn)成為一種獨(dú)立的可靠性服務(wù)，如Google公司的chubby[4]、Yahoo!公司的ZooKeeper[5-6]、騰訊公司的phxpaxos[7]以及CoreOS公司的etcd[8]等.

維護(hù)副本之間的強(qiáng)一致性就是讓一組副本進(jìn)程(通常分布在不同服務(wù)器上)共同決策一系列操作的順序.于是核心問題就是在多機(jī)情況下，如何讓各個副本進(jìn)程就某個操作達(dá)成一致，這就涉及到分布式共識算法(distributed consensus algorithm).Paxos就是一個著名的分布式共識算法.從Lamport[9-10]提出Paxos算法開始，此后基于Paxos變形的分布式共識算法越來越多.近些年來，網(wǎng)絡(luò)方面RDMA、軟件定義網(wǎng)絡(luò)(sofware defined networking， SDN)等技術(shù)發(fā)展迅猛，也有部分研究人員結(jié)合網(wǎng)絡(luò)技術(shù)的發(fā)展和變化以及具體硬件重新設(shè)計共識算法提升分布式系統(tǒng)的性能.

本文主要從Paxos算法演進(jìn)歷程的角度出發(fā)，介紹在Paxos演進(jìn)過程中4個關(guān)鍵的變種算法，并對這些算法作一些對比分析以及適用場景說明.同時也簡要介紹了最近幾年類Paxos算法在實(shí)現(xiàn)和使用上的一些新的優(yōu)化思路.希望籍此能夠幫助推進(jìn)相關(guān)算法的進(jìn)一步改進(jìn)和使用，并為分布式容錯場景下共識算法的選擇提供參考.

1 分布式共識

分布式共識算法試圖讓一組分布式的進(jìn)程達(dá)成共識，共同決定1個值.總體來說，一個正確的分布式共識算法需要滿足4個基本條件：

1) 可終結(jié)性(termination).每個正常工作的進(jìn)程最終都會決定1個值.

2) 合法性(validity).如果1個進(jìn)程決定1個值,那么這個值一定是某個進(jìn)程提出的，這避免了一些只決定無意義值的算法.

3) 完整性(integrity).決定出來的值不能被修改，結(jié)論不能推翻.

4) 一致性(agreement).所有正常的進(jìn)程都只能同意同一個值.

以上4個條件，常常被歸結(jié)為2個方面：活性(liveness)和安全性(safety).活性主要包含可終結(jié)性；安全性方面主要包含合法性、完整性以及一致性.

解決分布式共識問題最基本的解決思路就是投票.一組相互獨(dú)立的進(jìn)程之間進(jìn)行投票操作，一旦投票的結(jié)果被大多數(shù)進(jìn)程(quorum)所認(rèn)可，就可以被認(rèn)為是完成了共識過程.當(dāng)然，這其中會涉及到網(wǎng)絡(luò)的消息延遲、消息重復(fù)，以及節(jié)點(diǎn)的宕機(jī)、掉線等情況.雖然基本的思路很簡單，但是給出一個切實(shí)可行的算法非常不容易.其中一個非常著名的算法就是由Lamport[9-10]提出的Paxos算法.

2 Paxos算法

Paxos算法中定義了3種角色：提議者(Proposer)、接受者(Acceptor)以及學(xué)習(xí)者(Learner).3種角色的作用如表1所示：

Table 1 The Function of the Roles in Paxos表1 Paxos算法中的角色及其作用

Paxos 算法基于一系列的假設(shè)，其中2個關(guān)于通信方面的假設(shè)：

1) 異步通信環(huán)境，即多個進(jìn)程中的操作指令可以以任意速度執(zhí)行，多個進(jìn)程之間的通信時間或長或短，通信消息在傳遞過程中可能會發(fā)生丟失、順序錯亂以及多次重復(fù)發(fā)送，也允許進(jìn)程執(zhí)行失敗退出，退出后也可能會再次啟動并運(yùn)行；

2) 非拜占庭模型，即每個參與共識的進(jìn)程都忠實(shí)地遵守算法約束，不參與破壞，不篡改消息.

在實(shí)際分布式系統(tǒng)中，異步通信普遍存在，同時用于做共識的節(jié)點(diǎn)往往都運(yùn)行在數(shù)據(jù)中心中，能夠保證大多數(shù)情況下節(jié)點(diǎn)不被劫持，且節(jié)點(diǎn)之間通信正常，因此這2點(diǎn)假設(shè)具有比較好的普適性.后來出現(xiàn)的很多共識算法的設(shè)計也都是基于這2點(diǎn)假設(shè)的，本文將基于這2個假設(shè)的分布式共識算法統(tǒng)稱為類Paxos算法.

一般來說，假設(shè)分布式系統(tǒng)中有2F+1個副本進(jìn)程，這些算法通常容忍其中F個副本進(jìn)程故障，即失效.也就是說只要其中有F+1個副本進(jìn)程正常工作，系統(tǒng)就能夠正常提供服務(wù).

Paxos算法關(guān)鍵的地方在于提議者不能隨便提出自己的提議.原因很簡單，如果系統(tǒng)中所有的接受者已經(jīng)達(dá)成了一致的意見，那么提議者就不能提出有可能破壞一致意見的提議.這么做的原因當(dāng)然是為了滿足分布式共識算法的上述4點(diǎn)性質(zhì).這樣，Paxos算法分為2個階段:1)提議者去了解一下當(dāng)前接受者群體的一些情況；2)提出合適的提議.這樣的2個階段如圖2所示，分別被稱為準(zhǔn)備提議階段和接受提議階段.

Fig. 2 The main procedure of Paxos圖2 Paxos算法主要過程

階段1. 準(zhǔn)備提議階段.

階段1.1. 提議者準(zhǔn)備提案編號n，向系統(tǒng)中大多數(shù)(超過半數(shù)以上)接受者發(fā)送這個編號n，消息被稱作是Prepare消息.

階段1.2. 接受者接收到帶有提案編號為n的Prepare 消息.根據(jù)接受者之前是否接受過比n編號更大的Prepare消息，接受者有2種狀態(tài)：1)接受過；2)沒有接受過.針對第1種狀態(tài)，接受者直接忽略編號為n的消息即可.在第2種狀態(tài)下，根據(jù)是否接受過階段2.2的Accept消息，又分為2種情況：1)沒有接受過；2)接受過.接受者的任務(wù)是將自己的最新狀態(tài)反饋給提議者，這個最新狀態(tài)包括自己接受過的最大提案編號以及提案內(nèi)容.沒有接受過則反饋空集即可.

階段2. 接受提議階段.

階段2.1. 提議者收到半數(shù)以上的接受者反饋的情況之后，會向所有接受者發(fā)送Accept消息，這個Accept消息中包含提案編號和提案內(nèi)容.提案編號在之前就確定了，關(guān)于提案內(nèi)容有2個來源.首先，可能有一部分接受者反饋了它們之前接受過的提案，提議者會從中選擇一個提案編號最大的提案內(nèi)容作為Accept消息中的提案內(nèi)容.其次，如果接受者反饋的提案的內(nèi)容都為空，那么提議者可以任意選擇一個值作為Accept消息的提案內(nèi)容.

Fig. 3 Livelock in Paxos圖3 Paxos算法中的活鎖

階段2.2. 如果接受者接收到了提案編號為n的Accept消息，且在此之前接受者沒有響應(yīng)過具有比編號n更大的消息，那么接受者接受這個Accept消息，即接受這個提案.

對于學(xué)習(xí)者而言，它們的工作比較簡單，就是調(diào)查接受者，看看是不是有大多數(shù)的接受者接受了相同的提案(包括提案編號以及提案的值).若有，則算法結(jié)束;若沒有，投票需要繼續(xù).算法中角色的分配是靈活的，在實(shí)際系統(tǒng)中，一個副本進(jìn)程可以同時扮演多個角色.

3 類Paxos算法發(fā)展以及分類

第2節(jié)介紹了基礎(chǔ)Paxos算法原理，系統(tǒng)經(jīng)歷2個階段可以確定一個操作或值.這一整個過程可被稱為一個實(shí)例(instance).一個實(shí)例是不夠的，多個實(shí)例可以用來維護(hù)副本狀態(tài)機(jī)的一致，即可以形成副本狀態(tài)機(jī)所必須的日志序列.在執(zhí)行一個實(shí)例時，可能會出現(xiàn)如圖3所示的活鎖情況，圖3中ServerA和ServerE反復(fù)交替執(zhí)行2個階段形成活鎖，Paxos算法并不能保證這種情況不會出現(xiàn).從原則上來看，活性的條件并不能保證，不能保證算法一定得出一個最終的共識結(jié)果.為了能夠讓算法盡量得出共識結(jié)果，類Paxos算法還需要一個重要的假設(shè)，即在一段時間內(nèi)大部分的參與者以及它們之間的網(wǎng)絡(luò)連接是良好的.實(shí)際系統(tǒng)的情況也符合這樣的假設(shè).這一段時間就被用來完成共識過程.

有了上述假設(shè)之后，在實(shí)際實(shí)現(xiàn)過程中，通常需要在系統(tǒng)中選取一個唯一的領(lǐng)導(dǎo)者來盡量避免活鎖情況的出現(xiàn).選完領(lǐng)導(dǎo)者以后的一段時間內(nèi)，所有操作指令的先后順序都由領(lǐng)導(dǎo)者決定.當(dāng)然這個領(lǐng)導(dǎo)者是可變化的，即當(dāng)領(lǐng)導(dǎo)者進(jìn)程發(fā)生故障后，系統(tǒng)通過選舉算法產(chǎn)生新的領(lǐng)導(dǎo)者，再繼續(xù)提供服務(wù).從Lamport[9-10]提出Paxos算法以來，有許多類Paxos共識算法研究陸續(xù)出現(xiàn)，以適應(yīng)不同的工程實(shí)踐環(huán)境.其中，就有一類采用了類似上文選取穩(wěn)定領(lǐng)導(dǎo)者的思路，本文將這一類算法稱作為強(qiáng)領(lǐng)導(dǎo)者(leader-based)共識算法.

當(dāng)然，隨著研究的深入，也有研究人員發(fā)現(xiàn)了一些新的思路：不通過選舉產(chǎn)生領(lǐng)導(dǎo)者，每個副本進(jìn)程都作為一個弱化的領(lǐng)導(dǎo)者，負(fù)責(zé)一部分請求的提交工作.通過其他約束來滿足安全性和活性條件，使得多個進(jìn)程之間達(dá)成共識.本文將這一類算法稱作為弱領(lǐng)導(dǎo)者(leaderless)共識算法.

3.1 強(qiáng)領(lǐng)導(dǎo)者共識算法

在第3節(jié)引言中也提到，強(qiáng)領(lǐng)導(dǎo)者共識算法的主要思路是引入一個穩(wěn)定的領(lǐng)導(dǎo)者，在一段時間內(nèi)，所有的值都由這個領(lǐng)導(dǎo)者來決定.在這個過程中，需要考慮3個問題：

1) 正常情況下的日志復(fù)制；

2) 領(lǐng)導(dǎo)者失效以后選取新的領(lǐng)導(dǎo)者，系統(tǒng)開始時沒有領(lǐng)導(dǎo)者屬于這種情況的一種特例；

3) 成員更新問題，即系統(tǒng)內(nèi)的成員發(fā)生變化，如何做配置切換.

在實(shí)際實(shí)現(xiàn)過程中，為了解決這3個問題，同時保證安全性條件，且盡量滿足活性條件，研究人員提出了各種強(qiáng)領(lǐng)導(dǎo)者共識算法.在類Paxos算法發(fā)展歷程中，先后出現(xiàn)了4種比較典型的強(qiáng)領(lǐng)導(dǎo)者共識算法：

1) Multi-Paxos[10-11]是將Paxos算法應(yīng)用到工程實(shí)踐中，通過對Paxos算法中所缺失的對于實(shí)際情況的補(bǔ)充來構(gòu)造完成的算法；

2) VR (viewstamped replication)是Liskov等人[12-13]為了替換2階段提交協(xié)議而設(shè)計的復(fù)制算法，主要用于數(shù)據(jù)庫系統(tǒng)和分布式文件系統(tǒng)；

3) ZAB[6](ZooKeeper’s atomic broadcast)是雅虎公司為了實(shí)現(xiàn)分布式協(xié)同服務(wù)而設(shè)計的一種可以支持崩潰恢復(fù)的原子廣播算法；

4) Raft是Ongaro等人[14]為了讓技術(shù)人員更好地理解、學(xué)習(xí)以及實(shí)現(xiàn)副本狀態(tài)機(jī)而設(shè)計的分布式共識算法，展現(xiàn)了副本狀態(tài)機(jī)實(shí)現(xiàn)過程中的各個細(xì)節(jié).

根據(jù)實(shí)際實(shí)現(xiàn)過程中需要考慮的問題，可以將強(qiáng)領(lǐng)導(dǎo)者共識算法分為3個部分：正常情況下的復(fù)制、領(lǐng)導(dǎo)者失效情況下的領(lǐng)導(dǎo)者選取以及成員更新.實(shí)際上4種算法描述基本都是圍繞著這3個部分進(jìn)行的.從強(qiáng)領(lǐng)導(dǎo)者共識算法的3個部分闡述4種算法在3個部分中采取的不同方法，以及不同方法在解決共識問題中對于安全性和活性所做的考慮.4種算法的描述中使用了一些類似的概念，但是表述不同，列舉在表2中.在4種算法中，副本進(jìn)程在不同時期會擁有不同狀態(tài)，狀態(tài)大致分為3種：正常情況下的領(lǐng)導(dǎo)者、正常情況下的追隨者以及在領(lǐng)導(dǎo)者失效過程中重新選舉的中間態(tài).

Table 2 The Confrontation of Some Concepts in Leader-Based Distributed Consensus Algorithms表2 強(qiáng)領(lǐng)導(dǎo)者共識算法相關(guān)概念對比

3.1.1 正常情況下的復(fù)制

正常情況下，強(qiáng)領(lǐng)導(dǎo)者共識算法中都存在一個領(lǐng)導(dǎo)者進(jìn)程，其主要的任務(wù)是接收來自客戶端的請求，將其轉(zhuǎn)換成為副本狀態(tài)機(jī)中的一個日志項.通過復(fù)制階段的算法約束讓其他副本進(jìn)程接受這個日志項，而又不違反安全性條件.4種算法在這個階段中的差別比較小，下面將對4種算法在這一階段的表現(xiàn)形式作簡要描述.

3.1.1.1 Multi-Paxos算法

領(lǐng)導(dǎo)者進(jìn)程接收客戶端請求后，在本地形成提案，并執(zhí)行基礎(chǔ)Paxos算法的第2個階段將提案發(fā)送給其他副本進(jìn)程，如圖4所示.

3.1.1.2 VR算法

領(lǐng)導(dǎo)者進(jìn)程接收客戶端請求，將請求添加到本地日志末端，然后向其他追隨者進(jìn)程發(fā)送這個請求，編號為n.追隨者進(jìn)程在接收這一請求之后會作一個檢查，查看本地的日志中是否包含所有編號小于n的日志項，若不包含，則等到全部包含為止.滿足上述條件以后，追隨者進(jìn)程會給領(lǐng)導(dǎo)者進(jìn)程一個回復(fù).領(lǐng)導(dǎo)者進(jìn)程在收到F個追隨者進(jìn)程的回復(fù)以后，在本地提交并且執(zhí)行這個請求，將執(zhí)行結(jié)果回復(fù)給客戶端.其他追隨者進(jìn)程想要獲知這個請求是否需要提交并且執(zhí)行則需要客戶端發(fā)起下一個請求，領(lǐng)導(dǎo)者在下一個請求中攜帶提交通知一起發(fā)送給追隨者進(jìn)程.若沒有，則領(lǐng)導(dǎo)者一段時間以后自己廣播Commit消息，通知追隨者進(jìn)程提交相對應(yīng)的請求.這個Commit消息本身也起到判斷領(lǐng)導(dǎo)者進(jìn)程和追隨者進(jìn)程之間的網(wǎng)絡(luò)連接是否正常的心跳作用，如圖5所示.

Fig. 4 Normal case in Multi-Paxos圖4 Multi-Paxos 正常復(fù)制階段

Fig. 5 Normal case in VR圖5 VR算法正常復(fù)制階段

3.1.1.3 ZAB算法

領(lǐng)導(dǎo)者進(jìn)程接收到客戶端請求后，本地形成1個事務(wù)，并給事務(wù)分配1個遞增的事務(wù)編號 (1個64 b的整數(shù)，前32 b表示事務(wù)所在的任期，后32 b表示任期內(nèi)的事務(wù)編號).然后，領(lǐng)導(dǎo)者進(jìn)程向其他副本進(jìn)程發(fā)送事務(wù)提案.其他副本進(jìn)程接收到事務(wù)提案以后，將事務(wù)寫到本地磁盤，然后向領(lǐng)導(dǎo)者進(jìn)程發(fā)送確認(rèn)消息.領(lǐng)導(dǎo)者進(jìn)程收到F個以上副本進(jìn)程的確認(rèn)消息后，向所有的副本進(jìn)程廣播Commit消息.副本進(jìn)程收到Commit消息時，提交該事務(wù).

3.1.1.4 Raft算法

領(lǐng)導(dǎo)者進(jìn)程接收客戶端請求，將請求記錄成日志項的形式，并把日志項發(fā)送給其他追隨者進(jìn)程，如圖6所示.領(lǐng)導(dǎo)者將T3日志項發(fā)送給其他2個追隨者完成復(fù)制過程.日志提交有2個限制條件：

1) 如果當(dāng)前日志項屬于領(lǐng)導(dǎo)者當(dāng)前任期，那么當(dāng)這個日志項發(fā)送給過半數(shù)以上的副本進(jìn)程并得到正確回應(yīng)以后，日志項即可標(biāo)記為已提交；

2) 如果當(dāng)前日志項屬于之前領(lǐng)導(dǎo)者的任期，那么這個日志項是否被提交的依據(jù)是它的下一條日志項是否已經(jīng)提交，也就是下一個日志項的提交會順便將之前所有的日志項標(biāo)記為已經(jīng)提交.

Fig. 6 Normal case in Raft圖6 Raft算法正常復(fù)制

為了追隨者進(jìn)程和領(lǐng)導(dǎo)者進(jìn)程維護(hù)的操作日志保持一致，在新的領(lǐng)導(dǎo)者產(chǎn)生后，領(lǐng)導(dǎo)者需要知道追隨者跟它保持一致的日志位置，然后從這個位置后的第1個位置開始執(zhí)行復(fù)制操作.

追隨者獲知日志項是否提交的方式跟VR算法類似，也是領(lǐng)導(dǎo)者通過下一個日志項來廣播提交通知，追隨者進(jìn)程獲得通知以后更新本地日志項的狀態(tài).在沒有請求到達(dá)的時候，Raft算法會定期地廣播空的日志項作為心跳消息.

3.1.1.5 小結(jié)

從3個方面比較4個算法的不同點(diǎn)：日志項提交的判斷、日志項是否連續(xù)以及追隨者進(jìn)程獲知日志項提交的方式.

1) 日志項提交條件.4種算法對于1個日志項是否提交具有1個基本原則，即過半進(jìn)程回復(fù)確認(rèn)以后，即表示這個日志項可以提交；Raft算法則對于不屬于當(dāng)前任期的日志項，有特殊判斷.

Fig. 8 View change in VR圖8 VR算法的視圖切換

2) 日志項是否連續(xù).Multi-Paxos算法的日志序列是允許有空洞的，如圖7所示.對于FollowerA來說沒有接收到日志項x=3,不影響其接受x=4.其他3種算法則要求日志連續(xù)，VR算法在算法描述中強(qiáng)調(diào)了這一特征， ZAB算法和Raft算法則隱含了這個特征.

Fig. 7 The empty instance of Multi-Paxos圖7 Multi-Paxos算法中的日志空洞

3) 獲知日志項需要提交的方式.Multi-Paxos和ZAB算法都有獨(dú)立的廣播提交通知的階段.VR和Raft算法則將提交通知隱含在下一個請求中，這個請求可以是來自客戶端的請求或者領(lǐng)導(dǎo)者的心跳信息.心跳消息在VR算法中表現(xiàn)為Commit消息，在Raft算法中表現(xiàn)為空日志項.

3.1.2 領(lǐng)導(dǎo)者選取

強(qiáng)領(lǐng)導(dǎo)者共識算法的一個重點(diǎn)就是在領(lǐng)導(dǎo)者失效的時候選出新的領(lǐng)導(dǎo)者并且需要保證在選舉過程中系統(tǒng)狀態(tài)的正確性.這里需要解決2個問題：第1問題是正確選舉產(chǎn)生新的領(lǐng)導(dǎo)者；第2問題是選舉產(chǎn)生新的領(lǐng)導(dǎo)者以后，如何保證新的領(lǐng)導(dǎo)者以1個正確的狀態(tài)開始新的任期，對于原來已經(jīng)提交的內(nèi)容不再推翻.為了避免舊領(lǐng)導(dǎo)者的影響，因此有了任期這個概念，新的領(lǐng)導(dǎo)者任期編號大于舊領(lǐng)導(dǎo)者任期編號.

3.1.2.1 Multi-Paxos算法

在Multi-Paxos算法中，選舉算法是相對比較靈活的.文獻(xiàn)[11]中提到，在選舉階段，副本進(jìn)程會產(chǎn)生一個任期編號，這個編號大于它之前見到的所有任期編號.然后，這個副本進(jìn)程向所有副本進(jìn)程發(fā)送這個任期編號.如果半數(shù)以上的副本進(jìn)程都回復(fù)表示沒有見過比這個任期編號更大的編號，那么該副本進(jìn)程就作為新的領(lǐng)導(dǎo)者，這個回復(fù)消息被稱為Promise消息，即發(fā)送了Promise消息的副本進(jìn)程將不再回應(yīng)來自舊任期的領(lǐng)導(dǎo)者的消息.與此同時，這個Promise消息中，也包含了副本進(jìn)程最近見過的任期，以及這個任期內(nèi)接受的最后一個日志項.至于選舉的觸發(fā)操作可以通過簡單的超時機(jī)制實(shí)現(xiàn).

領(lǐng)導(dǎo)者進(jìn)程從收到的Promise消息中選擇一個離自己任期最近的日志項，將這個日志項作為恢復(fù)的結(jié)束點(diǎn).然后領(lǐng)導(dǎo)者進(jìn)程只需要1個讀階段就能夠?qū)⒆约旱臓顟B(tài)和其他副本進(jìn)程恢復(fù)到一致.而讀階段可以簡單理解為在日志空洞位置執(zhí)行基礎(chǔ)Paxos算法的第1個階段去發(fā)現(xiàn)其他進(jìn)程在對應(yīng)位置上的值就可以，然后把這些位置上的值重新提交即可.

3.1.2.2 VR算法

當(dāng)系統(tǒng)中的追隨者進(jìn)程一段時間沒有收到領(lǐng)導(dǎo)者進(jìn)程的普通請求消息或者Commit消息時，追隨者進(jìn)程就會進(jìn)入領(lǐng)導(dǎo)者選舉，選舉主要分為3個過程.首先追隨者進(jìn)程將狀態(tài)轉(zhuǎn)換為視圖切換狀態(tài)，即表示不再接受來自其他進(jìn)程的請求.VR算法為領(lǐng)導(dǎo)者選取階段定義了3種消息，如圖8所示.3種消息也對應(yīng)了3個過程.START-VIEW-CHANGE的主要作用是告知其他追隨者自己進(jìn)入新的任期，同時在此過程中選出一個最高的任期作為新的任期，擁有最高任期且得到多數(shù)派認(rèn)可的副本進(jìn)程出任領(lǐng)導(dǎo)者.這個過程類似于Paxos算法的第1個階段.DO-VIEW-CHANGE作為第2個過程其主要作用是，非領(lǐng)導(dǎo)者進(jìn)程向領(lǐng)導(dǎo)者進(jìn)程發(fā)送自己的本地日志.領(lǐng)導(dǎo)者收集完過半進(jìn)程的日志序列后，確認(rèn)自己進(jìn)入領(lǐng)導(dǎo)者狀態(tài)，從收集的日志序列中選出一個最新日志作為新任期的初始狀態(tài).第3個過程START-VIEW的作用則是，新的領(lǐng)導(dǎo)者向所有副本進(jìn)程宣布其領(lǐng)導(dǎo)者身份，并告知它們進(jìn)入新的任期，將本地狀態(tài)切換為新的狀態(tài)，開始進(jìn)入追隨者狀態(tài)正常工作，完成視圖切換過程.VR算法的選舉橫跨了第1，2個過程.對于新任期正確狀態(tài)的確定則主要體現(xiàn)在第2，3個過程.

3.1.2.3 ZAB算法

在ZAB算法中，每個進(jìn)程有3種狀態(tài)，即選舉狀態(tài)、追隨狀態(tài)以及領(lǐng)導(dǎo)狀態(tài).正常情況下，副本進(jìn)程會向領(lǐng)導(dǎo)者進(jìn)程發(fā)送心跳信息，當(dāng)領(lǐng)導(dǎo)者進(jìn)程一段時間沒有收到多數(shù)副本進(jìn)程的心跳消息時，它就進(jìn)入選舉狀態(tài).同時如果副本進(jìn)程發(fā)現(xiàn)領(lǐng)導(dǎo)者進(jìn)程失效或者讓出了領(lǐng)導(dǎo)者的位置，它也會將自己的狀態(tài)切換為選舉狀態(tài).在ZooKeeper中選舉算法有多種，最經(jīng)典的選舉算法是Fast leader election算法，思路就是每個副本進(jìn)程都會維護(hù)一個投票箱，用以保存投票請求并且統(tǒng)計選票.進(jìn)入選舉階段以后，系統(tǒng)經(jīng)歷2個過程.

1) 候選者進(jìn)程向其他副本進(jìn)程發(fā)送請求投票消息，請求投票消息內(nèi)容主要包含2個信息：①副本進(jìn)程編號；②副本進(jìn)程本地最后一個事務(wù)的編號.此后的過程就是每個副本進(jìn)程在接收到投票消息以后，如果它認(rèn)可這個投票，它會統(tǒng)計這個投票，同時向外廣播這個投票.對于判斷是否認(rèn)可的條件主要依賴于投票內(nèi)容和副本進(jìn)程本地狀態(tài)的對比.直到有過半進(jìn)程都接受了某一個投票內(nèi)容，則第1個過程結(jié)束，產(chǎn)生了新的準(zhǔn)領(lǐng)導(dǎo)者.

2) 準(zhǔn)領(lǐng)導(dǎo)者將會向其他副本進(jìn)程發(fā)送新任期通知，其他副本進(jìn)程收到新任期通知以后會將本地狀態(tài)更新，并且會向新的準(zhǔn)領(lǐng)導(dǎo)者發(fā)送確認(rèn)消息，確認(rèn)消息中就包含本地最新的事務(wù)日志.準(zhǔn)領(lǐng)導(dǎo)者收到過半副本進(jìn)程的回復(fù)以后，會從回復(fù)消息中選擇一個最新的事務(wù)日志作為新任期初始化的事務(wù)集合，此時領(lǐng)導(dǎo)者也就確認(rèn)了自己的領(lǐng)導(dǎo)者身份.

為了提高數(shù)據(jù)同步效率，領(lǐng)導(dǎo)者為每個支持它的副本進(jìn)程維護(hù)一個FIFO隊列，將新的事務(wù)日志中未提交的事務(wù)放入隊列，同時向隊列中加入Commit消息.而通信模塊則負(fù)責(zé)將各個隊列里的消息順序發(fā)送給對應(yīng)的副本進(jìn)程，同步過程即是恢復(fù)過程.至此完成視圖切換，然后開始接收客戶端的請求，提供服務(wù).

3.1.2.4 Raft算法

Fig. 9 Leader election in Raft圖9 Raft算法選取領(lǐng)導(dǎo)者

Raft算法為副本進(jìn)程定義了3種不同角色：領(lǐng)導(dǎo)者、候選者和追隨者，分別對應(yīng)了副本進(jìn)程在不同時期的狀態(tài).同時，Raft算法用一種心跳機(jī)制(heartbeat)來觸發(fā)選舉過程，如圖9所示.當(dāng)系統(tǒng)啟動時，所有的副本進(jìn)程都會被初始化為追隨者，領(lǐng)導(dǎo)者會向所有追隨者發(fā)送心跳信息來確保領(lǐng)導(dǎo)者和其他追隨者連接正常.如果有追隨者在1個周期內(nèi)沒有收到心跳信息，它就會認(rèn)為當(dāng)前系統(tǒng)中沒有領(lǐng)導(dǎo)者，然后把自己的狀態(tài)轉(zhuǎn)換成候選者狀態(tài)，并增加當(dāng)前任期編號，發(fā)起1輪投票.如果1個候選者在1個任期內(nèi)收獲了半數(shù)以上的副本進(jìn)程給它投票，那它就會將自己的狀態(tài)轉(zhuǎn)化為領(lǐng)導(dǎo)者.投票請求中的內(nèi)容包含3個重要信息：候選者新的任期、候選者本地最新日志項的任期以及日志編號.判斷是否投票的條件，首先投票請求中的新任期比副本進(jìn)程本地任期要大，這一條件不滿足則不投票；其次，對比投票請求中的日志任期和副本進(jìn)程本地最后一個日志項的任期，投票請求的日志任期較小，則副本進(jìn)程不投票，相同則比較日志項編號，投票請求中的日志項編號較小則不投票.總結(jié)一下就是，投票請求內(nèi)容比副本進(jìn)程本地狀態(tài)更超前，則副本進(jìn)程認(rèn)可這個投票，否則就不投票.

3.1.2.5 小結(jié)

新領(lǐng)導(dǎo)者開啟新的任期以后，就開始正常的日志復(fù)制工作，復(fù)制過程初始階段不可避免地涉及到對于舊任期日志的處理，在3.1節(jié)的日志復(fù)制階段有相關(guān)說明.

總體上，選取新的領(lǐng)導(dǎo)者是因為舊的領(lǐng)導(dǎo)者失效，出于安全性考慮，同一任期最好只有1個領(lǐng)導(dǎo)者，因為多個領(lǐng)導(dǎo)者可能造成日志序列不一致.因此，4種算法在選舉階段的目標(biāo)也是相對明確的，即在1個任期內(nèi)選出1個領(lǐng)導(dǎo)者，選舉操作本身成功與否都不能影響系統(tǒng)安全性.對于領(lǐng)導(dǎo)者選舉部分來說，有4個關(guān)鍵方面：1)選舉觸發(fā)條件;2)副本進(jìn)程當(dāng)選領(lǐng)導(dǎo)者的條件;3)確定任期內(nèi)領(lǐng)導(dǎo)者的唯一性;4)新任期系統(tǒng)狀態(tài)的確定.

1) 選舉觸發(fā)條件.Multi-Paxos算法和ZAB算法中副本進(jìn)程和領(lǐng)導(dǎo)者進(jìn)程之間會維護(hù)獨(dú)立的雙向心跳消息，所謂雙向指的是領(lǐng)導(dǎo)者到追隨者、追隨者到領(lǐng)導(dǎo)者.ZAB算法選舉觸發(fā)是2個方面的，可以來自于領(lǐng)導(dǎo)者自身或者追隨者進(jìn)程.VR算法和Raft算法則主要是領(lǐng)導(dǎo)者向追隨者發(fā)送心跳消息，追隨者在一段時間沒有收到心跳消息以后會觸發(fā)選舉操作.心跳消息也不一定是單獨(dú)設(shè)置的.在VR算法中，心跳消息可以是普通請求消息或者提交通知.對于Raft算法來說，心跳消息是正常的日志項或者空的日志項.

2) 副本進(jìn)程當(dāng)選領(lǐng)導(dǎo)者的條件.4種算法判斷領(lǐng)導(dǎo)者當(dāng)選的條件是一致的，即該領(lǐng)導(dǎo)者進(jìn)程得到了過半副本進(jìn)程的認(rèn)可.VR和ZAB算法對于領(lǐng)導(dǎo)者當(dāng)選的判斷可以是由候選者本身統(tǒng)計，其他副本進(jìn)程也有統(tǒng)計.Multi-Paxos和Raft算法主要是候選者向別人征集投票，自己統(tǒng)計.

3) 確定任期內(nèi)領(lǐng)導(dǎo)者的唯一性.4種算法本質(zhì)上都限制在某一個任期內(nèi)只投1次票.在這種情況下，要么形成分票的局面，即沒有1個候選者獲得過半進(jìn)程認(rèn)可;要么就選出1個領(lǐng)導(dǎo)者，而這個領(lǐng)導(dǎo)者，在這個任期內(nèi)是唯一的.對于分票情況，4種算法都是通過超時，然后增加任期編號，重新選舉.為了選舉能夠盡快成功，ZAB和VR算法通過不停廣播選票信息，使得盡可能多的副本進(jìn)程參與選舉.Raft算法則通過隨機(jī)化超時時間來降低再次分票的可能性.

4) 新任期系統(tǒng)狀態(tài)的確定.Multi-Paxos算法新任領(lǐng)導(dǎo)者在確定日志恢復(fù)結(jié)束點(diǎn)之后，領(lǐng)導(dǎo)者進(jìn)程會將自己的狀態(tài)同步到日志恢復(fù)結(jié)束點(diǎn)的狀態(tài)，然后開始正常工作；VR和ZAB算法則是向其他副本進(jìn)程征集，在半數(shù)以上副本進(jìn)程的日志序列中，選一個最新的日志作為新任期初始狀態(tài)，實(shí)現(xiàn)上有些小的差別；Raft算法則是在選舉的時候就要求候選者符合一定條件，其他副本進(jìn)程才會給它投票，選出來的領(lǐng)導(dǎo)者本身就有比較全面的狀態(tài).

3.1.3 成員更新

成員更新也是分布式系統(tǒng)中經(jīng)常會遇到的問題，涉及到系統(tǒng)規(guī)模的縮小和擴(kuò)大.一個最簡單的思路是把當(dāng)前系統(tǒng)停掉，停止期間不接收客戶端請求，然后更換配置再重啟系統(tǒng)，等系統(tǒng)恢復(fù)正常以后，開始對外提供服務(wù).然而，這樣不僅僅會影響系統(tǒng)的可用性，同時如果手工操作失誤很有可能造成無法恢復(fù)的局面.舊版本ZooKeeper就是這樣做的，ZAB算法中也不包含成員更新部分.成員更新頻率不高，在實(shí)際場景中也不如前面4個問題關(guān)鍵，因此很多算法都沒有考慮這個問題.

在文獻(xiàn)[9-10]中，提及了成員變更的方法，這一方法對于Multi-Paxos來說同樣適用，具體的思路是將成員變更操作看作是狀態(tài)機(jī)的一部分，可以通過操作指令去修改.當(dāng)新配置出現(xiàn)時，將其形成一個提案通過Multi-Paxos算法去提交.提交條件還按照舊的配置，當(dāng)新的配置提交并執(zhí)行時，系統(tǒng)切換到新的配置上來.

Raft算法提出了共同共識(joint consensus)的概念，指的是在集群進(jìn)行配置調(diào)整的時候，讓系統(tǒng)先進(jìn)入一個過渡狀態(tài)，這個過渡狀態(tài)稱為共同共識，一旦共同共識被提交，系統(tǒng)就可以切換成新的配置.共同共識的狀態(tài)可以理解為新舊配置結(jié)合的一種狀態(tài)，同時也是一種特殊的日志項.領(lǐng)導(dǎo)者會廣播這個日志項，讓日志項提交.

實(shí)際上，以上提到的成員變更方法，基本都是將集群的配置更新作為狀態(tài)機(jī)的一部分，這也是類Paxos共識算法都可以通用的思路.而為了系統(tǒng)具有更好的可用性，往往都會讓新加入的成員與老成員的狀態(tài)基本達(dá)到一致時再執(zhí)行配置更新.

3.1.4 強(qiáng)領(lǐng)導(dǎo)者共識算法總結(jié)

在上述的4種強(qiáng)領(lǐng)導(dǎo)者共識算法中很容易看到，在解決共識問題過程中，解決的思路有著緊密的聯(lián)系.4種算法都有類似于領(lǐng)導(dǎo)者進(jìn)程這樣的角色，整體上由其負(fù)責(zé)多個副本進(jìn)程之間達(dá)成共識的工作.4種算法中，領(lǐng)導(dǎo)者進(jìn)程都需要等待超過半數(shù)以上的副本進(jìn)程正確的回應(yīng)后才能夠就一個提案達(dá)成共識.當(dāng)然不同算法，對于提案提交條件有不同限制.Multi-Paxos 被當(dāng)作是基礎(chǔ)Paxos算法的一種具體實(shí)現(xiàn)形式，在文獻(xiàn)[10]中只是簡單提了一下，而實(shí)際上沒有系統(tǒng)而完整的描述.VR算法、ZAB算法以及Raft算法是對Multi-Paxos算法作出了更加嚴(yán)格的限制以及更加規(guī)范的、階段化的描述.同時，4種算法也有著不太一樣的設(shè)計原則.

對于舊領(lǐng)導(dǎo)者尚未提交的日志項，Raft算法是比較消極的，只有舊領(lǐng)導(dǎo)任期內(nèi)的日志項被過半復(fù)制或者日志項已經(jīng)提交，才能夠保證該日志項不被覆蓋.Multi-Paxos，VR，ZAB算法則相對比較激進(jìn)，即便是舊領(lǐng)導(dǎo)者未過半復(fù)制的日志項，只要是新的領(lǐng)導(dǎo)者能夠獲知這個日志項的存在，也會將這個日志項重新提交，然而處理的方式可能會存在細(xì)微的不同.對于只在舊領(lǐng)導(dǎo)者本地存在的日志項，當(dāng)這個舊領(lǐng)導(dǎo)者重新回到系統(tǒng)中的時候：Raft算法的處理方式是新的領(lǐng)導(dǎo)者會把自己本地的日志發(fā)送給回歸的舊領(lǐng)導(dǎo)者進(jìn)程，覆蓋掉只在舊領(lǐng)導(dǎo)者本地存在的舊的日志項；Multi-Paxos算法和VR算法則采用恢復(fù)機(jī)制嘗試將舊的日志項覆蓋；ZAB 算法特別地設(shè)計了TRUNC指令用以刪除只在舊領(lǐng)導(dǎo)者本地存在的日志項，然后添加新的日志項.

隨著強(qiáng)領(lǐng)導(dǎo)者共識算法在工業(yè)界的盛行，如Chubby 使用Multi-Paxos算法,ZooKeeper使用ZAB算法以及etcd 使用Raft算法，強(qiáng)領(lǐng)導(dǎo)者共識算法在解決共識問題上更能被工程人員接受.因為后續(xù)出現(xiàn)的如Raft 算法，提供了完整的副本狀態(tài)機(jī)實(shí)現(xiàn)的描述，使得副本狀態(tài)機(jī)的實(shí)現(xiàn)以及共識算法的理解變得相對容易.

3.2 弱領(lǐng)導(dǎo)者共識算法

強(qiáng)領(lǐng)導(dǎo)者共識算法會有單個領(lǐng)導(dǎo)者在處理請求上的性能瓶頸問題.尤其在廣域網(wǎng)的情況下，客戶端和領(lǐng)導(dǎo)者節(jié)點(diǎn)可能不在同一個區(qū)域，跨域請求的延時會相對較高.因此，也有研究人員想基于基礎(chǔ)Paxos算法設(shè)計弱領(lǐng)導(dǎo)者共識算法.

3.2.1 Mencius算法

Mencius[15]算法就是為了解決單領(lǐng)導(dǎo)者共識算法存在的瓶頸問題而設(shè)計.在Mencius算法中，所有副本進(jìn)程組成一個閉環(huán)，提前給這些副本進(jìn)程分配好用以提出題案的空位編號，如圖10所示.通過這種方式，所有副本進(jìn)程都輪流提出自己的提案.這樣做能夠提高系統(tǒng)吞吐率，尤其是在整個系統(tǒng)性能限制在CPU資源上的時候.因為日志空位上的指令提案由哪個副本進(jìn)程負(fù)責(zé)提出是預(yù)先商定好的，通過這種形式也就省去了基礎(chǔ)Paxos算法中的準(zhǔn)備提議階段，負(fù)責(zé)對應(yīng)空位的副本進(jìn)程直接執(zhí)行接受提議階段即可.如果該副本進(jìn)程暫時沒有提案可以提出，則在對應(yīng)空位填入空操作.這種做法給整個系統(tǒng)帶來更均衡的通信模式，進(jìn)而能夠更好地利用閑置的網(wǎng)絡(luò)帶寬.當(dāng)一個副本進(jìn)程X失效或者處理速度很慢時，其余副本進(jìn)程可以通過運(yùn)行基礎(chǔ)Paxos算法中的準(zhǔn)備提議階段，接管原本分配給X的空位，在接受提議階段只能提交空操作.判斷一個副本進(jìn)程是否需要被接管可以簡單通過超時機(jī)制來實(shí)現(xiàn).

Fig. 10 The log of Mencius圖10 Mencius算法的日志

在正常情況下，系統(tǒng)中所有副本進(jìn)程請求負(fù)載比較均衡，系統(tǒng)性能跟有固定領(lǐng)導(dǎo)者的Multi-Paxos算法是比較類似的，但是Mencius算法有效解決了單領(lǐng)導(dǎo)者性能瓶頸以及請求跨地域情況下網(wǎng)絡(luò)延時較高等問題.然而，當(dāng)系統(tǒng)中有部分副本進(jìn)程比較空閑，以及有部分副本進(jìn)程很慢時，就會產(chǎn)生很多無效的空操作，進(jìn)而使整個系統(tǒng)性能下降.為了解決這一問題，Mencius算法也提出了一些如租約機(jī)制等優(yōu)化手段，但是依然避免不了系統(tǒng)性能受限于最慢的副本進(jìn)程.同時如果有副本進(jìn)程失效，因為系統(tǒng)需要花費(fèi)時間去檢測失效的副本進(jìn)程，還需要有其他副本進(jìn)程接管它負(fù)責(zé)的空位，這樣的開銷甚至比強(qiáng)領(lǐng)導(dǎo)者共識算法切換領(lǐng)導(dǎo)者更大.所以從可用性上來講，它有可能比強(qiáng)領(lǐng)導(dǎo)者共識算法表現(xiàn)得更差.為了避免以上Mencius算法的缺陷，卡內(nèi)基梅隆大學(xué)的研究人員提出了基于所有副本進(jìn)程身份均等的EPaxos[16](egalitarian Paxos)算法.

3.2.2 EPaxos算法

EPaxos算法給出的設(shè)計思路是允許所有的副本進(jìn)程從客戶端接收請求，并讓副本進(jìn)程擁有只需要1個通信輪次就可以提交提案的權(quán)利.在這種情況下，系統(tǒng)就可以有效實(shí)現(xiàn)負(fù)載均攤，此外，還可以允許客戶端盡量選擇離自己較近的副本進(jìn)程提交請求，從而解決跨地域請求延時較長的問題.基礎(chǔ)Paxos算法能夠?qū)崿F(xiàn)副本進(jìn)程最少在2個通信輪次的情況下提交提案，達(dá)到同樣效果，也就是基礎(chǔ)Paxos算法的2個階段.EPaxos算法能夠?qū)崿F(xiàn)在1個通信輪次內(nèi)提交提案，讓其他副本進(jìn)程接受，原因也就在于算法假設(shè)：沒有關(guān)聯(lián)的2個操作指令(即提案內(nèi)容)在所有副本進(jìn)程上提交以及執(zhí)行的順序是無關(guān)緊要的.舉例來講，有2個副本進(jìn)程A和B，A提出1個提案將x變?yōu)閤+1，B提出1個提案將y變?yōu)閥-1.2個提案所改變的對象是不相同的，那么它們的順序先后并不是很重要.基礎(chǔ)Paxos算法里有1個實(shí)例的概念，1個實(shí)例就是運(yùn)行1輪Paxos算法，在對應(yīng)的1維日志項的空位里填上狀態(tài)機(jī)操作指令，這樣就形成了1個一致性操作序列.在EPaxos算法中，為了使得不同副本進(jìn)程在提出提案過程中不會與其他副本進(jìn)程在日志項排序上存在競爭，EPaxos算法將日志設(shè)計成了1個2維矩陣的形式.日志項編號為R.id，其中R表示的是副本進(jìn)程的編號，id表示的是在副本進(jìn)程R內(nèi)連續(xù)遞增的正整數(shù).每個副本進(jìn)程都會維護(hù)這樣1個矩陣，用以記錄整個系統(tǒng)的狀態(tài)，如圖11所示.

Fig. 12 The main procedure of EPaxos圖12 EPaxos算法主要過程

Fig. 11 The log of EPaxos圖11 EPaxos算法的日志

在實(shí)際生產(chǎn)環(huán)境中，對于狀態(tài)機(jī)而言，操作指令之間完全不存在沖突的概率是比較低的.在操作指令存在沖突的情況下如何處理操作之間的順序也就成為了EPaxos算法設(shè)計過程中最主要解決的問題.

簡單來說，EPaxos算法主要貢獻(xiàn)在于無沖突操作指令可以在經(jīng)歷1個階段以后就可以提交并且執(zhí)行.在存在操作指令沖突的情況下，退化為2個階段的基礎(chǔ)Paxos算法.因此，EPaxos算法適用于沖突較少，甚至是沒有沖突的應(yīng)用場景.

3.2.3 弱領(lǐng)導(dǎo)者共識算法總結(jié)

弱領(lǐng)導(dǎo)者共識算法在設(shè)計的過程中需要考慮2個關(guān)鍵問題：

1) 沒有單個穩(wěn)定的領(lǐng)導(dǎo)者，怎樣使得請求在盡量少的通信輪次后被提交；

2) 當(dāng)副本進(jìn)程失效時，如何恢復(fù).

針對問題1，弱領(lǐng)導(dǎo)者算法的解決思路是將領(lǐng)導(dǎo)者的責(zé)任均攤到每個副本進(jìn)程上去.Mencius算法是將日志空位進(jìn)行預(yù)分配，不選領(lǐng)導(dǎo)者而是每個副本進(jìn)程輪流作為領(lǐng)導(dǎo)者主持日志項的提交.EPaxos算法則是組織了一種新的日志形式，將日志組織成為2維矩陣.每個副本進(jìn)程都負(fù)責(zé)提交自己提出的日志項，作為自己提出的日志項的領(lǐng)導(dǎo)者，同時也維護(hù)其他副本進(jìn)程提出的日志項的狀態(tài).

對于問題2，無論是Mencius算法還是EPaxos算法都需要通過其他副本進(jìn)程接管的形式對于失效進(jìn)程的日志項進(jìn)行恢復(fù).比較不同的是，EPaxos算法的性能不會像Mencius算法一樣受限于集群中較慢的節(jié)點(diǎn)，因為算法只要能夠從最快的多數(shù)派中拿到回復(fù)就可以對1個日志項進(jìn)行提交.Mencius算法因為副本進(jìn)程輪流當(dāng)領(lǐng)導(dǎo)者角色的緣故，無法避免慢節(jié)點(diǎn)的影響.然而，EPaxos算法由于同時有多個領(lǐng)導(dǎo)者存在，通過將日志設(shè)計為2維矩陣的形式避免了不同領(lǐng)導(dǎo)者對于同一個日志項空位的競爭.但是為了多個進(jìn)程間能夠拿到1個一致性順序，不得不做一些額外的設(shè)計.帶來的開銷也是多方面的，例如需要1個額外的階段來讓各個副本進(jìn)程接受同一個操作指令以及依賴集合.恢復(fù)階段的設(shè)計也比較復(fù)雜，場景局限也很顯然.

3.3 2類算法對比

強(qiáng)領(lǐng)導(dǎo)者和弱領(lǐng)導(dǎo)者可以看作是Paxos算法2種不同的實(shí)現(xiàn)方向，從本質(zhì)上都是Paxos算法在實(shí)際使用中的一種擴(kuò)展形式.在不同的適用場景中，工程人員會有不同方面的考慮.2類算法對比如表3所示：

Table 3 Contradistinction of Two Kinds of Distributed Consensus Algorithms表3 2類分布式共識算法的對比

4 類Paxos共識算法進(jìn)一步改進(jìn)

4.1 算法設(shè)計上的改進(jìn)

Paxos算法的作者Lamport在后續(xù)研究中，給出了一些新的改進(jìn)思路.Paxos算法中假設(shè)總副本進(jìn)程數(shù)為2F+1,容忍F個副本進(jìn)程失效，達(dá)成共識過程中只需要F+1個副本進(jìn)程參與.Cheap Paxos[17]算法為了節(jié)約資源，在算法設(shè)計過程中只使用了F+1個副本進(jìn)程，另外F個副本進(jìn)程在正常情況下處于閑置狀態(tài).當(dāng)正常工作的F+1個副本進(jìn)程出現(xiàn)進(jìn)程失效的情況時，閑置的副本進(jìn)程就會出來替換失效的進(jìn)程.當(dāng)然，這一過程不可避免地會造成額外的恢復(fù)開銷.這一優(yōu)化雖然對性能沒有太大的提升，但是提出了一個更節(jié)約資源的思路.Shi等人[18]在他們的研究中設(shè)計了ThriftyPaxos算法，旨在構(gòu)建低成本高可用的副本狀態(tài)機(jī).在ThriftyPaxos算法中，副本進(jìn)程在處理請求的過程中，后臺同時進(jìn)行恢復(fù)操作.這樣的設(shè)計改善了Cheap Paxos算法恢復(fù)慢、可用性差等缺陷.

在Multi-Paxos算法中，客戶端將請求先提交給領(lǐng)導(dǎo)者，然后再由領(lǐng)導(dǎo)者轉(zhuǎn)發(fā)給其他的接受者.Fast Paxos[19]算法則認(rèn)為：從本質(zhì)上，領(lǐng)導(dǎo)者只應(yīng)該起到協(xié)調(diào)的作用，客戶端本身更清楚提案的內(nèi)容.Fast Paxos算法提出客戶端應(yīng)該直接將提案發(fā)送給接受者，在沒有沖突的情況下通信1輪直接提交，在有沖突的情況下，交由領(lǐng)導(dǎo)者協(xié)調(diào)處理，領(lǐng)導(dǎo)者協(xié)調(diào)完畢后在下1輪通信中完成提交.Fast Paxos算法因為不容易被理解以及實(shí)現(xiàn)過程比較復(fù)雜，很少被使用.這些改進(jìn)實(shí)質(zhì)上可以看作是對于Paxos算法思想的一種延伸.

4.2 結(jié)合硬件特性的優(yōu)化

當(dāng)前，越來越多的研究人員開始關(guān)注共識算法結(jié)合網(wǎng)絡(luò)環(huán)境和特定硬件的研究.隨著RDMA網(wǎng)絡(luò)技術(shù)的發(fā)展，類Paxos共識算法在設(shè)計和實(shí)現(xiàn)過程中出現(xiàn)了新的變化.Poke等人[20]基于RDMA原語設(shè)計了新的共識算法DARE.DARE算法跟Raft類似分為3個階段：領(lǐng)導(dǎo)者選取、日志復(fù)制和集群成員更新.主要貢獻(xiàn)在于引入了RDMA單邊操作：Read和Write.因為旁路服務(wù)端的單邊通信模式跟以往的雙邊通信模式有所區(qū)別，所以DARE重新設(shè)計了Raft共識算法.有效利用了RDMA單邊操作低延時的特性，使得副本狀態(tài)機(jī)的性能有了大幅度提升.

Wang等人[21]基于RDMA 原語實(shí)現(xiàn)了Multi-Paxos算法APUS.與DARE的不同之處在于APUS主要為通用服務(wù)器程序設(shè)計，而DARE主要是用于維護(hù)小型簡單的鍵值存儲.其次由于DARE中領(lǐng)導(dǎo)者進(jìn)程負(fù)擔(dān)所有的過程，完全旁路其他副本進(jìn)程，因此當(dāng)客戶端連接數(shù)增多時，DARE會有嚴(yán)重的性能下降.APUS比DARE擁有更好的可擴(kuò)展性，它采用了selective signaling[22]技術(shù)，領(lǐng)導(dǎo)者進(jìn)程不必一直輪詢完成事件隊列(completion queue)獲取網(wǎng)卡的操作完成信號.此外，DARE中為了實(shí)現(xiàn)超低的請求延時，把所有數(shù)據(jù)都存在內(nèi)存中.APUS把日志數(shù)據(jù)都持久化到SSD硬盤中去，是一個通用型可持久化的系統(tǒng).

另一方面，分布式共識算法的實(shí)現(xiàn)跟網(wǎng)絡(luò)狀態(tài)和性能密不可分，對網(wǎng)絡(luò)性能和穩(wěn)定性有著比較高的要求.研究人員發(fā)現(xiàn)在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中，有很多時間花費(fèi)在操作系統(tǒng)網(wǎng)絡(luò)協(xié)議棧上，因此部分研究人員漸漸開始關(guān)注類Paxos共識算法在網(wǎng)絡(luò)設(shè)備中實(shí)現(xiàn)的研究.Speculative Paxos[23]使用可預(yù)測的網(wǎng)絡(luò)行為來改善Paxos算法的性能.它有效將IP多播、固定長度的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及作為消息序列器的單個頂端交換機(jī)等技術(shù)組合在一起，消除了數(shù)據(jù)中心網(wǎng)絡(luò)中的重排現(xiàn)象.這個方法引入了MOM(mostly-ordered multicast)原語，可以最大程度上保證：所有接收者接收到的來自不同發(fā)送者的消息擁有一致性的順序，這使得數(shù)據(jù)中心中的網(wǎng)絡(luò)行為處于可預(yù)測狀態(tài)，客戶端的請求能夠在盡可能少的通信開銷內(nèi)被提交并執(zhí)行.

NetPaxos[24]主要提供了在SDN網(wǎng)絡(luò)交換機(jī)中，利用網(wǎng)絡(luò)中的消息順序?qū)崿F(xiàn)整個Paxos算法全部邏輯的詳細(xì)設(shè)計.同時，也表明了在不更改OpenFlow[25]API接口的情況下，僅僅依賴網(wǎng)絡(luò)交換機(jī)設(shè)備特性實(shí)現(xiàn)樂觀控制協(xié)議的可行性.它與Speculative Paxos最大的不同之處在于交換機(jī)設(shè)備本身會作為共識算法中的角色，共識算法邏輯運(yùn)行在交換機(jī)中.Speculative Paxos只是利用網(wǎng)絡(luò)設(shè)備特性去優(yōu)化Paxos算法，共識算法相關(guān)邏輯還需要運(yùn)行在服務(wù)器上.

與Speculative Paxos類似，NOPaxos[26](network ordered Paxos)也是將共識問題分為2個部分：1)網(wǎng)絡(luò);2)共識算法.Paxos算法的基本假設(shè)是網(wǎng)絡(luò)消息可以是亂序的、不可靠的.NOPaxos的思路是設(shè)計一個OUM (ordered unreliable multicast)原語,在網(wǎng)絡(luò)層面上提供有序不可靠的傳輸，這樣的原語在數(shù)據(jù)中心網(wǎng)絡(luò)中帶來的開銷近乎為零.有了這個原語，NOPaxos就可以利用消息傳遞過程中的有序性來減少協(xié)同過程中所需要的通信操作.在應(yīng)用層面只需要考慮網(wǎng)絡(luò)丟包情況即可.解決了亂序問題以后，達(dá)成共識就變得相對簡單，開銷也變得更小.當(dāng)然和Speculative Paxos一樣，NOPaxos也依賴于數(shù)據(jù)中心固定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及可靠性網(wǎng)絡(luò)等特性，因此不具備很好的通用性.NOPaxos和Speculative Paxos的不同之處在于，OUM保證了消息的有序性，而MOM只是最大程度上保證消息的有序性.NOPaxos只需要簡單的多數(shù)派(即過半)，但是Speculative Paxos需要更大的多數(shù)派，也就意味著性能方面延時會比NOPaxos高.比較遺憾的是OUM需要更多網(wǎng)絡(luò)技術(shù)方面的支持，需要網(wǎng)絡(luò)設(shè)備提供可編程的數(shù)據(jù)層.MOM可以只需要設(shè)備支持OpenFlow協(xié)議即可.

除了修改交換機(jī)之外，István等人[27]認(rèn)為共識算法在解決共識問題過程中所帶來的協(xié)同通信的開銷往往是讓人無法接受的，因此在實(shí)際使用過程中不得不做一些取舍，比如容忍部分?jǐn)?shù)據(jù)丟失和數(shù)據(jù)不一致，以降低協(xié)同過程帶來的開銷.因此，為了更高效地解決共識問題，他們把共識算法做到硬件中，用硬件的獨(dú)特優(yōu)勢來實(shí)現(xiàn)高性能共識算法.為了驗證這一想法的可行性，他們在FPGA中實(shí)現(xiàn)了ZAB算法，比原有ZooKeeper系統(tǒng)擁有更好更穩(wěn)定的性能.同時因為不跟特定交換機(jī)設(shè)備相關(guān)，他們設(shè)計的硬件中間件可以適應(yīng)不同的網(wǎng)絡(luò)，具有良好的可移植性.

5 類Paxos共識算法的應(yīng)用現(xiàn)狀

在應(yīng)用方面，Paxos算法用以解決數(shù)據(jù)一致性與可靠性被工業(yè)界普遍接受與認(rèn)可.使用Paxos算法的鍵值存儲、數(shù)據(jù)庫、分布式文件系統(tǒng)以及分布式消息隊列等系統(tǒng)越來越多.工程實(shí)踐角度，Chandra等人[11]就如何使用Paxos 算法實(shí)現(xiàn)分布式共識系統(tǒng)給出了詳細(xì)的工程細(xì)節(jié).

1) 鍵值存儲系統(tǒng)方面.開源的ZooKeeper，etcd在業(yè)界已經(jīng)被廣泛使用多年.ZooKeeper作為一種分布式協(xié)同服務(wù)解決了很多分布式情況下如分布式鎖等問題，成為了分布式系統(tǒng)架構(gòu)中不可缺少的一個組成部分.

2) 數(shù)據(jù)庫系統(tǒng)方面.MySQL提出了基于Mencius算法的狀態(tài)機(jī)復(fù)制MGR(MySQL group replication)技術(shù)代替了原有系統(tǒng)的主備架構(gòu).MGR支持多節(jié)點(diǎn)寫入的同時保證數(shù)據(jù)一致性以及高可用性，還避免了主備系統(tǒng)的腦裂問題.架構(gòu)上，數(shù)據(jù)庫的并發(fā)控制和共識算法屬于不同的層次.分層的方法帶來的問題是引入2次協(xié)同操作：1)用于并發(fā)控制中確保事務(wù)的一致性;2)用于數(shù)據(jù)存儲副本之間達(dá)成共識一致.由于數(shù)據(jù)庫的并發(fā)控制協(xié)議與共識算法存在著相似性，MDCC[28]，TAPIR[29]，Janus[30]等協(xié)議嘗試將分布式共識算法和并發(fā)控制協(xié)議融合到一起實(shí)現(xiàn)分布式數(shù)據(jù)庫的容錯.這樣的方式解決了數(shù)據(jù)庫事務(wù)和數(shù)據(jù)副本的一致性問題，將協(xié)同次數(shù)減少為1次.

3) 文件系統(tǒng)方面.Ceph分布式文件系統(tǒng)采用Paxos算法用以維護(hù)集群元信息并負(fù)責(zé)元信息的更新.元信息包括記錄數(shù)據(jù)分布的OSDMap、記錄集群監(jiān)控狀態(tài)的MonitorMap以及集群中其他的必要信息.由于系統(tǒng)可擴(kuò)展性以及集群配置管理等問題，GlusterFS也決定在下一版本中采用etcd系統(tǒng)存儲集群配置信息.

4) 分布式消息隊列方面.Kafka作為分布式消息系統(tǒng)對比傳統(tǒng)的消息系統(tǒng)性能和可靠性有大幅提升.Kafka領(lǐng)導(dǎo)者選舉過程使用了ZooKeeper，同時底層的數(shù)據(jù)復(fù)制也用到共識相關(guān)技術(shù).騰訊云基于Raft算法實(shí)現(xiàn)了一個高可靠、強(qiáng)一致性的分布式消息隊列CMQ，主要服務(wù)于訂單、交易類業(yè)務(wù)場景，在特定情況下保證消息的嚴(yán)格有序.

6 討論

在未來的類Paxos算法的研究和應(yīng)用中，主要可以從3個方面著手.

1) 對RDMA網(wǎng)絡(luò)的使用.RDMA網(wǎng)絡(luò)擁有著高吞吐、低延時的特性，利用這一特性，可以有效提高算法在實(shí)用系統(tǒng)中的性能.盡管算法在協(xié)同通信的輪次上沒有變化，但是因為網(wǎng)絡(luò)本身的特性，通信開銷變小了.如何利用好RDMA特性，需要針對具體算法進(jìn)行設(shè)計.

2) 對可編程網(wǎng)絡(luò)的使用.對于類Paxos共識算法的實(shí)現(xiàn)來說，網(wǎng)絡(luò)環(huán)境的重要性毋庸置疑.網(wǎng)絡(luò)中，數(shù)據(jù)包的可控制程度也決定了算法設(shè)計以及實(shí)現(xiàn)過程所需要考慮情況的多少.可編程網(wǎng)絡(luò)使得網(wǎng)絡(luò)行為變得可控，給類Paxos共識算法的設(shè)計實(shí)現(xiàn)提供了便利條件.同時也給系統(tǒng)設(shè)計人員提出2個要求：①對于網(wǎng)絡(luò)環(huán)境和設(shè)備特性的了解;②需要根據(jù)可編程網(wǎng)絡(luò)自身的特性，對類Paxos共識算法進(jìn)行重新設(shè)計.

3) 特定硬件，因為多機(jī)共識問題的重要性，設(shè)計特定硬件以高效解決共識問題也是一個值得關(guān)注的方向.

同時，豐富多樣的應(yīng)用場景也對類Paxos算法提出了新的要求.因為應(yīng)用場景的不同，對于可靠性、可用性的要求有高有低.在設(shè)計算法過程中，針對具體應(yīng)用場景進(jìn)行優(yōu)化，也將使得類Paxos共識算法更好地發(fā)揮作用.關(guān)于強(qiáng)領(lǐng)導(dǎo)者和弱領(lǐng)導(dǎo)者算法的選取則依賴于在不同場景下的取舍.比如在一個數(shù)據(jù)中心內(nèi)部，或者說在同一機(jī)柜上的幾臺機(jī)器之間做副本狀態(tài)機(jī).在這種情況下網(wǎng)絡(luò)環(huán)境相對穩(wěn)定，也不存在請求跨域的問題.如果單個領(lǐng)導(dǎo)者不會成為應(yīng)用的瓶頸，可以考慮采用強(qiáng)領(lǐng)導(dǎo)者共識算法.當(dāng)然在跨數(shù)據(jù)中心之間做副本狀態(tài)機(jī)，弱領(lǐng)導(dǎo)者共識算法就顯得比較有優(yōu)勢.因此，類Paxos算法設(shè)計和實(shí)現(xiàn)也漸漸地與應(yīng)用場景結(jié)合更加緊密.

綜上，類Paxos共識算法有兩大熱點(diǎn)方向：1)類Paxos算法在不同網(wǎng)絡(luò)環(huán)境、網(wǎng)絡(luò)設(shè)備以及不同硬件條件下的實(shí)現(xiàn);2)針對具體應(yīng)用場景如數(shù)據(jù)庫系統(tǒng)等，設(shè)計新的類Paxos算法解決分布式可靠性和一致性等問題.

7 結(jié) 論

分布式共識算法是構(gòu)建分布式服務(wù)中一個必不可少的組成部分.本文從分布式類Paxos共識算法歷史發(fā)展的角度，闡述了在解決共識問題上，類Paxos共識算法在演進(jìn)過程中的變化.同時，也詳細(xì)介紹了在演進(jìn)過程中4種關(guān)鍵的算法，并且對算法演進(jìn)過程、分類以及適用場景、優(yōu)缺點(diǎn)等進(jìn)行了歸納和分析.在本文的后半部分，還簡要介紹了類Paxos共識算法在研究與應(yīng)用方面的現(xiàn)狀.隨著集群規(guī)模以及業(yè)務(wù)需求的發(fā)展，相信在不久的將來使用分布式共識算法的應(yīng)用越來越廣泛，也期待隨著網(wǎng)絡(luò)技術(shù)、硬件技術(shù)的發(fā)展，類Paxos共識算法的設(shè)計、實(shí)現(xiàn)以及應(yīng)用會有越來越多新的突破.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡