孫 健,張興軍,董小社
(西安交通大學電子與信息工程學院,陜西西安 710049)
一種可靠性框圖的異構系統(tǒng)可用性評價模型
孫 健,張興軍,董小社
(西安交通大學電子與信息工程學院,陜西西安 710049)
針對異構系統(tǒng)內自治節(jié)點性能特征差異導致系統(tǒng)整體可用性評價困難的問題,提出一種采用可靠性框圖的可用性評價模型.首先,分析系統(tǒng)異構性,從節(jié)點和任務角度對異構性進行分類,對資源異構性進行數(shù)學量化;然后,結合異構性分類構建串并行混聯(lián)的異構系統(tǒng)可靠性框圖可用性評價模型,并根據模型分析節(jié)點和整體異構系統(tǒng)的可用性度量方法.可用性評價以典型雙節(jié)點和多節(jié)點異構系統(tǒng)為例,同時與馬爾可夫過程可用性模型的評價結果進行比較,結果表明,文中所提模型能對異構系統(tǒng)可用性進行準確評價,可為研究異構系統(tǒng)可用性提升及高可用設計提供參考.
異構系統(tǒng);可靠性框圖;可用性;異構性;高可用
近年來實時應用服務范圍不斷擴大,系統(tǒng)復雜性持續(xù)提高.物聯(lián)網、云計算及大數(shù)據等各種新型技術的興起,使得具有卓越性價比、良好可擴展性及高可用性的異構系統(tǒng)[1]成為解決計算密集型、數(shù)據密集型服務的有效方案[2],如何對異構系統(tǒng)進行可用性評價也成為研究異構系統(tǒng)高可用性的熱點問題.
目前國內外系統(tǒng)可用性分析建模方法主要有隨機Petri網(Stochastic Petri Net,SPN)[3-5]、Markov過程[6-7]、故障樹模型[8]及可靠性框圖(Reliability Block Diagram,RBD)[9-11]等.文獻[5]采用隨機Petri網對容錯服務器系統(tǒng)進行可用性建模評價,并考慮服務可用性.文獻[7]采用Markov過程方法對熱備k-out-of-n表決系統(tǒng)可靠性進行了研究.文獻[12]結合Markov過程與隨機Petri網評價雙控制器磁盤陣列系統(tǒng)的可用性.文獻[11]采用可靠性框圖方法分析評價了私有云計算環(huán)境的可用性.然而針對異構系統(tǒng)可用性的研究較少,缺乏完善有效的可用性建模及評價方法.
異構系統(tǒng)的重要特點是系統(tǒng)內各自治節(jié)點特征、性能及可用性等差異很大,因此,在對異構系統(tǒng)可用性進行建模時,不僅要考慮單個節(jié)點和節(jié)點內各部件的自身性能與特征,還要考慮相互制約的各自治節(jié)點集中體現(xiàn)出的異構系統(tǒng)整體可用性,給異構系統(tǒng)可用性建模評價帶來了諸多困難.筆者對異構性進行分類、量化,進而采用可靠性框圖方法設計實現(xiàn)異構系統(tǒng)的可用性評價模型.該模型采用串并行混聯(lián)RBD結構,分析可用性度量方法,并對異構系統(tǒng)的可用性進行準確的評價度量.對比Markov過程模型評價結果,該模型充分考慮了異構性對系統(tǒng)可用性的影響,準確評價系統(tǒng)可用性為異構系統(tǒng)的可用性提升提供了理論性參考.
1.1異構性分類
異構系統(tǒng)是指由多臺獨立自治節(jié)點通過高速互聯(lián)網絡相互連接而成的高性能、高可用的計算機系統(tǒng),各自治節(jié)點的中央處理單元(Central Processing Unit,CPU)處理能力、內存容量、I/O及其他資源均不相同.各用戶可向系統(tǒng)內任何節(jié)點提交各種不同計算量和需求的任務,由特定節(jié)點承載的特定服務來執(zhí)行并完成對應任務.因此,異構系統(tǒng)的異構性可分為節(jié)點異構性和任務異構性.
任務異構性由具體任務處理時間與全部任務隊列平均處理時間的比值來體現(xiàn).對節(jié)點異構性定義如下.
定義1 類型異構性,指不同自治節(jié)點其指令集結構(Instruction Set Architecture,ISA)與操作系統(tǒng)(Operating System,OS)的不相同.
定義2 資源異構性,指不同自治節(jié)點資源如CPU、內存和I/O資源等的擁有量不同.
特別對于資源異構性,其主要體現(xiàn)在各資源部件的結構和特性上.結構上的異構是指各部件操作管理和優(yōu)化方式的不同,特性上的異構是指各部件性能參數(shù)的差異.異構系統(tǒng)規(guī)模越大,資源異構性越突出.
1.2異構性量化
根據上述異構性分類及定義2進一步對異構系統(tǒng)資源異構性進行數(shù)學量化:①設HS={N1,N2,…,Ni,…,Nn},為異構系統(tǒng)集合,n是異構系統(tǒng)中自治節(jié)點的個數(shù),且n≥2;②H為異構性,如CPU異構性Hcpu,內存異構性Hmem,I/O異構性Hio等;③C為自治節(jié)點中各部件的性能量化值,如對于CPU,Ccpu(i)為自治節(jié)點i的綜合處理速度;若對于內存,Cmem(i)則指自治節(jié)點i的用戶可用內存總量,操作系統(tǒng)占用的內存量除外;④RC為自治節(jié)點中各部件的性能量化值相對所有部件中性能最高部件的比值,有RC(i)=C(i)根據文獻[13]對資源異構性的數(shù)學描述,令,n為自治節(jié)點的個數(shù),得異構性公式為
對于一般的情況,如CPU資源異構性,有
2.1異構系統(tǒng)RBD可用性評價模型
文中提出的異構系統(tǒng)RBD可用性評價模型如圖1所示,是一個串行與并行結構混聯(lián)的RBD模型.Task Q為異構系統(tǒng)任務隊列,其可用性用串行RBD模型來表示.A?Nodei代表自治節(jié)點可用性,A?Conni代表節(jié)點Nodei到異構系統(tǒng)間網絡連接的可用性.對于Nodei與Conni所構成的子系統(tǒng),其可用性用串行RBD模型來表示;對于Nodei與Conni子系統(tǒng)集合,其可用性用并行RBD模型來表示;對于每個Nodei,其可用性受節(jié)點內部資源及類型如CPU、內存、I/O等部件可用性的影響.另外,模型中任何子模塊可用性均受對應異構性的制約,后面會具體討論各模塊可用性與異構性的制約關系,進而度量系統(tǒng)的整體可用性.
圖1 異構RBD可用性模型
2.2系統(tǒng)穩(wěn)態(tài)可用度
系統(tǒng)可用性指系統(tǒng)提供正常服務的時間占系統(tǒng)總運行時間的比例[14],其度量方式可以是一個百分數(shù)或概率值,更實際的情況下也可以是年平均系統(tǒng)正常運行時間的比率.系統(tǒng)可用度有3種評價模式,瞬時可用度、平均可用度及穩(wěn)態(tài)可用度.瞬時可用度指系統(tǒng)在瞬時時刻可運行的概率;平均可用度指系統(tǒng)在區(qū)域時間段內可用度的平均值;穩(wěn)態(tài)可用度指系統(tǒng)長期可正常運行的概率.通常用穩(wěn)態(tài)可用度來評價計算機系統(tǒng)的可用性:ASS=tMTBF/(tMTBF+tMTTR).其中,ASS為系統(tǒng)穩(wěn)態(tài)可用度;tMTBF為系統(tǒng)正常運行直至發(fā)生故障的平均時間,即系統(tǒng)可靠性;tMTTR為系統(tǒng)由故障態(tài)恢復至工作狀態(tài)所用的平均時間,即系統(tǒng)可恢復性.另外,當系統(tǒng)故障服從指數(shù)分布時,故障率為一個常數(shù).設故障率為λ,有λ=1/tMTBF;當系統(tǒng)修復服從指數(shù)分布時,修復率為一個常數(shù).設修復率為μ,則有μ=1/tMTTR.
2.3系統(tǒng)可用性度量
設異構性函數(shù)f(H)=1-H/0.5.根據1.2節(jié)中對異構性量化值H計算公式及取值范圍的描述,可得f(H)取值分布在0到1區(qū)間,即0 設自治節(jié)點集合NodeSet={Node1,Node2,…,Noden}.Nodei到異構系統(tǒng)的網絡連接集合ConnSet={Conn1,Conn2,…,Connn}.任意一個Nodei與Conni組合模塊相對于其他模塊獨立,設其可用性為A? Node?Conni,失效率為F?Node?Conni,有A?Node?Conni+F?Node?Conni=1;設異構系統(tǒng)整體可用性為A? HeteroSys,失效率為F?HeteroSys,有A?HeteroSys+F?HeteroSys=1. 將Nodei與Conni模塊組合看作是局部串行的RBD模型,考慮異構性對模塊的影響,有 對自治節(jié)點Nodei的可用性A?Nodei,根據圖1中的描述,從異構性量化的角度出發(fā),可將其看作是節(jié)點內多個類型與資源模塊的串聯(lián),有 對網絡連接模塊Conn的自身可用性A?Conni,假設其故障率與修復率分別為αi和βi,其可用性可通過公式A?Con ni=βi/(αi+βi)計算得出.同時若將自治節(jié)點模塊按異構性分類為類型模塊和資源模塊,節(jié)點Nodei類型模塊可用性為A?Node?typei,資源模塊可用性為A?Node?resi,式(3)可進一步描述為 其中,A?Node?Conni可由式(2)計算得出.由異構系統(tǒng)可用性計算公式可知,影響異構系統(tǒng)可用性度量的因素包括自治節(jié)點可用性、自治節(jié)點間網絡連接可用性、所運行任務集合的可用性,以及這3部分的異構性.對于自治節(jié)點還要考慮節(jié)點內部異構類型及異構資源的可用性. 以采用可靠性框圖的可用性模型評價異構系統(tǒng)為例,圖2描述了異構系統(tǒng)的整體硬件體系框架.系統(tǒng)由n個各自獨立自治的高性能服務器節(jié)點構成,節(jié)點間通過高速以太網鏈路相互連接,并由冗余心跳檢測機制監(jiān)測各服務器節(jié)點的運行情況.各節(jié)點通過虛擬IP技術透明的為用戶/終端提供高可用服務.各服務器節(jié)點硬件體系結構支持SMP、cc Numa;處理器支持x86、IA64、AMD、SPARC;支持Infiniband、PCI Express、Hyper Transports等I/O技術;支持網卡、SCSI卡、RAID卡、磁盤陣列柜等接口卡及外圍設備;操作系統(tǒng)支持Windows、Linux及AIX. 圖2 異構系統(tǒng)硬件體系框架 圖3根據可靠性框圖的可用性評價模型,結合隨機Petri網方法描述了異構系統(tǒng)內自治服務器節(jié)點的狀態(tài)轉換情況.服務器節(jié)點與網絡鏈接的4個運行狀態(tài)分別為:正常、故障、修復及宕機/關閉.服務器節(jié)點或網絡鏈接平時處于正常運行態(tài);發(fā)生故障時,服務器節(jié)點宕機,網絡鏈接關閉;服務器節(jié)點或網絡鏈接修復后,節(jié)點重新啟動并恢復至正常態(tài). 對于整個異構系統(tǒng),由圖3中狀態(tài)轉換關系可知,其屬于k/n表決系統(tǒng)[15]范疇.假設異構系統(tǒng)是可修復系統(tǒng),即任何故障服務器節(jié)點都可通過修復恢復至正常運行態(tài);且由n個自治節(jié)點組成的異構系統(tǒng)中,處于運行正常態(tài)的自治節(jié)點個數(shù)為k,0≤k≤n.當1≤k≤n時,異構系統(tǒng)能夠為用戶/終端提供服務;當k=0時,異構系統(tǒng)內所有服務器節(jié)點/網絡鏈接處于宕機/關閉狀態(tài),系統(tǒng)不再向用戶/終端提供服務,直到系統(tǒng)內自治節(jié)點修復. 圖3 異構系統(tǒng)狀態(tài)轉換圖 3.1參數(shù)選取 評價參數(shù)設置部分選用文獻[14]中描述的異構系統(tǒng)可用性評價參數(shù).之后,將得到的系統(tǒng)可用度計算結果與文獻[16]中結果進行比較分析,所用到的參數(shù)如表1所示.由于異構系統(tǒng)是可修復系統(tǒng),假設系統(tǒng)內部各自治節(jié)點與網絡鏈接的修復時間均為1 h.期間自治節(jié)點停機檢修,進行系統(tǒng)備份,存儲設備、磁盤陣列或連接設備的維修及更換,有tMTTR1=tMTTR2=…=tMTTRn=1 h;tMTTRconn1=tMTTRconn2=…=tMTTRconnn=1 h;相應地,有μnode1=μnode2=…=μnoden=1/h;μconn1=μconn2=…=μconnn=1/h.對于自治節(jié)點的異構性函數(shù)f(Hnode1),f(Hnode2),…,f(Hnoden)與網絡鏈接異構性函數(shù)f(Hconn1),f(Hconn2),…,f(Hconnn),有0< f(Hnode1),f(Hnode2),…,f(Hnoden),f(Hconn1),f(Hconn2),…,f(Hnoden)≤1. 表1 評價參數(shù)列表 3.2評價結果與比較分析 對具有雙節(jié)點的異構系統(tǒng)進行可用性評價.從之前對異構性量化的分析也可得知,在異構部件為兩個的情況下,系統(tǒng)內部異構性差異的體現(xiàn)最為明顯,對系統(tǒng)可用性的影響最大,評價分析相比多部件異構系統(tǒng)更具有典型性.考慮自治節(jié)點與網絡鏈接異構性函數(shù)值不變且均為1的情況,即節(jié)點與網絡鏈接同構,設tMTBFconn1=tMTBFconn2=1 000 h;tMTBFnode1=tMTBFnode2=tMTBFnodes.簡化評價模型中任務隊列Task Q的部分,對比采用可靠性框圖的異構系統(tǒng)可用性評價模型與文獻[16]中使用的Markov過程方法可用性評價模型,結果如表2所示.說明采用RBD的可用性模型能夠對異構系統(tǒng)進行準確的可用性評價.并且當tMTBFnodes值大于1 000 h時,系統(tǒng)可用度可以達到5個9的高可用指標要求. 表2 RBD/Markov過程評價模型系統(tǒng)可用度結果比較 圖4(a)描述了自治節(jié)點與網絡鏈接tMTTF一定,tMTBFnodes與tMTBFconns變化的情況下,異構系統(tǒng)可用度的計算情況.坐標系中位于上方的曲線是tMTBFconn1=tMTBFconn2=1 000 h時,tMTBFnodes取值分別為10 h,100 h,500 h,1 000 h時,系統(tǒng)可用性的計算結果.坐標系中位于下方的曲線是tMTBFnode1=tMTBFnode2=10 h時,tMTBFconns取值分別為10 h,100 h,500 h,1 000 h時,系統(tǒng)可用性的計算結果.說明在tMTTF一定時,tMTBF越大,異構系統(tǒng)可用性越高;另外,一般網絡鏈接的可靠性要優(yōu)于自治節(jié)點,因此,tMTBFnodes對系統(tǒng)可用性影響要大于tMTBFconns,采用提升tMTBFnodes所帶來的系統(tǒng)可用性提高要明顯高于提升tMTBFconns. 圖4 異構系統(tǒng)可用性評價結果 考慮tMTTR變化的情況,假設tMTBFnodes與tMTBFconns值不變,tMTBFnodes=100 h,tMTBFconns=1 000 h;tMTTR1=tMTTR2=tMTTRconn1=tMTTRconn2=tMTTRs.選取4個不同tMTTRs值(10 h,100 h,500 h,1 000 h)計算異構系統(tǒng)的可用性,結果如圖4(b)所示.計算結果說明系統(tǒng)可用性隨tMTTRs的增加而逐漸降低,最后趨于0. 考慮自治節(jié)點異構性函數(shù)變化,而網絡鏈接異構性函數(shù)不變且仍為1的情況,即自治節(jié)點異構,網絡鏈接同構.設異構系統(tǒng)中自治節(jié)點異構性函數(shù)值f(Hnode1)=f(Hnode2)=f(Hnodes)={0,0.1,0.2,…,1.0},取值范圍為0 對多節(jié)點異構系統(tǒng)進行可用性評價.設系統(tǒng)內自治節(jié)點tMTBFnodes=1 000 h,各自治節(jié)點與網絡鏈接的修復時間均為1 h,f(H)取值分別為0.2,0.5,0.8,異構節(jié)點數(shù)變化的情況下異構系統(tǒng)可用性的計算結果如圖5所示.說明異構系統(tǒng)中自治節(jié)點越多,系統(tǒng)可用性越高;在相同節(jié)點數(shù)的情況下,異構函數(shù)值越大,即節(jié)點異構性越小,系統(tǒng)可用性越高.綜上所述,可通過提高自治節(jié)點、網絡鏈接的平均故障時間間隔、降低系統(tǒng)內各部件修復時間、降低系統(tǒng)異構性及增加節(jié)點冗余個數(shù)的方法,以達到提升異構系統(tǒng)可用性及系統(tǒng)高可用的目的. 圖5 節(jié)點數(shù)對可用性的影響 從分析異構系統(tǒng)異構性,對異構性進行分類、性量化入手,筆者提出一種可靠性框圖的異構系統(tǒng)可用性評價模型.評價模型采用串并行混聯(lián)RBD結構,結合系統(tǒng)異構性分析異構系統(tǒng)可用性度量方法.模型以典型雙節(jié)點和多節(jié)點異構系統(tǒng)為例,對比Markov過程模型并對系統(tǒng)可用性進行評價.評價結果與比較分析表明該模型不僅能準確對異構系統(tǒng)可用性進行評價,而且從數(shù)學量化角度考慮系統(tǒng)異構性對可用性的影響,為研究異構系統(tǒng)可用性提升方法以及異構系統(tǒng)高可用提供了有意義的理論性參考. [1]HAMID A,JORGE G.List Scheduling Algorithm for Heterogeneous System by an Optimistic Cost Table[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(3):682-694. [2]KIM J S,HENRIQUE A,ALAN S.Principles for Designing Data/Compute-Intensive Distributed Applications and Middleware Systems for Heterogeneous Environments[J].Journal of Parallel&Distributed Computing,2007,67(7): 755-771. [3]林闖.隨機Petri網和系統(tǒng)性能評價[M].2版.北京:清華大學出版社,2009. [4]李曄,王映輝,于振華.信息物理融合系統(tǒng)的面向對象Petri網建模[J].西安電子科技大學學報,2014,41(2): 165-171. LI Ye,WANG Yinghui,YU Zhenhua.Formal Modeling of Cyber-physical Systems Using Object-oriented Petri Nets [J].Journal of Xidian University,2014,41(2):165-171. [5]SALFNER F,WOLTER K.A Petri Net Model for Service Availability in Redundant Computing Systems[C]// Proceedings of Winter Simulation Conference.Piscataway:IEEE,2009:819-826. [6]SHAHRZAD F R,MIN X,KIEN M N,et al.Dynamic Availability Assessment and Optimal Component Design of Multi-state Weighted k-out-of-n Systems[J].Reliability Engineering and System Safety,2014,123:57-62. [7]SUPRASAD V A,HOANG P,PAVINDRA B M.Reliability Characteristics of k-out-of-n Warm Standby Systems[J]. IEEE Transactions on Reliability,2012,61(4):1007-1018. [8]ANTHONY M,AOWLING R,DRNO N,et al.Reliability Analysis for Power to Fire Pump Using Fault Tree and RBD [J].IEEE Transactions on Industry Applications,2013,49(2):997-1003. [9]YANG B,HU Y M,HUANG C Y.An Architecture-based Multi-objective Optimization Approach to Testing Resource Allocation[J].IEEE Transactions on Reliability,2015,64(1):497-515. [10]ERICA S,FERNANDO L,EDUARDO T,et al.A Modeling Approach for Cloud Infrastructure Planning Considering Dependability and Cost Requirements[J].IEEE Transactions on System,Man,and Cybernetics:Systems,2015,45 (4):549-558. [11]SOUZA D,MATOS R,ARAUJO J,et al.EucaBomber:Experimental Evaluation of Availability in Eucalyptus Private Clouds[C]//Proceedings of International Conference on Systems,Man,and Cybernetics.Piscataway:IEEE,2013: 4080-4085. [12]WAN Y P,FENG D,YANG T M,et al.The Adaptive Heartbeat Design of High Availability RAID Dual-Controller [C]//Proceedings of International Conference on Multimedia and Ubiquitous Engineering.Piscataway:IEEE,2008: 45-50. [13]ZHANG X D,QIU Y X,XIAO L.Improving Distributed Workload Performance by Sharing both CPU and Memory Resources[C]//Proceedings of International Conference on Distributed Computing Systems.Piscataway:IEEE,2000: 233-241. [14]HEIMANN D,MITTAL N,TRIVEDI K S.Availability and Reliability Modeling for Computer Systems[J].Advances in Computers,1990,31:175-233. [15]方永峰,陳建軍,曹鴻鈞.可修復的k/n表決系統(tǒng)的可靠性分析[J].西安電子科技大學學報,2014,41(5):180-184. FANG Yongfeng,CHEN Jianjun,CAO Hongjun.Analysis of Dynamic Reliability of the Repairable k-out-of-n System under Several Times Random Shocks[J].Journal of Xidian University,2014,41(5):180-184. [16]SUN J,GONG W F,DONG X S,et al.High Availability Analysis and Evaluation of Heterogeneous Dual Computer Fault-Tolerant System[C]//Proceedings of International Conference on Software Engineering and Service Science. Piscataway:IEEE,2014:460-464. (編輯:齊淑娟) Availability evaluation model for the heterogeneous system based on RBD SUN Jian,ZHANG Xingjun,DONG Xiaoshe In order to cope with difficulty of heterogeneous system availability evaluation caused by autonomous node performance and characteristic differences,the paper proposes an availability evaluation model based on the reliability block diagram(RBD).First,we analyze and catalog system heterogeneity from the angle of nodes and tasks,and quantify resource heterogeneity.Then by heterogeneity classification,we build a serial and parallel mixed RBD availability evaluation model,and discuss the availability measurement method of nodes and the whole heterogeneous system.Availability evaluation takes the dual-computer and multi node heterogeneous system for example,and compares evaluation results with the Markov process availability model.Results show that the model we propose can evaluate the heterogeneous system with accuracy,and hence,provide for research on availability improving and high-availability design of the heterogeneous system. heterogeneous system;reliability block diagram;availability;heterogeneity;high-availability TP302.7 A 1001-2400(2016)03-0190-07 10.3969/j.issn.1001-2400.2016.03.033 2015-06-15 國家“863計劃”資助項目(2008AA01A202) 孫 健(1983-),男,西安交通大學博士研究生,E-mail:sunjian83@sina.com.3 可用性評價與比較分析
4 結束語
(School of Electronic and Information Engineering,Xi’an Jiaotong Univ.,Xi’an 710049,China)