宕機(jī)事件對(duì)公司的業(yè)務(wù)、信譽(yù)、客戶體驗(yàn)以及信任等方面所造成的代價(jià)從未如此高昂。由于考慮到軟件驅(qū)動(dòng)業(yè)務(wù)的持續(xù)性和關(guān)聯(lián)性,客戶和用戶們?cè)絹?lái)越不能容忍災(zāi)難和故障的發(fā)生。而某種服務(wù)的故障可能影響到其所有的用戶。同時(shí)多用戶平臺(tái)發(fā)生故障的破壞力越來(lái)越大,因?yàn)樗绊懙皆谄脚_(tái)上運(yùn)行其服務(wù)的所有服務(wù)供應(yīng)商。
隨著對(duì)設(shè)計(jì)災(zāi)難恢復(fù)方案的重視,企業(yè)容易關(guān)注如何防止大的災(zāi)難和故障。這種難以預(yù)測(cè)的不尋常事件往往對(duì)服務(wù)的可用性帶來(lái)極其巨大的幾乎是災(zāi)難性的影響。這種影響的范圍很廣,換言之,這種影響可能延長(zhǎng)服務(wù)發(fā)生災(zāi)難的持續(xù)時(shí)間,也可能增加數(shù)據(jù)丟失的數(shù)量。這種影響規(guī)模巨大,而那些較輕的不太常發(fā)生的宕機(jī)事件就可能被忽略。
企業(yè)需要注意判定、發(fā)現(xiàn)和防止那些發(fā)生頻率越來(lái)越高的小故障。這些小的宕機(jī)事件可能會(huì)隨著時(shí)間的推移而累積,并且會(huì)完全破壞服務(wù)可用性的目標(biāo)。對(duì)于災(zāi)難恢復(fù)而言,可用的選擇包括本地的災(zāi)難恢復(fù)解決方案,也可以是基于云的災(zāi)難恢復(fù)方案,后者利用的是一些大型的云運(yùn)營(yíng)商的基礎(chǔ)架構(gòu)和平臺(tái)的功能。
小宕機(jī)事件的代價(jià)容易累積。頻繁的宕機(jī)可能會(huì)增加大量用戶受影響的可能性。此外,同樣一個(gè)用戶被故障或宕機(jī)時(shí)間重復(fù)影響的可能性也會(huì)增加。這種頻繁的宕機(jī)會(huì)破壞對(duì)服務(wù)的信任。反復(fù)的宕機(jī)時(shí)間會(huì)令人經(jīng)常感覺(jué)到不快??蛻艨赡軙?huì)不再增加業(yè)務(wù)的規(guī)模,甚至決定不再續(xù)約。依賴每月帶來(lái)收入或每年帶來(lái)收入的SaaS業(yè)務(wù)極易受到頻繁的小型宕機(jī)事件的影響。
如果企業(yè)謀求針對(duì)重大和小型的宕機(jī)事件形成彈性,不妨重視形成和維護(hù)如下方面的能力。
提供通信服務(wù)的所有關(guān)鍵系統(tǒng)都應(yīng)持續(xù)不斷地備份。除了以一種REST的方式設(shè)計(jì)外,這些服務(wù)所生成、更新和維護(hù)的數(shù)據(jù)都應(yīng)連續(xù)地備份到本地集中化的或是基于云的災(zāi)難恢復(fù)系統(tǒng)中。在不影響服務(wù)質(zhì)量和系統(tǒng)的前提下,應(yīng)盡可能地頻繁備份。同時(shí),備份應(yīng)是遞增的,基于快照的,以提供靈活性和在任何時(shí)間和任何宕機(jī)事件中恢復(fù)的能力。此外,備份應(yīng)是多層級(jí)的,以確保備份系統(tǒng)不會(huì)受到影響主要系統(tǒng)的相同故障的影響。
企業(yè)應(yīng)當(dāng)持續(xù)地監(jiān)視提供通信服務(wù)的所有關(guān)鍵系統(tǒng)。這對(duì)于確保盡快地檢測(cè)故障或?yàn)?zāi)難并立即實(shí)施災(zāi)難恢復(fù)至關(guān)重要。與備份類似,在實(shí)施監(jiān)視時(shí),如果同樣的故障已影響了主要的服務(wù),就不能在這種系統(tǒng)上實(shí)施。同樣,客戶的反饋系統(tǒng)也需要監(jiān)視,以獲得故障報(bào)告。在報(bào)告開始到達(dá)或在監(jiān)視系統(tǒng)發(fā)出故障警告時(shí),應(yīng)確認(rèn)故障并實(shí)施災(zāi)難恢復(fù)。
在檢測(cè)到災(zāi)難、生成報(bào)告并確認(rèn)時(shí),就應(yīng)啟動(dòng)失效轉(zhuǎn)移過(guò)程,啟用新服務(wù)器從而繼續(xù)提供通信服務(wù)。這種失效轉(zhuǎn)移的完成是經(jīng)由確保新服務(wù)器承擔(dān)受宕機(jī)影響的服務(wù)器的角色而實(shí)現(xiàn)的。
管理員應(yīng)當(dāng)對(duì)失效轉(zhuǎn)移服務(wù)器進(jìn)行配置,使其能夠訪問(wèn)通信服務(wù)狀態(tài)和信息的備份。
在宕機(jī)時(shí)間結(jié)束并且主要服務(wù)環(huán)境中的底層問(wèn)題被診斷、修復(fù)、確認(rèn)修復(fù)后,自動(dòng)恢復(fù)過(guò)程應(yīng)當(dāng)將所有的服務(wù)恢復(fù)到主要環(huán)境中。在確認(rèn)自動(dòng)恢復(fù)過(guò)程成功后,自動(dòng)恢復(fù)服務(wù)器即可被回收再利用。
很多管理員認(rèn)為并未實(shí)現(xiàn)服務(wù)的可用性,并承認(rèn)在過(guò)去的一年中經(jīng)歷過(guò)不少宕機(jī)事件。宕機(jī)的頻發(fā)要求認(rèn)真規(guī)劃和設(shè)計(jì),只有這樣才能減輕其威脅,并且確??焖俚幕謴?fù)。企業(yè)面臨很多選擇,應(yīng)當(dāng)認(rèn)真評(píng)估和選擇最適合自己需要的方案,并確保檢測(cè)不可預(yù)料的宕機(jī)事件的敏捷性和快捷恢復(fù)。