董劍波
在數(shù)據(jù)管理這個球場上,核心系統(tǒng)需要主機和存儲架構(gòu)在第一線沖鋒,而當前鋒出問題的時候,則需要可靠的中場隨時防守和反撲;歸檔和備份技術(shù)則是最為可靠的后防線。
IDC最新調(diào)查顯示,企業(yè)宕機1小時會帶來8,220美元到25,600美元的損失 。從這個角度來說,數(shù)據(jù)恢復可謂一項爭分奪秒的激烈比賽。而快速的數(shù)據(jù)增長和日益增多的虛擬服務(wù)器正在生成海量數(shù)據(jù),傳統(tǒng)的恢復模式已經(jīng)無法適應(yīng)關(guān)鍵的業(yè)務(wù)需求。
數(shù)據(jù)恢復需求日益凸顯
在數(shù)據(jù)恢復中,除了大家熟知的災(zāi)難修復,還有一種對IT管理員來說最常見但可能也是最耗費精力的恢復工作—日常運維中的數(shù)據(jù)恢復。
日常運維中的數(shù)據(jù)恢復工作主要集中在為業(yè)務(wù)部門準備數(shù)據(jù)、恢復校驗,或者應(yīng)對硬件錯誤/軟件錯誤/人為錯誤等。這類數(shù)據(jù)有兩個顯著特點:次重要保護級別,且數(shù)量很大。因此,企業(yè)很少會像保護Tier0/1數(shù)據(jù)那樣也為此類數(shù)據(jù)提供昂貴的存儲級別復制方案。在整個系統(tǒng)中,不同層級(比如應(yīng)用層、存儲層、網(wǎng)絡(luò)層)有不同的恢復方法,但都存在明顯不足:
·效費比不高,難以覆蓋除Tier0/1以外的系統(tǒng)—一些數(shù)據(jù)庫應(yīng)用級別的高可用復制,需要高昂的授權(quán)費用,因此并不適用于重要保護級以下的系統(tǒng)。
·人工密集型操作,自動化水平/效率不高(難以滿足SLA)—基于數(shù)據(jù)庫或基于應(yīng)用級別恢復時操作復雜,往往需要數(shù)據(jù)庫管理員大量重復性的工作。
·針對日常運維對應(yīng)的備份窗口和恢復窗口,難以全面滿足業(yè)務(wù)需求(RPO<24hr,RTO<6-8 hr)—海量數(shù)據(jù)的增長和日益縮小的應(yīng)用恢復窗口,給IT管理員帶來巨大挑戰(zhàn)。
·單點方案,難以綜合管控、分析和報告等—幾乎在整個OSI 7層都有不同的恢復方案,而從管理層角度來看,這些單點方案無法針對日常運維業(yè)務(wù)需求進行系統(tǒng)地分析和流程管理。
·難以標準化/服務(wù)化,整合到自服務(wù)框架中—目前日常運維中有很多復雜的恢復工作,很難被納入IT整體框架中,實現(xiàn)標準化和自動化。
因此,各種規(guī)模的企業(yè)都需要采用一種或幾種混合方法,來增強數(shù)據(jù)保護,提高恢復性能、易管理和可靠性,且無需大幅增加成本。針對這些挑戰(zhàn),快照管理技術(shù)憑借其高效恢復和自動化特性,全面滿足不同業(yè)務(wù),尤其是日常運維中的數(shù)據(jù)恢復需求,并逐漸成為業(yè)界的一個重要趨勢。
與傳統(tǒng)數(shù)據(jù)恢復技術(shù)相比,快照管理由于在存儲內(nèi)部進行,而且是原生格式,省去了格式轉(zhuǎn)換過程,因此恢復速度更快,從而最小化了數(shù)據(jù)恢復行為,對生產(chǎn)層系統(tǒng)性能的影響。根據(jù)Gartner調(diào)查顯示,目前快照管理在全球的占有率約為7%,到2016年將會有20%的企業(yè)采用單純的基于快照和復制的備份技術(shù),兩年內(nèi)年增長率將達100%。
快照管理充當何種角色?
快照管理的設(shè)計,是在傳統(tǒng)數(shù)據(jù)保護層中加入一層基于企業(yè)主存儲的快照層,從而保留多個版本的歷史數(shù)據(jù)。通過對這些數(shù)據(jù)的挖掘和應(yīng)用,IT人員可迅速響應(yīng)企業(yè)生產(chǎn)層的恢復需求,同時在幾乎不影響業(yè)務(wù)系統(tǒng)主機性能的情況下,利用快照層做長期留存。形象地快照克隆的作用相當于數(shù)據(jù)管理系統(tǒng)的中場球員,進可攻、退可守。在數(shù)據(jù)管理這個球場上,核心系統(tǒng)需要主機和存儲架構(gòu)在第一線沖鋒,而當前鋒出問題的時候,則需要可靠的中場隨時防守和反撲;歸檔和備份技術(shù)則是最為可靠的后防線。當前鋒(雙機/雙存儲)不能解決數(shù)據(jù)恢復問題(比如出現(xiàn)邏輯錯誤或人為錯誤)時,IT人員就可以使用中場球員—快照技術(shù)回滾到歷史最近的時間點,快速進行數(shù)據(jù)恢復。作為完整的數(shù)據(jù)管理解決方案,往往需要多種技術(shù)的結(jié)合使用,就像足球場上的一個團隊是一樣。
智能快照管理方法如何運用?
CommvaultIntelliSnap智能快照管理是Commvault基于快照技術(shù)的一套現(xiàn)代快照管理方案,通過跟存儲廠商API的結(jié)合,來觸發(fā)、調(diào)用、編排存儲硬件本身的克隆或快照功能,最終實現(xiàn)自動化的快照管理。例如,如果企業(yè)使用HDS高端存儲作為其核心系統(tǒng)的在線存儲,且購買了HDS的克隆或者快照授權(quán)許可,CommvaultIntelliSnap智能快照管理就可直接通過Commvault軟件界面,進行一些圖形化的設(shè)置,來調(diào)用存儲提供的API,實現(xiàn)快照或克隆管理。
IntelliSnap智能快照管理完全基于軟件,因此擁有廣泛的存儲兼容和層級兼容,客戶無需進行硬件綁定,也不需要在存儲層或主機層進行架構(gòu)的改變。另外,由于通過在同一個在線平臺上的零腳本、一鍵式操作,CommvaultIntelliSnap智能快照管理可以保證業(yè)務(wù)的一致性,也大幅降低了操作的復雜性和人員成本。
值得注意的是,CommvaultIntelliSnap智能快照管理不僅支持使用傳統(tǒng)的Copy On Write,而且也支持中高端存儲流行的Copy After Write技術(shù),即:將IO直接寫入Cache返回,再異步復制變化數(shù)據(jù)到快照區(qū),省去了前端主機的等待時間。來自業(yè)內(nèi)專家的量化對比顯示:傳統(tǒng)的Copy On Write快照技術(shù)會對整個主機延遲增加10%到15%左右,而Copy After Write技術(shù),只要在Cache空間足夠的情況下,基本上對主機性能沒有影響。
Commvault中國區(qū)技術(shù)總監(jiān)蔡報永強調(diào)快照管理是企業(yè)應(yīng)對IT系統(tǒng)邏輯錯誤的重要手段。“我相信中國用戶在容災(zāi)方面其實投資了很大,特別是在一些所謂的物理故障方面。但他們在邏輯錯誤的防范上面,可能相對投入的并不夠。
而在整個災(zāi)難方案當中,邏輯故障其實占了更大一部分,我們希望Commvault智能快照管理能夠作為邏輯災(zāi)難防范的補充,幫助企業(yè)在發(fā)生邏輯錯誤時進行快速的數(shù)據(jù)恢復?!?