翁健靚
(上海電氣集團(tuán)上海電機(jī)廠有限公司,上海 200240)
信息是無價(jià)的,數(shù)據(jù)作為信息的載體,它的重要性是不言而喻的。因此,數(shù)據(jù)的備份與恢復(fù)一直是IT業(yè)務(wù)中最為核心的問題,是保護(hù)企業(yè)核心應(yīng)用和價(jià)值的關(guān)鍵所在。如何跟上時(shí)代和技術(shù)的發(fā)展,建立一個(gè)完善、可靠、高性能的備份機(jī)制,加強(qiáng)企業(yè)信息系統(tǒng)的健壯性和可靠性,是我們企業(yè)信息化過程中必須解決的問題。
我公司共有服務(wù)器30多臺(tái),其中生產(chǎn)系統(tǒng)的數(shù)據(jù)庫服務(wù)器15臺(tái)左右,還有一些應(yīng)用服務(wù)器和文件服務(wù)器。有2臺(tái)磁帶機(jī):1臺(tái)LTO2的HP1/8 loader,1臺(tái)LTO3的IBM ts3100,1套Netapp FAS2050A存儲(chǔ)并帶3個(gè)300GB FC盤柜。
服務(wù)器構(gòu)架上,目前有2個(gè)Windows群集,均通過光纖交換機(jī)與FAS2050連接,建立在SAN(存儲(chǔ)區(qū)域網(wǎng))上。另外,大部分的單點(diǎn)服務(wù)器也都通過HBA卡(光纖通道適配器)或網(wǎng)絡(luò)連接到存儲(chǔ)上,存放其中的數(shù)據(jù)文件和備份文件,作為數(shù)據(jù)容災(zāi)的一部分。
數(shù)據(jù)量上,平時(shí)單點(diǎn)服務(wù)器SQL2000產(chǎn)生的備份在300 G左右,周日在500 G左右。群集(SQL2005)每天57 GB左右,每周還有為文件類型的數(shù)據(jù),總量200 GB左右,變化量根據(jù)上傳圖紙的情況不定。可以看到,備份的壓力是非常大的。
隨著業(yè)務(wù)量的井噴、信息系統(tǒng)的長期運(yùn)行、功能不斷增加、給用戶帶來方便的同時(shí),后臺(tái)的數(shù)據(jù)量越來越大。不斷累積的數(shù)據(jù)會(huì)對系統(tǒng)性能產(chǎn)生負(fù)面作用,需要及時(shí)清理歷史數(shù)據(jù)和垃圾數(shù)據(jù),但同時(shí)還要保證數(shù)據(jù)的安全性。隨著計(jì)算機(jī)技術(shù)的發(fā)展,服務(wù)器構(gòu)架的變化,存儲(chǔ)設(shè)備的加入,還有數(shù)據(jù)庫之間的數(shù)據(jù)交叉,形成了各種復(fù)雜的系統(tǒng)構(gòu)架。數(shù)據(jù)備份與恢復(fù)數(shù)據(jù)的復(fù)雜性大大增加。還有面對系統(tǒng)崩潰,硬件損壞等一系列問題時(shí),都需要及時(shí),準(zhǔn)確地恢復(fù)數(shù)據(jù)。傳統(tǒng)的備份工具,具有許多局限性,如空間有限、備份時(shí)間長、保存時(shí)間短、可靠程度不高等問題。
通過對不同的情況進(jìn)行了分析,針對性地對這些要求進(jìn)行總結(jié),從實(shí)際需求的角度對數(shù)據(jù)進(jìn)行備份。
常用的數(shù)據(jù)庫備份級別包括永久備份、長期備份、短期備份。因此我們需要采用一個(gè)全面的解決方案,充分滿足各級別的備份需求。
永久備份:我們使用刻錄光盤來進(jìn)行備份。并保存于異地。它的優(yōu)點(diǎn)是永久保存,缺點(diǎn)是不能及時(shí)備份。且由于文件大小關(guān)系,只能備份壓縮文件,需要手動(dòng)轉(zhuǎn)移、壓縮、刻錄這些數(shù)據(jù),工作量較大。同時(shí),恢復(fù)時(shí)也要解壓縮這些文件,需要時(shí)間較長。
長期備份:目前的長期備份是指對備份文件存放3個(gè)月左右的保留時(shí)間。目前采用兩臺(tái)磁帶機(jī)備份,通過Xmanage軟件、NBU軟件建立備份策略,進(jìn)行備份(見圖1)。它的優(yōu)點(diǎn)是每天自動(dòng)備份新生成的文件。由于存在多組磁帶進(jìn)行循環(huán),備份容量比較大,可以直接恢復(fù)文件,無需解壓,需要時(shí)間較短。缺點(diǎn)是仍然使用以太網(wǎng)資源進(jìn)行備份和恢復(fù),在數(shù)據(jù)量很大的情況下會(huì)給網(wǎng)絡(luò)造成很大的壓力,加重服務(wù)器CPU的負(fù)荷,將磁帶上的內(nèi)容恢復(fù)到硬盤上的時(shí)間也較長。
圖1 NBU備份軟件
短期備份:盡管有了永久備份和長期備份,短期備份可以達(dá)到快速恢復(fù)的目的。由于群集服務(wù)器是建立存儲(chǔ)區(qū)域網(wǎng)上的(見圖2),可以通過Snap-Manager來備份數(shù)據(jù)庫所在的卷來恢復(fù)數(shù)據(jù)。由于光纖通道連接不需要經(jīng)過服務(wù)器的 TCP/IP棧,而且某些層的錯(cuò)誤檢查可以由光纖通道內(nèi)部的硬件完成。它的備份速度和恢復(fù)速度非常快。缺點(diǎn)是由于它是基于存儲(chǔ)空間的,空間有限制。它所能保存SQL數(shù)據(jù)最新的60份快照,按照每天2份,也就是保留1個(gè)月的備份。
圖2 FC+SAN+SnapManager
盡管我們通過上述三種備份方式對數(shù)據(jù)庫文件進(jìn)行了備份,但是部署下去后發(fā)現(xiàn)存在問題。短期備份和長期備份盡管一個(gè)是基于數(shù)據(jù)庫層面,一個(gè)是基于卷(相當(dāng)于硬盤分區(qū))的快照備份,但他們對于數(shù)據(jù)庫的事物日志截?cái)嗍且粯拥摹R虼藢?dǎo)致NBU的差異還原上,每當(dāng)還原好相對的全備時(shí),再還原差異備份的時(shí)候總是報(bào)錯(cuò)說“無法還原此差異備份,因?yàn)樵摂?shù)據(jù)庫尚未還原到正確的早期狀態(tài)”。但所使用的恢復(fù)文件,都是正確的,當(dāng)時(shí)的備份記錄也顯示備份正常。導(dǎo)致恢復(fù)出來的數(shù)據(jù)庫狀態(tài)都是指定日期的最近的那個(gè)全備。
關(guān)于NBU無法恢復(fù)差異備份的問題,通過手動(dòng)驗(yàn)證和向symantec廠商工程師提交情況下,得出以下結(jié)論:
在NBU備份完全備后,又通過snapmanager做了一個(gè)全備。所以NBU在通過第二份差異備份恢復(fù)時(shí),由于2個(gè)增量備份之間的邏輯關(guān)系出現(xiàn)差異,所以第二個(gè)增量備份恢復(fù)失敗。
當(dāng)時(shí)設(shè)定NBU與snapmanager兩個(gè)備份軟件同時(shí)備份semc-sql1的默認(rèn)實(shí)例。當(dāng)時(shí)的備份策略是:nbu備份的是差異恢復(fù)(周末全備+平時(shí)差異),snapmanager備份的是時(shí)間點(diǎn)恢復(fù)。(每天全備+日志)(見圖3)
表1 舊備份時(shí)間點(diǎn)
具體解決方案為將NBU改為每天全備(每天的19:25)(見圖4),不與SnapManager造成沖突,且保存時(shí)間延長。缺點(diǎn)是備份時(shí)間長。每天備份時(shí)間一般為1 h,20:26分之前可以完成,再晚可能會(huì)對sql作業(yè)(21:00開始)造成壓力。且全備所占的磁帶空間大,需要增加及更新磁帶,但可以使這兩種備份工具同時(shí)工作,獲得需要的效果。
表2 新備份時(shí)間點(diǎn)
完善的數(shù)據(jù)備份方案是滿足數(shù)據(jù)實(shí)時(shí)備份和恢復(fù)的必然選擇。不同的數(shù)據(jù)存儲(chǔ)環(huán)境和數(shù)據(jù)量對備份方案有著不同的需求,這些需求決定了我們不可能只用一種備份工具就完成了對數(shù)據(jù)的備份和恢復(fù)的復(fù)雜要求,因此,根據(jù)自身環(huán)境的實(shí)際狀況,計(jì)算好數(shù)據(jù)量,采用成熟、先進(jìn)的技術(shù),設(shè)計(jì)一個(gè)具有較強(qiáng)的可擴(kuò)展性的備份策略,是數(shù)據(jù)備份的最佳方案。我們要將幾種備份技術(shù)綜合使用,取長補(bǔ)短,根據(jù)不同情況靈活應(yīng)用,充分測試發(fā)現(xiàn)問題并加以解決,才能找到最佳的數(shù)據(jù)備份方案,保證信息系統(tǒng)的平穩(wěn)、高效、安全運(yùn)行。