廖雯 張俊馮 徐佳男 鮑淼 任俊強(qiáng)
1 引言
隨著信息化建設(shè)的推進(jìn),信息數(shù)據(jù)對(duì)于企業(yè)的發(fā)展非常重要。但是在實(shí)際的數(shù)據(jù)使用中,信息數(shù)據(jù)隨時(shí)面臨著因?yàn)楦鞣N因素所導(dǎo)致的破壞,這就對(duì)數(shù)據(jù)存儲(chǔ)恢復(fù)提出了相當(dāng)高的要求。為此,需要做好對(duì)數(shù)據(jù)備份恢復(fù)效率進(jìn)行不斷地優(yōu)化,以改善數(shù)據(jù)備份恢復(fù)效率。
2 數(shù)據(jù)備份是企業(yè)生存的基礎(chǔ)保障
企業(yè)最為寶貴的財(cái)富就是數(shù)據(jù),從美國(guó)9.11恐怖襲擊,到近年來(lái)我國(guó)發(fā)生的嚴(yán)重自然災(zāi)害等,充分說(shuō)明企業(yè)當(dāng)前生存環(huán)境的復(fù)雜多變,這些災(zāi)難事件給那些依賴信息系統(tǒng)開展業(yè)務(wù)的企業(yè)帶來(lái)巨大的損失和嚴(yán)重影響。人為的錯(cuò)誤,硬盤的損毀、電腦病毒、自然災(zāi)難等都有可能造成數(shù)據(jù)的丟失,給企業(yè)造成無(wú)可估量的損失。
備份作為保護(hù)這些重要資源的基本手段,占有的重要地位,它已經(jīng)成為計(jì)算機(jī)領(lǐng)域里相對(duì)獨(dú)立的分支機(jī)構(gòu)。一般來(lái)說(shuō),各種操作系統(tǒng)所附帶的備份程序都有著這樣或那樣的缺陷,所以若想對(duì)數(shù)據(jù)進(jìn)行可靠的備份,必須選擇專門的備份軟、硬件,并制定相應(yīng)的備份及恢復(fù)方案。如果每一臺(tái)服務(wù)器或每一個(gè)局域網(wǎng)絡(luò)都配置了數(shù)據(jù)備份設(shè)備以及相應(yīng)的備份軟件,那么無(wú)論網(wǎng)絡(luò)硬件還是軟件出了問(wèn)題,都能夠很輕松地恢復(fù),數(shù)據(jù)備份已經(jīng)成為現(xiàn)代企業(yè)生存的基礎(chǔ)保障。
3 數(shù)據(jù)恢復(fù)效率是企業(yè)生存能力的表現(xiàn)形式
在系統(tǒng)的建設(shè)和保障穩(wěn)定運(yùn)行過(guò)程中,備份體系的建設(shè)不僅僅是將數(shù)據(jù)進(jìn)行備份,而是一個(gè)系統(tǒng)的工程,而隨著對(duì)各個(gè)應(yīng)用系統(tǒng)的全面覆蓋,備份的數(shù)據(jù)量的不斷增加,恢復(fù)速度難以達(dá)到設(shè)計(jì)預(yù)期,而且在實(shí)踐過(guò)程中發(fā)現(xiàn)恢復(fù)效率受諸多因素影響,導(dǎo)致恢復(fù)速度根本無(wú)法預(yù)測(cè),這給我們的數(shù)據(jù)保護(hù)管理工作帶來(lái)非常大的挑戰(zhàn)。
以某商業(yè)銀行為例,在某次生產(chǎn)系統(tǒng)維護(hù)過(guò)程中,操作不當(dāng)導(dǎo)致磁盤I/O錯(cuò)誤,由此造成生產(chǎn)和災(zāi)備中心同時(shí)故障無(wú)法對(duì)外服務(wù),不得不采取數(shù)據(jù)恢復(fù)方式恢復(fù)業(yè)務(wù)。由于缺乏數(shù)據(jù)恢復(fù)的演練,不僅恢復(fù)流程不熟悉耽誤時(shí)間,而且由于系統(tǒng)缺乏優(yōu)化,使得原本2小時(shí)的恢復(fù)作業(yè),花費(fèi)了整整6個(gè)小時(shí),嚴(yán)重影響了第二天全行網(wǎng)點(diǎn)的正常營(yíng)業(yè),造成業(yè)務(wù)損失。
因此,對(duì)備份數(shù)據(jù)恢復(fù)效率進(jìn)行研究,了解并優(yōu)化現(xiàn)有環(huán)境下備份數(shù)據(jù)恢復(fù)效率,分析并掌握影響數(shù)據(jù)恢復(fù)效率的策略因素,為進(jìn)一步提高恢復(fù)效率提供決策依據(jù)。
4 數(shù)據(jù)備份恢復(fù)效率研究方法
通過(guò)對(duì)數(shù)據(jù)備份系統(tǒng)的分析,我們發(fā)現(xiàn)有多方面的因素會(huì)影響數(shù)據(jù)備份恢復(fù)效率,而且這些因素與恢復(fù)效率不是簡(jiǎn)單的線性關(guān)系,因此我們?cè)谠O(shè)計(jì)研究方法時(shí)考慮兩個(gè)主要的方面:一是定性的影響性分析,所謂定性的影響性分析是通過(guò)對(duì)可能影響備份恢復(fù)效率的諸多因素的羅列,以及可能造成的影響進(jìn)行分析說(shuō)明;二是定量的演練測(cè)試,所謂定量的演練測(cè)試是選擇影響性比較大的因素進(jìn)行對(duì)比測(cè)試,根據(jù)測(cè)試結(jié)果來(lái)驗(yàn)證這些因素對(duì)備份恢復(fù)效率的影響。通過(guò)兩方面結(jié)果的匯總比對(duì),確定對(duì)備份恢復(fù)效率產(chǎn)生影響的因素以及這些因素的影響性,從而為我們確定行之有效的優(yōu)化策略提供決策依據(jù)。
具體的研究步驟和方法如圖1所示。
基準(zhǔn)演練:選取典型環(huán)境作為研究對(duì)象,進(jìn)行備份數(shù)據(jù)恢復(fù)演練,記錄數(shù)據(jù)恢復(fù)流程、恢復(fù)速度,作為研究的基準(zhǔn)數(shù)據(jù)。
影響因素分析:匯總影響恢復(fù)效率的策略因素、并對(duì)齊影響性進(jìn)行分析。
因素影響性測(cè)試:組織環(huán)境資源對(duì)這些因素進(jìn)行逐一優(yōu)化,逐一對(duì)優(yōu)化后的環(huán)境進(jìn)行影響因素的對(duì)比測(cè)試,對(duì)確定各影響因素的影響因子。
優(yōu)化演練及總結(jié):基于最終的優(yōu)化環(huán)境進(jìn)行數(shù)據(jù)恢復(fù)演練,記錄恢復(fù)流程、恢復(fù)速度,作為演練分析的對(duì)比數(shù)據(jù)并進(jìn)行總結(jié)。
5 選擇具有普遍參考意義的研究對(duì)象
我們選取了銀聯(lián)技術(shù)部辦公網(wǎng)備份系統(tǒng)典型環(huán)境作為研究對(duì)象,環(huán)境包括虛擬環(huán)境的應(yīng)用系統(tǒng)和物理機(jī)的Oracle數(shù)據(jù)庫(kù),拓?fù)淙鐖D2所示。
5.1 虛擬機(jī)應(yīng)用環(huán)境
虛擬機(jī)名稱:NBU_SELS11_TST。
系統(tǒng)配置。CPU:4 vCPU;內(nèi)存:8GB物理內(nèi)存 + 4GB swap 空間;存儲(chǔ):80GB本地硬盤+ 300GB LUN;操作系統(tǒng):SUSE Linux Enterprise Server 11 SP3;應(yīng)用:主數(shù)據(jù)應(yīng)用服務(wù)/文件系統(tǒng)。
5.2 物理機(jī)數(shù)據(jù)庫(kù)環(huán)境
設(shè)備型號(hào):IBM x3650 M3。
硬件配置。CPU:E5640,2.67GHz,2個(gè)物理CPU,每個(gè)CPU 4個(gè)內(nèi)核;內(nèi)存:16GB物理內(nèi)存 + 8GB swap 空間;存儲(chǔ):500GB本地硬盤(RAID1)+ 300GB LUN + 50GB LUN;操作系統(tǒng):SUSE Linux Enterprise Server 11 SP3;數(shù)據(jù)庫(kù):Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 64bit。
6 數(shù)據(jù)恢復(fù)基準(zhǔn)演練效率
在現(xiàn)有環(huán)境下對(duì)數(shù)據(jù)恢復(fù)效率進(jìn)行演練測(cè)試,記錄數(shù)據(jù)恢復(fù)的流程、速度、耗時(shí),形成文檔,作為研究的基準(zhǔn)數(shù)據(jù),具體演練過(guò)程如圖3所示。
環(huán)境準(zhǔn)備:為不影響基準(zhǔn)環(huán)境的生產(chǎn)應(yīng)用,全部采取異機(jī)恢復(fù)的方式進(jìn)行演練。
數(shù)據(jù)庫(kù)恢復(fù)及驗(yàn)證:首先進(jìn)行數(shù)據(jù)庫(kù)的恢復(fù),恢復(fù)后的數(shù)據(jù)庫(kù)連接生產(chǎn)應(yīng)用,驗(yàn)證數(shù)據(jù)一致性和業(yè)務(wù)的可用性,記錄恢復(fù)數(shù)據(jù)的時(shí)間。
應(yīng)用服務(wù)器恢復(fù)及驗(yàn)證:恢復(fù)應(yīng)用服務(wù)器的數(shù)據(jù),連接恢復(fù)的數(shù)據(jù)庫(kù),驗(yàn)證數(shù)據(jù)的一致性和業(yè)務(wù)的可用性,記錄恢復(fù)數(shù)據(jù)的時(shí)間。
最后進(jìn)行生產(chǎn)環(huán)境的完全還原,保證演練不對(duì)原環(huán)境造成影響。
基準(zhǔn)演練結(jié)論:數(shù)據(jù)恢復(fù)后,數(shù)據(jù)量一致,業(yè)務(wù)應(yīng)用經(jīng)驗(yàn)證后完全可用,說(shuō)明備份數(shù)據(jù)已完整地恢復(fù),整個(gè)恢復(fù)過(guò)程總耗時(shí)為4小時(shí)25分鐘,基準(zhǔn)演練數(shù)據(jù)恢復(fù)效率結(jié)果如表1和表2所示。
7 數(shù)據(jù)備份恢復(fù)效率影響因素分析及測(cè)試
通過(guò)基準(zhǔn)演練,我們發(fā)現(xiàn)在數(shù)據(jù)庫(kù)恢復(fù)操作耗時(shí)最長(zhǎng),因此我們對(duì)影響數(shù)據(jù)庫(kù)恢復(fù)速度的因素進(jìn)行了分析,主要包括幾類。
硬件及網(wǎng)絡(luò)環(huán)境:備份的目標(biāo)系統(tǒng)的硬件環(huán)境決定備份恢復(fù)效率,主要包括系統(tǒng)CPU/內(nèi)存大小、存儲(chǔ)I/O、網(wǎng)絡(luò)帶寬等。
備份參數(shù):NBU是備份作業(yè)調(diào)度的管理平臺(tái),所以備份參數(shù)的設(shè)置也是影響恢復(fù)效率的因素,主要包括備份通道調(diào)整、Buffer參數(shù)、重刪和虛機(jī)鏡像恢復(fù)功能等。
數(shù)據(jù)庫(kù)參數(shù):NBU是通過(guò)調(diào)度Oracle數(shù)據(jù)庫(kù)的備份接口進(jìn)行的,Oracle一些參數(shù)的設(shè)置同樣會(huì)影響備份速度,主要包括同步/異步IO機(jī)制、數(shù)據(jù)庫(kù)Large-pool、以及數(shù)據(jù)庫(kù)的壓縮機(jī)制。
其他恢復(fù)機(jī)制:存儲(chǔ)快照、虛擬機(jī)鏡像快速恢復(fù)功能。
根據(jù)對(duì)影響因素的分析,我們?cè)O(shè)計(jì)了這些因素影響性的測(cè)試,主要是通過(guò)調(diào)整因素的設(shè)置來(lái)測(cè)試這些因素對(duì)備份恢復(fù)效率的影響,從而驗(yàn)證影響因素的分析,并找到優(yōu)化的方案。
針對(duì)我們所選取的典型環(huán)境,這些因素對(duì)備份速度會(huì)產(chǎn)生不同的影響。
首先,硬件環(huán)境因素對(duì)備份速度的影響是線性的,硬件條件越好則備份恢復(fù)速度越快,考慮到硬件環(huán)境基本固定,所以選擇了SAN和LAN兩種方式的對(duì)比測(cè)試。
其次,NBU參數(shù)設(shè)置會(huì)提高備份恢復(fù)速度,但同時(shí)會(huì)占用硬件資源,所以對(duì)于備恢復(fù)速度的影響性比較綜合,在硬件資源足夠的情況下表現(xiàn)為線性,在后續(xù)的影響性測(cè)試中我們重點(diǎn)關(guān)注的不同通道數(shù)的對(duì)比測(cè)試以及重刪、虛機(jī)鏡像快速恢復(fù)功能對(duì)備份性能影響測(cè)試。
然后,Oracle的這些參數(shù)對(duì)速度的影響則比較復(fù)雜,尤其是開啟壓縮機(jī)制,因此是我們測(cè)試的重點(diǎn),分別對(duì)開啟和關(guān)閉壓縮機(jī)制進(jìn)行了測(cè)試。
最后,對(duì)可能影響備份恢復(fù)速度的其他因素進(jìn)行測(cè)試,如存儲(chǔ)快照回滾技術(shù)。
7.1 硬件及網(wǎng)絡(luò)環(huán)境測(cè)試
備份的目標(biāo)系統(tǒng)的硬件環(huán)境決定備份恢復(fù)效率,包括系統(tǒng)CPU/內(nèi)存大小、存儲(chǔ)I/O、網(wǎng)絡(luò)帶寬。
7.1.1 系統(tǒng)CPU/內(nèi)存及存儲(chǔ)I/O
系統(tǒng)CPU/內(nèi)存大小決定計(jì)算能力,影響數(shù)據(jù)恢復(fù)速度,系統(tǒng)計(jì)算能力越強(qiáng),數(shù)據(jù)備份恢復(fù)速度越快;前端存儲(chǔ)I/O存儲(chǔ)的吞吐量大小影響數(shù)據(jù)讀取和寫入的速度,I/O吞吐量越大,數(shù)據(jù)備份恢復(fù)速度越快。如表3所示。
7.1.2 LAN/SAN備份方式對(duì)比數(shù)據(jù)
測(cè)試數(shù)據(jù):測(cè)試中使用一臺(tái)物理機(jī)作為NBU模擬測(cè)試備份恢復(fù)客戶端。操作系統(tǒng):SUSE Linux Enterprise Server 11 SP3;CPU:16 (2.67GHz);內(nèi)存:16G;LUN:300G;IP網(wǎng)絡(luò)帶寬:1Gb;SAN網(wǎng)絡(luò)帶寬:4Gb。
分別測(cè)試三種類型數(shù)據(jù): Oracle、應(yīng)用及文件、MySQL數(shù)據(jù),測(cè)試數(shù)據(jù)表4所示。
測(cè)試結(jié)論:在同時(shí)滿足SAN、LAN 通道的環(huán)境優(yōu)先使用SAN通道進(jìn)行數(shù)據(jù)的備份與恢復(fù),當(dāng)前千兆網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)備份恢復(fù)速率峰值為110MB/s左右,生產(chǎn)環(huán)境中NBU5230同一時(shí)刻可能需要與其他業(yè)務(wù)系統(tǒng)交互,導(dǎo)致傳輸速率無(wú)法持久保持滿帶寬狀態(tài),僅數(shù)據(jù)傳輸方面物理主機(jī)與虛擬主機(jī)無(wú)太大差別。
7.2 備份參數(shù)測(cè)試
NBU是備份作業(yè)調(diào)度的管理平臺(tái),所以備份參數(shù)的設(shè)置也是為了提高備份恢復(fù)速度而設(shè)置的。
7.2.1 Oracle備份多通道測(cè)試
測(cè)試數(shù)據(jù):根據(jù)對(duì)基準(zhǔn)環(huán)境LAN方式開啟數(shù)據(jù)庫(kù)壓縮的情況下反復(fù)備份恢復(fù)測(cè)試,測(cè)試數(shù)據(jù)如表5所示。
測(cè)試結(jié)論:選擇2~6通道可以一定程度提升備份恢復(fù)速度:為盡可能利用整個(gè)通道帶寬,在Netbackup中可選擇并發(fā)數(shù)據(jù)量越多,數(shù)據(jù)備份恢復(fù)速度越快;每增加兩個(gè)通道,速率提升約為30%。
7.2.2 NBU Buffer參數(shù)調(diào)整測(cè)試
NBU 的Buffer參數(shù)是各個(gè)組件之間通訊時(shí)的數(shù)據(jù)緩沖區(qū),通過(guò)調(diào)整這些參數(shù)的大小可以影響備份恢復(fù)速度,其中NET_BUFFER_SZ:NBU介質(zhì)服務(wù)器與客戶端通信的緩沖區(qū);Size_DATA_BUFFERS:NBU介質(zhì)管理程序bptm和策略庫(kù)進(jìn)程bpdm間的緩存大??;Number of Data Buffers:NBU bptp進(jìn)程可以使用的 Data_buffer的數(shù)量。
測(cè)試數(shù)據(jù):Buffer更改前后的備份I/O對(duì)比測(cè)試(2通道),如表6所示。
測(cè)試結(jié)論:NBU Buffer的數(shù)量和大小影響備份數(shù)據(jù)的寫入速度,Buffer數(shù)值越大,備份恢復(fù)速度越快,但提升效果非常小。
7.2.3 備份重刪機(jī)制測(cè)試
NetBackup 可以選擇在客戶端或介質(zhì)服務(wù)器上進(jìn)行重復(fù)數(shù)據(jù)刪除。在靠近數(shù)據(jù)源位置刪除冗余數(shù)據(jù),可以最大程度發(fā)揮重復(fù)數(shù)據(jù)刪除功能的優(yōu)勢(shì)。NetBackup 客戶端重復(fù)數(shù)據(jù)刪除功能可以刪除源數(shù)據(jù)位置的冗余數(shù)據(jù)。與傳統(tǒng)備份技術(shù)相比,它所占用的 CPU、I/O 和內(nèi)存會(huì)更低??蛻舳酥貜?fù)數(shù)據(jù)刪除功能還可以實(shí)現(xiàn)增幅高達(dá)10倍的備份速度。如果客戶端計(jì)算機(jī)沒有足夠的CPU資源執(zhí)行重復(fù)數(shù)據(jù)刪除操作,那么可以將該操作放到Media服務(wù)器上,或存儲(chǔ)目標(biāo)端進(jìn)行處理。如圖5所示。
測(cè)試數(shù)據(jù):使用辦公流程平臺(tái)Oracle數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源(縮減后),在SAN網(wǎng)絡(luò)備份的條件下,測(cè)試啟用重刪功能對(duì)數(shù)據(jù)庫(kù)類備份效率的影響以及客戶端資源的消耗情況,如表7所示。
測(cè)試結(jié)論:刪重率與數(shù)據(jù)類型有關(guān)系,文檔文件、虛機(jī)以及數(shù)據(jù)庫(kù)的刪重率比較高,而這些刪重率高的數(shù)據(jù)類型,備份恢復(fù)時(shí)需要消耗更多的CPU和內(nèi)存,雖然一定程度影響備份速率,但因?qū)嶋H寫入數(shù)據(jù)量少,備份恢復(fù)速度還是相對(duì)高,刪重率與備份速率有關(guān),但不是絕對(duì)線性關(guān)系;數(shù)據(jù)重刪是在備份策略中默認(rèn)開啟的功能,無(wú)重刪會(huì)占用更多備份存儲(chǔ)資源、消耗更多備份時(shí)間。
7.2.4 啟動(dòng)虛機(jī)鏡像恢復(fù)功能(即時(shí)恢復(fù))
NetBackup 的即時(shí)恢復(fù)虛擬機(jī)功能,不需要等待從備份中傳輸該虛擬機(jī)的數(shù)據(jù),可直接從備份映像中啟動(dòng)虛擬機(jī),并且目標(biāo) ESX 主機(jī)上的用戶可立即訪問(wèn)該虛擬機(jī)?;謴?fù)虛擬機(jī)后使用vMotion將虛擬機(jī)數(shù)據(jù)文件從備份映像遷移到其他ESX主機(jī),恢復(fù)過(guò)程如圖6所示。
測(cè)試數(shù)據(jù)如表8所示。
測(cè)試結(jié)論:利用NBU的快速開啟任何以已備份到磁盤的虛擬系統(tǒng),通過(guò)NFS快速將虛機(jī)鏡像啟動(dòng),可以實(shí)現(xiàn)系統(tǒng)快速恢復(fù)的目的,提高備份恢復(fù)效率。相比常規(guī)的虛擬機(jī)恢復(fù)方式,節(jié)約了系統(tǒng)從備份集恢復(fù)到存儲(chǔ)資源池的時(shí)間,快速啟動(dòng)系統(tǒng),如果需要系統(tǒng)長(zhǎng)期運(yùn)行則需要將其遷移到相鄰存儲(chǔ)中去。
7.3 Oracle數(shù)據(jù)庫(kù)參數(shù)測(cè)試
NBU是通過(guò)調(diào)度Oracle數(shù)據(jù)庫(kù)的備份接口進(jìn)行的,Oracle一些參數(shù)的設(shè)置同樣會(huì)影響備份速度。
7.3.1 改變ORACLE異步I/O參數(shù)
測(cè)試數(shù)據(jù)如表9所示。
測(cè)試結(jié)論:改變oracle數(shù)據(jù)庫(kù)異步IO參數(shù)后,使用不同的通道對(duì)數(shù)據(jù)庫(kù)進(jìn)行備份,對(duì)恢復(fù)速度有一定提升。
7.3.2 調(diào)整Large-Pool測(cè)試
RMAN備份過(guò)程是將數(shù)據(jù)讀到buffer,然后通過(guò)MML接口寫到備份設(shè)備。依數(shù)據(jù)庫(kù)不同的設(shè)置,這塊buffer會(huì)使用SGA區(qū)不同的部份,推薦設(shè)置合理的Large pool,讓RMAN的Buffer出自Large Pool。
測(cè)試數(shù)據(jù)如表10所示。
測(cè)試結(jié)論:將數(shù)據(jù)庫(kù)的SGA參數(shù)large_pool_size由200MB改為1GB,修改完成之后并沒有對(duì)備份速度有所優(yōu)化。
7.3.3 啟用數(shù)據(jù)庫(kù)壓縮機(jī)制測(cè)試
測(cè)試數(shù)據(jù):使用基準(zhǔn)環(huán)境數(shù)據(jù)庫(kù)280G數(shù)據(jù)在2通道的基礎(chǔ)上進(jìn)行對(duì)比測(cè)試,如表11所示。
測(cè)試結(jié)論:Oracle壓縮機(jī)制是決定性的影響因素,開啟關(guān)閉壓縮機(jī)制,備份數(shù)據(jù)恢復(fù)速率提升7-8倍。
7.4 啟用存儲(chǔ)快照功能測(cè)試
Huawei S5800T的快照功能,實(shí)現(xiàn)在不中斷正常業(yè)務(wù)的前提下,生成源數(shù)據(jù)在某一時(shí)間點(diǎn)的一致性數(shù)據(jù)副本,并且可在幾秒內(nèi)完成??煺丈珊罂梢员恢鳈C(jī)讀取,也可以作為某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)備份。
測(cè)試方法及數(shù)據(jù):劃分了一個(gè)300GB的LUN存儲(chǔ)空間掛載到物理機(jī)測(cè)試環(huán)境,并將Oracle測(cè)試數(shù)據(jù)庫(kù)數(shù)據(jù)部署到該掛載點(diǎn), 步驟包括對(duì)LUN 建立快照;在數(shù)據(jù)庫(kù)中模擬了數(shù)據(jù)誤刪的操作(刪除表空間),然后使用快照回滾功能驗(yàn)證快照回滾完成后數(shù)據(jù)一致性,如表12所示。
將LUN快照映射到另外一個(gè)Oracle系統(tǒng),調(diào)整參數(shù)后啟動(dòng)數(shù)據(jù)庫(kù),驗(yàn)證通過(guò)快照重新定義數(shù)據(jù)用途的特性。
測(cè)試結(jié)論:修改機(jī)制可大幅提高系統(tǒng)恢復(fù)效率,但數(shù)據(jù)不能長(zhǎng)期保存,可作為恢復(fù)效率的輔助手段。
8 數(shù)據(jù)備份恢復(fù)效率因素影響性分析及測(cè)試總結(jié)
8.1 影響性分析
通過(guò)對(duì)系統(tǒng)硬件環(huán)境到應(yīng)用軟件參數(shù)的逐級(jí)分析和對(duì)比測(cè)試,優(yōu)選硬件資源配置能夠有效提升數(shù)據(jù)備份恢復(fù)性能,同時(shí)根據(jù)場(chǎng)景調(diào)整參數(shù)配置可進(jìn)一步充分發(fā)揮性能。
在目前收集的數(shù)據(jù)中,物理服務(wù)器與虛擬服務(wù)器的磁盤IO有一定差異,但在整體的備份恢復(fù)周期中IO 性能未發(fā)現(xiàn)形成瓶頸,同樣的現(xiàn)象也存在于物理服務(wù)器與虛擬服務(wù)器的CPU計(jì)算能力。相較于系統(tǒng)IO性能及CPU計(jì)算能力,網(wǎng)絡(luò)傳輸速率為重點(diǎn)考慮對(duì)象。
網(wǎng)絡(luò)方面,目前服務(wù)器接入層網(wǎng)絡(luò)速率為1Gb/s、光纖存儲(chǔ)速率為 4Gb/s,故測(cè)試結(jié)果中光纖網(wǎng)絡(luò)數(shù)據(jù)傳輸速率明顯高于LAN網(wǎng)絡(luò),但未經(jīng)優(yōu)化的數(shù)據(jù)傳輸速率并未達(dá)到SAN與LAN之間的既有速率之比,同樣LAN網(wǎng)絡(luò)的平均傳輸速率也未達(dá)到 1Gb/s 網(wǎng)絡(luò)所具備的速率,可見參數(shù)優(yōu)化是資源使用率高低的重要因素。
數(shù)據(jù)庫(kù)參數(shù)調(diào)整的案例中,在Oracle 數(shù)據(jù)庫(kù)的恢復(fù)測(cè)試案例中開啟了壓縮模式的優(yōu)勢(shì)是能減小網(wǎng)絡(luò)傳輸量、縮小備份集大?。欢跀?shù)據(jù)量較大的情況下壓縮模式將失去優(yōu)勢(shì),導(dǎo)致備份恢復(fù)周期較長(zhǎng),無(wú)法實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù),故不同應(yīng)用場(chǎng)景調(diào)整優(yōu)化參數(shù)是不完全相同的。
備份數(shù)據(jù)重刪功能是NBU的核心價(jià)值之一,無(wú)論是虛擬機(jī)備份還是文件備份,通過(guò)重刪擴(kuò)展了備份二級(jí)存儲(chǔ)的邏輯存儲(chǔ)能力,同時(shí)也可通過(guò)客戶端刪重功能減小網(wǎng)絡(luò)傳輸量,縮短備份、還原周期。
除參數(shù)配置優(yōu)化外,使用某些可選的功能也可以優(yōu)化數(shù)據(jù)恢復(fù)策略,如NBU即時(shí)恢復(fù)和存儲(chǔ)快照。NBU即時(shí)恢復(fù)可通過(guò)配置好的NFS環(huán)境將虛擬機(jī)備份文件直接掛載在虛擬資源池中,省略了虛擬機(jī)恢復(fù)的耗時(shí)而實(shí)時(shí)啟動(dòng)故障虛擬機(jī);存儲(chǔ)快照功能并不能歸類為備份方式,但可實(shí)現(xiàn)數(shù)據(jù)快速回滾適用于數(shù)據(jù)狀態(tài)保護(hù)及測(cè)試環(huán)境(功能僅用于測(cè)試,目前存儲(chǔ)資源池空間暫無(wú)法支撐生產(chǎn)業(yè)務(wù)的數(shù)據(jù)快照功能)。
概括備份恢復(fù)效率影響的的因素包括:SAN/LAN備份方式、重刪功能、虛機(jī)快速恢復(fù)、數(shù)據(jù)庫(kù)壓縮機(jī)制以及存儲(chǔ)快照功能,其影響性表示如圖7所示。
8.2 測(cè)試總結(jié)
通過(guò)對(duì)備份和恢復(fù)性能影響因素的分析和測(cè)試,我們發(fā)現(xiàn)這些因素對(duì)備份和恢復(fù)的影響是綜合而且復(fù)雜的,實(shí)際優(yōu)化過(guò)程中可自下而上,系統(tǒng)而全面的分析、優(yōu)化備份架構(gòu)。
首先,考慮備份系統(tǒng)基礎(chǔ)設(shè)施,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等,如備份存儲(chǔ)設(shè)備,選擇的次序依次為磁盤、虛擬帶庫(kù)、物理帶庫(kù),這些設(shè)備合理搭配,不僅可提高備份速度,還能更好的滿足法規(guī)、制度的要求;再比如備份網(wǎng)絡(luò),是否規(guī)劃備份專網(wǎng),是否能提供SAN或萬(wàn)兆網(wǎng)等。
其次,優(yōu)化備份架構(gòu),合理的調(diào)整配置參數(shù),充分利用現(xiàn)有資源,達(dá)到備份和恢復(fù)性能的提升。 如數(shù)據(jù)庫(kù)備份參數(shù)的調(diào)整,大數(shù)據(jù)平臺(tái)的直連備份等。
最后,充分利用備份系統(tǒng)中新的優(yōu)化功能選項(xiàng),可大大提升備份和恢復(fù)性能。如重刪功能、虛機(jī)即時(shí)恢復(fù)、備份加速和虛擬合成技術(shù)、數(shù)據(jù)庫(kù)壓縮機(jī)制以及存儲(chǔ)快照功能等。
9 實(shí)施優(yōu)化策略后的演練效果
根據(jù)影響性測(cè)試結(jié)果,我們采用了最優(yōu)的備份和數(shù)據(jù)庫(kù)參數(shù)組合,并選擇能提高恢復(fù)效率的功能和機(jī)制,對(duì)當(dāng)前備份恢復(fù)環(huán)境進(jìn)行了優(yōu)化,具體措施涉及幾個(gè)方面。
事前準(zhǔn)備:(1)異機(jī)恢復(fù)準(zhǔn)備一個(gè)相同系統(tǒng)版本、數(shù)據(jù)庫(kù)程序版本、相同環(huán)境變量的虛擬機(jī)的環(huán)境作為冷備;(2)恢復(fù)之前,暫停備份作業(yè)。
修改參數(shù):(1)關(guān)閉oracle數(shù)據(jù)庫(kù)壓縮機(jī)制;(2)調(diào)整備份通道至6通道;(3)多個(gè)虛擬機(jī)恢復(fù)由并行改為串行操作,減輕NBU資源占用;(4)改變Oracle異步IO參數(shù)、SGA內(nèi)存參數(shù)、修改 Net Buffer值。
優(yōu)化演練效果:在完成優(yōu)化后,再次對(duì)數(shù)據(jù)恢復(fù)進(jìn)行了演練,在保證恢復(fù)數(shù)據(jù)及應(yīng)用可用的情況下,恢復(fù)效率大幅度提高,如表13所示。
10 行業(yè)借鑒意義
根據(jù)數(shù)據(jù)統(tǒng)計(jì),2015年,90%以上的金融行業(yè)使用Symantec NBU 進(jìn)行數(shù)據(jù)備份,其中60%都是Oracle數(shù)據(jù)庫(kù)備份,80%以上存在虛機(jī)備份環(huán)境,通過(guò)我們對(duì)數(shù)據(jù)備份恢復(fù)效率策略的研究對(duì)同行業(yè)的數(shù)據(jù)災(zāi)備具有兩方面的意義。
一是一般同行業(yè)單位多關(guān)注備份,而忽略數(shù)據(jù)恢復(fù)的重要性,通過(guò)研究結(jié)果輸出可幫助同行業(yè)單位重視數(shù)據(jù)恢復(fù)的有效性驗(yàn)。
二是在重視數(shù)據(jù)恢復(fù)有效性的情況下,研究結(jié)果有助于同行業(yè)同類型數(shù)據(jù)備份及恢復(fù)研究,分析并掌握影響數(shù)據(jù)恢復(fù)效率的策略因素以及這些因素的影響性,不斷摸索優(yōu)化方案從而提高恢復(fù)效率。
備份恢復(fù)效率的優(yōu)化是一個(gè)持續(xù)不斷的過(guò)程,在研究過(guò)程中我們了解到Symantec NBU在最新版本提供了文件和虛機(jī)的加速備份功能,可以提高備份恢復(fù)速度,而且我們也發(fā)現(xiàn)建立一套恢復(fù)演練的機(jī)制并定期演練也是提高備份恢復(fù)效率的重要手段,我們將繼續(xù)深化研究以期進(jìn)一步提高IT系統(tǒng)的應(yīng)急保障能力。