俞 俊,院仁杰,袁曉東
(1.南京南瑞集團(tuán)公司信息系統(tǒng)集成分公司,江蘇 南京211000;2.南京云白信息科技有限公司,江蘇 南京210008)
為了防止數(shù)據(jù)庫系統(tǒng)的軟、硬件故障造成數(shù)據(jù)丟失的嚴(yán)重后果,生產(chǎn)系統(tǒng)的數(shù)據(jù)庫都需要進(jìn)行定時(shí)備份。傳統(tǒng)的備份方法需要對(duì)數(shù)據(jù)庫定期進(jìn)行全量備份[1,2],而隨著系統(tǒng)數(shù)據(jù)量的增長(zhǎng),全量備份耗時(shí)越來越長(zhǎng),對(duì)于大數(shù)據(jù)量的系統(tǒng)甚至出現(xiàn)在夜間備份窗口無法完成一個(gè)數(shù)據(jù)庫全量備份的情況,持續(xù)到早晨業(yè)務(wù)高峰期的備份操作會(huì)對(duì)業(yè)務(wù)系統(tǒng)的性能產(chǎn)生極大的影響。
當(dāng)需要通過備份數(shù)據(jù)對(duì)數(shù)據(jù)庫進(jìn)行恢復(fù)時(shí),傳統(tǒng)的磁帶庫或者虛擬帶庫恢復(fù)數(shù)據(jù)庫的時(shí)間也非常長(zhǎng)。例如20TB的數(shù)據(jù)庫使用磁帶庫或者虛擬帶庫,按照平均200 M/s的恢復(fù)速度,最小恢復(fù)時(shí)間大約為40 h。
針對(duì)傳統(tǒng)數(shù)據(jù)庫備份方法全庫備份、數(shù)據(jù)恢復(fù)時(shí)間過長(zhǎng)的問題,我們研發(fā)了DataSafe高性能數(shù)據(jù)拯救系統(tǒng),它具備以下優(yōu)點(diǎn):
(1)采用備份服務(wù)器端自動(dòng)合并技術(shù),邊備份邊合并備份集,不需要在恢復(fù)時(shí)合并備份集,實(shí)現(xiàn)快速恢復(fù),數(shù)據(jù)庫恢復(fù)的時(shí)間與數(shù)據(jù)庫規(guī)模無關(guān)。
(2)支持各種基于塊變更跟蹤的數(shù)據(jù)備份技術(shù),例如Oracle塊跟蹤、LINUX CBT等。
(3)支持各種增量備份技術(shù)和日志前滾技術(shù),例如Oracle增量備份和歸檔日志前滾。
(4)只需要在初始化階段做一次全量備份,今后只需要備份增量,可以避免定期全量備份,減輕生產(chǎn)系統(tǒng)負(fù)擔(dān)。
(5)通過快照可保留多個(gè)時(shí)間點(diǎn)的歷史數(shù)據(jù),避免了保留多個(gè)備份集帶來的存儲(chǔ)資源浪費(fèi)。
(6)備份集可以用于開發(fā)、測(cè)試、災(zāi)備演練、數(shù)據(jù)脫敏等工作。
DataSafe系統(tǒng)基于B/S架構(gòu)為用戶提供服務(wù),其功能整體架構(gòu)如圖1所示。
圖1中各部分功能說明如下:
(1)首頁:用戶登錄成功后,進(jìn)入控制面板首頁,內(nèi)容包含所有節(jié)點(diǎn)狀況(節(jié)點(diǎn)切換顯示、故障節(jié)點(diǎn)顯示)、快照池使用量、重刪池使用量、應(yīng)用程序列表、失敗任務(wù)列表、事件錯(cuò)誤列表等,界面如圖2所示。
(2)應(yīng)用管理:應(yīng)用管理是系統(tǒng)核心模塊,由以下模塊組成:本地應(yīng)用模塊、備份管理模塊、遠(yuǎn)程應(yīng)用模塊、應(yīng)用組管理模塊,包含發(fā)現(xiàn)新應(yīng)用、應(yīng)用列表、應(yīng)用保護(hù)(重新保護(hù))、應(yīng)用詳情、SLA管理、取消保護(hù)、策略查看/刪除、過期備份處理、工作流、故障恢復(fù)、備份管理、歷史任務(wù)詳情、備份掛載、備份還原、快照管理、重刪管理、遠(yuǎn)程重刪搜索、數(shù)據(jù)零丟失操作、任務(wù)進(jìn)度詳情、任務(wù)列表詳情、鏡像卸載、鏡像刪除、鏡像掛載、鏡像狀態(tài)等功能。
(3)SLA策略管理:SLA策略管理對(duì)數(shù)據(jù)備份的策略進(jìn)行管理,由以下模塊組成:模板管理模塊、策略配置模塊、資源配置模塊,包含新增模板、模板列表、編輯模板、克隆模板、查看模板詳情、查看關(guān)聯(lián)應(yīng)用、搜索模板、刪除模板、管理策略、策略可視化、新增策略、策略列表、編輯策略、刪除策略、新增資源配置、資源配置列表、編輯資源配置、查看資源配置詳情、克隆資源配置、刪除資源配置、搜索資源配置和、查看關(guān)聯(lián)應(yīng)用等功能。
圖1 DataSafe功能架構(gòu)圖
圖2 DataSafe系統(tǒng)首頁
(4)域管理:域管理由主機(jī)管理模塊、存儲(chǔ)池管理模塊和組織管理模塊組成,包含新增主機(jī)、編輯主機(jī)、開啟/關(guān)閉主機(jī)CBT、刪除主機(jī)、搜索主機(jī)、新增快照池、編輯快照池、刪除快照池、快照池?cái)?shù)據(jù)列表、快照池統(tǒng)計(jì)數(shù)據(jù)、重刪池?cái)?shù)據(jù)列表、新增組織、組織列表、編輯組織、查看組織詳情、資源管理、刪除組織、資源查詢等功能。
(5)監(jiān)控中心:監(jiān)控中心由任務(wù)監(jiān)控模塊、事件監(jiān)控模塊和日志下載模塊組成,包含任務(wù)監(jiān)控列表、搜索任務(wù)、查看任務(wù)詳情、改變?nèi)蝿?wù)優(yōu)先級(jí)、取消任務(wù)、事件監(jiān)控列表、搜索事件、查看事件詳情、日志下載等功能。
(6)基礎(chǔ)配置:基礎(chǔ)配置由用戶管理模塊、角色管理模塊、個(gè)人信息模塊、郵件通知模塊、節(jié)點(diǎn)管理模塊,包含新增用戶、用戶列表、搜索用戶、編輯用戶、節(jié)點(diǎn)分配、組織分配、角色分配、刪除用戶、新增角色、角色列表、搜索角色、編輯角色、刪除角色、權(quán)限設(shè)置、個(gè)人信息維護(hù)、郵件通知設(shè)置、新增節(jié)點(diǎn)、節(jié)點(diǎn)列表、編輯節(jié)點(diǎn)、開啟/關(guān)閉CBT功能、啟用/禁用節(jié)點(diǎn)、刪除節(jié)點(diǎn)、搜索節(jié)點(diǎn)、節(jié)點(diǎn)狀態(tài)檢測(cè)、節(jié)點(diǎn)證書交換、節(jié)點(diǎn)移除證書、節(jié)點(diǎn)配對(duì)、取消配對(duì)等功能。
DataSafe系統(tǒng)與市場(chǎng)上的同類型產(chǎn)品如Actifio[3]相比,有以下幾方面的特點(diǎn)和獨(dú)到之處:
(1)除支持Oracle數(shù)據(jù)庫外,還支持 MySQL、達(dá)夢(mèng)、DB2等數(shù)據(jù)庫的備份管理,通過對(duì)邏輯卷進(jìn)行塊變化跟蹤來實(shí)現(xiàn)。
(2)支持多節(jié)點(diǎn)管理,可同時(shí)管理多個(gè)備份節(jié)點(diǎn)機(jī)。
(3)滿足可靈活配置的資源權(quán)限,包括對(duì)主機(jī)、應(yīng)用、策略模板、資源模板、用戶、節(jié)點(diǎn)等都可以按角色來管理相關(guān)資源。
(4)支持Oracle數(shù)據(jù)庫的零丟失數(shù)據(jù)恢復(fù),而其他數(shù)據(jù)備份工具只能恢復(fù)到數(shù)據(jù)備份的時(shí)間點(diǎn)。
本文介紹了高性能數(shù)據(jù)拯救系統(tǒng)DataSafe的目標(biāo)、整體功能架構(gòu)和系統(tǒng)創(chuàng)新特點(diǎn)。經(jīng)過實(shí)際測(cè)試,單備份節(jié)點(diǎn)環(huán)境下數(shù)據(jù)庫初始化全量備份速度超過600 M/s,集群環(huán)境下數(shù)據(jù)庫初始化全量備份速度超過1 TB/s,每5 min可備份一次增量或歸檔日志。通過我們獨(dú)有的技術(shù)無論數(shù)據(jù)量多大都可以即時(shí)恢復(fù),并可實(shí)現(xiàn)Oracle數(shù)據(jù)庫恢復(fù)時(shí)的零數(shù)據(jù)丟失,最大限度保障RTO指標(biāo)。