【摘要】NBU備份平臺能自動進行系統(tǒng)的集中備份,為數(shù)據(jù)安全提供有效保障,但運行中也存在一些問題。本文給出了針對運行中存在問題的四個優(yōu)化措施。實踐表明,這些措施切實解決了備份平臺恢復時間長及流量帶寬占用大等問題,進一步提高了備份平臺的可靠性。
【關鍵詞】備份平臺;Catalog;異地備份;策略調整;數(shù)據(jù)恢復
1引言
數(shù)據(jù)中心是各種IT應用服務的提供中心,是數(shù)據(jù)計算、網(wǎng)絡、存儲的中心。人民銀行的數(shù)據(jù)中心在經(jīng)過基礎設施平臺、應用平臺、存儲備份平臺以及管理下發(fā)平臺等多個工程的建設后,已成為區(qū)域性技術服務的樞紐,提高了人行的整體科技服務水平。各應用系統(tǒng)集中于門戶展現(xiàn),促進了科技工作的數(shù)字化和信息化;管理下發(fā)平臺通過及時的文件傳送,實現(xiàn)了各信息節(jié)點間的數(shù)據(jù)共享;存儲備份平臺通過統(tǒng)一的備份管理軟件、集中的備份平臺及并發(fā)寫入等技術解放了人力,大大提高了備份效率。
數(shù)據(jù)中心中最重要的就是數(shù)據(jù),所有的應用及安全都是圍繞著數(shù)據(jù)來部署的,要保障數(shù)據(jù)的完整性及安全性,存儲中心的建設發(fā)揮了重要的作用。人民銀行省級數(shù)據(jù)中心存儲備份平臺采用NBU(Symantec Veritas Netbackup)系統(tǒng)作為建設載體,它能夠自動對各類應用系統(tǒng)進行集中備份,為重要業(yè)務系統(tǒng)數(shù)據(jù)安全提供有效保障。但在實際使用中發(fā)現(xiàn)存在故障恢復時間長、備份占用帶寬多、自動備份操作失敗及無法定期驗證數(shù)據(jù)有效性等問題。本文探討的就是針對這些問題進行實踐和摸索后的基于Veritas Netbackup備份平臺的優(yōu)化措施。
2優(yōu)化背景及措施
存儲備份平臺由針對每個系統(tǒng)進行備份轉變?yōu)橛山y(tǒng)一的備份管理軟件及集中的備份平臺進行備份,通過將手工操作轉變?yōu)闊o人值守的自動操作大大提高了備份效率,也保障了數(shù)據(jù)的安全。但運行至今,發(fā)現(xiàn)系統(tǒng)中存在某些問題:一是沒有對存儲管理平臺的日志索引文件(Catalog)進行備份,導致恢復時間過長甚至恢復失??;二是沒有有效地規(guī)劃備份使用的存儲單元(Storage Unit),導致跨網(wǎng)段備份占用幾乎整個局域網(wǎng)交換機的帶寬資源,影響其它系統(tǒng)的運行;三是數(shù)據(jù)庫系統(tǒng)初始連接參數(shù)不夠,導致部分應用系統(tǒng)備份失??;四是沒有定期檢查備份數(shù)據(jù)庫的有效性,可能存在無法恢復有效數(shù)據(jù)的后果。經(jīng)過長時間摸索實踐,通過對備份范圍、備份策略和數(shù)據(jù)庫參數(shù)等進行調整優(yōu)化,提出了優(yōu)化措施,大大提升了數(shù)據(jù)中心備份系統(tǒng)運行效能。
2.1異地備份Catalog文件縮短恢復時間
省級數(shù)據(jù)中心存儲管理平臺使用的NBU軟件中有一項非常重要的數(shù)據(jù),是它的日志數(shù)據(jù)庫,通常稱為Catalog,它是備份主服務器(Master Server)的心臟,它記錄了關于所有備份數(shù)據(jù)的數(shù)據(jù);在進行存儲備份平臺中數(shù)據(jù)文件的恢復時,首先需要讀取Catalog文件以便在磁帶庫中定位指定時段備份文件的位置。如果沒有它,無法進行備份內容的定位,任何一個文件和備份磁帶的索引關系將無法得知,數(shù)據(jù)的恢復工作也無法進行。目前Catalog文件只在專用磁帶上備份,一旦NBU服務器發(fā)生災難故障需要恢復時,若Catalog文件丟失,需要通過對所有磁帶的全掃描重構Catalog后進行備份系統(tǒng)的災難恢復,或通過讀取專用磁帶上Catalog文件進行平臺恢復,所花的時間很長,往往超過數(shù)小時,甚至可能恢復失敗,容易引發(fā)更大負面影響。
經(jīng)過探索,將存儲備份平臺中主服務器(Master Server)安裝目錄下的Catalog文件,通過GTP異地數(shù)據(jù)備份系統(tǒng)進行異地備份,既大大增加了Catalog文件的安全性,又因從異地備份中可以快速讀取Catalog文件進行平臺恢復,通過直接讀取最近日期的索引文件,再現(xiàn)備份數(shù)據(jù)存儲情況,最大限度地降低了恢復的難度,在發(fā)生重大災難時為第一時間恢復業(yè)務系統(tǒng)運行提供了技術支持。
2.2調整備份策略有效降低網(wǎng)絡負擔
數(shù)據(jù)中心存儲備份平臺在對數(shù)據(jù)量較大的業(yè)務數(shù)據(jù)進行備份時,出現(xiàn)了核心交換機與服務器所在的生產(chǎn)區(qū)交換機流量高達88Mbps、占整個網(wǎng)絡近90%的帶寬的情況,較大的通信流量對其他系統(tǒng)運行、備份產(chǎn)生了一定影響。通過研究NBU的備份機制我們發(fā)現(xiàn)通過調整備份策略能夠解決這個問題。省級數(shù)據(jù)中心使用了NBU三級備份機制,即同時安裝了備份管理服務器、介質服務器(Media Server)、備份客戶端(業(yè)務系統(tǒng)服務器)。其中安裝了光纖HBA陣列卡的備份管理服務器、介質服務器均可實施備份策略,但介質服務器的作用往往被忽略了。以往新增備份策略時,備份客戶端的數(shù)據(jù)備份默認選擇備份管理服務器進行數(shù)據(jù)備份,由于備份管理服務器與備份客戶端不屬于同一網(wǎng)段,備份數(shù)據(jù)傳輸必須經(jīng)過核心路由器設備,形成較大跨網(wǎng)段通信壓力。通過備份策略的調整,將與備份管理服務器不同網(wǎng)段的備份需求,改用與備份客戶端同一網(wǎng)段的介質服務器進行備份,備份數(shù)據(jù)不經(jīng)過核心路由器進行傳輸,避免對跨網(wǎng)帶寬的占用。
同時,也大幅減輕了備份管理服務器運行壓力,介質服務器也起到備份數(shù)據(jù)分流作用,分擔了備份任務,多個業(yè)務系統(tǒng)數(shù)據(jù)可并行備份,減輕了備份管理服務器運行壓力,進一步提高了數(shù)據(jù)備份效率。如圖1所示藍色的數(shù)據(jù)流路線為原備份策略的數(shù)據(jù)流向,由于備份客戶端與備份服務器不在同一網(wǎng)段,使得生產(chǎn)區(qū)交換機與核心交換機間需要傳送數(shù)據(jù),形成了網(wǎng)絡擁堵;通過調整備份策略,令備份客戶端選擇同一網(wǎng)段的數(shù)據(jù)庫服務器作為介質服務器,解決了網(wǎng)絡擁堵的問題,數(shù)據(jù)流向見紅色路線。
2.3優(yōu)化數(shù)據(jù)庫參數(shù)提升備份成功率
省級數(shù)據(jù)中心DB2數(shù)據(jù)庫系統(tǒng)同時在用活動數(shù)據(jù)庫“NUMDB”配置數(shù)值偏低,值為8。在創(chuàng)建門戶系統(tǒng)時,其中一個用戶建設的數(shù)據(jù)庫就有7個,之后又陸續(xù)增加了多個應用及自建系統(tǒng)數(shù)據(jù)庫。造成在省級數(shù)據(jù)中心進行新增數(shù)據(jù)庫操作時,經(jīng)常提示數(shù)據(jù)庫連接不上的錯誤:“maximum number of concurrent databases have already been started SQLSTATE=57032”,并且在使用NBU進行數(shù)據(jù)庫備份時,新增數(shù)據(jù)庫備份策略實施時提示失?。骸癟he backup failed to back up the requested files”。這些都是因為活動數(shù)據(jù)庫參數(shù)配置不當造成的。由于修改數(shù)據(jù)庫連接參數(shù)需要停止整個數(shù)據(jù)庫,對應用系統(tǒng)的不間斷運行是有影響的。因此通過修改此數(shù)據(jù)庫連接參數(shù),且在使用“update dbm cfg using NUMDB MaxDB”命令調整參數(shù)配置時充分考慮最大數(shù)據(jù)庫連接數(shù)NUMDB的可選值,解決問題的同時,避免了在新增應用時再出現(xiàn)同樣的錯誤。
2.4定期檢查備份文件保障數(shù)據(jù)庫安全
省級數(shù)據(jù)中心存儲備份平臺對數(shù)據(jù)庫服務器上的DB2數(shù)據(jù)庫及LOG日志都設置了完善的備份機制,每天的全備份策略確保了數(shù)據(jù)庫備份的安全,但是數(shù)據(jù)庫備份文件的有效性卻沒有得到充分的驗證。萬一磁帶庫上存儲的備份文件都是“臟數(shù)據(jù)”,將導致災難事故發(fā)生時,無法完成有效數(shù)據(jù)庫的恢復操作,數(shù)據(jù)庫內容丟失引發(fā)的后果將是不可想象的。因此通過定期使用nbdb2.sl64程序對數(shù)據(jù)庫文件進行恢復及使用備份平臺對archivelog進行文件系統(tǒng)恢復,對磁帶庫上的數(shù)據(jù)庫備份文件進行恢復,檢查備份數(shù)據(jù)的有效性,有效保障數(shù)據(jù)庫備份的安全可靠。
3結束語
在對省級數(shù)據(jù)中心存儲備份平臺實施上述優(yōu)化措施后,備份的可靠性及恢復的效率得到了很大的提高。進行應急演練操作時,有效的Catalog備份文件最大限度地降低了恢復的難度,平臺的恢復時間從數(shù)小時縮短到數(shù)分鐘,切實加快了省級數(shù)據(jù)中心災難恢復的速度;日常應用的備份操作均能正常進行,數(shù)十個應用的上百G數(shù)據(jù)能通過不同的介質服務器有條不紊地進行備份,且網(wǎng)絡流量帶寬無明顯增長,業(yè)務系統(tǒng)的運行不受任何影響;數(shù)據(jù)庫備份的有效性和可靠性都能得到檢驗。通過反復跟蹤和觀察,在實施上述改進措施后,所有系統(tǒng)運行穩(wěn)定,備份平臺工作正常,網(wǎng)絡流量也未現(xiàn)異常,優(yōu)化取得了較好成效,有效保障了省級數(shù)據(jù)中心區(qū)域性技術服務樞紐功能的實現(xiàn)。
參考文獻
[1] 張慶丹. Veritas NetBackup三級備份機制的典型實現(xiàn). 福建電腦,2013,(10):165-166.
作者簡介:
張慶丹(1983-年),女,福建三明人,碩士研究生,工程師;主要研究內容和關注領域:系統(tǒng)運維、數(shù)據(jù)備份。endprint
【摘要】NBU備份平臺能自動進行系統(tǒng)的集中備份,為數(shù)據(jù)安全提供有效保障,但運行中也存在一些問題。本文給出了針對運行中存在問題的四個優(yōu)化措施。實踐表明,這些措施切實解決了備份平臺恢復時間長及流量帶寬占用大等問題,進一步提高了備份平臺的可靠性。
【關鍵詞】備份平臺;Catalog;異地備份;策略調整;數(shù)據(jù)恢復
1引言
數(shù)據(jù)中心是各種IT應用服務的提供中心,是數(shù)據(jù)計算、網(wǎng)絡、存儲的中心。人民銀行的數(shù)據(jù)中心在經(jīng)過基礎設施平臺、應用平臺、存儲備份平臺以及管理下發(fā)平臺等多個工程的建設后,已成為區(qū)域性技術服務的樞紐,提高了人行的整體科技服務水平。各應用系統(tǒng)集中于門戶展現(xiàn),促進了科技工作的數(shù)字化和信息化;管理下發(fā)平臺通過及時的文件傳送,實現(xiàn)了各信息節(jié)點間的數(shù)據(jù)共享;存儲備份平臺通過統(tǒng)一的備份管理軟件、集中的備份平臺及并發(fā)寫入等技術解放了人力,大大提高了備份效率。
數(shù)據(jù)中心中最重要的就是數(shù)據(jù),所有的應用及安全都是圍繞著數(shù)據(jù)來部署的,要保障數(shù)據(jù)的完整性及安全性,存儲中心的建設發(fā)揮了重要的作用。人民銀行省級數(shù)據(jù)中心存儲備份平臺采用NBU(Symantec Veritas Netbackup)系統(tǒng)作為建設載體,它能夠自動對各類應用系統(tǒng)進行集中備份,為重要業(yè)務系統(tǒng)數(shù)據(jù)安全提供有效保障。但在實際使用中發(fā)現(xiàn)存在故障恢復時間長、備份占用帶寬多、自動備份操作失敗及無法定期驗證數(shù)據(jù)有效性等問題。本文探討的就是針對這些問題進行實踐和摸索后的基于Veritas Netbackup備份平臺的優(yōu)化措施。
2優(yōu)化背景及措施
存儲備份平臺由針對每個系統(tǒng)進行備份轉變?yōu)橛山y(tǒng)一的備份管理軟件及集中的備份平臺進行備份,通過將手工操作轉變?yōu)闊o人值守的自動操作大大提高了備份效率,也保障了數(shù)據(jù)的安全。但運行至今,發(fā)現(xiàn)系統(tǒng)中存在某些問題:一是沒有對存儲管理平臺的日志索引文件(Catalog)進行備份,導致恢復時間過長甚至恢復失?。欢菦]有有效地規(guī)劃備份使用的存儲單元(Storage Unit),導致跨網(wǎng)段備份占用幾乎整個局域網(wǎng)交換機的帶寬資源,影響其它系統(tǒng)的運行;三是數(shù)據(jù)庫系統(tǒng)初始連接參數(shù)不夠,導致部分應用系統(tǒng)備份失??;四是沒有定期檢查備份數(shù)據(jù)庫的有效性,可能存在無法恢復有效數(shù)據(jù)的后果。經(jīng)過長時間摸索實踐,通過對備份范圍、備份策略和數(shù)據(jù)庫參數(shù)等進行調整優(yōu)化,提出了優(yōu)化措施,大大提升了數(shù)據(jù)中心備份系統(tǒng)運行效能。
2.1異地備份Catalog文件縮短恢復時間
省級數(shù)據(jù)中心存儲管理平臺使用的NBU軟件中有一項非常重要的數(shù)據(jù),是它的日志數(shù)據(jù)庫,通常稱為Catalog,它是備份主服務器(Master Server)的心臟,它記錄了關于所有備份數(shù)據(jù)的數(shù)據(jù);在進行存儲備份平臺中數(shù)據(jù)文件的恢復時,首先需要讀取Catalog文件以便在磁帶庫中定位指定時段備份文件的位置。如果沒有它,無法進行備份內容的定位,任何一個文件和備份磁帶的索引關系將無法得知,數(shù)據(jù)的恢復工作也無法進行。目前Catalog文件只在專用磁帶上備份,一旦NBU服務器發(fā)生災難故障需要恢復時,若Catalog文件丟失,需要通過對所有磁帶的全掃描重構Catalog后進行備份系統(tǒng)的災難恢復,或通過讀取專用磁帶上Catalog文件進行平臺恢復,所花的時間很長,往往超過數(shù)小時,甚至可能恢復失敗,容易引發(fā)更大負面影響。
經(jīng)過探索,將存儲備份平臺中主服務器(Master Server)安裝目錄下的Catalog文件,通過GTP異地數(shù)據(jù)備份系統(tǒng)進行異地備份,既大大增加了Catalog文件的安全性,又因從異地備份中可以快速讀取Catalog文件進行平臺恢復,通過直接讀取最近日期的索引文件,再現(xiàn)備份數(shù)據(jù)存儲情況,最大限度地降低了恢復的難度,在發(fā)生重大災難時為第一時間恢復業(yè)務系統(tǒng)運行提供了技術支持。
2.2調整備份策略有效降低網(wǎng)絡負擔
數(shù)據(jù)中心存儲備份平臺在對數(shù)據(jù)量較大的業(yè)務數(shù)據(jù)進行備份時,出現(xiàn)了核心交換機與服務器所在的生產(chǎn)區(qū)交換機流量高達88Mbps、占整個網(wǎng)絡近90%的帶寬的情況,較大的通信流量對其他系統(tǒng)運行、備份產(chǎn)生了一定影響。通過研究NBU的備份機制我們發(fā)現(xiàn)通過調整備份策略能夠解決這個問題。省級數(shù)據(jù)中心使用了NBU三級備份機制,即同時安裝了備份管理服務器、介質服務器(Media Server)、備份客戶端(業(yè)務系統(tǒng)服務器)。其中安裝了光纖HBA陣列卡的備份管理服務器、介質服務器均可實施備份策略,但介質服務器的作用往往被忽略了。以往新增備份策略時,備份客戶端的數(shù)據(jù)備份默認選擇備份管理服務器進行數(shù)據(jù)備份,由于備份管理服務器與備份客戶端不屬于同一網(wǎng)段,備份數(shù)據(jù)傳輸必須經(jīng)過核心路由器設備,形成較大跨網(wǎng)段通信壓力。通過備份策略的調整,將與備份管理服務器不同網(wǎng)段的備份需求,改用與備份客戶端同一網(wǎng)段的介質服務器進行備份,備份數(shù)據(jù)不經(jīng)過核心路由器進行傳輸,避免對跨網(wǎng)帶寬的占用。
同時,也大幅減輕了備份管理服務器運行壓力,介質服務器也起到備份數(shù)據(jù)分流作用,分擔了備份任務,多個業(yè)務系統(tǒng)數(shù)據(jù)可并行備份,減輕了備份管理服務器運行壓力,進一步提高了數(shù)據(jù)備份效率。如圖1所示藍色的數(shù)據(jù)流路線為原備份策略的數(shù)據(jù)流向,由于備份客戶端與備份服務器不在同一網(wǎng)段,使得生產(chǎn)區(qū)交換機與核心交換機間需要傳送數(shù)據(jù),形成了網(wǎng)絡擁堵;通過調整備份策略,令備份客戶端選擇同一網(wǎng)段的數(shù)據(jù)庫服務器作為介質服務器,解決了網(wǎng)絡擁堵的問題,數(shù)據(jù)流向見紅色路線。
2.3優(yōu)化數(shù)據(jù)庫參數(shù)提升備份成功率
省級數(shù)據(jù)中心DB2數(shù)據(jù)庫系統(tǒng)同時在用活動數(shù)據(jù)庫“NUMDB”配置數(shù)值偏低,值為8。在創(chuàng)建門戶系統(tǒng)時,其中一個用戶建設的數(shù)據(jù)庫就有7個,之后又陸續(xù)增加了多個應用及自建系統(tǒng)數(shù)據(jù)庫。造成在省級數(shù)據(jù)中心進行新增數(shù)據(jù)庫操作時,經(jīng)常提示數(shù)據(jù)庫連接不上的錯誤:“maximum number of concurrent databases have already been started SQLSTATE=57032”,并且在使用NBU進行數(shù)據(jù)庫備份時,新增數(shù)據(jù)庫備份策略實施時提示失?。骸癟he backup failed to back up the requested files”。這些都是因為活動數(shù)據(jù)庫參數(shù)配置不當造成的。由于修改數(shù)據(jù)庫連接參數(shù)需要停止整個數(shù)據(jù)庫,對應用系統(tǒng)的不間斷運行是有影響的。因此通過修改此數(shù)據(jù)庫連接參數(shù),且在使用“update dbm cfg using NUMDB MaxDB”命令調整參數(shù)配置時充分考慮最大數(shù)據(jù)庫連接數(shù)NUMDB的可選值,解決問題的同時,避免了在新增應用時再出現(xiàn)同樣的錯誤。
2.4定期檢查備份文件保障數(shù)據(jù)庫安全
省級數(shù)據(jù)中心存儲備份平臺對數(shù)據(jù)庫服務器上的DB2數(shù)據(jù)庫及LOG日志都設置了完善的備份機制,每天的全備份策略確保了數(shù)據(jù)庫備份的安全,但是數(shù)據(jù)庫備份文件的有效性卻沒有得到充分的驗證。萬一磁帶庫上存儲的備份文件都是“臟數(shù)據(jù)”,將導致災難事故發(fā)生時,無法完成有效數(shù)據(jù)庫的恢復操作,數(shù)據(jù)庫內容丟失引發(fā)的后果將是不可想象的。因此通過定期使用nbdb2.sl64程序對數(shù)據(jù)庫文件進行恢復及使用備份平臺對archivelog進行文件系統(tǒng)恢復,對磁帶庫上的數(shù)據(jù)庫備份文件進行恢復,檢查備份數(shù)據(jù)的有效性,有效保障數(shù)據(jù)庫備份的安全可靠。
3結束語
在對省級數(shù)據(jù)中心存儲備份平臺實施上述優(yōu)化措施后,備份的可靠性及恢復的效率得到了很大的提高。進行應急演練操作時,有效的Catalog備份文件最大限度地降低了恢復的難度,平臺的恢復時間從數(shù)小時縮短到數(shù)分鐘,切實加快了省級數(shù)據(jù)中心災難恢復的速度;日常應用的備份操作均能正常進行,數(shù)十個應用的上百G數(shù)據(jù)能通過不同的介質服務器有條不紊地進行備份,且網(wǎng)絡流量帶寬無明顯增長,業(yè)務系統(tǒng)的運行不受任何影響;數(shù)據(jù)庫備份的有效性和可靠性都能得到檢驗。通過反復跟蹤和觀察,在實施上述改進措施后,所有系統(tǒng)運行穩(wěn)定,備份平臺工作正常,網(wǎng)絡流量也未現(xiàn)異常,優(yōu)化取得了較好成效,有效保障了省級數(shù)據(jù)中心區(qū)域性技術服務樞紐功能的實現(xiàn)。
參考文獻
[1] 張慶丹. Veritas NetBackup三級備份機制的典型實現(xiàn). 福建電腦,2013,(10):165-166.
作者簡介:
張慶丹(1983-年),女,福建三明人,碩士研究生,工程師;主要研究內容和關注領域:系統(tǒng)運維、數(shù)據(jù)備份。endprint
【摘要】NBU備份平臺能自動進行系統(tǒng)的集中備份,為數(shù)據(jù)安全提供有效保障,但運行中也存在一些問題。本文給出了針對運行中存在問題的四個優(yōu)化措施。實踐表明,這些措施切實解決了備份平臺恢復時間長及流量帶寬占用大等問題,進一步提高了備份平臺的可靠性。
【關鍵詞】備份平臺;Catalog;異地備份;策略調整;數(shù)據(jù)恢復
1引言
數(shù)據(jù)中心是各種IT應用服務的提供中心,是數(shù)據(jù)計算、網(wǎng)絡、存儲的中心。人民銀行的數(shù)據(jù)中心在經(jīng)過基礎設施平臺、應用平臺、存儲備份平臺以及管理下發(fā)平臺等多個工程的建設后,已成為區(qū)域性技術服務的樞紐,提高了人行的整體科技服務水平。各應用系統(tǒng)集中于門戶展現(xiàn),促進了科技工作的數(shù)字化和信息化;管理下發(fā)平臺通過及時的文件傳送,實現(xiàn)了各信息節(jié)點間的數(shù)據(jù)共享;存儲備份平臺通過統(tǒng)一的備份管理軟件、集中的備份平臺及并發(fā)寫入等技術解放了人力,大大提高了備份效率。
數(shù)據(jù)中心中最重要的就是數(shù)據(jù),所有的應用及安全都是圍繞著數(shù)據(jù)來部署的,要保障數(shù)據(jù)的完整性及安全性,存儲中心的建設發(fā)揮了重要的作用。人民銀行省級數(shù)據(jù)中心存儲備份平臺采用NBU(Symantec Veritas Netbackup)系統(tǒng)作為建設載體,它能夠自動對各類應用系統(tǒng)進行集中備份,為重要業(yè)務系統(tǒng)數(shù)據(jù)安全提供有效保障。但在實際使用中發(fā)現(xiàn)存在故障恢復時間長、備份占用帶寬多、自動備份操作失敗及無法定期驗證數(shù)據(jù)有效性等問題。本文探討的就是針對這些問題進行實踐和摸索后的基于Veritas Netbackup備份平臺的優(yōu)化措施。
2優(yōu)化背景及措施
存儲備份平臺由針對每個系統(tǒng)進行備份轉變?yōu)橛山y(tǒng)一的備份管理軟件及集中的備份平臺進行備份,通過將手工操作轉變?yōu)闊o人值守的自動操作大大提高了備份效率,也保障了數(shù)據(jù)的安全。但運行至今,發(fā)現(xiàn)系統(tǒng)中存在某些問題:一是沒有對存儲管理平臺的日志索引文件(Catalog)進行備份,導致恢復時間過長甚至恢復失?。欢菦]有有效地規(guī)劃備份使用的存儲單元(Storage Unit),導致跨網(wǎng)段備份占用幾乎整個局域網(wǎng)交換機的帶寬資源,影響其它系統(tǒng)的運行;三是數(shù)據(jù)庫系統(tǒng)初始連接參數(shù)不夠,導致部分應用系統(tǒng)備份失??;四是沒有定期檢查備份數(shù)據(jù)庫的有效性,可能存在無法恢復有效數(shù)據(jù)的后果。經(jīng)過長時間摸索實踐,通過對備份范圍、備份策略和數(shù)據(jù)庫參數(shù)等進行調整優(yōu)化,提出了優(yōu)化措施,大大提升了數(shù)據(jù)中心備份系統(tǒng)運行效能。
2.1異地備份Catalog文件縮短恢復時間
省級數(shù)據(jù)中心存儲管理平臺使用的NBU軟件中有一項非常重要的數(shù)據(jù),是它的日志數(shù)據(jù)庫,通常稱為Catalog,它是備份主服務器(Master Server)的心臟,它記錄了關于所有備份數(shù)據(jù)的數(shù)據(jù);在進行存儲備份平臺中數(shù)據(jù)文件的恢復時,首先需要讀取Catalog文件以便在磁帶庫中定位指定時段備份文件的位置。如果沒有它,無法進行備份內容的定位,任何一個文件和備份磁帶的索引關系將無法得知,數(shù)據(jù)的恢復工作也無法進行。目前Catalog文件只在專用磁帶上備份,一旦NBU服務器發(fā)生災難故障需要恢復時,若Catalog文件丟失,需要通過對所有磁帶的全掃描重構Catalog后進行備份系統(tǒng)的災難恢復,或通過讀取專用磁帶上Catalog文件進行平臺恢復,所花的時間很長,往往超過數(shù)小時,甚至可能恢復失敗,容易引發(fā)更大負面影響。
經(jīng)過探索,將存儲備份平臺中主服務器(Master Server)安裝目錄下的Catalog文件,通過GTP異地數(shù)據(jù)備份系統(tǒng)進行異地備份,既大大增加了Catalog文件的安全性,又因從異地備份中可以快速讀取Catalog文件進行平臺恢復,通過直接讀取最近日期的索引文件,再現(xiàn)備份數(shù)據(jù)存儲情況,最大限度地降低了恢復的難度,在發(fā)生重大災難時為第一時間恢復業(yè)務系統(tǒng)運行提供了技術支持。
2.2調整備份策略有效降低網(wǎng)絡負擔
數(shù)據(jù)中心存儲備份平臺在對數(shù)據(jù)量較大的業(yè)務數(shù)據(jù)進行備份時,出現(xiàn)了核心交換機與服務器所在的生產(chǎn)區(qū)交換機流量高達88Mbps、占整個網(wǎng)絡近90%的帶寬的情況,較大的通信流量對其他系統(tǒng)運行、備份產(chǎn)生了一定影響。通過研究NBU的備份機制我們發(fā)現(xiàn)通過調整備份策略能夠解決這個問題。省級數(shù)據(jù)中心使用了NBU三級備份機制,即同時安裝了備份管理服務器、介質服務器(Media Server)、備份客戶端(業(yè)務系統(tǒng)服務器)。其中安裝了光纖HBA陣列卡的備份管理服務器、介質服務器均可實施備份策略,但介質服務器的作用往往被忽略了。以往新增備份策略時,備份客戶端的數(shù)據(jù)備份默認選擇備份管理服務器進行數(shù)據(jù)備份,由于備份管理服務器與備份客戶端不屬于同一網(wǎng)段,備份數(shù)據(jù)傳輸必須經(jīng)過核心路由器設備,形成較大跨網(wǎng)段通信壓力。通過備份策略的調整,將與備份管理服務器不同網(wǎng)段的備份需求,改用與備份客戶端同一網(wǎng)段的介質服務器進行備份,備份數(shù)據(jù)不經(jīng)過核心路由器進行傳輸,避免對跨網(wǎng)帶寬的占用。
同時,也大幅減輕了備份管理服務器運行壓力,介質服務器也起到備份數(shù)據(jù)分流作用,分擔了備份任務,多個業(yè)務系統(tǒng)數(shù)據(jù)可并行備份,減輕了備份管理服務器運行壓力,進一步提高了數(shù)據(jù)備份效率。如圖1所示藍色的數(shù)據(jù)流路線為原備份策略的數(shù)據(jù)流向,由于備份客戶端與備份服務器不在同一網(wǎng)段,使得生產(chǎn)區(qū)交換機與核心交換機間需要傳送數(shù)據(jù),形成了網(wǎng)絡擁堵;通過調整備份策略,令備份客戶端選擇同一網(wǎng)段的數(shù)據(jù)庫服務器作為介質服務器,解決了網(wǎng)絡擁堵的問題,數(shù)據(jù)流向見紅色路線。
2.3優(yōu)化數(shù)據(jù)庫參數(shù)提升備份成功率
省級數(shù)據(jù)中心DB2數(shù)據(jù)庫系統(tǒng)同時在用活動數(shù)據(jù)庫“NUMDB”配置數(shù)值偏低,值為8。在創(chuàng)建門戶系統(tǒng)時,其中一個用戶建設的數(shù)據(jù)庫就有7個,之后又陸續(xù)增加了多個應用及自建系統(tǒng)數(shù)據(jù)庫。造成在省級數(shù)據(jù)中心進行新增數(shù)據(jù)庫操作時,經(jīng)常提示數(shù)據(jù)庫連接不上的錯誤:“maximum number of concurrent databases have already been started SQLSTATE=57032”,并且在使用NBU進行數(shù)據(jù)庫備份時,新增數(shù)據(jù)庫備份策略實施時提示失?。骸癟he backup failed to back up the requested files”。這些都是因為活動數(shù)據(jù)庫參數(shù)配置不當造成的。由于修改數(shù)據(jù)庫連接參數(shù)需要停止整個數(shù)據(jù)庫,對應用系統(tǒng)的不間斷運行是有影響的。因此通過修改此數(shù)據(jù)庫連接參數(shù),且在使用“update dbm cfg using NUMDB MaxDB”命令調整參數(shù)配置時充分考慮最大數(shù)據(jù)庫連接數(shù)NUMDB的可選值,解決問題的同時,避免了在新增應用時再出現(xiàn)同樣的錯誤。
2.4定期檢查備份文件保障數(shù)據(jù)庫安全
省級數(shù)據(jù)中心存儲備份平臺對數(shù)據(jù)庫服務器上的DB2數(shù)據(jù)庫及LOG日志都設置了完善的備份機制,每天的全備份策略確保了數(shù)據(jù)庫備份的安全,但是數(shù)據(jù)庫備份文件的有效性卻沒有得到充分的驗證。萬一磁帶庫上存儲的備份文件都是“臟數(shù)據(jù)”,將導致災難事故發(fā)生時,無法完成有效數(shù)據(jù)庫的恢復操作,數(shù)據(jù)庫內容丟失引發(fā)的后果將是不可想象的。因此通過定期使用nbdb2.sl64程序對數(shù)據(jù)庫文件進行恢復及使用備份平臺對archivelog進行文件系統(tǒng)恢復,對磁帶庫上的數(shù)據(jù)庫備份文件進行恢復,檢查備份數(shù)據(jù)的有效性,有效保障數(shù)據(jù)庫備份的安全可靠。
3結束語
在對省級數(shù)據(jù)中心存儲備份平臺實施上述優(yōu)化措施后,備份的可靠性及恢復的效率得到了很大的提高。進行應急演練操作時,有效的Catalog備份文件最大限度地降低了恢復的難度,平臺的恢復時間從數(shù)小時縮短到數(shù)分鐘,切實加快了省級數(shù)據(jù)中心災難恢復的速度;日常應用的備份操作均能正常進行,數(shù)十個應用的上百G數(shù)據(jù)能通過不同的介質服務器有條不紊地進行備份,且網(wǎng)絡流量帶寬無明顯增長,業(yè)務系統(tǒng)的運行不受任何影響;數(shù)據(jù)庫備份的有效性和可靠性都能得到檢驗。通過反復跟蹤和觀察,在實施上述改進措施后,所有系統(tǒng)運行穩(wěn)定,備份平臺工作正常,網(wǎng)絡流量也未現(xiàn)異常,優(yōu)化取得了較好成效,有效保障了省級數(shù)據(jù)中心區(qū)域性技術服務樞紐功能的實現(xiàn)。
參考文獻
[1] 張慶丹. Veritas NetBackup三級備份機制的典型實現(xiàn). 福建電腦,2013,(10):165-166.
作者簡介:
張慶丹(1983-年),女,福建三明人,碩士研究生,工程師;主要研究內容和關注領域:系統(tǒng)運維、數(shù)據(jù)備份。endprint