趙亞強(qiáng) 王永倫 葛利軍
摘要:由于各行各業(yè)信息數(shù)據(jù)的復(fù)雜性和多維度,致使數(shù)據(jù)遷移成為信息系統(tǒng)更新的難點(diǎn)。隨著大數(shù)據(jù)和云計(jì)算的發(fā)展,云平臺(tái)數(shù)據(jù)中心已經(jīng)成為各行各業(yè)信息系統(tǒng)的必須選擇,不僅避免了資源的浪費(fèi),也很大程度上減輕了未來的數(shù)據(jù)遷移工作,為未來智能化、智慧化建設(shè)奠定了基礎(chǔ)了。
關(guān)鍵詞:數(shù)據(jù)遷移;存儲(chǔ);數(shù)據(jù)安全;加密
中圖分類號(hào):TP309.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)12-0029-02
1 背景現(xiàn)狀
隨著科技的發(fā)展,尤其是最近的十年,各行各業(yè)的信息數(shù)據(jù)已經(jīng)進(jìn)入呈指數(shù)級(jí)增長(zhǎng)的時(shí)代,隨著時(shí)間的推移,五年之前建設(shè)的信息系統(tǒng)已經(jīng)無法滿足隨著信息數(shù)據(jù)的增長(zhǎng)而帶來的高性能、高并發(fā)的需求。五年的使用時(shí)間已經(jīng)造成了服務(wù)器的效率急劇下降,而且存儲(chǔ)軟件在五年內(nèi)也進(jìn)行了多次的更新?lián)Q代,老版本的Oracle軟件性能已經(jīng)無法滿足日益增長(zhǎng)的業(yè)務(wù)量的需求,容易出現(xiàn)未知的宕機(jī)情況,對(duì)生產(chǎn)環(huán)境產(chǎn)生不必要的影響。因此,生產(chǎn)系統(tǒng)在使用了五年以后,都會(huì)對(duì)其軟硬件進(jìn)行升級(jí),更換更大更快的存儲(chǔ)和更新的軟件,軟硬件的升級(jí)必然會(huì)涉及到數(shù)據(jù)的遷移[1,2]。
2 數(shù)據(jù)遷移方法比較
數(shù)據(jù)遷移時(shí),應(yīng)做到先備份,再遷移,根據(jù)自身業(yè)務(wù)特性確定遷移方法。針對(duì)oracle數(shù)據(jù)庫的主流數(shù)據(jù)遷移技術(shù)有四種,分別是數(shù)據(jù)泵(DATA PUMP)數(shù)據(jù)遷移,Storage存儲(chǔ)遷移,RMAN數(shù)據(jù)遷移,Dataguard數(shù)據(jù)遷移[3,4]。
2.1 數(shù)據(jù)泵(DATA PUMP)數(shù)據(jù)遷移
數(shù)據(jù)泵(DATA PUMP)是最常用的數(shù)據(jù)遷移方法之一,是一種數(shù)據(jù)庫之間的高速傳輸技術(shù),主要針對(duì)基于用戶級(jí)別的數(shù)據(jù)遷移。在新的數(shù)據(jù)庫中提前準(zhǔn)備好和原數(shù)據(jù)庫中一樣的用戶名和表空間,為了保持?jǐn)?shù)據(jù)的一致性,需要在導(dǎo)出原數(shù)據(jù)庫中數(shù)據(jù)之前,停止原數(shù)據(jù)庫的應(yīng)用服務(wù)。由于oracle9i和大于oracle10g的版本有了不同的指令變化,oracle9i的導(dǎo)出/導(dǎo)入指令為exp/imp,而大于oracle10g版本的數(shù)據(jù)庫導(dǎo)出/導(dǎo)入指令為expdp/impdp。使用數(shù)據(jù)泵(DATA PUMP)進(jìn)行數(shù)據(jù)遷移的優(yōu)點(diǎn)是操作簡(jiǎn)便,可以跨平臺(tái)使用;缺點(diǎn)是傳輸時(shí)間依賴網(wǎng)絡(luò)環(huán)境,為了保持?jǐn)?shù)據(jù)的一致性,原數(shù)據(jù)庫在傳輸過程中需要停止其應(yīng)用服務(wù),即原數(shù)據(jù)庫中的數(shù)據(jù)需要保持靜止?fàn)顟B(tài)。
2.2 Storage存儲(chǔ)遷移
Storage存儲(chǔ)遷移主要針對(duì)系統(tǒng)新的軟硬件跟之前相比相差不大,其數(shù)據(jù)庫的數(shù)據(jù)文件、控制文件、日志文件、spfile等都在存儲(chǔ)上,直接把存放這些文件的存儲(chǔ)掛載遷移到新的服務(wù)器上,再在新的服務(wù)器上啟動(dòng)數(shù)據(jù)庫即可。使用Storage存儲(chǔ)遷移的優(yōu)點(diǎn)是遷移方式非常簡(jiǎn)單,主要的工作是存儲(chǔ)的備份和主機(jī)服務(wù)器的切換;缺點(diǎn)是新數(shù)據(jù)庫和原來數(shù)據(jù)庫要保持一致,也即是升級(jí)更新完硬件設(shè)備之后,數(shù)據(jù)軟件還是原來的版本,只能達(dá)到事倍功半的效果。
2.3 RMAN數(shù)據(jù)遷移
RMAN(Recovery Manager)是一種用于備份(backup)、還原(restore)和恢復(fù)(recover)數(shù)據(jù)庫的Oracle工具。RMAN只能用于ORACLE8或更高的版本中。在整個(gè)數(shù)據(jù)遷移過程中,RMAN能夠在數(shù)據(jù)遷移前對(duì)數(shù)據(jù)庫的數(shù)據(jù)文件、歸檔文件、表空間文件和歸檔文件等進(jìn)行備份,從而實(shí)現(xiàn)即使數(shù)據(jù)遷移失敗也能夠保證二次實(shí)現(xiàn)數(shù)據(jù)遷移。由于RMAN獨(dú)特的快捷性和便利性,使得9i及以上版本的oracle數(shù)據(jù)庫通過其備份和恢復(fù)已經(jīng)成為一種常態(tài)。利用RMAN做數(shù)據(jù)遷移的優(yōu)點(diǎn)是數(shù)據(jù)遷移可以跨平臺(tái),但是由于操作的復(fù)雜性,一般很少在實(shí)際操作過程中使用Rman跨平臺(tái)進(jìn)行數(shù)據(jù)遷移。同樣,利用RMAN做數(shù)據(jù)遷移可以跨版本,但只能從低版本到高版本的跨越,無法實(shí)現(xiàn)從高版本到低版本進(jìn)行數(shù)據(jù)遷移。RMAN是一把雙刃劍,能夠在同平臺(tái)、同版本上實(shí)現(xiàn)快速的數(shù)據(jù)遷移,但其缺點(diǎn)也很明顯,在數(shù)據(jù)遷移過程中,其過程無法控制,尤其是其備份的數(shù)據(jù)無法通過其他軟件進(jìn)行恢復(fù),只能通過RMAN進(jìn)行恢復(fù)。
2.4 Dataguard數(shù)據(jù)遷移
DataGuard是Oracle數(shù)據(jù)庫自帶的一種數(shù)據(jù)同步功能,其他類型的數(shù)據(jù)庫也有同樣的功能,其基本原理是通過日志文件在兩個(gè)數(shù)據(jù)庫端進(jìn)行同步傳輸,目標(biāo)端數(shù)據(jù)庫應(yīng)用傳輸過來的日志文件保持和源端數(shù)據(jù)庫的數(shù)據(jù)一致性。DataGuard不僅僅適用于數(shù)據(jù)遷移,也是一種可以提供數(shù)據(jù)庫容災(zāi)、故障恢復(fù)的方法,可以實(shí)現(xiàn)在數(shù)據(jù)庫發(fā)生災(zāi)難性故障時(shí),實(shí)現(xiàn)數(shù)據(jù)庫的快速的切換和恢復(fù)。利用DataGuard做數(shù)據(jù)遷移和容災(zāi)備份的優(yōu)點(diǎn)是速度快、時(shí)間短,缺點(diǎn)是由于其快遞切換性,原數(shù)據(jù)的主機(jī)和存儲(chǔ)必須是雙份的,以保證其特性。
3 大數(shù)據(jù)時(shí)代數(shù)據(jù)遷移的關(guān)鍵點(diǎn)
進(jìn)入大數(shù)據(jù)時(shí)代,相比于傳統(tǒng)意義上的數(shù)據(jù)遷移,其數(shù)據(jù)量大、數(shù)據(jù)維度多、數(shù)據(jù)安全要求高等特點(diǎn)成為阻礙大數(shù)據(jù)時(shí)代數(shù)據(jù)遷移的關(guān)鍵難點(diǎn)。
3.1 數(shù)據(jù)監(jiān)控
在數(shù)據(jù)遷移過程中對(duì)整個(gè)遷移過程的各個(gè)任務(wù)進(jìn)行全方位的監(jiān)控,建立數(shù)據(jù)遷移監(jiān)控平臺(tái),可以及時(shí)監(jiān)控?cái)?shù)據(jù)遷移過程中的數(shù)據(jù)質(zhì)量變化、完成作業(yè)數(shù)、正在運(yùn)行作業(yè)數(shù)等數(shù)據(jù),并結(jié)合服務(wù)器的CPU、內(nèi)存、IO等運(yùn)行時(shí)狀態(tài)數(shù)據(jù),提供從服務(wù)器狀態(tài)、到數(shù)據(jù)狀態(tài)變化、ETL作業(yè)狀態(tài)的全方位監(jiān)控。針對(duì)數(shù)據(jù)遷移過程中存在的異常情況,統(tǒng)一在監(jiān)控平臺(tái)上展示,可選擇時(shí)段范圍和任務(wù)類型執(zhí)行篩選異常作業(yè)展示,顯示異常作業(yè)的統(tǒng)計(jì)信息,顯示各異常作業(yè)的當(dāng)前狀態(tài)信息,包括顯示作業(yè)類型、作業(yè)名稱、執(zhí)行時(shí)間、進(jìn)度條、是否重試、完成狀態(tài)等信息。
3.2 數(shù)據(jù)安全
在數(shù)據(jù)遷移過程中,數(shù)據(jù)的安全問題不可忽視,一旦數(shù)據(jù)被大規(guī)模匯集后泄露,將造成非常嚴(yán)重影響,因此需要對(duì)數(shù)據(jù)遷移的各環(huán)節(jié)進(jìn)行科學(xué)分析,制定嚴(yán)密、可落地實(shí)施的數(shù)據(jù)安全保護(hù)策略,實(shí)現(xiàn)“以數(shù)據(jù)為中心的全生命周期的數(shù)據(jù)安全”。綜合實(shí)現(xiàn)攻擊者進(jìn)不去、非授權(quán)者重要信息拿不到、竊取敏感信息看不懂、系統(tǒng)和信息竄改不了、系統(tǒng)工作癱不成和攻擊行為懶不掉的防護(hù)效果[5]。數(shù)據(jù)遷移過程中面對(duì)的安全風(fēng)險(xiǎn)主要是數(shù)據(jù)泄露和數(shù)據(jù)損壞。其中,以數(shù)據(jù)泄露最為嚴(yán)重。數(shù)據(jù)泄露有以下幾種渠道:物理存儲(chǔ)介質(zhì)丟失;通過操作系統(tǒng)管理員身份拷貝數(shù)據(jù)庫存儲(chǔ)文件;通過數(shù)據(jù)庫管理員身份導(dǎo)出數(shù)據(jù)庫中數(shù)據(jù)表;數(shù)據(jù)跨安全域傳輸時(shí)被攔截或收集;數(shù)據(jù)備份同步時(shí)被攔截或收集;非授權(quán)業(yè)務(wù)系統(tǒng)查詢數(shù)據(jù);合法業(yè)務(wù)系統(tǒng)“螞蟻搬家”式收集數(shù)據(jù)。
為了保證在數(shù)據(jù)遷移過程中數(shù)據(jù)的存儲(chǔ)和傳輸安全,應(yīng)做到數(shù)據(jù)分級(jí)存儲(chǔ),對(duì)不同級(jí)別的數(shù)據(jù)和不同的管理員授予不同的權(quán)限,對(duì)數(shù)據(jù)處理區(qū)和數(shù)據(jù)生產(chǎn)區(qū)在不干擾生產(chǎn)的情況下進(jìn)行物理隔離,最大限度減小了全量數(shù)據(jù)的暴露面。同時(shí),在傳輸過程中,對(duì)于生產(chǎn)數(shù)據(jù)庫區(qū),配合加密機(jī)等專用設(shè)備還對(duì)數(shù)據(jù)存儲(chǔ)介質(zhì)透明加密或?qū)?shù)據(jù)表關(guān)鍵字段進(jìn)行加密,實(shí)現(xiàn)存儲(chǔ)介質(zhì)和導(dǎo)出存儲(chǔ)文件脫離對(duì)應(yīng)的環(huán)境無法解密數(shù)據(jù)。數(shù)據(jù)加密有效防止物理存儲(chǔ)介質(zhì)丟失和通過操作系統(tǒng)管理員身份拷貝數(shù)據(jù)庫存儲(chǔ)文件。
4 云平臺(tái)數(shù)據(jù)中心
各個(gè)信息系統(tǒng)之所以會(huì)產(chǎn)生數(shù)據(jù)遷移的業(yè)務(wù),最主要的原因是即便是同一行業(yè),其各個(gè)信息系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)也不統(tǒng)一,無法形成大規(guī)模的云平臺(tái)數(shù)據(jù)中心,隨著時(shí)間的推移,系統(tǒng)的軟硬件更新?lián)Q代只能通過新設(shè)備、新軟件替換,原始數(shù)據(jù)只能遷移到新的環(huán)境中。傳統(tǒng)意義上的大數(shù)據(jù)中心,存儲(chǔ)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并不提供計(jì)算的資源,而隨著云平臺(tái)技術(shù)的逐漸成熟,兼容計(jì)算的云平臺(tái)數(shù)據(jù)中心已經(jīng)成為各行各業(yè)整合信息系統(tǒng)數(shù)據(jù)資源,提高社會(huì)凝聚力的的必要條件。云平臺(tái)數(shù)據(jù)中心結(jié)構(gòu)圖1所示。
在云平臺(tái)數(shù)據(jù)中心的結(jié)構(gòu)中,各個(gè)行業(yè)信息系統(tǒng)的數(shù)據(jù)通過統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)的匯集,通過匯集鏈路,將數(shù)據(jù)匯集到云平臺(tái)數(shù)據(jù)中心。針對(duì)不同的行業(yè)的數(shù)據(jù)性質(zhì),一些行業(yè)數(shù)據(jù)具有相對(duì)的保密性,這些保密性數(shù)據(jù)在進(jìn)行匯集時(shí),需要將數(shù)據(jù)包進(jìn)行加密,并且通過加密的鏈路進(jìn)行匯集,在云平臺(tái)數(shù)據(jù)中心進(jìn)行解密后存儲(chǔ)[6,7]。
建設(shè)云平臺(tái)數(shù)據(jù)中心的關(guān)鍵點(diǎn)在于前期的數(shù)據(jù)遷移整合和后期的計(jì)算資源的運(yùn)維,而前期的數(shù)據(jù)遷移整合的最關(guān)鍵技術(shù)是大數(shù)據(jù)時(shí)代各個(gè)行業(yè)各個(gè)信息系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)的不統(tǒng)一。由于各個(gè)行業(yè)系信息系統(tǒng)的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)紛繁復(fù)雜,海量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些多元的異構(gòu)化數(shù)據(jù)是整個(gè)數(shù)據(jù)匯集的難點(diǎn),耗費(fèi)的精力和時(shí)間成本也是最大。如何做到各類數(shù)據(jù)的匯集與融合,成為必須解決的難題。
5 對(duì)未來的展望
未來,各行各業(yè)對(duì)數(shù)據(jù)越來越重視,數(shù)據(jù)也變成了一種資產(chǎn)的體現(xiàn),但數(shù)據(jù)本身無法自動(dòng)產(chǎn)生相應(yīng)的價(jià)值,要想使數(shù)據(jù)產(chǎn)生應(yīng)有的價(jià)值,應(yīng)在云計(jì)算的基礎(chǔ)上,結(jié)合現(xiàn)有的人工智能和大數(shù)據(jù)技術(shù),使數(shù)據(jù)成為各行各業(yè)的強(qiáng)有力幫手。數(shù)據(jù)也是一把雙刃劍,對(duì)各行各業(yè)而言,依靠數(shù)據(jù)的支持,可以突破傳統(tǒng),但也不能過分依賴數(shù)據(jù)。同時(shí),隨著法律法規(guī)的健全,保護(hù)公民隱私信息成為一種必然的趨勢(shì),對(duì)數(shù)據(jù)的安全保護(hù)的力度一定會(huì)越來越大,未來,數(shù)據(jù)安全必然國(guó)家安全信息保護(hù)工作的重點(diǎn)。
參考文獻(xiàn)
[1] 數(shù)據(jù)遷移[EB/OL].百度百科,2018-10-20.
[2] 遷移.數(shù)據(jù)中心遷移時(shí)的十項(xiàng)須知[J].網(wǎng)絡(luò)與信息,2011(06):36.
[3] 段衛(wèi)國(guó),李俊春.Oracle數(shù)據(jù)庫數(shù)據(jù)遷移技術(shù)研究[J].信息技術(shù),2015(08):35-39.
[4] 張夢(mèng)影.ORACLE到POSTGRES的數(shù)據(jù)庫遷移[D].上海:上海交通大學(xué),2014.
[5] GB/T 22239-2019,信息安全技術(shù)網(wǎng)絡(luò)安全等級(jí)保護(hù)基本要求[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2019.
[6] 馮朝勝,秦志光,袁丁.云數(shù)據(jù)安全存儲(chǔ)技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2015(01):150-163.
[7] 范偉.云計(jì)算及其安全問題探討[J].保密科學(xué)技術(shù),2011(10):56-59.
Research on Key Technologies of? Data Migration in the Era of? Big Data
ZHAO Ya-qiang1, WANG Yong-lun2, GE Li-jun3
(1.First Research Institute of? the Ministry of? Public Security, Beijing? 100048;
2.Population Management Team of? Tianjin Public Security Bureau, Tianjin? 300384;
3.Beijing Institute of? Micro Technology, Beijing? 100006)
Abstract:Because of the complexity and multi dimension of information data in all walks of life, data migration becomes the difficulty of information system updating. With the development of big data and cloud computing, cloud platform data center has become a must choice for information systems of all walks of life, it not only avoids the waste of resources, but also greatly reduces the future data migration work, laying the foundation for the future intelligent and intelligent construction.
Key words:data migration; storage; data security; encryption