董曉莉
〔摘要〕本文在介紹軟件定義存儲概念和技術(shù)特征的基礎(chǔ)上,對應用于數(shù)字資源長期保存系統(tǒng)建設的傳統(tǒng)存儲弊端和軟件定義存儲優(yōu)勢進行了深入的對比和剖析,引出軟件定義存儲對數(shù)字資源長期保存存儲系統(tǒng)建設的影響,并進一步分析了合作模式下數(shù)字資源長期保存的存儲需求,進而提出基于軟件定義存儲的數(shù)字資源長期保存存儲系統(tǒng)架構(gòu)。最后,本文有針對性地提出了基于軟件定義存儲的長期保存存儲系統(tǒng)建設策略。對數(shù)字資源長期保存系統(tǒng)的建設起到一定的借鑒作用。
〔關(guān)鍵詞〕長期保存;數(shù)字圖書館;數(shù)字信息資源;軟件定義存儲
DOI:10.3969/j.issn.1008-0821.2017.02.008
〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2017)02-0038-06
〔Abstract〕This paper gave an overview on the basic concept and technical architecture of SDS,then the paper compared and analyzed the disadvantages of the traditional storage and the advantages of software defined storage in the application of digital preservation.Besides,it further put forword the impact of software defined storage for long-term preservation.And then the software defined storage reference architecture for long-term preservation combined with the software defined storage requirements was proposed,finally the evolution of ideas were put forward.
〔Key words〕long-term preservation;digital library;digital information resources;software defined storage
安全可靠的存儲環(huán)境是數(shù)字資源長期保存工作的基礎(chǔ)和保障,數(shù)字資源長期保存的關(guān)鍵在于維護數(shù)字形態(tài)資源的可用性、可表現(xiàn)性、可理解性、真實性和可識別性,但其面臨著數(shù)據(jù)易丟失、介質(zhì)故障、海量資源存儲、軟硬件過時等與存儲資源息息相關(guān)的不良因素影響,給數(shù)字信息的穩(wěn)定可靠帶來巨大的挑戰(zhàn)。
同時數(shù)字資源長期保存工作還面臨著技術(shù)、經(jīng)濟、法律等諸多方面的問題,任何一個機構(gòu)僅憑一己之力難以勝任,需要跨機構(gòu)、跨行業(yè)、跨地域間的協(xié)同合作;且隨著社會的發(fā)展和科學技術(shù)的進步,數(shù)字信息的增長量也呈現(xiàn)出指數(shù)級增長的趨勢。面對數(shù)字資源爆炸式增長的存儲需求以及協(xié)同合作長期保存工作模式的推廣,存儲系統(tǒng)必須具備足夠的靈活性、高可靠性、開放性以及智能化,才能長期應對海量數(shù)字資源的保存需求;同時,為保障數(shù)字信息的長期可用性,在數(shù)字資源長期保存過程中還需要依托存儲系統(tǒng)的數(shù)據(jù)服務完成對保存資源的合理備份和遷移。因此,從靈活性、安全性、支持跨地域協(xié)同工作、跨異構(gòu)環(huán)境的配置和管理、對異構(gòu)資源的持續(xù)監(jiān)控、效能管理、降低成本、易擴展等方面考慮,探索可持續(xù)發(fā)展的數(shù)字資源長期保存存儲解決方案,是當前長期保存領(lǐng)域面臨的重要問題之一。
隨著互聯(lián)網(wǎng)、云計算的快速普及以及大數(shù)據(jù)時代下數(shù)字信息資源的爆炸性增長,為了打破傳統(tǒng)存儲系統(tǒng)軟硬件緊耦合造成的系統(tǒng)割裂狀態(tài),增強存儲系統(tǒng)的橫向擴展能力,進一步實現(xiàn)資源的集中統(tǒng)一管理,提高系統(tǒng)的開放性,軟件定義存儲(Software Defined Storage,SDS)應運而生。數(shù)字資源長期保存工作中引入軟件定義存儲,不但可以簡化運行管理,保障長期保存系統(tǒng)底層存儲平臺安全、穩(wěn)定、高效運行,而且可以實現(xiàn)基礎(chǔ)設施資源的按需配置和動態(tài)調(diào)整,改進合作模式下數(shù)字資源長期保存工作的業(yè)務流程,有效平衡效能與成本的比率,提高長期保存系統(tǒng)存儲資源部署管理的自動化、標準化和一體化水平。本文通過對軟件定義存儲的分析,進一步探討其在數(shù)字資源長期保存中的應用,為國內(nèi)外同行提供參考。
1軟件定義存儲對數(shù)字資源長期保存的影響
11軟件定義存儲概念
2013年“軟件定義存儲”的概念被提出,旨在創(chuàng)造一種新的存儲方法,以此來改進原先由硬件驅(qū)動的存儲設計方式。由于軟件定義存儲的發(fā)展時間較短,目前國內(nèi)外并沒有對其形成統(tǒng)一的定義,各大存儲廠商和存儲研究機構(gòu)分別從不同角度、不同側(cè)重對軟件定義存儲作出了定義。如2013年,EMC[1]推出其對軟件定義存儲的定義,該定義包括可以在不同的地理位置、不同服務器產(chǎn)品或不同廠商的磁盤陣列上擴展、能夠?qū)⑺谢A(chǔ)存儲資源虛擬化后融入資源池、以及開放API等。同年,IBM中國也推出了其軟件定義存儲的技術(shù)路線圖,即SDS10實現(xiàn)存儲虛擬化,并針對工作負載進行優(yōu)化;SDS20是在虛擬化基礎(chǔ)上實現(xiàn)存儲平臺的開放和可擴展性;SDS30將更突出平臺開放和分析功能,并通過智能的數(shù)據(jù)管理完全實現(xiàn)應用對存儲資源的動態(tài)分配和管理。
與此同時,各研究機構(gòu)也紛紛推出其針對軟件定義存儲的定義。如全球網(wǎng)絡存儲工業(yè)協(xié)會(Storage Networking Industry Association,SNIA)[2]認為軟件定義存儲應具備以下典型特征:容許用戶“自主創(chuàng)建”,用戶可以自主選擇硬件品牌,并通過所提供的軟件完成解決方案;既支持通用硬件,又可支持專用硬件的既有增強功能;支持幾乎所有存儲的橫向擴展和縱向擴展;支持異構(gòu)存儲資源的統(tǒng)一池化管理;提供的存儲和數(shù)據(jù)服務可進行漸進式延展;支持全局自動化管理;為用戶提供豐富的自助服務接口;提供基于服務級別的管理形式,可通過標注元數(shù)據(jù)來驅(qū)動某類型的存儲數(shù)據(jù)服務;容許管理員設置存儲數(shù)據(jù)服務的管理策略;支持存儲和數(shù)據(jù)服務的解聚。IDC對軟件定義存儲的定義如下:軟件定義存儲將數(shù)據(jù)中心或者跨數(shù)據(jù)中心的各種存儲資源抽象化、池化,以服務的形式提供給應用,滿足應用按需(如容量、性能、QoS、SLA等)自動化使用存儲的需求[3-4]。
由此不難看出,目前對軟件定義存儲的定義主要分成兩類,一類是以傳統(tǒng)存儲廠商為代表,他們重點關(guān)注自身存儲產(chǎn)品,將自身擁有的存儲管理軟件從存儲設備中抽離出來,形成一套用于管理自身存儲硬件和第三方存儲硬件以及通用硬件的管理軟件系統(tǒng),并利用虛擬化技術(shù)將底層存儲硬件池化,向前端應用提供存儲資源。另一類以一些研究機構(gòu)為代表,他們更強調(diào)硬件平臺的通用性,通過軟件功能完成傳統(tǒng)存儲系統(tǒng)的多路徑、容錯、故障恢復等功能并提供有質(zhì)量保證的服務,同時其可以在不直接操作存儲底層硬件的情況下,實現(xiàn)數(shù)據(jù)分配的動態(tài)部署并保證自動保持所需服務級別。
雖然目前各方對軟件定義存儲的定義不盡相同,各有側(cè)重。但不難發(fā)現(xiàn)自動化、良好的擴展性、開放性以及基于策略或者應用驅(qū)動服務已經(jīng)成為各家定義中的必備元素。筆者認為,軟件定義存儲與以往通用存儲系統(tǒng)不同,它已經(jīng)突破了存儲功能與硬件綁定的限制,把存儲資源提供的控制能力抽象出來,并將其與數(shù)據(jù)訪問層面分開,通過抽象出的控制能力管理來自不同廠商的所有物理和虛擬存儲資源,按需提供智能服務。軟件定義存儲已逐步轉(zhuǎn)變?yōu)橐环N數(shù)據(jù)存儲方式,一種由軟件驅(qū)動的非專屬存儲系統(tǒng)。在該系統(tǒng)中,所有與存儲相關(guān)的軟件與物理系統(tǒng)相剝離,不再是一個固件;物理存儲系統(tǒng)則成為不受限制的共享池,方便用戶有效利用。
12軟件定義存儲特征
軟件定義存儲架構(gòu)的核心思想在于硬件解耦、軟件定義、彈性擴展和資源融合。與傳統(tǒng)存儲架構(gòu)相比,軟件定義存儲無論在可維護性、可擴展性、產(chǎn)品價格以及產(chǎn)品的選擇等方面都有更大的優(yōu)勢和靈活性。限于當前技術(shù)環(huán)境下,軟件定義存儲應具有如下特征[5-6]:
121智能且自優(yōu)化
通過定義標準的應用編程接口(API)可以進行自動化存儲配置,以滿足應用程序和用戶所需要的存儲資源,無需人工干預;通過元數(shù)據(jù)設定,可以自動地進行存儲資源的部署、優(yōu)化和管理,并為應用提供所需的服務。該特性將極大地簡化應用系統(tǒng)管理員的配置工作,有利于存儲資源與應用系統(tǒng)的集成,有效降低管理成本。
122系統(tǒng)架構(gòu)靈活,支持異構(gòu)設備的統(tǒng)一管理
軟件定義存儲的一個優(yōu)勢在于對異構(gòu)存儲設備的整合,其可以實現(xiàn)對不同類型的存儲系統(tǒng)(如NAS、SAN、對象存儲等)和不同廠商存儲設備的快速接入和統(tǒng)一管理,為實現(xiàn)存儲資源池化和全局統(tǒng)一管理創(chuàng)造條件。
123良好的可擴展性(主要指橫向擴展)
軟件定義存儲的存儲控制器可以放置在任何位置,比如將存儲管理控制軟件放置在虛擬服務器架構(gòu)中,借用其主機的計算能力和擴展能力,不但可以消減部署費用,而且可以有力地增加存儲架構(gòu)的可擴展性。
124存儲虛擬化
存儲虛擬化可以聚合異構(gòu)存儲資源并將其池化,使得所有存儲設備中的存儲容量均可以得到充分利用,有效提高空間利用率,降低成本。同時軟件定義存儲提供的資源(空間、I/O能力)自由分配和組合的能力,減少了應用對存儲硬件資源的綁定,增加了異構(gòu)存儲設備的整合能力。特別是軟件定義存儲所具有的數(shù)據(jù)跨異構(gòu)存儲孤島的功能,有助于實現(xiàn)數(shù)據(jù)的無縫遷移,方便管理。
125豐富的數(shù)據(jù)接口
軟件定義存儲可以對外提供豐富的數(shù)據(jù)接口,如文件系統(tǒng)接口(NFS、CIFS等)、塊接口(iSCSI、FC等)、對象接口(S3、SWIFT等)以及大數(shù)據(jù)接口(HDFS)等,用戶可以根據(jù)應用需求自行選擇合適的存儲接口和協(xié)議。
13傳統(tǒng)存儲的劣勢
當前基于傳統(tǒng)存儲(如SAN、NAS、DAS等)的獨立存儲中心仍是長期保存實踐中的主流存儲,但伴隨跨行業(yè)、跨地域工作模式的增加以及豐富多樣海量數(shù)據(jù)存儲需求的驅(qū)動,傳統(tǒng)存儲在某些方面已經(jīng)無法滿足合作模式下長期保存用戶對集中、動態(tài)管理存儲資源的需要。
131傳統(tǒng)存儲的擴展能力較差
傳統(tǒng)存儲通常采用專有存儲硬件設備,系統(tǒng)部署和擴容較為復雜,需要專業(yè)人員處理,且周期較長;從其他存儲設備中調(diào)配容量,將打亂原有數(shù)據(jù)的部署規(guī)則和原有的網(wǎng)絡拓撲結(jié)構(gòu),不利于后續(xù)管理;傳統(tǒng)存儲以控制器為核心,存儲管理軟件與硬件緊密耦合的設計理念導致其僅支持縱向擴展,無法支持橫向和縱向的雙向靈活擴展。
132傳統(tǒng)存儲的成本較高
傳統(tǒng)存儲產(chǎn)品硬件擴容時,由于受到原有設備選型的局限,無法采購新型性價比更好的產(chǎn)品;同時各家產(chǎn)品存在技術(shù)壁壘,通常采用專有存儲硬件且與存儲軟件綁定,通用性差,對廠商依賴性很大,維護成本很高。
133傳統(tǒng)存儲運行管理復雜
傳統(tǒng)存儲由于各設備的運行管理方式較為獨立,且差異較大,無法實現(xiàn)全局統(tǒng)一管理和調(diào)度,即使采用第三方管理軟件,也無法脫離原有存儲控制軟件對底層存儲資源進行調(diào)配的依賴性;對資源的調(diào)度只能局限于存儲系統(tǒng)內(nèi)部,無法實現(xiàn)跨存儲節(jié)點的靈活遷移。
同時,伴隨數(shù)字資源長期保存合作模式的推廣,未來的保存機構(gòu)對資源存儲提出了更多的要求。首先,面對用戶泛化的信息需求,特別是“大數(shù)據(jù)”技術(shù)的飛速發(fā)展,用戶“大數(shù)據(jù)”也將作為一種重要資源被納入數(shù)字資源長期保存對象集合之中。隨著保存機構(gòu)對保存對象的界定逐漸寬泛,數(shù)字資源長期保存將對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲空間產(chǎn)生更大的需求;其次,伴隨長期保存由單中心模式變?yōu)槎嘀行哪J?,其業(yè)務模式變化加快,這不但需要數(shù)字保存中心的存儲擁有更靈活的擴展和響應能力,而且需要其具有更便捷的配置能力以及更精細化的管理模式。
軟件定義存儲和傳統(tǒng)存儲設備的主要差異在于其在可擴展性和統(tǒng)一操作方面的突出優(yōu)勢,而這些優(yōu)勢恰恰可以緩解合作模式下數(shù)字資源長期保存在存儲容量和資源有效管理等方面的難題。采用軟件定義存儲的長期保存存儲環(huán)境,不僅體現(xiàn)出數(shù)字資源存儲容量的巨大變化,而且可以提供基于容量、性能等存儲資源統(tǒng)一調(diào)配的管理控制,實現(xiàn)對資源的集中監(jiān)控和動態(tài)管理,屏蔽底層SAN、NAS等異構(gòu)存儲、服務器、SAN存儲交換機、網(wǎng)絡交換機等硬件設備的差異,從而解決數(shù)字資源長期保存在存儲空間有限和難于有效管理方面的難題。同時其可以在不改變設備網(wǎng)絡拓撲架構(gòu)的情況下,將原各保存中心已購置的存儲資源整合起來,及時響應業(yè)務需求,節(jié)約再次購置存儲資源的成本,這既能使數(shù)字資源長期保存系統(tǒng)擁有無限量存儲資源,又能有效降低保存成本,提升設備管理工作效率。
14軟件定義存儲應用于數(shù)字資源長期保存的優(yōu)勢
目前,各數(shù)字文化遺產(chǎn)機構(gòu)的存儲系統(tǒng)各自自成體系,擴展能力有限,管理成本巨大,利用軟件定義存儲的優(yōu)勢,將存儲軟件從硬件資源中剝離出來,不但可以實現(xiàn)對全局存儲存儲資源和數(shù)字資源的自動化管理,同時可以打破不同機構(gòu)存儲間的壁壘,提高存儲平臺的橫向擴展能力,延長存儲資源的利用周期,加強長期保存系統(tǒng)平臺的整體健壯性。軟件定義存儲可以解決合作模式下分布式數(shù)字資源長期保存存儲平臺建設的如下問題[7-8]:
141異構(gòu)存儲的集中統(tǒng)一管理
各保存機構(gòu)中已購置的大量異構(gòu)存儲進一步增加了管理的復雜性。如何利用有限的存儲資源實現(xiàn)混合環(huán)境下各種異構(gòu)存儲的管理,同時最大化地簡化管理難度是亟需解決的問題之一。軟件定義存儲的存儲自動化集中統(tǒng)一管理能力,不僅可以在單一管理界面下實現(xiàn)跨異構(gòu)環(huán)境的存儲管理,而且可以有效簡化異構(gòu)存儲的管理難度。此外,其自動化功能可以及時檢測到存儲系統(tǒng)故障并及時處理,有利于保持長期保存業(yè)務的連續(xù)性。
142異構(gòu)存儲的整合
利用軟件定義存儲實現(xiàn)已有異構(gòu)存儲的整合再利用,不僅可以提高存儲生命周期的使用效率,降低各保存機構(gòu)新增存儲的采購需求,而且對于新增的異構(gòu)存儲也可以通過整合實現(xiàn)統(tǒng)一管理。
143異構(gòu)存儲的資源配置效率
傳統(tǒng)存儲配置方式造成大量存儲資源閑置,同時無法滿足合作模式下長期保存業(yè)務對大規(guī)模資源存儲和管理效率的需求。軟件定義存儲可以實現(xiàn)在有限的存儲資源條件下,通過資源池化提高存儲資源利用率和配置率,簡化以工作負載為核心的存儲資源部署管理,降低異構(gòu)存儲資源配置所需的時間,提高整體存儲資源的管理效率。
144卷高可移動性
數(shù)字資源長期保存存儲平臺在運行過程中,無法避免會出現(xiàn)宕機,進而造成業(yè)務中斷甚至數(shù)據(jù)丟失。軟件定義存儲的卷高可移動性,不但使數(shù)字資源長期保存的存儲系統(tǒng)具有故障切換能力,而且可以有效確保其業(yè)務持續(xù)運行的能力和保存數(shù)據(jù)的安全性和高可用性。同時,多站點保存機構(gòu)間的存儲資源均衡,有利于存儲資源利用最大化,特別是軟件定義存儲具有的跨數(shù)據(jù)中心的存儲卷自動遷移能力,將有效確保存儲卷的高可移動性。
此外,軟件定義存儲可通過增加復制、壓縮等技術(shù),優(yōu)化數(shù)據(jù)存儲,進而優(yōu)化長期保存系統(tǒng)性能,加快保存系統(tǒng)的響應時間,減少能耗,消減保存成本。由此可見,軟件定義存儲已成為未來合作模式下數(shù)字資源長期保存存儲平臺建設的重要選擇之一。
2基于軟件定義存儲的長期保存存儲系統(tǒng)架構(gòu)設計
數(shù)字資源長期保存數(shù)據(jù)量飛速增長,如果需要保存這些珍貴資源,就需要存儲系統(tǒng)快速地供給足夠的存儲資源,否則一旦存儲容量的擴展速度跟不上海量數(shù)據(jù)的增長速度,將會導致數(shù)據(jù)管理失控,并直接導致保存資源失效。因此,在面向合作模式下的數(shù)字資源長期保存存儲系統(tǒng)設計與實現(xiàn)中,與性能、成本等其它因素比,支持高效管理、彈性擴展、可靠性、數(shù)據(jù)一致性是剛性需求。
21系統(tǒng)需求
合作模式下數(shù)字資源長期保存系統(tǒng)的底層數(shù)據(jù)集中存儲平臺應為上層提供安全、可靠的數(shù)據(jù)服務和穩(wěn)定健壯的存儲環(huán)境,以保證上層長期保存應用可為用戶提供真實、可靠且具有可用性保障的數(shù)字資源。因此數(shù)字資源長期保存存儲系統(tǒng)應具有如下能力:
211跨數(shù)據(jù)中心的存儲資源統(tǒng)一管理能力
隨著長期保存數(shù)字資源總量的爆炸性增長,存儲規(guī)模越來越大,而當資源量上升到EB或ZB級別后,很難由一個機構(gòu)的數(shù)據(jù)中心完成,需要跨地域、跨機構(gòu)、跨行業(yè)進行存儲資源與存儲服務的統(tǒng)一組織和管理。面對龐大的源于不同機構(gòu)的異構(gòu)存儲資源以及難于統(tǒng)一調(diào)配的存儲資源等難題,必須增強虛擬化管理、端到端的存儲自動化管理以及異構(gòu)存儲自發(fā)現(xiàn)管理等方面的能力,以實現(xiàn)對各地各機構(gòu)存儲資源集中控制和統(tǒng)一管理。
212完善的大規(guī)模分布式安全存儲架構(gòu)
存儲系統(tǒng)應支持分布式架構(gòu),具有橫向和縱向的雙向擴展能力,可實現(xiàn)不同機構(gòu)異構(gòu)存儲系統(tǒng)間的資源共享,同時支持對數(shù)字對象進行有效的管理、協(xié)作、控制共享、傳輸、備份與恢復,可通過層次邏輯名稱實現(xiàn)對保存數(shù)據(jù)對象的統(tǒng)一有序的控制與管理,保障資源的安全性和一致性。
213較強的智能管理功能
合作模式下,存儲系統(tǒng)中的物理存儲節(jié)點數(shù)量從幾個到幾十個不等,面對超大規(guī)模的I/O吞吐需求,在保證數(shù)據(jù)安全、一致的前提下,應高效進行節(jié)點間的負載均衡,充分發(fā)揮空閑節(jié)點的作用,保證服務質(zhì)量,提高系統(tǒng)運行效能。
214面向長期保存應用的專業(yè)化管理策略
可根據(jù)長期保存業(yè)務流程,設定合理的且簡單易控的管理策略,并根據(jù)應用的變化進行彈性配額。通過采集長期保存應用系統(tǒng)運行的反饋數(shù)據(jù)進行容量、性能等方面的智能分析,結(jié)合存儲設備的相關(guān)特性(如存儲容量、設備類型、性能指標等),為保存應用選擇最合適的存儲資源,以完成自動化調(diào)配,如自動化精簡配置、存儲空間的動態(tài)分配等,實現(xiàn)針對長期保存應用進行的專業(yè)化策略管理。
215開放靈活的自主服務機制
通過在面向數(shù)字資源長期保存工作流中嵌入相關(guān)存儲技術(shù),如快照管理、壓縮解密、分層存儲、備份恢復、性能監(jiān)控、注冊認證、硬件檢測等,可形成數(shù)字資源長期保存需求驅(qū)動下基于存儲策略的存儲資源和保存數(shù)據(jù)的高效、統(tǒng)一的自助服務體系,并實現(xiàn)有效提高保存資源的安全可靠性、降低資源保存管理成本。
22基于軟件定義存儲的長期保存存儲系統(tǒng)架構(gòu)
合作模式下的數(shù)字資源長期保存要求數(shù)據(jù)信息具有較強實時可用性、活動可控性和數(shù)據(jù)管理動態(tài)可維護性。因此,在數(shù)字資源長期保存存儲系統(tǒng)的設計中,應結(jié)合不同保存機構(gòu)的資源特征、資源來源以及保存需求,重點做好保存系統(tǒng)在資源質(zhì)量保證、高效且可靠的存儲策略以及資源存儲平臺可靠性和可擴展性等方面的建設工作?;谝陨戏治?,結(jié)合軟件定義存儲的特征,筆者認為在設計基于軟件定義存儲的數(shù)字資源長期保存存儲系統(tǒng)時,應重點考慮靈活的存儲配置策略、多樣化的異構(gòu)存儲供給能力、存儲資源和保存信息的安全性以及存儲資源的彈性擴展等方面的內(nèi)容,其參考架構(gòu)圖如圖1所示。
該系統(tǒng)的設計過程在堅持開放、互聯(lián)、模塊化和低復雜度的前提下,將系統(tǒng)劃分為3個層次:策略驅(qū)動的控制平臺層、虛擬數(shù)據(jù)平臺層、集合存儲池層。各個層次相互獨立,高層系統(tǒng)模塊依靠較低層的模塊提供服務支持,最終為各機構(gòu)和用戶的數(shù)字資源長期保存應用提供安全、高效、經(jīng)濟、可控的存儲保障。
221集合存儲池層
該層是非常重要的一層,主要由3個部分組成。其一是由各個保存機構(gòu)存儲構(gòu)成的物理存儲部分,該部分將各機構(gòu)已購置的異構(gòu)存儲資源,如高性能的SAN存儲、高擴展性的NAS存儲以及對象存儲等整合并池化。其二是存儲管理接口部分,該部分支持通過多種訪問接口實現(xiàn)對底層圖1基于軟件定義存儲的長期保存存儲系統(tǒng)架構(gòu)
異構(gòu)存儲資源的訪問,如全球網(wǎng)絡存儲工業(yè)協(xié)會(Storage Networking Industry Association,SNIA)定義的SMIS-S協(xié)議和CDMI協(xié)議,以及第三方專有訪問接口等。系統(tǒng)可通過通用或?qū)S迷L問接口,實現(xiàn)對存儲硬件設備的訪問和存儲設備特性的充分利用。其三是數(shù)據(jù)服務部分,該部分通過軟件定義可以實現(xiàn)或者提升傳統(tǒng)存儲設備的相關(guān)功能,如去重、快照、數(shù)據(jù)復制以及壓縮加密等。集合存儲池層由上層控制平臺進行統(tǒng)一管理和調(diào)度,通過管理管理接口和數(shù)據(jù)接口面向長期保存應用提供存儲服務。
222虛擬數(shù)據(jù)平臺
系統(tǒng)可通過協(xié)議轉(zhuǎn)換的方式,對外部長期保存應用提供豐富的數(shù)據(jù)接口,如對象接口、文件接口、HDFS接口、塊接口等等。
223策略驅(qū)動的控制平臺
系統(tǒng)可根據(jù)預設的基于存儲設備的性能、可靠性等指標進行相關(guān)策略配置,同時結(jié)合長期保存業(yè)務工作預設的資源存儲工作流,為保存應用提供自服務管理、調(diào)配管理等方面的控制。如計算方面的CPU/GPU/內(nèi)存等、網(wǎng)絡控制方面的安全連接、帶寬管理等以及存儲資源提供、存儲服務優(yōu)化、全局數(shù)據(jù)目錄、資源呈現(xiàn)管理等等。
該模型通過軟件對底層存儲硬件資源進行池化和統(tǒng)一管理,克服了原有剛性存儲架構(gòu)擴容艱難,僅能靜態(tài)分配的難題,有效增強了整體存儲平臺的擴展能力。采用基于存儲設備的性能、可靠性等方面的規(guī)則進行相關(guān)存儲策略配置,同時實現(xiàn)對存儲資源進行統(tǒng)一管理,易于用戶結(jié)合應用需求及時增加或調(diào)整存儲策略,方便管理。集合存儲池屏蔽了底層異構(gòu)復雜環(huán)境,完成了對底層存儲資源的抽象,以存儲資源池的方式對外提供服務,有效提高了資源共享的能力。同時系統(tǒng)可利用數(shù)據(jù)壓縮、重復數(shù)據(jù)刪除、數(shù)據(jù)加密、分層存儲、數(shù)據(jù)復制等技術(shù)有效提高數(shù)據(jù)安全管理的能力;利用多鏈路冗余管理,負載均衡管理,以及硬件設備的狀態(tài)監(jiān)控和故障維護等手段有效保障存儲系統(tǒng)的健康運行。
在該模型中,用戶可以通過管理接口開放的API進行存儲配置并調(diào)用相應的數(shù)據(jù)服務,以滿足長期保存應用所需的存儲資源,無需人工干預;通過元數(shù)據(jù)設定,即長期保存應用可將存儲需求信息標記至每個保存對象文件,自動調(diào)用策略驅(qū)動的控制平臺和虛擬數(shù)據(jù)平臺,分別形成控制流和數(shù)據(jù)流,以完成保存資源和存儲資源的優(yōu)化、部署和管理。策略驅(qū)動的控制平臺可根據(jù)保存需求元數(shù)據(jù)和預設的存儲策略以及長期保存工作流程,為不同的保存需求選擇合適的數(shù)據(jù)接口,并通過這些數(shù)據(jù)接口指引保存對象調(diào)用相應的存儲資源、執(zhí)行相應數(shù)據(jù)服務。該模型將極大地方便長期保存系統(tǒng)管理員的配置、優(yōu)化存儲資源、降低管理和存儲成本。
23建設策略
基于軟件定義存儲的數(shù)字資源長期保存存儲系統(tǒng)建設應重點考慮以下幾點:首先在建設過程中,為了確保長期保存資源存儲過程的安全、高效、經(jīng)濟和易控,保存機構(gòu)可聯(lián)合多個機構(gòu)合作建設,采用分布式建設模式,利用軟件定義存儲數(shù)據(jù)服務所提供的多種存儲技術(shù),實現(xiàn)資源對象在集合存儲池中的多份保存,以形成地域上分散的保存資源多副本。當單個保存機構(gòu)存儲系統(tǒng)硬件出現(xiàn)異常導致數(shù)據(jù)丟失時,由于集合存儲池中多副本資源的存在,可有效保障長期保存的存儲、訪問等服務安全、高效、可控和不間斷。其次,存儲平臺的建設應注重對海量保存資源的索引,充分利用軟件定義存儲較強的硬件兼容性、自服務、易擴展等特性,實現(xiàn)長期保存資源保存能力的動態(tài)擴展。第三,可充分利用軟件定義存儲預設的資源存儲策略,結(jié)合不同機構(gòu)的資源特點和保存需求,設定資源保存的安全級別、存儲模式,滿足保存資源短期和長期利用的需求,保障存儲資源保存和利用的動態(tài)平衡。
利用軟件定義存儲建設數(shù)字資源長期保存存儲系統(tǒng)需要分階段實施。第一階段,重點實現(xiàn)存儲資源虛擬化。該階段要結(jié)合長期保存工作對存儲資源的需求,分析目前各機構(gòu)長期保存存儲資源的使用狀況以及未來的購置計劃,對存儲資源進行合理配置。同時分析各機構(gòu)長期保存資源,并按已設定的保存級別和安全級別進行等級劃分,通過存儲虛擬化手段,將各保存機構(gòu)內(nèi)部已有的異構(gòu)存儲資源整合為統(tǒng)一的存儲資源池,以便于資源保存,并根據(jù)底層存儲資源定義相關(guān)API,簡化存儲配置,以實現(xiàn)上層保存系統(tǒng)透明訪問底層存儲資源。第二階段,解耦存儲軟件,實現(xiàn)存儲功能軟件化,降低長期保存存儲系統(tǒng)建設成本。該階段主要完成在已構(gòu)建的集中存儲池上建設數(shù)據(jù)服務功能,并將原置于存儲硬件內(nèi)部的功能(如快照、存儲精簡配置,重復數(shù)據(jù)刪除等)與存儲硬件解耦,統(tǒng)一歸并到數(shù)據(jù)服務部分。同時該部分應支持第三方軟件的無縫接入,支持長期保存數(shù)據(jù)底層功能的自定義開發(fā)。第三階段,實現(xiàn)基于策略的自動化智能管理,并實現(xiàn)存儲軟件和硬件的完全解耦,文件、塊和對象存儲設備將在通用的計算資源、存儲資源上按需創(chuàng)建、靈活擴展。
3結(jié)語
近年,隨著數(shù)字資源長期保存領(lǐng)域中各文化遺產(chǎn)機構(gòu)合作增加,各機構(gòu)原有的獨立運行模式逐漸向跨行業(yè)、跨地域的工作模式轉(zhuǎn)化,而傳統(tǒng)存儲明顯在擴展能力、集中統(tǒng)一管理能力、成本控制等方面無法滿足合作模式下數(shù)字資源長期保存用戶對集中、動態(tài)管理存儲資源的需要。而軟件定義存儲和傳統(tǒng)存儲設備的主要差異在于其在可擴展性和統(tǒng)一操作等方面的突出優(yōu)勢[9],這些優(yōu)勢恰恰可以緩解合作模式下數(shù)字資源長期保存在存儲空間和有效管理方面的難題。
軟件定義存儲作為一種新的技術(shù)已經(jīng)引起很多業(yè)界研究和保存機構(gòu)的重視,其出現(xiàn)為數(shù)字資源長期保存存儲系統(tǒng)的建設提供了一種新的選擇。在數(shù)字資源長期保存工作中引入軟件定義存儲,利用其存儲自動化集中統(tǒng)一管理能力,可以有效實現(xiàn)跨異構(gòu)環(huán)境的存儲管理,降低異構(gòu)存儲的管理難度;利用其對異構(gòu)存儲資源的整合再利用能力,可以有效提高存儲生命周期的使用效率;利用其資源池化能力,可以有效提高整體存儲資源的管理效率;利用其卷高可移動性,可以有效確保長期保存業(yè)務持續(xù)運行,提高數(shù)據(jù)的安全性和高可用性。雖然目前數(shù)字資源長期保存領(lǐng)域應用軟件定義存儲的成功案例還很鮮見,但其已突顯出在數(shù)字資源長期保存領(lǐng)域應用的技術(shù)優(yōu)勢。相信,隨著軟件定義存儲技術(shù)的不斷發(fā)展,其自動化、優(yōu)良的橫向擴展能力、開放性以及基于策略或者應用驅(qū)動服務等特點必然會在數(shù)字資源長期保存工作中發(fā)揮重要作用,其必將成為未來合作模式下數(shù)字資源長期保存存儲平臺建設的重要選擇之一。
參考文獻
[1]EMC,EMC發(fā)布全新軟件定義存儲平臺ViPR[EB].http:∥storage.chinabyte.com/146/12608146.shtml,2013.
[2]SNIA White Paper Defines SDS 2015 Editon,Mark Carlson,Alan Yoder,Leah Schoeb,Don Dell,Carlos Pratt,Chris Lionetti,Doug Voigt,Jan.2015 SNIA White Paper Defines SDS 2015 Editon,Mark Carlson,Alan Yoder,Leah Schoeb,Don Dell,Carlos Pratt,Chris Lionetti,Doug Voigt,Jan.2015.
[3]Nadkarni A,DuBois L,Sheppard E.IDCs worldwide software-based(software-defined)storage taxonomy[EB].http:∥www.idc.com/getdoc.jsp containerId=240500,2013.
[4]孫振正,龔靖,段勇,等.面向下一代數(shù)據(jù)中心的軟件定義存儲技術(shù)研究[J].電信科學,2014,(1):39-43.
[5]Fichera R,Washburn D.The software-defined data center is thefuture of infrastructure architecture[EB].http:∥www.forrester.com/The+SoftwareDefined+Data+Center+Is+The+Future+Of+Infrastructure+Architecture/fulltext/-/E-RES81941,2012.
[6]Lecat J.Is“software-defined”just a new way to whitewash oldproducts[EB].http:∥www.scality.com/is-software-defined-just-a-new-way-to-whitewash-old-products/,2012.
[7]Worldwide Storage and Device Management Software 2014-2018 Forecast and 2013 Vendor Shares:Future Impact from Software-Defined Storage,Laura DuBois,Iris Feng,Jingwen Li,Ashish Nadkarni,Eric Sheppard,2014.
[8]IDC brings clarity to software-based/software-defined storage markets[EB].http:∥www.idc.com/getdoc.jsp?containerId=prUS240687 13,2016.
[9]Nadkarni A,DuBois L,Sheppard E.IDCs worldwide software based(software-defined)storage taxonomy[EB].http:∥www.idc.com/getdoc.jsp containerId=240500,2013.
(本文責任編輯:郭沫含)