張娟,王璇,邢倩倩
(1.北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100070;2.國(guó)網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司,北京 102200)
非結(jié)構(gòu)化數(shù)據(jù)是一種數(shù)據(jù)結(jié)構(gòu)不完整也沒(méi)有主觀定義形式的數(shù)據(jù)模型,在實(shí)際應(yīng)用過(guò)程中,可用數(shù)據(jù)庫(kù)二維邏輯表單來(lái)表示。作為計(jì)算機(jī)信息化系統(tǒng)中的重要數(shù)據(jù)傳輸形式,非結(jié)構(gòu)化數(shù)據(jù)具有格式多樣、標(biāo)準(zhǔn)多樣等幾類應(yīng)用優(yōu)勢(shì),且在譯碼與轉(zhuǎn)碼的過(guò)程中,也并不拘泥于一種單獨(dú)的傳輸與理解形式[1-2]。一般來(lái)說(shuō),非結(jié)構(gòu)化數(shù)據(jù)可作為信息采集的執(zhí)行與處理基礎(chǔ),在開(kāi)源數(shù)據(jù)庫(kù)體系的支持下,每一類傳輸數(shù)據(jù)都與一種非結(jié)構(gòu)化文檔保持獨(dú)立對(duì)應(yīng)關(guān)系。針對(duì)不同類型的傳輸信息,非結(jié)構(gòu)化數(shù)據(jù)在運(yùn)行過(guò)程中所采取的處理原則也有所不同。
對(duì)于數(shù)字圖書資源來(lái)說(shuō),隨著無(wú)序與零散信息傳輸量的增大,數(shù)據(jù)信息的實(shí)際存儲(chǔ)環(huán)境則很難長(zhǎng)時(shí)間保持系統(tǒng)化的存在狀態(tài)。為解決上述問(wèn)題,傳統(tǒng)云存儲(chǔ)方式借助云狀網(wǎng)絡(luò)體系,同時(shí)定義數(shù)字圖書資源的存儲(chǔ)深度與存儲(chǔ)廣度條件,并根據(jù)HDFS訪問(wèn)副本的開(kāi)放形式,確定單位時(shí)間內(nèi)能存儲(chǔ)的最大數(shù)據(jù)信息資源量。但該方法在資源信息組織與整合方面的應(yīng)用能力有限,并不能實(shí)現(xiàn)對(duì)系統(tǒng)化資源信息存儲(chǔ)環(huán)境的有效維護(hù)?;诖耍岢霾⒃O(shè)計(jì)了一種新型的非結(jié)構(gòu)化數(shù)字圖書資源分布式儲(chǔ)存方法,在定義元數(shù)據(jù)含義的基礎(chǔ)上,完善非結(jié)構(gòu)化資源信息的查詢與編碼原則,再借助Hadoop 存儲(chǔ)架構(gòu),讀取關(guān)鍵的數(shù)字資源文件,從而實(shí)現(xiàn)對(duì)分布式瀏覽系數(shù)值的準(zhǔn)確計(jì)算。
非結(jié)構(gòu)化數(shù)字圖書資源的存儲(chǔ)能力分析包含元數(shù)據(jù)定義、非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)完善、編碼原則建立三個(gè)處理環(huán)節(jié),具體研究步驟如下。
元數(shù)據(jù)是與非結(jié)構(gòu)化數(shù)字圖書資源存儲(chǔ)相關(guān)的明確定義,在實(shí)際應(yīng)用過(guò)程當(dāng)中,始終以描述信息的形式存在。根據(jù)數(shù)字圖書資源分布式存儲(chǔ)行為的不同,元數(shù)據(jù)可分為描述量、殘差量等幾種應(yīng)用類型,且根據(jù)資源信息所屬定義形式的不同,元數(shù)據(jù)參量所占據(jù)的存儲(chǔ)空間也有所不同[3-4]。若將非結(jié)構(gòu)化環(huán)境看作是一種獨(dú)立的數(shù)據(jù)信息存儲(chǔ)空間,則可認(rèn)為元數(shù)據(jù)存在形式會(huì)隨著資源信息傳輸量的改變而出現(xiàn)不斷變化的情況,即任何一種固定不變的資源存儲(chǔ)格式,都不能完全滿足非結(jié)構(gòu)化元數(shù)據(jù)信息的實(shí)際定義需求。設(shè)εmin代表最小的資源信息分布系數(shù),εmax代表最大的資源信息分布系數(shù),代表單位時(shí)間內(nèi)的數(shù)字圖書資源信息查詢均值,聯(lián)立上述物理量,可將元數(shù)據(jù)定義結(jié)果表示為:
其中,β代表數(shù)字圖書資源信息的非結(jié)構(gòu)化特征值,r1,r2,…,rn代表n個(gè)不同的待存儲(chǔ)圖書資源信息。
數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)由記錄頭標(biāo)區(qū)、存儲(chǔ)地址目次區(qū)、信息字段區(qū)、分隔符四部分共同組成。其中,記錄頭標(biāo)區(qū)能夠容納所有的數(shù)字圖書資源信息,能夠按照元數(shù)據(jù)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)信息進(jìn)行按需存儲(chǔ),總的來(lái)說(shuō),該區(qū)域中資源信息的最大存儲(chǔ)量只能達(dá)到24 字符,所有小于該存儲(chǔ)標(biāo)準(zhǔn)的信息參量,都能在頭標(biāo)區(qū)空間內(nèi)自由傳輸[5-6]。存儲(chǔ)地址目次區(qū)中包含n個(gè)目次項(xiàng)指標(biāo),但是每個(gè)指標(biāo)的最大存儲(chǔ)量只能達(dá)到12 字符,始終低于頭標(biāo)區(qū)環(huán)境。資源信息字段區(qū)起到一定的穩(wěn)定存儲(chǔ)與數(shù)據(jù)過(guò)濾作用,可對(duì)已滿足非結(jié)構(gòu)化傳輸標(biāo)準(zhǔn)的數(shù)字圖書資源信息進(jìn)行暫時(shí)存儲(chǔ),并可將滿足應(yīng)用標(biāo)準(zhǔn)的傳輸數(shù)據(jù),過(guò)濾回存儲(chǔ)地址目次區(qū)中。非結(jié)構(gòu)化分隔符包含n個(gè)不固定字段,可對(duì)信息字段區(qū)已存儲(chǔ)的資源信息進(jìn)行二次分辨。數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)如圖1 所示。
圖1 數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)
非結(jié)構(gòu)化數(shù)字圖書資源的編碼原則主要以原數(shù)據(jù)參量作為參考標(biāo)準(zhǔn)。若已知具體的數(shù)據(jù)信息查詢標(biāo)準(zhǔn),則可認(rèn)為待編碼的資源信息量越大,分布式儲(chǔ)存主機(jī)所面臨的執(zhí)行壓力也就越大。在非結(jié)構(gòu)化傳輸環(huán)境中,分布式編碼原則由頭結(jié)點(diǎn)查詢、中間成分查詢、尾節(jié)點(diǎn)查詢?nèi)糠止餐M成。頭結(jié)點(diǎn)確定了數(shù)字圖書資源的起始傳輸位置,尾節(jié)點(diǎn)確定了數(shù)字圖書資源的終止傳輸位置,一般情況下,二者之間的實(shí)值距離越大,分布式空間所具備的實(shí)時(shí)存儲(chǔ)能力也就越強(qiáng)[7-8]。中間成分決定了與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的信息過(guò)渡條件,受到頭結(jié)點(diǎn)定義條件、尾節(jié)點(diǎn)定義條件兩項(xiàng)物理量的直接影響。設(shè)T0代表頭結(jié)點(diǎn)定義系數(shù),Tn代表尾節(jié)點(diǎn)定義系數(shù),代表中間查詢成分的信息量均值,聯(lián)立式(1),可將非結(jié)構(gòu)化編碼原則表示為:
通常在非結(jié)構(gòu)化存儲(chǔ)能力分析原則的支持下,按照Hadoop 存儲(chǔ)架構(gòu)搭建、資源文件讀取、分布式瀏覽系數(shù)計(jì)算的處理原則,完成新型數(shù)字圖書資源分布式儲(chǔ)存方法的設(shè)計(jì)與應(yīng)用。
Hadoop 架構(gòu)負(fù)責(zé)執(zhí)行所有與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的存儲(chǔ)指令,整個(gè)框架體系以HDFS 模塊、數(shù)據(jù)傳輸?shù)貓D、檢索導(dǎo)航三個(gè)結(jié)構(gòu)作為主要應(yīng)用成分,可在整合數(shù)字圖書資源信息的同時(shí),制定后續(xù)運(yùn)行所需的分布式存儲(chǔ)文件[9-10]。HDFS 模塊作為Hadoop 架構(gòu)的核心應(yīng)用單元,可按照非結(jié)構(gòu)化數(shù)字圖書資源的實(shí)際存儲(chǔ)需求,構(gòu)建分布式傳輸框架,從而使信息數(shù)據(jù)的傳輸積極性得到充分調(diào)度[11-12]。數(shù)據(jù)傳輸?shù)貓D作為檢索導(dǎo)航建立的基層組織結(jié)構(gòu),可在已知數(shù)字圖書資源傳輸量標(biāo)準(zhǔn)的前提下,確定數(shù)據(jù)信息最遠(yuǎn)所能到達(dá)的傳輸距離,從而實(shí)現(xiàn)對(duì)資源數(shù)據(jù)的最大化整合與處理。Hadoop 存儲(chǔ)架構(gòu)示意圖如圖2 所示。
圖2 Hadoop存儲(chǔ)架構(gòu)示意圖
資源文件讀取是數(shù)字圖書資源分布式儲(chǔ)存過(guò)程中的必要處理環(huán)節(jié),可借助Hadoop 架構(gòu),將各級(jí)信息參量集合到統(tǒng)一的數(shù)據(jù)庫(kù)主機(jī)中,一方面可減少無(wú)序與零散組織在網(wǎng)絡(luò)環(huán)境中的存在數(shù)量,另一方面也能夠?qū)崿F(xiàn)對(duì)資源信息數(shù)據(jù)的最大化聚合,從而使得整個(gè)數(shù)字圖書資源存儲(chǔ)環(huán)境不斷向著系統(tǒng)化方向趨近。假設(shè)非結(jié)構(gòu)化數(shù)字圖書資源在分布式存儲(chǔ)環(huán)境中只能保持單向傳輸?shù)倪B接狀態(tài),且信息參量的最大存儲(chǔ)條件不會(huì)受到任何外在條件的影響[13-14]。在此情況下,數(shù)據(jù)庫(kù)主機(jī)所能讀取的資源文件量越大,最終計(jì)算求得的分布式瀏覽系數(shù)值也就越大。設(shè)χ1、χ2代表兩個(gè)不同的數(shù)字圖書資源信息排列系數(shù),聯(lián)立式(2),可將資源文件讀取結(jié)果表示為:
其中,ΔT代表數(shù)字圖書資源信息的單位提取時(shí)長(zhǎng),代表分布式傳輸條件下的信息數(shù)據(jù)特征值,g代表資源文件在網(wǎng)絡(luò)環(huán)境中的單次讀取次數(shù)。
分布式瀏覽系數(shù)決定了非結(jié)構(gòu)化數(shù)字圖書資源的最大存儲(chǔ)條件,在網(wǎng)絡(luò)環(huán)境中,該項(xiàng)系數(shù)值的物理水平越高,待存儲(chǔ)的資源信息量也就越大。在不考慮其他干擾條件的情況下,分布式瀏覽系數(shù)計(jì)算結(jié)果受到資源數(shù)據(jù)存儲(chǔ)邊界、信息標(biāo)度值兩項(xiàng)物理指標(biāo)的直接影響[15-16]。資源數(shù)據(jù)存儲(chǔ)邊界由最大值cmax、最小值cmin兩部分組成,一般來(lái)說(shuō),二者之間的差值水平越大,數(shù)據(jù)庫(kù)主機(jī)所具備的資源信息存儲(chǔ)能力也就越強(qiáng)。信息標(biāo)度值可表示為μ,在已知資源文件讀取條件的情況下,該項(xiàng)物理量的數(shù)值水平越大,分布式瀏覽系數(shù)的計(jì)算值結(jié)果也就越小。在上述物理量的支持下,聯(lián)立式(3),可將分布式瀏覽系數(shù)計(jì)算結(jié)果表示為:
式中,f1、f2分別代表兩個(gè)不同的非結(jié)構(gòu)化差異系數(shù)指標(biāo),代表f1與f2的物理均值。至此,完成相關(guān)系數(shù)值的計(jì)算與處理,在確保不出現(xiàn)其他干擾條件的情況下,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)字圖書資源分布式儲(chǔ)存方法的順利應(yīng)用。
通過(guò)人工布線的方式,建立完整的數(shù)字圖書資源存儲(chǔ)網(wǎng)絡(luò),分別采用分布式儲(chǔ)存方法、傳統(tǒng)云存儲(chǔ)方式對(duì)網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)信息傳輸行為進(jìn)行干預(yù),將前者作為實(shí)驗(yàn)組,后者作為對(duì)照組。
對(duì)于數(shù)字圖書資源來(lái)說(shuō),評(píng)論存儲(chǔ)能力強(qiáng)弱包含零散信息組織有效性、整合有效性兩部分。零散信息組織有效性是指網(wǎng)絡(luò)主機(jī)在單位時(shí)間內(nèi)所能組織處理的最大數(shù)字圖書資源信息量,一般來(lái)說(shuō),該項(xiàng)物理指標(biāo)的數(shù)值水平越大,網(wǎng)絡(luò)主機(jī)所具備的零散信息組織有效性也就越強(qiáng)。
表1 記錄了實(shí)驗(yàn)組、對(duì)照組資源信息組織量的數(shù)值變化情況。
表1 資源信息組織量
分析表1 可知,實(shí)驗(yàn)組、對(duì)照組資源信息組織量在單位時(shí)間內(nèi)均呈現(xiàn)不斷增大的數(shù)值變化趨勢(shì),但實(shí)驗(yàn)組上升量級(jí)均值明顯更大,整個(gè)實(shí)驗(yàn)過(guò)程中,實(shí)驗(yàn)組最大值9.16×107MB 與對(duì)照組最大值5.67×107MB相比,上升了3.49×107MB。
零散信息整合有效性是指與網(wǎng)絡(luò)主機(jī)匹配的資源信息處理速率,一般來(lái)說(shuō),處理速率越快,零散信息的整合有效性越高。圖3 記錄了實(shí)驗(yàn)組、對(duì)照組資源信息處理速率的具體數(shù)值情況。
圖3 資源信息處理速率
分析圖3 可知,實(shí)驗(yàn)組、對(duì)照組資源信息處理速率曲線均呈現(xiàn)上升與下降相互交替的數(shù)值變化趨勢(shì),在整個(gè)實(shí)驗(yàn)過(guò)程中,實(shí)驗(yàn)組曲線始終存在于對(duì)照組上方。從極限值角度來(lái)看,實(shí)驗(yàn)組最大值8.54 MB/mm與對(duì)照組最大值3.62 MB/mm相比,上升了4.92 MB/mm,且實(shí)驗(yàn)組的兩級(jí)差值水平也遠(yuǎn)高于對(duì)照組。
綜上所述,文中實(shí)驗(yàn)的結(jié)論如下:
1)分布式儲(chǔ)存方法在單位時(shí)間內(nèi)所能組織的數(shù)字圖書資源信息量較大,符合增強(qiáng)零散信息組織有效性的實(shí)際應(yīng)用需求,對(duì)提升數(shù)據(jù)信息存儲(chǔ)能力起到一定的促進(jìn)作用。
2)與分布式儲(chǔ)存方法匹配的資源信息處理速率更快,有利于零散信息的有效整合,滿足最大化存儲(chǔ)數(shù)字圖書資源的實(shí)際處理目的。
與傳統(tǒng)云存儲(chǔ)方式相比,分布式儲(chǔ)存方法在已知元數(shù)據(jù)定義條件的基礎(chǔ)上,根據(jù)非結(jié)構(gòu)化查詢標(biāo)準(zhǔn),建立完善的數(shù)據(jù)信息編碼原則。再聯(lián)合Hadoop框架,通過(guò)讀取已存儲(chǔ)資源文件的方式,得到分布式瀏覽系數(shù)的具體數(shù)值計(jì)算結(jié)果。從實(shí)用性角度來(lái)看,資源信息組織量增大與資源信息處理速率加快兩類變化的同時(shí)出現(xiàn),不但可增強(qiáng)網(wǎng)絡(luò)主機(jī)對(duì)于零散數(shù)字圖書資源的組織有效性及整合有效性,而且滿足通過(guò)有效組織無(wú)序與零散資源的方式,維持?jǐn)?shù)字圖書資源存儲(chǔ)環(huán)境系統(tǒng)化的實(shí)際應(yīng)用需求。