非結(jié)構(gòu)化數(shù)字圖書資源分布式儲(chǔ)存方法設(shè)計(jì)

2022-12-01 06:00張娟王璇邢倩倩

電子設(shè)計(jì)工程 2022年23期

張娟，王璇，邢倩倩

（1.北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司，北京 100070；2.國(guó)網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司，北京 102200）

非結(jié)構(gòu)化數(shù)據(jù)是一種數(shù)據(jù)結(jié)構(gòu)不完整也沒(méi)有主觀定義形式的數(shù)據(jù)模型，在實(shí)際應(yīng)用過(guò)程中，可用數(shù)據(jù)庫(kù)二維邏輯表單來(lái)表示。作為計(jì)算機(jī)信息化系統(tǒng)中的重要數(shù)據(jù)傳輸形式，非結(jié)構(gòu)化數(shù)據(jù)具有格式多樣、標(biāo)準(zhǔn)多樣等幾類應(yīng)用優(yōu)勢(shì)，且在譯碼與轉(zhuǎn)碼的過(guò)程中，也并不拘泥于一種單獨(dú)的傳輸與理解形式[1-2]。一般來(lái)說(shuō)，非結(jié)構(gòu)化數(shù)據(jù)可作為信息采集的執(zhí)行與處理基礎(chǔ)，在開(kāi)源數(shù)據(jù)庫(kù)體系的支持下，每一類傳輸數(shù)據(jù)都與一種非結(jié)構(gòu)化文檔保持獨(dú)立對(duì)應(yīng)關(guān)系。針對(duì)不同類型的傳輸信息，非結(jié)構(gòu)化數(shù)據(jù)在運(yùn)行過(guò)程中所采取的處理原則也有所不同。

對(duì)于數(shù)字圖書資源來(lái)說(shuō)，隨著無(wú)序與零散信息傳輸量的增大，數(shù)據(jù)信息的實(shí)際存儲(chǔ)環(huán)境則很難長(zhǎng)時(shí)間保持系統(tǒng)化的存在狀態(tài)。為解決上述問(wèn)題，傳統(tǒng)云存儲(chǔ)方式借助云狀網(wǎng)絡(luò)體系，同時(shí)定義數(shù)字圖書資源的存儲(chǔ)深度與存儲(chǔ)廣度條件，并根據(jù)HDFS訪問(wèn)副本的開(kāi)放形式，確定單位時(shí)間內(nèi)能存儲(chǔ)的最大數(shù)據(jù)信息資源量。但該方法在資源信息組織與整合方面的應(yīng)用能力有限，并不能實(shí)現(xiàn)對(duì)系統(tǒng)化資源信息存儲(chǔ)環(huán)境的有效維護(hù)?；诖耍岢霾⒃O(shè)計(jì)了一種新型的非結(jié)構(gòu)化數(shù)字圖書資源分布式儲(chǔ)存方法，在定義元數(shù)據(jù)含義的基礎(chǔ)上，完善非結(jié)構(gòu)化資源信息的查詢與編碼原則，再借助Hadoop 存儲(chǔ)架構(gòu)，讀取關(guān)鍵的數(shù)字資源文件，從而實(shí)現(xiàn)對(duì)分布式瀏覽系數(shù)值的準(zhǔn)確計(jì)算。

1 非結(jié)構(gòu)化數(shù)字圖書資源的存儲(chǔ)能力分析

非結(jié)構(gòu)化數(shù)字圖書資源的存儲(chǔ)能力分析包含元數(shù)據(jù)定義、非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)完善、編碼原則建立三個(gè)處理環(huán)節(jié)，具體研究步驟如下。

1.1 元數(shù)據(jù)定義

元數(shù)據(jù)是與非結(jié)構(gòu)化數(shù)字圖書資源存儲(chǔ)相關(guān)的明確定義，在實(shí)際應(yīng)用過(guò)程當(dāng)中，始終以描述信息的形式存在。根據(jù)數(shù)字圖書資源分布式存儲(chǔ)行為的不同，元數(shù)據(jù)可分為描述量、殘差量等幾種應(yīng)用類型，且根據(jù)資源信息所屬定義形式的不同，元數(shù)據(jù)參量所占據(jù)的存儲(chǔ)空間也有所不同[3-4]。若將非結(jié)構(gòu)化環(huán)境看作是一種獨(dú)立的數(shù)據(jù)信息存儲(chǔ)空間，則可認(rèn)為元數(shù)據(jù)存在形式會(huì)隨著資源信息傳輸量的改變而出現(xiàn)不斷變化的情況，即任何一種固定不變的資源存儲(chǔ)格式，都不能完全滿足非結(jié)構(gòu)化元數(shù)據(jù)信息的實(shí)際定義需求。設(shè)εmin代表最小的資源信息分布系數(shù)，εmax代表最大的資源信息分布系數(shù)，代表單位時(shí)間內(nèi)的數(shù)字圖書資源信息查詢均值，聯(lián)立上述物理量，可將元數(shù)據(jù)定義結(jié)果表示為：

其中，β代表數(shù)字圖書資源信息的非結(jié)構(gòu)化特征值，r1,r2,…,rn代表n個(gè)不同的待存儲(chǔ)圖書資源信息。

1.2 非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)完善

數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)由記錄頭標(biāo)區(qū)、存儲(chǔ)地址目次區(qū)、信息字段區(qū)、分隔符四部分共同組成。其中，記錄頭標(biāo)區(qū)能夠容納所有的數(shù)字圖書資源信息，能夠按照元數(shù)據(jù)標(biāo)準(zhǔn)，對(duì)數(shù)據(jù)信息進(jìn)行按需存儲(chǔ)，總的來(lái)說(shuō)，該區(qū)域中資源信息的最大存儲(chǔ)量只能達(dá)到24 字符，所有小于該存儲(chǔ)標(biāo)準(zhǔn)的信息參量，都能在頭標(biāo)區(qū)空間內(nèi)自由傳輸[5-6]。存儲(chǔ)地址目次區(qū)中包含n個(gè)目次項(xiàng)指標(biāo)，但是每個(gè)指標(biāo)的最大存儲(chǔ)量只能達(dá)到12 字符，始終低于頭標(biāo)區(qū)環(huán)境。資源信息字段區(qū)起到一定的穩(wěn)定存儲(chǔ)與數(shù)據(jù)過(guò)濾作用，可對(duì)已滿足非結(jié)構(gòu)化傳輸標(biāo)準(zhǔn)的數(shù)字圖書資源信息進(jìn)行暫時(shí)存儲(chǔ)，并可將滿足應(yīng)用標(biāo)準(zhǔn)的傳輸數(shù)據(jù)，過(guò)濾回存儲(chǔ)地址目次區(qū)中。非結(jié)構(gòu)化分隔符包含n個(gè)不固定字段，可對(duì)信息字段區(qū)已存儲(chǔ)的資源信息進(jìn)行二次分辨。數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)如圖1 所示。

圖1 數(shù)字圖書資源的非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)

1.3 編碼原則建立

非結(jié)構(gòu)化數(shù)字圖書資源的編碼原則主要以原數(shù)據(jù)參量作為參考標(biāo)準(zhǔn)。若已知具體的數(shù)據(jù)信息查詢標(biāo)準(zhǔn)，則可認(rèn)為待編碼的資源信息量越大，分布式儲(chǔ)存主機(jī)所面臨的執(zhí)行壓力也就越大。在非結(jié)構(gòu)化傳輸環(huán)境中，分布式編碼原則由頭結(jié)點(diǎn)查詢、中間成分查詢、尾節(jié)點(diǎn)查詢?nèi)糠止餐M成。頭結(jié)點(diǎn)確定了數(shù)字圖書資源的起始傳輸位置，尾節(jié)點(diǎn)確定了數(shù)字圖書資源的終止傳輸位置，一般情況下，二者之間的實(shí)值距離越大，分布式空間所具備的實(shí)時(shí)存儲(chǔ)能力也就越強(qiáng)[7-8]。中間成分決定了與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的信息過(guò)渡條件，受到頭結(jié)點(diǎn)定義條件、尾節(jié)點(diǎn)定義條件兩項(xiàng)物理量的直接影響。設(shè)T0代表頭結(jié)點(diǎn)定義系數(shù)，Tn代表尾節(jié)點(diǎn)定義系數(shù)，代表中間查詢成分的信息量均值，聯(lián)立式（1），可將非結(jié)構(gòu)化編碼原則表示為：

2 圖書資源分布式儲(chǔ)存方法

通常在非結(jié)構(gòu)化存儲(chǔ)能力分析原則的支持下，按照Hadoop 存儲(chǔ)架構(gòu)搭建、資源文件讀取、分布式瀏覽系數(shù)計(jì)算的處理原則，完成新型數(shù)字圖書資源分布式儲(chǔ)存方法的設(shè)計(jì)與應(yīng)用。

2.1 Hadoop存儲(chǔ)架構(gòu)搭建

Hadoop 架構(gòu)負(fù)責(zé)執(zhí)行所有與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的存儲(chǔ)指令，整個(gè)框架體系以HDFS 模塊、數(shù)據(jù)傳輸?shù)貓D、檢索導(dǎo)航三個(gè)結(jié)構(gòu)作為主要應(yīng)用成分，可在整合數(shù)字圖書資源信息的同時(shí)，制定后續(xù)運(yùn)行所需的分布式存儲(chǔ)文件[9-10]。HDFS 模塊作為Hadoop 架構(gòu)的核心應(yīng)用單元，可按照非結(jié)構(gòu)化數(shù)字圖書資源的實(shí)際存儲(chǔ)需求，構(gòu)建分布式傳輸框架，從而使信息數(shù)據(jù)的傳輸積極性得到充分調(diào)度[11-12]。數(shù)據(jù)傳輸?shù)貓D作為檢索導(dǎo)航建立的基層組織結(jié)構(gòu)，可在已知數(shù)字圖書資源傳輸量標(biāo)準(zhǔn)的前提下，確定數(shù)據(jù)信息最遠(yuǎn)所能到達(dá)的傳輸距離，從而實(shí)現(xiàn)對(duì)資源數(shù)據(jù)的最大化整合與處理。Hadoop 存儲(chǔ)架構(gòu)示意圖如圖2 所示。

圖2 Hadoop存儲(chǔ)架構(gòu)示意圖

2.2 資源文件讀取

資源文件讀取是數(shù)字圖書資源分布式儲(chǔ)存過(guò)程中的必要處理環(huán)節(jié)，可借助Hadoop 架構(gòu)，將各級(jí)信息參量集合到統(tǒng)一的數(shù)據(jù)庫(kù)主機(jī)中，一方面可減少無(wú)序與零散組織在網(wǎng)絡(luò)環(huán)境中的存在數(shù)量，另一方面也能夠?qū)崿F(xiàn)對(duì)資源信息數(shù)據(jù)的最大化聚合，從而使得整個(gè)數(shù)字圖書資源存儲(chǔ)環(huán)境不斷向著系統(tǒng)化方向趨近。假設(shè)非結(jié)構(gòu)化數(shù)字圖書資源在分布式存儲(chǔ)環(huán)境中只能保持單向傳輸?shù)倪B接狀態(tài)，且信息參量的最大存儲(chǔ)條件不會(huì)受到任何外在條件的影響[13-14]。在此情況下，數(shù)據(jù)庫(kù)主機(jī)所能讀取的資源文件量越大，最終計(jì)算求得的分布式瀏覽系數(shù)值也就越大。設(shè)χ1、χ2代表兩個(gè)不同的數(shù)字圖書資源信息排列系數(shù)，聯(lián)立式（2），可將資源文件讀取結(jié)果表示為：

其中，ΔT代表數(shù)字圖書資源信息的單位提取時(shí)長(zhǎng)，代表分布式傳輸條件下的信息數(shù)據(jù)特征值，g代表資源文件在網(wǎng)絡(luò)環(huán)境中的單次讀取次數(shù)。

2.3 分布式瀏覽系數(shù)計(jì)算

分布式瀏覽系數(shù)決定了非結(jié)構(gòu)化數(shù)字圖書資源的最大存儲(chǔ)條件，在網(wǎng)絡(luò)環(huán)境中，該項(xiàng)系數(shù)值的物理水平越高，待存儲(chǔ)的資源信息量也就越大。在不考慮其他干擾條件的情況下，分布式瀏覽系數(shù)計(jì)算結(jié)果受到資源數(shù)據(jù)存儲(chǔ)邊界、信息標(biāo)度值兩項(xiàng)物理指標(biāo)的直接影響[15-16]。資源數(shù)據(jù)存儲(chǔ)邊界由最大值cmax、最小值cmin兩部分組成，一般來(lái)說(shuō)，二者之間的差值水平越大，數(shù)據(jù)庫(kù)主機(jī)所具備的資源信息存儲(chǔ)能力也就越強(qiáng)。信息標(biāo)度值可表示為μ，在已知資源文件讀取條件的情況下，該項(xiàng)物理量的數(shù)值水平越大，分布式瀏覽系數(shù)的計(jì)算值結(jié)果也就越小。在上述物理量的支持下，聯(lián)立式（3），可將分布式瀏覽系數(shù)計(jì)算結(jié)果表示為：

式中，f1、f2分別代表兩個(gè)不同的非結(jié)構(gòu)化差異系數(shù)指標(biāo)，代表f1與f2的物理均值。至此，完成相關(guān)系數(shù)值的計(jì)算與處理，在確保不出現(xiàn)其他干擾條件的情況下，實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)字圖書資源分布式儲(chǔ)存方法的順利應(yīng)用。

3 實(shí)例分析

通過(guò)人工布線的方式，建立完整的數(shù)字圖書資源存儲(chǔ)網(wǎng)絡(luò)，分別采用分布式儲(chǔ)存方法、傳統(tǒng)云存儲(chǔ)方式對(duì)網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)信息傳輸行為進(jìn)行干預(yù)，將前者作為實(shí)驗(yàn)組，后者作為對(duì)照組。

對(duì)于數(shù)字圖書資源來(lái)說(shuō)，評(píng)論存儲(chǔ)能力強(qiáng)弱包含零散信息組織有效性、整合有效性兩部分。零散信息組織有效性是指網(wǎng)絡(luò)主機(jī)在單位時(shí)間內(nèi)所能組織處理的最大數(shù)字圖書資源信息量，一般來(lái)說(shuō)，該項(xiàng)物理指標(biāo)的數(shù)值水平越大，網(wǎng)絡(luò)主機(jī)所具備的零散信息組織有效性也就越強(qiáng)。

表1 記錄了實(shí)驗(yàn)組、對(duì)照組資源信息組織量的數(shù)值變化情況。

表1 資源信息組織量

分析表1 可知，實(shí)驗(yàn)組、對(duì)照組資源信息組織量在單位時(shí)間內(nèi)均呈現(xiàn)不斷增大的數(shù)值變化趨勢(shì)，但實(shí)驗(yàn)組上升量級(jí)均值明顯更大，整個(gè)實(shí)驗(yàn)過(guò)程中，實(shí)驗(yàn)組最大值9.16×107MB 與對(duì)照組最大值5.67×107MB相比，上升了3.49×107MB。

零散信息整合有效性是指與網(wǎng)絡(luò)主機(jī)匹配的資源信息處理速率，一般來(lái)說(shuō)，處理速率越快，零散信息的整合有效性越高。圖3 記錄了實(shí)驗(yàn)組、對(duì)照組資源信息處理速率的具體數(shù)值情況。

圖3 資源信息處理速率

分析圖3 可知，實(shí)驗(yàn)組、對(duì)照組資源信息處理速率曲線均呈現(xiàn)上升與下降相互交替的數(shù)值變化趨勢(shì)，在整個(gè)實(shí)驗(yàn)過(guò)程中，實(shí)驗(yàn)組曲線始終存在于對(duì)照組上方。從極限值角度來(lái)看，實(shí)驗(yàn)組最大值8.54 MB/mm與對(duì)照組最大值3.62 MB/mm相比，上升了4.92 MB/mm，且實(shí)驗(yàn)組的兩級(jí)差值水平也遠(yuǎn)高于對(duì)照組。

綜上所述，文中實(shí)驗(yàn)的結(jié)論如下：

1）分布式儲(chǔ)存方法在單位時(shí)間內(nèi)所能組織的數(shù)字圖書資源信息量較大，符合增強(qiáng)零散信息組織有效性的實(shí)際應(yīng)用需求，對(duì)提升數(shù)據(jù)信息存儲(chǔ)能力起到一定的促進(jìn)作用。

2）與分布式儲(chǔ)存方法匹配的資源信息處理速率更快，有利于零散信息的有效整合，滿足最大化存儲(chǔ)數(shù)字圖書資源的實(shí)際處理目的。

4 結(jié)束語(yǔ)

與傳統(tǒng)云存儲(chǔ)方式相比，分布式儲(chǔ)存方法在已知元數(shù)據(jù)定義條件的基礎(chǔ)上，根據(jù)非結(jié)構(gòu)化查詢標(biāo)準(zhǔn)，建立完善的數(shù)據(jù)信息編碼原則。再聯(lián)合Hadoop框架，通過(guò)讀取已存儲(chǔ)資源文件的方式，得到分布式瀏覽系數(shù)的具體數(shù)值計(jì)算結(jié)果。從實(shí)用性角度來(lái)看，資源信息組織量增大與資源信息處理速率加快兩類變化的同時(shí)出現(xiàn)，不但可增強(qiáng)網(wǎng)絡(luò)主機(jī)對(duì)于零散數(shù)字圖書資源的組織有效性及整合有效性，而且滿足通過(guò)有效組織無(wú)序與零散資源的方式，維持?jǐn)?shù)字圖書資源存儲(chǔ)環(huán)境系統(tǒng)化的實(shí)際應(yīng)用需求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡