胡茂美
(合肥濱湖職業(yè)技術(shù)學(xué)院 機(jī)電與汽車工程學(xué)院,安徽 合肥 230601)
數(shù)據(jù)庫技術(shù)的迅速發(fā)展,導(dǎo)致各行各業(yè)積攢過多的數(shù)據(jù)量,信息存儲(chǔ)在企業(yè)發(fā)展過程中具有重要意義.數(shù)據(jù)庫的主要應(yīng)用范圍是決策與分析,為這兩個(gè)應(yīng)用提供優(yōu)越的工作平臺(tái)[1],數(shù)據(jù)庫內(nèi)數(shù)據(jù)存儲(chǔ)形式均是多維的.提升在數(shù)據(jù)庫內(nèi)搜索有價(jià)值信息的效率,可幫助企業(yè)快速了解其自身情況[2].OLAP技術(shù)為用戶提供了一種決策支持的有效方法[3],該技術(shù)可提升用戶查詢數(shù)據(jù)速度,方便用戶使用,操作簡(jiǎn)單.多維數(shù)據(jù)集屬于OLAP數(shù)據(jù)查詢的核心,通過Data Cube多維分析實(shí)現(xiàn)OLAP查詢.在Data Cube內(nèi)包含數(shù)據(jù)的全部細(xì)節(jié)信息,也包含不同粒度中的聚集值.聚集記錄會(huì)浪費(fèi)存儲(chǔ)空間,延長(zhǎng)計(jì)算時(shí)間[4],降低OLAP分析效率,因此提升多維數(shù)據(jù)存儲(chǔ)效率是目前數(shù)據(jù)庫的主要研究方向.趙亞楠等人針對(duì)小文件存儲(chǔ)問題,提出大數(shù)據(jù)分布式存儲(chǔ)方法,提升存儲(chǔ)效率[5];陳波等人針對(duì)大量數(shù)據(jù)管理方式存在的缺陷,提出GeoSOT剖分網(wǎng)格的數(shù)據(jù)存儲(chǔ)方法,集中存儲(chǔ)大量數(shù)據(jù),提升存儲(chǔ)效率[6].這兩種方法的缺點(diǎn)是未考慮多維數(shù)據(jù)存儲(chǔ)空間較大問題,嚴(yán)重浪費(fèi)存儲(chǔ)空間.March算法為存儲(chǔ)器中常用的功能測(cè)試與地址解碼等測(cè)試向量,具備較優(yōu)的故障與存儲(chǔ)時(shí)間測(cè)量性能[7].為此研究基于March算法的網(wǎng)絡(luò)多維數(shù)據(jù)優(yōu)化存儲(chǔ)方法,節(jié)約存儲(chǔ)空間,提升存儲(chǔ)效率.
網(wǎng)絡(luò)多維數(shù)據(jù)的組織方式共有兩種,分別是維數(shù)據(jù)與度量數(shù)據(jù)組織,前者通過多維數(shù)據(jù)結(jié)構(gòu)與存儲(chǔ)維的結(jié)構(gòu)信息完成數(shù)據(jù)組織[8],后者通過加快聚集查詢效率完成數(shù)據(jù)組織.
1.1.1 存儲(chǔ)組織多維數(shù)據(jù)
組織維數(shù)據(jù)的步驟如下:
步驟1:存儲(chǔ)組織數(shù)據(jù)特征提??;
步驟2:映射特征點(diǎn)數(shù)據(jù),使其變成多維數(shù)據(jù)組的坐標(biāo)值.
維層次的偏序存在一定關(guān)系,該關(guān)系的表達(dá)形式是格,通過這些格構(gòu)建一個(gè)無環(huán)圖,該圖具備方向性,這就說明能夠由鄰接表描繪并組織維的層次結(jié)構(gòu)及成員間的關(guān)系[9].建立一個(gè)在全部層次以上的層次all,以all為起始點(diǎn),建立一棵樹,all代表其根節(jié)點(diǎn),all的孩子節(jié)點(diǎn)為其下層的全部成員.組織維成員可完成多維數(shù)據(jù)處理技術(shù)的Roll up與Drill down操作[10].然后,需對(duì)其實(shí)施編碼,具體步驟如下:
步驟1:整數(shù)編碼,在網(wǎng)絡(luò)多維數(shù)據(jù)組內(nèi),各維中的坐標(biāo)均是整數(shù),因此需將維護(hù)成員變更為整數(shù).令多維數(shù)據(jù)集Gα的一個(gè)層次h中的成員是p1,…,pn,整數(shù)編碼的步驟為:
a.建立映射函數(shù)f;
b.針對(duì)h中的成員p1的f是f(p1)=0;
c.如果pα,1≤α≤n與pβ,1≤β≤n屬于鄰近,且pα≤pβ,那么f(pβ)=f(pα)+1.
令多維數(shù)據(jù)空間是(G1,G2,…,Gn,F1,F2,…,Fp),每個(gè)維的尺寸一致,由Gα表示,利用上述操作完成整數(shù)編碼,編碼后的多維數(shù)組是(g1,g2,…,gn,f1,f2,…,fp),那么多維數(shù)據(jù)位置是pos=(…((g1*G2+g2)*G3+…+gn-2)*Gn-1+gn-1)*Gn+gn.
1.1.2 存儲(chǔ)組織度量數(shù)據(jù)
令(G1,G2,…,Gn,F1,F2,…,Fp),多維數(shù)據(jù)集Gα組建的數(shù)組是G1×G2×…×Gn,順序存儲(chǔ)過程中,依據(jù)G1,G2,…,Gn順序排列度量元素的位置[12].
March算法屬于常用的存儲(chǔ)器測(cè)試方法,即對(duì)存儲(chǔ)器內(nèi)的存儲(chǔ)方法展開測(cè)試,優(yōu)化網(wǎng)絡(luò)多維數(shù)據(jù)存儲(chǔ)方法.該算法存在高故障覆蓋率與低時(shí)間復(fù)雜度的優(yōu)勢(shì).測(cè)試步驟如下:
步驟1:在全部存儲(chǔ)器內(nèi)寫入所有是零的背景;
步驟2:讀取首個(gè)存儲(chǔ)單元,其正確讀取結(jié)果是0;
步驟3:將一個(gè)1錄入首個(gè)存儲(chǔ)單元,隨后讀取該單元,正確讀取結(jié)果是1;
步驟4:同理,剩余存儲(chǔ)單元執(zhí)行步驟2與3,以全部存儲(chǔ)單元完成操作為止[13];
步驟5:所有單元的內(nèi)容都是1,代表全部單元的背景均是1;
步驟6:讀取首個(gè)存儲(chǔ)單元[14],正確讀取結(jié)果是1;
步驟7:將一個(gè)0錄入首個(gè)存儲(chǔ)單元,隨后讀取該單元,正確讀取結(jié)果是0;
步驟8:同理,剩余存儲(chǔ)單元執(zhí)行步驟6與7,以全部存儲(chǔ)單元完成操作為止.
步驟6能夠執(zhí)行反操作,代表能夠以最后一個(gè)單元為起始點(diǎn),按照順序執(zhí)行讀取操作[15],結(jié)束條件是首個(gè)單元完成操作,以公式的形式表達(dá)如下:
(1)
其中,第i行第j列的存儲(chǔ)單元是Bij;讀取Bij的操作是RBij;將1錄入Bij內(nèi)的操作是W(1)Bij;將0錄入內(nèi)的操作是W(0)Bij;所有Bij的集合是?ij;集合?ij中的總和是∑;公式中全部操作過程中的分隔符是“,”;背景0與1是下標(biāo)0與1.
利用公式(1)能夠計(jì)算獲取存儲(chǔ)方法的復(fù)雜度是2(1+1)N+N=5N,N代表單元數(shù)量.測(cè)試的操作次數(shù)由5N描繪,5N乘上完成各操作的時(shí)間就是總測(cè)試時(shí)間.5N的大小與測(cè)試時(shí)間成正比.
通過增加March算法的測(cè)試向量,加強(qiáng)其測(cè)試效率與故障覆蓋率,增加后的數(shù)據(jù)叫作數(shù)據(jù)背景(Data Back-ground).在March算法內(nèi)讀取與錄入數(shù)據(jù)是1與0的情況下,便需將正向與逆向的數(shù)據(jù)背景用于相應(yīng)的存儲(chǔ)方法中.
首先構(gòu)建一個(gè)P2P網(wǎng)絡(luò),在該網(wǎng)絡(luò)內(nèi)各塑造一個(gè)Web服務(wù)器與Tracker Server服務(wù)器,剩余節(jié)點(diǎn)是OLAP網(wǎng)絡(luò)節(jié)點(diǎn),在該網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)建立一個(gè)虛擬的多維數(shù)據(jù)庫,該數(shù)據(jù)庫內(nèi)共包含50 000個(gè)文件夾,利用方法對(duì)該數(shù)據(jù)庫內(nèi)的多維數(shù)據(jù)實(shí)施優(yōu)化存儲(chǔ),驗(yàn)證本文方法的有效性.
選取大數(shù)據(jù)分布式存儲(chǔ)方法[5],GeoSOT剖分網(wǎng)格數(shù)據(jù)存儲(chǔ)方法[6]作為本文的對(duì)比方法,測(cè)試本文方法在優(yōu)化前后存儲(chǔ)不同文件夾數(shù)量時(shí)的各項(xiàng)性能,共實(shí)施5次實(shí)驗(yàn),記錄每次實(shí)驗(yàn)的優(yōu)化前后的數(shù)據(jù)存儲(chǔ)時(shí)間,取5次記錄時(shí)間的均值,測(cè)試結(jié)果如表1所示.
表1 3種方法的各項(xiàng)性能對(duì)比結(jié)果
根據(jù)表1可知,在存儲(chǔ)不同文件夾數(shù)量時(shí),本文方法的系統(tǒng)響應(yīng)時(shí)間在文件夾數(shù)量較少時(shí)優(yōu)勢(shì)不明顯,當(dāng)文件夾數(shù)量超過20000時(shí),本文方法的系統(tǒng)響應(yīng)時(shí)間顯著低于其余兩種方法;其余兩種方法在存儲(chǔ)多維數(shù)據(jù)時(shí)所占內(nèi)存較大,本文方法存儲(chǔ)多維數(shù)據(jù)時(shí)的占用內(nèi)存較小,原因是本文方法中包含壓縮存儲(chǔ)過程,有效減小內(nèi)存占用空間;在文件夾數(shù)量較少時(shí),其余兩種方法存儲(chǔ)多維數(shù)據(jù)時(shí)的導(dǎo)入與導(dǎo)出響應(yīng)時(shí)間較短,與本文方法的多維數(shù)據(jù)導(dǎo)入與導(dǎo)出響應(yīng)時(shí)間差距不大,當(dāng)文件夾數(shù)量較多時(shí),其余兩種方法的多維數(shù)據(jù)導(dǎo)入與導(dǎo)出響應(yīng)時(shí)間明顯增長(zhǎng),響應(yīng)速度顯著下降,本文方法的多維數(shù)據(jù)導(dǎo)入與導(dǎo)出響應(yīng)時(shí)間無明顯變化,僅有小幅度增長(zhǎng)現(xiàn)象,響應(yīng)速度較快.實(shí)驗(yàn)證明:在存儲(chǔ)不同文件夾數(shù)量時(shí),本文方法的響應(yīng)速度較快即存儲(chǔ)效率高,內(nèi)存占用空間最小,具備較優(yōu)的數(shù)據(jù)存儲(chǔ)性能.
測(cè)試3種方法分別存儲(chǔ)文件夾數(shù)量為5 000與50 000個(gè)時(shí)的數(shù)據(jù)存儲(chǔ)信噪比,測(cè)試在不同壓縮比時(shí)3種方法在數(shù)據(jù)存儲(chǔ)過程中的信噪比,測(cè)試結(jié)果如圖1與圖2所示.
根據(jù)圖1與圖2可知,文件夾數(shù)量為5 000時(shí),壓縮比逐漸提升,本文方法在存儲(chǔ)多維數(shù)據(jù)時(shí)的信噪比無明顯變化,平均信噪比為94.5 dB;其余兩種方法的信噪比前期下降幅度較小,當(dāng)壓縮比超過50后,其信噪比下降幅度均較大,平均信噪比分別為67.9 dB與69.9 dB;文件數(shù)量為50 000時(shí),壓縮比逐漸提升,本文方法在存儲(chǔ)多維數(shù)據(jù)時(shí)的信噪比出現(xiàn)小幅度下降趨勢(shì),平均信噪比為85.3 dB;其余兩種方法的信噪比下降幅度較大,當(dāng)壓縮比為80時(shí),兩種方法均出現(xiàn)數(shù)據(jù)存儲(chǔ)失真情況,平均信噪比為38.1 dB與39.3 dB.
壓縮比圖1 文件夾數(shù)量為5 000時(shí)的信噪比
壓縮比圖2 文件夾數(shù)量為50 000時(shí)的信噪比
實(shí)驗(yàn)證明:文件夾數(shù)量較大時(shí),本文方法在存儲(chǔ)多維數(shù)據(jù)過程中的信噪比有所降低,但依舊高于其余兩種方法,在不同壓縮比時(shí),本文方法在數(shù)據(jù)存儲(chǔ)過程中的信噪比最高.
文件夾數(shù)量為50 000時(shí),3種方法的各項(xiàng)性能差距最為明顯,因此測(cè)試3種方法在存儲(chǔ)文件夾數(shù)量為50 000時(shí)且不同稀疏度情況下的數(shù)據(jù)存儲(chǔ)信噪比,數(shù)據(jù)稀疏度越高,所需存儲(chǔ)的字?jǐn)?shù)越少,在不同稀疏度時(shí)的數(shù)據(jù)存儲(chǔ)過程中的信噪比測(cè)試結(jié)果如圖3所示.
稀疏度圖3 不同稀疏度時(shí)的信噪比測(cè)試結(jié)果
根據(jù)圖3可知,隨著稀疏度的不斷提升,3種方法數(shù)據(jù)存儲(chǔ)過程中的信噪比均有所增長(zhǎng),其余兩種方法的信噪比增長(zhǎng)幅度較小,當(dāng)稀疏度達(dá)到10時(shí),大數(shù)據(jù)分布式存儲(chǔ)方法的信噪比不再發(fā)生改變,穩(wěn)定在25 dB左右;當(dāng)稀疏度達(dá)到12時(shí),GeoSOT剖分網(wǎng)格數(shù)據(jù)存儲(chǔ)方法的信噪比不再發(fā)生改變,穩(wěn)定在30 dB左右;本文方法的信噪比在前期增長(zhǎng)速度較為緩慢,當(dāng)稀疏度超過8時(shí),信噪比增長(zhǎng)速度較快.實(shí)驗(yàn)證明:在不同稀疏度時(shí),本文方法的多維數(shù)據(jù)存儲(chǔ)性能最優(yōu).
數(shù)據(jù)庫在各大領(lǐng)域的廣泛應(yīng)用,導(dǎo)致各領(lǐng)域的網(wǎng)絡(luò)多維數(shù)據(jù)累積量顯著增長(zhǎng),造成傳統(tǒng)的多維數(shù)據(jù)存儲(chǔ)方法不足以滿足用戶對(duì)數(shù)據(jù)庫的高要求.因此提出基于March算法的網(wǎng)絡(luò)多維數(shù)據(jù)優(yōu)化存儲(chǔ)方法,提升數(shù)據(jù)優(yōu)化存儲(chǔ)性能,更好地符合MOLAP快速性的要求.