唐良運(yùn),鄒文景,甘 瑩,孫 剛
(南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東廣州 510663)
XML 是一種可擴(kuò)展型標(biāo)記語言,可用于對電子文件進(jìn)行標(biāo)識與記錄。對于電子計(jì)算機(jī)而言,“標(biāo)記語言”特指一種具有標(biāo)識能力的信息符號,能夠?qū)⒊R?guī)傳輸數(shù)據(jù)與標(biāo)記后的數(shù)據(jù)信息區(qū)別開來,一方面能夠大幅縮短獲取信息文件所需的消耗時間;另一方面也可實(shí)現(xiàn)對傳輸數(shù)據(jù)文件的定向化處理[1]。XML 標(biāo)記語言的適應(yīng)性能力強(qiáng),能夠在描述數(shù)據(jù)信息所屬類型的同時,生成完全獨(dú)立的源碼文件,且由于數(shù)據(jù)庫主機(jī)元件的存在,這些文件信息可以直接決定數(shù)據(jù)主體的后續(xù)異構(gòu)與傳輸形式。
分布式異構(gòu)數(shù)據(jù)是具有獨(dú)立編碼形式的信息參量,在計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中,能夠滿足多種不同的傳輸與整合需求[2]。然而對于分布式異構(gòu)數(shù)據(jù)來說,隨著網(wǎng)絡(luò)覆蓋面積的增大,信息原始丟包率水平會出現(xiàn)不斷增大的變化趨勢,這也是異構(gòu)信息同步共享環(huán)境出現(xiàn)明顯動蕩形式的主要原因。傳統(tǒng)FPGA 多通道型系統(tǒng)只能利用AOP 引擎對異構(gòu)信息進(jìn)行捕捉,雖然考慮了數(shù)據(jù)與數(shù)據(jù)之間的同步干擾問題,但卻并不能使分布式數(shù)據(jù)的傳輸丟包率水平低于理想數(shù)值標(biāo)準(zhǔn)[3]。為解決上述問題,引入XML 標(biāo)記語言,設(shè)計(jì)了一種新型分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)。
分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的硬件執(zhí)行環(huán)境由數(shù)據(jù)轉(zhuǎn)化模塊、XML 生成/解析模塊、異構(gòu)模式提取模塊三部分組成,具體搭建方法如下。
分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的數(shù)據(jù)轉(zhuǎn)化模塊設(shè)計(jì)由typeName、TypeInfo、sqlType、JDBC 四個節(jié)點(diǎn)命名環(huán)節(jié)共同組成,具體的節(jié)點(diǎn)屬性能力及命名方式如下:
1)typeName 節(jié)點(diǎn):規(guī)定了分布式異構(gòu)數(shù)據(jù)在同步系統(tǒng)中的命名方式,在互聯(lián)網(wǎng)應(yīng)用環(huán)境中,已連接的typeName 節(jié)點(diǎn)數(shù)量越多,系統(tǒng)主機(jī)在單位時間內(nèi)所具備的異構(gòu)數(shù)據(jù)同步轉(zhuǎn)化能力也就越強(qiáng)[4]。
2)TypeInfo 節(jié)點(diǎn):規(guī)定了分布式異構(gòu)數(shù)據(jù)的實(shí)時存儲方式,在XML 標(biāo)記語言作用下,單一數(shù)據(jù)信息所能達(dá)到的傳輸距離越遠(yuǎn),TypeInfo 節(jié)點(diǎn)與系統(tǒng)主機(jī)之間的聯(lián)系也就越緊密。
3)sqlType 節(jié)點(diǎn):在數(shù)據(jù)轉(zhuǎn)化模塊中,該類型節(jié)點(diǎn)的連接形式會隨著XML 標(biāo)記語言的改變而發(fā)生變化。
4)JDBC 節(jié)點(diǎn):規(guī)定了異構(gòu)數(shù)據(jù)所處的分布式執(zhí)行等級,在數(shù)據(jù)轉(zhuǎn)化模塊中,該類型節(jié)點(diǎn)的連接數(shù)量最多,可同時負(fù)載typeName 節(jié)點(diǎn)、TypeInfo 節(jié)點(diǎn)與sqlType 節(jié)點(diǎn)之間的數(shù)據(jù)信息傳輸關(guān)系。
在分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)中,XML 生成/解析模塊的設(shè)計(jì)完全遵循XML 標(biāo)記語言,可在主機(jī)元件的作用下對傳輸信息的分布共享環(huán)境進(jìn)行控制,從而生成完全獨(dú)立的數(shù)據(jù)解析與查詢語句[5-6]。具體連接形式如圖1 所示。
圖1 XML生成/解析模塊示意圖
互聯(lián)網(wǎng)異構(gòu)信息的傳輸方向,只能由數(shù)據(jù)生成主機(jī)指向外部應(yīng)用處理結(jié)構(gòu),在不違背XML 映射關(guān)系的情況下,分布式體系的連接穩(wěn)定性越強(qiáng),同步系統(tǒng)中數(shù)據(jù)共享服務(wù)的應(yīng)用等級也就越高,反之則越低。
異構(gòu)模式提取模塊作為分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的關(guān)鍵應(yīng)用結(jié)構(gòu),可在XML 標(biāo)記語言的作用下,同步執(zhí)行信息參量的內(nèi)循環(huán)與外循環(huán)指令,并最終將滿足分布式判別需求的信息參量直接存儲于系統(tǒng)數(shù)據(jù)庫主機(jī)中[7],具體連接原理如圖2 所示。
圖2 異構(gòu)模式提取模塊連接原理
在實(shí)際應(yīng)用過程中,由于XML 標(biāo)記語言所處執(zhí)行環(huán)節(jié)不同,異構(gòu)數(shù)據(jù)所表現(xiàn)出來的分類與提取需求也會所有不同,此時運(yùn)行主機(jī)對于分布式節(jié)點(diǎn)的判別標(biāo)準(zhǔn),將成為決定異構(gòu)信息同步共享環(huán)境應(yīng)用穩(wěn)定性水平的唯一條件[8-9]。
在XML 標(biāo)記語言的支持下,按照分布型格式定義、異構(gòu)參數(shù)設(shè)定、同步查詢規(guī)則完善的處理流程,實(shí)現(xiàn)同步系統(tǒng)軟件執(zhí)行環(huán)境的搭建,再結(jié)合相關(guān)硬件應(yīng)用設(shè)備,完成基于XML 的分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)設(shè)計(jì)。
分布型格式定義條件能夠約束異構(gòu)數(shù)據(jù)的同步傳輸能力,在考慮XML 標(biāo)記語言的前提下,可認(rèn)為異構(gòu)數(shù)據(jù)的分布形式越復(fù)雜,系統(tǒng)主機(jī)對于異構(gòu)數(shù)據(jù)信息的實(shí)時存儲能力也就越強(qiáng)[10-11]。在不考慮其他干擾條件的情況下,分布型格式定義條件受到異構(gòu)數(shù)據(jù)賦值、XML 語句單位標(biāo)記量兩項(xiàng)物理指標(biāo)的直接影響。s表示一個隨機(jī)賦值參量,Is表示參量指標(biāo)取值為s時的異構(gòu)數(shù)據(jù)真實(shí)賦值結(jié)果,I0表示異構(gòu)數(shù)據(jù)的初始賦值結(jié)果,在同步系統(tǒng)運(yùn)行環(huán)境中,Is>I0的不等式條件恒成立。ΔR表示XML 語句的單位標(biāo)記量,在數(shù)據(jù)分布等級取值為λ的前提下,ΔR指標(biāo)的數(shù)值始終大于自然數(shù)“1”。聯(lián)立上述物理量,可將異構(gòu)數(shù)據(jù)的分布型格式定義條件表示為:
對于異構(gòu)數(shù)據(jù)而言,分布型格式定義條件具有絕對性的約束能力,在整個同步系統(tǒng)中,其參考價(jià)值與XML 標(biāo)記語言同樣重要。
異構(gòu)參數(shù)描述了數(shù)據(jù)信息文件的實(shí)時表現(xiàn)形式,在分布式環(huán)境中,由于傳輸環(huán)境的復(fù)雜性,常出現(xiàn)兩個或兩個以上信息表達(dá)形式過于類似的情況,此時異構(gòu)參數(shù)成為系統(tǒng)主機(jī)判定數(shù)據(jù)信息所屬格式的唯一指標(biāo)[12-13]。設(shè)表示分布式異構(gòu)數(shù)據(jù)在單位時間內(nèi)的傳輸均值,一般來說,該項(xiàng)物理指標(biāo)的取值具備一定的局限性,在同步系統(tǒng)中,其取值始終屬于[1,e)的物理區(qū)間。β表示既定判別系數(shù),如果以XML 標(biāo)記語言作為參考條件,則可認(rèn)為待處理的異構(gòu)數(shù)據(jù)總量越大,該項(xiàng)系數(shù)指標(biāo)的取值也就越大。在上述物理量的支持下,聯(lián)立式(1),可將同步系統(tǒng)的異構(gòu)參數(shù)表達(dá)式定義為:
式中,ε為基于XML 標(biāo)記語言的異構(gòu)數(shù)據(jù)同步系數(shù),f為待處理數(shù)據(jù)的同步頻率。在已知存儲空間內(nèi),異構(gòu)參數(shù)設(shè)定結(jié)果直接決定了XML 標(biāo)記語言對于分布式信息參量的同步配置與處理能力[14]。
同步查詢規(guī)則是分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的核心配置標(biāo)準(zhǔn),在XML 標(biāo)記語言作用下,該原則的制定必須同時遵循統(tǒng)一性與聯(lián)動性思想[15]。統(tǒng)一性是指任意一個分布式異構(gòu)數(shù)據(jù)的初始傳輸位置節(jié)點(diǎn)與最終傳輸位置節(jié)點(diǎn)必須保持完全一致的配置原則;聯(lián)動性是指任何一個分布式異構(gòu)數(shù)據(jù)都具備直接干擾系統(tǒng)同步共享環(huán)境應(yīng)用穩(wěn)定性的能力[16]。設(shè)c表示一個隨機(jī)選取的異構(gòu)數(shù)據(jù)查詢變量,lc、pc分別表示查詢變量為c時的統(tǒng)一性適配系數(shù)與聯(lián)動性適配系數(shù)。規(guī)定N={m1、m2、…、mn}表示n個不同的分布式信息導(dǎo)入條件,n表示單次可導(dǎo)入的最大數(shù)值量,ξ表示異構(gòu)數(shù)據(jù)相關(guān)系數(shù),在遵循統(tǒng)一性與聯(lián)動性的情況下,聯(lián)立式(2),可將系統(tǒng)主機(jī)所遵循的同步查詢規(guī)則表示為:
至此,完成各項(xiàng)軟、硬件執(zhí)行環(huán)境的搭建,在XML 標(biāo)記語言的作用下,實(shí)現(xiàn)新型分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的設(shè)計(jì)與應(yīng)用。
為了驗(yàn)證所設(shè)計(jì)系統(tǒng)對于分布式數(shù)據(jù)傳輸丟包率的影響,設(shè)計(jì)實(shí)驗(yàn),選取該文系統(tǒng)為實(shí)驗(yàn)組,選取傳統(tǒng)系統(tǒng)為對照組。在實(shí)驗(yàn)開始前,首先按照圖3所示的流程對實(shí)驗(yàn)組、對照組異構(gòu)數(shù)據(jù)進(jìn)行篩選。
圖3 實(shí)驗(yàn)數(shù)據(jù)篩選流程圖
以兩臺配置完全相同的互聯(lián)網(wǎng)主機(jī)作為實(shí)驗(yàn)對象,其中實(shí)驗(yàn)組主機(jī)配置基于XML 的分布式異構(gòu)數(shù)據(jù)同步系統(tǒng),對照組主機(jī)配置基于FPGA 的多通道處理系統(tǒng)。
分布式數(shù)據(jù)的傳輸丟包率水平直接影響實(shí)驗(yàn)主機(jī)對于異構(gòu)信息同步共享環(huán)境穩(wěn)定性的維護(hù)能力,一般情況下,丟包率指標(biāo)的數(shù)值越低,實(shí)驗(yàn)主機(jī)對于異構(gòu)信息同步共享環(huán)境穩(wěn)定性的維護(hù)能力也就越強(qiáng),反之則越弱。
表1 記錄了丟包率指標(biāo)在不同情況下的數(shù)值變化情況,其中,v表示異構(gòu)系數(shù)的賦值結(jié)果。
表1 丟包率指標(biāo)的理想數(shù)值
分析表1 可知,當(dāng)異構(gòu)系數(shù)賦值等于2n時,分布式數(shù)據(jù)傳輸丟包率指標(biāo)的變化趨勢基本呈現(xiàn)先上升、再下降、最后穩(wěn)定的規(guī)律;當(dāng)異構(gòu)系數(shù)賦值為3n時,分布式數(shù)據(jù)傳輸丟包率指標(biāo)則呈現(xiàn)連續(xù)波動的數(shù)值變化狀態(tài)。
圖4 反映了實(shí)驗(yàn)組、對照組丟包率指標(biāo)的具體數(shù)值變化情況。
圖4 丟包率對比曲線(v=2n)
分析圖4 可知,在異構(gòu)系數(shù)賦值等于2n的情況下,當(dāng)異構(gòu)數(shù)據(jù)輸入量達(dá)到40 Mb 之前時,實(shí)驗(yàn)組丟包率水平始終高于理想數(shù)值;而當(dāng)異構(gòu)數(shù)據(jù)輸入量處于40~100 Mb 之間時,實(shí)驗(yàn)組丟包率水平則始終低于理想數(shù)值。在整個實(shí)驗(yàn)過程中,對照組丟包率指標(biāo)始終大于理想數(shù)值與實(shí)驗(yàn)組數(shù)值。
分析圖5 可知,在異構(gòu)系數(shù)賦值等于3n的情況下,實(shí)驗(yàn)組丟包率基本呈現(xiàn)連續(xù)上升的變化狀態(tài),當(dāng)數(shù)據(jù)輸入量等于60 Mb 時,其丟包率數(shù)值與理想數(shù)值完全相等。從平均值角度來看,實(shí)驗(yàn)組丟包率曲線始終位于理想丟包率曲線下端;對照組丟包率則符合先上升、再下降、最后上升的變化規(guī)律,其全局最大值達(dá)到了67.8%,遠(yuǎn)高于理想最大值與實(shí)驗(yàn)組最大值。
圖5 丟包率對比曲線(v=3n)
綜上可知,在XML 標(biāo)記語言的作用下,新型處理系統(tǒng)能夠更好地控制分布式數(shù)據(jù)的傳輸丟包率水平,這不但解決了已知的數(shù)據(jù)信息丟包問題,也符合構(gòu)建穩(wěn)定異構(gòu)信息同步共享環(huán)境的實(shí)際應(yīng)用需求。
與FPGA 多通道型系統(tǒng)相比,新型分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)從XML 標(biāo)記語言的角度入手,聯(lián)合數(shù)據(jù)轉(zhuǎn)化模塊、信息提取模塊等多個硬件應(yīng)用設(shè)備,在定義信息參量所屬分布格式的同時,建立更加完善的同步查詢規(guī)則。分析對比實(shí)驗(yàn)結(jié)果可知,隨著基于XML 分布式異構(gòu)數(shù)據(jù)同步系統(tǒng)的應(yīng)用,數(shù)據(jù)丟包率指標(biāo)的數(shù)值得到了有效控制,能夠較好地維護(hù)穩(wěn)定性異構(gòu)信息的同步共享環(huán)境,具備較強(qiáng)的實(shí)際應(yīng)用價(jià)值。