陳孝文 郭威 林樹(shù)鴻
摘要:本文提出一種基于近似匹配模型的元數(shù)據(jù)檢索方法。引入三層架構(gòu)模式,設(shè)計(jì)元數(shù)據(jù)檢索框架;計(jì)算元數(shù)據(jù)與近似表格關(guān)聯(lián)值,建立兩者映射關(guān)系;劃分元數(shù)據(jù)匹配類型,處理檢索結(jié)果,提供用戶結(jié)果推送。設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證提出方法證明有效的縮短數(shù)據(jù)響應(yīng)時(shí)間,更具市場(chǎng)價(jià)值。
關(guān)鍵詞:近似匹配模型;元數(shù)據(jù);檢索方法;適配
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)03-0098-02
元數(shù)據(jù)又稱中間數(shù)據(jù)或中介數(shù)據(jù),為描述數(shù)據(jù)衍生的一種數(shù)據(jù)形式,主要用于表達(dá)數(shù)據(jù)集合的屬性,提供數(shù)據(jù)集的儲(chǔ)存位置、資源定位、信息檢索、歷史數(shù)據(jù)查詢等功能。在使用中將元數(shù)據(jù)歸屬于電子目錄,為了滿足數(shù)據(jù)的最終傳輸目的,需要在數(shù)據(jù)傳輸過(guò)程中采用元數(shù)據(jù)表達(dá)方式描述數(shù)據(jù)特征[1]。核心數(shù)據(jù)集合是元數(shù)據(jù)在市場(chǎng)中最為廣泛的一種表達(dá)方式,盡管元數(shù)據(jù)在多個(gè)行業(yè)中具備了廣闊的應(yīng)用前景,但目前針對(duì)元數(shù)據(jù)的在線檢索仍延用傳統(tǒng)的數(shù)據(jù)庫(kù)檢索方式,導(dǎo)致大批量數(shù)據(jù)集在檢索過(guò)程中對(duì)于資源對(duì)象檢索的覆蓋率較低。
1 基于近似匹配模型的元數(shù)據(jù)檢索方法
引入三層架構(gòu)模式,結(jié)合近似匹配模型在元數(shù)據(jù)檢索中的應(yīng)用,設(shè)計(jì)元數(shù)據(jù)檢索框架。如圖1所示。
根據(jù)圖1表述信息,將元數(shù)據(jù)檢索按照結(jié)構(gòu)功能分成三層。其一為應(yīng)用層,主要提供用戶實(shí)施元數(shù)據(jù)檢索進(jìn)入端口。其二為服務(wù)層,作為元數(shù)據(jù)檢索的核心,引入多服務(wù)器組織模式,定義用戶訪問(wèn)檢索通道權(quán)限,對(duì)網(wǎng)絡(luò)實(shí)施安全控制,配備身份注冊(cè)端口,此外提供數(shù)據(jù)備份管理功能[2]。其三為數(shù)據(jù)層,包含多個(gè)數(shù)據(jù)庫(kù),用于存儲(chǔ)不同數(shù)據(jù)代理身份信息、多元化元數(shù)據(jù)表達(dá)形式,提供元數(shù)據(jù)管理渠道。
1.1 建立元數(shù)據(jù)與近似表格映射關(guān)系
基于上述搭建的元數(shù)據(jù)檢索框架,結(jié)合近似匹配模型理論依據(jù),根據(jù)數(shù)據(jù)實(shí)際需求,對(duì)指定數(shù)據(jù)實(shí)施標(biāo)準(zhǔn)化描述,建立元數(shù)據(jù)標(biāo)準(zhǔn)樹(shù),分析數(shù)據(jù)集中節(jié)點(diǎn)數(shù)據(jù),并將節(jié)點(diǎn)統(tǒng)一歸類值信息對(duì)象閾值范圍內(nèi),以此即可定義信息對(duì)象與標(biāo)準(zhǔn)數(shù)據(jù)數(shù)的關(guān)系。依照數(shù)據(jù)關(guān)聯(lián)方式,計(jì)算表格數(shù)據(jù)與元數(shù)據(jù)聯(lián)系值。計(jì)算公式如下。
(1)
公式中:表示為元數(shù)據(jù)與近似表格的連接值;表示為數(shù)據(jù)集中數(shù)據(jù)節(jié)點(diǎn)數(shù)量;表示為檢索中數(shù)據(jù)偏轉(zhuǎn)角度;表示為元數(shù)據(jù)特征表達(dá)方式;表示為數(shù)據(jù)集橫向數(shù)據(jù)值;表示為數(shù)據(jù)集縱向數(shù)據(jù)值。根據(jù)上述公式,實(shí)施數(shù)據(jù)一次匹配,記錄有關(guān)節(jié)點(diǎn)數(shù)據(jù),獲取特征數(shù)據(jù)節(jié)點(diǎn)。統(tǒng)一元數(shù)據(jù)格式,剔除無(wú)用點(diǎn)信息,建立兩者有效的映射關(guān)系。
1.2 劃分元數(shù)據(jù)匹配類型
假定應(yīng)用層用戶在實(shí)施元數(shù)據(jù)檢索時(shí)僅提出終端數(shù)據(jù),無(wú)明確數(shù)據(jù)所屬類型,可按照元數(shù)據(jù)劃分標(biāo)準(zhǔn),實(shí)施數(shù)據(jù)集預(yù)處理操作,得到初期數(shù)據(jù)匹配信息,整合數(shù)據(jù)集合中近似值,將與查詢樹(shù)有關(guān)的數(shù)據(jù)集合對(duì)用戶匹配值實(shí)施數(shù)據(jù)預(yù)處理操作,配對(duì)嵌入數(shù)據(jù)值,并以元數(shù)據(jù)描述的方式匹配代價(jià)最小的終端元數(shù)據(jù)。同時(shí),將缺少的類型部分按照閾值所屬模式以資源對(duì)象方式反饋給用戶。剩余數(shù)據(jù)按照Ma數(shù)據(jù)模式實(shí)施匹配數(shù)據(jù)匹配操作,循環(huán)上述操作直至輸出用戶滿意數(shù)據(jù)。
1.3 檢索結(jié)果處理與推送
基于上述輸出的終端數(shù)據(jù),下述將出數(shù)據(jù)評(píng)估方式,整合數(shù)據(jù)中節(jié)點(diǎn)個(gè)數(shù),結(jié)合用戶興趣模型,按照檢索中關(guān)鍵數(shù)據(jù)、數(shù)據(jù)類別等方式評(píng)價(jià)數(shù)據(jù)組。分析元數(shù)據(jù)在數(shù)據(jù)集合中的空間分布特征,并采用多終端服務(wù)器的方式對(duì)數(shù)據(jù)目錄獲取直接檢索數(shù)據(jù),結(jié)合空間數(shù)據(jù)具有的異構(gòu)性特點(diǎn),獲取數(shù)據(jù)中潛在的聯(lián)絡(luò)基礎(chǔ)。此外在使用中,結(jié)合數(shù)據(jù)庫(kù)在其中發(fā)揮的作用,實(shí)時(shí)備份關(guān)鍵數(shù)據(jù),避免由于網(wǎng)絡(luò)異?;蚱渌蛟斐蓴?shù)據(jù)檢索失效,將滿足檢索要求的元數(shù)據(jù)集合按照用戶瀏覽歷史實(shí)現(xiàn)推送,完成基于近似匹配模型的元數(shù)據(jù)檢索方法設(shè)計(jì)。
2 仿真實(shí)驗(yàn)
提出仿真實(shí)驗(yàn),模擬實(shí)驗(yàn)所需環(huán)境,使用JAVA計(jì)算機(jī)語(yǔ)言搭建B/S結(jié)構(gòu)實(shí)驗(yàn)平臺(tái),引入野外實(shí)驗(yàn)調(diào)查組獲取的數(shù)據(jù)集,采用元數(shù)據(jù)對(duì)數(shù)據(jù)集實(shí)施特征描述,并以xml.格式文件存儲(chǔ)至指定數(shù)據(jù)庫(kù)中,遵循元數(shù)據(jù)劃分標(biāo)準(zhǔn),提出下述檢索要求:定義實(shí)驗(yàn)參數(shù),數(shù)據(jù)集數(shù)量規(guī)模為s,元數(shù)據(jù)檢索深度為d,數(shù)據(jù)集合中節(jié)點(diǎn)數(shù)量為n;定義多組不同數(shù)據(jù)量,按照查全率定義數(shù)據(jù)終端輸出結(jié)果。
根據(jù)實(shí)驗(yàn)結(jié)果,可得出如下實(shí)驗(yàn)結(jié)論:隨著S數(shù)據(jù)量的增多,實(shí)驗(yàn)組數(shù)據(jù)響應(yīng)時(shí)間上升相對(duì)平穩(wěn),具有一定檢索規(guī)律,相對(duì)傳統(tǒng)的元數(shù)據(jù)檢索方法,本文設(shè)計(jì)的方法在實(shí)際應(yīng)用中,可有效的縮短數(shù)據(jù)檢索響應(yīng)時(shí)間,進(jìn)而起到提升元數(shù)據(jù)檢索效率的作用。
3 結(jié)語(yǔ)
本文從3個(gè)方面,基于近似匹配模型,開(kāi)展了元數(shù)據(jù)檢索方法的研究。并通過(guò)設(shè)計(jì)仿真實(shí)驗(yàn)的方式驗(yàn)證了本文提出的方法,在實(shí)際應(yīng)用中可有效的縮短數(shù)據(jù)響應(yīng)時(shí)間,起到提升元數(shù)據(jù)檢索效率的作用。盡管本文的研究已經(jīng)取得了初步的成績(jī),但仍缺乏大量數(shù)據(jù)為其提供支撐,以此在后期發(fā)展中,應(yīng)加大該方法在元數(shù)據(jù)檢索中的應(yīng)用,為技術(shù)的應(yīng)用提供真實(shí)的數(shù)據(jù)支撐。
參考文獻(xiàn)
[1] 白雪,李廣利,牛愛(ài)菊.Alma環(huán)境下電子資源元數(shù)據(jù)的管理及對(duì)用戶的影響——以北京師范大學(xué)圖書(shū)館為例[J].新世紀(jì)圖書(shū)館,2019(05):49-52.
[2] 姚蘭,金鈺博,顧佳良.云環(huán)境下基于動(dòng)態(tài)聚類及相似樹(shù)查詢的無(wú)線體域網(wǎng)隱私數(shù)據(jù)檢索算法研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(02):360-366+441.
Abstract:This paper proposes a metadata retrieval method based on approximate matching model. Introduce a three-tier architecture model to design a metadata retrieval framework; calculate metadata and approximate table association values to establish a mapping relationship between them; divide metadata matching types, process retrieval results, and provide user results push Design experiments to verify that the proposed method proves that the data response time can be shortened effectively and has more market value.
Key words:approximate matching model; metadata; retrieval method; adaptation