張晏 李繼云
摘 要:大數(shù)據(jù)時代下,數(shù)據(jù)呈爆炸式的增長態(tài)勢,而這些數(shù)據(jù)結(jié)構(gòu)本身有一定的差異,這為數(shù)據(jù)解析帶來較大難題。根據(jù)既往研究資料中提及,考慮引入基于屬性權(quán)重的實體解析技術(shù),以此使數(shù)據(jù)解析與處理效率提升。文章對實體解析技術(shù)做簡單介紹,分析屬性權(quán)重基本模型,在此基礎(chǔ)上提出屬性權(quán)重下實體解析的方法。
關(guān)鍵詞:屬性權(quán)重;實體解析技術(shù);大數(shù)據(jù)
數(shù)據(jù)海量的生成與處理為大多企業(yè)帶來較多難題,特別因?qū)嶓w表達形式不同,可能使錯誤信息產(chǎn)生,這就使實體解析面臨極多問題。盡管以往實體解析法應(yīng)用下能夠處理多數(shù)據(jù)源記錄,且在發(fā)展中逐漸將數(shù)據(jù)預(yù)處理、比較函數(shù)選取以及特征向量選取等,但操作中仍可能將部分關(guān)鍵屬性忽視,降低解析結(jié)果準確性。在此背景下,考慮將屬性權(quán)重引入,保證實體解析的效率與準確度。因此,本文對屬性權(quán)重下實體解析技術(shù)的研究,具有十分重要的意義。
1 實體解析技術(shù)相關(guān)解讀
關(guān)于實體解析,覆蓋較多領(lǐng)域,如數(shù)據(jù)庫領(lǐng)域、機器學(xué)習(xí)領(lǐng)域、人工智能領(lǐng)域、信息檢索領(lǐng)域與統(tǒng)計學(xué)領(lǐng)域,各領(lǐng)域均強調(diào)利用實體解析技術(shù)做數(shù)據(jù)源的處理。如單一結(jié)構(gòu)數(shù)據(jù)集,引入實體解析技術(shù)一般做相似度計算,計算方法選擇距離函數(shù)模型,如編輯距離,計算中對記錄相似度分析,同時明確實體之間關(guān)系,可借助語義信息進行記錄。再如結(jié)構(gòu)不同數(shù)據(jù),實體解析技術(shù)應(yīng)強調(diào)匹配計算異構(gòu)數(shù)據(jù)集,在明確數(shù)據(jù)集合的情況下,做匹配計算。需注意的是,因數(shù)據(jù)結(jié)構(gòu)不同,所以引入實體解析方法中可能面臨如何確定屬性權(quán)重。從既往研究資料中可發(fā)現(xiàn),一般認為所有屬性均可呈現(xiàn)為匹配屬性,其意味各數(shù)據(jù)記錄均有相應(yīng)的屬性,所以在處理記錄匹配上能夠取得較高的效率。但這種處理方式應(yīng)用下,直接導(dǎo)致部分關(guān)鍵屬性被忽視。有研究中也指出在屬性權(quán)重分配中,直接由專家指定屬性,雖然滿足匹配屬性要求,但若專家來自不同領(lǐng)域,在數(shù)據(jù)集觀點上有一定差異,所以最終指定的屬性難以保證一致。針對這些問題,需考慮如何在實體解析技術(shù)上優(yōu)化[1]。
2 屬性權(quán)重模型構(gòu)建
2.1 屬性權(quán)重模型基本定義
屬性權(quán)重模型是實體解析技術(shù)優(yōu)化的基礎(chǔ)。本次研究中從多個定義對屬性權(quán)重模型進行分析,具體定義內(nèi)容包括:(1)匹配屬性,基于相似度的屬性匹配,例如部分研究中提及記錄中相似度的屬性均作為匹配屬性。(2)最佳分類屬性,主要指按相關(guān)的原則由匹配屬性集合內(nèi)挑選分類屬性,以信息增益方法為例,可計算各屬性信息增益值,這樣便可獲取權(quán)重,在此基礎(chǔ)上做最佳分類屬性的確定。(3)信息增益值,通過數(shù)據(jù)挖掘方法獲取信息增益,若得到的屬性信息增益值較大,意味屬性涵蓋的信息量較多,記錄中內(nèi)部分特征也會被呈現(xiàn)出來。(4)基本相似度,與匹配屬性概念不同,該定義下的相似度獲取通過基本相似度函數(shù)實現(xiàn),如編輯距離相似度函數(shù),通過做單個屬性計算,獲取相似度。(5)最終相似度,需以基本相似度為基礎(chǔ),取屬性權(quán)重加入,做復(fù)合運算便能獲取最終結(jié)果[2]。
2.2 屬性權(quán)重方法選擇
屬性權(quán)重方法常見的有相似度衡量、專家制定方法。以相似度衡量方法為例,強調(diào)使匹配記錄保持一定的相似度,特別部分Web數(shù)據(jù)源較多情況下,實體識別中便需明確匹配記錄,取相似度最小值,這種方式對于確定屬性權(quán)重準確度較高,但整個操作過程中涉及較大的計算量,重復(fù)匹配,同時在匹配結(jié)束后,不會對屬性賦予權(quán)重。另外一種方法即專家制定法,應(yīng)用中要求有相關(guān)領(lǐng)域的專家對屬性權(quán)重進行確定,結(jié)合自身知識經(jīng)驗對各屬性分配相應(yīng)比重,最后選擇其中權(quán)重較高的屬性計算,獲取相似度結(jié)果。盡管這種方法運用下相對簡單,但因不同領(lǐng)域?qū)<以跀?shù)據(jù)集認知上有一定差異,所以所得出的結(jié)果準確性難以保證。針對上述兩種方法應(yīng)用下存在的問題,本次研究中考慮引入其他兩種方式,包括信息增益、概率統(tǒng)計,旨在使權(quán)重分配準確率提高。其中信息增益法亦被稱之為IG法,實現(xiàn)的原理在于利用依托于數(shù)據(jù)挖掘,確定信息增益值后,若結(jié)果較大,意味屬性影響作用明顯,所以在最佳分類屬性集合中應(yīng)選擇信息增益值較高的屬性。而引入概率統(tǒng)計方法,強調(diào)借助數(shù)據(jù)工具將數(shù)據(jù)集合中的規(guī)律挖掘,如在訓(xùn)練數(shù)據(jù)集合利用下,檢驗與計算各屬性字段,假定各屬性字段均以單獨匹配屬性形式呈現(xiàn),此時對屬性準確度對比,可獲取權(quán)重結(jié)果。
3 屬性權(quán)重下實體解析具體方法
3.1 合理分配權(quán)重屬性
考慮到屬性權(quán)重分配中,因忽略元組屬性加權(quán)重,將降低匹配準確度,出現(xiàn)數(shù)據(jù)信息遺漏情況。所以,本次研究中強調(diào)依托于概率統(tǒng)計知識、信息增益方法,滿足賦予權(quán)重屬性要求。而具體分配屬性權(quán)重中,有相關(guān)的要求,包括:(1)數(shù)據(jù)集預(yù)處理。處理中應(yīng)保證數(shù)據(jù)集格式的規(guī)范,然后通過概率統(tǒng)計或信息增益,確定可以代表所有數(shù)據(jù)記錄的集合,稱其為最佳分類屬性集合。(2)權(quán)重計算。在信息增益方法運用下,可將信息增加量計算出來,然后由數(shù)據(jù)集內(nèi)選擇屬性,對各屬性信息增益值計算,在此基礎(chǔ)上完成權(quán)重分配計算過程。
3.2 合理選擇最佳分類屬性
屬性權(quán)重的獲取借助概率統(tǒng)計、信息增益變可實現(xiàn),而在最佳分類屬性確定中,則需引入其他相關(guān)的方法。本次研究中選擇兩種確定分類屬性的方法,其一為在抽取的所有屬性中,均被當作匹配屬性,各屬性有相應(yīng)的權(quán)重,此時選擇其中權(quán)重較大的作為關(guān)鍵屬性,使實體解析準確度提高。另外一種方法則細化為閾值與top-k方法,其中閡值方法運用下要求做信息增益閾值α的確定,與α相比屬性信息增益值較大情況下,說明這一屬性能夠充當分類屬性,反之則將該屬性忽略。對于top-k方法,實現(xiàn)的原理在于通過權(quán)重排序,將排在前列的屬性納入屬性集合中。通過上述兩種屬性集合確定方法,有助于實體解析召回率的提高以及關(guān)鍵屬性的凸顯,實體解析準確度因此得到保證。
3.3 計算相似度
相似度計算中,主要采用編輯距離方法實現(xiàn)。所謂編輯距離方法,指為取兩個字符串,將其中一個向另外一個轉(zhuǎn)換中需要的編輯次數(shù),若編輯距離較大,意味兩個字符串有較大差異,反之則相近。通過編輯距離相似度函數(shù)做基本相似度計算,在此基礎(chǔ)上與對應(yīng)屬性權(quán)重相乘,便會獲取相似度結(jié)果[3]。
3.4 引ABlocking技術(shù)優(yōu)化
關(guān)于Blocking技術(shù),主要指根據(jù)使用記錄已知信息,判斷記錄是否相似,若相似可劃入_組,該過程可稱為Block。從該方法應(yīng)用優(yōu)勢看,主要體現(xiàn)在利用快速識別技術(shù),做記錄匹配,由實體解析系統(tǒng)分析兩條記錄是否能夠匹配,假若可在同一聚類中放入可匹配記錄,說明兩條記錄匹配成功,而系統(tǒng)若判定兩條記錄無法匹配,最后的聚類內(nèi)則無法放入匹配記錄。因此,實體解析中,為使實體解析效率提高,考慮將Blocking技術(shù)引入其中,技術(shù)運用下在保證解析準確度的同時,將搜索空間縮小,實體或記錄比較此時也因此較少,這對于實體解析效率的提高有積極作用[4]。
為驗證以上方法應(yīng)用下所得到的結(jié)果,本次研究中設(shè)定一定的實驗環(huán)境,評價解析結(jié)果情況。其中在實驗環(huán)境方面,取Microsoft Windows7為操作系統(tǒng),選擇Intel core 2Quad 2.67 GHz CPU為硬件環(huán)境,C++編譯環(huán)境。同時,選擇10 000條記錄數(shù)據(jù)集,各記錄被賦予10個屬性,解析后以F-measure綜合評價方法衡量評價,如圖1所示,為最終評價結(jié)果。其中IG-W,PS-W,No -W分別表示信息增益方法、概率統(tǒng)計方法、無權(quán)重計算方法。由圖中可發(fā)現(xiàn),相比無權(quán)重計算方法,利用信息增益方法、概率統(tǒng)計方法取得的實體解析結(jié)果優(yōu)勢明顯。
4 結(jié)語
實體解析是當前數(shù)據(jù)處理中的技術(shù)支撐。實際開展實體解析過程中,考慮做好屬性權(quán)重確定工作,該過程需引入概率統(tǒng)計與信息增益方法,使個屬性權(quán)重明確,與以往專家制定分配權(quán)重方法更能保證結(jié)果準確性,且對比相似度衡量無需過多的計算量,因此,未來在實體解析研究中應(yīng)將這些屬性權(quán)重方法作為主要研究實踐方向。
[參考文獻]
[1]宮云寶,甘亮,黃九嗚.基于概率軟邏輯模型的實體解析[J]計算機工程,2017(8):188-192,199.
[2]陳遠,康虹,張靜雅.基于IFC標準的BIM模型編程語言解析方法研究[J]土木建筑工程信息技術(shù),2017 (3):85-89.
[3]高勁松,周習(xí)曼,梁艷琪面向關(guān)聯(lián)數(shù)據(jù)的實體鏈接發(fā)現(xiàn)方法研究[J]中國圖書館學(xué)報,2016 (6):85-101.
[4]李文鵬,王建彬,林澤琦,等面向開源軟件項目的軟件知識圖譜構(gòu)建方法[J].計算機科學(xué)與探索,2017 (6):851-862.