張 靜
(六安職業(yè)技術(shù)學(xué)院,安徽 六安 237158)
近年來,很多系統(tǒng)選取實體為開發(fā)中心,根據(jù)系統(tǒng)開發(fā)需求,將不同材料植入到系統(tǒng)當(dāng)中。其中,實體可以是電影、圖片,也可以是單位主頁[1]。由于單一的實體很難表達(dá)系統(tǒng)訪問需求,需要建立網(wǎng)絡(luò)關(guān)聯(lián)關(guān)系,同時選取多個實體材料作為系統(tǒng)開發(fā)材料,通過分析實體之間的關(guān)聯(lián)關(guān)系,建立聯(lián)合式實體模型結(jié)構(gòu),并有序地識別實體,這是未來5年重點發(fā)展目標(biāo)[2]。本文將探究面向關(guān)聯(lián)數(shù)據(jù)的聯(lián)合式實體識別方法,并將該方法投入到實踐應(yīng)用中進(jìn)行檢驗。
聯(lián)合式實體識別方法與普通的實體識別方法不同,該方法借助實體數(shù)據(jù)對象之間的關(guān)聯(lián)關(guān)系建立識別模型,以便準(zhǔn)確、高效地識別實體數(shù)據(jù)對象。該研究以圖的迭代處理方式為例,來探究聯(lián)合式實體識別方法。
為了掌握實體數(shù)據(jù)對象之間的關(guān)系,簡化實體識別工作內(nèi)容,該文對數(shù)據(jù)對象之間存在的關(guān)聯(lián)關(guān)系進(jìn)行分析,從中挖掘?qū)ο筇攸c信息[3]。
關(guān)于數(shù)據(jù)對象關(guān)系的定義:利用有向圖來解析數(shù)據(jù)對象關(guān)系,假設(shè)有向圖為G(O,L),其中L包含于O×O,用于描述語義鏈接,將這些鏈接組合到一起,形成的集合就是實體數(shù)據(jù)關(guān)聯(lián)關(guān)系分析依據(jù),O代表對象集合。存在此類映射函數(shù)Ψ:L→Γ對象類映射函數(shù)ζ,O→N則對于任意一個對象p均存在關(guān)系:ζ(p)∈N。其中,p∈O。關(guān)于對象語義的描述,均有Ψ(w)∈Γ存在,其中,w∈L,Γ代表所有連接類型的集合,O代表所有對象類型的集合。
通常情況下,利用模式圖來表達(dá)各個實體數(shù)據(jù)對象之間的關(guān)系[4]。例如,作者、文章、會議之間的關(guān)系,用帶有箭頭的直線來連接各個對象,利用語義關(guān)系建立模型方,形成如圖1所示的模型。
圖1 對象關(guān)系模型圖
圖1中,利用雙向箭頭來描述兩個對象之間的關(guān)系,分別是“會議與文章”“作者與文章”,通過創(chuàng)建集合,分析映射關(guān)系,從而獲取數(shù)據(jù)對象關(guān)系。
關(guān)于實體數(shù)據(jù)對象關(guān)系分析的方法有很多,其中應(yīng)用比較多的是GBi-JER[5]。該方法是對圖像采取迭代處理后,經(jīng)過數(shù)據(jù)收斂統(tǒng)計,建立聯(lián)合式識別體系。如圖2所示為GBi-JER工作流程。
圖2 GBi-JER工作流程
圖2中,將數(shù)據(jù)對象集錄入到系統(tǒng)中,經(jīng)過初始化處理后,將其轉(zhuǎn)入候選池中,組成候選隊列,記為Q。與此同時,初始化后的數(shù)據(jù)對象還被發(fā)送到數(shù)據(jù)對象關(guān)系圖集合中,按照相關(guān)步驟執(zhí)行,分別得到聯(lián)合式匹配、合并處理對象關(guān)系,并為相似度傳遞提供可靠依據(jù)。進(jìn)入候選隊列中的數(shù)據(jù)對象,需要經(jīng)過空集判斷,才能夠達(dá)到匹配環(huán)節(jié),如果集合非空,則利用SBS和ABS進(jìn)行聯(lián)合式匹配,依據(jù)數(shù)據(jù)關(guān)系,合并對象,得到局部收縮圖,采取相似度傳遞處理,得到候選隊列[6]。按照這個工作流程循環(huán)處理圖像,直至隊列Q為空為止。
初始化處理作為工作流程的第一步,需要構(gòu)建多個小型對象圖,按照類別不同,將其劃分為多個子對象圖,采取局部收縮或者合并處理方式,將原始圖像融合為一體,通過增加數(shù)據(jù)對象密度,達(dá)到豐富語義的目的[7]。研究選取Canopy分塊技術(shù)作為處理工具,在對象進(jìn)入候選隊列時,將其拆分為多個對象模塊,按照結(jié)點不同,排列候選優(yōu)先順序,使得實體數(shù)據(jù)識別更加有序化。
假設(shè)存在Oi,Oj∈Ot,定義對象的相似度函數(shù),該函數(shù)由多個類別數(shù)據(jù)對象組成,記為simhyb,以下為該函數(shù)計算公式:
simhyb(Oi,Oj)=(1-λ)×simabs(Oi,Oj)
+×simsbs(Oi,Oj)
(1)
公式(1)中,Oi,Oj屬性相似度為simabs;Oi,Oj結(jié)構(gòu)層面判定的相似度為simsbs;λ代表不同相似度對應(yīng)的權(quán)值分配系數(shù),以相似度重要性作為劃分依據(jù),設(shè)定具體數(shù)值。兩種算法中,simabs為基礎(chǔ)算法,可以分析屬性層面的相似度問題,simsbs建立在simabs基礎(chǔ)上,通過分析數(shù)據(jù)對象結(jié)構(gòu),計算其相似度。simhyb是將這兩種算法融合為一體,形成聯(lián)合匹配函數(shù),記為GBi-JER。
GBi-JER函數(shù)的應(yīng)用,首先計算Oi,Oj兩個數(shù)據(jù)對象的相似度;其次,將計算結(jié)果與匹配閾值進(jìn)行對比,判斷兩者之間的大小關(guān)系,如果前者大于后者,則認(rèn)為GBi-JER函數(shù)存在相似度,反之,認(rèn)為該函數(shù)不存在相似度。其中,匹配閾值由專家給出。
假設(shè)兩個對象為Oo,Ow∈Omr沿著某語義路徑分析兩個對象之間存在的關(guān)聯(lián)度,從中挖掘相似度數(shù)據(jù)對象。其中,語義路徑記為sp(Oo,Ow),對應(yīng)的關(guān)聯(lián)度計算公式為:
con(sp(Oo,Ow))=prht(sp(Oo,Ow))
×con(sch(Oo,Ow))
(2)
公式(2)中,con(sch(Oo,Ow))代表語義路徑的關(guān)聯(lián)度,可以將其理解為當(dāng)前路徑對整個語義的重要性。prht(sp(Oo,Ow))代表語義路徑中的隨機游走概率。
經(jīng)過關(guān)聯(lián)度分析已經(jīng)剔除了無關(guān)語義路徑,縮小了相似性判斷范圍。接下來,定義語義路徑對應(yīng)的相似度,計算公式如下:
(3)
公式(3)中,len代表路徑長度,研究取值上限值為8,從而避免路徑過長,加大相似度計算工作量。在計算語義路徑相似度時,采用組合處理方式匹配對象,經(jīng)過語義路徑判斷,分析是否存在相似性,最終得到兩對象是否匹配判斷結(jié)論。
該文以屬性代表值合并作為實體識別處理方法,將對象合并,而后分別為各個屬性設(shè)定數(shù)值,要求此數(shù)值具有一定代表性,能夠涵蓋相關(guān)信息。該處理方法不同于簡單的合并方法,它可以同時處理多個數(shù)據(jù)沖突,經(jīng)過多趟比較,剔除沖突數(shù)據(jù),從而縮小實體識別范圍,使得到的結(jié)果更加精準(zhǔn)。在實際應(yīng)用中,可以先合并第一趟實體數(shù)據(jù),經(jīng)過一系列比較后,得到比較結(jié)果,以此節(jié)省存儲開銷,而后按照此方法,對比第二趟、第三趟實體數(shù)據(jù),將得到的對比結(jié)果集中到一起,解決數(shù)據(jù)沖突問題,從而得到準(zhǔn)確的計算結(jié)果。
為了提高實體識別效率,需要去除冗余部分,隨機保留其中具有代表性的一條實體數(shù)據(jù)鏈路即可。定義兩個對象Oi,Oj∈Ot,假設(shè)這兩個對象數(shù)值基本相等,將兩者合并起來,設(shè)定結(jié)點〈Oi,Oj〉。將該結(jié)點與兩個對象Oi,Oj對應(yīng)的語義鏈接建立關(guān)聯(lián)關(guān)系,從中剔除冗余語義鏈接,使得實體識別范圍得以縮小。
在經(jīng)過局部圖收縮處理后的實體中,選取相似度較高的實體信息進(jìn)行傳遞,使得相似實體得以快速匹配。在候選隊列中,新的候選實體插入位置決定了下一步識別工作開展順序,建立新的對象集。為了提高識別效率,該算法中以相似度估計結(jié)果作為傳遞順序排列依據(jù),而后利用優(yōu)先級打分函數(shù),確定相似度傳遞體系。
定義4個對象Oi,Oj∈Ox,Og,Oh∈Oy,假設(shè)前兩個對象相似,列入候選隊列,并生成匹配對,界定參數(shù)x和參數(shù)y的取值范圍在[1,T]之間,則對象Og,Oh的優(yōu)先級打分函數(shù)如下:
score(Og,Oh)=(1-η)×simcancpy-abs(Og,Oh)+η×con(schp(sp(Oi,Og)))
(4)
公式(4)中,參數(shù)Og,Oh均代表對象匹配情況判斷的相似度;η代表對象權(quán)值分配系數(shù),而語義路徑中傳遞對象的關(guān)聯(lián)度用con(schp(sp(Oi,Og)))表示。
利用上述打分函數(shù),確定實體信息傳遞優(yōu)先等級,將其插入到指定位置,以此簡化聯(lián)合式實體識別結(jié)構(gòu),將復(fù)雜的實體識別問題轉(zhuǎn)化為結(jié)構(gòu)簡單問題,對數(shù)據(jù)檢驗等工作開展幫助較大。
該研究根據(jù)實體識別方法應(yīng)用需求,搭建應(yīng)用實驗測試環(huán)境。其中,操作系為Windows7,內(nèi)存8GB,主頻3.4GHz,處理器i7-2600。在測試該識別方案可靠性之前,準(zhǔn)備Giteseer數(shù)據(jù)集,將GBi-JER設(shè)定為實驗組,傳統(tǒng)識別方法GJ-3設(shè)定為對照組,通過對比兩組測試結(jié)果,判斷GBi-JER實體識別方法是否在相似度識別速率和對象插入完成時間兩個方面有所改進(jìn)。
關(guān)于相似度識別速率的改進(jìn)測試,是將兩種實體識別方法均投入到Giteseer識別中,觀察F-均達(dá)到最大值耗用的時間。如果耗用時間越短,則認(rèn)為該方法識別速率更高一些。如圖3所示為識別速率結(jié)果。
圖3 識別速率結(jié)果
觀察圖3中的識別速率結(jié)果可知,GBi-JER實體識別方法F-均在35.8s左右達(dá)到最大值,而GJ-3識別方法在120s還未出現(xiàn)F-均最大值。
另外,該次應(yīng)用測試還添加了對象插入完成時間測試項目,測試結(jié)果如表1所示。
表1 對象插入完成時間統(tǒng)計結(jié)果(單位:s)
表1中統(tǒng)計結(jié)果顯示,GBi-JER識別方法在對象插入完成時間方面表現(xiàn)出較大優(yōu)勢,達(dá)到了實體識別改進(jìn)策略研究要求。
為了減少實體識別計算量,該文提出對象相似性分析,依據(jù)實體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,展開對象之間的相似性判斷分析,并收縮局部圖,經(jīng)過相似度傳遞,確定聯(lián)合式實體最佳識別體系。應(yīng)用測試結(jié)果顯示,該文提出的GBi-JER方法識別速率較高,對象插入完成耗費的時間更少,可以作為實體識別的有效工具。