徐耀麗 李戰(zhàn)懷 陳 群 王艷艷 樊峰峰
(西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 西安 710072) (大數(shù)據(jù)存儲與管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(西北工業(yè)大學(xué)) 西安 710129)
大數(shù)據(jù)時(shí)代,信息化進(jìn)程的迅猛發(fā)展促使各行各業(yè)都累積了大量的數(shù)據(jù).但真實(shí)的數(shù)據(jù)存在各種各樣的數(shù)據(jù)質(zhì)量問題如數(shù)據(jù)不完整、不一致、和不滿足實(shí)體同一性等,使得直接基于這些臟數(shù)據(jù)的分析和預(yù)測不能滿足應(yīng)用場景的需求.為此,大量的研究工作針對這些問題提出一系列清洗算法.其中,針對數(shù)據(jù)無法滿足實(shí)體同一性現(xiàn)象,學(xué)術(shù)界和工業(yè)界研究了實(shí)體解析問題[1-3].實(shí)體解析也稱實(shí)體匹配,是通過識別出所有描述真實(shí)世界同一個(gè)實(shí)體的記錄對,來保證數(shù)據(jù)的實(shí)體同一性.它是數(shù)據(jù)集成或清洗系統(tǒng)的一個(gè)首要問題.
自實(shí)體解析問題第1次[4]被提出后,有大量實(shí)體解析方法被提出.部分實(shí)體解析方法[3,5-6]假設(shè)訓(xùn)練數(shù)據(jù)事先給定.文獻(xiàn)[5-6]首先從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)實(shí)體匹配規(guī)則,然后用這些規(guī)則來解析記錄對是否匹配.文獻(xiàn)[3]首先使用embedding技術(shù)如fastText[7]將每個(gè)屬性的單詞序列轉(zhuǎn)換為相同維度的向量序列;然后訓(xùn)練雙向序列模型Bi_RNN[8](bidirectional recurrent neural network)和序列比對模型來生成屬性摘要向量;接著用比較函數(shù)構(gòu)建出記錄對的一系列特征;最后使用分類模型如多層感知器模型,訓(xùn)練一個(gè)二分類模型,進(jìn)而進(jìn)行實(shí)體解析.然而,現(xiàn)實(shí)場景中,面臨一個(gè)新的實(shí)體解析任務(wù)時(shí),事先標(biāo)記好的數(shù)據(jù)集并不一定總是可用,而且某些領(lǐng)域數(shù)據(jù)需要由經(jīng)驗(yàn)豐富的專家來標(biāo)記.考慮到依賴專家來標(biāo)記數(shù)據(jù)集會帶來高昂的成本,本文所提的方法無需標(biāo)注數(shù)據(jù),因而具有更廣泛的應(yīng)用場景.
一些學(xué)者[2,9]從數(shù)據(jù)統(tǒng)計(jì)角度分析匹配特征,提出了無監(jiān)督的實(shí)體解析方法.如文獻(xiàn)[2]使用離群距離來估算記錄對的匹配可能性;文獻(xiàn)[9]使用機(jī)器學(xué)習(xí)的聚類算法,把具有類似特征的記錄劃分到匹配或不匹配組中.由于各種實(shí)體解析技術(shù)有特定的假設(shè),以及解析任務(wù)的復(fù)雜性,對同一個(gè)實(shí)體解析任務(wù)處理的結(jié)果,存在大量的不一致記錄對.例如在文獻(xiàn)數(shù)據(jù)集Cora上,使用11種方法(如Rule,Distance,Cluster等)得到的解析結(jié)果中,一致匹配對的數(shù)目僅有1 013;而不一致記錄對的數(shù)目則高達(dá)44 909.所謂一致匹配對是指所有的方法一致認(rèn)為該記錄對是匹配的;而不一致記錄對是指部分方法(如Rule)認(rèn)為該記錄對是匹配的,而其余方法(如Distance)認(rèn)為不匹配.本文的工作側(cè)重于解決這些不一致的記錄對.
對不一致記錄對進(jìn)行消歧處理面臨很大挑戰(zhàn).一方面,在沒有標(biāo)簽數(shù)據(jù)情況下,直接選出所有方法中最好的是不現(xiàn)實(shí)的.另一方面,假設(shè)能夠選出綜合表現(xiàn)最好的方法,某些記錄對(如已選中的方法無法有效處理,而其他方法可以處理的匹配記錄對)的信息就不能夠得到充分利用.鑒于此,我們利用因子圖把各類匹配特征統(tǒng)一且有效地利用起來,并提出了基于因子圖的不一致記錄對消歧方法.
與記錄對是否匹配相關(guān)的信息大致可分為3類:1)記錄對自身匹配特征.例如使用字符串相似度,度量記錄對屬性值的相似程度.2)匹配傳遞特征.例如一個(gè)記錄對(r1,r2)匹配后,對其他記錄對(r1,r3)是否匹配的影響.3)外部匹配特征.例如個(gè)體方法的解析結(jié)果.為便于陳述,本文把現(xiàn)存的實(shí)體解析方法稱為個(gè)體方法.概率圖模型[10]的因子圖能夠利用因子函數(shù)靈活地為變量之間的關(guān)系建模.它首先把記錄對pi,j是否匹配視為待推斷變量m(pi,j),而把與m(pi,j)相關(guān)的其他匹配特征看成是已知變量,m(pi,j)為二元變量.當(dāng)m(pi,j)=1時(shí),表示ri和rj是匹配的;當(dāng)m(pi,j)=0時(shí),ri和rj是不匹配的.接著,使用核密度估計(jì)和圖的連通性來擬合出已知變量和未知變量之間的關(guān)系,并形式化為因子圖的因子函數(shù).這樣,我們就能把不一致記錄對消歧問題,建模為一個(gè)隨機(jī)變量概率推斷問題,其中因子圖中因子的權(quán)重使用最大似然估計(jì)來推算.
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 首次提出了一個(gè)基于因子圖的不一致記錄對消歧框架FG-RIP.該框架不依賴標(biāo)記數(shù)據(jù),能通過因子圖匯總各種異構(gòu)匹配特征,如記錄對自身匹配特征、匹配傳遞特征和現(xiàn)存實(shí)體解析技術(shù)的外部匹配特征,來估算不一致記錄對的匹配可能性.
2) 設(shè)計(jì)并實(shí)現(xiàn)了基于最大似然估計(jì)的因子權(quán)重學(xué)習(xí)算法.該算法可以自動組合匹配特征的權(quán)重,并輸出最優(yōu)的匹配特征權(quán)重組合.
3) 在真實(shí)的數(shù)據(jù)集上,大量的實(shí)驗(yàn)結(jié)果表明該算法能明顯提升個(gè)體方法的解析效果.
實(shí)體解析(entity resolution, ER)就是給定記錄集合D,識別出所有表示真實(shí)世界同一實(shí)體的記錄對p=(ri,rj),i≠j,其中,ri∈D且rj∈D.如表1所示,文獻(xiàn)數(shù)據(jù)集Cora包括記錄的唯一標(biāo)識rID、論文的作者信息author、標(biāo)題title和頁碼信息pages.實(shí)體解析就是找出所有表示同一個(gè)實(shí)體的記錄對如p2,3.給定一個(gè)實(shí)體解析方法M,它的輸入是候選記錄對的特征,輸出是所有預(yù)測為匹配的記錄對,記為P(M).為了與消歧算法相互區(qū)分,本文把現(xiàn)存的實(shí)體解析方法稱為個(gè)體方法.假定一系列個(gè)體方法的輸出結(jié)果如表2所示,pID是記錄對的唯一標(biāo)識符,Mk列為第k個(gè)方法的預(yù)測結(jié)果,其中1≤k≤10,P(positive)(或N(negative))代表記錄對的預(yù)測狀態(tài)為匹配(或不匹配);GT(ground truth)列是記錄對的真實(shí)狀態(tài).不一致記錄對pinc是只被部分個(gè)體方法預(yù)測為匹配的記錄對,如p2,3.一致記錄對pc是被個(gè)體方法統(tǒng)一預(yù)測為匹配的或者不匹配的記錄對.pc包括一致匹配對pcp如p4,5,和一致不匹配對pcn如p7,8.
Table 1 Dataset表1 數(shù)據(jù)集
Table 2 Output of Individual Methods表2 個(gè)體方法的解析結(jié)果
Notes:Mk(k=1,2,…,10) represents the predicted label by thek-th method, GT represents the ground truth label of each record pair,N represents the predicated label of a pair is matching, P represents the predicated label of a pair is non-matching.
所謂不一致記錄對的消歧問題,就是給定一系列個(gè)體方法和一致記錄對集合Pc,推斷Pinc中不一致記錄對是否匹配.例如表2中不一致記錄對的消歧問題就是已知個(gè)體方法的解析結(jié)果M1,M2,…,M10和一致記錄對集合Pc={p4,5,p4,6,p5,6,p7,8},推斷Pinc={p1,2,p1,3,p2,3,p2,5,p3,6}中不一致記錄對的匹配狀態(tài).
本節(jié)首先概述基于因子圖的不一致記錄對消歧框架FG-RIP,接著詳細(xì)介紹它的2個(gè)關(guān)鍵模塊:基于因子圖的異構(gòu)信息融合(heterogeneous informa-tion fusion based on factor graph)和基于最大似然估計(jì)的因子權(quán)重學(xué)習(xí)(learning factor weights based on maximum likelihood estimation).
FG-RIP的處理流程如圖1所示:
Fig. 1 A workflow for reconciling inconsistent pairs圖1 不一致記錄對消歧流程圖
1) 利用現(xiàn)存的個(gè)體方法(individual methods)解析數(shù)據(jù)集D,并得到Pc和Pinc.
2) 構(gòu)建自身匹配特征(self-matching feature,縮寫為S),即計(jì)算記錄對的屬性值相似度和使用核密度估計(jì)來量化不一致記錄對的匹配可能性;利用圖的連通性構(gòu)建一致匹配記錄對和不一致記錄對之間的匹配傳遞特征(transitive matching feature,縮寫為T);利用個(gè)體方法的解析結(jié)果構(gòu)建外部匹配特征(external matching feature,縮寫為E),進(jìn)而構(gòu)建與不一致記錄對相關(guān)的因子圖.
3) 用最大似然估計(jì)方法計(jì)算因子圖中因子的權(quán)重.最后使用這些權(quán)重估計(jì)不一致記錄對的邊緣概率密度,并判斷不一致記錄對是否匹配.
在概率圖模型中,因子圖G=(V,E)類似于二部圖,其中V(vertices)是頂點(diǎn)集合,E(edges)是頂點(diǎn)之間邊的集合.它的頂點(diǎn)集合包括2類節(jié)點(diǎn):因子節(jié)點(diǎn)f和變量節(jié)點(diǎn)v.邊只存在于因子節(jié)點(diǎn)和變量節(jié)點(diǎn)之間,而因子節(jié)點(diǎn)(或變量節(jié)點(diǎn))之間沒有邊.因子節(jié)點(diǎn)定義了與它相連的變量節(jié)點(diǎn)的聯(lián)合概率分布.與二部圖的不同點(diǎn)是因子圖的因子節(jié)點(diǎn)定義了一個(gè)概率分布,而二部圖沒有概率分布的含義.
本文利用因子圖把與記錄對是否匹配相關(guān)的異構(gòu)信息綜合起來,以便量化記錄對匹配的概率和不匹配的概率.與不一致記錄對是否匹配相關(guān)的異構(gòu)特征有3類:記錄對的自身匹配特征、匹配傳遞特征和外部匹配特征.因子圖模型首先把不一致記錄對是否匹配,以及與不一致記錄對是否匹配的相關(guān)特征看成是隨機(jī)變量,然后構(gòu)建這些隨機(jī)變量的聯(lián)合概率分布.它的處理過程是:1)把不一致記錄對(如pi,j)是否匹配m(pi,j)看成是一個(gè)二元隨機(jī)變量,把與m(pi,j)相關(guān)的3類特征看成是隨機(jī)變量集合V,這些隨機(jī)變量構(gòu)成因子圖的變量節(jié)點(diǎn)或因子節(jié)點(diǎn);2)使用指數(shù)函數(shù)exp(·)來構(gòu)建V中變量與m(pi,j)之間的函數(shù)關(guān)系,并作為因子節(jié)點(diǎn)的因子函數(shù);3)借鑒最大似然估計(jì)的思想計(jì)算出各個(gè)因子的權(quán)重;4)計(jì)算pi,j匹配的概率p(m(pi,j)=1|V)和pi,j不匹配的概率p(m(pi,j)=0|V).如果p(m(pi,j)=1|V)大于p(m(pi,j)=0|V),那么pi,j匹配,反之不匹配.為減少不必要的計(jì)算,本文所指的概率分布都是未經(jīng)歸一化的概率分布,因?yàn)閷τ谀巢灰恢掠涗泴inc而言,pinc的匹配狀態(tài)只取決于匹配概率和不匹配概率的相對大小.對未歸一化的pinc匹配概率和不匹配概率而言,它們的歸一化因子是相同的,使用未歸一化的概率值不影響匹配狀態(tài)的預(yù)測結(jié)果.
2.1.1 自身匹配特征
記錄對的自身匹配特征,主要考慮:1)不一致記錄對pinc中相應(yīng)屬性值之間的相似度sim(pinc,nattr);2)使用核密度估計(jì)擬合出屬性值的相似度sim(pinc,nattr)與記錄對是否匹配m(pinc)之間的概率分布.nattr(attribute name)是屬性名,sim(·)可以是任意相似度度量.本文使用Jaccard相似系數(shù)來度量2個(gè)屬性值的相似度.
我們把屬性值相似度建模為因子節(jié)點(diǎn).該類因子節(jié)點(diǎn)的因子函數(shù)fS,是m(pinc)與sim(pinc,nattr)之間的分布律,具體數(shù)學(xué)描述為
(1)
其中,S(self-matching)代表基于相似度的自身匹配特征;nattr是屬性名;sim(pinc,nattr)是pinc的nattr屬性值相似度;exp(·)是指數(shù)函數(shù);m(pinc)是一個(gè)布爾變量,如果m(pinc)=1,那么pinc匹配,否則m(pinc)=0,pinc不匹配.例如表2中p2,3的title屬性,有sim(p2,3,title)=1,那么p2,3的因子圖包含一個(gè)因子節(jié)點(diǎn),且該因子節(jié)點(diǎn)的因子函數(shù)定義為
(2)
核密度估計(jì)(kernel density estimation, KDE)是一種無參數(shù)的密度估計(jì)技術(shù),它能夠依據(jù)樣本擬合出屬性值相似度和記錄對是否匹配之間的概率密度函數(shù).對每個(gè)屬性nattr,我們使用了所有的一致匹配對集合Pcp和一致不匹配對集合Pcn的子集(也就是在nattr上與Pinc相似的)作為核密度估計(jì)的輸入樣本.對于任意pinc和nattr,依據(jù)擬合出的密度函數(shù)和屬性值相似度sim(pinc,nattr),我們就可以計(jì)算pinc匹配不匹配的概率值.匹配的概率值越高,表明pinc匹配的可能性越大.
本文使用scikit-learn提供的核密度估計(jì)算法KernelDensity[11].它的核心思想是以給定的一系列樣本值作為觀察值集合,以一個(gè)非線性函數(shù)作為核函數(shù),對于某待判斷的樣本xq,它的概率密度值由觀察值集合X的樣本與xq的差值決定,具體計(jì)算為
(3)
其中,N是樣本的數(shù)目;n(·)是一個(gè)歸一化函數(shù),保證p(xq)∈[0,1].h是一個(gè)平滑因子,用來權(quán)衡偏差和方差.h越大,密度函數(shù)p(xq)具有高的偏差,也越光滑;反之,h越小,p(x)具有高的方差,即越不光滑.為了避免核密度估計(jì)遇到不連續(xù)性問題,本文采用平滑的高斯函數(shù)作為核函數(shù):
(4)
類似屬性值相似度特征,我們把由KDE擬合的記錄匹配特征看成是另一種自身匹配特征.這類因子節(jié)點(diǎn)的因子函數(shù)fSKDE定義為
(5)
p(v)=p(sim(pinc,nattr)).
(6)
式(6)是把sim(pinc,nattr)作為式(3)的輸入得到的,SKDE(self-matching KDE)代表基于核密度估計(jì)的自身匹配特征.
Fig. 2 Relationships among matched pairs and unpredicted pairs圖2 匹配的記錄對與待預(yù)測的記錄對之間的關(guān)系
2.1.2 匹配傳遞特征
假設(shè)把每個(gè)記錄看成是無向圖的頂點(diǎn),如果某個(gè)記錄對被預(yù)測為匹配,那么相關(guān)的記錄之間存在1條實(shí)線邊,如圖2(a)中r1和r2所示.對于待判斷記錄對如p2,5,該記錄對的相關(guān)記錄之間存在1條虛線邊,表示待預(yù)測狀態(tài).在消歧過程中,處于待預(yù)測狀態(tài)的記錄對pi,j可分為2種情況:
情況1.ri和rj分別屬于不同的連通圖,記為c=1,如圖2(a)的r2和r5,c表示記錄對所屬情況.
情況2.ri和rj屬于同一個(gè)連通圖,記為c=2,如圖2(b)的r3和r6.
情況1如圖2(a)所示.假設(shè)已知記錄對p1,2,p1,3,p2,3,p4,5,p4,6,p5,6處于匹配狀態(tài),那么記錄對p2,5是否匹配的信息可以從r2和r5各自所在的連通圖中得到.由實(shí)體解析的定義可知,處于匹配狀態(tài)的記錄對p2,3,表明r2和r3是現(xiàn)實(shí)世界中同一個(gè)實(shí)體erec的2個(gè)不同描述.對某個(gè)屬性nattr來說,r2[nattr]和r3[nattr]是erec[nattr]的近似描述.當(dāng)判斷r2和r5是否匹配時(shí),可以用sim(r3[nattr],r5[nattr])作為匹配傳遞特征.傳遞特征的因子函數(shù)定義與自身匹配特征的因子函數(shù)定義類似.
情況2如圖2(b)所示.由于p2,5處于匹配狀態(tài),待預(yù)測記錄對p3,6的r3和r6處于同一個(gè)連通圖.我們在因子圖中添加傳遞變量節(jié)點(diǎn)vT和傳遞因子節(jié)點(diǎn)fT.fT的因子函數(shù)為
(7)
其中,m(p3,6)是待預(yù)測的變量節(jié)點(diǎn),且m(p3,6)=1表示p3,6匹配,而m(p3,6)=0表示p3,6不匹配.為便于陳述,本文把與匹配傳遞特征相關(guān)的節(jié)點(diǎn)稱為傳遞變量節(jié)點(diǎn)或傳遞因子節(jié)點(diǎn),并用T(transitive)表示匹配傳遞特征.
綜上所述,對于匹配傳遞特征,我們按照算法1構(gòu)建與pinc相關(guān)的傳遞變量節(jié)點(diǎn)和傳遞因子節(jié)點(diǎn).
算法1.匹配傳遞特征的因子節(jié)點(diǎn)和變量節(jié)點(diǎn)的構(gòu)建.
輸入:不一致記錄對pinc和一致匹配對集合Pcp;
輸出:pinc的變量節(jié)點(diǎn)、傳遞變量節(jié)點(diǎn)集VT和傳遞因子節(jié)點(diǎn)集FT.
① 根據(jù)Pcp構(gòu)建無向圖.
② 對于待預(yù)測狀態(tài)的記錄對pinc,利用圖的連通性,判斷pinc是屬于情況1還是情況2.
③ 若pinc屬于情況1,首先構(gòu)建一個(gè)待預(yù)測變量節(jié)點(diǎn)m(pinc),并為它的每個(gè)屬性nattr構(gòu)建一個(gè)傳遞變量節(jié)點(diǎn)vT∈VT和一個(gè)傳遞因子節(jié)點(diǎn)fT∈FT.考慮到某些待預(yù)測狀態(tài)的記錄對,會產(chǎn)生較多的匹配傳遞特征.例如在圖2(a)中,p2,5的nattr屬性的匹配傳遞特征包括sim(r3[nattr],r5[nattr]),sim(r1[nattr],r5[nattr]),sim(r2[nattr],r4[nattr]),sim(r2[nattr],r6[nattr]).鑒于此,對于每個(gè)屬性nattr,本文只選擇這些匹配特征中sim(·)最小的,記為ms(pinc,nattr),作為pinc在nattr上傳遞變量節(jié)點(diǎn)vT的變量值.fT的因子函數(shù)定義為
(8)
④ 若pinc屬于情況2,首先構(gòu)建變量節(jié)點(diǎn)m(pinc),并為它的每個(gè)屬性構(gòu)建一個(gè)傳遞變量節(jié)點(diǎn)vT∈VT和一個(gè)傳遞因子節(jié)點(diǎn)fT∈FT,其中fT的因子函數(shù)定義為
(9)
2.1.3 外部匹配特征
與傳統(tǒng)的實(shí)體解析方法不同,本文的消歧方法是對傳統(tǒng)實(shí)體解析方法的結(jié)果中不一致記錄對進(jìn)行預(yù)測.這些不一致記錄對具有個(gè)體方法的投票信息.本文把這些投票信息歸類為外部匹配特征,并用E(external)表示外部匹配特征.pinc的外部匹配特征包括:1)pinc獲得的投票比例;2)個(gè)體方法關(guān)于pinc的投票信息.
依據(jù)pinc獲得的投票比例,可構(gòu)建與源自投票比例的外部匹配特征相關(guān)的因子節(jié)點(diǎn)和變量節(jié)點(diǎn).假設(shè)使用k(k>1)個(gè)不同的個(gè)體方法,且有Npinc個(gè)方法預(yù)測pinc為匹配的,那么在因子圖中添加因子節(jié)點(diǎn)fE、變量節(jié)點(diǎn)vE和待預(yù)測變量節(jié)點(diǎn)m(pinc).其中vE=Npinck,fE(m(pinc),vE)是fE的因子函數(shù),其數(shù)學(xué)形式為
fE(m(pinc),Npinck)=
(10)
(11)
對于某不一致記錄對pinc,假設(shè)已經(jīng)得到與它相關(guān)的所有因子函數(shù)如f1,f2,…,fl,其中l(wèi)是因子節(jié)點(diǎn)的數(shù)目,那么pinc是否匹配的變量m(pinc)與所有相關(guān)的變量V={v1,v2,…,vl}之間的聯(lián)合概率密度可定義為
p(m(pinc),v1,v2,…,vl;w1,w2,…,wl)= exp(w1)×f1×exp(w2)×f2×…× exp(wl)×fl,
(12)
其中wi是因子fi的權(quán)重.
最大似然估計(jì)是一種估計(jì)總體分布中未知參數(shù)的方法,它的核心思想是概率最大的事件最有可能出現(xiàn).由于因子節(jié)點(diǎn)的權(quán)重是未知的,為了估計(jì)這些權(quán)重,我們采用最大似然估計(jì)的思想,極大化觀察數(shù)據(jù),也就是最大化變量V關(guān)于參數(shù)W的對數(shù)似然函數(shù):
(13)
其中V={v1,v2,…,vl}是除了m(pinc)以外的所有變量集合;W={w1,w2,…,wl}是所有權(quán)重的集合;n是待消歧的不一致記錄對的數(shù)目|Pinc|.
我們使用scipy提供的信任區(qū)域約束算法(trust region constrained algorithm)[12]求解有約束的最優(yōu)化問題.
本節(jié)概述了實(shí)驗(yàn)的運(yùn)行環(huán)境,并在真實(shí)數(shù)據(jù)集Cora和Song上驗(yàn)證算法的有效性.所有實(shí)驗(yàn)的運(yùn)行環(huán)境配置為 Intel?CoreTMi7-4710MQ 2.50 GHz處理器、16 GB內(nèi)存和Ubuntu 16.04 64位的操作系統(tǒng).編程語言是Python 3.服務(wù)器端數(shù)據(jù)庫是MongoDB.
本文采用實(shí)體解析文獻(xiàn)[5,13-14]廣泛使用的查準(zhǔn)率、查全率和F1來評價(jià)算法的有效性.由于個(gè)體方法是從候選記錄對開始處理,所以,在與個(gè)體方法的對比中,使用的是全部候選記錄對的查全率、查準(zhǔn)率和F1,而其他實(shí)驗(yàn)使用不一致記錄對集合的查全率、查準(zhǔn)率和F1.所謂查準(zhǔn)率是指預(yù)測為匹配且真正匹配的記錄對數(shù)目,與預(yù)測為匹配的記錄對數(shù)目的比值,記為Ppre.查全率是指預(yù)測為匹配且真正匹配的記錄對數(shù)目,與所有真正匹配的記錄對數(shù)目的比值,記為Rrec.F1是查準(zhǔn)率和查全率的調(diào)和平均值,具體定義為
(14)
本文在Cora和Song數(shù)據(jù)集上測試提出的方法.下面我們從數(shù)據(jù)集特點(diǎn)和記錄對方面介紹這2個(gè)數(shù)據(jù)集.
數(shù)據(jù)集Cora[15]是一個(gè)文獻(xiàn)數(shù)據(jù).它包含1 295個(gè)記錄,而這些記錄隸屬于112個(gè)實(shí)體的某一個(gè).每個(gè)記錄由12個(gè)屬性描述如文獻(xiàn)的作者列表和標(biāo)題等.我們將這些記錄對兩兩比較,得到的候選記錄對數(shù)目為837 865.本文處理的對象是不一致記錄對.對Cora數(shù)據(jù)而言,不一致記錄對的數(shù)目為44 909,一致匹配對的數(shù)目是1 013,而一致不匹配對的數(shù)目是791 943.
數(shù)據(jù)集Song[16]是一個(gè)歌曲數(shù)據(jù).它包含100 000個(gè)記錄,每個(gè)記錄由7個(gè)屬性描述,例如歌曲的專輯名和發(fā)布時(shí)間等.我們抽取了其中的20 744個(gè)記錄進(jìn)行實(shí)驗(yàn).這些記錄對經(jīng)過blocking技術(shù)過濾后,得到的候選記錄對的數(shù)目是260 181,其中不一致記錄對的數(shù)目為115 258,一致匹配對的數(shù)目為651,一致不匹配對的數(shù)目為144 272.
本文采用的個(gè)體方法總共有11個(gè),包括:1)5個(gè)無監(jiān)督的解析方法,分別是基于RR規(guī)則[6]的方法Rule、基于離群距離的方法Distance[2]、基于k-means的Cluster[9]、基于高斯混合模型的GMM[10]、基于狄利克雷過程的變分貝葉斯高斯混合模型DPBGM[17];2)6個(gè)基于學(xué)習(xí)的解析方法,分別是基于支持向量機(jī)的SVM[18]、基于決策樹模型的CART[19]、基于隨機(jī)森林的ERT[20]、基于高斯樸素貝葉斯模型的GNB[11]、基于多層感知器的MLP[8]和基于深度學(xué)習(xí)技術(shù)的Hybrid[3].
各個(gè)無監(jiān)督方法的解析過程逐一概述為:Rule方法是使用事先給定的匹配規(guī)則來判斷記錄對是否匹配,其規(guī)則形式與文獻(xiàn)[6]提出的RR規(guī)則相同.Distance方法[2]首先計(jì)算離群距離,然后依據(jù)離群距離和匹配約束來判斷記錄對是否匹配.Cluster方法是使用開源的機(jī)器學(xué)習(xí)庫scikit-learn來復(fù)現(xiàn)文獻(xiàn)[9]中提到的k-means聚類解析方法.GMM和DPBGM方法是把實(shí)體解析問題等價(jià)于將候選記錄對劃分為匹配組和不匹配組的聚類問題.GMM即高斯混合模型[10],假設(shè)匹配記錄對和不匹配記錄對分別服從2個(gè)參數(shù)未知的高斯分布,而觀測數(shù)據(jù)來自這2個(gè)高斯分布的混合模型.GMM通過EM算法[18]學(xué)習(xí)該模型的未知參數(shù),進(jìn)而使用訓(xùn)練好的模型將記錄對劃分為匹配組和不匹配組.DPBGM是高斯混合模型的一種變體,即高斯混合的變分貝葉斯估計(jì)模型.DPBGM與GMM的不同點(diǎn)是,DPBGM使用變分推斷估計(jì)模型的參數(shù).
基于學(xué)習(xí)的解析方法SVM,CART,ERT,GNB,MLP是機(jī)器學(xué)習(xí)領(lǐng)域的分類模型.這些模型的主要思想是構(gòu)建樣本特征,訓(xùn)練二分類模型,并預(yù)測記錄對是否匹配,其中樣本的特征是記錄對的相應(yīng)屬性值的相似度構(gòu)成的向量.這些模型的不同點(diǎn)在于模型構(gòu)建原理.本實(shí)驗(yàn)的SVM是非線性支持向量機(jī),其模型構(gòu)建原理是在特征空間中搜索一個(gè)超平面,用來把記錄對集合劃分為匹配組和不匹配組.CART的模型構(gòu)建原理是使用特征和閾值構(gòu)建二叉樹,其中每個(gè)樹節(jié)點(diǎn)都具有最大的信息收益.ERT的模型構(gòu)建原理是首先使用訓(xùn)練集的子樣本構(gòu)建一系列隨機(jī)決策樹,然后使用這些決策樹的解析結(jié)果均值來進(jìn)行最終的判斷.GNB算法與樸素貝葉斯算法的相同點(diǎn)是基于貝葉斯定理和類條件獨(dú)立性假設(shè);兩者的不同點(diǎn)是GNB假設(shè)在給定類標(biāo)簽后,每個(gè)特征服從高斯分布.MLP模型是一個(gè)二分類的前饋神經(jīng)網(wǎng)絡(luò),本實(shí)驗(yàn)中MLP的輸入層是記錄對的屬性相似度特征,輸出層是記錄對的匹配狀態(tài).隱藏層包括2層:第1層的神經(jīng)元數(shù)目是5;第2層的神經(jīng)元數(shù)目是2.它的損失函數(shù)是交叉熵?fù)p失函數(shù),優(yōu)化算法是擬牛頓方法L-BFGS.本實(shí)驗(yàn)調(diào)用scikit-learn庫中這些算法的API實(shí)現(xiàn)接口[11].本實(shí)驗(yàn)的Hybrid算法,首先使用預(yù)訓(xùn)練的embedding模型把每個(gè)屬性的單詞序列轉(zhuǎn)換為固定維度的向量序列;然后訓(xùn)練并融合雙向序列模型Bi_RNN和序列比對模型來構(gòu)建屬性摘要向量;接著用比較函數(shù)計(jì)算記錄對的屬性相似度描述向量;最后多層感知器以訓(xùn)練集的屬性相似度描述向量為輸入,訓(xùn)練出二分類模型進(jìn)行實(shí)體解析.所有監(jiān)督或無監(jiān)督的現(xiàn)存實(shí)體解析方法,都可以作為消歧框架的個(gè)體方法,但必須有至少2個(gè)不依賴標(biāo)簽數(shù)據(jù),且有差異的個(gè)體方法.這樣基于學(xué)習(xí)的解析方法就可以用有差異的無監(jiān)督方法的輸出結(jié)果中的一致的部分作為訓(xùn)練集.有差異的無監(jiān)督個(gè)體方法越多,訓(xùn)練集的純度越高.所謂訓(xùn)練集的純度是指訓(xùn)練集中標(biāo)簽正確的記錄對所占的比例.
消歧方法GL-RF[21]是針對Clean-Clean ER場景[22]下消歧算法.本文將該算法的匹配約束去掉,修改為可以處理Dirty-Dirty ER場景下的消歧算法,并進(jìn)行了對比實(shí)驗(yàn).
本節(jié)中,我們進(jìn)行4組實(shí)驗(yàn)來驗(yàn)證FG-RIP的有效性.
實(shí)驗(yàn)1.與個(gè)體方法進(jìn)行了對比,驗(yàn)證了FG-RIP算法能自動組合出在F1指標(biāo)上最好的方法.這些個(gè)體方法的實(shí)驗(yàn)結(jié)果如表3,4所示,最大值已用黑體標(biāo)出.
Note: The maximum values are in bold.
Table 4 Comparison with Individual Methods on Cora表4 Cora數(shù)據(jù)集上與個(gè)體方法的對比
Note: The maximum values are in bold.
由表3,4可以得出:
1) 在相同的數(shù)據(jù)集上,個(gè)體方法各有所長.①對Song數(shù)據(jù)而言,在所有的個(gè)體方法中,Rule具有最高的查全率和相對較高的查準(zhǔn)率,這說明了基于屬性值相似度和閾值的領(lǐng)域規(guī)則能夠有效識別出記錄對,但存在準(zhǔn)確率欠缺的不足.這也表明,查全率高而查準(zhǔn)率低的個(gè)體方法如Rule,GMM等,有助于過濾掉不匹配的記錄對,同時(shí)保障真正匹配的記錄對以較高的概率落入不一致記錄對集合中.另外,盡管GNB具有最高的查準(zhǔn)率,但查全率較低.這表明被GNB預(yù)測為匹配的記錄對,具有較高的可信性.這也表明對于查準(zhǔn)率高而查全率低的方法如GNB,可有效保證真正匹配記錄對以較高概率落入一致匹配記錄對集合中.CART和MLP算法的查準(zhǔn)率、查全率和F1均達(dá)到90%以上.這表明屬性值相似度特征和較少的模型參數(shù)就能夠?yàn)镾ong數(shù)據(jù)集訓(xùn)練較好的解析模型.②對Cora數(shù)據(jù)而言,Distance具有最高的查準(zhǔn)率和極低的查全率.這是由于樊峰峰等人[2]提出了一個(gè)基于主成分分析的離群距離.對某個(gè)記錄ri,該離群距離能夠找到與該記錄匹配概率最高的記錄對rj,其中i≠j.對于數(shù)據(jù)集中某實(shí)體erec,假設(shè)只有2個(gè)記錄ri和ri描述該實(shí)體erec,那么Distance的解析結(jié)果較好.而Cora數(shù)據(jù)集中erec對應(yīng)多個(gè)記錄,使得Distance識別為匹配的記錄對,有較高概率是真正匹配的.而其他匹配的記錄對被解析為不匹配的,導(dǎo)致了極低的查全率.DPBGM具有最高的查全率,且GMM具有較高的查全率.這些說明在沒有標(biāo)簽數(shù)據(jù)的情況下,選擇一個(gè)適合所有數(shù)據(jù)集的方法具有很大的挑戰(zhàn).
2) 在不同的數(shù)據(jù)集上,大部分個(gè)體方法的查準(zhǔn)率、查全率和F1有差異.例如SVM在Cora數(shù)據(jù)上F1值與最高的F1值相差2.18%,卻在Song數(shù)據(jù)上相差43.98%.這是由于SVM模型依賴于來自數(shù)據(jù)集的支持向量,若這些支持向量無法有效分類樣本,則模型的分類效果較差.Hybrid在Cora數(shù)據(jù)上有較高的查全率,而在Song數(shù)據(jù)集上有較高的查準(zhǔn)率.這是由于文獻(xiàn)[3]融合了embedding技術(shù)、雙向序列模型、序列比對模型和多層感知器來訓(xùn)練出一個(gè)二分類模型.由于該模型的參數(shù)多(如在Song和Cora數(shù)據(jù)集上,需要訓(xùn)練的參數(shù)數(shù)目分別為9 210 006和26 545 814),但訓(xùn)練樣本集合(即一致記錄對集合)有限,且訓(xùn)練樣本集合(一致記錄對集合)和測試樣本集合(不一致記錄對集合)屬于不同的分布,導(dǎo)致訓(xùn)練的模型過擬合即在訓(xùn)練數(shù)據(jù)集上查準(zhǔn)率、查全率和F1高達(dá)90%以上,而在Song數(shù)據(jù)集的測試集合上,僅查準(zhǔn)率較高;而在Cora數(shù)據(jù)集上,僅查全率最高.另外,某些個(gè)體方法不受數(shù)據(jù)集差異的影響.比如GMM在Cora和Song數(shù)據(jù)上均有高達(dá)90%以上的查全率和較低的查準(zhǔn)率,這說明混合高斯模型對數(shù)據(jù)的差異不敏感,具有較好的健壯性.
3) 平均來看,監(jiān)督模型的解析效果優(yōu)于無監(jiān)督的.例如對Song數(shù)據(jù)而言,6個(gè)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1,依次為0.674 7,0.911 9,0.756 9;而5個(gè)無監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.735 3,0.367 3,0.423 8.對Cora數(shù)據(jù)而言,6個(gè)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.868 5,0.719 4,0.785 4;而5個(gè)無監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.745 5,0.474 3,0.388 1.這表明,盡管在消歧問題上,訓(xùn)練集(一致記錄對集合)和測試集(不一致記錄對集合)不滿足獨(dú)立同分布,且在理論上,當(dāng)訓(xùn)練樣本和測試樣本是獨(dú)立同分布時(shí),監(jiān)督模型才有最好的效果,但由于部分監(jiān)督模型如CART和MLP,具有較好的健壯性,能在非獨(dú)立同分布場景下,訓(xùn)練出較好的二分類模型.如在Song數(shù)據(jù)的消歧問題上,CART和MLP的查準(zhǔn)率、查全率和F1高達(dá)90%.這也表明通過分析一致記錄對的特征有助于更好地預(yù)測不一致記錄對的匹配狀態(tài).
4) FG-RIP 能夠更準(zhǔn)確地解析出更多的匹配記錄,具有最好的綜合指標(biāo)F1.由表3,4可知,與其他個(gè)體方法相比,F(xiàn)G-RIP具有較高的查準(zhǔn)率和查全率.這是由于FG-RIP把個(gè)體方法的解析結(jié)果作為外部匹配特征,并綜合記錄對的自身匹配特征和匹配傳遞特征來進(jìn)行消歧.在Cora數(shù)據(jù)集上,雖然FG-RIP的查準(zhǔn)率沒有Distance高,但它具有最好的綜合指標(biāo)F1.類似地,在Song數(shù)據(jù)集上,F(xiàn)G-RIP也具有最高的F1值.這些表明,基于因子圖的消歧算法FG-RIP能自動組合各類特征,獲得最優(yōu)的綜合指標(biāo).
實(shí)驗(yàn)2.與已存在的消歧方法GL-RF進(jìn)行了對比.我們分別從Song和Cora數(shù)據(jù)集的不一致記錄對集合中抽取了1 000個(gè)和2 000個(gè)進(jìn)行對比實(shí)驗(yàn).如表5,6所示:
Table 5 Comparison with GL-RF on Song表5 Song數(shù)據(jù)集上與GL-RF的對比
Table 6 Comparison with GL-RF on Cora表6 Cora數(shù)據(jù)集上與GL-RF的對比
表5,6所示的實(shí)驗(yàn)對比結(jié)果可得出:
1) 改造后的GL-RF可以有效處理部分Dirty-Dirty ER場景下的不一致記錄對消歧問題.由表5可知,在Song數(shù)據(jù)集上,GL-RF和FG-RIP的實(shí)驗(yàn)結(jié)果相同.這是由于雖然Song數(shù)據(jù)屬于Dirty-Dirty ER場景,但Song的不一致記錄對集中匹配記錄對與Clean-Clean ER場景的大體吻合.具體來說,在Clean-Clean ER場景下,某個(gè)記錄最多有1個(gè)與之相匹配的記錄.Song數(shù)據(jù)上,92.81%的記錄最多有1個(gè)與之匹配的記錄;7.19%的記錄與2個(gè)以上的其他記錄相匹配,因而GL-RF能有效地處理這類消歧問題.
2) FG-RIP算法在Cora數(shù)據(jù)集上優(yōu)于GL-RF.這是由于:①從數(shù)據(jù)集的角度看,Cora的不一致記錄對集中匹配記錄對與Clean-Clean ER場景差異較大.具體來說,Cora數(shù)據(jù)中,僅6.88%的記錄最多有1個(gè)與之匹配的記錄;93.12%的記錄與2個(gè)以上的記錄相匹配;有的記錄甚至有83個(gè)與之匹配的記錄.這導(dǎo)致改進(jìn)后的GL-RF在Cora數(shù)據(jù)中消歧效果有限.②從方法的角度看,GL-RF只考慮了一致記錄對和不一致記錄對之間的距離關(guān)系,適合識別與某個(gè)記錄最匹配的記錄.而FG-RIP把各類匹配特征建模為特征因子,自動組合最優(yōu)消歧模型,因而能更準(zhǔn)確地識別匹配記錄對.
實(shí)驗(yàn)3.本文使用查準(zhǔn)率、查全率和F1指標(biāo),分析了不同的因子特征對Cora和Song數(shù)據(jù)的消歧結(jié)果的影響.在圖3(a)(b)中,如第2節(jié)所述,S,T,E分別代表記錄對自身匹配特征、匹配傳遞特征、外部匹配特征.我們可以觀察到:1)匹配傳遞特征T在2個(gè)數(shù)據(jù)集上均具有較高的查全率.這表明特征T有助于識別更多的匹配記錄對.2)記錄對自身匹配特征S消歧效果表現(xiàn)不穩(wěn)定.在Cora數(shù)據(jù)上,S具有較高的F1,而在Song數(shù)據(jù)上具有較低的F1.3)外部匹配特征E具有較好的消歧效果.如E的查全率在Cora數(shù)據(jù)上最高,且F1值高于記錄對自身匹配特征S和匹配傳遞特征T.這表明融合個(gè)體方法的特征能有效地發(fā)揮個(gè)體方法識別匹配記錄對的能力.4)所有特征表現(xiàn)穩(wěn)定,在所有數(shù)據(jù)集上均能取得較好的效果.以F1指標(biāo)為例,所有特征的解析效果在Song和Cora數(shù)據(jù)上達(dá)到最高.
Fig. 3 Performance comparison on different factors圖3 不同因子的消歧效果對比
實(shí)驗(yàn)4.分析基于相似度的核密度估計(jì)技術(shù)對FG-RIP方法的影響.如圖4所示,KDE代表FG-RIP算法只使用基于相似度的核密度估計(jì)特征;-KDE代表FG-RIP算法使用去掉核密度估計(jì)特征后所有其他特征.本質(zhì)上,在相似度值的基礎(chǔ)上,用核密度估計(jì)技術(shù)計(jì)算概率值,相當(dāng)于把原來的相似度特征從線性空間變換到非線性空間.變化后的特征對非線性可分的數(shù)據(jù)集有效,而對線性可分的數(shù)據(jù)集效果不明顯.由圖4的實(shí)驗(yàn)結(jié)果可知:1)當(dāng)變化后的特征空間能有效劃分候選記錄對集合的匹配記錄對和不匹配記錄對時(shí),基于核密度估計(jì)技術(shù)的特征可獲得較好的消歧效果.如對于Cora而言,與-KDE相比,變化后的特征空間(KDE)有較高的查全率、查準(zhǔn)率和F1值,即能提供更好的分類效果;而對于Song而言,原有特征空間(-KDE)的消歧質(zhì)量指標(biāo)均高于KDE的消歧質(zhì)量.2)基于全部特征的消歧算法具有一定的魯棒性.在核密度估計(jì)特征有效時(shí),它的消歧效果略低于核密度估計(jì)特征的效果;在核密度估計(jì)特征無效時(shí),它受其消歧效果的影響小.①當(dāng)變化后的特征空間能有效區(qū)分匹配對和不匹配對時(shí),僅僅使用基于相似度的核密度估計(jì)特征,F(xiàn)G-RIP就能獲得最好的消歧效果,甚至在某些質(zhì)量指標(biāo)上略高于所有特征.如在Cora數(shù)據(jù)集上,KDE的查全率和F1值最高.所有特征的查全率和F1值低于KDE的相應(yīng)值,表明在Cora數(shù)據(jù)中增加非KDE特征后,質(zhì)量指標(biāo)有所下降,但降低的幅度不大,如所有特征的F1值僅減低了0.49%.②當(dāng)變化后的特征空間不能有效地區(qū)分匹配對和不匹配對時(shí),KDE的消歧效果較差.如在Song數(shù)據(jù)集上,KDE的所有質(zhì)量指標(biāo)最低.但所有特征的消歧質(zhì)量受KDE特征的影響小.由于缺少標(biāo)簽數(shù)據(jù),事先評估KDE的消歧效果不可行.鑒于此,在實(shí)際應(yīng)用場景中,建議使用全部的特征,以便消歧算法具有較好的魯棒性.
Fig. 4 Performance comparison on kernel density estimation圖4 核密度估計(jì)的消歧效果對比
由于實(shí)體解析問題是數(shù)據(jù)集成和清洗系統(tǒng)的核心基礎(chǔ)問題,且在很多領(lǐng)域有廣泛的應(yīng)用,領(lǐng)域?qū)<液蛯W(xué)者提出了一系列的解析技術(shù).這些相關(guān)的工作可劃分為三大類:基于學(xué)習(xí)的[3,5-6]、基于統(tǒng)計(jì)的[2,9,23-25]、和基于人機(jī)配合的[26-27].
基于學(xué)習(xí)的實(shí)體解析方法[3,5-6]首先使用訓(xùn)練數(shù)據(jù)集來學(xué)習(xí)實(shí)體匹配的模式或者規(guī)則,接著用訓(xùn)練好的模式或規(guī)則判定記錄對是否匹配.文獻(xiàn)[3]提出了4種屬性級摘要表示方法(分別是聚合模型(SIF)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列模型(RNN)、注意力模型(Attention)和基于序列和注意力的混合模型(Hybrid)),并使用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實(shí)體解析模型.文獻(xiàn)[6]從已知的匹配(和不匹配)記錄對集合中學(xué)習(xí)屬性級別的匹配規(guī)則集(ARs),并組合這些規(guī)則成一系列記錄級別的規(guī)則集(RRs).文獻(xiàn)[5]提出了一種描述記錄和實(shí)體之間匹配關(guān)系的規(guī)則(ER-rule),并設(shè)計(jì)了從訓(xùn)練集中自動學(xué)習(xí)ER-rule的算法和高效的在線實(shí)體解析算法.這些方法都依賴標(biāo)簽數(shù)據(jù),且不能解決不一致記錄對消歧問題,而我們的方法假設(shè)標(biāo)簽數(shù)據(jù)不存在,側(cè)重于標(biāo)簽數(shù)據(jù)缺失場景下消歧問題.
基于統(tǒng)計(jì)的實(shí)體解析方法[2,9,23-25]是通過統(tǒng)計(jì)分析記錄對的匹配特征,并形式化為某個(gè)合適度量,進(jìn)而選取合適的閾值來將記錄對劃分為匹配的或者不匹配的.比如文獻(xiàn)[23]分別從單詞的簡寫和全寫,前綴關(guān)系和字符近似匹配方面提出了3種字段匹配度量算法.文獻(xiàn)[24]提出了Footrule Distance,用來輸出與給定元組最相關(guān)的topk個(gè)記錄值.針對大多數(shù)算法未體現(xiàn)關(guān)鍵屬性重要性的不足,文獻(xiàn)[25]利用信息增益或統(tǒng)計(jì)概率的方法計(jì)算屬性權(quán)重,并提出了基于這些屬性權(quán)重的最終相似度來提升實(shí)體解析的準(zhǔn)確率.文獻(xiàn)[2]提出了離群距離,并證明了離群距離與記錄對匹配的可能性是正相關(guān)的.這類方法的優(yōu)點(diǎn)是不需要訓(xùn)練數(shù)據(jù)集和額外的訓(xùn)練過程,只需要估算出合適的匹配度量和閾值.但由于實(shí)體解析應(yīng)用場景的復(fù)雜性,匹配度量和閾值的確定很難做到適用于所有的場景.文獻(xiàn)[9]使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的聚類算法如k-means方法,把候選記錄對分成兩組:匹配組和不匹配組.這類不依賴標(biāo)簽數(shù)據(jù)的方法都可以作為消歧框架的個(gè)體方法,用來對數(shù)據(jù)集進(jìn)行預(yù)先處理,以得到一致或不一致記錄對.
針對全自動的實(shí)體解析方法不能徹底解決實(shí)體解析問題,基于人機(jī)配合的實(shí)體解析方法[26-27]提出借用用戶的知識以人機(jī)配合的方式進(jìn)行解析.文獻(xiàn)[26]將實(shí)體解析過程分為設(shè)計(jì)階段和執(zhí)行階段.設(shè)計(jì)階段就是用戶在樣本數(shù)據(jù)上使用現(xiàn)成的工具靈活地構(gòu)建出一個(gè)實(shí)體解析工作流;在執(zhí)行階段,用戶可調(diào)用支持大數(shù)據(jù)處理的工具來執(zhí)行設(shè)計(jì)好的工作流.文獻(xiàn)[27]提出了基于規(guī)則的候選記錄對生成階段和基于crowd細(xì)化匹配記錄對2個(gè)階段.這2個(gè)階段都有人和自動算法的共同參與,這類方法需要人的參與,無法自動完成不一致記錄對的消歧處理.
與本文的消歧算法最相關(guān)的是GL-RF[21].該算法的核心思想是首先基于TF.IDF計(jì)算記錄對的向量表示;接著分析與每個(gè)不一致記錄對距離最近的前k個(gè)一致匹配對和一致不匹配對,對于該不一致記錄對的影響;最后當(dāng)前k個(gè)一致匹配對的影響大于前k個(gè)一致不匹配對時(shí),該不一致記錄對為匹配,反之為不匹配.文獻(xiàn)[22]依據(jù)數(shù)據(jù)集是否存在重復(fù)記錄,把實(shí)體識別問題區(qū)分為3種場景:Clean-Clean ER,Dirty-Clean ER,Dirty-Dirty ER.其中Clean-Clean ER是指左數(shù)據(jù)源和右數(shù)據(jù)源都沒有重復(fù)記錄.FG-RIP與GL-RF的區(qū)別有2點(diǎn):1)GL-RF是針對Clean-Clean ER場景,而FG-RIP則是針對Dirty-Dirty ER場景;2)GL-RF沒有考慮個(gè)體方法的解析結(jié)果的可信程度,而FG-RIP使用因子權(quán)重來區(qū)分個(gè)體方法的解析結(jié)果.
本文研究了在沒有標(biāo)簽數(shù)據(jù)場景下不一致記錄對消歧問題,并首次提出了基于因子圖的不一致記錄對消歧框架.該框架利用因子圖融合與不一致記錄對相關(guān)的特征(包括自身匹配特征、匹配傳遞特征和外部匹配特征),并使用最大似然估計(jì)計(jì)算因子圖中因子的權(quán)重.實(shí)驗(yàn)結(jié)果表明:該算法能夠有效地學(xué)習(xí)到合適的權(quán)重,并自動組合出最優(yōu)的消歧方案.在沒有標(biāo)簽的場景下,自動估計(jì)不同特征的解析效果很有挑戰(zhàn)性,也具有深遠(yuǎn)的現(xiàn)實(shí)意義.因?yàn)樽詣庸烙?jì)不同特征的解析結(jié)果,并選擇最優(yōu)的特征組合,可進(jìn)一步提升解析的效果.比如在Cora數(shù)據(jù)集上只使用記錄對的基于相似度的核密度估計(jì)特征就能獲得更好的解析效果.鑒于此,我們把無標(biāo)簽場景下,不同特征消歧結(jié)果的質(zhì)量估計(jì)問題作為將來的研究問題.