任奕豪 張 琨 趙 靜 馮新淇
(南京理工大學(xué)計算機科學(xué)與工程學(xué)院 南京 210094)
基于文本上下文和網(wǎng)絡(luò)信息的鏈接預(yù)測方法?
任奕豪 張 琨 趙 靜 馮新淇
(南京理工大學(xué)計算機科學(xué)與工程學(xué)院 南京 210094)
對于鏈接預(yù)測問題,傳統(tǒng)的預(yù)測模型通常僅考慮網(wǎng)絡(luò)中節(jié)點的鏈接信息,而社會網(wǎng)絡(luò)中普遍存在的文本信息可以用于提高鏈接預(yù)測的準(zhǔn)確性,利用文本內(nèi)容來幫助鏈接預(yù)測越發(fā)受到重視。結(jié)合文本上下文和網(wǎng)絡(luò)鏈接,提出了一種基于層次隱狄利克雷分布主題模型的鏈接預(yù)測模型。模型通過層次隱狄利克雷分布模型對文本數(shù)據(jù)進(jìn)行訓(xùn)練,從迭代收斂的主題樹中提取文本相似特征,然后利用支持向量機模型來訓(xùn)練特征數(shù)據(jù)以提高鏈接預(yù)測的精度,并得到二元分類器,根據(jù)該分類器,可以預(yù)測文本與其他文本鏈接的可能性。實驗結(jié)果表明,所提出的模型相比于已有的相關(guān)模型,提高了預(yù)測文本網(wǎng)絡(luò)中文檔之間鏈接的準(zhǔn)確度。
鏈接預(yù)測;層次隱狄利克雷分布;主題樹;文本相似特征;支持向量機
鏈接預(yù)測,即是在一個網(wǎng)絡(luò)中,對兩個節(jié)點間存在但是未被發(fā)現(xiàn)的鏈接進(jìn)行預(yù)測。它是社會網(wǎng)絡(luò)分析和數(shù)據(jù)挖掘的一個交叉領(lǐng)域。早期的鏈接預(yù)測問題研究,通常只著眼于網(wǎng)絡(luò)結(jié)構(gòu)本身,通過挖掘已知節(jié)點構(gòu)成的鏈接情況來對節(jié)點之間的關(guān)聯(lián)性進(jìn)行預(yù)測。但隨著網(wǎng)絡(luò)中信息的不斷豐富,節(jié)點本身的內(nèi)容信息越發(fā)受到研究者們的關(guān)注,通過將內(nèi)容信息和網(wǎng)絡(luò)結(jié)構(gòu)信息結(jié)合來對鏈接進(jìn)行更有效的預(yù)測,成為了研究的一大熱點。
文本信息是網(wǎng)絡(luò)中節(jié)點內(nèi)容的一個重要組成部分。在很多情況下,節(jié)點都會包含大量文本信息,比如網(wǎng)頁上的文本信息、學(xué)術(shù)論文、社交網(wǎng)站中用戶撰寫的博客等;而另一方面,這些帶文本的節(jié)點又會交互,構(gòu)成一個網(wǎng)絡(luò),比如網(wǎng)頁對其他頁面的超鏈接、論文的文獻(xiàn)引用、社交網(wǎng)站中用戶與其他用戶的相互關(guān)注等。隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)中文本的網(wǎng)絡(luò)規(guī)模變得日益龐大,這也為結(jié)合文本信息的鏈接預(yù)測提供了大量的應(yīng)用場景。
針對網(wǎng)絡(luò)結(jié)構(gòu)信息來挖掘潛在的網(wǎng)絡(luò)結(jié)構(gòu),Murata等[1]基于節(jié)點在圖上的近鄰程度以及網(wǎng)絡(luò)中已有鏈接的權(quán)值,提出了一種加權(quán)距離評估方法,用于網(wǎng)絡(luò)鏈接預(yù)測;Hofma等[2]提出了一種基于貝葉斯方法的模型來挖掘網(wǎng)絡(luò)中的聚集情況;Airoldi等[3]假設(shè)網(wǎng)絡(luò)中的每個節(jié)點是按一定概率屬于多個聚類簇,在此基礎(chǔ)上,提出了混合成員隨機塊模 型(Mixed membership stochastic blockmodels,MMSB)。
另一方面,將節(jié)點自身的信息和網(wǎng)絡(luò)的結(jié)構(gòu)信息結(jié)合進(jìn)行建模,也已經(jīng)有許多成果。Soumen Chakrabarti等[4]提出了一個結(jié)合近鄰節(jié)點信息來對超文本進(jìn)行分類的算法;Jiawei Zhang等[5]在社交網(wǎng)絡(luò)上分別對用戶節(jié)點錨鏈接和社交網(wǎng)絡(luò)進(jìn)行建模,然后通過概率圖隨機游走的方式來進(jìn)行用戶社交網(wǎng)絡(luò)的鏈接預(yù)測;Jonathan Chang等[6]在 LDA(Latent Dirichlet Allocation)文本主題模型[7]的基礎(chǔ)上,加入了文本鏈接的生成概率部分構(gòu)建了相關(guān)主題模型(relational topic model,RTM),通過變分推斷推導(dǎo)模型參數(shù),使得該模型可以預(yù)測文本之間的鏈接,或者預(yù)測文本可能會出現(xiàn)的單詞;Fei Gao等[8]則考察了多個利用不同元數(shù)據(jù)對社交網(wǎng)絡(luò)建模的方法,并在此基礎(chǔ)上提出了一個混合的社交網(wǎng)絡(luò)鏈接預(yù)測模型;Jorge Carlos等[9]提出了一種構(gòu)建在作者關(guān)系網(wǎng)絡(luò)以及主題模型之上的混合模型,用于分析文檔作者的社交網(wǎng)絡(luò)信息;Sheng Gao等[10]結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點自身的所有信息和節(jié)點的鄰接結(jié)構(gòu),構(gòu)造了一個基于矩陣因子分解的模型,并給出了求解模型隱變量的最優(yōu)化方法;Nicola Barbieri等[11]基于社交網(wǎng)絡(luò)的用戶鏈接和用戶節(jié)點的用戶畫像提出了一個用于鏈接預(yù)測的隨機主題模型;Qirong Ho 等[12]則 在 HLDA(Hirerachical Latent Dirichlet Allocation)文本主題模型[13]的模型架構(gòu)里,以文本主題節(jié)點共深路徑來作為鏈接生成的依據(jù),將文本的鏈接信息融合到了HLDA模型中,從而構(gòu)造出一個在鏈接預(yù)測和鏈接歧義消除問題上效果更好的文本層次主題模型Topicblock。
本文的研究將在HLDA文本主題模型的基礎(chǔ)上進(jìn)行,通過在HLDA得到的主題樹結(jié)構(gòu)中提取文本的主題分布信息,然后構(gòu)造每兩個文檔對的相似特征,最后以文檔對是否構(gòu)成鏈接作為標(biāo)簽,利用SVM對特征數(shù)據(jù)進(jìn)行訓(xùn)練,得到最終分類器用于新文檔的鏈接預(yù)測。
3.1 模型整體流程
本文對文檔的文本數(shù)據(jù)和文檔之間的鏈接數(shù)據(jù)進(jìn)行建模。所有文檔的文本構(gòu)成的集合稱之為語料庫,構(gòu)建的鏈接預(yù)測模型的整體過程如下:
1)利用 VSM(Vector Space Modle)思想[14],對語料庫的文本信息構(gòu)造詞典,并將每個文檔轉(zhuǎn)換成文本向量;
2)將步驟1)中處理的文本向量作為HLDA模型的輸入數(shù)據(jù),進(jìn)行HLDA模型的訓(xùn)練,直到模型收斂,生成語料的主題樹;
3)對于步驟2)中得到的主題樹,提取每兩個文檔之間的相似特征向量;
4)以步驟3)中提取的文檔對特征和文檔與文檔之間的鏈接作為輸入數(shù)據(jù),訓(xùn)練SVM模型,得到最終的軟間隔線性分類超平面。
上述過程用流程圖表示為圖1形式。
圖1 模型整體流程圖
3.2 層次化文本主題模型:HLDA
HLDA是層次化的文本主題模型。它通過Dirichlet過程構(gòu)建非參數(shù)化概率模型,生成一個樹形層次結(jié)構(gòu)的主題分布,其模型基于如下假設(shè):1)存在一棵主題樹,樹上的每個節(jié)點都是一個主題;2)主題是關(guān)于單詞的分布;3)每個文檔都隱含著若干個主題,而這些主題來自于主題樹,并且在主題樹上構(gòu)成從根節(jié)點到某個葉子節(jié)點的一條路徑。
本文將用HLDA模型對語料庫D進(jìn)行建模。假設(shè)語料庫包含M個文檔,其中第m個文檔用dm表示(m=1,2,…,M),并且 dm中有 Nm個單詞,語料庫D的詞典長度為V,HLDA模型假設(shè)文本按如下生成過程生成:
1)假設(shè)主題樹的層數(shù)為L,對于一個主題樹上的任一個節(jié)點h,若其深度為l:
采樣該主題節(jié)點的單詞分布 φh~Dirichlet(β?);
2)對于文檔dm:
(1)采樣其路徑分布rm~nCRP(γ);
(2)采樣其層次分布 θm~Dirichlet(α);
(3)對于dm中的第n個單詞(0<n<Nm):
①對該單詞所在的層次進(jìn)行采樣zm,n~Multinomial(θ);
其中 α、β、γ均為超參數(shù),α、β是Dirichlet分布的參數(shù),分別是長度為L和V的向量;γ是nCRP過程的參數(shù)。上述生成過程用貝葉斯網(wǎng)絡(luò)來描述如圖2所示。
圖2 HLDA的貝葉斯網(wǎng)絡(luò)
HLDA模型屬于非參數(shù)的概率生成式模型,對模型后驗分布直接進(jìn)行推導(dǎo)是非常困難的,通常使用“Collapsed Gibbs”采樣方法[15]來近似推導(dǎo)模型的后驗分布,其中“Collapsed”是指積分掉模型的部分中間參數(shù),用以簡化參數(shù)估計。根據(jù)該采樣方法,HLDA最終所要求的聯(lián)合概率分布如下:
對上述聯(lián)合概率分布進(jìn)行Gibbs采樣,可以分為對每個文檔路徑r?的采樣和對文檔中每個單詞
m所在層次 的采樣。
1)單詞層次采樣(z? )
m,n
其中是 z(m,?n)是文檔dm以外的文檔的所有單詞所屬的主題構(gòu)成的集合;是文檔 d中不m屬于單詞n的所有單詞所屬主題構(gòu)成的集合;是指語料中不屬于單詞 n 的所有單詞構(gòu)成的集合。層次采樣可以看作從兩個以Dirichlet分布作為先驗的多項式分布中采樣的過程。
(1)對于先驗部分
其中#(zm,?n=k)為在文檔dm中非 n的單詞中主題位于第k層的單詞個數(shù),其他類似可得。
(2)對于似然值部分
其中rm為文檔dm的路徑向量,r?m為除了文檔dm外其他文檔路徑向量構(gòu)成的集合;wm為文檔dm的單詞集合,w?m為除了文檔dm外其他文檔的所有單詞構(gòu)成的集合。這兩個分布可以分別看作是先驗分布和單詞似然函數(shù)。其中 p(rm]r?m)可以用nCRP過程進(jìn)行采樣;而 p(wm]z,r,w?m)則是從以Dirichlet分布作為先驗的多項式分布中進(jìn)行采樣。
(1)對于先驗部分
對于文檔dm,在第l層時,選擇某個已有的分支y作為當(dāng)前文檔路徑節(jié)點的概率與當(dāng)前經(jīng)過該節(jié)點的文檔數(shù)量成正比,而選擇一個新分支的概率與超參數(shù)γ有關(guān),該過程即是從nCRP過程的分布里進(jìn)行采樣。
(2)對于似然部分
通過上述Collapse Gibbs采樣的迭代,最終文檔數(shù)據(jù)會收斂,得到一棵主題樹,每個文檔會對應(yīng)主題樹上從根節(jié)點到某個葉子節(jié)點的路徑,比如第m 個文檔的 d對應(yīng) r?=(h,h,…, h) 。 這mmdm,1dm,2dm,L個路徑表示該文檔所涉及的主題,統(tǒng)計每個文檔在每個主題上的單詞數(shù)量,可以近似估計出該文檔關(guān)于主題的分布。
3.3 HLDA文檔相似特征抽取與鏈接預(yù)測
在獲得每個文檔的主題分布之后,利用下面的步驟構(gòu)造出文檔之間的相似特征向量:
1)分別計算出每個文檔的層次主題分布:
2)對于每兩個文檔di和dj:
(2)對于主題樹的每一層l:
若 zi,l=zj,l,則 t(i,j),l=pi,l× pj,l;否則不進(jìn)行任何操作;
上述方法構(gòu)造了每組文檔對的特征向量,對于最終文本鏈接的預(yù)測,本文采用線性SVM模型[16],以文檔相似特征數(shù)據(jù)作為輸入數(shù)據(jù)x?,以文檔之間是否有鏈接作為標(biāo)簽 y進(jìn)行訓(xùn)練。在SVM中,構(gòu)造帶懲罰系數(shù)C的二次規(guī)劃問題:
求解上述二次規(guī)劃問題,可以得到軟間隔的線性分類面:
對于預(yù)測文檔的相似特征向量,都可以算出其與分類超平面的距離,基于距離對文檔對進(jìn)行排序,以Top-K的規(guī)則取前K個文檔對作為有鏈接的預(yù)測。
4.1 實驗數(shù)據(jù)采集
本文所使用的實驗數(shù)據(jù)集為英文維基百科數(shù)據(jù)集。維基百科是一個開放的網(wǎng)絡(luò)文檔集合,其中的每個文檔存在對其他文檔的超鏈接引用,因此滿足實驗所需的帶引用鏈接文本的要求。由于原始的維基百科文檔數(shù)量過于龐大,實驗中,隨機抽取1000個文檔作為實驗樣本,最多取每個文檔摘要的前150個單詞作為文本,并對數(shù)據(jù)進(jìn)行去停用詞處理,最終得到的語料數(shù)據(jù)如表1所示。
表1 實驗數(shù)據(jù)集
4.2 實驗參數(shù)設(shè)置
在實驗過程中,設(shè)定主題樹的樹高L=3(包括根節(jié)點)。由于HLDA模型中,超參數(shù)對于主題樹的影響非常大,因此本文實驗將Dirichlet(1)作為超參數(shù)的先驗分布,通過在該分布上采樣自動對模型超參數(shù)賦值。具體操作是在每次gibbs采樣迭代之前通過在Dirichlet(1)分別采樣出三個值,并將這三個值賦給α、β、γ。相比于固定超參數(shù)的方式,該方法可以有效減小超參數(shù)取值對于模型結(jié)果的影響[17]。對于SVM分類,取懲罰系數(shù)C=1.0。
4.3 評估指標(biāo)
本文將以準(zhǔn)確率(Precision)、召回率(Recall)以及平均準(zhǔn)確率(MAP,Mean Average Precision)作為評估指標(biāo)。其中準(zhǔn)確率和召回率的定義如下:
其中tp為模型正確檢索為正類數(shù)據(jù)的數(shù)量;fp是被模型錯誤檢索為正類數(shù)據(jù)的數(shù)量;fn是被模型錯誤檢索為負(fù)類的數(shù)據(jù)數(shù)量。對于一個模型而言,準(zhǔn)確率和召回率與模型檢索的效果正相關(guān)(即兩個指標(biāo)數(shù)值越高表明模型檢索的效果越好),但通常來說提高準(zhǔn)確率會降低召回率,反之亦然。
而MAP是一個綜合的評估指標(biāo),常常被用于評估模型信息檢索結(jié)果的優(yōu)劣,并且相比于其他指標(biāo)呈現(xiàn)現(xiàn)出良好的有效性和穩(wěn)定性[18]。假設(shè)Q是所有需要檢索的文檔集合,|Q|是檢索文檔的數(shù)量,對于第 j個檢索的文檔dj∈Q,與其有鏈接關(guān)系的文檔集合為{d1,d2,…,dmj},那么對應(yīng)的MAP定義如下所示。
其中Rjk是排序后的檢索結(jié)果集合中,與dj相關(guān)的第k個文檔在集合中所處的的序號,而。MAP可以近似地看作是準(zhǔn)確率-召回率曲線圖中位于曲線下方區(qū)域的面積,該值越高表明檢索效果越好。
4.4 實驗步驟及結(jié)果分析
本實驗將預(yù)處理后的1000個維基百科文檔隨機劃分成訓(xùn)練集和測試集,用訓(xùn)練集數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后擬合測試集數(shù)據(jù)。實驗步驟如下:
1)將訓(xùn)練集的數(shù)據(jù)放入3.1所描述的模型流程進(jìn)行訓(xùn)練,得到收斂的HLDA主題樹和SVM分類面。
2)將測試集的文本數(shù)據(jù)放入收斂的HLDA模型進(jìn)行擬合,再用3.3描述的特征提取過程提取測試集中文檔與其他文檔的相似特征,最后用步驟1)得到的SVM分類面對測試集中文檔的鏈接進(jìn)行預(yù)測。
3)對步驟2)得到的預(yù)測結(jié)果計算其準(zhǔn)確率、召回率以及MAP值。
由于文獻(xiàn)[13]中驗證了當(dāng)?shù)螖?shù)大約大于150時,模型趨于穩(wěn)定,因此本實驗中,設(shè)定訓(xùn)練集數(shù)據(jù)迭代次數(shù)為200次作為收斂條件。本實驗分別對比了文獻(xiàn)[12]中所介紹的TMSB模型和HLDA模型以及tf-idf算法[19]。最后的各個模型的實驗結(jié)果的準(zhǔn)確率和召回率情況如圖3~4所示。
由于數(shù)據(jù)集中正例數(shù)據(jù)較為稀疏,因此造成了準(zhǔn)確率非常低但召回率相對較高的結(jié)果。然而由圖3~4可以看出,整體而言,HLDA+SVM模型在準(zhǔn)確率和召回率這兩個指標(biāo)上都要優(yōu)于其他幾個對照模型,具體地,HLDA+SVM模型和Topicblock模型在準(zhǔn)確率和召回率上要明顯優(yōu)于HLDA模型和tf-idf模型,而同樣是考慮了文本數(shù)據(jù)和鏈接數(shù)據(jù),HLDA+SVM模型在大多數(shù)K的取值情況下準(zhǔn)確率和召回率指標(biāo)都要優(yōu)于Topicblock。
圖3 各個模型準(zhǔn)確率
圖4 各個模型召回率
至于MAP指標(biāo),各個模型在不同檢索數(shù)K的結(jié)果對比如圖5所示。通過該結(jié)果可以看出,相比于僅僅考慮了文本信息的HLDA模型,同時考慮了網(wǎng)絡(luò)結(jié)構(gòu)信息和文本信息的HLDA+SVM混合模型在鏈接預(yù)測的準(zhǔn)確度上提升顯著;而相比于同樣也考慮了網(wǎng)絡(luò)結(jié)構(gòu)信息和文本信息的Topicblock模型,本文的HLDA+SVM模型在MAP指標(biāo)上也較優(yōu);而對于tf-idf模型,它僅僅通過文檔之間共現(xiàn)單詞來簡單刻畫文檔之間相似度,最終的指標(biāo)結(jié)果也遠(yuǎn)低于其他幾個模型。
圖5 各個模型在不同K值下的MAP指標(biāo)
對于目前常見的帶文本網(wǎng)絡(luò)節(jié)點鏈接預(yù)測問題,本文提出了同時考慮文檔上下文信息和鏈接結(jié)構(gòu)信息的混合模型,該模型以HLDA對文檔的上下文進(jìn)行建模,考慮文檔主題分布之間的相似度來提取文檔相似度特征,再用SVM模型對相似特征數(shù)據(jù)和鏈接數(shù)據(jù)進(jìn)行訓(xùn)練,最后對未知文檔的鏈接進(jìn)行預(yù)測。該模型主要考慮了節(jié)點文檔在各個層次上的主題分布情況,對文本之間相似度進(jìn)行了更細(xì)致的特征提取。實驗結(jié)果也表明,該模型在預(yù)測文檔之間鏈接的精確性上相對于已有的模型算法有所提升。
[1]T Murata,S Moriyasu.Link prediction of social networks based on weighted proximity measures[C]//IEEE/WIC/ACM International Conference on Web Intelligence,2007,85-88.
[2]JM Hofman,CH Wiggins.A Bayesian approach to network modularity[J].Physical Review Letters,2008,100(25):5740-5747.
[3]EM Airoldi,DM Blei,SE Fienberg,et al.Mixed membership stochastic blockmodels[J].Journal of Machine Learning Research,2008,9(5):1981-2014.
[4]Chakrabarti S,Dom BE,Indyk P.Enhanced hypertext categorization using hyperlinks[C]//Proceedings of the 4th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,1998,27(2):307-318.
[5]Zhang J,Yu PS.Integrated anchor and social link predictions across social networks[C]//International Conference on Artificial Intelligence,2015,58-65.
[6]Chang J,Blei D.Relational topic models for document networks[C]//In International Conference on Arti cial Intelligence and Statistics,2009,81-88.
[7]Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.
[8]Gao F,Musial K,Cooper C,et al.Link prediction methods and their accuracy for different social networks and network metrics[J].Scientific Programming,2015,13(13):101-113.
[9]Valverde-Rebaza JC,Lopes ADA.Link prediction in online social networks using group information[C]//International Conference on Computational Science&Its Applications,2014,8584:31-45.
[10]Gao S,Denoyer L,Gallinari P.Temporal link prediction by integrating content and structure information[C]//in Proc.CIKM,2011,1169-1174.
[11]Barbieri N,Bonchi F,Manco G.Who to follow and why:link prediction with explanations[C].In KDD'14,1266-1275.
[12]Ho Q,Eisenstein J,Xing EP.Document hierarchies from text and links[C]//in Proceedings of the 21st international conference on World Wide Web,2012,739-748.
[13]Blei D,Griffiths T,Jordan M.The nested chinese restaurant process and Bayesian nonparametric inference of topic hierarchies[J].Journal of the ACM,2010,57(2):1-30.
[14]Salton G,Wong A,Yang CS.A vector space model for automatic indexing[J].Communication of ACM,1975,18(11):273-280.
[15]Cortes C,Vapnik V.Monte carlo statistical methods[M].New York:Springer,2004.
[16]Cortes,Vapnik V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.
[17]Bernardo JM,Smith AFM.Bayesian theory[M].New York:John Wiley&Sons Ltd,1994.
[18]Manning CD,Raghavan P,H Schütze.Introduction to information retrieval[M].Cambridge:Cambridge University Press,2008.
[19]Bethard S,Jurafsky D.Who should I cite:learning literature search models from citation behavior[C]//In Proceedings of CIKM,2010,609-618.
Link Prediction Method Based on Context and Network Information
REN YihaoZHANG KunZHAO JingFENG Xinqi
(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)
In regard to link prediction problem,traditional prediction models usually only consider the link information of the nodes from the network.However,the text widely existing in the social networks can be used to improve the performance of link prediction,and using text for link prediction is getting attention increasingly.Combining text and links,proposes a link prediction model based on hierarchical latent dirichlet allocation topic model.First,the model trains text data by hierarchical latent dirichlet allocation model,then it extracts text similar features from the convergent topic tree,finally the model trains the feature data to obtain a two-class classifier by support vector machine model,this classifier can be used to predict the link between nodes.The experimental results demonstrate that,comparing to pre-existing similar models,the model proposed improves the accuracy of predicting the links among the documents in text network.
link prediction,hierarchical latent dirichlet allocation,topic tree,text similar feature,support vector machine
TP301
10.3969/j.issn.1672-9722.2017.10.021
Class Number TP301
2017年4月20日,
2017年5月27日
任奕豪,男,碩士研究生,研究方向:數(shù)據(jù)挖掘與自然語言處理。張琨,女,博士研究生,教授,研究方向:信息安全與復(fù)雜網(wǎng)絡(luò)。趙靜,女,博士研究生,研究方向:信息安全、復(fù)雜網(wǎng)絡(luò)理論與應(yīng)用。馮新淇,女,碩士研究生,研究方向:數(shù)據(jù)挖掘與語義分析。