王禹森 余正濤 高盛祥 周 超 洪旭東
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明,650500)
隨著經(jīng)濟(jì)全球化,不同國(guó)家之間的聯(lián)系日益緊密,共同關(guān)注的事件、話(huà)題也越來(lái)越多。跨語(yǔ)言新聞話(huà)題發(fā)現(xiàn)就是針對(duì)互聯(lián)網(wǎng)上不同國(guó)家發(fā)布的不同語(yǔ)言新聞進(jìn)行分析處理,獲得的不同類(lèi)別話(huà)題的新聞,幫助人們及時(shí)掌握當(dāng)前國(guó)際和地區(qū)發(fā)生的熱點(diǎn)事件,以及對(duì)同一事件不同國(guó)家的不同看法。目前話(huà)題發(fā)現(xiàn)研究基本都是在單語(yǔ)環(huán)境下做的,并取得了很好的成果。單語(yǔ)話(huà)題發(fā)現(xiàn)方法一般分為以下3類(lèi):(1)向量空間模型。它通過(guò)抽取文本詞頻、詞性和語(yǔ)法結(jié)構(gòu)等特征,將文本表征成多維特征向量,利用向量之間的關(guān)系實(shí)現(xiàn)文本相似度的計(jì)算,從而進(jìn)行共同話(huà)題的挖掘[1-2]。(2)概率模型。它利用新聞文本中詞語(yǔ)與話(huà)題分布的統(tǒng)計(jì)規(guī)律,構(gòu)建話(huà)題統(tǒng)計(jì)概率模型,分析挖掘新聞文本話(huà)題[3-4]。(3)圖模型。它提取新聞文檔特征及特征之間的關(guān)系,如特征詞之間關(guān)系,建立特征概率圖模型,通過(guò)圖的求解思路分析文本的話(huà)題[5]。相比單語(yǔ)環(huán)境下的話(huà)題發(fā)現(xiàn),雙語(yǔ)環(huán)境下的話(huà)題發(fā)現(xiàn)研究較少,其關(guān)鍵問(wèn)題在于如何跨越語(yǔ)言障礙,目前主要基于以下3類(lèi)方法,(1)基于機(jī)器翻譯。它將不同語(yǔ)言的新聞文本轉(zhuǎn)化到同一目標(biāo)語(yǔ)言,在單語(yǔ)環(huán)境下進(jìn)行共同話(huà)題的挖掘與分析,機(jī)器翻譯的準(zhǔn)確性對(duì)這種方法有著很大的影響。(2)借助雙語(yǔ)詞典。該方法對(duì)文本中的實(shí)體,關(guān)鍵詞進(jìn)行翻譯,來(lái)構(gòu)造跨語(yǔ)言特征詞空間,進(jìn)行話(huà)題發(fā)現(xiàn)[6],這種方法忽略了沒(méi)有互譯關(guān)系卻存在聯(lián)系的詞語(yǔ),比如“阮富仲”和“越南國(guó)家領(lǐng)導(dǎo)人”在詞典中是沒(méi)有互譯關(guān)系的,卻表達(dá)相同的意義。(3)基于大規(guī)模雙語(yǔ)語(yǔ)料[7-9]。如利用概率主題模型,對(duì)平行語(yǔ)料或者可比語(yǔ)料進(jìn)行跨語(yǔ)言主題挖掘,將獲得一系列的跨語(yǔ)言主題作為特征空間,這種方法難點(diǎn)在于大規(guī)模對(duì)齊語(yǔ)料收集整理。
在對(duì)漢越跨語(yǔ)言新聞話(huà)題發(fā)現(xiàn)方面,由于漢越雙語(yǔ)新聞采用不同語(yǔ)言進(jìn)行表征,而不同語(yǔ)言在不同的詞空間下,導(dǎo)致不同語(yǔ)言文本很難表示在同一個(gè)特征空間上,這給漢越雙語(yǔ)新聞話(huà)題發(fā)現(xiàn)工作帶來(lái)了挑戰(zhàn)。同時(shí),新聞報(bào)道中的時(shí)間、地點(diǎn)、人物、事情經(jīng)過(guò)和事情發(fā)生的原因具有真實(shí)性,這些關(guān)鍵內(nèi)容必須具體、明確,對(duì)于同一事件的報(bào)道,漢語(yǔ)與越南語(yǔ)新聞在這些新聞要素上一致,這為進(jìn)行漢越雙語(yǔ)的話(huà)題發(fā)現(xiàn)研究提供了有效的途徑。利用新聞要素表征文檔,計(jì)算要素間相關(guān)性,可以計(jì)算出文本間的相似度,構(gòu)成漢越雙語(yǔ)新聞圖模型,圖中節(jié)點(diǎn)的緊密程度表示文本相似度高低,這樣便將漢越雙語(yǔ)新聞話(huà)題發(fā)現(xiàn)看成圖模型的聚類(lèi)問(wèn)題來(lái)分析。
漢越雙語(yǔ)新聞圖G={V,E,W},表示漢越雙語(yǔ)新聞集合N與圖的一個(gè)映射。V是漢越雙語(yǔ)新聞集合中的新聞文本在圖中對(duì)應(yīng)的文本集合,vi為漢語(yǔ)文本,vj為越南語(yǔ)文本,表示為V={vi,vj|1≤i≤n,1≤j≤m}。E是漢越雙語(yǔ)新聞集合中的新聞文本在圖中的邊, (vi1,vi2)為漢語(yǔ)文檔間的邊,(vj1,vj2)為越南語(yǔ)文檔間的邊,(vi,vj)為漢越雙語(yǔ)文檔間的邊,表示為E={(vi,vj),(vi1,vi2),(vj1,vj2)|i1≠i2,j1≠j2}。W表示圖中邊的權(quán)重,表示為W={w(i,j),w(i1,i2),w(j1,j2)},權(quán)重由新聞要素相似度決定。新聞的事件要素一般包括時(shí)間、地點(diǎn)、人物、經(jīng)過(guò)和原因,可以表示為When,Where,Who,What和Why,其中,時(shí)間可以用時(shí)間實(shí)體來(lái)表示,地點(diǎn)可以用地點(diǎn)實(shí)體來(lái)表示,人物可以用人物實(shí)體來(lái)表示,經(jīng)過(guò)一般用要素中的動(dòng)詞來(lái)表示。規(guī)定兩個(gè)新聞文本間具有連接線(xiàn)必須滿(mǎn)足以下條件之一:(1)兩篇新聞在時(shí)間、地點(diǎn)和人物等要素上有相同的要素對(duì)出現(xiàn);(2)兩篇新聞在What這個(gè)要素上相似度達(dá)到0.5以上。
計(jì)算單語(yǔ)文檔間邊權(quán)重時(shí),考慮新聞文本中的詞對(duì)于所在新聞文本的重要程度,采用TF-IDF方法計(jì)算。抽取新聞文本要素,以向量的形式表征一篇新聞文本,每個(gè)向量由其特征項(xiàng)及權(quán)重表示,構(gòu)成文本向量空間。相同語(yǔ)言文檔節(jié)點(diǎn)間的相似度采用兩篇文檔空間向量的夾角余弦來(lái)計(jì)算。
設(shè)任意兩個(gè)節(jié)點(diǎn)?xi,xk∈V,TF-IDF公式為
Wt,x=TFt,x×IDFt,x
(1)
(2)
IDFt,x=log(X/XN)
(3)
式中:Wt,x為新聞要素t在新聞文本x中的權(quán)重; TFt,x指詞語(yǔ)t在文檔x中出現(xiàn)的頻率,如式(2)表示一篇有M個(gè)詞的文檔含有N個(gè)新聞要素t。IDFt,x反映新聞要素t在所有新聞文檔中的常見(jiàn)程度,在一定程度上體現(xiàn)了該新聞要素的區(qū)分能力,其中X表示所有新聞文檔的數(shù)目,XN表示所有新聞文檔中包含新聞要素t的文檔數(shù)。
利用文檔向量間的夾角余弦分別計(jì)算相同語(yǔ)言文檔節(jié)點(diǎn)間的權(quán)重為
(4)
式中:Wt,x1,Wt,x2分別為文檔x1,x2中的第t個(gè)特征項(xiàng)的權(quán)重,從而得到相同語(yǔ)言文檔間的權(quán)重,即w(i1,i2),w(j1,j2) 。
計(jì)算漢越雙語(yǔ)文檔間邊權(quán)重時(shí),抽取新聞文檔要素,將漢越雙語(yǔ)文檔表征成向量,計(jì)算漢語(yǔ)文檔向量中新聞要素與越南語(yǔ)文檔向量中每個(gè)新聞要素的相似度和,從而得到漢越雙語(yǔ)文檔間的相似度為
(5)
圖1 漢越雙語(yǔ)新聞圖Fig.1 Chinese-Vietnamese bilingual news graph
式中:w(i,j)為漢越雙語(yǔ)文檔間邊的相似度,即圖中邊vi與vj之間的權(quán)重;w(a,b)為漢越文檔中兩個(gè)要素的相似度。w(a,b)具體相似度的計(jì)算方法是借助維基百科中具有中越互譯關(guān)系的概念,不同語(yǔ)言詞語(yǔ)會(huì)出現(xiàn)在不同的概念頁(yè)面上,且詞語(yǔ)與其他概念之間存在一定的共現(xiàn)關(guān)系,首先提取維基百科中漢語(yǔ)越南語(yǔ)具有對(duì)應(yīng)關(guān)系的概念集合,構(gòu)建雙語(yǔ)概念特征空間,然后根據(jù)詞語(yǔ)在相應(yīng)概念描述文本中出現(xiàn)的詞頻特征,以及詞語(yǔ)與概念在其他概念文本中的共現(xiàn)特征構(gòu)建詞語(yǔ)的概念向量值,最后通過(guò)夾角余弦對(duì)兩個(gè)向量進(jìn)行詞語(yǔ)相似度計(jì)算[10]。最后可以得到漢越新聞圖模型,基本框架如圖1所示。
漢越雙語(yǔ)新聞圖的轉(zhuǎn)移概率矩陣可以表示為pz= (pij),它是一個(gè)n×n矩陣,其中的每一個(gè)元素pi j表示任意一個(gè)頂點(diǎn)vi到其鄰居節(jié)點(diǎn)vj的轉(zhuǎn)移概率為
(6)
式中:wij為新聞文本節(jié)點(diǎn)vi與vj的相似度,即圖中邊的權(quán)重;k為圖中以文本節(jié)點(diǎn)vi為端點(diǎn)的邊的個(gè)數(shù);∑wij為所有以文本節(jié)點(diǎn)vi為端點(diǎn)的邊的權(quán)重之和;圖中不具有連線(xiàn)關(guān)系的文本節(jié)點(diǎn)的轉(zhuǎn)移概率為0。
定義1給定圖G={V,E,W},頂點(diǎn)vi到vj的路徑是集合E中從頂點(diǎn)v0=vi出發(fā)到頂點(diǎn)vk+1=vj結(jié)束的一系列邊的集(v0,v1),(v1,v2),…,(vk-1,vk),(vk,vj),可表示為Path(vi,vj),如果有這樣一條可以相通的路徑就說(shuō)明頂點(diǎn)vi和vj是相連的。路徑上邊的權(quán)重之和可以表示路徑的長(zhǎng)度,而頂點(diǎn)vi和vj之間的距離指長(zhǎng)度中最大的一個(gè)。
采用隨機(jī)游走模型來(lái)度量漢越新聞圖中頂點(diǎn)之間的相似度,若兩個(gè)頂點(diǎn)之間相通的路徑越多,則說(shuō)明兩頂點(diǎn)之間的轉(zhuǎn)移概率就越大,頂點(diǎn)之間的相似度就越大。
定義2圖G的n×n的轉(zhuǎn)移概率矩陣為pz,給定l為隨機(jī)游走的路徑長(zhǎng)度,則頂點(diǎn)vi到vj的鄰近隨機(jī)游走相似度為
(7)
式中:Path(vi,vj)是頂點(diǎn)vi到vj的路徑,其長(zhǎng)度為length(Path(vi,vj)),p(Path(vi,vj))為轉(zhuǎn)移概率。隨機(jī)游走相似度矩陣可表示為
(8)
式中:pz為轉(zhuǎn)移概率矩陣,l為隨機(jī)游走的路徑長(zhǎng)度。過(guò)程如算法1所描述。
算法1漢越新聞圖隨機(jī)游走相似度矩陣算法。
輸入:漢越新聞圖。
輸出:隨機(jī)游走相似度矩陣。
(1)計(jì)算漢越新聞圖的轉(zhuǎn)移概率矩陣。
(2)計(jì)算漢越新聞圖的鄰近隨機(jī)游走相似度。
(3)利用轉(zhuǎn)移概率矩陣計(jì)算漢越新聞圖的隨機(jī)游走相似度矩陣。
(4)輸出漢越新聞圖的隨機(jī)游走相似度矩陣。
利用漢越新聞文本相似度矩陣進(jìn)行圖聚類(lèi)與一般聚類(lèi)問(wèn)題相比存在以下特點(diǎn):(1)通過(guò)隨機(jī)游走得到的漢越新聞文本相似度矩陣,描述的是節(jié)點(diǎn)之間的相關(guān)程度,而不是節(jié)點(diǎn)之間的歐式距離,故無(wú)法直接使用K-Means算法進(jìn)行求解。(2)本文得到的漢越新聞文本相似度矩陣不對(duì)稱(chēng),故無(wú)法使用譜聚類(lèi)的方法進(jìn)行求解。因此,本文采用信息傳遞算法[11]對(duì)漢越新聞文本圖模型進(jìn)行聚類(lèi),整個(gè)聚類(lèi)的過(guò)程,利用漢越雙語(yǔ)新聞圖的隨機(jī)游走相似度矩陣,通過(guò)迭代更新吸引度和歸屬度兩種信息完成聚類(lèi),相應(yīng)的更新公式為
(9)
(10)
(11)
式中:r(vi,vj)為從頂點(diǎn)vi發(fā)送到聚類(lèi)中心vj的數(shù)值消息,反映頂點(diǎn)vj是否適合作為頂點(diǎn)vi的聚類(lèi)中心;s(vi,vj)為頂點(diǎn)vi和vj的相似度;a(vi,vj)為從候選聚類(lèi)中心vj發(fā)送到頂點(diǎn)vi的數(shù)值信息,反映頂點(diǎn)vi是否選擇vj作為其聚類(lèi)中心。在信息傳遞聚類(lèi)算法的每次迭代更新頂點(diǎn)vi的過(guò)程中,吸引度Ri和歸屬度Ai要與上次迭代所得Ri-1與Ai-1的值進(jìn)行加權(quán)更新,更新公式為
Ri=(1-lam)×Ri+lam×Ri-1
(12)
Ai=(1-lam)×Ai+lam×Ai-1
(13)
其中,lam∈[0,1]通過(guò)改變lam的值可以改進(jìn)算法的收斂性。
算法滿(mǎn)足以下條件之一,即停止迭代:
(1)達(dá)到預(yù)先設(shè)定的迭代次數(shù);(2)頂點(diǎn)信息改變量低于設(shè)定的閾值;(3)所選的聚類(lèi)中心在連續(xù)若干次的迭代中保持穩(wěn)定的值。
根據(jù)r(vi,vj)+a(vi,vj)的值判斷頂點(diǎn)vj能否作為聚類(lèi)中心,最后,將其他頂點(diǎn)分配到與其最鄰近的聚類(lèi)中心。具體的聚類(lèi)過(guò)程如算法2所示。
算法2信息傳遞聚類(lèi)算法。
輸入:鄰接隨機(jī)游走相似度矩陣。
輸出:k個(gè)簇C1,C2,C3,…,Ck。
(1)初始化r(vi,vj)=0,a(vi,vj)=0
(2)迭代執(zhí)行以下更新過(guò)程:
(6)Ri=(1-lam)×Ri+lam×Ri-1
(7)Ai=(1-lam)×Ai+lam×Ai-1
(8)對(duì)于任一個(gè)頂點(diǎn)vi,如果r(vi,vi)+a(vi,vi)達(dá)到迭代次數(shù)或者不再變化,則vi是一個(gè)聚類(lèi)中心。
(9)基于s(vi,vi),將其他頂點(diǎn)vj分配到與它最鄰近的聚類(lèi)中心。
(10)輸出k個(gè)簇C1,C2,C3,…,Ck。
基于以上隨機(jī)游走算法和信息傳遞算法,最后得到k個(gè)簇,認(rèn)為每一個(gè)簇都是一個(gè)話(huà)題,完成了漢越雙語(yǔ)新聞的話(huà)題發(fā)現(xiàn)任務(wù)。
選取了180個(gè)中文門(mén)戶(hù)網(wǎng)站和20個(gè)論壇以及125個(gè)不同專(zhuān)題的越南語(yǔ)網(wǎng)站。中文新聞包括新華社、人民日?qǐng)?bào)、知名論壇、主流門(mén)戶(hù)網(wǎng)站和越南網(wǎng)站(以每日快訊、越訊社和越共機(jī)關(guān)等核心平臺(tái)為主)。在從爬取到的數(shù)據(jù)中選擇訓(xùn)練集時(shí),選取了5個(gè)話(huà)題:兩會(huì)、朝核、中國(guó)反腐、南海爭(zhēng)端和敘利亞反恐。因?yàn)樵谶@5個(gè)話(huà)題上,越南的各大媒體和中國(guó)的各大媒體關(guān)注最多。另外,一個(gè)話(huà)題出現(xiàn)以后,會(huì)在一段時(shí)間內(nèi)出現(xiàn)很多關(guān)于該話(huà)題的新聞報(bào)道,所以在進(jìn)行新聞文檔選取的時(shí)候只選取近10天的新聞數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
新聞最核心的是What,Who,Where,When和Why 5個(gè)要素,而這5個(gè)要素的詞性主要對(duì)應(yīng)了動(dòng)詞、名詞、時(shí)態(tài)詞、形容詞和數(shù)詞,因此在對(duì)漢語(yǔ)和越南語(yǔ)新聞文本進(jìn)行分詞和詞性標(biāo)注后,將這些詞性的詞語(yǔ)抽取出來(lái)作為新聞要素。對(duì)于中文詞性標(biāo)注和命名實(shí)體識(shí)別,采用ICTCLAS3.0工具。利用越南語(yǔ)分詞工具[12]對(duì)越南語(yǔ)新聞文本進(jìn)行分詞、詞性標(biāo)注等處理,根據(jù)處理結(jié)果,人工輔助抽取要素。各類(lèi)新聞數(shù)如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
在話(huà)題發(fā)現(xiàn)研究中,經(jīng)常會(huì)用錯(cuò)檢率F和漏檢率M作為評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)的具體含義見(jiàn)表2。
表2 評(píng)價(jià)指標(biāo)的具體含義
在表2中用大寫(xiě)字母A,B,C,D來(lái)表示某一個(gè)話(huà)題的檢測(cè)結(jié)果,用F=B/(B+D) 來(lái)表示話(huà)題檢測(cè)的錯(cuò)檢率,用M=C/(A+C)來(lái)表示話(huà)題檢測(cè)的漏檢率。此外,為了綜合漏檢率和錯(cuò)檢率,定義耗費(fèi)函數(shù)(Cost function)為
CDet=CmissPmissP(rel)+CfaPfa(1-P(rel))
(14)
式中:Cmiss和Cfa為話(huà)題檢測(cè)中漏檢和誤檢的代價(jià),P(rel)表示某個(gè)新聞報(bào)道屬于某一類(lèi)的先驗(yàn)概率,Pmiss和Pfa為話(huà)題檢測(cè)的漏檢概率和誤檢概率。在TDT的標(biāo)準(zhǔn)中,令Cmiss=1.0,Cfa=0.1,P(rel)=0.02。由此可以看出耗費(fèi)函數(shù)越小,話(huà)題發(fā)現(xiàn)效果越好。
本文通過(guò)3個(gè)不同方法進(jìn)行漢越新聞話(huà)題發(fā)現(xiàn),方法1通過(guò)基于多策略?xún)?yōu)化的分治多層聚類(lèi)算法的話(huà)題發(fā)現(xiàn)方法,首先得出單語(yǔ)文檔下的聚類(lèi)結(jié)果,然后通過(guò)機(jī)器翻譯的方法將其合并;方法2采用雙語(yǔ)文檔主題生成模型(Latent Dirichlet allocation, LDA),利用Wikipedia中的10 000對(duì)漢越雙語(yǔ)文檔構(gòu)建可比語(yǔ)料,訓(xùn)練雙語(yǔ)主題模型,對(duì)不同語(yǔ)言文本進(jìn)行表示[13]。認(rèn)為一對(duì)文檔主題上具有相同的概率分布。本文共設(shè)置了100個(gè)主題,利用獲得的雙語(yǔ)主題模型來(lái)對(duì)要聚類(lèi)的500篇新聞進(jìn)行推斷,最后,采用K-Means進(jìn)行聚類(lèi)。方法3采用本文提出的話(huà)題發(fā)現(xiàn)方法。實(shí)驗(yàn)結(jié)果如表3所示。
表3 新聞話(huà)題發(fā)現(xiàn)對(duì)比實(shí)驗(yàn)結(jié)果
根據(jù)實(shí)驗(yàn)結(jié)果數(shù)據(jù),分別計(jì)算每種方法的誤檢率、漏檢率和消耗函數(shù),對(duì)比結(jié)構(gòu)如表4所示。通過(guò)表4的實(shí)驗(yàn)結(jié)果對(duì)比可以發(fā)現(xiàn),在給定訓(xùn)練集的5個(gè)話(huà)題下,本文方法通過(guò)計(jì)算新聞要素的相似度,求得圖模型,并通過(guò)隨機(jī)游走算法求得相似度矩陣,在話(huà)題發(fā)現(xiàn)方面,不論是漏檢率、誤檢率還是最后的耗費(fèi)函數(shù)都要優(yōu)于基于多策略?xún)?yōu)化的分治多層聚類(lèi)算法和雙語(yǔ)LDA方法。由此可見(jiàn),本文提出的基于圖模型的漢越雙語(yǔ)新聞話(huà)題發(fā)現(xiàn)圖聚類(lèi)模型是可行的。
表4 誤檢率、漏檢率和消耗函數(shù)
在雙語(yǔ)環(huán)境下進(jìn)行話(huà)題發(fā)現(xiàn)是一項(xiàng)比較困難的任務(wù),本文提出基于圖聚類(lèi)的漢越雙語(yǔ)話(huà)題發(fā)現(xiàn)方法,利用雙語(yǔ)新聞要素作為跨語(yǔ)言的橋梁,根據(jù)不同語(yǔ)言新聞要素之間的關(guān)聯(lián)計(jì)算不同語(yǔ)言新聞文本之間的相似度。通過(guò)本文的研究可以發(fā)現(xiàn)利用新聞要素可以更好地表征一篇新聞文檔;此外,利用新聞要素作為跨語(yǔ)言橋梁,建立漢越雙語(yǔ)新聞圖模型,通過(guò)圖中節(jié)點(diǎn)的緊密程度表示新聞相似程度,采用基于信息傳遞的漢越雙語(yǔ)新聞圖聚類(lèi)算法能夠有效地提高話(huà)題發(fā)現(xiàn)的效果。下一步工作將融合新聞主題句的關(guān)聯(lián),提高漢越雙語(yǔ)話(huà)題發(fā)現(xiàn)的效果。
參考文獻(xiàn):
[1] Zhang Dan, Li Shengdong. Topic detection based on K-means[C]// International Conference on Electronics, Communications and Control. Ningbo, China:[s.n.], 2011:2983-2985.
[2] 趙華,趙鐵軍,于浩,等. 基于查詢(xún)向量的英語(yǔ)話(huà)題跟蹤研究[J].計(jì)算機(jī)研究與發(fā)展, 2007,44(8):1412-1417.
Zhao Hua, Zhao Tiejun, Yu Hao, et al. English topic tracking research based on query vector[J]. Journal of Computer Research and Development, 2007,44(8):1412-1417.
[3] Guo Xin, Xiang Yang, Chen Qian, et al. LDA-based online topic detection using tensor factorization[J]. Journal of Information Science, 2013, 39(4):459-469.
[4] Phan X H, Nguyen L M, Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]// International Conference on World Wide Web. Beijing, China:[s.n.], 2008:91-100.
[5] Zhao Wenqing, Hou Xiaoke. News topic recognition of Chinese microblog based on word co-occurrence graph[J]. CAAI Transactions on Intelligent Systems, 2012, 5: 444-449.
[6] Mathieu B, Fluhr C. Multilingual document clusters discovery[C]// Computer-assisted Information Retrieval. Avignon, France: [s.n.], 2004:116-125.
[7] Boyd-Graber J, Blei D M. Multilingual topic models for unaligned text[C]// Conference on Uncertainty in Artificial Intelligence. [S.l.]: AUAI Press, 2012:75-82.
[8] Mimno D, Wallach H M, Naradowsky J, et al. Polylingual topic models[C]// Conference on Empirical Methods in Natural Language Processing. Singapore: ACL, 2009:880-889.
[10] 楊啟悅, 余正濤, 洪旭東,等.基于維基百科的漢越詞語(yǔ)相似度計(jì)算[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,40(4):461-466.
Yang Qiyue, Yu Zhengtao, Hong Xudong, et al. Chinese-Vietnamese word similarity computation based on Wikipedia[J]. Journal of Nanjing University of Science and Technology, 2016,40(4):461-466.
[11] Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814):972-976.
[12] Cam Tu N, Xuan Hieu P, Thu Trang N. JVnTextPro: A Java-based Vietnamese text processing tool[EB/OL]. http: //jvntextpro.sourceforge.net/, 2010-1-1.
[13] Ni Xiaochuan, Sun Jiantao, Hu Jian, et al. Mining multilingual topics from Wikipedia[C]// International Conference on World Wide Web. Madrid, Spain:[s.n.], 2009:1155-1156.