遆慧穎,耿 騫,靳 健
(北京師范大學(xué)政府管理學(xué)院,北京 100875)
隨著網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,網(wǎng)絡(luò)信息內(nèi)容主要呈現(xiàn)出信息總量大、增速快和來源多樣化等特征。同時,作為一種典型的非結(jié)構(gòu)性化數(shù)據(jù),海量的文本信息也不斷涌現(xiàn)。普通用戶以及廣大學(xué)習(xí)者和研究人員可以通過Wikipedia、百度百科、必應(yīng)百科為代表的網(wǎng)絡(luò)全書類網(wǎng)站獲取各學(xué)科概念定義以及使用發(fā)展等信息。但是各學(xué)科在理論與實用領(lǐng)域不斷發(fā)展,并且不少研究都呈現(xiàn)了蓬勃的交叉融合、系統(tǒng)發(fā)展的趨勢。這使得不具備專業(yè)知識的普通用戶很難通過該類百科全書在短時間內(nèi)獲取目標概念所屬學(xué)科的整體信息。因此,利用算法有效地、自動地實現(xiàn)學(xué)科領(lǐng)域劃分將大大提高用戶獲取信息的效率。
同時,不同學(xué)科各具特點,且有的學(xué)科知識存在著一定的交叉融合。例如,藝術(shù)領(lǐng)域?qū)I(yè)性較強。但在數(shù)學(xué)領(lǐng)域,除核心的概念定理之外,不少概念還廣泛應(yīng)用于各個學(xué)科。而情報學(xué)中有的概念是由計算機科學(xué)和數(shù)學(xué)等學(xué)科交叉產(chǎn)生。正如有學(xué)者研究指出[1],交叉學(xué)科在各個學(xué)科的知識、技術(shù)以及視野方面均有所交叉融合,而學(xué)科這一概念已經(jīng)不能通過簡單的“三獨立說”實現(xiàn),即獨立的概念系統(tǒng)、獨立的研究方法和獨立的研究對象。傳統(tǒng)的簡單的規(guī)則已很難從包含海量知識的網(wǎng)絡(luò)百科全書中獲取當(dāng)前的學(xué)科領(lǐng)域相關(guān)知識。而這一問題對不斷發(fā)展的新興學(xué)科更為嚴重。
目前,學(xué)科領(lǐng)域的文本劃分多利用基于規(guī)則或統(tǒng)計的方式,在特定領(lǐng)域進行實現(xiàn)[2],缺乏系統(tǒng)性視角以及對語義之間的相互作用的整體性考慮。注意到學(xué)科概念與概念描述文本主題存在一定的相關(guān)度,而這種相關(guān)程度不能僅由文本相似度的絕對值大小來決定,還與概念間的聯(lián)系程度、重要概念間關(guān)聯(lián)程度等很多關(guān)聯(lián)因素有關(guān)。這些因素都影響著一個概念是否可以被劃入一個學(xué)科領(lǐng)域中。并且,實際中,一個詞條可能屬于多個領(lǐng)域。該現(xiàn)象與復(fù)雜網(wǎng)絡(luò)中的重疊社團相對應(yīng)。
因此,本研究嘗試從復(fù)雜網(wǎng)絡(luò)的視角探索領(lǐng)域詞條劃分問題。具體來說,本研究將通過分析詞條間由相似度產(chǎn)生的語義相互作用,獲取學(xué)科領(lǐng)域邊界。首先,本研究將利用隱含狄利克雷分布(Latent Dirichlet Allocation,簡稱LDA)主題模型構(gòu)建語義相似度網(wǎng)絡(luò)。然后,針對語義相似度網(wǎng)絡(luò)的特征,對復(fù)雜網(wǎng)絡(luò)中的標簽傳播算法進行改進。最后,利用所提出的改進算法,實現(xiàn)學(xué)科邊界的劃分。
本研究提出的方法具有理論和實際意義。在理論領(lǐng)域方面,本研究提出了改進標簽傳播算法,為將復(fù)雜網(wǎng)絡(luò)算法引入文本劃分領(lǐng)域做出了探索。在實際應(yīng)用方面,學(xué)科領(lǐng)域邊界的劃分可以提高用戶查詢效率,為建立相應(yīng)學(xué)科本體構(gòu)建基礎(chǔ)語料庫,幫助初學(xué)者更好地組織網(wǎng)絡(luò)百科全書中的大量信息和了解學(xué)科領(lǐng)域包含的內(nèi)容。
按照每個文本單元具有的標簽數(shù),從分類結(jié)果角度,文本分類可以分為單標簽劃分和多標簽劃分。多標簽文本劃分算法在推薦系統(tǒng)、本體構(gòu)建以及評論挖掘等方面都有廣泛應(yīng)用。
LILLEBERG 等提出了基于詞向量和支持向量機的文本標簽劃分[3]。PAVLINEK 提出了利用LDA 主題模型和半監(jiān)督學(xué)習(xí)方法展開多標簽文本劃分[4]。鄧三鴻利用多個二元分類器以深度學(xué)習(xí)的方法實現(xiàn)了中文圖書的多標簽分類[5]。劉晉宏提出了利用圖結(jié)構(gòu)上的隨機游走算法確定標簽分布概率,從而實現(xiàn)多標簽分類的算法[6]。劉心惠等綜合神經(jīng)網(wǎng)絡(luò)、主題模型等提出了基于聯(lián)合模型的多標簽文本分類方法[7]。
上述方法在精確率和召回率方法取得了較好的結(jié)果。但是這些算法大都將文本視為獨立個體或者均以整體進行詞頻和概率展開分析,沒有充分利用詞條相似性的結(jié)構(gòu)性信息。本研究的展開是建立在詞條網(wǎng)絡(luò)上的,通過探索詞條間由相似度構(gòu)建的語義相互作用,獲取更大范圍和具有實踐意義的學(xué)科領(lǐng)域邊界。
本研究以復(fù)雜網(wǎng)絡(luò)的視角,立足詞條的具體語義,對大量的詞條及其它們之間的相互關(guān)系進行網(wǎng)絡(luò)化的建模和結(jié)構(gòu)分析。復(fù)雜網(wǎng)絡(luò)作為系統(tǒng)科學(xué)研究的重要內(nèi)容,已經(jīng)廣泛應(yīng)用于電力系統(tǒng)[8]、社交網(wǎng)絡(luò)[9]、城市交通[10]、經(jīng)濟預(yù)測[11]、網(wǎng)絡(luò)劃分[12]等重要領(lǐng)域。近年來,學(xué)者嘗試將復(fù)雜網(wǎng)絡(luò)相關(guān)概念和算法引入文本劃分領(lǐng)域。趙輝等提出利用復(fù)雜網(wǎng)絡(luò)理論中的節(jié)點加權(quán)度、加權(quán)聚集系數(shù)、節(jié)點介數(shù)等指標進行文本特征選擇的分類算法[13]。尹麗英以最大公共子圖文本語義相似度計算方法為基礎(chǔ)來提取特征文本,從而構(gòu)建訓(xùn)練文本集的語義復(fù)雜網(wǎng)絡(luò),并利用K 最近鄰算法進行社團劃分[14]。這些研究發(fā)現(xiàn)文本和實物同樣具有網(wǎng)絡(luò)結(jié)構(gòu),而其網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)了文本之間的連接緊密的局部關(guān)系。
在這些研究中,盡管詞條網(wǎng)絡(luò)和文本網(wǎng)絡(luò)逐漸進入研究視野,但是其語義分類尚未與復(fù)雜網(wǎng)絡(luò)聯(lián)系起來。而注意到學(xué)科領(lǐng)域內(nèi)詞條連接通常較明顯地強于領(lǐng)域外的連接。因此,本研究將文本間的關(guān)聯(lián)引申到學(xué)科領(lǐng)域,以實現(xiàn)學(xué)科詞條劃分。
在自然語言處理領(lǐng)域,研究人員圍繞文本相似度的定義進行了多方面的研究。一方面,基于詞頻的文本相似度往往常利用“詞頻-逆文檔頻率”的方法將文本轉(zhuǎn)化為詞頻加權(quán)向量,之后利用余弦相似度及類似方法計算相似度。在此基礎(chǔ)上,許多經(jīng)典研究希望可以挖掘詞語本身的相互關(guān)系。為此,經(jīng)典的研究利用字典來計算詞語間的相似性。另一方面,從文本的生成結(jié)構(gòu)的角度出發(fā),研究人員構(gòu)建了生成概率模型。其中,潛在語義(Latent Semantic Analysis,簡稱LSA)分析構(gòu)建了“單詞-文檔”矩陣[15],概率潛在語義分析(Probabilistic Latent Semantic Analysis,簡稱PLSA)在LSA 的基礎(chǔ)上構(gòu)建了“話題-文檔-單詞”三級概率模型[16]。為了解決上述兩種方法的參數(shù)隨文本增加問題,BLEI 等引入了參數(shù)的先驗分布模型,提出了LDA 主題模型,解決潛在導(dǎo)致的過擬合問題[17]。LDA 是一種經(jīng)典的概率模型。在該模型中,文本被看作概率生成過程的結(jié)果。生成過程定義了觀測隨機變量和隱藏隨機變量的聯(lián)合概率分布。通過使用聯(lián)合分布,計算在給定觀測變量下隱藏變量的條件分布,并展開數(shù)據(jù)分析。在LDA 中,觀測變量是文檔中的詞,而隱藏變量就是主題結(jié)構(gòu)。LDA 主題模型將從文檔中推測隱藏的主題結(jié)構(gòu)的問題轉(zhuǎn)化為計算在給定文檔下隱藏變量的后驗分布問題。
本研究將利用LDA 主題模型獲取詞條相似度,為后續(xù)的處理構(gòu)建詞條相似度網(wǎng)絡(luò)。
復(fù)雜網(wǎng)絡(luò)中的社團劃分算法從研究思路上可以分為基于圖論的算法,如隨機游走算法[18]等,基于層次聚類和連邊性質(zhì)的算法,如Newman 快速算法等[19],基于網(wǎng)絡(luò)性質(zhì)或網(wǎng)絡(luò)動力學(xué)的算法[20]等。
以標簽傳播類算法為代表的系列算法計算速度較快,可以適用于大規(guī)模語料庫。KOTHARI 等第一次提出標簽傳播的算法思想[21]。RAGHAVAN 等提出了接近于線性的快速標簽傳播社團劃分算法[22]。在此基礎(chǔ)上,GREGORY 首次將標簽傳播算法由非重疊社團劃分拓展到重疊社團劃分的領(lǐng)域,提出了Community Overlap PRopagation Algorithm(COPRA)算法,允許一個節(jié)點屬于多個社團[23]。根據(jù)COPRA 算法,文獻[22]中提出的快速標簽傳播社團劃分算法可以看作將每個節(jié)點所屬的最大社團數(shù)為1 的特殊情況。此外,還有學(xué)者對COPRA 算法做出改進。例如,饒仁杰等利用LeaderRank 算法減少了COPRA 算法隨機性,加強了算法的魯棒性[24],而杜長江等則利用“K-核分解算法”決定了標簽傳播的順序[25]。
除了適用于大規(guī)模網(wǎng)絡(luò)外之外,標簽傳播算法中的“以周圍節(jié)點定義自身”的運行邏輯與本研究預(yù)構(gòu)建的語義相似度網(wǎng)絡(luò)基本思想相符:在學(xué)科領(lǐng)域的語義相似度網(wǎng)絡(luò)中,概念與概念之間具有互相定義和解釋能力。另外,與實物網(wǎng)絡(luò)相比,語義相似度網(wǎng)絡(luò)的節(jié)點數(shù)目更多,連邊密度更大,各個節(jié)點的權(quán)重相近。因此,在節(jié)點選擇時,COPRA 算法及不少基于COPRA 的改進算法將面臨多個權(quán)責(zé)差別較小的節(jié)點。該情況使得節(jié)點的選擇具有較大隨機性,這將影響算法整體性能。為降低節(jié)點選擇的隨機性,本研究將進一步對COPRA 算法做出改進,以適用于文本領(lǐng)域的概念劃分。
本文的研究問題是在獲取目標學(xué)科或者領(lǐng)域中的詞條的基礎(chǔ)上,提出智能算法,高效地實現(xiàn)學(xué)科領(lǐng)域地劃分,從而幫助查詢者提高信息獲取效率。本文的研究目標是分析相互關(guān)聯(lián)的概念所屬的目標領(lǐng)域,從而劃定目標學(xué)科的領(lǐng)域邊界,以幫助確定與學(xué)科領(lǐng)域相關(guān)的概念。
為此,在指定領(lǐng)域內(nèi)的給定詞條情況下,本研究將以Wikipedia 為例對網(wǎng)絡(luò)知識庫中的概念展開分析,明確與指定詞條相關(guān)的領(lǐng)域內(nèi)容。
本研究的整體思路分為詞條的語義網(wǎng)絡(luò)構(gòu)建及基于改進COPRA 算法的詞條社團劃分兩個部分。研究框架如圖1 所示。原始數(shù)據(jù)來自于Wikipedia 的詞條及其百科說明文本。在數(shù)據(jù)預(yù)處理步驟中,本研究主要對未知分類的詞條文本和目標領(lǐng)域中人工篩選的已知文本做出小寫化、刪去標點符號及停用詞、刪去無關(guān)鏈接等預(yù)處理,以得到初始文本。
在構(gòu)建詞條網(wǎng)絡(luò)步驟中,研究將以每一個詞條及其百科說明文本作為研究個體,并使用LDA 主題模型訓(xùn)練初始文本中的詞條,以得到每個詞條的代表向量。在此基礎(chǔ)上,以余弦相似度的大小衡量節(jié)點間的連邊重要性,并去掉閾值以下的部分,得到初始網(wǎng)絡(luò)。
在劃分領(lǐng)域步驟中,本研究提出了改進標簽傳播算法。該算法將與給定領(lǐng)域的詞條屬于同一領(lǐng)域的詞條作為目標領(lǐng)域的劃分結(jié)果,實現(xiàn)文本網(wǎng)絡(luò)的劃分。
為了有效地描述概念和概念之間的關(guān)系,本部分將Wikipedia 的詞條以及詞條之間的相似度映射到了詞條網(wǎng)絡(luò)上。本研究將建立以詞條作為網(wǎng)絡(luò)節(jié)點,以詞條相似度作為網(wǎng)絡(luò)連邊權(quán)重的詞條文本網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,節(jié)點用來描述概念本身的獨立性,連邊表現(xiàn)概念與概念之間的相互作用。
圖1 研究框架圖Fig.1 Research framework
在計算詞條相似度階段,本部分分別嘗試了Doc2vec 以及LDA 主題生成模型。經(jīng)過多組試驗分析,由于Wikipedia 的詞條書寫較為自由,而Doc2vec 對于語言表達用詞的依賴性相對較強。這使得利用Doc2Vec 計算得出的詞條相似度與學(xué)科概念本身相似度差異較大。所以,本部分選擇使用LDA 主題生成模型對文本進行向量化。利用LDA 主題模型,本研究可以得到指定主題數(shù)條件下的文本分布向量。
根據(jù)LDA 主題模型的結(jié)果,以詞條作為網(wǎng)絡(luò)節(jié)點,以詞條之間的余弦相似度作為連邊的權(quán)重,即可得到所有詞條的全連接網(wǎng)絡(luò)。然后,刪去相似度小于所設(shè)定的閾值的連邊即可得到文本的語義網(wǎng)絡(luò)。
3.4.1 COPRA 算法
重疊社團標簽傳播算法(Community Overlap PRopagation Algorithm,COPRA 算 法)是2002 年KOTHARI 提出的[21]。該算法將經(jīng)典標簽傳播算法由非重疊社團劃分拓展到重疊社團劃分的社團劃分算法。算法具體說明如下:
與經(jīng)典的標簽傳播算法一樣,COPRA 的核心思想是一個節(jié)點由其周圍相連的節(jié)點定義。假設(shè)第i個節(jié)點的標簽是b。每個節(jié)點都由節(jié)點標號x 和標簽b 表示,即{xi:b}。在COPRA 算法中,每個節(jié)點可以由多個標簽表示,而各個標簽在對該節(jié)點的表示中的不同貢獻用不同的權(quán)重表示{xi0:bi0,xi1:b11,…}。并且,權(quán)重需要做歸一化計算。例如,一個節(jié)點a 可以由1/2 的e,1/3 的c 和1/6 的d 表示,那么a 在算法中表示為{a:1/2,e:1/3,d:1/6}。另外,COPRA 算法設(shè)定了每個節(jié)點可以屬于的最多社團數(shù)v。在傳播結(jié)果中,刪去隸屬度小于1/v 的標簽,以控制節(jié)點的所屬社團小于等于v。
在算法的初始階段,每個節(jié)點的標簽是自己本身。標簽傳播開始后,每一步每個節(jié)點的標簽由與之相連的節(jié)點的標簽決定。相同標簽則累加其權(quán)重。之后,通過刪去標準化后權(quán)重小于1/v 的標簽,控制每個節(jié)點所屬的社團數(shù)。迭代到節(jié)點標簽不變或社團總數(shù)不變時,算法停止。此時,網(wǎng)絡(luò)中含有同一標簽的節(jié)點屬于同一個社團。圖2 描述了利用COPRA 算法實現(xiàn)4個節(jié)點且社團數(shù)為2 的標簽更新流程。
圖2 標簽傳播算法說明(最多社團數(shù)v=2)Fig.2 A diagram of label propagation algorithm(Maximum number of communities v=2)
3.4.2 COPRA 算法的改進
通過對經(jīng)典標簽傳播算法的分析和實驗,本研究發(fā)現(xiàn)在語義相似網(wǎng)絡(luò)中,因為概念詞條兩兩之間計算了相似度,而相似度本身的取值在[0,1]之間,所以網(wǎng)絡(luò)的連邊密集并且各個連邊的權(quán)重都差距較小。這種特殊性使經(jīng)典的標簽傳播算法在根據(jù)周圍節(jié)點確定節(jié)點標簽時存在很嚴重的“過度篩選,隨機選擇”的問題:因為眾多鄰居節(jié)點的標簽在定義節(jié)點自身時很難具有大于1/v 的權(quán)重,且權(quán)重常常相似。這使得常常會出現(xiàn)過度篩選掉了所有鄰居標簽,從而使得可能在鄰居節(jié)點中任取一個社區(qū)標簽的作為該節(jié)點的標簽。這種情況會導(dǎo)致節(jié)點所屬社團脫離實際,節(jié)點只屬于某一個社團且算法過早收斂,無法達到學(xué)科領(lǐng)域劃分的預(yù)期效果。例如,在圖3 中,A、B、C 的標簽均因為小于1/2,可能導(dǎo)致標簽選擇的隨機性很高。
圖3 原標簽傳播算法的過度收斂問題(最多社團數(shù)v=2)Fig.3 Overconvergence of the original label propagation algorithm(Maximum number of communities v=2)
為了提高算法的準確度,本研究對于算法進行了改進。對于節(jié)點的所有標簽隸屬度小于1/v,但是其含有多個隸屬度相同的標簽時,本研究提出了“one more chance”的思路:給予在所有標簽中權(quán)重最大的標簽更多一次的機會,讓它們多一次不被過度篩選的機會。具體的說,在標簽篩選階段,如果存在某些節(jié)點權(quán)重大于其他標簽,但該節(jié)點權(quán)重小于1/v,那么刪去其他節(jié)點。對于這些節(jié)點的標簽進行重新的整合和歸一化,再次根據(jù)1/v 的原則進行篩選。該改動減少了算法的隨機性,加強了算法的穩(wěn)定性,以充分挖掘網(wǎng)絡(luò)信息。COPRA 算法和改進COPRA 算法的對比如表1 所示。
在改進算法中,節(jié)點更新示例如圖4 所示。按照規(guī)則更新后,若某一標簽權(quán)重大于閾值,則選擇保留該標簽,以減少由于過度篩選引入的潛在的誤差。
圖4 改進算法說明(最多社團數(shù)v=2)Fig.4 The improved algorithm(Maximum number of communities v=2)
本實驗以計算機、文學(xué)、數(shù)學(xué)、體育、情報學(xué)和音樂等6個領(lǐng)域為例,對所提出的算法做出驗證分析。這些領(lǐng)域是較為常見的且具有一定關(guān)注度,而對這些領(lǐng)域詞條的自動歸檔將幫助初學(xué)者快速了解本學(xué)科的關(guān)注點。具體來說,首先,對于一個領(lǐng)域,本研究首先人工選擇五個核心詞條作為種子。然后,在種子詞條的維基百科頁面中,本研究提取了“See Also”部分中展示出的相關(guān)詞條,將這些詞條作為與核心詞條相連接的詞條。在此基礎(chǔ)上,本研究根據(jù)這種方法逐層擴展,以得到更多詞條。接著,對于一個領(lǐng)域,本研究從獲取的這些詞條中人工選取50個詞條,以構(gòu)建基礎(chǔ)數(shù)據(jù)集。例如,在計算機領(lǐng)域,本研究選取了“Computer science”“Database”“Algorithms”“Distributed computing”“Machine Learning”等6個詞條作為核心詞條,并以此擴展為50個領(lǐng)域概念詞條。為此,本研究獲取了來自6個不同的領(lǐng)域的共計300個Wikipedia 的英文詞條文本作為實驗的基礎(chǔ)數(shù)據(jù)。為了提高處理效率,減少冗余數(shù)據(jù)的影響,實驗對這些詞條做出如圖1 所示的數(shù)據(jù)預(yù)處理步驟中去除標點、停用詞等操作。
表1 改進標簽傳播算法與原算法的對比Table 1 Comparison of the improved label propagation algorithm and the original one
由于學(xué)科之間存在交叉,而Wikipedia 中沒有說明。所以,除300個詞條的已知分類,實驗對于詞條的交叉分類進行了人工標注,并將這些人工分類得到結(jié)果作為基礎(chǔ)評價網(wǎng)絡(luò)。具體評價指標如下。
(1)調(diào)整后的模塊度。為了衡量重疊社團的緊密程度,本研究采用如公式(1)所示的拓展的集聚系數(shù)。
其中,ki,kj指的是節(jié)點i,j的度,m是邊的總數(shù),Aij是鄰接矩陣,βic是i 對于社團c 的隸屬度,kic指的是節(jié)點在社團c 內(nèi)的連接總權(quán)重。
(2)精確率。假設(shè)C1是實際社團,C2是估計社團。精確率描述估計的劃分結(jié)果中屬于實際社團的比例。計算如公式(2)所示。
(3)召回率。假設(shè)C1是實際社團,C2是估計社團。召回率描述估計的劃分結(jié)果中屬于實際社團節(jié)點數(shù)占實際社團節(jié)點數(shù)的比例。計算如公式(3)所示。
(4)F1-score。查全率和查準率不能綜合說明算法的有效性。實驗將采用在節(jié)點層次的F1-score 對結(jié)果進行評估。F1-score 是介于0~1 之間的用于衡量節(jié)點水平準確度的一種指標。假設(shè)C1是實際社團,C2是估計社團。F1(C1,C2)衡量重疊集合C1,C2的查全率和精確率的調(diào)和平均值。計算方法如公式(4)所示。
首先,實驗對文本進行LDA 主題模型訓(xùn)練,獲取每個詞條的向量化表達。其次,通過詞條文本之間的余弦度計算,實驗得到了初始的全連接文本網(wǎng)絡(luò)。本實驗假設(shè)余弦相似度在0.05 以下的詞條主題語義相似度可忽略。因此,在實驗數(shù)據(jù)集構(gòu)建的網(wǎng)絡(luò)中,刪去對應(yīng)連邊,最終得到基礎(chǔ)實驗初始網(wǎng)絡(luò):含有300個詞條節(jié)點,9 900 條連邊的加權(quán)網(wǎng)絡(luò)。初始網(wǎng)絡(luò)中文本的主題相似度分布圖5 所示。
圖5 實驗數(shù)據(jù)分布說明Fig.5 Distribution of experimental data
為了驗證取樣的代表性,本實驗對Wikipedia 所有詞條進行隨機抽樣,得到3個抽樣數(shù)據(jù)集。3個抽樣數(shù)據(jù)集的詞條量及主題相似度統(tǒng)計特征如表2 所示。從表2 可以看出,實驗數(shù)據(jù)集與兩組基于抽樣數(shù)據(jù)集構(gòu)造的網(wǎng)絡(luò)的節(jié)點相似度分布差異不大。因此,本研究假設(shè)在實驗數(shù)據(jù)集得到的測試結(jié)果可以很好反映出不同算法的性能。
表2 實驗數(shù)據(jù)詞條量及主題相似度統(tǒng)計特征Table 2 Entry numbers of experimental data and statistics of topic similarity features
在實際應(yīng)用中,初始階段,實驗需要給定一個主題,提供屬于該主題的一個或一定數(shù)量的種子詞條。在社團劃分結(jié)果中,所有的詞條都被劃入了不同的社團。本研究選取與初始階段提供的種子詞條屬于一個社團的詞條的并集作為劃分結(jié)果。該詞條的集合被認為屬于給定主題的學(xué)科領(lǐng)域。實驗選用了每個學(xué)科領(lǐng)域名稱的詞條作為種子詞條。例如5 號計算機社團選用Computer Science,則與該詞條在劃分結(jié)果中處于同一社團的詞條均被劃入該主題,即使得這些詞條被劃入計算機領(lǐng)域。
在模型參數(shù)設(shè)置時,本次實驗選定最大社團數(shù)v為9。根據(jù)構(gòu)建的詞條網(wǎng)絡(luò),實驗利用改進COPRA 算法,并選取集聚系數(shù)Q 值最大時的詞條劃分結(jié)果。集聚系數(shù)的最大保證其結(jié)果是當(dāng)前算法下社團內(nèi)部的連接是最緊密的。劃分結(jié)果如圖6 所示。其中,圖6 中橫坐標為標簽,縱坐標為含有該標簽的節(jié)點。橫坐標相同的點被劃分為同一社團。在實驗中,橫坐標標簽0~49、50~99、100~149、150~199、200~249、250~299分別是已知核心分類為音樂、體育、數(shù)學(xué)、情報學(xué)、文學(xué)、計算機的詞條。例如,圖6 中紅色和藍色的色塊交接處為與體育相關(guān)的核心詞條。
圖6 文本劃分結(jié)果Fig.6 Results of text classification
4.5.1 基礎(chǔ)結(jié)果說明
表3 和表4 分別列出了改進的COPRA 算法和COPRA 算法在情報學(xué)領(lǐng)域及數(shù)學(xué)領(lǐng)域所獲取有關(guān)詞條劃分的部分結(jié)果。從結(jié)果可以看出,相比COPRA 算法,改進COPRA 算法可以獲得更好的結(jié)果。
表3 改進COPRA 算法及COPRA 算法在情報學(xué)領(lǐng)域獲取的部分詞條對比Table 3 Comparison of some entries obtained by the improved COPRA algorithm and the original one in theInformation Science field
圖7、圖8 和圖9 呈現(xiàn)了改進COPRA 算法和COPRA 算法在6個不同領(lǐng)域上有關(guān)詞條社團劃分的精確度、召回率和F1 值比較分析。如圖7 至圖9 所示,對于音樂、體育、計算機領(lǐng)域的詞條的社團劃分,相比于COPRA 算法,改進后的算法在精確度、召回率和F1 值都得到明顯改善,對文學(xué)領(lǐng)域詞條的劃分結(jié)果沒有明顯改善,但對情報學(xué)和數(shù)學(xué)領(lǐng)域的劃分結(jié)果略有下降。
改進后的算法使得情報學(xué)和數(shù)學(xué)領(lǐng)域詞條的社團劃分的精確率和F1 值偏低。其原因在于該算法的領(lǐng)域劃分結(jié)果比常用的領(lǐng)域定義相對較廣。例如,在數(shù)據(jù)集中,數(shù)學(xué)、計算機和情報學(xué)領(lǐng)域存在較大程度交叉。即部分計算機領(lǐng)域詞條被劃入情報學(xué)和數(shù)學(xué)領(lǐng)域,如Computer Science、Virtual Education、SQL、Data ControlLanguage 等被劃入情報學(xué)領(lǐng)域,而Atmospheric_Wave被劃入數(shù)學(xué)領(lǐng)域。而對于文學(xué)領(lǐng)域的詞條,改進后的算法的劃分結(jié)果的F1 值沒有明顯的提高。這種情況表示,在所選數(shù)據(jù)集中,給予對應(yīng)領(lǐng)域的詞條增加“one more chance”的篩選過程并沒有對劃分結(jié)果有明顯的影響。即在詞條劃分中,某些領(lǐng)域標簽已被賦予較大權(quán)重,則不需要在較小的權(quán)重的領(lǐng)域標簽內(nèi)進行二次選擇。此外,從6個領(lǐng)域的劃分結(jié)果中可以發(fā)現(xiàn),除文學(xué)和體育領(lǐng)域外,其他領(lǐng)域的劃分結(jié)果均達到了較高的水平。這可能與文學(xué)、體育領(lǐng)域概念相對較為分散,相似度相對較低有關(guān)。
表4 改進COPRA 算法及COPRA 算法在數(shù)學(xué)領(lǐng)域獲取的部分詞條對比Table 4 Comparison of some entries obtained by improved COPRA algorithm and original one in Mathematics
圖7 改進算法精確率的對比Fig.7 Comparison of precision of the improved algorithm
圖8 改進算法召回率度對比Fig.8 Comparison of recall of the improved algorithm
圖9 改進算法F1 的對比Fig.9 Comparison of F1 of the improved algorithm
改進后的算法對于領(lǐng)域劃分結(jié)果的集聚系數(shù)有明顯提高,如圖10 所示。從劃分結(jié)果來看,改進算法解決了原算法過快收斂的問題,可以得到合理的劃分結(jié)果,而不是大量的單節(jié)點社團,提升了分類器的性能。除了劃分結(jié)果與學(xué)科的特異性有關(guān)之外,整體劃分結(jié)果表現(xiàn)出學(xué)科領(lǐng)域的形態(tài)是基礎(chǔ)學(xué)科范圍擴張以及交叉學(xué)科內(nèi)部聚合。例如,從劃分結(jié)果中可以看出,盡管部分情報學(xué)的詞條同時屬于計算機科學(xué)和數(shù)學(xué),但是依然存在大量概念是獨立屬于情報學(xué)的。此現(xiàn)象說明,在原有學(xué)科概念拓展和交叉的基礎(chǔ)上,某些交叉學(xué)科具有一定的獨立性。而在其發(fā)展過程中,此類交叉學(xué)科也會演化出自身的概念,并不僅僅是簡單的對來自不同領(lǐng)域?qū)W科概念的融合。
圖10 改進算法集聚系數(shù)的對比Fig.10 Comparison of clustering coefficient of the Improved algorithm
4.5.2 參數(shù)敏感性分析
本章節(jié)在下面實驗探討最大社團v 和初始種子詞條數(shù)等參數(shù)對結(jié)果的影響。
(1)最大所屬社團v。改進的算法要預(yù)設(shè)每個節(jié)點所屬的最大社團數(shù)v。利用6個領(lǐng)域的詞條數(shù)據(jù),實驗分析了不同最大社團數(shù)對劃分結(jié)果的影響。圖11 表示了6個領(lǐng)域中不同的v 值對精確度和F1 值的影響。從圖11 可以看出,隨著最大社團數(shù)v 的增加,精確率和F1 沒有明顯的正相關(guān)關(guān)系。即是該參數(shù)的調(diào)整對結(jié)果沒有顯著影響。
(2)初始種子詞條。本組實驗將以情報學(xué)領(lǐng)域概念為例,分析初始種子詞條數(shù)對結(jié)果的影響。圖12 表示了不同初始種子詞條數(shù)對領(lǐng)域劃分的精確率、召回率、F1 的影響。
從圖12 可以看出,初始詞條的數(shù)量對領(lǐng)域詞條的劃分結(jié)果產(chǎn)生顯著的影響。精確率和F1 值隨種子詞條數(shù)量的增加呈明顯的上升趨勢,但是召回率沒有明顯的正向變化。本實驗將學(xué)科的核心的、具有代表性的、內(nèi)容詳盡的詞條文本作為種子詞條、增加詞條數(shù)都可以提高算法的有效性。但增加詞條數(shù)量的同時,新加入的詞條本身可能屬于不同的學(xué)科社團,降低了算法的召回率。
圖11 不同最大所屬社團數(shù)v 對各領(lǐng)域劃分結(jié)果精確率和F1 的影響Fig.11 The influence of distinct maximum number of communities v on precision and F1 of divided results in different areas
圖12 初始種子詞條數(shù)對結(jié)果精確率、召回率、F1 的影響Fig.12 The influence of original seed entries on the precision,recall and F1 of the results
本研究從復(fù)雜網(wǎng)絡(luò)中社團劃分的視角挖掘了詞條相似度的相互作用。本研究通過構(gòu)建主題文本網(wǎng)絡(luò)和改進重疊社區(qū)標簽傳播算法,實現(xiàn)了學(xué)科領(lǐng)域的邊界劃分。其重點在于以網(wǎng)絡(luò)的形式表現(xiàn)概念的內(nèi)容和概念之間的相互作用,以網(wǎng)絡(luò)的視角觀察概念之間的結(jié)構(gòu),并最終以網(wǎng)絡(luò)的方法劃分海量概念的學(xué)科結(jié)構(gòu)。本研究將復(fù)雜網(wǎng)絡(luò)中相關(guān)算法的整體性、系統(tǒng)性引入文本語義分析中。這為文本的語義的分析引入新的方法。另外,本研究挖掘了詞條網(wǎng)絡(luò)的社團結(jié)構(gòu)以及復(fù)雜性,以高效快速地在海量信息中獲取與領(lǐng)域相關(guān)的概念,為構(gòu)建相關(guān)學(xué)科知識庫、自動化構(gòu)建語料庫等工作提供了有效的方法和思路。
在未來的工作中,相關(guān)研究可以將已有的基于各種特征的文本分析方法加入網(wǎng)絡(luò)分析的框架中。這會為文本分析領(lǐng)域注入新的視角,以提升學(xué)科領(lǐng)域的劃分性能。例如,本研究的工作重點在于利用網(wǎng)絡(luò)分析方法對相同層級的學(xué)科詞條做出劃分。然而,各個學(xué)科領(lǐng)域是具有多個層級的。在標簽傳播等網(wǎng)絡(luò)分析方法的基礎(chǔ)上,如何結(jié)合文本分析方法并融入文本特征,實現(xiàn)詞條的多層級自動分類、分析詞條間潛在的拓撲關(guān)系等將幫助對知識文本的高效歸檔。同時,本研究對于算法的改進說明語義相似網(wǎng)絡(luò)是具有其特異性的,不能直接搬用復(fù)雜網(wǎng)絡(luò)的方法展開分析。如何有效地、合理地改進相關(guān)方法,使其適應(yīng)于語義網(wǎng)絡(luò)也是研究人員需要進一步分析探討的。