王鵬飛 張 斌
(黑龍江大學(xué)信息管理學(xué)院 哈爾濱 150000)
隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅猛發(fā)展和自媒體終端的快速普及,計(jì)算機(jī)網(wǎng)絡(luò)上文本數(shù)據(jù)的容量也以驚人的速度增長(zhǎng),由此帶來(lái)的困難就是尋找一種合適快速的對(duì)文本進(jìn)行相似性分析,對(duì)文本內(nèi)容進(jìn)行分類的方法,并且快速、高效的對(duì)文本內(nèi)容所蘊(yùn)含的深層次意義進(jìn)行挖掘和探索。從1969年出現(xiàn)的經(jīng)典向量空間模型(VSM)[1],到20世紀(jì)90年代出現(xiàn)的潛在語(yǔ)義分析(LSA)模型[2],再到21世紀(jì)初期出現(xiàn)的概率隱性語(yǔ)義分析(PLSA)模型[3],分析工具在一步步發(fā)展,同時(shí)需要分析的文本的規(guī)模也在不斷增長(zhǎng)。一直到2003年,Blei根據(jù)PLSA 模型的缺陷,對(duì)該模型進(jìn)行了貝葉斯改進(jìn),得到了潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型[4]。LDA 主題模型的提出為解決文本內(nèi)容的分類和深層次信息挖掘帶來(lái)了新的思路,從而提高了文本內(nèi)容分類有效性和文本內(nèi)容相似性分析的速度以及效率。該模型將詞、主題、文檔三層結(jié)構(gòu)都進(jìn)行貝葉斯概率分布,認(rèn)為每個(gè)文檔都包含若干個(gè)主題,每個(gè)主題都包含若干個(gè)特征詞,文檔中的每個(gè)詞是通過“以一定的概率選擇了某個(gè)主題,并從該主題中以一定的概率選擇了某個(gè)詞語(yǔ)”來(lái)獲得的,重復(fù)上述步驟得到了整個(gè)文檔。
雖然LDA 主題模型的產(chǎn)生已經(jīng)有十幾年的歷史,但是尚缺乏從文獻(xiàn)計(jì)量的角度來(lái)對(duì)該模型的使用情況做一個(gè)簡(jiǎn)要的綜述和分析。因此本文擬從文獻(xiàn)計(jì)量學(xué)的角度,綜合利用各種可視化分析方法和工具,系統(tǒng)的梳理自該模型提出以來(lái)所產(chǎn)生的相關(guān)文獻(xiàn),總結(jié)該領(lǐng)域的發(fā)展趨勢(shì),為以后更好的利用該模型進(jìn)行研究提供借鑒和參考。
為確保數(shù)據(jù)來(lái)源充分合理,本次研究擬在中國(guó)知網(wǎng)(CNKI)進(jìn)行相關(guān)文獻(xiàn)的檢索。具體檢索條件為:在“中國(guó)知網(wǎng)”啟用“高級(jí)檢索”功能,選擇“期刊全文數(shù)據(jù)庫(kù)”進(jìn)行專業(yè)檢索,為盡量全面的查詢相關(guān)文檔,檢索表達(dá)式按照如下方式 書 寫:SU=' LDA Theme Model' OR SU='Latent Dirichlet Allocation Theme Model' OR SU='LDA 主題模型' OR SU=‘LDA 模型’ OR SU=’lda 主題模型‘ OR SU=’lda 模型‘ OR SU=’潛在狄利克雷分布模型‘,因?yàn)長(zhǎng)DA 主題模型的提出時(shí)間是2003年,所以發(fā)表時(shí)間設(shè)置為從2003年到2018年,來(lái)源類別勾選“全部期刊”,其余條件默認(rèn),檢索實(shí)施時(shí)間為2019年6月4日,共計(jì)得到符合要求的文獻(xiàn)475 條。將符合要求的文獻(xiàn)的題名、作者、單位、文獻(xiàn)來(lái)源、關(guān)鍵詞、發(fā)表時(shí)間數(shù)據(jù)導(dǎo)出,輸出為電子表格形式,借助Microsoft Excel 2019 進(jìn)行數(shù)據(jù)的歸并與分類處理等。
為充分達(dá)到本文的研究目的,擬將文獻(xiàn)研究法、社會(huì)網(wǎng)絡(luò)分析法、統(tǒng)計(jì)分析法等各種可視化分析方法綜合應(yīng)用。各方法在本研究中所發(fā)揮的作用如下圖1所示。
圖1 技術(shù)方法圖
由圖1可知,統(tǒng)計(jì)分析法貫穿整個(gè)研究的始終,從開始的確定統(tǒng)計(jì)口徑和指標(biāo)一直到最后的社會(huì)網(wǎng)絡(luò)分析法都離不開統(tǒng)計(jì)與分析,文獻(xiàn)研究法負(fù)責(zé)基礎(chǔ)的資料搜集與處理,為下一步的研究提供符合要求的材料,社會(huì)網(wǎng)絡(luò)分析法在本次研究中起主要作用,從系統(tǒng)的角度對(duì)文本進(jìn)行分析,從而揭示“LDA 主題模型”在不同領(lǐng)域之間的研究趨勢(shì)發(fā)展情況。
發(fā)文量的高低反映了使用該模型進(jìn)行研究熱度的大小。在導(dǎo)出的全部數(shù)據(jù)之中提取發(fā)文時(shí)間,并抽取出其中表示年份的四位數(shù)字,之后進(jìn)行分類匯總統(tǒng)計(jì)即可以得到在2003年到2018年之間各個(gè)年度之間的發(fā)文量如表1所示,趨勢(shì)如圖2所示。
表1 各年度發(fā)文量統(tǒng)計(jì)
圖2 各年度發(fā)文量趨勢(shì)圖
結(jié)合圖1和表1可知,符合要求的文章發(fā)文數(shù)目從2007年開始呈現(xiàn)出遞增的趨勢(shì),其中2008年和2009年的發(fā)文數(shù)量持平,均為3 篇。在2012年之后遞增幅度明顯增大。從2007年發(fā)表相關(guān)文章1 篇,到2018年的107 篇,趨勢(shì)如圖1虛線所示,該趨勢(shì)可以用一個(gè)R2=0.9 928 的一元回歸模型來(lái)進(jìn)行表示,且該趨勢(shì)線可以擬合12個(gè)年份中的10 個(gè)年份,能夠較好的同論文的發(fā)文數(shù)量趨勢(shì)相擬合。該趨勢(shì)可以用y=0.0 012×x6-14.796×x5+74 437×x4-2×108×x3+3×1 011×x2-2×1 014×x+8×1 016 來(lái)表示,其中y 代表年度發(fā)文數(shù)目,x 代表從2007年開始直到2018年的每一年,利用上述一元回歸模型進(jìn)行計(jì)算,可知2018年的發(fā)文數(shù)目將近是2014年的2.27 倍,說明使用該模型進(jìn)行研究仍然是一個(gè)熱點(diǎn),使用該模型的上升趨勢(shì)較為明顯。
文章的作者因?yàn)槠鋵I(yè)背景不同,教育經(jīng)歷各異等種種因素,從而產(chǎn)生出對(duì)同一個(gè)問題會(huì)有不同的見解,會(huì)從自己所掌握的各種知識(shí)的角度來(lái)分析問題,從而得到不同的結(jié)論。通過分析高產(chǎn)出的作者有哪些,可以得到該模型的有關(guān)研究更加傾向于哪個(gè)方向、哪個(gè)領(lǐng)域,從而可以更好的利用該模型指導(dǎo)自己的研究。
因?yàn)榇蟛糠终撐亩际怯扇舾蓚€(gè)作者合作而成,所以本文將出現(xiàn)某位作者署名的論文都定義為該作者的研究成果,以此為統(tǒng)計(jì)標(biāo)準(zhǔn)進(jìn)行作者產(chǎn)出成果數(shù)目的統(tǒng)計(jì)。
普賴斯曾指出,將某一領(lǐng)域的全部科學(xué)家人數(shù)進(jìn)行開平方,得到的人數(shù)撰寫了全部論文數(shù)量的50%。經(jīng)統(tǒng)計(jì),在本文研究的491 篇文獻(xiàn)之中,共計(jì)出現(xiàn)作者1 178 位,根據(jù)普賴斯的觀點(diǎn),將作者出現(xiàn)次數(shù)降序排列,前34 位作者為高產(chǎn)出作者,同時(shí)結(jié)合本文的實(shí)際情況,將成果數(shù)量大于等于3 的作者確定為高產(chǎn)作者,則高產(chǎn)作者統(tǒng)計(jì)表如下所示。
表2 高產(chǎn)作者統(tǒng)計(jì)表(部分)
在上表中,發(fā)文量最高的是李湘東,共計(jì)12篇(共計(jì)出現(xiàn)1 次),最低的大部分為3 篇(共計(jì)出現(xiàn)34 次),二者之間相差為9 篇,說明該領(lǐng)域的研究尚未形成一個(gè)合理的結(jié)構(gòu),“中間層”的科研力量匱乏,從而導(dǎo)致缺乏動(dòng)力推動(dòng)該領(lǐng)域出現(xiàn)更多的高水平研究者。而根據(jù)“中國(guó)知網(wǎng)”的數(shù)據(jù)顯示,李湘東關(guān)注“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、圖書情報(bào)與數(shù)字圖書館、互聯(lián)網(wǎng)技術(shù)”領(lǐng)域;彭云關(guān)注“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、互聯(lián)網(wǎng)技術(shù)、自動(dòng)化技術(shù)”領(lǐng)域;王曰芬關(guān)注“圖書情報(bào)與數(shù)字圖書館、新聞與傳媒、計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用”領(lǐng)域;黃莉關(guān)注“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、水利水電工程、圖書情報(bào)與數(shù)字圖書館”領(lǐng)域。由此可見,LDA 主題模型主要借助計(jì)算機(jī)領(lǐng)域的相關(guān)方法和手段,如通過編程以及算法實(shí)現(xiàn)等方法,在其他文本內(nèi)容挖掘領(lǐng)域發(fā)揮相關(guān)作用。李湘東等將LDA 主題模型作為書目信息的表示模型,通過不同的特征加權(quán)策略規(guī)避因?yàn)槲谋緝?nèi)容短小而產(chǎn)生的問題,提出了復(fù)合加權(quán)LDA分類方法[5];王曰芬等利用JGibbs 軟件對(duì)國(guó)內(nèi)知識(shí)流領(lǐng)域的相關(guān)研究進(jìn)行了探討,從學(xué)科分類主題抽取的角度進(jìn)行探究,認(rèn)為該方法可以合理有效的挖掘?qū)W科結(jié)構(gòu)和研究熱點(diǎn)[6]。所以繼續(xù)探索“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用”領(lǐng)域的相關(guān)模型、方法等工具,亦或是繼續(xù)挖掘該模型在計(jì)算機(jī)領(lǐng)域中的應(yīng)用,從而更好的指導(dǎo)相關(guān)研究。
不同的機(jī)構(gòu)由于性質(zhì)、層次等屬性不同,從而造成了科研實(shí)力的強(qiáng)弱之分?!半p一流”高校、“985”高校、“211”高校等比一般院校的平臺(tái)要寬廣,能掌握的科研資源更加豐富,相對(duì)來(lái)說科研實(shí)力要強(qiáng),如果該領(lǐng)域的研究機(jī)構(gòu)中一般院校數(shù)量居多,那么說明該領(lǐng)域的發(fā)展速度還有待于繼續(xù)提高;如果高水平院校較多,那么說明該領(lǐng)域的發(fā)展?jié)摿薮?,發(fā)展勢(shì)頭良好。
借鑒3.2 節(jié)中確定“高產(chǎn)作者”的方法,將“高產(chǎn)機(jī)構(gòu)”確定為出現(xiàn)次數(shù)在3 以上的機(jī)構(gòu),若同一個(gè)機(jī)構(gòu)下分別出現(xiàn)多個(gè)二級(jí)機(jī)構(gòu),則以二級(jí)機(jī)構(gòu)分別計(jì)算。同一篇文章出現(xiàn)n 個(gè)相同機(jī)構(gòu)的,按該機(jī)構(gòu)出現(xiàn)n 次計(jì)。相關(guān)統(tǒng)計(jì)結(jié)果如表3所示。
表3 高產(chǎn)機(jī)構(gòu)統(tǒng)計(jì)結(jié)果(部分)
由表3可知,武漢大學(xué)信息管理學(xué)院出現(xiàn)頻次21,居第一位,其次武漢大學(xué)信息資源研究中心出現(xiàn)頻次11,居第二位。上表排名前十位的機(jī)構(gòu)之中,除了“昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院”和“江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院”來(lái)自一般院校之外,其余機(jī)構(gòu)均屬于“高水平科研院所”。說明LDA 主題模型的相關(guān)研究在國(guó)內(nèi)屬于研究熱點(diǎn),相關(guān)領(lǐng)域內(nèi)的高水平研究機(jī)構(gòu)越多,越能夠使得該領(lǐng)域的研究處于國(guó)內(nèi)外領(lǐng)先位置,產(chǎn)出的學(xué)術(shù)成果質(zhì)量也較高,同時(shí)也能夠幫助領(lǐng)域內(nèi)的更多機(jī)構(gòu)提升科研水平,使得LDA主題模型的有關(guān)研究慢慢走向成熟。
將表3之中所列的高產(chǎn)作者導(dǎo)入Bibexcel軟件構(gòu)建作者之間合作關(guān)系的矩陣,結(jié)合ucinet和NetDraw2.084 可以得到作者之間的合作關(guān)系圖,如圖3所示。
圖3 高產(chǎn)作者合作關(guān)系圖
從圖3可以看出,該領(lǐng)域的高產(chǎn)作者之間合作關(guān)系比較分散,在ucinet6.0 中可以得到該網(wǎng)絡(luò)(高產(chǎn)作者共現(xiàn)矩陣)的密度為0.033 3,遠(yuǎn)遠(yuǎn)小于1,標(biāo)準(zhǔn)差0.333 8,尚未形成比較集中的合作趨勢(shì),合作研究在LDA 主題模型領(lǐng)域未形成主流態(tài)勢(shì)。同時(shí)得到的還有點(diǎn)度中心度(degree),該數(shù)值的大小表示節(jié)點(diǎn)在該網(wǎng)絡(luò)中的重要程度高低。經(jīng)計(jì)算,點(diǎn)度中心度的最大值為6.000,最小值為0.000,平均值2.118。點(diǎn)度中心度數(shù)值最大的有陳志剛、黃瑞、李博、鄭祥云,上述四位作者的關(guān)注領(lǐng)域存在都關(guān)注計(jì)算機(jī)相關(guān)領(lǐng)域的特點(diǎn),這與之前的高產(chǎn)出作者共同關(guān)注的領(lǐng)域是一致的,都在圖2中的紅色圓圈內(nèi)部。結(jié)合表3可知,上述幾位作者的發(fā)文數(shù)量并非排列在前幾名,但是仍然具有比較高的重要性。說明關(guān)注某個(gè)領(lǐng)域的研究趨勢(shì)發(fā)展情況,不僅要根據(jù)作者的發(fā)文數(shù)量來(lái)進(jìn)行分析,同時(shí)還應(yīng)該關(guān)注該領(lǐng)域內(nèi)重要程度較高的作者,進(jìn)而來(lái)作出綜合的分析和判斷。
科學(xué)技術(shù)的發(fā)展變化使得以往靠單獨(dú)某個(gè)科學(xué)家或者單獨(dú)某個(gè)科研機(jī)構(gòu)獨(dú)立完成科學(xué)研究的時(shí)代已經(jīng)一去不復(fù)返了,從而越來(lái)越凸顯出團(tuán)隊(duì)協(xié)作的重要性。各個(gè)機(jī)構(gòu)之間通過組成科研團(tuán)隊(duì)來(lái)?yè)P(yáng)長(zhǎng)避短,從而產(chǎn)生“1+1 >2”的作用。通過分析某個(gè)領(lǐng)域內(nèi)涉及到的高產(chǎn)科研機(jī)構(gòu)之間的合作關(guān)系,可以更好的了解促使該領(lǐng)域向前發(fā)展的科研動(dòng)力,并對(duì)該領(lǐng)域的發(fā)展趨勢(shì)作出一定的分析、預(yù)測(cè)和判斷。
利用Bibexcel、ucinet6.0 以及NetDraw2.084軟件,結(jié)合表4中的“高產(chǎn)機(jī)構(gòu)統(tǒng)計(jì)結(jié)構(gòu)”生成合作關(guān)系矩陣,進(jìn)而繪制出合作關(guān)系圖,如圖4所示。
圖4 高產(chǎn)機(jī)構(gòu)合作關(guān)系圖
經(jīng)計(jì)算,高產(chǎn)機(jī)構(gòu)合作關(guān)系矩陣的密度為0.016 7,密度較小,反映到圖4上的趨勢(shì)即點(diǎn)與點(diǎn)之間的聯(lián)系較為分散,無(wú)法形成比較緊密的聯(lián)系。同時(shí)部分高產(chǎn)機(jī)構(gòu)同一般機(jī)構(gòu)合作,或者是獨(dú)立完成科研任務(wù),因此在圖4中單獨(dú)一列。在ucinet6.0 中計(jì)算點(diǎn)度中心度和出度中心度,如下表4和表5所示,來(lái)尋找在該網(wǎng)絡(luò)中重要性最高的科研機(jī)構(gòu),以及影響力較強(qiáng)的科研機(jī)構(gòu)。該矩陣的點(diǎn)度中心度最高值為5.769,最低為0.000,平均值1.306。最高值出現(xiàn)在“閩南師范大學(xué)計(jì)算機(jī)學(xué)院”、“武漢大學(xué)信息管理學(xué)院”,其次重要性程度較高的科研機(jī)構(gòu)還有“安徽理工大學(xué)經(jīng)濟(jì)與管理學(xué)院”、“合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院”、“吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院”等。從表4可以看出,科研機(jī)構(gòu)大部分都同“計(jì)算機(jī)”以及“信息管理”相關(guān),說明對(duì)于“LDA 主題模型”的研究同這兩個(gè)領(lǐng)域有著緊密的聯(lián)系。隨著數(shù)據(jù)的爆發(fā)式增長(zhǎng),各種非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)隨之越來(lái)越多,這種數(shù)據(jù)結(jié)構(gòu)有別于傳統(tǒng)的數(shù)據(jù)形式,在分析起來(lái)有相當(dāng)?shù)碾y度[7],應(yīng)用傳統(tǒng)的直觀統(tǒng)計(jì)或者分析方法往往難以完成相應(yīng)的分析任務(wù)。因此借助計(jì)算機(jī)領(lǐng)域的相關(guān)編程手段,如R 語(yǔ)言和Python 語(yǔ)言等來(lái)幫助對(duì)上述數(shù)據(jù)進(jìn)行分析成為大多數(shù)研究人員進(jìn)行文本挖掘,主題探究,文檔相似性檢測(cè)等活動(dòng)的選擇。
表4 點(diǎn)度中心度計(jì)算結(jié)果(部分)
表5 出度中心度統(tǒng)計(jì)結(jié)果(部分)
出度中心度最高值為10,根據(jù)表6的統(tǒng)計(jì)結(jié)果,“武漢大學(xué)圖書館”、“武漢大學(xué)信息管理學(xué)院”、“吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院”位居前三位,說明上述三個(gè)單位在該領(lǐng)域更可以對(duì)其他機(jī)構(gòu)產(chǎn)生影響。如通過信息管理領(lǐng)域,或者是圖書館、情報(bào)學(xué)相關(guān)領(lǐng)域,將“LDA 主題模型”與文本挖掘、潛在主題分析等相結(jié)合起來(lái),對(duì)其他機(jī)構(gòu)的研究起到相關(guān)的示范性作用。
使用Python 自編程序,將出度中心度統(tǒng)計(jì)結(jié)果前10 位的科研機(jī)構(gòu)在地圖上予以顯示,并通過不同的出度中心度數(shù)值進(jìn)行區(qū)分,結(jié)果如圖5所示。
圖5 出度中心度前10 位所在地理位置分布
在圖5中,每一個(gè)科研機(jī)構(gòu)通過各自的經(jīng)緯度在地圖上進(jìn)行標(biāo)注,光圈的大小表示其出度中心度的高低,紅色光圈所表示的機(jī)構(gòu)出度中心度較高,其次是綠色光圈,如果兩個(gè)機(jī)構(gòu)的地理位置較近,那么光圈會(huì)發(fā)生重疊現(xiàn)象。根據(jù)圖5的結(jié)果,在LDA 主題模型相關(guān)研究與應(yīng)用領(lǐng)域,從地理位置的角度來(lái)看,我國(guó)東部地區(qū)的科研機(jī)構(gòu)明顯走在中部、西部科研機(jī)構(gòu)的前列,即圖上光圈多分布于東部,而南方的科研機(jī)構(gòu)又明顯走在北方科研機(jī)構(gòu)的前列,紅色光圈南方多于北方;從機(jī)構(gòu)的角度分析,以武漢大學(xué)為平臺(tái),“武漢大學(xué)圖書館”、“武漢大學(xué)信息管理學(xué)院”代表的科研機(jī)構(gòu)明顯對(duì)該領(lǐng)域的其他機(jī)構(gòu)可以產(chǎn)生影響。東部地區(qū)憑借區(qū)位優(yōu)勢(shì)、地理優(yōu)勢(shì)等方面可以較之于其他區(qū)域更為快捷方便的掌握國(guó)外先進(jìn)的技術(shù)、獲得較為前沿的信息,說明地理環(huán)境的不同以及經(jīng)濟(jì)發(fā)展水平的差異同LDA 主題模型的研究有著密不可分的聯(lián)系,作為國(guó)外首先提出的主題模型,快速而及時(shí)的對(duì)國(guó)外的研究動(dòng)態(tài)有所掌握也可以對(duì)國(guó)內(nèi)有關(guān)研究起到積極的促進(jìn)作用;而武漢大學(xué)作為我國(guó)老牌的“985”、“211”以及“雙一流”高校,自身的科研實(shí)力不可小覷,因此以其為平臺(tái)的相關(guān)科研機(jī)構(gòu)也可以發(fā)揮更大的作用。
關(guān)鍵詞是一篇文獻(xiàn)的濃縮,通過閱讀一篇文章的關(guān)鍵詞,可以對(duì)該文章產(chǎn)生一個(gè)大體的了解,而對(duì)關(guān)鍵詞之間的共現(xiàn)情況進(jìn)行分析,則可以了解這些文章所對(duì)應(yīng)的科研領(lǐng)域的研究情況,分析得出其研究熱點(diǎn)。
對(duì)全部491 篇文獻(xiàn)的關(guān)鍵詞進(jìn)行提取,首先對(duì)同義詞進(jìn)行數(shù)據(jù)的預(yù)處理,比如“潛在狄利克雷分布模型”、“LDA 模型”、“LDA 建?!薄ⅰ癓DA 主題模型”等表述含義相同或者相近的詞語(yǔ)統(tǒng)一替換為“LDA”。經(jīng)過BIBXECEL 軟件統(tǒng)計(jì),共有關(guān)鍵詞501 個(gè),全部進(jìn)行統(tǒng)計(jì)反而不利于展示整體趨勢(shì),因此按照出現(xiàn)頻次的降序進(jìn)行排列,取前100 位關(guān)鍵詞進(jìn)行共現(xiàn)分析,結(jié)果如圖6所示。
圖6中各點(diǎn)之間的溝通較為緊密,不同關(guān)鍵詞之間有較為頻繁的聯(lián)系。圖譜中各個(gè)節(jié)點(diǎn)之間的平均距離為2.051,即每個(gè)節(jié)點(diǎn)只要通過2 個(gè)節(jié)點(diǎn)左右即可以同其他節(jié)點(diǎn)之間產(chǎn)生聯(lián)系,符合“小世界理論”,且呈現(xiàn)出明顯的集團(tuán)化特征。之后繼續(xù)計(jì)算高頻關(guān)鍵詞之間的出度中心度(OutDegree)、入度中心度(InDegree)等數(shù)據(jù),部分結(jié)果如表6所示。
經(jīng)計(jì)算,出度中心度最大值為422,出現(xiàn)的節(jié)點(diǎn)是“LDA”,出度中心度越高,說明該節(jié)點(diǎn)“影響”別的節(jié)點(diǎn)的能力越強(qiáng),即該領(lǐng)域均是以“LDA”為研究主干開展的,在圖5中“LDA”節(jié)點(diǎn)也是出于中間地位,同各個(gè)節(jié)點(diǎn)的聯(lián)系非常密切,將“LDA”應(yīng)用到圖示節(jié)點(diǎn)的各個(gè)領(lǐng)域中,同時(shí)節(jié)點(diǎn)“LDA”的入度中心度為30,說明“LDA”在同其他領(lǐng)域的研究過程中自身也在慢慢發(fā)生改變,提高了適應(yīng)性;而“Gibbs 抽樣”出度中心度為70,但是入度中心度為0,說明該抽樣方法在“LDA”的相關(guān)研究中居于本質(zhì)地位。入度中心度最大值為166,出現(xiàn)在節(jié)點(diǎn)“主題模型”,入度中心度的高低反映的是該節(jié)點(diǎn)被其他節(jié)點(diǎn)所影響程度的大小,具體到本文中,即“主題模型”、“文本分類”、“微博”、“主題挖掘”等領(lǐng)域主要被“LDA”所影響,這些領(lǐng)域也是“LDA 主題模型”目前主要發(fā)揮作用的領(lǐng)域。
李昌亞等鑒于在LDA 主題模型建模的過程中,使用Gibbs 抽樣只考慮高頻詞而忽略詞語(yǔ)對(duì)文章本身的重要性,所以將詞語(yǔ)的權(quán)重值也納入考慮范圍中,提出了一種改進(jìn)的LDA 建模方法,并將該方法在社科文獻(xiàn)領(lǐng)域進(jìn)行了實(shí)證研究,證明該方法的有效性[8];李湘東等將LDA 模型用于書目信息分類系統(tǒng)之中,采用Gibbs 抽樣對(duì)模型的隱含變量進(jìn)行推斷,快速高效的在大規(guī)模數(shù)據(jù)集中提取有效信息,之后通過采集有關(guān)實(shí)驗(yàn)數(shù)據(jù),實(shí)例驗(yàn)證了提出方法科學(xué)有效,有較好的分類效果[9]。
圖6 關(guān)鍵詞前100 名共現(xiàn)圖譜
表6 各個(gè)節(jié)點(diǎn)的出度中心度和入度中心度(部分)
將上文中提到的全部491 篇文獻(xiàn)來(lái)源情況進(jìn)行排序,分類匯總之后,共計(jì)得到來(lái)源期刊180種。按照出現(xiàn)頻次進(jìn)行降序排序,部分統(tǒng)計(jì)結(jié)果如表7所示。
表7 文獻(xiàn)來(lái)源情況統(tǒng)計(jì)結(jié)果(部分)
從期刊級(jí)別來(lái)看,在全部180 種期刊之中,有96 種期刊來(lái)自“核心期刊”和“CSSCI 期刊”,占比53.33%。高質(zhì)量期刊占據(jù)大多數(shù),說明有關(guān)該領(lǐng)域的研究成果價(jià)值較高,針對(duì)該領(lǐng)域的相關(guān)研究處于一個(gè)比較成熟的階段,從中可以利用和繼續(xù)研究的內(nèi)容和方向也比較多。
從相關(guān)期刊的名稱來(lái)看,LDA 主題模型所涉及到的不僅僅是計(jì)算機(jī)相關(guān)領(lǐng)域,“圖書情報(bào)”領(lǐng)域(《情報(bào)科學(xué)》、《圖書情報(bào)工作》、《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》等),“機(jī)械制造”領(lǐng)域(《機(jī)械設(shè)計(jì)與制造》、《鐵道標(biāo)準(zhǔn)設(shè)計(jì)》),甚至是“食品工程”(《微生物學(xué)報(bào)》、《食品與發(fā)酵工業(yè)》等)相關(guān)領(lǐng)域。涉及到的相關(guān)領(lǐng)域之廣,說明LDA 主題模型具有相當(dāng)強(qiáng)大的生命力和較高的普適性,從一個(gè)側(cè)面也反映了繼續(xù)進(jìn)行該模型有關(guān)研究的價(jià)值。
本文綜合采用文獻(xiàn)計(jì)量、文獻(xiàn)研究和社會(huì)網(wǎng)絡(luò)分析法,對(duì)國(guó)內(nèi)LDA 主題模型的研究進(jìn)展進(jìn)行了分析,通過梳理高產(chǎn)作者、高產(chǎn)機(jī)構(gòu)、作者之間的合著、機(jī)構(gòu)之間的合著以及關(guān)鍵詞之間的聯(lián)系,可以得出如下結(jié)論:
國(guó)內(nèi)LDA 主題模型的研究呈現(xiàn)出“對(duì)LDA主題模型進(jìn)行自身完善”和“擴(kuò)展LDA 主題模型的應(yīng)用領(lǐng)域”三方面的特點(diǎn)。第一,在“對(duì)LDA 主題模型進(jìn)行自身完善”方面,主要是針對(duì)目前出現(xiàn)的各種“非機(jī)構(gòu)化”以及“半結(jié)構(gòu)化”的數(shù)據(jù),傳統(tǒng)的LDA 主題模型在處理這些內(nèi)容方面捉襟見肘,無(wú)法完全滿足要求,因此不同的研究人員基于各自不同的角度來(lái)對(duì)該模型進(jìn)行完善和增補(bǔ),如將詞語(yǔ)的權(quán)重值納入LDA主題模型的考慮范圍之內(nèi),或者是對(duì)隱含的變量信息通過各種方法進(jìn)行推斷,對(duì)文本的分析從表面深入到了文字內(nèi)部,探究文本內(nèi)部隱含的主題,從而增加LDA 主題模型的準(zhǔn)確性;第二,在“擴(kuò)展LDA 主題模型的應(yīng)用領(lǐng)域”方面,將LDA 主題模型從傳統(tǒng)的文本分類拓展到文本挖掘領(lǐng)域、計(jì)算機(jī)領(lǐng)域、圖書情報(bào)領(lǐng)域甚至食品工程領(lǐng)域,改變了主題的表達(dá)方式,以定量的方式進(jìn)行展現(xiàn),讓計(jì)算機(jī)可以理解主題的特點(diǎn)并進(jìn)行計(jì)算,在不同領(lǐng)域產(chǎn)生了巨大的影響,并且已經(jīng)取得了一系列成果;第三,地理位置較好、經(jīng)濟(jì)發(fā)展水平較高的地區(qū)的科研機(jī)構(gòu)較之于其他地區(qū)的科研機(jī)構(gòu)更容易接觸到LDA 主題模型的前沿研究,同時(shí)機(jī)構(gòu)自身水平的高低也是推動(dòng)LDA 主題模型研究的重要內(nèi)部原因,“985”、“211”以及“雙一流”等高校更容易產(chǎn)生科研成果。
國(guó)內(nèi)LDA 主題模型的相關(guān)研究趨勢(shì)呈現(xiàn)出同整個(gè)外部社會(huì)環(huán)境息息相關(guān)緊密聯(lián)系的趨勢(shì)。隨著大數(shù)據(jù)在各行各業(yè)中發(fā)揮越來(lái)越重要的作用,發(fā)現(xiàn)越來(lái)越多的社會(huì)現(xiàn)象背后蘊(yùn)含的本質(zhì)內(nèi)容成為情報(bào)學(xué)所亟需解決的問題之一,尤其是最近學(xué)術(shù)界開始考慮將“數(shù)據(jù)”作為情報(bào)學(xué)的研究對(duì)象的問題,充分挖掘數(shù)據(jù)本身的對(duì)已有內(nèi)容的描述和對(duì)未來(lái)內(nèi)容的能力。更是凸顯了“數(shù)據(jù)”的重要價(jià)值和作用。而LDA 主題模型作為一種非監(jiān)督機(jī)器學(xué)習(xí)算法,本身具有的靈活性和較好的適應(yīng)性,能夠更好的在大量的數(shù)據(jù)中挖掘出符合要求的信息,進(jìn)而為更好的體現(xiàn)情報(bào)本身“耳目、尖兵、參謀”的特點(diǎn)。