李昌 吳紅 周錦錦
摘 要 論文以CNKI中2001—2017年的情報(bào)學(xué)碩博學(xué)位論文作為研究數(shù)據(jù),繪制了情報(bào)學(xué)2001—2007年、2008—2011年、2012—2017年三個(gè)子時(shí)期的主題演化脈絡(luò),并從主題演化強(qiáng)度、主題演化關(guān)系以及主題演化內(nèi)容三個(gè)方面展示主題演化狀況。研究認(rèn)為:我國情報(bào)學(xué)碩博學(xué)位論文研究目前正處于有序、快速成長的發(fā)展?fàn)顟B(tài);研究主題內(nèi)容不斷拓展,呈現(xiàn)由集中到分化的發(fā)展脈絡(luò);未來研究會(huì)圍繞在數(shù)字圖書館,輿情監(jiān)管,用戶信息行為的影響因素,網(wǎng)絡(luò)分析與復(fù)雜網(wǎng)絡(luò)信息生態(tài)鏈等方面。
關(guān)鍵詞 情報(bào)學(xué) 主題演化 演化路徑
分類號(hào) G350
DOI 10.16810/j.cnki.1672-514X.2019.05.018
Abstract This paper takes CNKIs 2001-2017 information science dissertation as the research data, and draws the theme evolution of three sub-periods of information science in 2001-2007, 2008-2011 and 2012-2017. It shows the evolution of the theme from three aspects: the intensity of the theme evolution, the relationship evolution of the theme, and the evolution of the theme. The research believes that the research on Chinas information science and masters degree thesis is currently in an orderly and rapid growth state; the research theme is expanding and shows the development from concentration to differentiation; future research will focus on digital libraries, public opinion supervision, influencing factors of user information behavior, network analysis and complex network information ecological chain.
Keywords Information science. Topic evolution. Evolution path.
碩博學(xué)位論文大都是作者在其導(dǎo)師的悉心指導(dǎo)下,歷經(jīng)1年甚至更久才完成的,是作者整個(gè)研究生期間的精華所在,且內(nèi)容豐富,研究層次深,專業(yè)性強(qiáng),往往具有深刻的理論基礎(chǔ)和前沿觀點(diǎn)[1]。目前已有學(xué)者對(duì)情報(bào)學(xué)碩博學(xué)位論文進(jìn)行研究:李長玲等通過對(duì)2002—2006年的碩士學(xué)位論文的共詞聚類,探索情報(bào)學(xué)碩士論文的研究熱點(diǎn)[2]。劉非凡等利用TF*IDF方法識(shí)別2003—2012年情報(bào)學(xué)碩士學(xué)位論文的經(jīng)典和代表不同階段特點(diǎn)的特征關(guān)鍵詞,利用Linkcomm邊聚類算法進(jìn)行聚類,分析了情報(bào)學(xué)學(xué)科主題層次性和層疊性結(jié)構(gòu)[3]。李欠欠通過對(duì)2004—2014年我國情報(bào)學(xué)碩博學(xué)位論文進(jìn)行聚類分析,構(gòu)建戰(zhàn)略坐標(biāo)圖,研究我國情報(bào)學(xué)研究熱點(diǎn)[1]。現(xiàn)有研究多從熱點(diǎn)角度進(jìn)行分析,雖然從不同維度深入研究了情報(bào)學(xué)的發(fā)展現(xiàn)狀,給人們一些啟發(fā),但難以形成學(xué)科發(fā)展的網(wǎng)狀結(jié)構(gòu),研究人員難以從整體上判斷與把握情報(bào)學(xué)領(lǐng)域的研究。
本文以中國知網(wǎng)為數(shù)據(jù)源,抽取2001—2017年CNKI中優(yōu)秀碩博學(xué)位論文中的關(guān)鍵詞,進(jìn)行聚類分析,構(gòu)造詞頻強(qiáng)度比指標(biāo),利用相似度公式,構(gòu)建我國情報(bào)學(xué)主題演化圖。
1 數(shù)據(jù)來源
在CNKI的博碩士論文文庫中,最早的情報(bào)學(xué)碩博學(xué)位論文文獻(xiàn)在2001年,故以學(xué)科專業(yè)名“情報(bào)學(xué)”,檢索時(shí)間2017年12月28日,共檢索出3919篇文獻(xiàn)。本文利用固定時(shí)間窗的方法結(jié)合文獻(xiàn)量,將2001—2017年劃分為3個(gè)子時(shí)期:2001—2007年;2008—2011年;2012—2017年。利用書目共現(xiàn)分析系統(tǒng)Bicomb抽取關(guān)鍵詞,去除出現(xiàn)頻率高但對(duì)結(jié)果沒有意義的詞語(如情報(bào)學(xué)等)之后,根據(jù)詞頻的高低,利用Donohue提出的高、低頻關(guān)鍵詞屆分公式,輔助確定61、67、74個(gè)核心關(guān)鍵詞,見圖1。高、低頻關(guān)鍵詞屆分公式:
2 數(shù)據(jù)分析
2.1 共現(xiàn)矩陣與相異矩陣
根據(jù)提取的高頻詞,利用書目共現(xiàn)分析系統(tǒng)Bicomb生成共現(xiàn)矩陣,因篇幅限制,這里僅展示第一階段部分共現(xiàn)矩陣,如表2所示。
為了消除共詞頻次差異形成的影響[4],本文引入等價(jià)系數(shù)來表示共現(xiàn)的相對(duì)強(qiáng)度,形成相關(guān)矩陣。等價(jià)系數(shù)計(jì)算公式如下:
Cij代表i、j兩詞同時(shí)出現(xiàn)的頻次,Ci代表i詞出現(xiàn)總頻次,Cj代表j詞出現(xiàn)總頻次。用數(shù)值“1”分別減去相關(guān)矩陣中的各個(gè)數(shù)據(jù),最終得到相異矩陣(介于0與1之間,值越大,詞的相似度越差)。部分相異矩陣如表2所示。
2.2 系統(tǒng)聚類分析
依據(jù)關(guān)鍵詞之間的共現(xiàn)強(qiáng)度值,挖掘關(guān)聯(lián)強(qiáng)度大的主要詞群,揭示階段研究的熱門領(lǐng)域[5]。把上述相異矩陣導(dǎo)入到SPSS19.0中,進(jìn)行層次聚類分析(聚類標(biāo)準(zhǔn):Square Euclidean Distance,標(biāo)準(zhǔn)化處理:z得數(shù),輸出:樹狀圖)。分別得到三個(gè)階段的聚類結(jié)果,由于篇幅限制,這里展示第一階段的聚類結(jié)果,如表3所示。
2.3 主題名稱確定
本文引入粘合力指標(biāo),測(cè)度主題中的關(guān)鍵詞對(duì)主題的貢獻(xiàn)程度[6]。粘合力越大,其貢獻(xiàn)程度越高,越能夠代表該主題的核心概念。本文用粘合力最大的主題詞代表主題名稱,但該主題詞也只是在一定程度上表征主題含義,并不能完全代表主題。其計(jì)算公式為:
其中,N(Ai )表示關(guān)鍵詞Ai的粘合度,F(xiàn)(Ai→Bi)表示關(guān)鍵詞Ai與同一主題當(dāng)中其余關(guān)鍵詞的共現(xiàn)頻次,n表示主題中關(guān)鍵詞的個(gè)數(shù)。用粘合度值最大的關(guān)鍵詞來表征主題的名稱,如表4所示。
從表4可以看出隨著時(shí)間的推移,情報(bào)學(xué)領(lǐng)域呈現(xiàn)出不斷發(fā)展的趨勢(shì),核心主題數(shù)量快速增長:2001—2007年有10個(gè)核心主題,2012—2017年核心主題數(shù)量已經(jīng)發(fā)展到了20個(gè)。情報(bào)學(xué)碩博學(xué)位論文研究的主題數(shù)量呈現(xiàn)穩(wěn)步上升趨勢(shì),情報(bào)學(xué)學(xué)科的關(guān)注程度逐漸變高,在研究深度和廣度上都有所推進(jìn)。
2.4 主題相似度計(jì)算
采用點(diǎn)積余弦相似度公式計(jì)算主題相似度(Topic Similarity Index, )。每個(gè)學(xué)科有若干主題(Topic)構(gòu)成,每個(gè)主題詞都有若干關(guān)鍵詞(Keyword),首先將主題表示為Topic={k1,k2,k3…kn},則主題的詞頻向量(Word FrequencyVector)可以表示為:{weight 1,weight2,weight 3,…,weight n},最后計(jì)算相鄰子時(shí)期兩兩主題之間的余弦相值(值范圍:0-1,值越大表示兩個(gè)主題越相似)[7]。主題相似度指標(biāo)計(jì)算公式為:
式中,分子表示兩個(gè)主題向量的點(diǎn)乘積,分母表示兩個(gè)主題向量的模的積。
設(shè)定閾值a識(shí)別不同子時(shí)期主題的關(guān)系,當(dāng)時(shí),判定兩個(gè)主題具有演化關(guān)系,當(dāng)時(shí),表明兩者沒有演化關(guān)系,以此識(shí)別主題演化脈絡(luò),形成主題演化路徑[8],主題路徑將各個(gè)主題的演化狀態(tài)進(jìn)行了定量描述,較為直觀的展示不同子時(shí)期內(nèi)各個(gè)主題的整體變化。本文經(jīng)過分析研究發(fā)現(xiàn),當(dāng)a=0.41時(shí),主題網(wǎng)絡(luò)清晰,可以直觀、準(zhǔn)確地展示演化關(guān)系。故本文判定當(dāng)相似度大于0.41時(shí),兩者存在演化關(guān)系。
2.5 主題強(qiáng)度度量
現(xiàn)有的主題強(qiáng)度指標(biāo)要么從詞頻數(shù)量增減變化角度展開,要么從后驗(yàn)概率定義主題強(qiáng)度,要么把主題映射于文檔,用其數(shù)量或者被引量等指標(biāo)表示主題強(qiáng)度(熱度)[7-9],少有從主題發(fā)育狀態(tài)變化的角度去展示其演化過程。本文結(jié)合時(shí)間序列,構(gòu)建詞頻強(qiáng)度比指標(biāo)來表征主題強(qiáng)度(Topic Intensity,TI),分析主題隨時(shí)間的演化趨勢(shì),動(dòng)態(tài)展現(xiàn)主題熱度變化情況,計(jì)算公式為:
階段內(nèi)詞頻平均強(qiáng)度(Word Frequency Average Intensity, )是所計(jì)算子時(shí)期內(nèi)全部共現(xiàn)關(guān)鍵詞的平均共現(xiàn)頻次;主題內(nèi)詞頻平均強(qiáng)度(Thematic Average Intensity, )是子時(shí)期內(nèi)t主題中全部共現(xiàn)關(guān)鍵詞的平均共現(xiàn)頻次。是第i年主題t的主題強(qiáng)度,通過趨勢(shì)的變化可以顆粒化的觀察主題在一定階段的熱度變化情況:把與1進(jìn)行比較,當(dāng)?shù)闹怠?時(shí),說明這個(gè)主題在第i年高于或等于熱點(diǎn)主題的平均水平,可以判定是高熱門主題類型,當(dāng)<1時(shí),說明是潛在熱門主題或者是潛在消亡熱門主題類型。計(jì)算結(jié)果如表5所示,因篇幅限制,僅展示第一階段主題強(qiáng)度。
3 主題演化及其分析
根據(jù)點(diǎn)積余弦相似度值和主題強(qiáng)度值繪制主題演化路徑,從左往右表示時(shí)間軸,分別為2001—2007年,2008—2011年,2012—2017年3個(gè)子時(shí)期。黑色文字表示主題名稱,獨(dú)立的方塊表示主題,主題內(nèi)折線圖中直線表示主題強(qiáng)度為1,用來判斷主題的類型,另外一條線代表主題在子時(shí)期內(nèi)強(qiáng)度的變化。相鄰子時(shí)期主題之間的連線表示演化關(guān)系,實(shí)線表示繼承,虛線表示分化、分裂[8]。t時(shí)刻主題T與t-1時(shí)刻無連線,表明其屬于新生主題,與t+1時(shí)刻無連線,表名其屬于消亡主題[8]。圖2為2001-2017年情報(bào)學(xué)碩博學(xué)位論文主題演化圖。
圖2 2001—2017年情報(bào)學(xué)碩博學(xué)位論文主題演化圖
從圖2可知,我國情報(bào)學(xué)碩博學(xué)位論文研究隨著時(shí)間的推移,主題數(shù)量呈快速增長態(tài)勢(shì),相鄰子時(shí)期主題的演化關(guān)系越來越密切、復(fù)雜,表明其研究受到越來越多學(xué)者的關(guān)注。為更好地闡述情報(bào)學(xué)學(xué)科的發(fā)展,揭示其流動(dòng)規(guī)律和發(fā)展態(tài)勢(shì),本文從主題演化強(qiáng)度、主題演化關(guān)系以及主題演化內(nèi)容三個(gè)方面對(duì)其主題演化情況進(jìn)行分析。
3.1 注題演化強(qiáng)度分析
第一階段,各主題的強(qiáng)度值波動(dòng)較大,此時(shí)間段各主題無序發(fā)育,說明發(fā)育不成熟,正處于探索階段;第二階段,除個(gè)別主題強(qiáng)度變化幅度較大以外,大部分主題強(qiáng)度變化趨穩(wěn),說明發(fā)展?jié)u趨明朗、研究開始回歸理性;第三階段,大部分主題強(qiáng)度呈上升態(tài)勢(shì)或者平穩(wěn)變化,說明該領(lǐng)域研究力度穩(wěn)中有升,多數(shù)主題處在成長狀態(tài),少數(shù)主題強(qiáng)度快速回落,正逐漸遠(yuǎn)離人們的視野,表明研究方向越來越明確,研究人員在對(duì)各個(gè)主題的把握和研究上更加成熟。
以“知識(shí)管理”主題為例:2001—2007年間,其強(qiáng)度于2004年突破1,表明其由潛在熱門話題成為高熱門話題,且一直處于增長狀態(tài),說明其研究的力度在加大。2008—2011年,主題強(qiáng)度一直在“1”上下徘徊,說明其在此期間一直屬于高熱門話題,且主題強(qiáng)度波動(dòng)幅度變化很小,表明該主題可能趨于成熟。2012—2017年,該主題強(qiáng)度在不斷下降,表明主題熱度在下降,這可能與該主題開始分化有關(guān),也說明主題開始由內(nèi)部發(fā)展轉(zhuǎn)向外部發(fā)展,研究范圍由本領(lǐng)域向其他領(lǐng)域拓展。
3.2 主題演化關(guān)系分析
2001—2007年和2008—2011年兩個(gè)相鄰子時(shí)期主題之間的連線較少,演化關(guān)系較少,2008—2011年和2012—2017年2個(gè)子時(shí)期的主題之間連線快速增加,主題之間的關(guān)系更加緊密,主題發(fā)展呈現(xiàn)明顯的協(xié)同特征,主題分化、融合現(xiàn)象不斷發(fā)生。如2001—2007年子時(shí)期“本體”分化出“信息組織”主題,“電子政務(wù)”主題中的一部分融入到“電子商務(wù)”之中;2008—2011年子時(shí)期“本體”“電子商務(wù)”“電子政務(wù)”“知識(shí)管理”“實(shí)證研究”都出現(xiàn)分化的現(xiàn)象,“本體”與“實(shí)證研究”“知識(shí)管理”中各有一部分融合成“影響因素”,“數(shù)據(jù)挖掘”中的一部分融入到“電子政務(wù)”之中等。另外,新興主題不斷產(chǎn)生,例如:2008—2011年子時(shí)期中的“信息行為”“輿情管理對(duì)策”“實(shí)證研究”等,2012—2017年子時(shí)期中的“信息生態(tài)鏈”“微博”“關(guān)聯(lián)數(shù)據(jù)等”;一定數(shù)量主題(例如2008—2011年子時(shí)期中的信息組織)也在不斷消亡。
以“知識(shí)管理”主題為例,從演化軌跡來看,2001—2007年子時(shí)期與2008—2011子時(shí)期只有繼承關(guān)系;2008—2011年子時(shí)期與2012—2017年子時(shí)期之間除了繼承關(guān)系之外,還出現(xiàn)分化與融合關(guān)系,分裂成“知識(shí)共享”與“社會(huì)網(wǎng)絡(luò)分析”兩個(gè)新主題,并與“輿情管理與對(duì)策”主題融合成為“輿情管理模式與對(duì)策”。
3.3 主題演化內(nèi)容分析
2001—2007年的研究主要集中于圖書館信息與知識(shí)服務(wù)方面,具體側(cè)重于圖書館數(shù)字參考咨詢、知識(shí)管理以及個(gè)性化服務(wù)的信息服務(wù)與信息系統(tǒng);2008—2011年子時(shí)期側(cè)重于方法對(duì)策與評(píng)價(jià)研究,由之前的信息服務(wù)等研究轉(zhuǎn)向圖書館服務(wù)績效評(píng)價(jià)、評(píng)價(jià)體系的構(gòu)建,同時(shí)隨著Web2.0的發(fā)展,電子商務(wù)與政務(wù)也成為現(xiàn)階段熱點(diǎn);2012—2017年子時(shí)期,開始探討數(shù)字圖書館,關(guān)注輿情監(jiān)管,探討用戶信息行為的影響因素,注重網(wǎng)絡(luò)分析與復(fù)雜網(wǎng)絡(luò)信息生態(tài)鏈研究。
以“知識(shí)管理”主題內(nèi)部關(guān)鍵詞變化這一微觀視角為例來看:2001—2007年子時(shí)期,由表6內(nèi)主題的關(guān)鍵詞可以看出這個(gè)時(shí)期的研究主要集中于某一點(diǎn),例如知識(shí)共享、知識(shí)創(chuàng)新等,說明還處于內(nèi)部發(fā)展階段,主題發(fā)育還不成熟;2008—2011年子時(shí)期,內(nèi)部主題詞有了較大的增長,主題內(nèi)容與含義迅速擴(kuò)充,同時(shí)和網(wǎng)絡(luò)分析進(jìn)行結(jié)合,開始由之前的點(diǎn)向線(網(wǎng)絡(luò)) 發(fā)展,表明“知識(shí)管理”的相關(guān)研究進(jìn)入了快速增長的階段;2012—2017年子時(shí)期該主題開始與知識(shí)地圖、知識(shí)網(wǎng)絡(luò)、可視化等主題結(jié)合,動(dòng)態(tài)顯示知識(shí)之間的聯(lián)系,研究由線向面發(fā)展。
表6 知識(shí)管理主題各子時(shí)期內(nèi)主題詞
階段 主題詞(粘合力)
2001—2007 年 知識(shí)管理(0.562)知識(shí)需求(0.131)知識(shí)共享(0.109)知識(shí)(0.099)知識(shí)創(chuàng)新(0.099)
2008—2011 年 知識(shí)管理(0.328)模式(0.131)社會(huì)網(wǎng)絡(luò)分析(0.127)知識(shí)共享(0.117)發(fā)展策略(0.085)社會(huì)網(wǎng)絡(luò) (0.075)產(chǎn)業(yè)集群(0.071)引文分析(0.066)
2012—2017 年 知識(shí)管理(0.344)知識(shí)地圖(0.197)知識(shí)圖譜(0.180)可視化(0.148)可視化分析(0.131)
4 結(jié)語
本文從主題演化強(qiáng)度、演化關(guān)系與演化內(nèi)容三個(gè)方面分析我國情報(bào)學(xué)碩博學(xué)位論文主題演化狀況,可以發(fā)現(xiàn),隨著信息技術(shù)的不斷進(jìn)步,有關(guān)情報(bào)學(xué)的演化主題越來越多,多數(shù)主題處在成長、成熟狀態(tài),少數(shù)傳統(tǒng)的主題遠(yuǎn)離人們的視野。目前情報(bào)學(xué)的整體研究呈現(xiàn)由集中到分化的發(fā)展脈絡(luò),未來研究將圍繞數(shù)字圖書館、輿情監(jiān)管、用戶信息行為的影響因素,對(duì)網(wǎng)絡(luò)分析與復(fù)雜網(wǎng)絡(luò)信息生態(tài)鏈等方面研究展開。
參考文獻(xiàn):
李欠欠.2004—2014我國情報(bào)學(xué)熱點(diǎn)研究主題分析:基于戰(zhàn)略坐標(biāo)圖[J].圖書館雜志,2017,37(2):29-34.
李長玲,翟雪梅.我國情報(bào)學(xué)碩士學(xué)位論文的共詞聚類分析[J].情報(bào)科學(xué),2008(1):73-76.
劉非凡,李長玲,魏緒秋.我國情報(bào)學(xué)學(xué)科主題結(jié)構(gòu)分析[J].情報(bào)理論與實(shí)踐,2015,38(2):121-126.
董坤,吳紅.基于論文-專利整合的3D打印技術(shù)研究熱點(diǎn)分析[J].情報(bào)雜志,2014,33(11):73-76,61.
唐果媛,張薇.基于共詞分析法的學(xué)科主題演化研究進(jìn)展與分析[J].圖書情報(bào)工作,2015,59(5):128-136.
鐘偉金,李佳,楊興菊.共詞分析法研究(三):共詞聚類分析法的原理與特點(diǎn)[J].情報(bào)雜志,2008(7):118-120.
劉自強(qiáng),王效岳,白如江.多維主題演化分析模型構(gòu)建與實(shí)證研究[J].情報(bào)理論與實(shí)踐,2017,40(3):92-98.
劉自強(qiáng),岳麗欣,王效岳,等.主題演化視角下的國際情報(bào)學(xué)研究熱點(diǎn)與前沿分析[J].圖書館,2017(3):14-22.
HALL D, JYRAFSKY D, MANNING C D. Studying the history of ideas using topic models[C]//Conference on Empirical Methods in Natural Language Processing,2008:363-371.