彭國超,孔泳欣,王玉文
(中山大學(xué)信息管理學(xué)院,廣州 510006)
突變?cè)~檢測(cè)在學(xué)科領(lǐng)域主題研究中具有前沿性、及時(shí)性和情報(bào)意義。突變?cè)~是指在某一時(shí)刻頻次發(fā)生顯著變化,呈現(xiàn)突然上升或突然下降趨勢(shì)的關(guān)鍵詞[1]。詞頻量較低但增長勢(shì)頭不斷增強(qiáng)的關(guān)鍵詞,表明其在學(xué)科領(lǐng)域不斷聚集力量,受到越來越多學(xué)者的關(guān)注,未來發(fā)展為研究熱點(diǎn)的概率較大[2]。突變?cè)~檢測(cè),有助于挖掘?qū)W科研究前沿,及時(shí)發(fā)現(xiàn)潛在新興主題,能極大地提高學(xué)者及時(shí)應(yīng)對(duì)科技發(fā)展及變化的能力。
目前主題突變檢測(cè)主要從單一指標(biāo)視角出發(fā),僅運(yùn)用詞頻分析、詞頻變化分析或共詞分析等單一方法,無法有效挖掘出具有發(fā)展?jié)摿Φ耐蛔冊(cè)~。因此,本文提出構(gòu)建包含無序性、增長性、突變度、知識(shí)融合度、影響力度的多維指標(biāo)融合的主題突變檢測(cè)方法,探討突變?cè)~的形成、發(fā)展現(xiàn)狀和未來趨勢(shì)這三個(gè)狀態(tài),挖掘出未來更可能成為研究前沿和研究熱點(diǎn)的主題。
突變?cè)~具有三個(gè)特征。一是詞頻特征,即某一主題的頻次發(fā)生顯著變化,呈現(xiàn)突然上升或下降的現(xiàn)象[3]。根據(jù)持續(xù)時(shí)間的不同,突變?cè)~可分為突發(fā)性突變?cè)~和持續(xù)性突變?cè)~[4]。前者普遍表現(xiàn)為長時(shí)間的低頻狀態(tài)后驟增,后者通常表現(xiàn)為足夠強(qiáng)度的突發(fā)且最后達(dá)到平穩(wěn)持續(xù)的狀態(tài)[5]。二是主題演化特征,即主題呈現(xiàn)出突現(xiàn)、突增、消失、融合和分化等現(xiàn)象,反映出知識(shí)新生、擴(kuò)張、消亡、交叉和衍生等一系列知識(shí)演化歷程[6]。三是科研人員行為特征,即吸引科研人員的關(guān)注[7],表現(xiàn)為科研人員引用和下載量在短時(shí)間內(nèi)發(fā)生明顯變化[8]。
突變?cè)~檢測(cè)的經(jīng)典算法是Kleinberg 算法[5],即基于概率機(jī)對(duì)詞頻進(jìn)行建模,進(jìn)而計(jì)算出詞的突發(fā)權(quán)重,判斷當(dāng)前是否處于突發(fā)狀態(tài),以及狀態(tài)持續(xù)時(shí)間。Kleinberg 算法的基本假設(shè)是新條目連續(xù)進(jìn)入數(shù)據(jù)集[9];然而與新聞報(bào)道不同,科學(xué)論文是分批發(fā)行的,因此需要增加文獻(xiàn)的突發(fā)詞所設(shè)置的時(shí)間間隔,如由秒變?yōu)槟闧10]。學(xué)界廣泛運(yùn)用Kleinberg 算法來發(fā)現(xiàn)突變主題[11-12]。其中,陳超美教授基于Kleinberg 算法開發(fā)出CiteSpace II 的突變檢測(cè)功能,其主要原理是基于從題目、摘要、系統(tǒng)檢索詞和文獻(xiàn)記錄的標(biāo)識(shí)符中提取出的突變專業(yè)術(shù)語[13]。不少學(xué)者運(yùn)用CiteSpace II 的突變?cè)~時(shí)區(qū)視圖、突變?cè)~共現(xiàn)網(wǎng)絡(luò)視圖及突變?cè)~權(quán)重排序功能探測(cè)突變?cè)~,根據(jù)突變?cè)~出現(xiàn)頻次的時(shí)間變化趨勢(shì),將主題突變分成上升、下降、穩(wěn)定等多個(gè)類型[4,7-8]。這一方法有助于挖掘高突變率低頻次的主題,但是忽略了低突變率高頻次的主題。楊選輝等[14]結(jié)合突變檢測(cè)和共詞分析,同時(shí)關(guān)注高突變率低頻詞和低突變率高頻詞的探測(cè)。尚曉倩[15]基于CiteSpace II 的突變檢測(cè)結(jié)果,進(jìn)一步分析高突變率主題的來源文獻(xiàn),更準(zhǔn)確地把握其發(fā)展趨勢(shì)。此外,知識(shí)圖譜工具Sci2(science of science)也基于Kleinberg 算法來探測(cè)突發(fā)詞,有的學(xué)者選擇Sci2 來識(shí)別突變?cè)~[3,16]。
基于詞頻變化率分析的Kleinberg 算法及其應(yīng)用工具忽略了詞義信息和上下文語境[17],為此,學(xué)者將共詞分析技術(shù)集成到突變?cè)~挖掘中,為突變?cè)~的演化過程、與其他主題的結(jié)合情況提供線索[16]。例如,Mane 等[18]利用Kleinberg 的突發(fā)檢測(cè)算法、共詞分析和圖形布局技術(shù)來生成1982—2001 年《美國國家科學(xué)院院刊》刊載文獻(xiàn)的突變?cè)~。劉敏娟等[1]基于共詞分析和知識(shí)圖譜的學(xué)科主題演化方法進(jìn)行集成和改進(jìn),通過主題類型劃分、對(duì)特征主題詞定量分析來識(shí)別突變?cè)~。隗玲等[3]將突發(fā)監(jiān)測(cè)結(jié)果與強(qiáng)共現(xiàn)網(wǎng)絡(luò)結(jié)果結(jié)合起來進(jìn)行對(duì)比,以驗(yàn)證突變主題的學(xué)科交叉性,并指出突變?cè)~檢測(cè)在交叉主題發(fā)現(xiàn)上具有優(yōu)勢(shì)。值得關(guān)注的是,部分學(xué)者引入關(guān)聯(lián)理論,結(jié)合共詞分析和突變?cè)~檢測(cè)技術(shù),構(gòu)建關(guān)鍵詞與突發(fā)項(xiàng)的關(guān)聯(lián)規(guī)則挖掘模型,以更有效地識(shí)別出具有發(fā)展前景的突變?cè)~[19-21]。其中,張金柱等[6]結(jié)合戰(zhàn)略坐標(biāo)圖和改進(jìn)的主題關(guān)聯(lián)度計(jì)算方法,分析各時(shí)間段關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題中心度、密度和主題規(guī)模的變化,以分析主題演變和主題突變。
隨著突發(fā)詞檢測(cè)研究越來越深入,當(dāng)前學(xué)者從不同角度改進(jìn)突發(fā)詞檢測(cè)算法,發(fā)展出了一些新的算法[21]。張金柱等[22]以不同時(shí)間段引用科學(xué)論文的關(guān)鍵詞(或?qū)W科分類)的差異程度表示突變程度。王莉亞[23]將信息熵變化原理和有序聚類方法相結(jié)合,識(shí)別關(guān)鍵詞突變點(diǎn),并基于突變點(diǎn)數(shù)量劃分出不同發(fā)展階段。鐘輝新[24]認(rèn)為,隨著Altmetrics 的興起,用戶行為數(shù)據(jù)將成為新興趨勢(shì)探測(cè)的重要支撐。洪娜等[25]設(shè)計(jì)了基于能量的潛在爆發(fā)詞探測(cè)模型,分析詞在其發(fā)展過程中的生命周期、能量積累與衰減以及能量趨勢(shì)變化。考慮到主題的語義信息,Wu 等[10]提出基于知識(shí)組織系統(tǒng)(knowledge or‐ganization system,KOS)的k 狀態(tài)自動(dòng)機(jī)突發(fā)檢測(cè)模型,有效去除噪聲概念,提高突發(fā)概念識(shí)別的準(zhǔn)確性。Qi 等[26]引入LDA(latent Dirichlet allocation),提出了一種新的主題模型Burst-LDA,通過一階馬爾可夫鏈確定每個(gè)主題的突發(fā)狀態(tài),并運(yùn)用Logis‐tic 回歸方法生成文檔主題比例,以揭示主題的突發(fā)。此外,部分學(xué)者借鑒其他領(lǐng)域的理論進(jìn)行文獻(xiàn)的突發(fā)詞檢測(cè)。He 等[27]利用物理動(dòng)力學(xué)的質(zhì)量和速度概念,把突變看作一種動(dòng)態(tài)現(xiàn)象,并基于動(dòng)量、加速度和力三類指標(biāo)檢測(cè)突變?cè)~。Tattershall等[9]引入股票分析的趨勢(shì)檢測(cè)算法,將文獻(xiàn)的標(biāo)題和摘要中提取的主題的流行率當(dāng)作股票價(jià)格來處理,構(gòu)建歷史數(shù)據(jù)分類器,預(yù)測(cè)未來的流行趨勢(shì)。
在突變?cè)~檢測(cè)指標(biāo)構(gòu)建上,目前的研究趨勢(shì)由單一指標(biāo)探測(cè)逐步向多指標(biāo)探測(cè)發(fā)展。奉國和等[2]基于科技文獻(xiàn)突發(fā)詞的多維度特征來建立突發(fā)詞探測(cè)模型,輔助滑動(dòng)時(shí)間窗口對(duì)結(jié)果進(jìn)行驗(yàn)證,并與CiteSpace 突發(fā)詞探測(cè)結(jié)果對(duì)照。洪娜等[28]通過突發(fā)詞的13 個(gè)維度,提出基于決策樹的潛在突變?cè)~探測(cè)方法。逯萬輝等[29]基于條件隨機(jī)場(chǎng)模型提取突變?cè)~的特征,并設(shè)計(jì)了頻次、頻率和詞頻文檔比三個(gè)指標(biāo)。
綜上所述,突變?cè)~檢測(cè)主要聚焦在詞頻變化、詞共現(xiàn)的關(guān)鍵詞維度,部分研究涉及引文或替代計(jì)量的單一維度,缺乏多維度分析,難以從深層次挖掘主題的形成、發(fā)展動(dòng)力和未來趨勢(shì)。因此,本文綜合關(guān)鍵詞的熵變、變化率、詞共現(xiàn)情況、被引量、下載量,分析關(guān)鍵詞的無序性、增長性、知識(shí)融合度、影響力度,深入有效地挖掘出具有發(fā)展前景和未來更可能成為研究前沿和研究熱點(diǎn)的關(guān)鍵詞。
本文提出的多維指標(biāo)融合的主題突變檢測(cè)研究思路如圖1 所示。
圖1 多維指標(biāo)融合的主題突變檢測(cè)研究思路
從CNKI (China National Knowledge Infrastruc‐ture) 獲取特定學(xué)科領(lǐng)域的CSSCI (Chinese Social Sciences Citation Index)收錄的核心期刊文獻(xiàn)信息,包括關(guān)鍵詞、出版年份、被引量、下載量等字段。數(shù)據(jù)預(yù)處理工作主要是去除非學(xué)術(shù)類期刊文獻(xiàn)。由于非學(xué)術(shù)類期刊文獻(xiàn)也在期刊上刊載,但其不是與學(xué)科領(lǐng)域知識(shí)相關(guān)的,篩除非學(xué)術(shù)類期刊文獻(xiàn)能夠提高關(guān)鍵詞數(shù)據(jù)集的有效性,增強(qiáng)突變?cè)~識(shí)別的準(zhǔn)確性。
2.2.1 突變特征指標(biāo)
1)無序性(random)
隨著時(shí)間的推移,突變主題可能成為研究熱點(diǎn),或者趨弱為普通主題甚至消逝。主題突變?cè)綇?qiáng)烈,其成為未來研究熱點(diǎn)的概率越大。信息熵作為衡量系統(tǒng)不確定性、穩(wěn)定程度和信息量的尺度[30],其值越大,反映數(shù)據(jù)越無序?;诖嗽?,本文利用信息熵值判斷關(guān)鍵詞的出現(xiàn)頻次的不確定性,以反映其突變程度。
設(shè)第j 年關(guān)鍵詞i 的詞頻為f (i,j),可得其詞頻貢獻(xiàn)率p(i,j),確定關(guān)鍵詞熵值ei,并計(jì)算關(guān)鍵詞i的熵權(quán)wi,具體計(jì)算公式為
2)增長性(growth)
其定義域?yàn)?-∞, + ∞),變化趨勢(shì)下降時(shí)變化值為(0,1),無變化波動(dòng)時(shí)變化值為1,變化趨勢(shì)上升時(shí)變化值為(1, + ∞),既反映出變化趨勢(shì),也保證值為正數(shù)?;谧兓禋w一化處理得到變化率ci,具體計(jì)算公式為
3)突變度
結(jié)合主題無序性和主題增長性,測(cè)量關(guān)鍵詞突變值,具體計(jì)算公式為
2.2.2 知識(shí)融合度指標(biāo)
主題演化過程中,若主題不斷與其他主題共同出現(xiàn),則表明它不斷與其他知識(shí)進(jìn)行交叉、融合,即該主題的知識(shí)融合度不斷增強(qiáng),未來發(fā)展為研究熱點(diǎn)或研究前沿的概率較大。本文通過計(jì)算平均共現(xiàn)率來測(cè)量主題的知識(shí)融合度,具體計(jì)算公式為
其中,oi是關(guān)鍵詞i 與其他關(guān)鍵詞的共現(xiàn)次數(shù);qi是關(guān)鍵詞i 的共現(xiàn)詞個(gè)數(shù)。
2.2.3 影響力度指標(biāo)
用SPSS20.0統(tǒng)計(jì)學(xué)軟件分析研究數(shù)據(jù),t用于檢驗(yàn)計(jì)量資料,即(±s),χ2用于檢驗(yàn)計(jì)數(shù)資料,即[n(%)],P<0.05差異有統(tǒng)計(jì)學(xué)意義。
從行為特征分析,科研人員對(duì)相關(guān)主題文獻(xiàn)的下載和引用較多,表示該主題更能吸引科研人員的關(guān)注[7],其在學(xué)科領(lǐng)域的影響力不斷累積,更具有前沿?zé)狳c(diǎn)價(jià)值。由于關(guān)鍵詞在不同文獻(xiàn)中具有不同的重要性,需要對(duì)不同文獻(xiàn)的關(guān)鍵詞進(jìn)行加權(quán)處理,進(jìn)而計(jì)算關(guān)鍵詞的影響力度,計(jì)算公式為
其中,Cij是文獻(xiàn)j 的被引量;Dij是文獻(xiàn)j 的下載量;Bij是關(guān)鍵詞i 在文獻(xiàn)j 中的權(quán)重,關(guān)鍵詞在不同文獻(xiàn)中的重要性通過其排名可體現(xiàn)出來,因此,基于關(guān)鍵詞在該文獻(xiàn)中的排名,對(duì)第1、2、3、…、n 位關(guān)鍵詞分別賦予n∶n-1∶n-2∶…∶1的權(quán)重比例,每篇文獻(xiàn)的關(guān)鍵詞總權(quán)重為1;k是總文獻(xiàn)量;Rij是文獻(xiàn)j的關(guān)鍵詞總量;Xij是關(guān)鍵詞i 在文獻(xiàn)j 中的排名。
基于K-means 聚類算法對(duì)關(guān)鍵詞突變信息進(jìn)行分類,以客觀準(zhǔn)確地劃分突變類型,并有效揭示關(guān)鍵詞未來發(fā)展為研究熱點(diǎn)的概率。K-means 算法作為典型的分割式分群算法,主要應(yīng)用于從大量高緯度的數(shù)據(jù)點(diǎn)中找出最有代表性的數(shù)據(jù)點(diǎn),并以各數(shù)據(jù)點(diǎn)與聚類中心點(diǎn)的距離為依據(jù)進(jìn)行分類。
(1) 構(gòu)建無序性-增長性(random-growth) 矩陣,并進(jìn)行K-means 聚類。
(2) 繪制簇內(nèi)誤差平方和(sum of squared er‐ror,SSE)折線圖,確定K 值。
(3)根據(jù)聚類中心點(diǎn)的數(shù)值大小進(jìn)行分類,分成三個(gè)突變類型,即突現(xiàn)型、強(qiáng)突型和弱突型(圖2)。突現(xiàn)型關(guān)鍵詞(突現(xiàn)詞)是指該主題的相關(guān)文獻(xiàn)在某年度突然出現(xiàn),其他年度又突然消失,其特點(diǎn)是無序性和增長性均較高。強(qiáng)突型關(guān)鍵詞(強(qiáng)突詞)是指突變程度較高的關(guān)鍵詞,即該主題一直處于低頻狀態(tài),但在某一階段顯著波動(dòng),其特點(diǎn)是無序性高但增長性低。弱突型關(guān)鍵詞(弱突詞)是指突變程度較低的關(guān)鍵詞,表現(xiàn)為存在多個(gè)峰值或持續(xù)高頻的數(shù)值特征,其特點(diǎn)是無序性和增長性均較低。
圖2 基于聚類中心點(diǎn)劃分的突變類型
(4)綜合各突變類型關(guān)鍵詞的突變度、知識(shí)融合度、影響力度進(jìn)行分析,得到不同發(fā)展形態(tài)的突變?cè)~,揭示具有發(fā)展?jié)摿Φ耐蛔冊(cè)~。
本文以圖書情報(bào)學(xué)科領(lǐng)域?yàn)槔瑢?duì)其展開突變?cè)~檢測(cè)研究。本文在CNKI 上下載2016—2020 年5年間的CSSCI 收錄的18 種圖情領(lǐng)域核心期刊出版的文獻(xiàn)信息,人工去除無作者、通訊稿、征文稿、期刊導(dǎo)語等非學(xué)術(shù)類期刊文獻(xiàn),經(jīng)統(tǒng)計(jì)、去重得到18634 篇文獻(xiàn)。使用Excel 統(tǒng)計(jì),最終得到79387 個(gè)關(guān)鍵詞。為減少高頻詞的計(jì)算結(jié)果過高覆蓋有效突變?cè)~的識(shí)別,以及消除超低頻詞的長尾效應(yīng),本文選取詞頻大于等于5 且小于等于50 的關(guān)鍵詞(共2340 個(gè))進(jìn)行突變?cè)~檢測(cè),以更好地識(shí)別出具有發(fā)展?jié)摿Φ耐蛔冊(cè)~。
構(gòu)建關(guān)鍵詞-年份的詞頻矩陣,利用2.2.1 節(jié)中的公式計(jì)算關(guān)鍵詞的無序性、增長性、突變度三個(gè)突變特征指標(biāo)。本文重點(diǎn)分析與圖情領(lǐng)域直接相關(guān)的關(guān)鍵詞,其他關(guān)鍵詞不在本文結(jié)果中呈現(xiàn)。表1顯示了突變度排名前20 位的關(guān)鍵詞結(jié)果。
表1 突變度前20位的關(guān)鍵詞詞頻及突變特征指標(biāo)
以無序性和增長性兩個(gè)維度對(duì)關(guān)鍵詞的突變情況進(jìn)行分類,運(yùn)用SPSS 對(duì)無序性-增長性(randomgrowth)矩陣進(jìn)行K-means 聚類分析,繪制簇內(nèi)誤差平方和(SSE)折線圖(圖3),可得K=6 時(shí),SSE出現(xiàn)明顯拐點(diǎn),因此本文確定聚類數(shù)為6。
圖3 SSE折線圖
K-means 聚類結(jié)果如圖4 所示。每個(gè)類的數(shù)據(jù)點(diǎn)數(shù)和中心點(diǎn)坐標(biāo)(random,growth)如表2 所示。根據(jù)聚類結(jié)果(圖4)可得,類1 和類3 為突現(xiàn)詞,類5和類6 為強(qiáng)突詞,類2 和類4 為弱突詞。
圖4 K-means聚類結(jié)果
表2 突變度前20位的關(guān)鍵詞詞頻及突變特征指標(biāo)
根據(jù)2.2.2 節(jié)和2.2.3 節(jié)公式計(jì)算各類突變?cè)~的知識(shí)融合度和影響力度。表3 顯示了高突變度(突變度大于10-20)的突現(xiàn)詞、強(qiáng)突詞、弱突詞的知識(shí)融合度和影響力度結(jié)果。
表3 高突變度的突現(xiàn)詞、強(qiáng)突詞、弱突詞的多維指標(biāo)計(jì)算結(jié)果
續(xù)表
3.5.1 突現(xiàn)詞
本文選取高突變度的突現(xiàn)詞進(jìn)行分析(突變度大于10-20),基于知識(shí)融合度和影響力度兩個(gè)維度,劃分出兩類突現(xiàn)詞,結(jié)果如圖5 所示。
圖5 突現(xiàn)詞(類3)分布情況
知識(shí)融合度低-影響力度低的突現(xiàn)詞(Ⅲ區(qū))主要為新概念、熱門新聞事件。首先,該類突現(xiàn)詞的知識(shí)融合度較低,表現(xiàn)為共現(xiàn)詞較多,但平均共現(xiàn)率低,表明該主題處于初期發(fā)展階段,知識(shí)融合的強(qiáng)度和廣度均較弱。其次,該類突現(xiàn)詞的影響力度較低,主要表現(xiàn)為下載量較低,表明該主題僅被小范圍的學(xué)者關(guān)注,尚未形成明顯的影響力。Ⅲ區(qū)突現(xiàn)詞包括主題圖書館、東莞圖書館、循證社會(huì)科學(xué)、文科建設(shè)。其中,2019 年出版的《主題圖書館的杭州模式》、農(nóng)民工吳桂春先生在東莞圖書館的留言、2020 年教育部發(fā)布的《新文科建設(shè)宣言》等新聞事件引發(fā)了圖情學(xué)界的關(guān)注和思考。主題圖書館、循證社會(huì)科學(xué)等新概念被提出,并逐步發(fā)展。
知識(shí)融合度高-影響力度低的突現(xiàn)詞(Ⅳ區(qū))主要為政策導(dǎo)向的主題詞,響應(yīng)國家政策,緊跟國家需求。首先,該類突現(xiàn)詞的知識(shí)融合度較高,表現(xiàn)為共現(xiàn)詞少但平均共現(xiàn)率高,表明該主題的擴(kuò)散方向較為固定且融合強(qiáng)度較大。其次,該類突現(xiàn)詞的影響力度較低,表現(xiàn)為被引量和下載量均較小,表明該主題在部分學(xué)者的引領(lǐng)下逐漸發(fā)展。Ⅳ區(qū)突現(xiàn)詞包括數(shù)據(jù)要素、數(shù)據(jù)供給、圖情檔學(xué)科建設(shè)。2020 年中共中央、國務(wù)院發(fā)布的《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見》①http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm,將數(shù)據(jù)資源作為新型生產(chǎn)要素,學(xué)者結(jié)合數(shù)據(jù)要素市場(chǎng)化配置和圖情檔學(xué)科建設(shè)開展研究。
3.5.2 強(qiáng)突詞
本文選取高突變度的強(qiáng)突詞進(jìn)行分析(突變度大于10-20),基于知識(shí)融合度和影響力度兩個(gè)維度,劃分出四類突現(xiàn)詞,結(jié)果如圖6 所示。
圖6 強(qiáng)突詞(類5和類6)分布情況
知識(shí)融合度低-影響力度高的強(qiáng)突詞(Ⅰ區(qū))主要為政策法規(guī)、國家舉措,以及圖情領(lǐng)域基礎(chǔ)研究。首先,該類強(qiáng)突詞的知識(shí)融合度較低,表現(xiàn)為共現(xiàn)詞較多,但共現(xiàn)次數(shù)不多。其次,該類突現(xiàn)詞的影響力度較高,表現(xiàn)為高被引量和高下載量,表明學(xué)者積極響應(yīng)國家政策。Ⅰ區(qū)強(qiáng)突詞包括:①關(guān)于政策法規(guī)的《中華人民共和國公共圖書館法》、公共文化服務(wù)保障法。2016 年和2017 年分別通過的《中華人民共和國公共文化服務(wù)保障法》和《中華人民共和國公共圖書館法》,開啟了新時(shí)代我國公共文化服務(wù)和公共圖書館事業(yè)的新篇章,成為圖情領(lǐng)域的重要研究課題。②關(guān)于國家舉措的文旅融合。隨著2018 年文化和旅游部正式掛牌成立,文旅融合的探索成為圖情領(lǐng)域的一大課題,學(xué)者聚焦于文旅融合時(shí)代下公共圖書館的作用、服務(wù)、發(fā)展等一系列的問題。③關(guān)于圖情領(lǐng)域基礎(chǔ)研究的情報(bào)感知、虛擬學(xué)術(shù)社區(qū)、應(yīng)急服務(wù)等。例如,情報(bào)感知是情報(bào)工作的核心內(nèi)容,由于當(dāng)前突發(fā)事件、科技安全等重要問題的出現(xiàn),學(xué)界不斷探索并利用情報(bào)感知作為問題解決的利器。
知識(shí)融合度高-影響力度高的強(qiáng)突詞(Ⅱ區(qū))主要為新時(shí)代下的基礎(chǔ)研究的新發(fā)展,其緊跟新時(shí)代需求,煥發(fā)新機(jī)。首先,該類強(qiáng)突詞的知識(shí)融合度較高,表現(xiàn)為共現(xiàn)詞數(shù)較少但平均共現(xiàn)率高,表明學(xué)者朝著相似的發(fā)展方向開展研究,并不斷強(qiáng)化這一發(fā)展路徑。其次,該類突現(xiàn)詞的影響力度較高,表現(xiàn)為被引量和下載量均較高,表明該主題符合新時(shí)代的需求。Ⅱ區(qū)強(qiáng)突詞包括科學(xué)大數(shù)據(jù)、新型智庫建設(shè)。數(shù)據(jù)資源是新時(shí)代重要的要素資源,在互聯(lián)網(wǎng)+、共享經(jīng)濟(jì)等思維的影響下,科學(xué)大數(shù)據(jù)成為國家科技創(chuàng)新的重要戰(zhàn)略資源,新型智庫建設(shè)是智力資源數(shù)據(jù)的最佳應(yīng)用場(chǎng)景。
知識(shí)融合度低-影響力度低的強(qiáng)突詞(Ⅲ區(qū))主要為基礎(chǔ)研究導(dǎo)向和實(shí)踐導(dǎo)向的主題。該類強(qiáng)突詞的共現(xiàn)詞數(shù)、次數(shù)、被引量、下載量均較低,表明該主題處于初步發(fā)展階段,尚未產(chǎn)生大范圍的影響。Ⅲ區(qū)強(qiáng)突詞包括:①基礎(chǔ)研究導(dǎo)向的職業(yè)勝任力、安全信息、灰色文獻(xiàn)等主題;②實(shí)踐成果導(dǎo)向的社會(huì)信用體系、玩具圖書館、區(qū)域圖書館聯(lián)盟,映射出圖書館實(shí)踐新成果。
知識(shí)融合度高-影響力度低的強(qiáng)突詞(Ⅳ區(qū))主要為優(yōu)秀實(shí)踐成果。該類強(qiáng)突詞的平均共現(xiàn)率和被引量較大,表明該成果得到了學(xué)界的認(rèn)可和學(xué)習(xí)。Ⅳ區(qū)強(qiáng)突詞為杭州圖書館,杭州圖書館的主題圖書館的實(shí)踐、信用服務(wù)的實(shí)踐等多個(gè)方面均有顯著的成果。
3.5.3 弱突詞
本文選取高突變度的弱突詞進(jìn)行分析(突變度大于10-20),基于知識(shí)融合度和影響力度兩個(gè)維度,弱突詞類型為知識(shí)融合度低-影響力度高(Ⅰ區(qū)),結(jié)果如圖7 所示。
圖7 弱突詞(類2和類4)分布情況
Ⅰ區(qū)弱突詞主要為逐漸發(fā)展成熟的研究主題,未來需要結(jié)合不同應(yīng)用情境進(jìn)一步細(xì)化研究,或者與其他知識(shí)領(lǐng)域開展交叉研究。首先,該類弱突詞的知識(shí)融合度較低,表現(xiàn)為共現(xiàn)詞數(shù)較多但平均共現(xiàn)率低,表明該主題正在擴(kuò)散,與多個(gè)主題進(jìn)行交叉融合,但是擴(kuò)散方向尚未固定,融合強(qiáng)度較弱。其次,該類弱突詞的影響力度較高,表現(xiàn)為高被引量和高下載量,表明該主題有一定的研究基礎(chǔ),獲得不少學(xué)者的關(guān)注。Ⅰ區(qū)弱突詞包括數(shù)據(jù)治理、詞向量等,例如,面對(duì)突發(fā)公共事件,學(xué)者針對(duì)數(shù)據(jù)發(fā)布、傳播等數(shù)據(jù)治理相關(guān)主題開展廣泛的討論和研究,以解決數(shù)據(jù)孤島、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量等問題。
基于突變?cè)~類型,結(jié)合知識(shí)融合度和影響力度,分析主題的形成、發(fā)展和未來趨勢(shì),具體如表4 所示。從突變度出發(fā),高突變度的突現(xiàn)詞在初始形成階段能獲得更多的關(guān)注,形成更大的影響力。從知識(shí)融合度出發(fā),突變?cè)~的知識(shí)融合度高,表明其交叉融合的廣度和強(qiáng)度均較高,未來更可能發(fā)展成為研究熱點(diǎn);從影響力度出發(fā),突變?cè)~的影響力度高,表明其受到廣泛的關(guān)注,已形成一定的研究基礎(chǔ),未來更可能發(fā)展為研究前沿。
表4 各類突變?cè)~的形成、發(fā)展和未來趨勢(shì)情況分析
圍繞主題突變檢測(cè)這一研究主題,本文構(gòu)建突變?cè)~檢測(cè)多維指標(biāo)體系,包含無序性、增長性、突變度三個(gè)突變特征指標(biāo),以及知識(shí)融合度指標(biāo)和影響力度指標(biāo)。接著,基于無序性和增長性兩個(gè)維度,運(yùn)用K-means 聚類劃分出突現(xiàn)詞、強(qiáng)突詞、弱突詞三類突變?cè)~。最后,結(jié)合各類突變?cè)~的突變度、知識(shí)融合度、影響力度,識(shí)別不同發(fā)展形態(tài)的突變?cè)~,挖掘出未來更可能成為研究前沿和研究熱點(diǎn)的關(guān)鍵詞。
本文提出的多維指標(biāo)融合的主題突變檢測(cè)方法,在傳統(tǒng)的詞頻分析法上,更加關(guān)注突變?cè)~的科研人員行為特征和主題演化特征,有助于準(zhǔn)確分析突變?cè)~的形成、發(fā)展和未來趨勢(shì)。通過不同發(fā)展階段的深入分析,更有效地把握具有發(fā)展?jié)摿Φ闹黝}詞,為學(xué)者和相關(guān)科技管理部門在進(jìn)行研究熱點(diǎn)和研究前沿研判時(shí)提供一定的支持和啟示,促進(jìn)學(xué)科領(lǐng)域的創(chuàng)新發(fā)展。