孟 璇,熊回香,葉佳鑫
研究方法是科研人員進(jìn)行研究的思維形式和手段,是區(qū)分研究型文獻(xiàn)和非研究型文獻(xiàn)的核心要素。圖書情報(bào)學(xué)科的學(xué)術(shù)論文作為一種重要的研究型文獻(xiàn)成果,蘊(yùn)含著豐富的研究方法知識(shí)[1-2]。學(xué)者們針對(duì)不同研究對(duì)象會(huì)形成不同的研究主題,圍繞不同的研究主題會(huì)使用契合的研究方法深入探究,從而使得隸屬于不同主題范疇下的研究方法存在較大差異,該現(xiàn)象反映出圖書情報(bào)領(lǐng)域中研究主題與研究方法之間存在一定的對(duì)應(yīng)關(guān)系?;诖?,本文依據(jù)研究主題和研究方法之間的潛在聯(lián)系,從宏觀與微觀結(jié)合視角出發(fā),將主題演化的相關(guān)方法運(yùn)用于學(xué)科學(xué)術(shù)論文的研究方法研究中,不僅能夠全局把握學(xué)科中各主題對(duì)應(yīng)研究方法的整體發(fā)展歷程,給學(xué)科方法論體系的完善工作提供參考,亦能夠細(xì)粒度地回溯每個(gè)主題下各研究方法的應(yīng)用趨勢(shì),給圖書情報(bào)學(xué)者在針對(duì)某一主題展開(kāi)研究時(shí)提供借鑒。
圖書情報(bào)領(lǐng)域關(guān)于研究方法的概念可以歸納為兩種理解:一是關(guān)于解決應(yīng)用場(chǎng)景具體問(wèn)題的過(guò)程中所運(yùn)用的方法、工具、手段或技術(shù)[3-6];二是作者提出的問(wèn)題的解決方案[6-7]。依據(jù)上述研究方法定義,本文中的研究方法可以定義為“在圍繞學(xué)術(shù)論文主題研究的過(guò)程中所應(yīng)用的方法、工具、技術(shù)和方案”。在構(gòu)建研究方法演化模型的過(guò)程中,本文利用關(guān)鍵詞的語(yǔ)義類型特征構(gòu)造語(yǔ)義共詞網(wǎng)絡(luò),采用Louvain 算法識(shí)別出隱含主題,并通過(guò)計(jì)算相鄰時(shí)期主題的關(guān)聯(lián)強(qiáng)度初步構(gòu)建研究方法演化鏈;在此基礎(chǔ)上,通過(guò)對(duì)研究方法進(jìn)行擴(kuò)充和重要性評(píng)估,完成研究方法演化鏈的優(yōu)化;最后依據(jù)研究演化鏈中研究方法的數(shù)量及其重要程度排名情況進(jìn)行演化分析。相比于基于內(nèi)容分析法的研究方法演化分析的相關(guān)研究,基于共詞網(wǎng)絡(luò)的研究方法演化分析能更好地呈現(xiàn)出研究方法在具體研究主題中的演化情況。
目前按照研究方法的標(biāo)注方式,可將研究方法相關(guān)研究劃分為基于人工標(biāo)注的研究和基于機(jī)器標(biāo)注的研究?;谌斯?biāo)注的研究主要是利用扎根理論搭建編碼框架以展開(kāi)研究方法標(biāo)注。該類研究較為依賴標(biāo)注者領(lǐng)域知識(shí),因而準(zhǔn)確性較高,仍然是研究方法相關(guān)研究的主流方法,并產(chǎn)生了豐碩的研究成果。例如,王芳等[8]以《情報(bào)學(xué)報(bào)》為分析樣本,發(fā)現(xiàn)我國(guó)情報(bào)學(xué)研究方法中理論研究比重下降,實(shí)證研究比重逐年增加;化柏林等[9]采用文獻(xiàn)調(diào)查法、內(nèi)容分析法、知識(shí)抽取法等多種方法,初步構(gòu)建面向情報(bào)工作流程的研究方法體系;李博聞等[2]將研究方法相關(guān)論文進(jìn)行劃分,并對(duì)每類論文進(jìn)行內(nèi)容分析,歸納出存在的問(wèn)題,并提出基于“相似度”構(gòu)建方法體系的解決思路,隨后利用內(nèi)容分析法對(duì)學(xué)術(shù)論文研究方法進(jìn)行標(biāo)注,并以研究方法演進(jìn)視角對(duì)“大情報(bào)觀重述”的成因進(jìn)行探析[10];Chu等[11-12]運(yùn)用內(nèi)容分析法發(fā)現(xiàn)多種研究方法混合應(yīng)用的趨勢(shì)以及定性分析方法增長(zhǎng)緩慢的現(xiàn)象,并闡釋了研究方法內(nèi)涵的組成及研究方法分類標(biāo)準(zhǔn)制定的依據(jù)。由于人工標(biāo)注存在成本高、耗時(shí)長(zhǎng)、主觀偏差等問(wèn)題,很多學(xué)者轉(zhuǎn)而對(duì)研究方法進(jìn)行機(jī)器標(biāo)注。例如,章成志等[1]將樸素貝葉斯算法和支持向量機(jī)算法與3種問(wèn)題轉(zhuǎn)換策略結(jié)合,構(gòu)建6種研究方法分類模型,并對(duì)其分類效果進(jìn)行比較,與此同時(shí)將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、條件隨機(jī)場(chǎng)、詞向量相結(jié)合,對(duì)近10年《情報(bào)學(xué)報(bào)》論文中的研究方法進(jìn)行命名實(shí)體識(shí)別[13]。
按照主題的識(shí)別方法,可將主題演化分析研究劃分為基于關(guān)系網(wǎng)絡(luò)聚類和基于主題模型兩類。在前者中,王曉光等[14]構(gòu)建科研主題演化分析模型,并開(kāi)發(fā)出網(wǎng)絡(luò)社區(qū)演化分析工具NEViewer;程齊凱等[15]將網(wǎng)絡(luò)社區(qū)演化分為產(chǎn)生、消亡、合并、分裂、擴(kuò)張、收縮等6種演化類型,提出共詞網(wǎng)絡(luò)社區(qū)演化分析框架;Palla等[16]利用邊重合度設(shè)計(jì)了社區(qū)演化跟蹤算法,將網(wǎng)絡(luò)社區(qū)的演化過(guò)程分為產(chǎn)生、消亡、分裂、合并、擴(kuò)張及收縮6種形式。在基于主題模型進(jìn)行演化分析的研究中,岳麗欣等[17]利用LDA和多維尺度分析法識(shí)別期刊論文的核心主題和次要主題,繪制主題交叉演化脈絡(luò)圖進(jìn)行相關(guān)分析;劉自強(qiáng)等[18]采用PLDA主題模型識(shí)別領(lǐng)域論文主題,多維度構(gòu)建主題演化分析模型,并采用科學(xué)知識(shí)圖譜可視化;Hall等[19]針對(duì)主題熱度測(cè)度提出將其轉(zhuǎn)化為主題對(duì)應(yīng)文檔數(shù)量及被引量的新思路。
從上述研究可知,主題演化分析的研究范式已較為成熟,而研究方法的研究中仍主要采用內(nèi)容分析法對(duì)論文研究方法編碼分類并展開(kāi)分析。然而,目前大多數(shù)研究方法研究只是對(duì)研究方法進(jìn)行粗粒度的統(tǒng)計(jì)和分析,沒(méi)有從微觀層面對(duì)研究方法演化情況進(jìn)行細(xì)粒度的刻畫?;诖?,本文將主題演化分析引入研究方法研究中,以主題維度對(duì)研究方法的演化情況進(jìn)行深入探究。
本文所提出的學(xué)術(shù)論文研究方法演化分析模型由共詞網(wǎng)絡(luò)構(gòu)建、主題識(shí)別及其演化、研究方法演化分析3個(gè)模塊構(gòu)成,如圖1所示。
圖1 學(xué)術(shù)論文研究方法演化分析模型
(1)共詞網(wǎng)絡(luò)構(gòu)建模塊。首先,獲取圖書情報(bào)領(lǐng)域?qū)W術(shù)論文的題目、關(guān)鍵詞及摘要等外部特征數(shù)據(jù),將其劃分不同時(shí)期。其次,對(duì)關(guān)鍵詞進(jìn)行規(guī)范化處理,并分為研究主題類關(guān)鍵詞、研究方法類關(guān)鍵詞和其他類關(guān)鍵詞。最后,基于關(guān)鍵詞詞對(duì)共現(xiàn)強(qiáng)度篩選關(guān)鍵詞,并構(gòu)建共詞網(wǎng)絡(luò)。
(2)主題識(shí)別及其演化模塊。首先采用Louvain算法對(duì)各個(gè)時(shí)期的共詞網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,利用社區(qū)與主題之間的潛在對(duì)應(yīng)關(guān)系進(jìn)行主題識(shí)別。而后計(jì)算主題關(guān)聯(lián)強(qiáng)度,以確定前后主題間的演化關(guān)系,并形成主題社區(qū)演化鏈。
(3)研究方法演化分析模塊。首先,從主題社區(qū)演化鏈中抽取研究方法類關(guān)鍵詞初步形成研究方法演化鏈。其次,補(bǔ)充研究方法類關(guān)鍵詞,并利用度中心性和區(qū)分度兩個(gè)指標(biāo)以及TOPSIS方法對(duì)研究方法的重要性進(jìn)行評(píng)價(jià)。最后,依據(jù)演化鏈中研究方法的數(shù)量以及研究方法重要度排名的變化情況進(jìn)行分析。
2.1.1 關(guān)鍵詞語(yǔ)義類型劃分
論文關(guān)鍵詞是對(duì)論文內(nèi)容的濃縮,通常用于揭示論文研究主題、研究方法、研究范圍、研究領(lǐng)域等信息,因而關(guān)鍵詞天然遵循某種特定的類型特征。胡昌平等[20]將關(guān)鍵詞語(yǔ)義類型劃分為“研究主題”“所屬領(lǐng)域”“限定范圍”“理論方法”“子知識(shí)點(diǎn)”。結(jié)合本文研究思路,本文將關(guān)鍵詞語(yǔ)義類型人工劃分為研究主題、研究方法及其他3類,分別以[T]、[M]、[O]后綴進(jìn)行標(biāo)識(shí),具體劃分標(biāo)準(zhǔn)見(jiàn)表1。例如,論文《基于共詞分析的學(xué)科結(jié)構(gòu)可視化方法的比較》的關(guān)鍵詞為“學(xué)科結(jié)構(gòu)”“可視化”“聚類分析”“戰(zhàn)略坐標(biāo)”“社會(huì)網(wǎng)絡(luò)分析”“共詞分析”。從標(biāo)題可知論文的研究聚焦于“學(xué)科結(jié)構(gòu)”,因而“學(xué)科結(jié)構(gòu)”為研究主題類關(guān)鍵詞;對(duì)摘要進(jìn)行內(nèi)容分析發(fā)現(xiàn),論文在研究過(guò)程中運(yùn)用社會(huì)網(wǎng)絡(luò)分析、聚類分析等方法,因此“可視化”“聚類分析”“戰(zhàn)略坐標(biāo)”“社會(huì)網(wǎng)絡(luò)分析”“共詞分析”關(guān)鍵詞應(yīng)劃分為研究方法類型關(guān)鍵詞。在對(duì)關(guān)鍵詞語(yǔ)義類型劃分后,由3名本領(lǐng)域?qū)W者對(duì)劃分結(jié)果進(jìn)行獨(dú)立檢查,針對(duì)有分歧的關(guān)鍵詞劃分進(jìn)行集中討論,以保證關(guān)鍵詞語(yǔ)義角色標(biāo)注的客觀性和準(zhǔn)確性。
表1 關(guān)鍵詞語(yǔ)義類型劃分標(biāo)準(zhǔn)
2.1.2 語(yǔ)義關(guān)鍵詞篩選
根據(jù)以往研究發(fā)現(xiàn),共詞網(wǎng)絡(luò)質(zhì)量取決于網(wǎng)絡(luò)結(jié)構(gòu)的清晰性及知識(shí)點(diǎn)覆蓋程度。共詞網(wǎng)絡(luò)中存在大量低頻詞會(huì)導(dǎo)致共現(xiàn)矩陣稀疏、網(wǎng)絡(luò)結(jié)構(gòu)松散等問(wèn)題;而只選擇高頻詞則會(huì)使網(wǎng)絡(luò)丟失大量的重要共現(xiàn)關(guān)系,造成知識(shí)點(diǎn)覆蓋面較小的情況,為平衡網(wǎng)絡(luò)結(jié)構(gòu)清晰性與知識(shí)點(diǎn)覆蓋度,本文提出“先篩選后擴(kuò)充”選詞策略。該策略分為兩個(gè)階段:關(guān)鍵詞篩選階段和擴(kuò)充階段。關(guān)鍵詞篩選階段主要采用改進(jìn)的E指數(shù)公式計(jì)算關(guān)鍵詞間的共現(xiàn)強(qiáng)度[21],計(jì)算方法如下:
2.2.1 基于共詞網(wǎng)絡(luò)的主題識(shí)別
共詞網(wǎng)絡(luò)作為一種特殊的社會(huì)網(wǎng)絡(luò),呈現(xiàn)出較為顯著的社區(qū)分布特征,每個(gè)社區(qū)中的關(guān)鍵詞更有可能呈現(xiàn)出相同或相似的主題特征,因而共詞網(wǎng)絡(luò)中的社區(qū)與主題之間存在天然的對(duì)應(yīng)關(guān)系[22-23]?;诖?,本文將主題識(shí)別問(wèn)題轉(zhuǎn)化為社區(qū)劃分問(wèn)題,利用Louvain算法對(duì)各時(shí)期共詞網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,并將劃分后的結(jié)果抽象為一個(gè)主題,以達(dá)到識(shí)別主題的目的[14]。為突出社區(qū)的主題特征,本文將共詞網(wǎng)絡(luò)中的社區(qū)命名為主題社區(qū),其由不同語(yǔ)義類型的關(guān)鍵詞組成。
2.2.2 主題社區(qū)演化鏈的形成
隨著社會(huì)需求的變化、科學(xué)技術(shù)的革新、學(xué)科研究范式的轉(zhuǎn)變,科研主題發(fā)展會(huì)發(fā)生一定的突變,具體表現(xiàn)為新主題的產(chǎn)生與舊主題的消亡。新主題常在舊主題的消亡過(guò)程中孕育產(chǎn)生,形成科研領(lǐng)域常見(jiàn)的主題演化現(xiàn)象[14]。在本文中,由于主題被具象化為主題社區(qū),因而主題演化現(xiàn)象對(duì)應(yīng)為主題社區(qū)演化。相鄰時(shí)期主題社區(qū)的演化關(guān)系通常根據(jù)前后時(shí)期社區(qū)的關(guān)聯(lián)強(qiáng)度判斷,即社區(qū)間關(guān)聯(lián)強(qiáng)度越大越可能存在演化關(guān)系。本文基于點(diǎn)相似度和價(jià)值貢獻(xiàn)的思想,引入關(guān)鍵詞的語(yǔ)義類型進(jìn)行社區(qū)關(guān)聯(lián)強(qiáng)度計(jì)算。本文認(rèn)為關(guān)鍵詞的價(jià)值貢獻(xiàn)度由兩方面構(gòu)成,一方面為關(guān)鍵詞詞頻占所屬主題社區(qū)總詞頻的比重;另一方面通過(guò)設(shè)定調(diào)節(jié)系數(shù)對(duì)不同語(yǔ)義類型的貢獻(xiàn)度加以區(qū)分。主題社區(qū)i與主題社區(qū)j的關(guān)聯(lián)強(qiáng)度用Fij表示,其計(jì)算方法如下:
其中,s為社區(qū)i和社區(qū)j共有的關(guān)鍵詞數(shù)量,Viu為主題社區(qū)i中第u個(gè)關(guān)鍵詞所貢獻(xiàn)的價(jià)值,Vju為主題社區(qū)j中第u個(gè)關(guān)鍵詞所貢獻(xiàn)的價(jià)值。語(yǔ)義關(guān)鍵詞對(duì)所屬社區(qū)的價(jià)值貢獻(xiàn)計(jì)算方法如下:
分子freq(kiu[character])為社區(qū)i中第u個(gè)語(yǔ)義類型為character的關(guān)鍵詞的詞頻數(shù),分母為社區(qū)i中所有語(yǔ)義類型為character的關(guān)鍵詞的總詞頻,N為社區(qū)i節(jié)點(diǎn)數(shù)量。ω為不同關(guān)鍵詞語(yǔ)義類型所對(duì)應(yīng)的調(diào)節(jié)系數(shù)函數(shù),見(jiàn)公式(4)。
考慮到主題社區(qū)中研究主題類關(guān)鍵詞最能凸顯該社區(qū)的主題特征,對(duì)社區(qū)貢獻(xiàn)所貢獻(xiàn)的價(jià)值最大,因而其調(diào)節(jié)系數(shù)最大;其他類關(guān)鍵詞往往與研究主題存在一定關(guān)聯(lián),但不能直觀地反映出社區(qū)的主題特征,因而調(diào)節(jié)系數(shù)次之;不同研究主題的論文可能會(huì)運(yùn)用相同的研究方法,導(dǎo)致部分研究方法類關(guān)鍵詞存在廣泛適用性,對(duì)其所屬社區(qū)的價(jià)值貢獻(xiàn)度較低,因此研究方法類關(guān)鍵詞調(diào)節(jié)系數(shù)設(shè)為最低。
最后,構(gòu)建出相鄰時(shí)期的兩兩社區(qū)之間的關(guān)聯(lián)強(qiáng)度矩陣ST。
其中m和n分別代表相鄰時(shí)期的社區(qū)數(shù)量。為方便后續(xù)分析,將ST轉(zhuǎn)換列向量形式。
設(shè)定閾值δ,依次掃描向量v1到vm,選取每個(gè)向量中高于δ的元素。由于本文對(duì)主題社區(qū)演化過(guò)程中可能出現(xiàn)的分裂、融合等情況不進(jìn)一步展開(kāi)研究,因此將前后社區(qū)中關(guān)聯(lián)強(qiáng)度最大的社區(qū)判定為前后演化社區(qū),即若滿足閾值條件的社區(qū)數(shù)量大于1,則選取關(guān)聯(lián)強(qiáng)度的最大值并記錄該值所對(duì)應(yīng)的行標(biāo)和列標(biāo),從而得到相鄰時(shí)期存在演化關(guān)系的主題社區(qū)。
通過(guò)對(duì)前后主題社區(qū)的演化關(guān)系進(jìn)行識(shí)別,可以將主題社區(qū)串聯(lián)為一種鏈?zhǔn)浇Y(jié)構(gòu),本文依照其數(shù)據(jù)結(jié)構(gòu)特點(diǎn)將其命名為主題社區(qū)演化鏈,該主題社區(qū)演化鏈由5個(gè)不同時(shí)期的社區(qū)網(wǎng)絡(luò)構(gòu)成,相鄰時(shí)期的社區(qū)網(wǎng)絡(luò)之間存在演化關(guān)系。具體可定義為假設(shè)Topicti表示t時(shí)期的第i個(gè)主題社區(qū),Topic(t+1)j表示t+1 時(shí)期的第j個(gè)主題社區(qū),Topic(t+2)k表示t+2 時(shí)期的第k個(gè)主題社區(qū)。若Topicti與 Topic(t+1)j存在演化關(guān)系,Topic(t+1)j和Topic(t+2)k存在演化關(guān)系,則說(shuō)明Topicti、Topic(t+1)j、Topic(t+2)k所對(duì)應(yīng)的主題從t時(shí)期到t+2時(shí)期一直存在,形成形如Topicti→Topic(t+1)j→Topic(t+2)k的3個(gè)時(shí)期主題社區(qū)演化鏈。
2.3.1 研究方法演化鏈的形成
研究方法類關(guān)鍵詞與研究主題類關(guān)鍵詞屬于同一主題社區(qū),使研究方法類關(guān)鍵詞被賦予了主題屬性,而主題社區(qū)之間又存在演化關(guān)系,因而研究方法之間也應(yīng)存在演化關(guān)系,該演化關(guān)系給本文針對(duì)研究方法演化分析提供了邏輯依據(jù)。而要對(duì)研究方法演化情況進(jìn)行分析,需要將研究方法類關(guān)鍵詞從所屬主題社區(qū)中提取出來(lái),以初步構(gòu)建研究方法演化鏈。由于前文小節(jié)對(duì)關(guān)鍵詞的語(yǔ)義類型已經(jīng)進(jìn)行標(biāo)注,因而研究方法類關(guān)鍵詞的提取工作其實(shí)已經(jīng)完成。初步構(gòu)建的研究方法演化鏈由5個(gè)時(shí)期的研究方法類關(guān)鍵詞集合構(gòu)成,形如Topicti[M]→Topic(t+1)j[M]→Topic(t+2)k[M]→Topic(t+3)p[M]→Topic(t+4)n[M],其中 Topicti[M]代表t時(shí)期的第i個(gè)主題社區(qū)下研究方法類關(guān)鍵詞集合。
2.3.2 研究方法演化鏈的優(yōu)化
在本文中,研究方法演化鏈的優(yōu)化分為兩個(gè)步驟:研究方法節(jié)點(diǎn)的擴(kuò)充和研究方法節(jié)點(diǎn)的評(píng)價(jià)及排序。
(1)研究方法節(jié)點(diǎn)擴(kuò)充。由前文可知本文采用改進(jìn)的E指數(shù)方法對(duì)關(guān)鍵詞進(jìn)行篩選,但分析公式(1)發(fā)現(xiàn),當(dāng)兩節(jié)點(diǎn)共現(xiàn)頻次為1時(shí),log2(Cij)的值為0,會(huì)導(dǎo)致關(guān)鍵詞詞對(duì)共現(xiàn)強(qiáng)度為0。假設(shè)某研究方法類關(guān)鍵詞的詞頻大于1,它與社區(qū)中多個(gè)語(yǔ)義關(guān)鍵詞存在共現(xiàn)關(guān)系,但每組詞對(duì)的共現(xiàn)頻次都為1,因而詞對(duì)的共現(xiàn)強(qiáng)度為0,會(huì)導(dǎo)致該研究方法類關(guān)鍵詞丟失(見(jiàn)圖2)。
圖2 研究方法節(jié)點(diǎn)示意圖
在語(yǔ)義關(guān)鍵詞的初步篩選階段,上述特殊現(xiàn)象會(huì)使得共詞網(wǎng)絡(luò)丟失重要的研究方法類關(guān)鍵詞,為保證研究方法演化鏈的完備性,本文對(duì)研究方法節(jié)點(diǎn)進(jìn)行補(bǔ)充??紤]到社區(qū)的主題特征集中體現(xiàn)在研究主題類關(guān)鍵詞,因而本文以研究主題類關(guān)鍵詞為基礎(chǔ),將與之存在共現(xiàn)關(guān)系的研究方法類關(guān)鍵詞補(bǔ)充進(jìn)主題社區(qū),具體步驟如下:第一,遍歷社區(qū)i內(nèi)研究主題類關(guān)鍵詞ki[T];第二,首先,查詢ki[T]所在論文集合DT,遍歷DT中的每一篇論文Dk,以Dk摘要為基礎(chǔ),人工篩選出摘要中的研究方法作為研究方法類關(guān)鍵詞,添加至論文Dk的關(guān)鍵詞列表keylistk中;其后,將所有論文所對(duì)應(yīng)的關(guān)鍵詞列表合并去重后形成主題社區(qū)i的關(guān)鍵詞集合ki_set;第三,遍歷ki_set集合中的所有研究方法類關(guān)鍵詞。若該關(guān)鍵詞之前不在社區(qū)i中,則將該關(guān)鍵詞添加到主題社區(qū)i中,同時(shí)將該關(guān)鍵詞與研究主題類關(guān)鍵詞ki[T]共現(xiàn)的邊也添加到社區(qū)i中;若該關(guān)鍵詞原本就在社區(qū)i中,則進(jìn)一步判斷該關(guān)鍵詞與ki[T]的共現(xiàn)邊在社區(qū)i是否存在,若不存在則將詞對(duì)共現(xiàn)邊加入社區(qū),否則原共現(xiàn)邊的頻次加一。若該研究方法類關(guān)鍵詞與社區(qū)中除研究主題類型以外的其他語(yǔ)義關(guān)鍵詞也存在共現(xiàn)關(guān)系,則一并加入到社區(qū)中,最終得到擴(kuò)充后的主題社區(qū)。
(2)研究方法節(jié)點(diǎn)的評(píng)價(jià)及其排序。為了直觀地把握研究方法在其所屬主題社區(qū)中的重要程度,本文從度中心性以及區(qū)分度兩方面對(duì)研究方法節(jié)點(diǎn)進(jìn)行評(píng)價(jià),隨后利用TOPSIS方法對(duì)兩項(xiàng)指標(biāo)進(jìn)行綜合評(píng)價(jià),以度量研究方法類關(guān)鍵詞在主題社區(qū)中的重要程度。
第一,度中心性。主題社區(qū)作為共詞網(wǎng)絡(luò)的子圖,為無(wú)向帶權(quán)類型網(wǎng)絡(luò)。本文將關(guān)鍵詞語(yǔ)義類型引入共詞網(wǎng)絡(luò),因而在計(jì)算研究方法節(jié)點(diǎn)度中心性時(shí),需要同時(shí)考慮關(guān)鍵詞詞對(duì)共現(xiàn)頻次以及與研究方法節(jié)點(diǎn)存在共現(xiàn)關(guān)系的節(jié)點(diǎn)的語(yǔ)義類型。帶權(quán)網(wǎng)絡(luò)的度中心性計(jì)算方法如下[24]:
其中,di為關(guān)鍵詞節(jié)點(diǎn)度數(shù),即與多少關(guān)鍵詞存在共現(xiàn)關(guān)系,wi為關(guān)鍵詞詞對(duì)共現(xiàn)頻次總和。α 為調(diào)節(jié)系數(shù)。當(dāng)α=0 時(shí),當(dāng)α=1時(shí),當(dāng)0<α<1時(shí),節(jié)點(diǎn)度中心性介于di和wi之間,在詞對(duì)共現(xiàn)總頻次相同的情況下,有利于度數(shù)較高的關(guān)鍵詞;當(dāng)α>1時(shí),度中心性則更有利于度數(shù)較低的關(guān)鍵詞?;陉P(guān)鍵詞語(yǔ)義類型的節(jié)點(diǎn)度中心性計(jì)算方法如下:
公式(6)中,Ni代表與i節(jié)點(diǎn)存在共現(xiàn)關(guān)系的關(guān)鍵詞節(jié)點(diǎn)集合,根據(jù)所連節(jié)點(diǎn)的語(yǔ)義類型不同,可將Ni分為Ni[T]、Ni[O]、Ni[M]3種,Ni[T]表示與i節(jié)點(diǎn)相連的研究主題類關(guān)鍵詞集合,Ni[O]和Ni[M]同理。λ根據(jù)相連關(guān)鍵詞集合的語(yǔ)義類型特征進(jìn)行區(qū)分,本文依據(jù)各語(yǔ)義類型對(duì)社區(qū)中主題屬性的凸顯度,對(duì)λ值進(jìn)行設(shè)定,具體見(jiàn)公式(7)。代表關(guān)鍵詞i與某一種語(yǔ)義類型關(guān)鍵詞節(jié)點(diǎn)相連時(shí)的度中心性,其計(jì)算方式與公式(5)類似,見(jiàn)公式(8)。
其中,|Ni[character]|代表節(jié)點(diǎn)i所連接的某種語(yǔ)義類型關(guān)鍵詞的數(shù)量,wi[character]代表關(guān)鍵詞i與某種語(yǔ)義類型關(guān)鍵詞的共現(xiàn)總頻次。α為調(diào)節(jié)系數(shù),其含義同公式(5)。
第二,區(qū)分度。本文利用逆文檔頻率思想對(duì)關(guān)鍵詞區(qū)分度進(jìn)行描述,即研究方法類關(guān)鍵詞i在不同時(shí)期出現(xiàn)的頻次越少,則該研究方法區(qū)分度越高,反之亦然,計(jì)算方法如下:
其中,freqyeari為關(guān)鍵詞i在不同時(shí)期出現(xiàn)的頻次。
第三,基于TOPSIS方法的多指標(biāo)綜合評(píng)價(jià)法。本文基于TOPSIS方法思想,將主題社區(qū)中的每個(gè)研究方法類關(guān)鍵詞節(jié)點(diǎn)看作一個(gè)方案,以度中心性和區(qū)分度作為節(jié)點(diǎn)方案屬性,從而將評(píng)估研究方法節(jié)點(diǎn)重要性問(wèn)題轉(zhuǎn)換為多屬性方案決策問(wèn)題。通過(guò)監(jiān)測(cè)節(jié)點(diǎn)方案與最優(yōu)解、最劣解的距離來(lái)進(jìn)行排序,最靠近最優(yōu)解同時(shí)又最遠(yuǎn)離最劣解為最好解,否則為最差解。
2.3.3 研究方法演化鏈的分析
(1)研究方法的數(shù)量演化。本文采用折線圖的方法對(duì)研究方法演化鏈中各時(shí)期研究方法數(shù)量進(jìn)行分析。
(2)研究方法的重要性演化。為更具體地呈現(xiàn)研究方法重要性演化情況,將研究方法演化鏈進(jìn)一步劃分為“穩(wěn)定型”“成長(zhǎng)型”“突變型”“衰退型”4種類型,其表現(xiàn)特征如表2所示。
表2 研究方法演化鏈類型及其特征
考慮到關(guān)鍵詞人工劃分工作量較大,為驗(yàn)證模型的可行性,本文以《情報(bào)學(xué)報(bào)》《情報(bào)資料工作》《情報(bào)理論與實(shí)踐》3種圖書情報(bào)領(lǐng)域比較有代表的核心期刊為例,在CNKI和萬(wàn)方數(shù)據(jù)庫(kù)中檢索3種期刊2011-2020年的所有學(xué)術(shù)論文,導(dǎo)出題目、關(guān)鍵詞、摘要等外部特征信息,篩除投稿須知、卷首語(yǔ)等非學(xué)術(shù)文章后,共獲取期刊論文5,891篇。主題演化分析中關(guān)于時(shí)間區(qū)間的劃分方法主要有根據(jù)時(shí)間標(biāo)簽確定法和固定時(shí)間窗口法。由于每年刊載的論文數(shù)量大致相同,因而采用固定時(shí)間窗口法將10年時(shí)間劃分為5個(gè)時(shí)期,依次對(duì)應(yīng)2011-2012 年、2013-2014 年、2015-2016 年 、 2017-2018 年 、 2019-2020年。針對(duì)關(guān)鍵詞中常出現(xiàn)的中英翻譯、同義詞、縮寫、單復(fù)數(shù)等現(xiàn)象,進(jìn)行規(guī)范化處理。而后依據(jù)表1對(duì)關(guān)鍵詞語(yǔ)義類型進(jìn)行劃分,共得到語(yǔ)義關(guān)鍵詞15,229個(gè),將各時(shí)期的關(guān)鍵詞用id進(jìn)行標(biāo)識(shí),得到各時(shí)期關(guān)鍵詞列表,其中第1時(shí)期關(guān)鍵詞列表見(jiàn)表3。
表3 第1時(shí)期關(guān)鍵詞列表(部分)
利用公式(1)對(duì)各時(shí)期關(guān)鍵詞進(jìn)行篩選,構(gòu)建語(yǔ)義關(guān)鍵詞共詞網(wǎng)絡(luò)。其中第1時(shí)期語(yǔ)義關(guān)鍵詞詞頻及共現(xiàn)頻次見(jiàn)表4-5。
表4 第1時(shí)期關(guān)鍵詞詞頻(部分)
表5 第1時(shí)期語(yǔ)義關(guān)鍵詞共現(xiàn)詞對(duì)列表(部分)
將節(jié)點(diǎn)信息放入node.csv表格,將邊信息放入edge.csv 表格,利用python 程序讀取node.csv和edge.csv文件構(gòu)建語(yǔ)義關(guān)鍵詞共現(xiàn)矩陣,導(dǎo)入Louvain算法程序進(jìn)行社區(qū)劃分,共得到53個(gè)主題社區(qū),其中第1 時(shí)期主題11個(gè),第2、3時(shí)期主題各9個(gè),第4時(shí)期主題10個(gè),第5時(shí)期主題14個(gè)。為了方便后續(xù)對(duì)主題社區(qū)進(jìn)行分析,針對(duì)每個(gè)主題社區(qū)進(jìn)行編號(hào),其編號(hào)的命名規(guī)則為“時(shí)期序號(hào)+主題序號(hào)”。例如,第4時(shí)期第10個(gè)主題社區(qū)其id為“410”。以第4時(shí)期的社區(qū)劃分結(jié)果為例,其主題社區(qū)id及社區(qū)內(nèi)語(yǔ)義關(guān)鍵詞見(jiàn)表6-7。
表6 401-405主題社區(qū)關(guān)鍵詞列表
表7 406-410主題社區(qū)關(guān)鍵詞列表
利用公式(2)-(4)構(gòu)建相鄰時(shí)期主題社區(qū)關(guān)聯(lián)強(qiáng)度矩陣,并利用heatmap函數(shù)生成主題關(guān)聯(lián)強(qiáng)度矩陣熱力圖。其中,第4和第5時(shí)期的社區(qū)主題關(guān)聯(lián)強(qiáng)度如圖3所示。單元格顏色越深則主題關(guān)聯(lián)強(qiáng)度越大。通過(guò)實(shí)驗(yàn)得知,當(dāng)閾值設(shè)為0.1時(shí),兩個(gè)主題社區(qū)具有較為明顯的演化關(guān)系,相鄰時(shí)期的主題社區(qū)演化關(guān)系識(shí)別如下:
圖3 第4時(shí)期與第5時(shí)期主題關(guān)聯(lián)強(qiáng)度
基于相鄰時(shí)期的主題演化關(guān)系,構(gòu)建出3條完整的主題演化鏈。
本文依據(jù)主題演化鏈主題社區(qū)中研究主題類關(guān)鍵詞及其頻次確定主題社區(qū)名稱,分析發(fā)現(xiàn)主題演化鏈1中的主題社區(qū)主要圍繞研究熱點(diǎn)[T]、主題識(shí)別[T]、主題演化[T]等研究主題類關(guān)鍵詞,因此將主題演化鏈1 確定為研究熱點(diǎn)主題演化鏈;主題演化鏈2主要圍繞信息服務(wù)[T]、知識(shí)服務(wù)[T]、知識(shí)共享[T]、圖書館[O]等語(yǔ)義關(guān)鍵詞,因此將主題演化鏈2確定為圖書館信息知識(shí)服務(wù)演化鏈;演化鏈3出現(xiàn)頻次較高的語(yǔ)義關(guān)鍵詞主要有學(xué)術(shù)影響力[T]、期刊評(píng)價(jià)[T]、評(píng)價(jià)指標(biāo)[O]等,因此將演化鏈3確定為學(xué)術(shù)評(píng)價(jià)演化鏈。
從主題演化鏈中抽取研究方法類關(guān)鍵詞以構(gòu)建研究方法演化鏈,在主題社區(qū)編號(hào)后添加后綴“[M]”表示主題社區(qū)中研究方法類關(guān)鍵詞的集合,由此形成3條完整研究方法演化鏈。
“研究熱點(diǎn)主題”社區(qū)研究方法演化鏈:
“圖書館信息知識(shí)服務(wù)”社區(qū)研究方法演化鏈:
“學(xué)術(shù)評(píng)價(jià)”社區(qū)研究方法演化鏈:
對(duì)每條演化鏈中的研究方法集合進(jìn)行擴(kuò)充,利用公式(5)-(9)對(duì)研究方法節(jié)點(diǎn)進(jìn)行重要性評(píng)價(jià)和排序。由于最終得到的評(píng)價(jià)值較小,為方便直觀分析,統(tǒng)一乘以100作為綜合得分。其中,506[M]排名前10研究方法見(jiàn)表8。為清晰呈現(xiàn)研究方法重要性的動(dòng)態(tài)變化情況,本文利用D3.js 工具編寫代碼對(duì)研究方法演化鏈進(jìn)行可視化展示,見(jiàn)圖4-6。同一時(shí)期內(nèi),節(jié)點(diǎn)之間的高低次序代表當(dāng)期研究方法的重要性排序,以“學(xué)術(shù)評(píng)價(jià)”研究方法演化鏈為例,第1 時(shí)期的“社會(huì)網(wǎng)絡(luò)分析”節(jié)點(diǎn)位置最高代表其重要性最高。
表8 506[M]研究方法列表
圖4 “研究熱點(diǎn)主題”研究方法演化鏈
圖6 “學(xué)術(shù)評(píng)價(jià)”研究方法演化鏈
3.4.1 研究方法的數(shù)量演化
統(tǒng)計(jì)各時(shí)期研究方法關(guān)鍵詞數(shù)量并繪制折線圖,見(jiàn)圖7。“研究熱點(diǎn)主題”演化鏈中的研究方法隨時(shí)間呈現(xiàn)穩(wěn)步增長(zhǎng)態(tài)勢(shì),原因有兩點(diǎn),一是該主題發(fā)文量的增大可能會(huì)導(dǎo)致研究方法數(shù)量增多;二是單篇文獻(xiàn)所用方法的多元化也會(huì)使研究方法關(guān)鍵詞規(guī)模的擴(kuò)大。
圖7 各時(shí)期研究方法數(shù)量變化曲線
“圖書館信息知識(shí)服務(wù)”演化鏈的研究方法數(shù)量整體呈不穩(wěn)定的震蕩波動(dòng)態(tài)勢(shì),略微有下降的趨勢(shì)。仔細(xì)分析該主題對(duì)應(yīng)的學(xué)術(shù)論文發(fā)現(xiàn),“圖書館信息知識(shí)服務(wù)”的相關(guān)研究中學(xué)理類論文占有一定比例,可能會(huì)是導(dǎo)致研究方法迭代速度較慢的原因,再加之?dāng)?shù)據(jù)驅(qū)動(dòng)的第四范式崛起,從而可能會(huì)導(dǎo)致研究方法規(guī)模下降。
“學(xué)術(shù)評(píng)價(jià)”演化鏈的研究方法總數(shù)在1、2、3時(shí)期呈現(xiàn)較為穩(wěn)定的態(tài)勢(shì),但在4、5 時(shí)期有較高幅度的增長(zhǎng)。導(dǎo)致這一現(xiàn)象可能是“學(xué)術(shù)評(píng)價(jià)”研究主題所運(yùn)用的研究方法出現(xiàn)了較大變革,引發(fā)學(xué)界廣泛關(guān)注,從而使得發(fā)文量增加,其研究方法規(guī)模擴(kuò)大。
3.4.2 研究方法的重要性演化
本文分別從“穩(wěn)定型”“成長(zhǎng)型”“突變型”“衰退型”4種類型研究方法演化鏈出發(fā),對(duì)3條研究方法演化鏈進(jìn)行剖析。
(1)“穩(wěn)定型”研究方法演化鏈。第一,“研究熱點(diǎn)主題”演化鏈,“聚類”“可視化”“網(wǎng)絡(luò)分析”等研究方法呈現(xiàn)穩(wěn)定的演化狀態(tài)。以“聚類”為例,第1時(shí)期出現(xiàn)“層次聚類”“聚類”,第2 時(shí)期有“主題聚類”,第3 時(shí)期出現(xiàn)“Linkcomm邊聚類”“聚類分析”,第4時(shí)期代表聚類的研究方法有“聚類”“主題聚類”“聚類分析”“AP算法”等,第5時(shí)期出現(xiàn)“K-Means”“時(shí)間序列聚類”“雙向聚類”“密度峰值聚類算法”“AP算法”等方法,可知雖然聚類方法逐漸多樣化,但聚類思想?yún)s貫穿主題始終。從研究過(guò)程看,“研究熱點(diǎn)主題”需要將相同或相近屬性的研究對(duì)象凝聚成社團(tuán)或簇,以便后續(xù)進(jìn)一步展開(kāi)研究。第二,“圖書館信息知識(shí)服務(wù)”演化鏈,根據(jù)圖5可知,“模型構(gòu)建”和“問(wèn)卷調(diào)查”具有較為穩(wěn)定的演化特點(diǎn)。其中,“模型構(gòu)建”研究方法在第1、3、4時(shí)期的排名較高;“問(wèn)卷調(diào)查”在第1、2時(shí)期排名較高,在第3、4、5時(shí)期排名較低,但該方法始終貫穿整個(gè)演化鏈。由此可知,“模型構(gòu)建”與“問(wèn)卷調(diào)查”是研究“圖書館信息知識(shí)服務(wù)”主題時(shí)所用到的傳統(tǒng)研究方法。第三,“學(xué)術(shù)評(píng)價(jià)”演化鏈,“社會(huì)網(wǎng)絡(luò)分析”“指標(biāo)分析”“引文分析”呈現(xiàn)出穩(wěn)定演化態(tài)勢(shì)。需要注意的是“引文分析”在5個(gè)時(shí)期中具有不同形式,其在第1時(shí)期為“被引分析”,第4時(shí)期為“引文分析”和“共被引分析”。上述研究方法之間存在的內(nèi)在關(guān)聯(lián)可能是其穩(wěn)定演化的原因之一,學(xué)術(shù)評(píng)價(jià)往往引用相關(guān)指標(biāo)來(lái)衡量期刊、作者或者機(jī)構(gòu)的學(xué)術(shù)影響力,而引用指標(biāo)是引文分析后的結(jié)果,在引文網(wǎng)絡(luò)分析中通常借助社會(huì)網(wǎng)絡(luò)分析方法對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)特征屬性進(jìn)行描述。
(2)“成長(zhǎng)型”研究方法演化鏈。第一,“研究熱點(diǎn)主題”演化鏈,由圖4可得,“LDA”為“成長(zhǎng)型”研究方法。“LDA”在第2時(shí)期排名較后,在第3、4、5時(shí)期“LDA”熱度逐漸攀升,并衍生出“PLDA”“CA-LDA”“OLDA”“Gaussian LDA”等LDA 的改進(jìn)模型。同時(shí),“時(shí)序分析”“內(nèi)容分析法”等研究方法也呈現(xiàn)成長(zhǎng)型演化特征。第二,“學(xué)術(shù)評(píng)價(jià)”演化鏈,“相關(guān)性分析”和“Altmetrics”呈現(xiàn)成長(zhǎng)型演化特點(diǎn)。以“Altmetrics”為例,“Altmetrics”是一種基于社交網(wǎng)絡(luò)來(lái)評(píng)價(jià)學(xué)術(shù)成果的計(jì)量指標(biāo)。由于該指標(biāo)起源于國(guó)外,若將其應(yīng)用于國(guó)內(nèi)學(xué)術(shù)成果評(píng)價(jià),仍需進(jìn)行深入研究,因而眾多領(lǐng)域?qū)W者投入到Altmetrics 的研究中。同時(shí),“Altmetrics”排名大幅提升的時(shí)間點(diǎn)大致與“學(xué)術(shù)評(píng)價(jià)”演化鏈研究方法數(shù)量大幅上升的時(shí)期一致,因而本文大膽推測(cè)“Altmetrics”研究方法是“學(xué)術(shù)評(píng)價(jià)”研究方法數(shù)量激增的重要因素,對(duì)“學(xué)術(shù)評(píng)價(jià)”主題研究產(chǎn)生重大影響。
(3)“突變型”研究方法演化鏈。第一,“研究熱點(diǎn)主題”演化鏈,根據(jù)圖4可知,“因子分析法”“耦合分析”“案例分析”等研究方法呈現(xiàn)出“突變型”演化鏈特征。第二,“圖書館信息知識(shí)服務(wù)”演化鏈,突變型研究方法占有較大比例,例如“因子分析法”“熵權(quán)法”“系統(tǒng)動(dòng)力學(xué)”“層次分析法”等,其中“因子分析法”也從側(cè)面反映出這一類研究主題的方法論體系仍不夠成熟有待完善。第三,“學(xué)術(shù)評(píng)價(jià)”演化鏈,“TOPSIS”“DEA模型”等方法呈現(xiàn)出間斷出現(xiàn)的演化特征,兩種研究方法的提出時(shí)間都較早,沒(méi)有連續(xù)使用的原因可能在于“學(xué)術(shù)評(píng)價(jià)”的研究側(cè)重點(diǎn)遷移,與兩種方法的契合度逐漸降低。
(4)“衰退型”研究方法演化鏈。第一,“研究熱點(diǎn)主題”演化鏈,“Citespace”較為滿足“衰退型”演化特征?!癈itespace”在第1、2、4、5時(shí)期的排序分別是7、8、41、51。其原因主要在于Citespace軟件逐漸無(wú)法滿足“研究熱點(diǎn)主題”研究領(lǐng)域日益多元復(fù)雜的研究需求,如Citespace軟件無(wú)法適用于CNKI數(shù)據(jù)庫(kù)進(jìn)行引文分析,Citespace構(gòu)建的關(guān)鍵詞網(wǎng)絡(luò)關(guān)系太過(guò)單一等。第二,“圖書館信息知識(shí)服務(wù)”演化鏈,“比較分析”與“結(jié)構(gòu)方程模型”研究方法呈現(xiàn)衰退型趨勢(shì)?!氨容^分析”和“結(jié)構(gòu)方程模型”方法在第1、2、3 時(shí)期排名靠前或呈現(xiàn)上升趨勢(shì),但在第4、5時(shí)期消失,這一現(xiàn)象可能與“圖書館信息知識(shí)服務(wù)”研究?jī)?nèi)容變化有關(guān),使得研究方法不再與研究主題相契合,也有可能與方法自身存在的缺陷有關(guān)。
本文通過(guò)共詞網(wǎng)絡(luò)構(gòu)建、主題識(shí)別、主題演化關(guān)系判斷、研究方法演化鏈構(gòu)建、研究方法演化鏈優(yōu)化及其分析等步驟完成了學(xué)術(shù)論文研究方法演化分析模型的構(gòu)建,并利用CNKI以及萬(wàn)方數(shù)據(jù)庫(kù)獲取學(xué)術(shù)論文數(shù)據(jù),驗(yàn)證了研究方法演化分析模型的可操作性,并從主題的維度對(duì)研究方法的演化進(jìn)行詳細(xì)闡釋。然而,本文仍存在不足:第一,數(shù)據(jù)量不足,本文考慮到人工關(guān)鍵詞語(yǔ)義劃分工作量的原因,只選擇《情報(bào)學(xué)報(bào)》《情報(bào)資料工作》《情報(bào)理論與實(shí)踐》3本期刊,使得主題社區(qū)未能全面覆蓋所有研究熱點(diǎn);第二,演化過(guò)程相對(duì)單一,本文中將主題社區(qū)演化關(guān)系定義為“一一對(duì)應(yīng)”關(guān)系,即一個(gè)前驅(qū)社區(qū)對(duì)應(yīng)一個(gè)后繼主題社區(qū),而實(shí)際上在科研主題的發(fā)展過(guò)程中舊主題可能分裂成多個(gè)新主題,多個(gè)舊主題也可能融合成一個(gè)或多個(gè)新主題。針對(duì)這些復(fù)雜的演化過(guò)程本文未能進(jìn)行深入分析。針對(duì)以上不足,本人將在后續(xù)研究中對(duì)其進(jìn)行逐一探討。