黃穎 虞逸飛 孫蓓蓓等
關(guān)鍵詞: 多代參考文獻(xiàn); 學(xué)科分類; 學(xué)科結(jié)構(gòu); 引文分析; 多學(xué)科期刊; 跨學(xué)科研究
DOI:10.3969 / j.issn.1008-0821.2024.06.010
〔中圖分類號(hào)〕G254.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 06-0119-17
將科學(xué)文獻(xiàn)歸入適當(dāng)?shù)膶W(xué)科領(lǐng)域是實(shí)施有效的科學(xué)計(jì)量學(xué)分析的基本前提之一[1] 。學(xué)科分類系統(tǒng)不僅用于劃分研究領(lǐng)域[2] , 也在引文指標(biāo)歸一化[3] 、跨學(xué)科測(cè)度[4] 、期刊排名[5] 等科學(xué)計(jì)量學(xué)實(shí)踐中發(fā)揮重要作用。鑒于此, 學(xué)者們進(jìn)行了不同粒度或結(jié)構(gòu)層次的分類方案的實(shí)踐探索, 主要可以劃分為基于期刊的分類方法和基于論文的分類方法兩種路徑。
在期刊總是接受契合其出版范圍的稿件這一假設(shè)下, 學(xué)術(shù)論文的學(xué)科在一定程度上可以通過期刊主題類別來定義。Web of Science(WoS)數(shù)據(jù)庫和Scopus 數(shù)據(jù)庫是期刊分類系統(tǒng)的典型代表。在這些系統(tǒng)中, 期刊被分配到1 個(gè)或多個(gè)學(xué)科類別, 學(xué)術(shù)論文的學(xué)科類別由其所發(fā)表的期刊類別決定。盡管WoS 和Scopus 憑借易于理解和可獲得性等優(yōu)勢(shì)得到研究人員的廣泛關(guān)注[6-8] , 但其分類準(zhǔn)確性也受到諸多質(zhì)疑[9-12] 。除了數(shù)據(jù)庫出版商提供的分類系統(tǒng)外, 研究人員還進(jìn)行了諸多嘗試, 提出了諸如魯汶-布達(dá)佩斯(Leuven-Budapest) 學(xué)科分類(又稱ECOOM 學(xué)科分類)[1] 、UCSD 分類[13] 、Science -Metrix 分類[14] 等應(yīng)用于不同場(chǎng)景的期刊分類體系。但是, 基于期刊的直接映射方式存在諸多弊端, 例如學(xué)科分類存在偏差[15] 、無法細(xì)分在多學(xué)科期刊上發(fā)表的論文[16] 、沒有提供足夠的分析清晰度進(jìn)行文獻(xiàn)計(jì)量標(biāo)準(zhǔn)化[17] 等。
面對(duì)文獻(xiàn)研究主題廣泛多元的挑戰(zhàn)[18] , 加之跨學(xué)科研究的趨勢(shì)愈發(fā)明顯, 基于單篇論文層面的學(xué)科分類方法應(yīng)運(yùn)而生。與基于期刊的粗粒度分類方式相比, 基于單篇論文的分類從文章自身特點(diǎn)出發(fā), 是一種自下而上的分類方法[19] , 其中基于引證關(guān)系和文本內(nèi)容是兩種主要的分類策略。文獻(xiàn)間的引證關(guān)系, 從本質(zhì)上揭示了知識(shí)流動(dòng)與知識(shí)轉(zhuǎn)移的過程[20] , 而參考文獻(xiàn)作為施引文獻(xiàn)的知識(shí)基礎(chǔ), 可將其認(rèn)作是參考文獻(xiàn)中的知識(shí)流向了施引文獻(xiàn)[21] 。因此, 施引文獻(xiàn)的主題往往可以由參考文獻(xiàn)的學(xué)科分類來描述。Gl?nzel W 等[22] 基于參考文獻(xiàn)信息實(shí)現(xiàn)了綜合性期刊中單篇論文的主題分類; WaltmanL 等[23] 根據(jù)出版物之間的直接引用關(guān)系, 在構(gòu)建三級(jí)分類體系的基礎(chǔ)上, 實(shí)現(xiàn)了對(duì)近千萬出版物的研究領(lǐng)域分配; 在此基礎(chǔ)上, Ruiz-Castillo J 等[24]基于引用關(guān)系對(duì)出版物進(jìn)行大規(guī)模聚類, 構(gòu)建了12 個(gè)不同粒度的分類系統(tǒng); Klavans R 等[25] 比較發(fā)現(xiàn), 基于直接引用得到的分類結(jié)果比基于引文耦合或共引的分類結(jié)果更加準(zhǔn)確?;谖谋緝?nèi)容的單篇論文學(xué)科分類是另一種分類途徑, 已有諸多探討和實(shí)踐。例如, Dimensions 數(shù)據(jù)庫根據(jù)標(biāo)題、摘要等文本內(nèi)容并采用機(jī)器學(xué)習(xí)技術(shù)對(duì)其所收錄的論文進(jìn)行了學(xué)科類別標(biāo)注[26] ; Kandimalla B 等[27] 應(yīng)用深度注意力神經(jīng)網(wǎng)絡(luò)基于摘要文本信息對(duì)學(xué)術(shù)論文進(jìn)行了分類; Eykens J 等[28] 基于論文標(biāo)題和摘要利用有監(jiān)督的機(jī)器學(xué)習(xí)方法對(duì)社會(huì)科學(xué)期刊的論文進(jìn)行了單篇論文層面的類別劃分; Dunham J 等[29] 通過文本信息識(shí)別了人工智能領(lǐng)域的相關(guān)出版物, 并為其分配了學(xué)科主題。此外, 也有學(xué)者嘗試采用引用與文本相結(jié)合的混合聚類方法來提高分類效能[30] 。總體而言, 基于引證關(guān)系和文本內(nèi)容的單篇論文學(xué)科分類方法各具優(yōu)劣, 前者揭示了論文之間的鏈接但忽略了文本特征, 后者反之[19] ?;趩纹撐牡膶W(xué)科分類可以有效解決期刊與論文之間的主題偏差, 實(shí)現(xiàn)對(duì)發(fā)表在多學(xué)科期刊上的論文分類, 但單篇論文分類在宏觀分析中也存在局限[31] 。
作為對(duì)當(dāng)前學(xué)科分類體系的補(bǔ)充, 本研究提出了一個(gè)基于多代參考文獻(xiàn)的參數(shù)化分類方法, 以實(shí)現(xiàn)對(duì)單篇論文的學(xué)科分類。在該學(xué)科分類方案中,一篇文獻(xiàn)的學(xué)科分配以其多代參考文獻(xiàn)的研究領(lǐng)域?yàn)榛A(chǔ), 利用多代參考文獻(xiàn)的學(xué)科分類信息來降低目標(biāo)文獻(xiàn)中學(xué)科分類的熵值, 從而將目標(biāo)文獻(xiàn)分配到1~3 個(gè)學(xué)科類別中。該方法與基于期刊的直接映射方法相比, 可以實(shí)現(xiàn)對(duì)于多學(xué)科期刊上的單篇學(xué)術(shù)論文分類; 與現(xiàn)有的基于論文的分類方法相比,該方法的操作復(fù)雜度相對(duì)降低, 并且可以為跨學(xué)科學(xué)術(shù)論文的識(shí)別提供可行方案。
1 研究方法
1.1 方法基礎(chǔ)
在科學(xué)文獻(xiàn)體系中, 各科學(xué)文獻(xiàn)之間并非孤立存在, 而是相互聯(lián)系的。文獻(xiàn)之間的相互引證關(guān)系即為科學(xué)文獻(xiàn)相互關(guān)系的主要表現(xiàn)。Porter A L 等[32]認(rèn)為, 參考文獻(xiàn)有效反映了科學(xué)知識(shí)和信息從被引文獻(xiàn)流向施引文獻(xiàn)的過程, 其所屬學(xué)科分布也常被認(rèn)為是揭示目標(biāo)文獻(xiàn)研究學(xué)科的重要依據(jù)[22,25,33] 。從邏輯上來說, 參考文獻(xiàn)多樣性是文獻(xiàn)知識(shí)整合的最好測(cè)度[34] , 因而屬于顯性知識(shí)的參考文獻(xiàn)以其極高的可獲得性被廣泛應(yīng)用于相關(guān)研究中。
本研究將目標(biāo)文獻(xiàn)直接引用的若干篇參考文獻(xiàn)稱作一代參考文獻(xiàn)。一代參考文獻(xiàn)同樣擁有其知識(shí)基礎(chǔ)來源(二代參考文獻(xiàn))。以此類推, 基于文獻(xiàn)間的引用關(guān)系可以迭代產(chǎn)生多代參考文獻(xiàn)。圖1 展示了目標(biāo)文獻(xiàn)的多代參考文獻(xiàn)模型。其中, 灰色部分表示有效參考文獻(xiàn), 即那些被數(shù)據(jù)庫索引收錄的文獻(xiàn), 擁有學(xué)科分類信息; 白色部分表示無效參考文獻(xiàn), 即沒有被數(shù)據(jù)庫索引的、學(xué)科分類不明確的文獻(xiàn), 在操作中需要剔除。因此, 如果一代參考文獻(xiàn)中有大量的無效文獻(xiàn)或發(fā)表于多學(xué)科期刊的文獻(xiàn),可能會(huì)掩蓋目標(biāo)文獻(xiàn)的主要知識(shí)來源學(xué)科信息。通過增加不同代際的參考文獻(xiàn)可以擴(kuò)大知識(shí)來源文獻(xiàn)規(guī)模, 有助于增加目標(biāo)文獻(xiàn)知識(shí)整合的學(xué)科范圍。
引文網(wǎng)絡(luò)中的知識(shí)流動(dòng)可用于跟蹤技術(shù)或科學(xué)知識(shí)的發(fā)展軌跡[35] 。從科學(xué)發(fā)展規(guī)律看, 知識(shí)流動(dòng)具有明顯的累積性和繼承性[36] 。參考文獻(xiàn)反映了目標(biāo)文獻(xiàn)學(xué)科領(lǐng)域基礎(chǔ)研究和應(yīng)用研究的知識(shí)累積[37] , 不同代際參考文獻(xiàn)之間的知識(shí)同樣是相互聯(lián)系、彼此滲透的。Gl?nzel W 等[1] 于2003 年提出了ECOOM 學(xué)科分類體系, 該兩級(jí)分類體系均勻覆蓋了整個(gè)科學(xué)領(lǐng)域。如圖2 所示, 以WoS 核心合集(SCIE, SSCI, AHCI)在1999—2018 年收錄的文獻(xiàn)為參照, 根據(jù)文獻(xiàn)所屬期刊的學(xué)科類別, 計(jì)算了不同ECOOM 學(xué)科領(lǐng)域文獻(xiàn)的前二代參考文獻(xiàn)學(xué)科相似度占比分布情況。學(xué)科相似度越高, 意味著一代參考文獻(xiàn)與二代參考文獻(xiàn)的學(xué)科結(jié)構(gòu)越相似。結(jié)果顯示, 地球與空間科學(xué)(G)領(lǐng)域有72 9%的文獻(xiàn)的學(xué)科相似度位于[0.95,1.00]的區(qū)間范圍內(nèi), 說明該學(xué)科領(lǐng)域文獻(xiàn)的兩代參考文獻(xiàn)學(xué)科高度相似。在ECOOM 的16 個(gè)學(xué)科領(lǐng)域中, 學(xué)科相似度高于0.8的文獻(xiàn)平均占比超過90%。其中, 藝術(shù)與人文科學(xué)(K)占比最低(71. 3%), 而神經(jīng)系統(tǒng)科學(xué)與行為科學(xué)(N)則最高(96.6%)。整體上看, 各領(lǐng)域文獻(xiàn)的一代與二代參考文獻(xiàn)之間的學(xué)科相似程度處于較高水平, 說明不同代際參考文獻(xiàn)之間的知識(shí)存在傳遞性, 因而參考文獻(xiàn)在多輪迭代的過程中保持著相對(duì)一致的學(xué)科結(jié)構(gòu)。由此可見, 通過多代參考文獻(xiàn)的迭代方式, 豐富的信息量可以更好地呈現(xiàn)目標(biāo)文獻(xiàn)的知識(shí)來源結(jié)構(gòu), 進(jìn)而為目標(biāo)文獻(xiàn)的類別分配提供依據(jù)。同時(shí), 考慮到參考文獻(xiàn)用以表征目標(biāo)文獻(xiàn)的精確度隨著迭代次數(shù)的增加而降低, 可以賦予間接引用的參考文獻(xiàn)較低的權(quán)重, 進(jìn)而降低信息熵。
1.2 方法步驟
本研究提出了一種基于多代參考文獻(xiàn)的學(xué)科分類方法, 嘗試在單篇論文層面將文章劃分至特定的學(xué)科類別(每篇文章都?xì)w入1 個(gè)或多個(gè)類別), 可以在一定程度上解決學(xué)術(shù)論文與發(fā)表期刊主題不一致、多學(xué)科期刊論文分類等問題。具體方法流程如圖3 所示, 包含以下3 個(gè)步驟:
1) 數(shù)據(jù)獲取與預(yù)處理
WoS 學(xué)科分類系統(tǒng)是在綜合考慮引用關(guān)系、期刊標(biāo)題和專家意見的基礎(chǔ)上建立的, 其在期刊分類準(zhǔn)確性方面具有優(yōu)勢(shì)[10] 。ECOOM 學(xué)科分類體系建立在WoS 學(xué)科類別的基礎(chǔ)上, WoS 學(xué)科分類在ECOOM 分類體系中被映射為16 個(gè)學(xué)科領(lǐng)域和74個(gè)學(xué)科類別[38] 。本研究以WoS 數(shù)據(jù)庫為數(shù)據(jù)來源,獲取目標(biāo)文獻(xiàn)的多代參考文獻(xiàn)及其WoS 學(xué)科分類信息。由于更多的學(xué)科分類會(huì)增加引用不同學(xué)科分類來源的可能性, 同時(shí)增加學(xué)科分類的模糊性[39] ,因此本研究選擇74 個(gè)ECOOM 學(xué)科類別作為基準(zhǔn)學(xué)科, 將多代參考文獻(xiàn)基于期刊進(jìn)行映射, 并最終為目標(biāo)文獻(xiàn)分配若干個(gè)學(xué)科類別。
基于目標(biāo)文獻(xiàn)的多代參考文獻(xiàn)的學(xué)科分類信息,使用全計(jì)數(shù)法計(jì)算歷代參考文獻(xiàn)中74 個(gè)ECOOM 學(xué)科分類的占比情況, 具體公式如式(1) 所示:
權(quán)重系數(shù)的設(shè)置標(biāo)準(zhǔn)最終影響著文獻(xiàn)的學(xué)科分類結(jié)果, 因此, 本研究設(shè)置了5 種權(quán)重規(guī)則, 如表1 所示。不同權(quán)重的分配結(jié)果存在差異, 多種方式結(jié)合為提高分配成功率提供了可能。為此, 本研究進(jìn)一步提出了(W1+W2)和(W1+W2+W5)這兩種擴(kuò)展方案。當(dāng)權(quán)重類型設(shè)置為(W1+W2) 時(shí),代表先基于W1 權(quán)重規(guī)則對(duì)文獻(xiàn)進(jìn)行分類, 針對(duì)無法分配的文獻(xiàn), 再使用W2 權(quán)重規(guī)則予以補(bǔ)充; 與之相類似, (W1+W2+W5)代表文獻(xiàn)依次使用W1、W2 和W5 的權(quán)重規(guī)則, W1 的學(xué)科分類結(jié)果的優(yōu)先級(jí)最高, 其次是W2 和W5。
為簡(jiǎn)化運(yùn)算規(guī)模并提高論斷準(zhǔn)確性, 本研究選取目標(biāo)文獻(xiàn)的一代參考文獻(xiàn)及二代參考文獻(xiàn)的學(xué)科分布情況作為本研究文獻(xiàn)分類的參照。當(dāng)n =2 時(shí),基于以上規(guī)則, 權(quán)重系數(shù)設(shè)置如表1 所示。
3) 分配論文學(xué)科類別
為兼顧多學(xué)科研究特征與計(jì)算效能, 本研究將學(xué)科類別規(guī)模限制為3 個(gè), 即每篇學(xué)術(shù)論文最多被分配3 個(gè)學(xué)科。就單篇論文而言, 其參考文獻(xiàn)中某學(xué)科的占比越高, 意味該學(xué)科是文獻(xiàn)知識(shí)基礎(chǔ)的主要來源, 因而該篇文獻(xiàn)更有可能屬于此學(xué)科范疇。基于這一假設(shè), 本研究選?。疲樱?) i 數(shù)值最高的4 個(gè)學(xué)科, 降序排列后相鄰的兩個(gè)學(xué)科依次比較。經(jīng)過細(xì)致的比對(duì)檢驗(yàn)并結(jié)合領(lǐng)域?qū)<业慕?jīng)驗(yàn), 本研究最終將閾值設(shè)定為2/ 3(0.667), 并以此為標(biāo)準(zhǔn)設(shè)置參數(shù)化模型, 進(jìn)而為目標(biāo)文獻(xiàn)標(biāo)記上1~3 個(gè)學(xué)科,具體的判定流程如表2 所示。對(duì)于經(jīng)過3 輪比較之后尚未被確認(rèn)學(xué)科歸屬的學(xué)術(shù)論文標(biāo)記為待定(TBD), 此類學(xué)術(shù)論文極有可能是真正的跨學(xué)科研究。為驗(yàn)證文獻(xiàn)主題分配結(jié)果的準(zhǔn)確性, 本研究綜合考慮文獻(xiàn)的標(biāo)題、關(guān)鍵詞、摘要等信息, 同時(shí)結(jié)合文獻(xiàn)來源期刊和參考文獻(xiàn)的學(xué)科分類情況, 對(duì)目標(biāo)文獻(xiàn)的學(xué)科分類結(jié)果進(jìn)行綜合評(píng)估。
在以上學(xué)科判定與條件的指導(dǎo)下, 本研究選取了若干篇發(fā)表于多學(xué)科期刊Nature 上的學(xué)術(shù)論文來說明分配過程。如表3 所示, 文章1 ( UT:000419769300025)的參考文獻(xiàn)中占比第一的學(xué)科類別是地球科學(xué)與技術(shù)(G2), 且排名第二的學(xué)科類別(X0)與該學(xué)科的商小于0. 667, 因此這篇學(xué)術(shù)論文判定為屬于G2。通過閱讀文章1 的全文可知,該文主要探討了最后一次冰川過渡時(shí)期的全球海洋平均溫度, 符合G2 的學(xué)科范疇。又如, 文章2(UT: 000419769300035)研究了用于哺乳動(dòng)物宿主體內(nèi)微生物無創(chuàng)成像的聲學(xué)報(bào)告基因, 其兩代參考文獻(xiàn)中排名第一的學(xué)科和排名第二的學(xué)科與其后一位學(xué)科的商分別為0.729 和0.376, 因此被歸入微生物學(xué)(Z3)和生物化學(xué)/ 生物物理學(xué)/ 分子生物學(xué)(B1)中, 學(xué)科分類劃分結(jié)果契合研究?jī)?nèi)容。同理,文章3(UT: 000419769300037)被分類至3 個(gè)學(xué)科,而文章4(UT: 000419769300030)則無法確定學(xué)科歸屬。結(jié)合4 篇文章的具體研究?jī)?nèi)容來看, 本研究提出的基于多代參考文獻(xiàn)的單篇論文學(xué)科分類方法具有可行性和可操作性。
對(duì)于在多學(xué)科期刊上發(fā)表的論文, 將其進(jìn)行更細(xì)致的學(xué)科分類被視為有效措施[22] 。本研究以是否在原始計(jì)算結(jié)果中和計(jì)算比重時(shí)考慮多學(xué)科科學(xué)為劃分依據(jù), 提出4 種不同的處理策略, 并以2018年發(fā)表在Nature 上的文章(UT: 000419769300037)為例開展案例分析, 具體過程和結(jié)果如表4 所示。其中, 除了方法A1 的分類結(jié)果包含多學(xué)科科學(xué)(X0)外, 細(xì)胞生物學(xué)(B2)和生物化學(xué)/ 生物物理學(xué)/ 分子生物學(xué)(B1)在4 種方法中均被判定為該文獻(xiàn)的學(xué)科類別, 分析結(jié)果具有穩(wěn)健性。因此, 通過應(yīng)用本研究提出的方法, 發(fā)表在多學(xué)科期刊上的學(xué)術(shù)論文可以實(shí)現(xiàn)學(xué)科類別的歸屬判定。
2 學(xué)科分類效果的比較
為深入了解基于多代參考文獻(xiàn)的單篇論文學(xué)科分類方法的應(yīng)用效果, 本研究隨機(jī)抽取文獻(xiàn)進(jìn)行核驗(yàn)。如表5 所示, 列舉了6 篇論文在不同分類方案下的分類結(jié)果。其中, WoS 學(xué)科分類和ECOOM 學(xué)科分類均為基于期刊的學(xué)科分類方法, 前者來自WoS 數(shù)據(jù)庫, 后者是在文獻(xiàn)WoS 學(xué)科分類的基礎(chǔ)上映射而來的。Fields of Research(FoR)學(xué)科分類是澳大利亞和新西蘭標(biāo)準(zhǔn)分類(Australian and NewZealand Standard Research Classification, ANZSRC)的重要組成部分, 包含22 個(gè)一級(jí)學(xué)科領(lǐng)域和157 個(gè)二級(jí)學(xué)科類別[40] 。Dimensions 數(shù)據(jù)庫根據(jù)論文的文本內(nèi)容, 采用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)單篇論文自動(dòng)分類[19] 。每篇論文至少分配到1 個(gè)FoR 學(xué)科領(lǐng)域中[26] 。作為一種單篇論文分類方案, 其分類結(jié)果具有相對(duì)準(zhǔn)確性[41] 。以上各方法的學(xué)科分類結(jié)果將與本研究提出的方法進(jìn)行詳盡比對(duì)分析。
表5 中前3 篇文獻(xiàn)均來自國(guó)際知名多學(xué)科期刊——Nature?;谄诳膶W(xué)科分類方法將以上3篇文獻(xiàn)都簡(jiǎn)單分類至多學(xué)科科學(xué)。然而, 基于單篇論文的學(xué)科分類方案捕捉了文獻(xiàn)研究?jī)?nèi)容的差異,賦予了文獻(xiàn)更細(xì)粒度的分類結(jié)果。
文章1(UT: 000342420800048)在本研究提出的方法中屬于生物化學(xué)/ 生物物理學(xué)/ 分子生物學(xué)和細(xì)胞生物學(xué)兩個(gè)學(xué)科類別, 與FoR 分類結(jié)果保持相對(duì)一致。
文章2(UT: 000413247900053)介紹了一種人工智能算法, 在Dimensions 數(shù)據(jù)庫中被分配至人工智能和機(jī)器學(xué)習(xí)兩個(gè)類別中, 而在本研究所提出的方法中被判斷為計(jì)算機(jī)科學(xué)/ 信息技術(shù)領(lǐng)域。
文章3(UT: 000441673400035)研究了一種低溫掃描電鏡繪圖方法, 是材料科學(xué)和物理化學(xué)領(lǐng)域的前沿創(chuàng)新, 同樣可以運(yùn)用本研究所提出的方法予以準(zhǔn)確識(shí)別。
對(duì)于發(fā)表在具體學(xué)科期刊上的文章, 本研究提出的方法同樣可以相對(duì)準(zhǔn)確地判斷其研究主題。
文章4(UT: 000262300600010)論證了“具有正曲率算子的流形是空間形式”, 發(fā)表于世界數(shù)學(xué)界最頂尖期刊之一的Annals of Mathematics 上。4 種學(xué)科分類方法均將其歸入純數(shù)學(xué)領(lǐng)域, 表明該篇文獻(xiàn)無論是在發(fā)表期刊還是在知識(shí)基礎(chǔ)上都嚴(yán)格遵循數(shù)學(xué)領(lǐng)域的研究范式。
文章5(UT: 000263319600062)來自多學(xué)科化學(xué)期刊Journal of the American Chemical Society, 基于單篇論文的分類方案予以更為具體的學(xué)科類別。運(yùn)用本研究所提出的方法不僅可以識(shí)別出其可以劃分為材料科學(xué)和應(yīng)用物理學(xué), 還補(bǔ)充了“P6-固體、流體與等離子體物理學(xué)” 這一學(xué)科類別, 契合該文中“抑制劑的化學(xué)位移擾動(dòng)的幅度和方向模式的分析”。
文章6(UT: 000261996400002) 發(fā)表于Bioin?formatics 這一生物信息學(xué)領(lǐng)域的頂級(jí)期刊。該期刊涵蓋了生物化學(xué)研究方法、生物工程學(xué)和應(yīng)用微生物學(xué)等在內(nèi)的5 個(gè)WoS 分類, 分屬于4 個(gè)ECOOM學(xué)科領(lǐng)域。以該期刊出版的文獻(xiàn)為例, 基于期刊映射的學(xué)科分類方法將全部期刊類別分配給了文章6, 而從單篇論文本身的研究?jī)?nèi)容出發(fā), 則被認(rèn)定是生物化學(xué)/ 生物物理學(xué)/ 分子生物學(xué)和微生物學(xué)的研究成果。
以上討論表明, 與基于期刊的學(xué)科分類方法相比, 本研究提出的方法從目標(biāo)文獻(xiàn)的知識(shí)來源視角出發(fā), 通過對(duì)目標(biāo)文獻(xiàn)知識(shí)基礎(chǔ)的學(xué)科結(jié)構(gòu)進(jìn)行測(cè)度, 進(jìn)而為其分配1 個(gè)或多個(gè)具體的學(xué)科類別, 使得分類結(jié)果具備較高的準(zhǔn)確性。因此, 本研究方法不僅彌補(bǔ)了僅依據(jù)期刊映射得到的過于寬泛的結(jié)果,而且在處理發(fā)表于多學(xué)科期刊上的論文或者具有跨學(xué)科屬性的論文時(shí)表現(xiàn)出顯著優(yōu)勢(shì)。與同樣為單篇論文學(xué)科分類方法的FoR 分類相比, 本研究方法的分類結(jié)果與其在學(xué)術(shù)論文的研究主題識(shí)別上有相對(duì)一致性。然而, 加權(quán)多代參考文獻(xiàn)的論文分類方法以文獻(xiàn)的學(xué)科類別為評(píng)判依據(jù), 相較于論文的主題文本而言, 數(shù)據(jù)可得性更高, 且操作復(fù)雜度更低,因而是一種更為簡(jiǎn)便的學(xué)科分類方案。此外, 本研究方法的基準(zhǔn)學(xué)科類別不受限制, 可適用于不同的學(xué)科分類體系中, 兼容性相對(duì)更好。
3 學(xué)科分類的應(yīng)用場(chǎng)景
學(xué)科分類方法的可靠性不僅取決于典型數(shù)據(jù)分類結(jié)果的準(zhǔn)確性, 還取決于其對(duì)不同分析層次的適用性、就不同目的的靈活性以及解釋與復(fù)制的簡(jiǎn)易性[33] 。為探究本研究方法的實(shí)際應(yīng)用效果, 本研究借助前二代參考文獻(xiàn)來實(shí)現(xiàn)目標(biāo)文獻(xiàn)的學(xué)科類別歸屬判定, 并從不同學(xué)科領(lǐng)域和不同類型期刊層面的單篇論文分類的應(yīng)用場(chǎng)景予以探討。
3.1 不同學(xué)科領(lǐng)域的論文學(xué)科分類
本研究以WoS 核心合集收錄的發(fā)表于1999—2018 年的學(xué)術(shù)論文作為研究對(duì)象, 根據(jù)論文發(fā)表期刊所在學(xué)科, 將文獻(xiàn)劃分至ECOOM 的16 個(gè)學(xué)科領(lǐng)域中。在此基礎(chǔ)上, 運(yùn)用不同的權(quán)重設(shè)置規(guī)則和多學(xué)科科學(xué)處理策略, 探究不同參數(shù)設(shè)置條件對(duì)分類結(jié)果的影響, 進(jìn)而全面分析基于多代參考文獻(xiàn)的單篇論文學(xué)科分類方案在不同學(xué)科領(lǐng)域的表現(xiàn)。
如表6 所示, 展示了不同領(lǐng)域文獻(xiàn)的覆蓋率分布情況, 其中覆蓋率代表成功分配的文獻(xiàn)數(shù)占該領(lǐng)域文獻(xiàn)總數(shù)的比重。不同學(xué)科領(lǐng)域因其研究范式和知識(shí)結(jié)構(gòu)特征各異, 在基于多代參考文獻(xiàn)的主題分配下得到了不同的結(jié)果。其中, 社會(huì)科學(xué)Ⅱ(經(jīng)濟(jì)、政治和法律科學(xué))(L)的覆蓋率最高, 近97%的學(xué)術(shù)論文被確定學(xué)科類別歸屬, 其次為數(shù)學(xué)(H)。但是, 生物醫(yī)學(xué)研究(R)和化學(xué)(C)的分配成功率較低, 在各類參數(shù)條件中, 平均約16%的學(xué)術(shù)論文處于待定狀態(tài)。值得注意的是, 以上兩個(gè)學(xué)科的覆蓋率甚至低于多學(xué)科科學(xué)(X0)的覆蓋率(85%),這在一定程度上表明生物醫(yī)學(xué)研究和化學(xué)領(lǐng)域文獻(xiàn)的跨學(xué)科性更為顯著, 導(dǎo)致更多文章無法被歸入特定學(xué)科類別。而就多學(xué)科期刊上的文章的主題分配問題而言, 結(jié)果顯示, A3 和A4 策略的覆蓋率略勝于A1 和A2, 說明在計(jì)算比重前后剔除多學(xué)科科學(xué)(X0)可以在一定程度上提升分配效果。
在5 種不同的權(quán)重設(shè)置規(guī)則中, W1 在各學(xué)科領(lǐng)域上的表現(xiàn)相對(duì)更佳, 平均覆蓋率超過90%。但是, 單獨(dú)使用W2~W5 的權(quán)重分配方案通常會(huì)導(dǎo)致較低的覆蓋率。為進(jìn)一步提高分配效果, 本研究進(jìn)一步提出了(W1+W2)和(W1+W2+W5)這兩種擴(kuò)展方案, 前者在W1 的基礎(chǔ)上補(bǔ)充W2 的結(jié)果,后者統(tǒng)籌考慮了3 種權(quán)重方案的分配結(jié)果。數(shù)據(jù)顯示, 當(dāng)使用(W1+W2) 時(shí), 平均覆蓋率為93%,生物醫(yī)學(xué)研究(R)的覆蓋率更是顯著提升了5%;當(dāng)權(quán)重規(guī)則為(W1+W2+W5)時(shí), 平均覆蓋率高達(dá)96%。由此可見, 權(quán)重系數(shù)疊加的方式有效地提高了分類方法在不同學(xué)科領(lǐng)域的適用性。
對(duì)于少量無法分類的文獻(xiàn), 本研究進(jìn)一步分析了它們的特征, 主要涉及以下原因: ①文獻(xiàn)沒有參考文獻(xiàn); ②參考文獻(xiàn)發(fā)表時(shí)間早, 超出了數(shù)據(jù)庫檢索范圍, 即發(fā)表于1991 年之前; ③大部分參考文獻(xiàn)所在期刊沒有被WoS 收錄, 因而這些參考文獻(xiàn)沒有WoS 學(xué)科分類, 導(dǎo)致無法映射至ECOOM 學(xué)科類別中; ④文獻(xiàn)是跨學(xué)科研究, 即整合不同學(xué)科來源的知識(shí)以解決研究問題的學(xué)術(shù)論文, 其參考文獻(xiàn)中各個(gè)學(xué)科均不占主導(dǎo)地位。
3.2 不同類型期刊的論文學(xué)科分類
本研究進(jìn)一步遴選了3 本多學(xué)科領(lǐng)域期刊(Nature, Science, Proceedings of the National Acade?my of Sciences(PNAS)) 和3 本信息科學(xué)與圖書館學(xué)領(lǐng)域期刊(Journal of the Association for InformationScience and Technology(JASIST), Journal of Informe?trics ( JOI ), Scientometrics ( SCIM )), 獲取其在1999—2018 年發(fā)表的全部學(xué)術(shù)論文及其多代參考文獻(xiàn), 從期刊層面展開討論。
如表7 所示, 描繪的各期刊在不同參數(shù)條件下的學(xué)科分類情況, 可知多學(xué)科領(lǐng)域期刊的平均覆蓋率(85%)顯著低于信息科學(xué)與圖書館學(xué)領(lǐng)域期刊,這與多學(xué)科期刊本身廣泛的研究領(lǐng)域和多元的學(xué)科背景息息相關(guān)。其中, A2 條件下的覆蓋率相對(duì)更低, 此時(shí)僅有約79%的Nature 文獻(xiàn)可以被劃分至細(xì)粒度學(xué)科中。與上一節(jié)學(xué)科領(lǐng)域的比較結(jié)果類似, A3 和A4 可以顯著提升多學(xué)科期刊上文獻(xiàn)的被分配概率, Nature 的覆蓋率提高至近89%。而當(dāng)權(quán)重設(shè)置為(W1+W2+W5)時(shí), 多學(xué)科期刊的覆蓋率達(dá)到95%以上, 表明擴(kuò)展方案是提高分類覆蓋率的可靠途徑。此外, 研究也發(fā)現(xiàn)發(fā)表在信息科學(xué)與圖書館學(xué)領(lǐng)域期刊上的學(xué)術(shù)論文也有部分屬于跨學(xué)科研究, 難以歸屬到特定的學(xué)科類別中。
為了進(jìn)一步挖掘上述6 本期刊的學(xué)科類別分布詳情, 本研究分析了在(W1+W2+W5)和A4 的條件下, 各期刊論文的學(xué)科類別數(shù)量分布如圖4 所示??傮w而言, Nature、Science 和PNAS 的學(xué)科數(shù)量分布情況十分接近, 盡管以上期刊屬于多學(xué)科范疇, 但超過40%的論文歸屬單一學(xué)科, 而同時(shí)涵蓋3 個(gè)學(xué)科領(lǐng)域的文獻(xiàn)占比約為20%。以上結(jié)果說明, 發(fā)表于多學(xué)科期刊上的文獻(xiàn)未必具有多學(xué)科的研究背景, 基于多代參考文獻(xiàn)的學(xué)科分類方案更加聚焦于論文本身, 可以合理細(xì)分此類文獻(xiàn)。信息科學(xué)與圖書館學(xué)的期刊文獻(xiàn)則呈現(xiàn)出不同的分布情況,有大量論文被歸類于兩個(gè)學(xué)科, 尤其是發(fā)表于JOI期刊上論文。一方面, 信息科學(xué)與圖書館學(xué)是一門跨學(xué)科廣度大、強(qiáng)度高的學(xué)科, 其知識(shí)基礎(chǔ)來源十分廣泛[42-43] ; 另一方面, 此領(lǐng)域期刊往往同屬于計(jì)算機(jī)科學(xué)/ 信息技術(shù)(E1)和教育與信息(Y1)等學(xué)科, 導(dǎo)致諸多參考文獻(xiàn)被映射至上述兩個(gè)學(xué)科。
進(jìn)一步, 本研究追溯了各期刊文獻(xiàn)的具體學(xué)科類別, 如圖5 所示??梢钥闯?, 多學(xué)科期刊上所發(fā)表論文的學(xué)科類別十分豐富, 其中生物化學(xué)/ 生物物理學(xué)/ 分子生物學(xué)(B1)、細(xì)胞生物學(xué)(B2)和遺傳與發(fā)展生物學(xué)(B3)是此類期刊的主要研究領(lǐng)域。Nature 和Science 都十分關(guān)注應(yīng)用化學(xué)與化工(G2),而PNAS 更關(guān)注神經(jīng)系統(tǒng)科學(xué)與精神(病)藥理學(xué)(N1)和微生物學(xué)(Z3)。信息科學(xué)與圖書館學(xué)的3本期刊呈現(xiàn)出相似的結(jié)果, 教育與信息(Y1)和計(jì)算機(jī)科學(xué)/ 信息技術(shù)(E1)占據(jù)了主要位置, 也有一定數(shù)量的文獻(xiàn)被納入商業(yè)/ 經(jīng)濟(jì)/ 規(guī)劃(L1)、心理學(xué)與行為科學(xué)(N2)等學(xué)科范圍內(nèi)。這說明該領(lǐng)域文獻(xiàn)以本領(lǐng)域?qū)W科為主, 并傾向于借鑒管理學(xué)、心理學(xué)等相關(guān)領(lǐng)域的知識(shí)和技術(shù)。
4 結(jié)論與討論
當(dāng)前單篇論文的學(xué)科分類系統(tǒng)大多是在期刊層面上定義的, 可以高效便捷且相對(duì)準(zhǔn)確地對(duì)學(xué)科屬性明晰的文獻(xiàn)進(jìn)行分類。但是由于期刊的映射方法過于寬泛, 因此無法辨識(shí)發(fā)表于相同期刊文獻(xiàn)的研究主題差異, 且在多學(xué)科或者綜合性期刊文獻(xiàn)的處理上存在困難[23] 。此外, 隨著學(xué)科邊界日益模糊,研究人員向其他學(xué)科領(lǐng)域期刊投稿的現(xiàn)象愈發(fā)普遍, 僅僅依靠期刊對(duì)文獻(xiàn)的研究主題進(jìn)行界定存在局限。
本研究提出了一種基于多代參考文獻(xiàn)的單篇論文學(xué)科分類方法, 其核心是挖掘目標(biāo)文獻(xiàn)的多代參考文獻(xiàn)學(xué)科信息與結(jié)構(gòu), 通過一系列參數(shù)化模型和推導(dǎo)程序, 將單篇學(xué)術(shù)論文歸入1~3 個(gè)學(xué)科類別中。本研究以1999—2018 年發(fā)表的WoS 文獻(xiàn)為研究對(duì)象, 首先對(duì)單篇論文的分類結(jié)果進(jìn)行比較評(píng)估,然后從學(xué)科領(lǐng)域和期刊層面分別驗(yàn)證了該方法的應(yīng)用價(jià)值。與基于期刊的學(xué)科分類方法相比, 本研究提出的方法在單篇論文層面構(gòu)建了與當(dāng)前科學(xué)研究結(jié)構(gòu)緊密匹配的、更具兼容性的學(xué)科分類方法, 整體而言, 其優(yōu)越性主要體現(xiàn)在以下3 個(gè)方面:
第一, 該方法基于單篇論文層級(jí)而不是期刊層級(jí), 因此它保留了來源于同一期刊的文獻(xiàn)之間潛在的學(xué)科差異, 并且可以捕捉單篇論文更細(xì)致的研究主題。實(shí)踐證明, 期刊的學(xué)科類別與其出版文獻(xiàn)的研究領(lǐng)域并非完全一致, 因而基于期刊的學(xué)科分類方法存在誤判的可能。相較而言, 本研究提出的方法從文獻(xiàn)的知識(shí)來源視角出發(fā), 以其多代引文的學(xué)科分類作為參考, 進(jìn)而為單篇論文分配1~3 個(gè)主題, 其分類結(jié)果更契合文獻(xiàn)研究?jī)?nèi)容, 具有一定優(yōu)越性。
第二, 該方法可以有效解決來自多學(xué)科期刊的文獻(xiàn)學(xué)科分類問題。傳統(tǒng)的基于期刊的分類方法將發(fā)表于多學(xué)科期刊或者綜合性期刊的論文標(biāo)記為多學(xué)科論文, 顯然忽視了文獻(xiàn)自身的學(xué)科屬性。通過運(yùn)用不同的權(quán)重設(shè)置規(guī)則和多學(xué)科科學(xué)處理策略,本研究提出的加權(quán)多代參考文獻(xiàn)的學(xué)科分類方法將可分類的論文占比提高到95%, 在一定程度上解決發(fā)表在覆蓋面廣、出版主題模糊的多學(xué)科期刊上文獻(xiàn)的學(xué)科細(xì)分問題。
第三, 該方法為識(shí)別跨學(xué)科論文提供了一種可行方案。本研究選用的學(xué)科類別規(guī)模合適, 并允許將單篇論文分配至多個(gè)研究領(lǐng)域, 符合當(dāng)代科學(xué)發(fā)展中跨學(xué)科性日益凸顯的趨勢(shì)。若一篇論文無法劃分到1~3 個(gè)學(xué)科類別中, 可推測(cè)出其參考文獻(xiàn)的學(xué)科跨度十分廣泛, 且沒有學(xué)科占主導(dǎo)地位, 表明這類論文具有顯著的跨學(xué)科性。
然而, 本研究提出的基于多代參考文獻(xiàn)的單篇論文學(xué)科分類方案完全依賴于文獻(xiàn)引用關(guān)系, 也存在諸多局限。其一, 該方法以參考文獻(xiàn)為基礎(chǔ), 因此只能應(yīng)用于有參考文獻(xiàn)的出版物, 這使得許多早期發(fā)表的論文因沒有參考文獻(xiàn)或參考文獻(xiàn)沒有被WoS 收錄而無法進(jìn)行分類, 而那些只有少量參考文獻(xiàn)的出版物容易被錯(cuò)誤劃分而導(dǎo)致偏差; 其二,參考文獻(xiàn)具有學(xué)科分類的出版物占比在不同領(lǐng)域之間存在較大差異, 例如在藝術(shù)與人文科學(xué)中, 僅有54.6%的文獻(xiàn)含有WoS 檢索的參考文獻(xiàn), 而該比例在生物科學(xué)(一般生物學(xué); 細(xì)胞及亞細(xì)胞生物學(xué); 遺傳學(xué))中高達(dá)99.4%, 這會(huì)使得某些領(lǐng)域文獻(xiàn)的學(xué)科分配效果不佳; 其三, 本研究使用的基準(zhǔn)學(xué)科仍然依賴于WoS 學(xué)科分類, 無法避免WoS 期刊分類錯(cuò)誤的根源性漏洞以及ECOOM 學(xué)科類別的映射偏差, 最終導(dǎo)致分配結(jié)果出現(xiàn)偏差甚至錯(cuò)誤。
總體而言, 本研究提出的方法不僅實(shí)現(xiàn)了多學(xué)科期刊文獻(xiàn)的學(xué)科類別劃分, 同時(shí)也為基于期刊的單篇論文學(xué)科劃分提供了補(bǔ)充方案, 進(jìn)而可以為面向國(guó)家、機(jī)構(gòu)、個(gè)人等多元主體的科研評(píng)價(jià)與相關(guān)研究提供新的方法參考。然而, 參考文獻(xiàn)數(shù)量及其學(xué)科分類情況會(huì)直接影響文獻(xiàn)分類的精度。因此,在后續(xù)的研究中, 除了解決參考文獻(xiàn)層面的文獻(xiàn)數(shù)據(jù)問題之外, 還需要針對(duì)方法本身進(jìn)行優(yōu)化。例如,可以配合直接引用或耦合分析等方法進(jìn)一步提升分類效果, 或結(jié)合論文的主題文本數(shù)據(jù)進(jìn)行綜合評(píng)估等。