基于期刊論文的學科間交叉主題識別研究

2019-01-17 03:41夏磊

新世紀圖書館 2019年12期

摘要本文以知網(wǎng)數(shù)據(jù)庫中管理工程和情報學共12本CSSCI期刊5年的論文作為數(shù)據(jù)，通過AT主題模型、相似度計算識別學科間交叉主題并對其相似程度進行測度。實驗表明，AT主題模型可以挖掘兩個學科間交叉研究主題，并提供一定的語義描述。通過對比關(guān)鍵詞共現(xiàn)的方法，本文的方法可以提供交叉研究主題更多的語義特征，并便于判斷高相似度的研究主題。

關(guān)鍵詞主題模型? 學科交叉主題相似度

分類號 G250

DOI 10.16810/j.cnki.1672-514X.2019.12.012

Abstract A total of 12 CSSCI journals in CNKI about Management Engineering and Information Science are used as the data foundation. Using AT topic model and similarity calculation， this paper identifies the interdisciplinary cross-topics and measures their similarity. Experiments show that AT topic model can mine the cross-topics between two disciplines and provide a certain semantic description. By comparing the methods of keyword co-occurrence， the method of this paper can provide more semantic features for cross-topics and measure high similarity research topicseasily .

Keywords Topic model. Interdisciplinary. Topic similarity.

0 引言

學科交叉反映了學科之間的內(nèi)在聯(lián)系，體現(xiàn)了不同學科之間知識的交流與融合。從信息轉(zhuǎn)移的視角來看，學科交叉的產(chǎn)生是由于其它學科的信息轉(zhuǎn)移進入到該學科并進行了整合的結(jié)果，這種信息轉(zhuǎn)移產(chǎn)生的一個主要特征就是學科之間研究主題的交叉重疊，對其進行測度可以反映學科之間研究域的交疊和屬性的相似程度。學科交叉是眾多學科之間的相互作用而交叉形成的理論體系，其本質(zhì)是一種科研行為[1]。具體表現(xiàn)形式為：兩門或兩門以上學科間研究內(nèi)容和方法存在橫向的聯(lián)系，進而建立起來的有機組織體系和結(jié)構(gòu)。從這個角度來看，學科交叉是多個傳統(tǒng)學科跨越學科邊界的學科間研究對象的整合，是一種跨學科研究。

宏觀層面的學科交叉研究主要是通過期刊引文關(guān)系或關(guān)聯(lián)規(guī)則挖掘等方法，用以識別學科間的交叉關(guān)系以及相關(guān)性的強弱;微觀層面的學科交叉研究主要以關(guān)鍵詞或主題詞為基礎(chǔ)，挖掘?qū)W科間交叉的研究熱點。然而，現(xiàn)有的研究鮮有從學科研究主題入手研究學科交叉問題，也缺少對學科間研究主題相似程度進行量化分析。

Sydney J .Pierce在總結(jié)學科交叉現(xiàn)象時指出，學科間的“借用”是最有影響的學科間信息轉(zhuǎn)移方式。所謂“借用”，即研究者借用其他學科的理論和方法，并把它們引入自己所研究的領(lǐng)域[2]。這種借用表現(xiàn)在學科之間研究主題的相似性，因此，從知識產(chǎn)出上來看，對學科間研究主題融合現(xiàn)象的度量相比從引文分析、團隊合作、關(guān)鍵詞等角度更能表征知識間的相互滲透。

為此，本文將結(jié)合Author TopicModel模型，以情報學、管理工程兩個學科CSSCI期刊的學術(shù)論文為研究對象，研究學科交叉的問題，并就學科間主題相似程度進行量化分析。

1 研究現(xiàn)狀

國外最早關(guān)于跨學科的研究出現(xiàn)在1926年[3]。20世紀70～80年代，學科交叉進入了理論研究階段，并展開了促進學科間交流合作的探討。2004年，Rhoten等人在Science上發(fā)文，闡述了學科交叉對開展大學科研項目的意義和前景[4]。

學科交叉研究大多依據(jù)共類分析（Co-classification Analysis）的思想[5]。共類分析是指將學術(shù)論文按照期刊歸屬到特定的主題類別中，然后再將主題類別歸屬到更大的學科中。由于論文或期刊會被歸屬到不同的主題類別，因此從期刊分類視角分析論文所屬學科能夠體現(xiàn)學科的交叉性。侯海燕等[6]以Web of Science數(shù)據(jù)庫收錄的生物醫(yī)學工程領(lǐng)域論文所屬期刊的學科分類為數(shù)據(jù)基礎(chǔ)，利用學科共現(xiàn)分析方法，結(jié)合Bibexcel、Ucinet社會網(wǎng)絡(luò)分析軟件建立學科關(guān)聯(lián)網(wǎng)絡(luò)圖譜，識別生物醫(yī)學工程領(lǐng)域?qū)W科交叉的結(jié)構(gòu)演化特征。

在學科交叉研究中，比較常用的方法是借助于研究領(lǐng)域間的引文關(guān)系，對跨學科的學科間相互滲透進行研究?；谝姆治龅膶W科交叉研究主要是從某一學科的引文入手，分析其引文的主題歸屬，實現(xiàn)兩個學科間交叉程度的測度。例如：Porter曾提出類別外引文法（Citations Outside Category），即通過測度引文中屬于學科類別以外的引用比例來分析學科之間的交叉程度[7]。Small則通過對期刊論文之間的共引數(shù)據(jù)，通過聚類，分析學科間的交叉性和相似性[8]。在學科交叉變化趨勢方面，Hammarfel等人利用Web of Science的引文數(shù)據(jù)，測度了34種期刊在不同時期內(nèi)的引文專題變化趨勢，來衡量某一學科的跨學科情況[9]。在多學科之間的交叉測度方面，采用引文分析，由于公式復(fù)雜，測度過程繁瑣，因此相關(guān)的實證研究還不多[10]。

期刊論文的關(guān)鍵詞是學科交叉微觀研究中常用的方法。由于關(guān)鍵詞是表達期刊論文主題的自然語言詞匯，通過關(guān)鍵詞的共現(xiàn)、聚類等操作可以從微觀層面上識別學科之間的內(nèi)在聯(lián)系。關(guān)鍵詞的共現(xiàn)可以表征學科間的交叉性，共現(xiàn)分析的研究思路是：分析關(guān)鍵詞在不同學科領(lǐng)域期刊論文中共同出現(xiàn)的情況，通過統(tǒng)計共現(xiàn)頻次反映學科之間的交叉程度。例如：某關(guān)鍵詞在兩個學科領(lǐng)域高頻次地出現(xiàn)，則可以認為該關(guān)鍵詞（或知識單元）可以作為兩個學科交叉的研究內(nèi)容。閔超等[11]通過構(gòu)造了兩門學科核心期刊論文規(guī)范化的關(guān)鍵詞交集，從中獲取兩門學科的高頻交叉關(guān)鍵詞及其共詞矩陣，借助社會網(wǎng)絡(luò)分析方法，探討兩門學科交叉研究熱點領(lǐng)域的整體特征。李長玲等[12]則利用社會網(wǎng)絡(luò)分析（Social Network Analysis， SNA）方法，以情報學與計算機科學為例，對兩個學科在2006—2010年間文獻的關(guān)鍵詞集合進行共現(xiàn)分析，形成了兩門學科交叉文獻的關(guān)鍵詞共詞矩陣，進而挖掘主要交叉研究領(lǐng)域與潛在研究主題。雖然期刊論文的關(guān)鍵詞可以從微觀層面識別學科間的交叉情況，但由于關(guān)鍵詞語義范圍不一致，對學科交叉研究的主題描述上存在一定的缺陷。

綜上所述，目前該領(lǐng)域的研究主要是以期刊作為學科分類，從論文引文關(guān)系或關(guān)鍵詞共現(xiàn)的思路入手，對學科交叉程度及變化趨勢進行研究。而從學科研究主題入手，分析學科交叉的研究還不多。本文將著眼于學科研究主題，以主題為視角探討學科交叉問題。

2 方法設(shè)計

2.1 Author-Topic Model

主題模型是一種層次貝葉斯模型，可以識別大規(guī)模文檔集合中隱藏的語義信息。為解決作者對論文主題分布的影響，Mccallum[13]提出了單一主題的作者模型，該模型假設(shè)任何一個作者都對應(yīng)一個特定的主題或語言模型。該模型忽略了作者之間主題共享問題，在實際應(yīng)用時存在一定的不足。為解決這一問題，Author-Topic Model（簡稱AT模型）實現(xiàn)了主題模型和單一主題的作者模型的折中，對每個作者不再限定在一個主題內(nèi)，可以有效識別研究人員在學術(shù)專長與研究方向上的關(guān)聯(lián)。圖1為AT模型的示意圖。

AT主題模型將作者的興趣偏好及文檔的內(nèi)容信息融合在一起。模型中，θ為“作者-主題”概率分布，φ表示“主題-詞項”的概率分布; α和β為Dirichlet分布的先驗參數(shù)，其中α表示為“文檔-主題”概率分布先驗，β則表示為“主題-詞項”的概率分布先驗，參數(shù)A表示作者的數(shù)量，T為主題數(shù)量;ad表示文檔d由一個或多個作者完成，a為作者，z表示主題，w為詞項，D為所有文檔組成的集合，Nd則表示采樣的次數(shù)[14]。

AT模型是LDA主題模型解決特殊任務(wù)的一種演化模型，如果每篇文檔只有一個作者，AT模型就變成了LDA模型。模型假設(shè)一個作者對應(yīng)在一個主題上分布，并用“作者-主題”分布取代“文檔-主題”分布。模型不僅實現(xiàn)了多個作者在同一主題上的分布，也允許多個作者共享一個主題集合。AT模型能夠從大量文檔中挖掘出作者存在相同研究主題之間的關(guān)系，能更好地獲取作者與論文對應(yīng)的主題分布，進而揭示出不同作者之間具有相同的興趣和偏好。

2.2 研究假設(shè)

目前，學科分類組織的形式是按照知識組織方式進行劃分的，屬于典型的知識樹層級分類體系。樹層次結(jié)構(gòu)中，知識體系處于樹的頂端，知識體系的分支代表不同的學科，每個學科又由子學科或?qū)I(yè)組成。這種樹狀結(jié)構(gòu)體現(xiàn)了學科分類的精細化和專業(yè)化。

學術(shù)期刊是領(lǐng)域科學知識的重要載體，反映某一細分子學科的研究熱點及動態(tài)，期刊論文則形成了學科學術(shù)成果集合。借助主題模型算法，可以挖掘?qū)W科學術(shù)成果集合的總體內(nèi)容特征，揭示集合所隱含的主題信息[15]。如果兩個成果集合存在相同（或高相似）的主題，則可以認為兩個集合之間存在知識的融合和交流。

基于這個假設(shè)，本文采用AT模型進行學科交叉的研究。首先，如果把每本期刊的所有論文看作是由多個“作者”共同完成的知識集合，那么這些“作者”在期刊論文“撰寫”過程中會形成若干個研究主題，而這些研究主題將可以代表學科的領(lǐng)域特征。在該假設(shè)下，AT模型中的“作者-主題”的分布將隨之消失，被“期刊-主題”（或“學科-主題”）的分布取而代之。如2圖所示，某學科的期刊文獻集合，通過AT主題模型進行主題求解，可以發(fā)現(xiàn)，主題Topic2在A期刊和C期刊都具有較高出現(xiàn)概率，依據(jù)上文假設(shè)，Topic2所對應(yīng)的主題詞是A和C兩本期刊存在交叉研究的主題。

為此，通過AT模型獲取的主題將能更加抽象地表達學術(shù)期刊研究興趣和偏好，能更好地濃縮期刊的研究主題。如果再將學術(shù)期刊的主題歸屬到更大的學科中，將形成以學科為分類標準的主題集合。對比不同學科所形成主題集合，將有助于識別和測度學科（或?qū)I(yè)）間研究主題的差異及融合情況。

基于這一假設(shè)，本文將AT模型引入學科交叉研究，通過識別學術(shù)成果集合中的主題信息，探索學科間研究主題的相關(guān)性，并嘗試挖掘知識間融合的內(nèi)容及特征。

2.3 研究思路

本文的研究思路如圖3所示，主要分三個步驟。

（1）獲取基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)預(yù)處理。學術(shù)論文是本文學科交叉研究的基礎(chǔ)，本文以CSSCI期刊學科分類為依據(jù)，獲取不同學科的期刊論文，將論文摘要作為分析的基礎(chǔ)數(shù)據(jù)，通過知識描述的規(guī)范化處理以及分詞操作，實現(xiàn)文摘的降維，并生成主題求解所需的語料庫。

（2）主題求解。這一步是學科交叉主題識別的核心，依據(jù)2.2的研究假設(shè)，本文首先生成“期刊-摘要”的數(shù)據(jù)集，隨后采用AT模型對數(shù)據(jù)集進行主題求解，并抽取每本期刊的高概率研究主題，最后將期刊主題歸屬到學科中，形成以學科為單位的主題集合。

（3）學科間研究域的交疊測度。為了描述學科間研究主題的交疊情況，本文對主題相似度進行計算，并形成學科間研究主題的相似度矩陣，通過熱力圖實現(xiàn)可視化的展示。

3 實驗與結(jié)論

3.1 實驗數(shù)據(jù)

本文在知網(wǎng)數(shù)據(jù)庫中，選取情報學、管理工程兩個學科的12本CSSCI期刊，并下載2012年1月至2017年3月的學術(shù)論文，共獲得17 870篇論文，其中管理工程4 862篇，情報學13 008篇。期刊的選取情況如表1所示。

對于獲取的源數(shù)據(jù)，需要進行預(yù)處理操作。為便于AT主題模型進行主題求解及對摘要文本進行降噪，對下載的論文摘要需要進行分詞和去停用詞處理。由于學者在摘要撰寫時對知識的描述存在不同的形式，如：k-means聚類和k均值表示的是一個知識內(nèi)容。為此，本文借助《漢語主題詞表》形成規(guī)范的知識描述，結(jié)合領(lǐng)域?qū)＜业闹R，形成學科專業(yè)詞典，對獲取的摘要文本進行規(guī)范化處理。隨后，本文針對論文摘要的撰寫特點，構(gòu)建用戶自定義停用詞表，將“結(jié)論”“論述”“目的”“意義”“文中”等高頻、無意義的詞匯進行剔除。本文采用Python2.7和jieba分詞組件進行分詞操作。預(yù)處理完成后，本文獲得了原始的語料庫，如圖4所示。

圖4中，語料庫按照期刊進行分類，文本的第一個字段為期刊名，后面則為該期刊論文摘要分詞后的結(jié)果，期刊名與詞項之間用制表符（Tab鍵）分隔，詞項之間用“：”進行分割。

3.2 AT模型主題求解

主題模型求解過程中，主題數(shù)量T的確定將直接影響主題計算的效果。對于T值，一般來講語料庫越大，主題的數(shù)量越多，反之亦然。

主題模型主題數(shù)的確定，目前比較常用的方法是采用統(tǒng)計語言模型進行指標評價[16]，依據(jù)該思想，本文采用python編寫主題模型的困惑度程序。困惑度為文檔集中包含的各句子相似性幾何均值的倒數(shù)，隨句子相似性的增加而逐步遞減，取值越小表示性能越好。實驗中，曲線在100的位置出現(xiàn)了一個明顯的最低點，為此本文在實驗中選取的T值是100。最終，AT模型的參數(shù)設(shè)置為：T=100，alpha=0.01，β=0.1，每個主題由6個主題詞進行描述。

實驗中，本文按照圖2所示的方法，對每本期刊選取概率最高的20個主題，然后再將這些主題歸屬到對應(yīng)的學科中，通過去重，最后獲得兩個以學科為單位的主題集合。這兩個主題集合分別存儲了兩個學科中概率較高的主題。兩個主題集合的具體數(shù)量為：管理工程39個主題，情報學49個主題。通過對主題號的識別，本文發(fā)現(xiàn)管理工程和情報學之間有3個交叉研究的主題，具體如表2所示。

3.3 主題交叉分布特征及討論

為進一步識別學科間研究主題的交疊程度，本文計算了兩個主題集合中每個主題之間的相似度。

文本相似度計算的基本思路是：將文本的內(nèi)容轉(zhuǎn)換為多維空間中的點，實現(xiàn)文本內(nèi)容的向量運算。實驗中，本文首先采用TF-IDF對每個主題中的主題詞進行權(quán)重衡量，隨后結(jié)合余弦相似度的方法來計算主題間的相似性，步驟如下：

（1）使用TF-IDF分別對兩個主題集合中的每個主題詞進行權(quán)重計算，然后按照學科形成兩個主題詞向量詞集Z1和Z2;

（2）從兩個主題詞向量詞集中各選一個主題，Z1'和Z2';

（3）計算向量集合Z1'和Z2'的余弦相似度，即：sim（Z1'，Z2'）=cos（Z1'，Z2'）;

（4）重復(fù)（2）和（3），完成Z1和Z2中所有主題的相似度計算。

根據(jù)以上思路，本文采用Python開發(fā)了相關(guān)程序，計算兩個學科主題集合中每個主題的相似度，并形成了主題相似度矩陣。然后利用R語言繪制了主題相似度的熱力分布圖，具體結(jié)果如圖5所示。

在圖5中，橫軸為管理工程研究主題，從左到右，主題在學科中出現(xiàn)概率不斷降低;縱軸為情報學研究主題，從下往上，主題在學科中出現(xiàn)概率不斷降低。左下角是兩個學科高概率研究主題的區(qū)域，右上角為兩個學科低概率研究主題的區(qū)域。從圖中可以發(fā)現(xiàn)，代表兩個學科高概率主題區(qū)的左下角，基本沒有交叉，說明兩個學科均有各自“核心”研究領(lǐng)域及研究范式和方法。圖中深顏色的區(qū)域主要出現(xiàn)在熱力圖的右半部分，從分布上來看，較深顏色的區(qū)域均處在兩個學科研究概率相對不高的位置。除了3個交叉研究主題外，兩個學科間還存在相似度較高的主題。這表明，在兩個學科間存在著同時關(guān)注的主題詞，形成了共同關(guān)注的研究領(lǐng)域。為此，本文通過技術(shù)處理，獲得了兩個學科間相似度較高的共同關(guān)注主題，如：輿情、技術(shù)競爭情報、信息質(zhì)量、意見領(lǐng)袖等。

除此以外，本文還挖掘了兩個學科之間基本沒有相交的主題，即相似度為0的主題。具體如表3所示，這在一定程度上體現(xiàn)了不同學科研究的各自學科特有性。

3.4 對比試驗

為了驗證本研究獲取主題的效果，本文采用學科交叉研究中，常用的關(guān)鍵詞共現(xiàn)方法進行實驗對比。對比實驗采用本文預(yù)處理后獲得的兩個學科關(guān)鍵詞作為共詞分析，采用BibExcel構(gòu)建共詞矩陣，獲取了兩個學科之間關(guān)鍵詞共現(xiàn)詞對，具體如表4所示。

對比表2和表4，可以發(fā)現(xiàn)，共詞分析的結(jié)果雖然也可獲得具有語義關(guān)系的詞對，但在語義表現(xiàn)方面AT主題模型效果更好。同時，雖然共現(xiàn)頻次可以反映這種交叉出現(xiàn)的次數(shù)，但無法從頻次上分析研究主題在兩個學科中的概率特征，也無法挖掘更多的共同關(guān)注的主題詞。

4 結(jié) 語

期刊論文反映了學科研究的成果，通過主題模型可以發(fā)現(xiàn)多學科之間研究主題的交疊和關(guān)聯(lián)。本文提出了一種通過AT模型進行學科交叉研究的思路，實現(xiàn)了期刊論文研究主題的識別，并進而實現(xiàn)了學科交叉的應(yīng)用研究，為學科交叉的實踐提供了一種新的思路。通過數(shù)據(jù)處理、主題建模、結(jié)果統(tǒng)計分析等過程，本文獲得相關(guān)的實驗結(jié)論。

為了進一步提高該方法的應(yīng)用性，本文認為該方法還需要從以下兩個方面進行完善。

（1）知識的流動和傳播方向。本文使用的AT模型，可以有效識別期刊的研究興趣和偏好，進而將期刊的研究主題歸屬到學科中，實現(xiàn)學科交叉的研究。但該方法無法挖掘知識的流動和傳播方向，而知識的流向在學科交叉研究中有助于分析學科的多樣性和影響力。為此，進一步的工作需要增加這方面的研究。

（2）方法應(yīng)用方面。本文通過實證研究已經(jīng)初步發(fā)現(xiàn)利用主題模型可以更好地識別學科之間研究域的交疊。下一步將在主題識別的基礎(chǔ)上，結(jié)合主題共詞分析等方法進行更多的應(yīng)用研究。

參考文獻：

路甬祥.學科交叉與交叉科學的意義[J].中國科學院院刊，2005，20（1）：58-60.

PIERCE S J. Boundary crossing in research literatures as a means of interdisciplinary information transfer[J].Journal of the American Society for Information Science， 1999，50（3）：271-279.

劉仲林.交叉科學時代的交叉研究[J].科學學研究，1993（2）：11-18.

RHOTEN D. Education： risks and rewards of an interdisplinary research path[J].Science， 2004， 306（5704）： 2046.

TIJSSEN R J W. A quantitative assessment of interdisciplinary structures in science and technology： co-classification analysis of energy research[J]. Research Policy， 2004，21（1）：27-44.

侯海燕，王亞杰，梁國強，等.基于期刊學科分類的學科交叉特征識別方法：以生物醫(yī)學工程領(lǐng)域為例[J].中國科技期刊研究. 2017，28（4）：350-357.

PORTER A L， CHUBIN D E. An indicator of cross-disciplinary research[J]. Scientometrics，1985，8（3-4）：161-176.

SMALL H. Maps of science as interdisciplinary discourse： co-citation contexts and the role analogy[J].Scientometrics， 2010（83）：835-849.

HAMMARFELT B. Interdisciplinarity and the intellectual base of literature studies： citation analysis of highly cited monographs [J]. Scientometrics，2011，86（3）：705-725.

李長玲，紀雪梅，支嶺.基于E-I 指數(shù)的學科交叉程度分析：以情報學等5個學科為例[J].圖書情報工作，2011（6）：33-36.

閔超，孫建軍.基于關(guān)鍵詞交集的學科交叉研究熱點分析：以圖書情報學和新聞傳播學為例[J].情報雜志， 2014，33（5）：76-82.

李長玲，郭鳳嬌，支嶺.基于SNA的學科交叉研究主題分析：以情報學與計算機科學為例[J].情報科學， 2014，32（12）：61-66.

MCCALLUM A. Multi-label text classification with a mixture model trained by EM[C].AAAI workshop on Text Learning. 1999：1-7.

ROSEN-ZVI M， GRIFFITHS T， STEYVERS M， et al. The author-topic model for authors and documents[C].Proceedings of the 20th conference on Uncertainty in artificial intelligence. AUAI Press，2004：487-494.

阮光冊，夏磊.基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J].情報雜志，2017，36（3）：179-184.

GRIFFITHS T L， STEYVERS M. Finding scientific topics[C].Process of the National Academy of Sciences， 2004，101：5228-5235.

夏磊上海圖書館會展中心副主任、副研究館員。? 上海，200031。

（收稿日期：2019-01-24 編校：謝艷秋，劉明）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于期刊論文的學科間交叉主題識別研究