袁潤 劉邦國 潘穎
摘要:文章利用LDA主題模型對ESI研究前沿進行主題發(fā)現(xiàn)研究,將每1期的ESI分類的22個學科領(lǐng)域的研究前沿視為1個文檔,1年6期數(shù)據(jù)共計合成132個文檔,再將這些文檔構(gòu)成文檔集,利用R語言貢獻包中的LDA函數(shù)進行主題建模,得到“文檔-主題-術(shù)語”矩陣,在此基礎(chǔ)上可視化表征學科領(lǐng)域的主題及其演變、交叉融合。
關(guān)鍵詞:研究前沿;主題發(fā)現(xiàn);主題建模;ESI;LDA
一、引言
科學文獻主題發(fā)現(xiàn)是科技情報分析的基礎(chǔ)。LDA主題模型因其具有對海量異構(gòu)文本數(shù)據(jù)建模的優(yōu)勢,在科學文獻知識挖掘、科學研究熱點發(fā)現(xiàn)與新興主題探測、科學研究主題演化、學術(shù)評價等研究方向得到了廣泛的應用。關(guān)鵬、王曰芬等研究了最優(yōu)LDA主題數(shù)確定方法,分析了主題抽取的效果;張勇開展了基于詞性與LDA主題模型的文本分類技術(shù)研究,實驗證明了詞性特征提取方法是有效的,具有普適性;李湘東等研究了基于LDA主題模型的圖書網(wǎng)頁書目信息提取方法。
目前,基于ESI研究前沿的研究主要集中在三個方面。一是關(guān)于研究前沿的探測,二是關(guān)于研究前沿的解讀,三是關(guān)于研究前沿的學科分析與服務。這些研究為我國高校圖書館開展學科知識服務提供了強大的理論支撐,特別是在“雙一流”建設(shè)大背景下,ESI備受關(guān)注,深入研究它對學科知識服務的價值具有很強的現(xiàn)實意義。
每期發(fā)布的ESI研究前沿都會有較大的變化,本文以1年6期ESI研究前沿為研究對象,對其開展了基于文本挖掘的探索性研究,旨在發(fā)現(xiàn)科學研究主題,為解析學科結(jié)構(gòu)、掌握學科發(fā)展脈絡、預測技術(shù)發(fā)展趨勢等學術(shù)情報分析奠定基礎(chǔ)。
二、ESI研究前沿的主題模型分析
主題模型是一種以非監(jiān)督學習的方式對文本集的隱含語義結(jié)構(gòu)進行聚類的統(tǒng)計模型,廣泛應用在語義分析和文本挖掘等研究領(lǐng)域。本文將每1期的每1個學科領(lǐng)域的研究前沿視為一個文檔,利用LDA算法生成“文檔-主題”“主題-術(shù)語”和“文檔-主題-術(shù)語”三種矩陣形式的結(jié)果,在此基礎(chǔ)上抽取領(lǐng)域?qū)W科主題。LDA主題建模需要預先給定主題的數(shù)量,需要不斷進行嘗試才能尋找到最佳主題數(shù)量,存在一定的偶然性,因為ESI設(shè)置了22個學科領(lǐng)域,所以有理由相信每個學科領(lǐng)域至少包含1個主題。利用R語言中topicmodels工具包中的LDA函數(shù)創(chuàng)建22個主題模型后首先得到主題-詞頻矩陣,如圖1所示。
接著,將每個主題與22個學科相對應,結(jié)果如表1所示。
從表1可見,有20個主題與學科領(lǐng)域一一對應,所以表明LDA對于ESI研究前沿的分類效果較好。而未能對應學科的主題有2個, 其中,9號主題是未能對應到學科,而11號主題對應到生物學和多學科2個領(lǐng)域。
以術(shù)語cancer為例,發(fā)現(xiàn)至少有107個文檔中包含了該術(shù)語,涉及到14個主題和多個學科,該術(shù)語主要分布于臨床醫(yī)學和化學兩個學科領(lǐng)域。如此可以探索術(shù)語(term)在文檔(document)、主題(topic)、學科(field)中的分布情況,并從中發(fā)現(xiàn)有價值的學術(shù)信息。另外,2019年5月的數(shù)據(jù)出現(xiàn)了突變,從20號主題變成5號主題,這些信息值得深入研究,也需要得到領(lǐng)域?qū)<业慕庾x。
三、ESI研究前沿的主題發(fā)現(xiàn)
(一)穩(wěn)定的學科及主題的發(fā)現(xiàn)
1. 農(nóng)業(yè)科學領(lǐng)域穩(wěn)定的研究對象發(fā)現(xiàn)
以農(nóng)業(yè)科學為例,圖2展示了農(nóng)業(yè)科學領(lǐng)域的主題術(shù)語演變級及出現(xiàn)頻次,明顯可以看出“水”、“土壤”、“小麥”、“大米”是農(nóng)業(yè)科學學科穩(wěn)定的研究對象,體現(xiàn)了作為人類賴以生存基礎(chǔ)的農(nóng)作物、農(nóng)作物的生長環(huán)境在農(nóng)業(yè)科學領(lǐng)域的重要位置。并且,很直觀地看出,“土壤”(soil)“食物”(food)兩個術(shù)語的詞頻遠遠大于其它術(shù)語,是該學科領(lǐng)域的核心主題。
2. 穩(wěn)定學科中的新增主題
穩(wěn)定的學科也會存在一絲波瀾,這些波瀾就是每一期涌現(xiàn)出的新的研究主題,比如2019年第3期、第5期相繼出現(xiàn)研究土壤微生物在生態(tài)化學計量、植物群落、土壤性質(zhì)變化等方面的文章。2019年第5期、第7期研究前沿新增了電化學法、電化學傳感器用于鉛、鎘等重金屬的測定研究。
3.社會因素對穩(wěn)定學科的影響
結(jié)合實際情況,可以推斷出部分穩(wěn)定學科中新增的主題與當社會出現(xiàn)新問題有很大的相關(guān)性。比如2018年2月5日,伊朗吉蘭省發(fā)生H5N6亞型高致病性禽流感,在2019年第3期、第5期的研究前沿中就出現(xiàn)對特定地區(qū)食品健康風險評估研究熱點,比如伊朗市場食品樣品中苯的風險評價,伊朗水稻砷鉛含量的系統(tǒng)評價及致癌風險評價。這種影響存在一定的滯后性。
實際研究中發(fā)現(xiàn),研究前沿中存在穩(wěn)定研究主題的學科不在少數(shù),包括計算機科學、數(shù)學、微生物科學、植物科學等,這種穩(wěn)定學科的存在和發(fā)現(xiàn),有助于學者、機構(gòu)對研究前沿的發(fā)展進行梳理、解讀和預測,存在進一步深入研究的價值。
(二)學科主題變化及交叉融合的發(fā)現(xiàn)
如果某術(shù)語(term)在多個學科領(lǐng)域出現(xiàn),本文認為這些術(shù)語為交叉學科主題。根據(jù)本次研究得出的交叉主題術(shù)語結(jié)合文獻的閱讀,分析出了如下交叉融合的實例:食品學科與光學學科的交叉產(chǎn)生了高光譜成像在食品質(zhì)量分析、分類、鑒別等方面的研究主題;計算科學的參與,產(chǎn)生了模型在智能預測、估算方面的研究,比如混合進化模糊智能模型在懸沙濃度預測的應用、非調(diào)諧數(shù)據(jù)模型在土壤溫度智能估算的應用。按照這一思路提取的臨床醫(yī)學與生物學的交叉主題詞云如圖3所示。
四、結(jié)論與不足
本文使用了統(tǒng)計分析和主題模型的方法對ESI研究前沿進行了探索性研究,對研究前沿的探測、解讀和服務具有一定意義,包括:第一,社會新問題或重要事件的出現(xiàn)以及持續(xù)的時間,會對新主題的誕生產(chǎn)生一定程度的影響。第二,學科之間目前已經(jīng)形成了交叉融合的研究模式,包含交叉主題、交叉學科等,這種交叉融合的模式對學術(shù)、學科、機構(gòu)等的管理有借鑒和參考作用。第三,基于本文的假設(shè),每一個學科至少存在一個最具代表性的主題,實際利用LDA主題模型進行主題發(fā)現(xiàn)也的確驗證了這一假設(shè),代表著不同主題雖然存在融合、交叉,但也有自己核心的研究主題。第四,相較于其他文章將著眼點放在主題的突變,本文以農(nóng)業(yè)科學為例,發(fā)現(xiàn)該學科研究主題術(shù)語極具穩(wěn)定性,作者稱之為穩(wěn)定的學科,穩(wěn)定的學科交易于進行前沿的探索、解讀和預測,這種穩(wěn)定的學科也通常具有研究環(huán)境相對穩(wěn)定、試驗周期長等特征。
本文尚存在以下局限。首先,主題模型的方法有很多,包括LSA(又稱LSI)、pLSA(又稱pLSI)、LDA、NMF等,由于本文主要目的是對ESI研究前沿進行探索性研究,僅使用了LDA一種主題模型,并未對不同主題模型之間的特點和不足進行對比分析。其次,本文是一種對ESI研究前沿較為粗粒度的研究,描述了一種或多種學科的外貌特征,包括學科交叉程度、學科發(fā)展穩(wěn)定性、學科主題演變情況、主題發(fā)現(xiàn)相關(guān)影響因素等,想要獲取更加縱向的深入的主題分析,需要在本文基礎(chǔ)上進一步縮小范圍,縮小范圍進行細粒度的研究分析。
參考文獻:
[1]關(guān)鵬,王曰芬,傅柱.不同語料下基于IDA主題模型的科學文獻主題抽取效果分析[J].圖書情報工作,2016(02):112-121.
[2]關(guān)鵬,王日芬.科技情報分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J].現(xiàn)代圖書情報技術(shù),2016,32(09):42-50.
[3]張勇.基于詞性與LDA主題模型的文本分類技術(shù)研究[D].合肥:安徽大學,2016.
[4]李湘東,霍亞勇,張嬌.基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究[J].情報科學,2016,34(01):34-37.
[5]李牧南.基于關(guān)聯(lián)規(guī)則挖掘競爭情報研究前沿分析[J].情報雜志,2016,35(03):54-60.
[6]李小濤,金心怡,李艷.基于ESI高被引論文的醫(yī)學信息學研究前沿可視化分析[J].現(xiàn)代情報,2018,38(12):122-127.
[7]孫震,冷伏海.一種基于知識元共現(xiàn)的ESI研究前沿 知識演進分析方法[J].情報學報,2018,37(11):23-41.
[8]王小梅,鄧啟平,李國鵬,等.ESI研究前沿的科學圖譜及在納米領(lǐng)域的應用[J].圖書情報工作,2017,61(12):106-112.
[9]錢萬強,張峰,江海燕,等.世界前沿科學發(fā)展趨勢研究:基于ESI數(shù)據(jù)庫和十大突破分析[J].中國科學基金,2017(01):66-71.
[10]邊文越,王海名,邢穎,等.基于ESI研究前沿的納米領(lǐng)域研究分析[J].中國科學院院刊,2017,32(10):1150-1158.
[11]周群,韓濤,左文革,等.基于學科前沿性視角的科研機構(gòu)評測研究與實證[J].現(xiàn)代情報,2018,38(04):65-70+76.
[12]董彥邦,劉莉.全球?qū)W科排名與ESI研究前沿的相關(guān)性研究——以計算機學科為例[J].情報雜志,2019,38(05):81-86.
[13]周麗英,冷伏海,左文革.引文耦合增強的共詞分析方法改進研究——以ESI農(nóng)業(yè)科學研究主題劃分為例[J].情報理論與實踐,2015,38(11):120-125.
*本文系國家社會科學基金項目“圖書館知識發(fā)現(xiàn)服務的功能定位和建設(shè)策略研究”(項目編號:14BTQ018)研究成果之一。項目負責人:袁潤。
(作者單位:袁潤、潘穎,江蘇大學圖書館;劉邦國,江蘇大學科技信息研究所)