邱均平 沈超
DOI:10.3969/j.issn.1008-0821.2021.09.003
[中圖分類號]G250.2 [文獻標識碼]A [文章編號]1008-0821(2021)09-0022-10
“大數(shù)據(jù)”一詞在《中共中央關于制定國民經濟和社會發(fā)展第十四個五年規(guī)劃和二0三五年遠景目標的建議》(以下簡稱《建議》)中一共出現(xiàn)了3次?!督ㄗh》指出,要推動大數(shù)據(jù)同各產業(yè)深度融合,加快大數(shù)據(jù)中心建設,以及加強宏觀經濟治理數(shù)據(jù)庫等建設,提升大數(shù)據(jù)等現(xiàn)代技術手段輔助治理能力,可見國家對于大數(shù)據(jù)的重視。大數(shù)據(jù)一詞于2008年9月首次在《Nature》雜志被提出,此后大數(shù)據(jù)迅速引起了學術界的廣泛關注,不同學科的學者紛紛開始從自己學科的角度去探索大數(shù)據(jù)的含義概念、大數(shù)據(jù)的分析方法和大數(shù)據(jù)在本學科的應用。在以文獻、信息和數(shù)據(jù)為研究對象的圖書情報學科內對大數(shù)據(jù)進行的研究也迅速增長。科技文獻作為學術成果的重要載體,是科研人員大量智慧汗水的結晶,是進行知識傳播和學術交流的重要途徑。因此,對科技文獻進行計量分析,能夠了解大數(shù)據(jù)的發(fā)展現(xiàn)狀,預測其發(fā)展趨勢。
對大數(shù)據(jù)領域相關文獻進行計量分析的研究,國內一些學者多是通過文獻計量的相關方法進行的。趙悅陽等使用Web of Science的分析功能和可視化軟件UCINET、gCLUTO,對Web of Science數(shù)據(jù)庫中的相關論文進行發(fā)文分析、詞頻分析、共現(xiàn)分析和雙聚類分析。得出高產國家(地區(qū))、高產機構、高產作者和研究熱點的結論。童子頤以中國學術期刊網(wǎng)絡出版總庫中我國大數(shù)據(jù)研究相關論文的高頻關鍵詞作為統(tǒng)計數(shù)據(jù),對其進行共詞分析,并在此基礎上對其進行聚類分析和多維尺度分析,得出我國大數(shù)據(jù)研究的熱點主要有:大數(shù)據(jù)技術、新聞傳媒中的大數(shù)據(jù)、大數(shù)據(jù)應用等。代芯瑜等對我國2003—2012年發(fā)表的有關大數(shù)據(jù)研究論文進行統(tǒng)計,利用文獻計量法和可視化分析方法,從宏觀上把握近年來我國的大數(shù)據(jù)研究現(xiàn)狀及研究重點,并得到相關研究結論。夏軍輝等對圖書情報領域關于大數(shù)據(jù)的研究現(xiàn)狀、熱點、主要研究方法和發(fā)展趨勢進行了分析和整理。王春華等使用CNKI數(shù)據(jù)庫,將學科定為圖書情報與數(shù)字圖書館,將主題定為大數(shù)據(jù),將得到的文獻數(shù)據(jù)運用詞頻統(tǒng)計方法和共詞分析方法,借助SPSS軟件和UCINET軟件,對這些文獻數(shù)據(jù)進行聚類分析、戰(zhàn)略坐標圖分析和核心一邊緣結構分析,得出了國內圖書情報領域大數(shù)據(jù)研究的8個熱點研究主題,并對熱點研究主題進行了詳細的解析。虞秋雨等以近5年圖書情報領域在中國知網(wǎng)數(shù)據(jù)庫中核心期刊收錄的有關“大數(shù)據(jù)”主題的文獻為研究對象,建立了一種以g指數(shù)為主要基礎的劃分高頻詞的方法,利用Excel軟件進行數(shù)據(jù)統(tǒng)計并構造共詞矩陣。同時借助SPSS、Paiek軟件對矩陣進行可視化分析、K-core分析以及聚類分析,研究文獻中各關鍵詞間的關系,探討了近5年我國圖書情報領域關于大數(shù)據(jù)主題的研究熱點。黃鸝等基于Web of Science數(shù)據(jù)庫,從發(fā)文年代、國家(地區(qū))和機構、核心作者及主要期刊分布幾方面分析了醫(yī)學信息學科大數(shù)據(jù)研究的現(xiàn)狀和進展,借助軟件對關鍵詞進行聚類分析,發(fā)現(xiàn)研究熱點主要集中在臨床決策支持系統(tǒng)、臨床研究數(shù)據(jù)管理、電子健康檔案、轉化生物信息學和遺傳流行病學等方面。范婷等運用雙聚類法對醫(yī)學大數(shù)據(jù)的研究熱點進行了分析,得出發(fā)文量分布、期刊分布、高頻主題詞及共詞聚類結果。
上述研究中,對研究熱點進行分析多用文獻計量的方法,借助LDA主題模型分析大數(shù)據(jù)領域文獻的熱點研究主題的文章極少。為適應當前文獻數(shù)量劇增的現(xiàn)狀,本文試圖借助LDA模型,對CNKI數(shù)據(jù)庫中標題帶有“大數(shù)據(jù)”的中文期刊論文進行文本建模,通過困惑度確定模型的最優(yōu)主題數(shù),并對文檔—主題矩陣和主題—詞矩陣進行分析,以期了解大數(shù)據(jù)領域研究現(xiàn)狀和研究熱點,為研究人員提供參考。
1相關技術
1.1 LDA
LDA(Latent Dirichlet Allocation)模型,是由Blei D M等于2003年提出的一種基于概率模型的主題模型算法,LDA是一種非監(jiān)督機器學習的文本挖掘技術,可以用來識別大規(guī)模文檔集或語料庫中的潛在隱藏的主題信息。
LDA模型算法中一篇文章的每個詞都是通過以一定概率選擇了某個主題,并從該主題中以一定概率選擇某個詞語這樣的過程得到的。該方法假設文本中的每個詞是從一個潛在隱藏的主題中抽取出來的。對于語料庫中的每篇文檔,LDA定義了如下生成過程:首先,對每一篇文檔,從主題分布中抽取一個主題;其次,從上述被抽到的主題中所對應的單詞分布中抽取一個單詞;最后,重復上述過程直至遍歷文檔中的每一個單詞。
本文主要采用Gibbs采樣算法求解得到全局的主題Z的分布和詞語W的分布。作為無監(jiān)督機器學習,需要事先確定3個超參數(shù)α、β、k(最優(yōu)主題數(shù)),α、β選取一般為默認值,最優(yōu)主題數(shù)k通過困惑度計算確定。困惑度的計算公式如式(1)所示。其中,D為測試集;M為文本數(shù)量;di為文檔d中的單詞序列;Ni為文檔d的單詞數(shù)目。
困惑度能夠衡量LDA主題模型預測樣本的精確程度,因此,理論上困惑度越小說明模型預測精準度越高,困惑度最低或是拐點處對應的k就為最佳主題數(shù)。
1.2 LDAvis
LDAvis是一種主題可視化方法,于2014年由Sievert C等提出。LDAvis以特征詞和主題的關聯(lián)程度選擇表示主題的特征詞,并且LDAvis可視化圖可以幫助人們從整體的視角觀察各個主題之間的關系。簡單來說,就是LDAvis探究了主題一主題、主題一詞語之間的關聯(lián)。主題一主題用多維標度的方式,將兩者投影在低維空間,從而進行比較分析;主題與詞語之間的關聯(lián)綜合了詞頻和詞語的獨特性兩種屬性。其中λ就是調節(jié)兩種屬性哪個占比更大的重要參數(shù)。λ的取值在0~1之間,λ的最優(yōu)取值需要根據(jù)具體問題進行具體分析。
2研究設計
2.1數(shù)據(jù)來源
實驗領域為大數(shù)據(jù)。中文數(shù)據(jù)采集時間段為2008—2020年,檢索日期為2021年3月10日。
中國知網(wǎng)(CNKI)為文獻的數(shù)據(jù)來源。限定文獻為SCI期刊、EI期刊、核心期刊、CSSCI/CSCD,文獻類型設定為期刊、中文。設定使用專業(yè)檢索,設定檢索式為“TI=‘大數(shù)據(jù)”,其中“TI”表示標題。下載全記錄文獻信息并以Excel格式批量導出,篩去重復以及不完整的文獻記錄,最后得到總計80797篇文獻。
按年份將樣本中的文獻進行分類,并統(tǒng)計每年的文獻數(shù)量,繪制折線圖,其變化情況如圖1所示。可以看出,2008—2011年發(fā)文量較少,從2012年開始發(fā)文量呈穩(wěn)定增長的趨勢??偟膩碚f,可以將時間分為兩段,2008—2011年為初步探索期,2012—2020年為快速增長期。
2.2文本預處理和LDA參數(shù)設置
將下載好的文獻按年份進行分類,形成各年份的文獻信息文件,并將文件格式轉換為CSV以便后續(xù)處理,從文獻信息中提取標題、關鍵詞、摘要信息形成LDA模型的語料來源。對語料來源文件用Python中的Jieba分詞組件進行分詞操作,從而得到文檔一詞矩陣。然后,借助Python軟件中Sklearn包構建LDA模型。在構建模型前需要確定模型的最優(yōu)主題數(shù),本文結合模型困惑度來確定模型的最優(yōu)主題數(shù)。首先,將主題數(shù)區(qū)間設為[0,40],步長設為2,α、β設為默認值;其次,根據(jù)各個主題數(shù)的困惑度,選取困惑度最低的主題數(shù)作為最優(yōu)主題數(shù)。運行程序得到的結果主要有兩個:文獻一主題分布和主題一詞分布。
2.3實驗結果與分析
2.3.1主題內容分析
結合文獻一主題分布和主題一詞分布,繪制出各主題及各主題下所對應的文獻數(shù)量按年份排列的表格,如表1、表2所示。
通過對表1、表2中的內容進行分析可以看出,大數(shù)據(jù)技術在各個時間段的研究中應用型研究較多,且在許多領域中的研究具有連續(xù)性和一貫性。下面挑選出具有代表性的9個主題,并以主題標簽為關鍵詞在原始數(shù)據(jù)中的標題列篩選包含該主題標簽的論文,對這些論文進行LDA主題聚類和pyLDAvis可視化,并進行分析。
1)圖書館服務。這一主題在2013—2020年都有體現(xiàn),并且其所對應的文獻數(shù)量較多,說明國內圖書館領域的大數(shù)據(jù)研究較多。以“圖書館”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是圖書館和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”和“圖書館”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,有關圖書館這個主題的研究有以下幾個分支:對高校圖書館的研究;對圖書館員的研究,如對圖書館員的信息素養(yǎng)進行研究;對圖書館內的文獻進行研究;對圖書館用戶讀者行為進行研究,如對讀者的隱私保護的研究等。圖2為“圖書館服務”主題下各個主題的LDAvis可視圖。
2)智慧城市建設、城市智慧交通等有關地區(qū)規(guī)劃建設的主題也在許多年份中有所體現(xiàn),說明大數(shù)據(jù)技術在城市建設、交通建設等方面應用較多。以“智慧城市”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是智慧城市和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“智慧”“城市”4個詞,避免這4個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,有關智慧城市主題的研究有以下幾個分支:有關城鄉(xiāng)規(guī)劃、城市規(guī)劃的研究;有關城鄉(xiāng)治理的研究;有關數(shù)據(jù)及數(shù)據(jù)中心平臺的研究;有關交通的研究等。圖3為“智慧城市”主題下各個主題的LDAvis可視圖。
3)大數(shù)據(jù)在教育領域的應用研究也較多。主要集中在教學模式改革等方面。以“教育”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是教育和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“教育”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,有關教育主題的研究有以下幾個分支:對大學生創(chuàng)新創(chuàng)業(yè)的研究;對網(wǎng)絡教育資源的研究;對遠程教育的研究;對教師教學評價的研究;對高校思政教育的研究等。圖4為“教育”主題下各個主題的LDAvis可視圖。
4)大數(shù)據(jù)與商務、金融相結合,對電子商務、互聯(lián)網(wǎng)金融、網(wǎng)絡營銷等新興產業(yè)起到了極大的促進作用,例如利用用戶大數(shù)據(jù),電子商務平臺能夠精準地投放廣告和商品,促進商品的銷量。以“商務”“金融”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是商務、金融和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“商務”“金融”4個詞,避免這4個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,金融商務的研究有以下幾個分支:對小微企業(yè)的研究:對金融風險的研究;對物流供應鏈的研究;對信息智能分析的研究;對個性化服務的研究;對電子商務的研究等。圖5為“金融商務”主題下各個主題的LDAvis可視圖。
5)大數(shù)據(jù)在政務工作和國家治理方面也發(fā)揮著極大的作用。如浙江省推出的“最多跑一次”便民服務,便是依靠著大數(shù)據(jù)技術。極大地方便了辦事群眾,同時也精簡了政府機構人員。以“政務”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是政務和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“政務”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,政務主題的研究有以下幾個分支:信息公開、資源共享;對電子政務的研究等。圖6為“政務”主題下各個主題的LDAvis可視圖。
6)大數(shù)據(jù)技術與傳播媒體的結合,使得信息的傳播更為快速和準確。以“傳媒”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是傳媒和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“傳媒”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,傳媒主題的研究有以下幾個分支:傳播媒介創(chuàng)新和傳統(tǒng)媒體面臨的挑戰(zhàn)等。圖7為“傳媒”主題下各個主題的LDAvis可視圖。
7)數(shù)字醫(yī)療、醫(yī)療信息數(shù)字化則是大數(shù)據(jù)技術在醫(yī)療領域中的應用,這樣的應用能夠在一定程度上解決“看病難、看病貴”的問題。以“醫(yī)療”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是醫(yī)療和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“醫(yī)療”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,醫(yī)療主題的研究有以下幾個分支:醫(yī)療信息化;對患者隱私保護的研究;對智能監(jiān)測的研究等。圖8為“醫(yī)療”主題下各個主題的LDAvis可視圖。
8)網(wǎng)絡安全、信息安全兩大主題在絕大多數(shù)年份中都有體現(xiàn),說明人們十分重視網(wǎng)絡安全和信息安全。大數(shù)據(jù)時代,人們的各種信息都以數(shù)據(jù)的形式存在于網(wǎng)絡上,如何保障這些數(shù)據(jù)信息的安全就成了全民所關注的熱點。以“網(wǎng)絡安全”和“信息安全”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是網(wǎng)絡安全和信息安全以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“網(wǎng)絡安全”“信息安全”4個詞,避免這4個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,網(wǎng)絡信息安全的研究有以下幾個分支:個人隱私安全的研究;信息管理的研究;防御系統(tǒng)的研究;網(wǎng)絡環(huán)境的研究等。圖9為“網(wǎng)絡、信息安全”主題下各個主題的LDAvis可視圖。
9)大數(shù)據(jù)技術還應用在企業(yè)組織管理、產業(yè)轉型升級等方面,大數(shù)據(jù)技術的應用能夠更好地促進社會經濟發(fā)展。以“企業(yè)”和“產業(yè)”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是企業(yè)、產業(yè)以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“企業(yè)”“產業(yè)”4個詞,避免這4個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,企業(yè)產業(yè)主題的研究有以下幾個分支:對財務管理的研究;對管理模式創(chuàng)新的研究;對工業(yè)產業(yè)鏈的研究;對中小企業(yè)的研究;對人力資源的研究等。圖10為“企業(yè)、產業(yè)”主題下各個主題的LDAvis可視圖。
大數(shù)據(jù)的研究也體現(xiàn)了與時俱進性,說明大數(shù)據(jù)技術與各個領域的研究都具有可融合性。
1)精準扶貧這一主題在2017年首次出現(xiàn),在隨后的幾年中也有體現(xiàn)。以“扶貧”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是扶貧以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“扶貧”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,這些主題詞代表了扶貧的各個方面,比如教育、政府治理;也可以看出對農村進行扶貧的重要性等。圖11為“精準扶貧”主題下各個主題的LDAvis可視圖。
2)在2020年的研究主題中出現(xiàn)了疫情防控,2020年新冠疫情肆虐,而利用新技術防控疫情能夠更有效率地對疫情進行遏制。以“疫情”為關鍵詞在各年度原始數(shù)據(jù)中的標題列進行篩選,將得到的論文進行LDA主題聚類,由于研究的就是疫情以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“疫情”3個詞,避免這3個詞多次出現(xiàn),影響主題聚類效果。從結果可以看出,疫情防控主題的研究有以下幾個分支:對人口流動進行研究;企業(yè)復工復產的研究;傳染病預測預警的研究;對政府治理的研究等。圖12為“疫情”主題下各個主題的LDAvis可視圖。
2.3.2文獻聚類及主題強度分析
為了更好地了解不同主題的研究狀態(tài),根據(jù)文檔一主題分布,對每個主題下的文獻數(shù)量進行分析,同時結合主題強度的定義,即主題強度主要描述了主題在某一時期的熱門程度。在某一時期關于某個主題的文獻數(shù)量越多,說明該主題的強度越高,可以被認為是熱點主題。對表1、表2進行分析可以得出:
1)2008—2012年時間窗口內,“企業(yè)信息計算分析”主題所包含的文獻數(shù)量最多,所以“企業(yè)信息計算分析”主題為該時間窗口的熱點主題。同理,可以得出2013年的熱點主題為“信息管理”;2014年的熱點主題為“經濟發(fā)展戰(zhàn)略”;2015年的熱點主題為“技術發(fā)展”;2016年的熱點主題為“大數(shù)據(jù)時代面臨的機遇與挑戰(zhàn)”;2017年的熱點主題為“大數(shù)據(jù)對社會的影響”;2018年的熱點主題為“大數(shù)據(jù)時代的機遇與挑戰(zhàn)”;2019年的熱點主題為“大數(shù)據(jù)對社會的影響”;2020年的熱點主題為“大數(shù)據(jù)對社會生活的影響”。從各個時間窗口的熱點主題可以看出,在前期關于大數(shù)據(jù)的研究主要集中在對數(shù)據(jù)信息的管理和分析上,后期研究熱點逐漸轉變?yōu)榇髷?shù)據(jù)產生的影響。
2)不難發(fā)現(xiàn),除了包含文獻數(shù)量最多的主題外,還有一些主題在時間窗口中也占據(jù)較大的比例。并且有許多主題在多個時間窗口中出現(xiàn)。所以本文挑選4個占據(jù)比例較大的且在多個時間窗口出現(xiàn)的主題,對其進行主題強度隨時間變化的分析。結果如圖13所示??梢钥闯觥皥D書館服務”這一主題在2013—2016年呈現(xiàn)穩(wěn)定上升的趨勢,在2017年有所下降,但2018年又有所回升,之后呈下降趨勢;“智慧城市”這一主題總體呈上升趨勢,但在個別年份有下降的波動;“市場營銷”主題在2016年之前呈上升趨勢,并在2016年文獻數(shù)量達到最高,接著在2017年、2018年、2019年下降至0篇,2020年又上升至383篇;“信息安全”主題在2008—2014年呈上升趨勢,到2015年下降至0篇,接著又呈現(xiàn)上升趨勢,直到2019年,之后呈現(xiàn)下降趨勢。
3結論與分析
本文借助LDA主題模型,結合模型困惑度判斷確定模型的最優(yōu)主題數(shù),同時考慮文獻發(fā)表時間,以年為單位劃分時間窗口(由于2008—2012年的論文數(shù)較少,所以將這4年合并成一個時間窗口),共分為9個時間窗口。對這9個時間窗口中的文獻進行主題挖掘,對挖掘到的主題的內容進行研究,并選取11個具有代表性的主題對這些主題內的論文再次進行LDA主題聚類和LDAvis主題可視化,進一步分析主題內的研究熱點;對挖掘到的主題進行強度分析,按照主題包含的文獻數(shù)量確定每個時間窗口的熱點主題,筆者還挑選了4個主題對其主題強度隨時間的變化趨勢進行展示分析。結果表明,LDA模型能夠較為準確地提取大數(shù)據(jù)領域文獻的研究主題,這有利于研究人員了解該領域的發(fā)展狀態(tài),把握未來的研究方向,探尋新興主題。
當然,本文亦存在不足之處:①本文選取的樣本數(shù)量較大(篇),具有一定的實踐意義,但僅僅考慮到了中文期刊文獻,未考慮到外文文獻,未來研究可以考慮擴大樣本容量,以充分了解大數(shù)據(jù)領域的發(fā)展狀態(tài);②各個主題的標簽是筆者根據(jù)關鍵詞和自己的主觀判斷總結的,具有一定的主觀性。