周貞云 邱均平
摘 要:[目的/意義]長期以來,中圖分類號缺少學科分類和文獻計量的應用研究。為充分發(fā)揮兩大應用價值,利用中圖分類號實現(xiàn)數據可視化,將成為中圖分類號研究的一種新方法。[方法/過程]聚焦我國知識圖譜研究,將CNKI文獻作為數據樣本,根據文獻數據集、中圖號集合、中圖號矩陣的構建原理,利用Python工具進行數據處理。在此基礎上,運用ECharts等軟件編程,實現(xiàn)了中圖分類號可視化的4種應用。[結果/結論]學科旭日圖、學科河流圖、學科共現(xiàn)圖、學科耦合圖,分別從靜態(tài)、動態(tài)、共現(xiàn)、耦合視角揭示了在不同的應用層級和優(yōu)化條件下中圖分類號背后的學科規(guī)律及其特征。針對我國知識圖譜研究,挖掘出計算機的應用(TP39)、情報資料的處理(G353)、人工智能理論(TP18)三大學科及數據特征,進而識別出文字信息處理、科學文獻綜述、人工神經網絡與計算等七大主題及其前沿動態(tài)。
關鍵詞:中圖分類號;學科分類;文獻計量;數據可視化;知識圖譜
DOI:10.3969/j.issn.1008-0821.2022.05.001
〔中圖分類號〕G304;G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)05-0003-10
Abstract:[Purpose/Significance]Chinese library classification(CLC)number lacks the application research of discipline classification and literature metrology for a long time,In order to give full play to these two application values,it will be a new research paradigm to realize data visualization application by using CLC number.[Method/Process]Focusing on the research of knowledge graph(KG)in China,taking CNKI literature as the data sample,the study used Python tools to process data according to the construction principle of literature data set,CLC number set and CLC number matrix.On this basis,ECharts software was used to program and realize four kinds of applications of CLC number data visualization.[Result/Conclusion]From static,dynamic,co-occurrence and coupling perspectives,Sunburst Chart,Stream Graph,Co-occurrence Map and Sankey Diagram for the discipline respectively reveal the discipline rules and characteristics of CLC number under different application levels and optimization conditions.In view of the research of KG in China,characteristics of three major disciplines,namely computer application(TP39),information processing(G353)and artificial intelligence theory(TP18)were extracted,and seven important themes,including word information processing,scientific literature review,artificial neural network and computing were identified.
Key words:chinese library classification number;literature metrology;discipline classification;data visualization;knowledge graph
中圖分類號(簡稱“中圖號”,亦稱“分類號”)是一種基于《中國圖書館分類法》(簡稱《中圖法》)的學科分類代號?!吨袌D法》是一部以學科分類為基礎,并結合圖書資料的內容和特點的大型綜合性分類法[1],作為《中國學術期刊(光盤版)檢索與評價數據規(guī)范》(簡稱《數據規(guī)范》)的參考規(guī)范文件[2]。實際上,中圖號不僅具有學科分類的標識作用,而且具有文獻計量的表征功能。然而,中圖號的相關研究,主要集中于分類標識和主題分析,缺乏在文獻計量中的學科應用。因此,聚焦特定領域的研究文獻,利用中圖號進行文獻計量,依據其學科分類體系,如何實現(xiàn)特定學科應用及其可視化,這個科學問題值得深入探究。
1 相關研究
通過CNKI數據庫,采用“分類法”或“分類號”為主題進行檢索發(fā)現(xiàn):1980—2021年,期刊發(fā)表論文總量不到1 300篇,年均30余篇;1998—2021年,CSSCI收錄論文總數不到300篇,年均10余篇;近5年來,發(fā)文量和收錄數都明顯低于平均值,并且呈現(xiàn)逐年下降趨勢。長期以來,主要側重于中圖法使用與修訂[3]、學科分類評議與比較[4],類目設置與分類標引[5]、分類法與主題法[6]、學科交叉與自動分類[7]。這些推動了中圖法的分類標識和主題分析的功能實現(xiàn),卻對中圖號的學科分類和文獻計量的價值挖掘不夠充分。BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0
近年來,一些專家借鑒了文獻計量方法在關鍵詞中的應用,著手中圖號在文獻計量中的研究。2013年,構建了分類號和關鍵詞的共現(xiàn)矩陣,以此統(tǒng)計共現(xiàn)頻率并計算緊密程度,進而實現(xiàn)基于共現(xiàn)模式的分類號和關鍵詞對應關系研究[8]。2016年,利用中圖分類號將研究文獻分成若干學科,借助LDA主題模型對此類學科進行主題抽取以及熱點挖掘[9]。2017年,構建中圖號和關鍵詞隸屬關系網絡及多重共現(xiàn)網絡,對分類號和關鍵詞的對應關系進行計量分析和可視化展示[10];除此以外,還構建了基于中圖分類號和關鍵詞的作者耦合關系網絡,采用二次指派程序(QAP)等相關方法,比較分析了作者分類號和作者關鍵詞的耦合效果[11]。
盡管中圖號在學科挖掘、共現(xiàn)分析、耦合研究以及可視化展示有所積累和進展,然而中圖號在文獻計量中如何實現(xiàn)學科應用還有待于深度研究和推進。
綜上,中圖號的關注程度與其信息重要性不夠匹配,研究價值與其功能重要性極不相稱。當務之急,致力于提升中圖號在學科分類中的應用地位,進一步拓展中圖號在文獻計量中的研究范疇。為充分發(fā)揮中圖號的學科分類的作用和文獻計量的功能,現(xiàn)結合研究文獻數據集和中圖號集合來構建中圖號矩陣,主要運用文獻統(tǒng)計分析法、共現(xiàn)分析法、耦合分析法和可視化分析法,進而實現(xiàn)中圖號數據可視化及其應用,這將為中圖號新應用提供科學理論基礎和有效研究路徑。因此,如何利用中圖號進行文獻計量的可視化分析,繼而開展特定領域的學科識別、特征提取以及主題挖掘,這種研究與應用將成為一種新的方法。
2 樣本數據和研究過程
2.1 樣本數據
知識圖譜(Knowledge Graph,KG)是由Google公司于2012年正式提出[12]。教育部于2017年調整了學科目錄,首次將知識圖譜設置為學科方向,定位為大規(guī)模知識工程,歸屬人工智能學科范疇[13]。當前,知識圖譜在產業(yè)應用中蓬勃發(fā)展,同時在學術研究中方興未艾。近年來,知識圖譜研究呈現(xiàn)“激增”和“跨界”現(xiàn)象,不僅局限于人工智能領域,并且高度集中于計算機和圖情檔等領域。然而,文獻激增背后的學科關系及其構成,研究跨界視角的學科交叉以及應用,這些都有待于進一步探究。
為實現(xiàn)中圖號數據可視化應用,為明晰知識圖譜研究的跨學科應用,現(xiàn)以我國知識圖譜研究為例。研究文獻采用中國知網(CNKI)數據庫,以“知識圖譜”篇名來精準檢索,截至2020年12月31日。為確保文獻的學科性和權威性,遴選中國科學引文數據庫(CSCD)和中文社會科學引文索引(CSSCI)論文,并剔除與人工智能學科領域的無關文章,形成261篇論文作為研究文獻,同時生成中圖分類號(CLC)在內的文獻數據集。
鑒于知識圖譜研究的學術影響和中圖分類號的應用價值,聚焦知識圖譜研究相關的期刊論文進行中圖分類號的數據可視化分析,這對于闡明我國知識圖譜研究的學科發(fā)展具有重要意義,并且對于拓寬中圖分類號在文獻計量中的研究范疇具有重要價值。
2.2 研究過程
2.2.1 文獻數據集的構建與表示
為利于文獻數據進行交換、處理、檢索、統(tǒng)計、評價和利用,學術期刊數據庫應對檢索和評價的數據項都有相應的技術規(guī)范[2]。根據特定數據規(guī)范,針對特定的研究文獻,可構建文獻數據集(LDS)。它可由采用文獻集合法或項目集合法來構建和表示,具體如表1所示。
2.2.3 中圖號矩陣的構建與表示
《數據規(guī)范》指出,文章一般標注1個分類號,多個主題的文章可標注兩個或3個分類號;主分類號排在第1位,多個分類號之間應以分號分隔[2]。對照中圖號的數據集合(CLCN),數據項dix一般包含1~3個中圖號。在實際應用中,中圖號標引存在缺失或者眾多。
為實現(xiàn)中圖號數據可視化,應利用中圖號集合和文獻數據集,進一步構建基于中圖號的數據特征矩陣。根據學科分類和文獻計量的研究與應用,可以構建不同的中圖號數據矩陣。最為典型的中圖號矩陣主要包括:文獻—中圖號矩陣、時間—中圖號矩陣、中圖號共現(xiàn)矩陣、文獻—中圖號耦合矩陣。在數據處理中,一般需要經過特定程序[16]:①科學確定中圖號頻率;②正確選擇中圖號層級;③合理優(yōu)化中圖號矩陣;④有效進行可視化應用。中圖號矩陣的構建與表示,如表3所示。
3 基于中圖號的數據可視化應用
聚焦我國知識圖譜研究,采用CNKI文獻數據集為數據樣本,借鑒文獻數據集、中圖號集合、中圖號矩陣等構建原理,使用Python軟件[17-18]進行數據處理,并主要運用ECharts工具[19-20]編程來完成中圖號可視化的相關應用:學科旭日圖、學科河流圖、學科共現(xiàn)圖、學科耦合圖,從而實現(xiàn)中圖號的學科分類和文獻計量的研究價值。
3.1 知識圖譜研究的學科旭日圖
3.1.1 學科旭日圖的演變與創(chuàng)新
旭日圖(Sunburst Chart)是一種現(xiàn)代餅圖[20-21],視為多層級的環(huán)形圖,超越了傳統(tǒng)的餅圖、環(huán)圖和樹形圖。通過面積、顏色和排列,它不僅像餅圖和環(huán)圖一樣能夠體現(xiàn)數據比例構成,并且像樹形圖一樣能夠體現(xiàn)數據層級關系。在數據結構上,內圈與外圈屬于父子層次,具有歸屬關系;最內層的圓環(huán)級別最高、分類最粗,最外層的圓環(huán)級別最低、分類最細。因此,旭日圖特別適用于層級較多的比例數據關系。
學科旭日圖是一種系統(tǒng)研究學科分布的特殊旭日圖,屬于特定空間靜態(tài)視圖。在文中,學科旭日圖特指基于中圖分類號的學科分布圖,從宏觀視角呈現(xiàn)文獻數據集的學科領域分布。聚焦特定研究文獻,通過文獻—中圖號矩陣的數據挖掘、層級選擇和降維處理,它不僅能夠科學表征研究文獻的學科構成比例,并且能夠有效表征特定研究的學科層級關系。
3.1.2 學科旭日圖的應用與分析
根據表3矩陣構建的一般步驟,利用Python軟件構建文獻—中圖號矩陣,采用ECharts工具繪制學科旭日圖,具體如圖1(a)與(b)所示。BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0
圖1(a)和(b)從優(yōu)化條件fr≥10和fr≥20分別呈現(xiàn)了我國知識圖譜研究的學科領域分布。通過旭日圖內三環(huán)分析,發(fā)現(xiàn)我國知識圖譜研究的3個重要學科領域:計算技術、計算機技術(TP3),情報學、情報工作(G35),自動化基礎理論(TP1)。三者分別有146項次、64項次和61項次,小計243項次占總量的69.13%。
值得關注的是,情報學、情報工作(G35)加上圖書館學、圖書館事業(yè)(G25)以及檔案學、檔案事業(yè)(G27),“圖情檔”學科領域有81項次占20.66%,已然成為知識圖譜研究成果的第二大來源。除此之外,信息與知識傳播(G2)、教育(G4)、醫(yī)學與其他學科的關系(R-05)以及經濟計劃與管理(F2),已成為我國知識圖譜研究不可忽視的重要領域。
3.2 知識圖譜研究的學科河流圖
3.2.1 學科河流圖的演變與創(chuàng)新
河流圖(Stream Graph)是一種象形圖表[20-21],由面積圖、堆積面積圖不斷演變而來。它用不同的顏色表示不同的類別,用相應的數值表示相應的寬度。每個類別因數值變化形成粗細不同的小河,多種類別如同多條小河匯集成多種顏色的河流。它通過“流動”的形狀,展示不同類別的數據隨時間的變化情況。相比較堆積面積圖,河流圖具有優(yōu)美的視覺結構,特別適合于數據種類繁多、數據量巨大且波動幅度較大的情境。
學科河流圖是一種專門研究學科演變的特殊河流圖,屬于特定時間動態(tài)視圖。在這里,學科河流圖是指基于中圖分類號的學科演變圖,從中觀視角展示文獻數據集的學科發(fā)展趨勢。針對特定研究文獻,通過時間—中圖號矩陣的數據挖掘、層級選擇和降維處理,它不但能夠直觀呈現(xiàn)特定時間、特定學科的靜態(tài)特征,同時能夠形象反映不同時間、不同學科的動態(tài)特征。
3.2.2 學科河流圖的應用與分析
根據表3矩陣構建的流程,利用Python軟件構建時間—中圖號矩陣,采用ECharts工具繪制學科河流圖,如圖2(a)與(b)所示。
圖2(a)是基于中圖號(h=0)的可視化分析,展示了我國知識圖譜研究隨不同年份的學科動態(tài)變化及其分布。所有研究文獻,集中在社會科學(CLC3)和自然科學(CLC4)兩大學科領域。以自然科學為主的知識圖譜研究達184項次占總數的70.50%,以社會科學為主的知識圖譜研究,也有77項次,占29.50%。從文獻信息增長規(guī)律來分析,我國知識圖譜研究正處于急劇增長階段,未來幾年還將繼續(xù)在CLC3和CLC4兩大學科領域中激增。
圖2(b)是基于中圖號(h=4)的可視化呈現(xiàn),計算機的應用(TP39)、情報資料的處理(G353)、人工智能理論(TP18)累計分別有128項次、63項次和61項次,合計243項次,約占總量的61.99%;涉及194篇論文,占研究文獻總量74.33%。面向我國知識圖譜研究,TP39、G353和TP18已成為基于中圖分類號的主流學科領域。從布拉德福定律來看,我國知識圖譜研究文獻,普遍地分散于多個學科領域,并高度地集中于計算機的應用、情報資料的處理、人工智能理論3個領域。
3.3 知識圖譜研究的學科共現(xiàn)圖
3.3.1 學科共現(xiàn)圖的演變與創(chuàng)新
共現(xiàn)圖(Co-occurrence Map)是一種關系網絡圖[22],不僅通過節(jié)點大小反映特定數據項的頻次,并且通過連線粗細表征數據項之間的關系。這種共現(xiàn)圖常用于關鍵詞、主題、WoS分類的共現(xiàn)網絡分析,以及作者、機構、國家(地區(qū))的合作網絡分析。CiteSpace和VOSviewer等文獻可視化工具功能比較強大,能夠實現(xiàn)這些關系網絡分析;然而,當前缺乏基于中圖號的學科共現(xiàn)分析。
學科共現(xiàn)圖是一種深入研究學科共現(xiàn)的關系網絡圖,采用特定學科分類標準來考察研究文獻中學科分類狀態(tài)。在這里,學科共現(xiàn)圖是指基于中圖分類號的學科共現(xiàn)圖,從微觀視角挖掘文獻數據集的學科跨界特點。圍繞特定研究文獻,通過中圖號共現(xiàn)矩陣的數據挖掘、層級選擇和優(yōu)化處理,它不僅能合理表達特定研究的學科多樣性,并且能夠明確表示研究文獻的學科交叉性。
3.3.2 學科共現(xiàn)圖的應用與分析
依據表3矩陣構建的步驟,利用Python軟件構建中圖號共現(xiàn)矩陣,并采用Gephi工具繪制學科共現(xiàn)圖,如圖3(a)與(b)所示。
圖3(a)和(b)從中圖號(h=3)和(h=4)分別展示了我國知識圖譜研究的學科共現(xiàn)。
圖3(a)清晰呈現(xiàn),最大3個節(jié)點正是TP3、G35和TP1,分別對應三大學科:計算技術、計算機技術,情報學、情報工作,自動化基礎理論。它們的總鏈接數分別為240、123、112,合計475,占全部節(jié)點總鏈接數的69.04%。其中,TP3 & G35、TP1 & G35和TP3 & TP1的鏈接數分別為23、10和30。
在圖3(b)中,三大節(jié)點對應三大學科:計算機的應用(TP39)、情報資料的處理(G353)、人工智能理論(TP18)。TP39、G353和TP18總鏈接數分別為212、119、109,合計440,占全部節(jié)點總鏈接數的64.90%。其中,TP39 & G353、TP18 & G353和TP39 & TP81的鏈接數分別為21、10和28。TP39、T18和G353共現(xiàn)比較顯著:共現(xiàn)文獻高達53篇,占研究文獻總數的20.31%。可見,人工智能理論與計算機的應用相結合研究,計算機的應用、人工智能理論采用情報資料的處理來研究,成為我國知識圖譜研究的重要內容。
3.4 知識圖譜研究的學科耦合圖
3.4.1 學科耦合圖的演變與創(chuàng)新
桑基圖(Sankey Diagram)是一種特定類型的分流圖[20,23],將類型作為節(jié)點,用邊連接源頭節(jié)點與分流節(jié)點,使得源頭的寬度與分流的寬度始終保持相等。它源于1898年愛爾蘭裔工程師、英國陸軍工兵上尉Sankey于繪制蒸汽機的能源效率圖,常用于能源、材料、金融等數據可視化分析。利用可視化軟件,現(xiàn)代?;鶊D使不同寬度的節(jié)點采用不同顏色加以區(qū)分,更加直觀地反映不同類型的大小。BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0
學科耦合圖是一種特殊的?;鶊D,用中圖號數據可視化來分析特定研究領域的學科分類及其文獻耦合關系。這種學科耦合圖,不僅能夠反映學科的分層關系,并且能夠呈現(xiàn)學科的耦合聚類;不僅可用節(jié)點的寬度和顏色來表征文獻耦合幅度,還可用節(jié)點的特殊名稱來蘊涵學科耦合強度[24]。
3.4.2 學科耦合圖的應用與分析
根據表3矩陣構建的流程,利用Python軟件構建文獻—中圖號耦合矩陣,采用ECharts工具繪制學科耦合圖,如圖4(a)與(b)所示。圖4(a)呈現(xiàn)了基于中圖號(h=1)的文獻學科耦合關系。Total代表261篇研究文獻,其中社會科學(CLC3)文獻55篇,自然科學(CLC4)文獻155篇,社會科學&自然學科(CLC3 & CLC4)文獻48篇。舉例而言,G指文化、科學、教育、體育,源自于CLC3和CLC3 & CLC4;此時耦合強度為1個單位,耦合寬度為62篇文獻,占研究文獻總數的23.75%。T指工業(yè)技術,源自于CLC4和CLC3 & CLC4;此時耦合強度為1個單位,耦合寬度為155篇文獻,占59.39%。
圖4(b)刻畫了中圖號(h=4)之間的文獻學科耦合關系。TP39、G353和TP18的耦合強度為1個單位,其耦合幅度分別為80、35和26篇文獻。TP39 & TP18、TP39 & G353和TP18 & G353的耦合強度為2個單位,其耦合幅度分別為25、18和7篇文獻。TP39 & G353 & TP18的耦合強度為3個單位,其耦合幅度為3篇文獻。
4 結果與討論
為進一步探究中圖號數據可視化的使用條件和應用價值,挖掘知識圖譜研究的學科特征和學科主題,現(xiàn)從兩個視角對研究結果進行深入討論。
4.1 中圖號數據可視化應用的比較分析
為更加全面地分析可視化應用效果,可引入覆蓋率[25]和查全率[26]兩個指標。文獻覆蓋率是指特定應用層級(h)特定優(yōu)化條件(r)下中圖號矩陣對應的文獻數量占研究文獻總數的百分比率,記作LCR。學科查全率特指中圖號查全率,是特定優(yōu)化條件(r)下中圖號出現(xiàn)的次數占同一層級條件(h)下中圖號所出現(xiàn)總次數的百分比率,記作DRR。中圖號數據可視化應用的比較分析,如表4所示。
中圖號數據矩陣構建的過程與原理,是中圖號數據可視化應用的基礎和前提。典型圖例源于特定可視化分析圖,取決于中圖號的應用層級和數據矩陣的優(yōu)化條件,這樣有助于更加科學地呈現(xiàn)特定領域的學科發(fā)展與演變。采用文獻覆蓋率和學科查全率,能更加嚴謹地表征特定文獻的學科關系與結構。正因如此,學科旭日圖、學科河流圖、學科共現(xiàn)圖和學科耦合圖等中圖號數據可視化應用,方能在不同條件下揭示學科規(guī)律和特征。
4.2 我國知識圖譜研究的學科特征及重要主題
根據中圖號數據可視化應用,可以進一步挖掘學科特征并識別學科主題?,F(xiàn)將我國知識圖譜研究的學科特征及重要主題進行梳理,如表5所示。為了進一步說明耦合關系,采用耦合強度和耦合幅度[24,27]來表述。學科耦合強度特指基于中圖號的文獻學科耦合強度,記作LDCI;文獻耦合幅度特指基于中圖號的文獻學科耦合幅度,記作LDCA。
? 基于數據可視化應用與分析,中圖號(h=4)能夠細粒度反映我國知識圖譜研究的學科特征。無論從靜態(tài)到動態(tài)視角,還是從共現(xiàn)到耦合分析,TP39、G353和TP18自然而然成為我國知識圖譜研究的三大主流學科;這三大學科對應的LCR和DRR都非常高,LCCS=1條件下LDCA也非常高。同時,TP39 & TP18、TP39 & G353、TP18 & G353成為我國知識圖譜研究的三大交叉學科;此時LCR相對較低,但DRR相對較高,LDCI=2條件下LDCA相對較高。進一步發(fā)現(xiàn),TP39 & TP18 & G353成為LDCI=3條件下DRR最高的交叉學科。
通過對TP39、G353和TP18主流學科及其交叉學科的研判,并結合中圖號(h=5和h=6)剖析,我國知識圖譜研究的學科領域主要集中于七大重要主題。①文字信息處理:基于語義網技術、語義關聯(lián)分析、語義關系挖掘來構建知識圖譜[28-30],基于自然語言處理的知識圖譜問答系統(tǒng)[31],以及面向知識圖譜問答的語義查詢擴展方法[32],已成為這一學科主題的前沿動態(tài);②智能信息檢索:知識圖譜為智能信息檢索提供一種全新的模式,開啟了實體搜索與關系檢索[33]、三元組模式查詢與語義查詢[34]、智能檢索與實體推薦[35]等研究與應用的新階段。目前,景點、電影、商品、論文、新聞等智能推薦[36-40]為業(yè)界所關注;③科學文獻綜述:我國知識圖譜研究綜述,注重知識圖譜構建與知識圖譜應用。在知識圖譜構建方面,以構建技術[41]和補全方法[42]為主;而在知識圖譜應用方面,則以推薦系統(tǒng)[43]和可視化技術[44]為主;④科學技術總結:大體分為探索性總結和應用性總結,前者包括學術師承知識圖譜可視化[45]、人物關系知識圖譜推理[46]、金融知識圖譜新聞推薦[40]以及“一帶一路”投資知識圖譜問答系統(tǒng)[47];后者涉及醫(yī)療知識圖譜研究與應用[48]、科技大數據知識圖譜構建及應用[49]、在線學術資源知識圖譜應用[50];⑤自動推理與機器學習:高度集中于表示學習[51]、知識推理[52]、深度學習[53]以及基于個性化學習[54]、圖嵌入學習[55]、遷移學習[56]等知識圖譜推理研究;⑥專家系統(tǒng)與知識工程:專家系統(tǒng)促進了知識工程的發(fā)展,繼而推動了知識圖譜的應用。目前,國內知識圖譜研究,尤以本體[57]、推薦系統(tǒng)[58]、知識表示[59]、知識推理[52]為主;⑦人工神經網絡與計算:融合知識圖譜和神經網絡的研究大量涌現(xiàn),注意力網絡[60]、卷積神經網絡[34]、循環(huán)神經網絡[61]和長短期記憶網絡[62]已經成為研究高頻術語。BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0
5 結束語
中圖分類號在圖書情報領域具有重要價值,一方面在圖書資料的標引與排架中已發(fā)揮了重要作用;另一方面還未能充分發(fā)揮學科分類和文獻計量的內在價值。聚焦特定研究文獻,著重對中圖號數據進行文獻計量分析,實現(xiàn)基于中圖號的學科分類及可視化應用,從而提取學科特征及識別學科主題。實際上,這種研究與應用的新方法,在理論界尚未形成廣泛共識,在應用界也未達成廣為使用。學科旭日圖、學科河流圖、學科共現(xiàn)圖、學科耦合圖等的構建與創(chuàng)新,將有助于拓寬中圖號在學科分類和文獻計量中的研究與應用。以我國知識圖譜研究為例,不僅用樣本數據驗證了中圖號數據可視化應用,而且識別了計算機的應用(TP39)、人工智能理論(TP18)、情報資料的處理(G353)三大學科及其關鍵特征,在此基礎上挖掘出文字信息處理、科學文獻綜述、人工神經網絡與計算等七大主題及其前沿動態(tài)。
基于中圖號的學科應用及可視化,這種研究方法值得推廣,使學科分類和文獻計量得以有效挖掘。然而,應用中圖號實現(xiàn)學科識別的理論闡述不夠充分,采用中圖號實現(xiàn)文獻計量的方法運用不夠豐富,使用中圖號實現(xiàn)可視化分析的應用工具還不夠通用。這三大不足將從理論、方法和應用視角指明了中圖號在學科分類和文獻計量中研究與應用的未來圖景。通過這種新方法的拋磚引玉,期待共同研究、應用和推廣,將為提升中圖號在學科分類中的應用地位和拓寬在文獻計量中的研究范疇作不懈努力。
參考文獻
[1]卜書慶.《中國圖書館分類法》發(fā)展史述要[J].圖書館建設,2019,42(6):42-57.
[2]中國學術期刊(光盤版)編輯委員會.CAJ-CD B/T 1-2006中國學術期刊(光盤版)技術規(guī)范檢索與評價數據規(guī)范[S].北京:中國標準出版社,2006:1-4.
[3]陳志新.分類法研究的十五個問題——我國2009至2016年分類法研究綜述[J].情報科學,2018,36(6):149-155.
[4]童劉奕,張鵬翼.《中國圖書館分類法》和《美國國會圖書館圖書分類法》人工映射分析與差異性探究[J].數字圖書館論壇,2018,14(3):53-58.
[5]符銀蓮.《中國圖書館分類法》第5版計算機類目分類體系與編碼問題探討[J].新世紀圖書館,2021,42(2):44-49.
[6]李育嫦.網絡信息組織中的分類法與主題法[J].情報資料工作,2004,45(3):31-33.
[7]黃莉,李湘東.基于《中圖法》的自動分類研究現(xiàn)狀與展望[J].圖書情報知識,2012,29(4):30-36.
[8]鐘偉金.基于共現(xiàn)模式的分類號—關鍵詞對應關系研究[J].情報理論與實踐,2013,36(5):116-119.
[9]王曰芬,傅柱,陳必坤.采用LDA主題模型的國內知識流研究結構探討:以學科分類主題抽取為視角[J].現(xiàn)代圖書情報技術,2016,(4):8-19.
[10]溫芳芳.基于共現(xiàn)分析的中圖分類號與關鍵詞對應關系研究[J].情報科學,2017,35(11):121-125.
[11]溫芳芳.作者分類號耦合分析與作者關鍵詞耦合分析的比較研究[J].情報雜志,2017,36(11):186-191.
[12]閆樹,魏凱,洪萬福,等.知識圖譜技術與應用[M].北京:人民郵電出版社,2019:2-7.
[13]肖仰光,徐波,林欣,等.知識圖譜:概念與技術[M].北京:電子工業(yè)出版社,2020:8-10.
[14]國家圖書館《中國圖書館分類法》編輯委員會.中國圖書館分類法[M].北京:國家圖書館出版社,2010:1-1019.
[15]中國國家圖書館.中圖分類查詢[EB/OL].https://www.clcindex.com,2021-06-18.
[16]李杰,陳超美.CiteSpace:科技文本挖掘及可視化(第二版)[M].北京:首都經濟貿易大學出版社,2017:199-212.
[17]嵩天,禮欣,黃天羽.Python語言程序設計基礎(第2版)[M].北京:高等教育出版社,2017:209-217.
[18]劉宇宙,劉艷.Python 3.7從零開始學[M].北京:清華大學出版社,2018.10:74-89.
[19]王大偉.ECharts數據可視化:入門、實戰(zhàn)與進階[M].北京:機械工業(yè)出版社,2020:49-96.
[20]The Apache Software Foundation.Apache ECharts[EB/OL].https://echarts.apache/zh/index.html,2021-11-09.
[21]北京創(chuàng)新樂知網絡技術有限公司.CSDN專業(yè)開發(fā)者社區(qū)[EB/OL].https://www.csdn.net,2021.10.15.
[22]邱均平,趙蓉英,董克,等.科學計量學[M].北京:科學出版社,2016:194-362.
[23]百度百科.?;鶊D[EB/OL].https://baike.baidu.com/item,2021-11-27.
[24]邱均平,趙蓉英,宋艷輝,等.信息計量學概論[M].武漢:武漢大學出版社,2019:123-237.
[25]百度百科.文獻覆蓋率[EB/OL].https://baike.baidu.com/item,2021-03-14.
[26]百度百科.查全率[EB/OL].https://baike.baidu.com/item,2021-11-09.
[27]邱均平.文獻計量學(第二版)[M].北京:科學出版社,2019:201-314.BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0
[28]金貴陽,呂福在,項占琴.基于知識圖譜和語義網技術的企業(yè)信息集成方法[J].東南大學學報:自然科學版,2014,44(2):250-255.
[29]楊玉基,許斌,胡家威,等.一種準確而高效的領域知識圖譜構建方法[J].軟件學報,2018,29(10):2931-2947.
[30]熊晶,鐘珞,王愛民.甲骨文知識圖譜構建中的實體關系發(fā)現(xiàn)研究[J].計算機工程與科學,2015,37(11):2188-2194.
[31]陳金菊,王義真,歐石燕.基于道路法規(guī)知識圖譜的多輪自動問答研究[J].現(xiàn)代情報,2020,40(8):98-110,120.
[32]蘇永浩,張馳,程文亮,等.CLEQS——基于知識圖譜構建的跨語言實體查詢系統(tǒng)[J].計算機應用,2016,36(S1):204-206,223.
[33]王秋月,覃雄派,曹巍,等.擴展知識圖譜上的實體關系檢索[J].計算機應用,2016,36(4):985-991.
[34]孟明明,張坤,論兵,等.一種面向知識圖譜問答的語義查詢擴展方法[J].計算機工程,2019,45(9):276-283,290.
[35]丁浩宸,王忠明.基于本體的油茶中文知識圖譜構建與應用[J].世界林業(yè)研究,2020,33(4):50-55.
[36]高嘉良,仇培元,余麗,等.基于旅游知識圖譜的可解釋景點推薦[J].中國科學:信息科學,2020,50(7):1055-1068.
[37]李浩,張亞釧,康雁,等.融合循環(huán)知識圖譜和協(xié)同過濾電影推薦算法[J].計算機工程與應用,2020,56(2):106-114.
[38]湯偉韜,余敦輝,魏世偉.融合知識圖譜與用戶評論的商品推薦算法[J].計算機工程,2020,46(8):93-100.
[39]唐浩,劉柏嵩,劉曉玲,等.基于協(xié)同知識圖譜特征學習的論文推薦方法[J].計算機工程,2020,46(9):306-312.
[40]陶天一,王清欽,付聿煒,等.基于知識圖譜的金融新聞個性化推薦算法[J].計算機工程,2021,47(6):98-103,114.
[41]李肖俊,邵必林.多源異構數據情境中學術知識圖譜模型構建研究[J].現(xiàn)代情報,2020,40(6):88-97.
[42]王維美,史一民,李冠宇.改進的膠囊網絡知識圖譜補全方法[J].計算機工程,2020,46(8):21-26.
[43]秦川,祝恒書,莊福振,等.基于知識圖譜的推薦系統(tǒng)研究綜述[J].中國科學:信息科學,2020,50(7):937-956.
[44]王鑫,傅強,王林,等.知識圖譜可視化查詢技術綜述[J].計算機工程,2020,46(6):1-11.
[45]楊海慈,王軍.宋代學術師承知識圖譜的構建與可視化[J].數據分析與知識發(fā)現(xiàn),2019,3(6):109-116.
[46]于娟,黃恒琪,席運江,等.基于圖數據庫的人物關系知識圖譜推理方法研究[J].情報科學,2019,37(10):8-12.
[47]陳璟浩,曾楨,李綱.基于知識圖譜的“一帶一路”投資問答系統(tǒng)構建[J].圖書情報工作,2020,64(12):95-105.
[48]韓普,馬健,張嘉明,等.基于多數據源融合的醫(yī)療知識圖譜框架構建研究[J].現(xiàn)代情報,2019,39(6):81-90.
[49]王穎,錢力,謝靖,等.科技大數據知識圖譜構建模型與方法研究[J].數據分析與知識發(fā)現(xiàn),2019,3(1):15-26.
[50]熊回香,景紫薇,楊夢婷.在線學術資源中知識圖譜的應用研究綜述[J].情報資料工作,2020,41(3):61-68.
[51]熊盛武,陳振東,段鵬飛,等.基于可信向量的知識圖譜上下文感知表示學習[J].武漢大學學報:理學版,2019,65(5):488-494.
[52]官賽萍,靳小龍,賈巖濤,等.面向知識圖譜的知識推理研究進展[J].軟件學報,2018,29(10):2966-2994.
[53]杜博,萬國佳,紀穎.基于幾何深度學習的知識圖譜關鍵技術研究進展[J].航空兵器,2020,27(3):1-10.
[54]蘇喻,張丹,劉青文,等.學生得分預測:一種基于知識圖譜的卷積自編碼器[J].中國科學技術大學學報,2019,49(1):21-30.
[55]楊曉慧,萬睿,張海濱,等.基于符號語義映射的知識圖譜表示學習算法[J].計算機研究與發(fā)展,2018,55(8):1773-1784.
[56]魯強,劉興昱.基于遷移學習的知識圖譜問答語義匹配模型[J].計算機應用,2018,38(7):1846-1852.
[57]漆桂林,歐陽丹彤,李涓子.本體工程與知識圖譜專題前言[J].軟件學報,2018,29(10):2897-2898.
[58]程淑玉,黃淑樺,印鑒.融合知識圖譜與循環(huán)神經網絡的推薦模型[J].小型微型計算機系統(tǒng),2020,41(8):1670-1675.
[59]方陽,趙翔,譚真,等.一種改進的基于翻譯的知識圖譜表示方法[J].計算機研究與發(fā)展,2018,55(1):139-150.
[60]鄧立明,魏晶晶,吳運兵,等.基于知識圖譜與循環(huán)注意力網絡的視角級情感分析[J].模式識別與人工智能,2020,33(6):479-487.
[61]張楚婷,常亮,王文凱,等.基于BiLSTM-CRF的細粒度知識圖譜問答[J].計算機工程,2020,46(2):41-47.
[62]張善文,王振,王祖良.結合知識圖譜與雙向長短時記憶網絡的小麥條銹病預測[J].農業(yè)工程學報,2020,36(12):172-178.
(責任編輯:郭沫含)BBEA31D2-E0EF-42B6-B849-1EB59A5D01A0