劉愛琴 吳瑞瑞
摘 要 本文從數(shù)據(jù)庫檢索因子優(yōu)化入手,以CNKI中國引文數(shù)據(jù)庫的數(shù)據(jù)作為依據(jù),基于引證關(guān)系,對知識發(fā)現(xiàn)領(lǐng)域研究群體進(jìn)行知識圖譜構(gòu)建和聚類分析,展示群體族群關(guān)系及整體知識架構(gòu),并驗證將二次凝練因子作為基礎(chǔ)特征項進(jìn)行應(yīng)用的效果,挖掘出知識發(fā)現(xiàn)領(lǐng)域作者群體、關(guān)鍵字及引文之間的超網(wǎng)絡(luò)模型,提高了信息檢索的查全率和查準(zhǔn)率,彌補信息檢索的缺陷。
關(guān)鍵詞 知識圖譜 知識關(guān)聯(lián) 多重共現(xiàn) 引證關(guān)系
分類號 G251.6
DOI 10.16810/j.cnki.1672-514X.2020.05.010
Abstract Based on the data of CNKI Chinese citation database, this paper starts with the optimization of database retrieval factors, builds knowledge map and cluster analysis on the research groups in the field of knowledge discovery based on citation relations, shows the relationship between groups and the overall knowledge structure, and verifies the effect of applying the second refinement factor as the basic feature item. The super network model among authors, keywords and citations in the field of knowledge discovery is mined, which improves the recall and precision of information retrieval and makes up for the defects of information retrieval.
Keywords Knowledge map. Knowledge association. Multiple co-occurrence. Citation relationship.
人們在對某一學(xué)科或某一領(lǐng)域進(jìn)行研究分析時,為了尋找到事物或現(xiàn)象之間的背后因素,常常通過論文共現(xiàn)分析來發(fā)現(xiàn)研究對象之間的關(guān)聯(lián)程度, 挖掘潛在知識,并揭示其內(nèi)在特征[1]。隨著可視化技術(shù)的不斷完善,知識圖譜成為形式化表述共現(xiàn)現(xiàn)象的一種重要方式。利用可視化工具描述知識資源及其載體,深層次地挖掘知識內(nèi)容及其結(jié)構(gòu)關(guān)系,表征知識之間的關(guān)聯(lián),能夠有效提高信息檢索效率和準(zhǔn)確率,實現(xiàn)數(shù)據(jù)庫服務(wù)模式創(chuàng)新[2]。為了更加清晰了解和應(yīng)用共現(xiàn)分析方法,本文將基于引證關(guān)系,對知識發(fā)現(xiàn)領(lǐng)域研究群體進(jìn)行知識圖譜構(gòu)建和聚類分析,一方面展示群體族群關(guān)系及整體知識架構(gòu),挖掘作者群體、關(guān)鍵字及引文之間的超網(wǎng)絡(luò)模型;另一方面提高信息檢索的查全率和查準(zhǔn)率,彌補信息檢索的缺陷。
1 研究現(xiàn)狀
知識圖譜最早出現(xiàn)在管理學(xué)領(lǐng)域,隨后向信息技術(shù)領(lǐng)域和圖情領(lǐng)域發(fā)展,慢慢滲透到各行各業(yè)[3]。國外對知識圖譜的研究起步相對較早,在文獻(xiàn)數(shù)量、質(zhì)量上占有一定優(yōu)勢。ODonnell認(rèn)為,知識圖譜是一種節(jié)點鏈接,通過一系列的鏈接與其他概念相連,以知識圖譜作為認(rèn)知加工的支架有助于人們在認(rèn)知過程中快速產(chǎn)生有效響應(yīng)[4]。Van Eck全面描述了VOSviewer顯示大型書目的強大功能,并通過構(gòu)建和顯示數(shù)千種主要期刊的共引圖來證明VOSviewer程序構(gòu)造的合理性[5]。Boyack通過直接引用、書目耦合、共引文分析以及基于引文與文內(nèi)耦合的多重方法,對生物醫(yī)學(xué)文獻(xiàn)的聚類情況進(jìn)行研究,比較不同方法的聚類精確度[6]。Porter通過運用新的跨學(xué)科指標(biāo)和科學(xué)制圖可視化方法研究不同領(lǐng)域的跨學(xué)科程度,發(fā)現(xiàn)跨學(xué)科指數(shù)呈現(xiàn)適度增長,但只略微增加了與遠(yuǎn)距離認(rèn)知領(lǐng)域的關(guān)系,主要分布仍然集中在鄰近學(xué)科,并認(rèn)為疊加學(xué)科知識圖譜能夠為未來跨學(xué)科研究提供通用標(biāo)準(zhǔn)[7]。
2005年,由陳悅和劉則淵共同署名的《悄然興起的科學(xué)知識圖譜》在《科學(xué)學(xué)研究》上發(fā)表,標(biāo)志著國內(nèi)知識圖譜領(lǐng)域研究的開始,其認(rèn)為科學(xué)知識圖譜是科學(xué)計量學(xué)表達(dá)形式轉(zhuǎn)換的產(chǎn)物,在揭示科學(xué)知識內(nèi)涵、結(jié)構(gòu)及其活動規(guī)律的進(jìn)程中起到了簡化作用[8]。侯海燕通過對科學(xué)計量學(xué)、應(yīng)用數(shù)學(xué)及計算機(jī)科學(xué)等相關(guān)學(xué)科進(jìn)行可視化研究,交叉整合各學(xué)科代表性成果并繪制圖譜,剖析科研熱點,同時預(yù)測演進(jìn)趨勢[9]。陳悅給出知識圖譜發(fā)展歷程簡介,并將傳統(tǒng)知識圖譜與現(xiàn)代知識圖譜的類型和實現(xiàn)原理進(jìn)行對比,表明了其作為知識管理工具的有效性[10]。秦長江和候漢靖主要講述構(gòu)建知識圖譜的理論及方法技術(shù),并結(jié)合具體應(yīng)用疏通知識圖譜的發(fā)展脈絡(luò)[11]。趙蓉英和王菊運用Cite SpaceⅡ,以圖書館為主題展開討論,對引文數(shù)據(jù)和主題詞數(shù)據(jù)進(jìn)行分析,梳理了該學(xué)科的代表文獻(xiàn)和領(lǐng)軍人物[12]。龐宏燊優(yōu)化了交叉圖技術(shù), 以競爭情報研究領(lǐng)域為例,對其發(fā)展趨勢進(jìn)行了多重共現(xiàn)可視化分析[13]。郭秋萍構(gòu)建基于作者—關(guān)鍵詞—引文3個子網(wǎng)的多重共現(xiàn)超網(wǎng)絡(luò),并以圖書館、情報與文獻(xiàn)學(xué)學(xué)科領(lǐng)域的“知識服務(wù)”為主題進(jìn)行實證分析,揭示科技文獻(xiàn)網(wǎng)絡(luò)不同節(jié)點之間的關(guān)聯(lián)關(guān)系,為研究文獻(xiàn)之間的隱性關(guān)聯(lián)關(guān)系提供了新的方法[14]。郭紅梅將一系列具有語義信息的術(shù)語進(jìn)行疊加,檢測多重術(shù)語關(guān)系在識別文本核心主題方面的效用性,結(jié)果表明三種關(guān)系的疊加使文本主題更為凸顯,克服了單獨考慮一種關(guān)系時造成的信息缺失[15]。周娜等基于LDA主題模型構(gòu)建作者、內(nèi)容與方法的多重共現(xiàn),為揭示學(xué)科領(lǐng)域隱性知識組合提供新的范式[1]。
綜上所述,在當(dāng)前研究中,學(xué)者主要運用可視化工具對某一領(lǐng)域的基礎(chǔ)元素進(jìn)行研究,并分析其具體應(yīng)用和發(fā)展趨勢,沒有進(jìn)行整合提升。本文以CNKI中國引文數(shù)據(jù)庫為數(shù)據(jù)源,首先通過作者間的引證關(guān)系形成同被引網(wǎng)絡(luò)知識圖譜,再運用社會網(wǎng)絡(luò)分析法對該群體進(jìn)行凝聚子群分析,構(gòu)建作者群體與關(guān)鍵字、引文之間的多重共現(xiàn)超網(wǎng)絡(luò)模型,達(dá)到凝練整合效果。通過構(gòu)建三者之間更精準(zhǔn)的關(guān)聯(lián)體系框架,有效提高信息檢索效率和準(zhǔn)確率,實現(xiàn)數(shù)據(jù)庫服務(wù)模式的創(chuàng)新。
2 基于引證關(guān)系的作者“群體—關(guān)鍵字—引文”多重網(wǎng)絡(luò)構(gòu)建
2.1 群體可視化知識圖譜構(gòu)建與分析
在科學(xué)文獻(xiàn)體系結(jié)構(gòu)中,引證文獻(xiàn)是論文的基本屬性,也是文獻(xiàn)之間得以連接的內(nèi)在樞紐?;谝C文獻(xiàn)之間的關(guān)聯(lián)能夠構(gòu)建引文矩陣,著者同被引又是由引證文獻(xiàn)延伸而來,本文借助被引證文獻(xiàn)構(gòu)建著者同被引網(wǎng)絡(luò),具體方法及數(shù)據(jù)處理如下。
第一步:在知識發(fā)現(xiàn)范圍內(nèi)進(jìn)行檢索,統(tǒng)計CNKI中國引文數(shù)據(jù)庫中收錄的文獻(xiàn)。以發(fā)表數(shù)≥3,被引總數(shù)≥150作為篩選條件,選出47位高被引作者作為研究對象,見表1。
其中,群體A三位學(xué)者專注于數(shù)據(jù)庫方面的研究。李德仁與王新洲側(cè)重空間數(shù)據(jù)挖掘的理論方法與應(yīng)用,李德毅則比較注重數(shù)據(jù)庫與知識發(fā)現(xiàn)的應(yīng)用。從發(fā)文情況來看,多數(shù)作品均由其中兩人或三人共同署名,總發(fā)文數(shù)相差不多,但被引次數(shù)李德仁最多,為1881次,其次是李德毅1664次、王新洲1009次。從同被引頻次來看,李德仁與李德毅同被引頻次最高,達(dá)162次,李德毅與王新洲、李德仁與王新洲相差無幾,分別為61次和56次。李德毅的同被引頻次總和在整個網(wǎng)絡(luò)中最高,達(dá)1106次,其次是李德仁954次,王新洲423,三位學(xué)者總被引頻次整體排位靠前,在整個網(wǎng)絡(luò)中地位十分重要。
群體B四位學(xué)者的主要研究方向是空間數(shù)據(jù)挖掘。其中,邸凱昌偏重于相關(guān)理論與實際應(yīng)用,其他三人則更傾向于方法、分類等。從該群體的同被引頻次分析,王樹良與史文中和邸凱昌分別為89和81,史文中和邸凱昌為57,王樹良和周成虎,邸凱昌和周成虎均為56,史文中和周成虎最少,為44。從同被引頻次總和看,王樹良是557,史文中555,邸凱昌718,周成虎433??梢?,邸凱昌不論是在該群體還是在整個網(wǎng)絡(luò)中,影響力都比較大。
群體C三位學(xué)者主要關(guān)注知識發(fā)現(xiàn)領(lǐng)域的人工智能、粗糙集等技術(shù),且以算法為主。從該群體彼此間的同被引頻次來看,張文修和胡可云最多,有113次,其次是陸玉昌和胡可云,陸玉昌與張文修,分別為93次,65次。從同被引頻次總和看,陸玉昌742次,張文修750次,胡可云695次。由數(shù)據(jù)可知該群體成員關(guān)系較為親密,學(xué)術(shù)地位相當(dāng)。
群體D三位學(xué)者研究方向集中在數(shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則。其中,施鵬飛以算法運用為主,蔡慶生與黃亞樓則主要描述算法的實現(xiàn)過程。該群體成員同被引次數(shù)相對較少,蔡慶生與施鵬飛33次,蔡慶生與黃亞樓11次,施鵬飛與黃亞樓7次。從同被引頻次總和看,蔡慶生709,施鵬飛439,黃亞樓224,相較其作品數(shù)量而言,被引次數(shù)較多。
群體E九位學(xué)者的作品多屬同一時期,集中在該學(xué)科萌芽階段,側(cè)重于論證相關(guān)算法的形成過程。胡學(xué)鋼、劉宗田關(guān)注關(guān)聯(lián)規(guī)則,王秀峰和劉宗田研究決策樹,焦李成、商琳以及林士敏探索數(shù)據(jù)挖掘,石純一和史開泉則注重粗糙集。從該群體的同被引頻次看,劉明吉和王秀峰最多,為47次,其次是石純一和劉宗田,石純一和胡學(xué)鋼,石純一和王秀峰,分別為33次,21次,14次,剩余倆倆之間次數(shù)較少,均在10次以下,表明其研究成果關(guān)聯(lián)度不大。從同被引頻次總和看,石純一最多,為561次,之后依次是劉宗田,胡學(xué)鋼,王秀峰,焦李成,劉明吉,林士敏、商琳,史開泉。
群體F有18位學(xué)者,在整個網(wǎng)絡(luò)中占比最大。該群體研究范圍廣泛,在數(shù)據(jù)庫、算法、應(yīng)用、關(guān)聯(lián)規(guī)則、數(shù)據(jù)挖掘等方面均有所涉足,研究方向有所交叉,又有所側(cè)重。例如唐常杰、程繼華、鄭誠、劉君強、李增智、歐陽為民、王清毅、陳恩紅均涉及關(guān)聯(lián)規(guī)則,但唐常杰圍繞基因表達(dá)式展開,歐陽為民以數(shù)據(jù)庫為主,陳恩紅則借助貝葉斯方法進(jìn)行研究。從同被引頻次來看,次數(shù)較少,甚至多數(shù)人之間都沒有共被引關(guān)系;從同被引頻次總和來看,歐陽為民最高,之后依次是高文,程繼華,吉根林,鄭誠,陳恩紅,王清毅,潘云鶴,唐常杰,呂安民,朱紹文,劉君強,周傲英,盧正鼎,謝榕,張?zhí)鞈c,殷國富,李增智。
群體G四位學(xué)者的共同研究方向是圖書館的數(shù)字資源整合、圖書館的變革方向以及圖書館知識發(fā)現(xiàn)。溫有奎和畢強從語義檢索方向研究檢索方法的改進(jìn),張曉林和朱東華則從數(shù)據(jù)處理方面入手。從該群體的同被引頻次來看,張曉林與畢強和溫有奎次數(shù)較多,但也僅有16次和13次,剩余彼此之間次數(shù)很少,從同被引頻次總和而言,張曉林最多,其次是畢強、溫有奎。
群體H的三位學(xué)者主要研究知識發(fā)現(xiàn)在醫(yī)藥領(lǐng)域的應(yīng)用。同被引頻次顯示,只有蔣永光與吳朝暉之間有同被引關(guān)系,頻次是8,其余倆倆之間沒有關(guān)聯(lián),只是共同將知識發(fā)現(xiàn)作為工具,在其他領(lǐng)域加以應(yīng)用,且3人的總被引頻次偏少,表明3人的研究方向與群體其他人員之間的一致程度較低。
通過對47位學(xué)者同被引網(wǎng)絡(luò)的可視化成果進(jìn)行分析,揭示出了我國知識發(fā)現(xiàn)領(lǐng)域?qū)W術(shù)群體結(jié)構(gòu)分布、成員地位,明確了主要學(xué)者之間的關(guān)聯(lián)程度。
2.2 “作者群體—關(guān)鍵字—引文”的多重共現(xiàn)超網(wǎng)絡(luò)模型構(gòu)建
選定某一學(xué)科的科技文獻(xiàn)集合作為樣本,用A={a1,a2,a3,...,am}表示作者群體集合, K={k1,k2,k3,...kn}表示關(guān)鍵字集合,C={c1,c2,c3,...cp}表示引文集合,則對于作者群體、關(guān)鍵字和引文之間的關(guān)聯(lián)關(guān)系可做出如下定義:R={(ai,kt)|1≤i≤m, 1≤t≤n}∪{(ai,cv,)|1≤i≤m,1≤v≤p}∪{(kt,cv)|1≤t≤n, 1≤v≤p}∪{(ai,kt,cv)|1≤i≤m, 1≤t≤n,1≤v≤p},該定義描述以下4種共現(xiàn)情況:作者群體ai與關(guān)鍵字kt的共現(xiàn);作者群體ai與引文cv的共現(xiàn);關(guān)鍵字kt與引文cv的共現(xiàn);作者群體ai與關(guān)鍵字kt、引文cv的共現(xiàn)。
2.2.1 “作者群體—關(guān)鍵字—引文”的多重共現(xiàn)超網(wǎng)絡(luò)模型構(gòu)建步驟
首先,按照作者、關(guān)鍵字和引文之間的對應(yīng)關(guān)系,識別每篇文獻(xiàn)對應(yīng)作者所屬子群,得到每篇文獻(xiàn)的作者、關(guān)鍵字和引文關(guān)系表;隨后,通過Bib Excel整理得到文獻(xiàn)標(biāo)號與作者群體、關(guān)鍵字和引文之間的對應(yīng)關(guān)系,以及作者群體共現(xiàn)矩陣、關(guān)鍵字共現(xiàn)矩陣和引文共現(xiàn)矩陣;第三,導(dǎo)入SQL Server,生成作者群體表、關(guān)鍵字表、引文表,并借助SQL Server的查詢功能和Excel的統(tǒng)計功能,對作者群體、關(guān)鍵字、引文之間的關(guān)聯(lián)關(guān)系進(jìn)行整理記錄,得到作者群體、關(guān)鍵字、引文共現(xiàn)頻次表;第四,與關(guān)鍵字—引文共現(xiàn)頻次表、作者群體—關(guān)鍵字共現(xiàn)頻次表、作者群體——引文共現(xiàn)頻次表逐一對應(yīng)進(jìn)行轉(zhuǎn)換,生成作者群體—關(guān)鍵字—引文共現(xiàn)矩陣;最后,將共現(xiàn)矩陣導(dǎo)入Ucinet軟件,對作者群體—關(guān)鍵字—引文矩陣進(jìn)行可視化操作,生成多重共現(xiàn)超網(wǎng)絡(luò)。