胡乙
(江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,江蘇 南京 211168)
CiteSpace是CitationSpace的簡(jiǎn)稱,是一款分析文獻(xiàn)中潛在知識(shí)的可視化分析軟件,廣泛適用于各學(xué)科研究。但在實(shí)踐中,部分作者只是借助該軟件更好地展示數(shù)據(jù),而不是利用軟件的強(qiáng)大功能深入地發(fā)掘文獻(xiàn)間隱藏的信息,據(jù)此,研究擬從情報(bào)學(xué)可視化技術(shù)入手,詳細(xì)闡述CiteSpace發(fā)明過(guò)程中涉及的學(xué)科知識(shí),并據(jù)此分析該軟件的主要功能與原理,以此為基礎(chǔ),研究者能更深入地發(fā)掘該軟件的價(jià)值。
可視化技術(shù)推動(dòng)了對(duì)知識(shí)圖譜的研究,而CiteSpace軟件是文獻(xiàn)圖譜專用繪制工具之一,其能輔助研究者有效識(shí)別學(xué)科熱點(diǎn)與研究前沿。
可視化是圖書館學(xué)情報(bào)學(xué)一般研究方法之一,是將數(shù)據(jù)轉(zhuǎn)化為可視表示形式的過(guò)程。從離散數(shù)學(xué)考察,其本質(zhì)是建立從抽象數(shù)據(jù)集合到可視化結(jié)構(gòu)數(shù)據(jù)集合之間的映射??梢暬诸惏〝?shù)據(jù)可視化、科學(xué)計(jì)算可視化、信息可視化與知識(shí)可視化??梢詫⒖梢暬暈檫B接人與電腦信息處理系統(tǒng)的橋梁。
可視化的產(chǎn)生涉及諸多跨學(xué)科知識(shí)與技術(shù),如高等代數(shù)、計(jì)算機(jī)圖形學(xué)、圖像處理等。其能將知識(shí)之間的聯(lián)系以表格、節(jié)點(diǎn)、圖等方式展現(xiàn)在屏幕上,這種方式有助于人們對(duì)數(shù)據(jù)或信息集合從一個(gè)全新的角度進(jìn)行觀察分析,以發(fā)現(xiàn)過(guò)去研究中遺漏的隱藏情報(bào)。在大數(shù)據(jù)、人工智能、5G 通訊背景下,可視化技術(shù)為文本挖掘、情報(bào)挖掘等提供了新的的工具。例如,目前流行的科學(xué)知識(shí)圖譜與專利地圖就是可視化技術(shù)在情報(bào)學(xué)中的具體應(yīng)用。
知識(shí)圖譜的概念,源于萬(wàn)維網(wǎng)之父Ti.m Bener-Lee關(guān)于語(yǔ)義網(wǎng)的設(shè)想。其旨在運(yùn)用圖結(jié)構(gòu)來(lái)構(gòu)建世間所有萬(wàn)物之間關(guān)系及知識(shí),以便實(shí)現(xiàn)更確切的搜索。其在搜索引擎、語(yǔ)言理解、大數(shù)據(jù)分析決策等領(lǐng)域得到了廣泛應(yīng)用,已經(jīng)成為自動(dòng)化知識(shí)獲取、大規(guī)模圖挖掘與分析等領(lǐng)域不可或缺的工具。
狹義的知識(shí)圖譜特指一類知識(shí)表示,本質(zhì)上是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò);廣義的知識(shí)圖譜是大數(shù)據(jù)時(shí)代知識(shí)工程一系列技術(shù)的總稱。從狹義角度考察,此種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)包括實(shí)體、概念及其之間的各種關(guān)系,其中,語(yǔ)義網(wǎng)絡(luò)是知識(shí)圖譜的本質(zhì)。與傳統(tǒng)的語(yǔ)義網(wǎng)絡(luò)相比,知識(shí)圖譜代表的語(yǔ)義網(wǎng)絡(luò)規(guī)模巨大、語(yǔ)義豐富、質(zhì)量精良、結(jié)構(gòu)友好。語(yǔ)義網(wǎng)絡(luò)是一種以圖形化的形式,通過(guò)點(diǎn)與邊描述知識(shí)關(guān)系的方法。圖形中的點(diǎn)可以描述實(shí)體、概念和屬性。實(shí)體稱為對(duì)象或?qū)嵗且磺袑傩缘奈镔|(zhì)基礎(chǔ),是有明確指代意義的。概念又稱類別、類,其是指一類人,這類人有相同的特征。概念所對(duì)應(yīng)的動(dòng)詞稱為概念化和范疇化,概念化一般指識(shí)別文本中的相關(guān)概念的過(guò)程,例如,拉格朗日的中值思想;范疇化一般指實(shí)體形成類別的過(guò)程,如具有若干哲學(xué)思想的人們組成某個(gè)特定的哲學(xué)派別,則這一學(xué)派的形成就是典型范疇化的過(guò)程。每個(gè)實(shí)體都有一定的屬性值,包括數(shù)值、日期、文本等,知識(shí)圖譜的推理即是建立在實(shí)體、屬性與關(guān)系之上。
科學(xué)知識(shí)圖譜在圖書館學(xué)情報(bào)學(xué)應(yīng)用領(lǐng)域,包括識(shí)別學(xué)科領(lǐng)域熱點(diǎn)、展示學(xué)科研究前沿、分析引用關(guān)系等。
從哲學(xué)、社會(huì)學(xué)、數(shù)據(jù)科學(xué),數(shù)學(xué)等學(xué)科入手,可全面理解軟件包含的學(xué)科基礎(chǔ)知識(shí)。
CiteSpace設(shè)計(jì)靈感之一,是來(lái)源于托馬斯·庫(kù)恩的《科學(xué)革命的結(jié)構(gòu)》。庫(kù)恩重塑了科學(xué)的真理形象,其“范式論”“不可通約論”為科學(xué)史研究提供了新的視角。
庫(kù)恩思考的根本問(wèn)題可以概括為“科學(xué)進(jìn)步的機(jī)制是什么”。這是需要借助科學(xué)史研究才能回答的問(wèn)題,但傳統(tǒng)的研究方法存在缺陷,而作者嘗試從科學(xué)史的編著工作中找到突破口??茖W(xué)知識(shí)的歷史不是簡(jiǎn)單增長(zhǎng)過(guò)程,其中某個(gè)階段必定會(huì)發(fā)生根本性的轉(zhuǎn)變,新的科學(xué)觀應(yīng)以研究此類根本性轉(zhuǎn)變?yōu)樽谥肌M瑫r(shí),科學(xué)研究活動(dòng)并不是單個(gè)人的孤立活動(dòng),而是群體活動(dòng)。為了能順利有效地開展研究,科學(xué)共同體一般會(huì)就研究的基本事項(xiàng)達(dá)成共識(shí)。此類共識(shí)具有歷史性與偶然性,并且預(yù)定了科學(xué)知識(shí)的類型。正是這些共識(shí)的變遷帶來(lái)了科學(xué)知識(shí)系統(tǒng)的大轉(zhuǎn)換,也就是科技革命的發(fā)生,決的重大疑難問(wèn)題,
《公務(wù)員法》和《勞動(dòng)法》都有規(guī)定:公務(wù)員和勞動(dòng)者患病在醫(yī)療期間不得被辭退的相關(guān)表述,但對(duì)于超過(guò)醫(yī)療期的勞動(dòng)者和公務(wù)員是否應(yīng)當(dāng)被辭退,法律沒(méi)有硬性規(guī)定,出現(xiàn)大部分公務(wù)員生病期間也會(huì)受到很好的待遇,薪酬基本不會(huì)降低,但企業(yè)特別是民營(yíng)企業(yè)的做法是辭退員工。由于單位性質(zhì)的不同,員工患病后也會(huì)出現(xiàn)截然不同的待遇。
20 世紀(jì)90 年代初,美國(guó)社會(huì)學(xué)家伯特提出了結(jié)構(gòu)洞理論。該理論描述了網(wǎng)絡(luò)中不同節(jié)點(diǎn)是如何影響行為人收益的。概括地說(shuō),如果網(wǎng)絡(luò)中的行動(dòng)者所連接的其他行動(dòng)者之間不存在直接聯(lián)系,則這個(gè)行動(dòng)者就占據(jù)了結(jié)構(gòu)洞的位置,能夠通過(guò)中介機(jī)會(huì)獲取社會(huì)資本收益,從而帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)。該理論創(chuàng)造性的從結(jié)構(gòu)角度對(duì)網(wǎng)絡(luò)進(jìn)行分析,不僅有助于挖掘關(guān)鍵的行動(dòng)者和關(guān)鍵位置,更有利于拓展研究與發(fā)展的視野。自問(wèn)世以來(lái),該理論在管理科學(xué)、社會(huì)科學(xué)與經(jīng)濟(jì)學(xué)等多個(gè)領(lǐng)域得到了廣泛的運(yùn)用。
結(jié)構(gòu)洞來(lái)源于網(wǎng)絡(luò)分析學(xué)派的理論成果,并與社會(huì)資本共生理論密切相關(guān)。人的行為,不僅是受所處網(wǎng)絡(luò)結(jié)構(gòu)影響,也受人自身欲望影響,人具有選擇行為的主動(dòng)性。如行動(dòng)者彼此越接近,關(guān)系越密切,則其擁有的資源也基本相同,此種密切關(guān)系難以使個(gè)體獲得稀缺資源。相反,行動(dòng)人能從弱的關(guān)系中尋找到更有價(jià)值的資源,由此引出社會(huì)資本概念。社會(huì)資本來(lái)自構(gòu)成社會(huì)的諸要素,單獨(dú)的個(gè)人并不能完全擁有社會(huì)資本,只有參與交換網(wǎng)絡(luò),并與他人建立關(guān)系,才能獲得所需收益??傊幱诮Y(jié)構(gòu)洞的行為主體往往能接觸更多的信息,并能占據(jù)更大的優(yōu)勢(shì),沒(méi)有中間人,則部分群體或者個(gè)人無(wú)法發(fā)生交換關(guān)系。而位于結(jié)構(gòu)洞的行為主體即可視為發(fā)揮連接作用的中間人。
離散數(shù)學(xué)通常以邏輯與集合論開端,并以此為基礎(chǔ)講授函數(shù)、數(shù)列、算法等后續(xù)內(nèi)容。而圖論在各個(gè)領(lǐng)域中可進(jìn)行可視化處理,圖模型為多個(gè)學(xué)科與領(lǐng)域提供了求解問(wèn)題的新思路。圖是由頂點(diǎn)連接頂點(diǎn)的邊構(gòu)成的離散結(jié)構(gòu),根據(jù)圖中的邊是否有方向、相同頂點(diǎn)對(duì)之間是否可以有多條邊相連,以及是否允許存在短路環(huán),可將圖分為多個(gè)類型。圖模型在多個(gè)領(lǐng)域中均可用于建立數(shù)學(xué)模型,例如,文獻(xiàn)計(jì)量學(xué)或科學(xué)計(jì)量學(xué)用圖表示論文引用關(guān)系以及研究人員、研究機(jī)構(gòu)與團(tuán)隊(duì)間合作關(guān)系等。一個(gè)圖是由頂點(diǎn)非空集合與邊的集合組成,每條邊有一個(gè)或兩個(gè)頂點(diǎn)與它相連,這些頂點(diǎn)稱為邊的端點(diǎn),邊連接它的端點(diǎn)。點(diǎn)與邊使得可視化分析有了可能。圖的類型、同構(gòu)、連通性、通路等問(wèn)題,為科學(xué)計(jì)量與可視化研究提供了新的思路。
從引文網(wǎng)絡(luò)分析、中介中心性、突發(fā)性檢測(cè)、共詞分析等入手,可深入理解軟件的主要功能與操作步驟。
引文網(wǎng)絡(luò)分析是科學(xué)計(jì)量領(lǐng)域的重要研究方向,其通過(guò)研究參考文獻(xiàn)被引用的網(wǎng)絡(luò)特征來(lái)探索科學(xué)知識(shí)發(fā)展的特征與規(guī)律,為學(xué)科研究、技術(shù)創(chuàng)新、科學(xué)評(píng)價(jià)等科技活動(dòng)服務(wù)。引文分析是對(duì)科學(xué)文獻(xiàn)參考模式的探索,多用于影響力分析、知識(shí)流和知識(shí)網(wǎng)絡(luò)等多個(gè)社會(huì)科學(xué)領(lǐng)域中。該方法有助于解決研究、管理或信息服務(wù)等相關(guān)問(wèn)題,例如,學(xué)校排名、研究評(píng)估、知識(shí)可視化等,受到了諸多領(lǐng)域?qū)W者的好評(píng)。
要進(jìn)行科研合作網(wǎng)絡(luò)分析,可運(yùn)用CiteSpace科學(xué)合作網(wǎng)絡(luò)分析功能。該分析包括三個(gè)層次:作者合作網(wǎng)絡(luò)、機(jī)構(gòu)合作網(wǎng)絡(luò)、國(guó)家與地區(qū)合作網(wǎng)絡(luò)。其中節(jié)點(diǎn)大小代表了各成員發(fā)表論文的數(shù)量,節(jié)點(diǎn)間連線描述了不同主體間合作關(guān)系。以作者合作網(wǎng)絡(luò)分析為例,依照前述步驟新建項(xiàng)目后,在節(jié)點(diǎn)類型中選擇Author,可得到初級(jí)作者合作網(wǎng)絡(luò)。在合作網(wǎng)絡(luò)圖中,選中某一節(jié)點(diǎn),右擊Node Detail即可查詢?cè)撟髡甙l(fā)表論文的時(shí)間統(tǒng)計(jì)及論文內(nèi)容。在機(jī)構(gòu)合作、國(guó)家地區(qū)合作網(wǎng)絡(luò)中也可運(yùn)用上述功能。
節(jié)點(diǎn)的中介中心性有助于發(fā)現(xiàn)有價(jià)值的、新穎的成果。僅僅有好想法,出于風(fēng)險(xiǎn)最小化和利益最大化考慮,人們會(huì)謹(jǐn)慎行動(dòng)。學(xué)術(shù)中的新發(fā)現(xiàn)往往具備高風(fēng)險(xiǎn),但同行的支持有助于降低這種風(fēng)險(xiǎn),使新的成果產(chǎn)生。如發(fā)現(xiàn)已經(jīng)有學(xué)者在研究類似的問(wèn)題,則同行進(jìn)行同一研究的風(fēng)險(xiǎn)會(huì)顯著降低。具有爭(zhēng)議性的結(jié)果發(fā)表后,往往會(huì)帶來(lái)更多的研究,即對(duì)風(fēng)險(xiǎn)與收益重新審視后,學(xué)者在新環(huán)境下更容易積極行動(dòng)。
克萊因伯格認(rèn)為,文本挖掘的一個(gè)基本問(wèn)題是從隨著時(shí)間連續(xù)到達(dá)的文檔流中提取有意義的結(jié)構(gòu)。電子郵件與新聞報(bào)道是文檔流的自然例證,它們均以出現(xiàn)的主題為特征,在一段時(shí)間內(nèi)強(qiáng)度突然增加,然后逐漸消失。在特定領(lǐng)域中發(fā)表論文的數(shù)量在較長(zhǎng)時(shí)間內(nèi)也表現(xiàn)出類似的現(xiàn)象。文檔流中主題的出現(xiàn)是一種突發(fā)活動(dòng)的信號(hào),隨著某個(gè)特定主題的出現(xiàn),某些特征的頻率會(huì)顯著上升。如果能開發(fā)一種簡(jiǎn)便算法,對(duì)此類突發(fā)活動(dòng)建立數(shù)學(xué)模型,則有可能穩(wěn)健高效地識(shí)別它們,并且有可能為分析底層內(nèi)容提供組織框架。
在CiteSpace中,有兩處可以對(duì)節(jié)點(diǎn)進(jìn)行突發(fā)性檢測(cè):(1)在可視化界面,點(diǎn)擊CitationFrequencyBurst;(2)點(diǎn)擊控制面板Burstness功能區(qū)的Refresh。如果存在具有突發(fā)性特征的節(jié)點(diǎn),則電腦會(huì)將這些節(jié)點(diǎn)標(biāo)注特殊顏色。
共詞分析法最早由法國(guó)文獻(xiàn)計(jì)量學(xué)家Callon提出。其通過(guò)統(tǒng)計(jì)一組詞在同一篇論文中同時(shí)出現(xiàn)的次數(shù),以此為基礎(chǔ),對(duì)這些詞進(jìn)行聚類分析,以發(fā)現(xiàn)這些詞組之間的親疏關(guān)系,進(jìn)而分析論文所涉及學(xué)科領(lǐng)域中主題之間的關(guān)系。如果一對(duì)關(guān)鍵詞在同一篇論文中出現(xiàn)次數(shù)越多,則表明兩者之間距離越近,關(guān)系越密切,學(xué)者對(duì)這兩個(gè)詞所涉及的領(lǐng)域也較為關(guān)注,同時(shí),這些研究主題可能是該領(lǐng)域的研究熱點(diǎn)。
以關(guān)鍵詞分析為例,該方法是對(duì)論文集合中作者與數(shù)據(jù)庫(kù)提供的關(guān)鍵詞進(jìn)行共現(xiàn)分析。在webofscience中,則對(duì)DE與ID所存儲(chǔ)的數(shù)據(jù)進(jìn)行共現(xiàn)分析。在節(jié)點(diǎn)類型中選擇Keyword,在功能區(qū)設(shè)置相關(guān)參數(shù)后,CiteSpace可生成關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。
以術(shù)語(yǔ)共現(xiàn)分析為例,該方法從論文標(biāo)題、關(guān)鍵詞、摘要中提取名詞性術(shù)語(yǔ)后,通過(guò)自然語(yǔ)言處理的過(guò)程形成共詞網(wǎng)絡(luò)。在CiteSpace功能參數(shù)模塊TermTypes選擇NounPhrases,此時(shí)會(huì)彈出part-of-speech.TaggingOpinion對(duì)話框,首次支行時(shí)需要點(diǎn)擊CreatePOSTagS,CiteSpace會(huì)顯示相關(guān)時(shí)間跨度與論文數(shù)量信息,此時(shí)在節(jié)點(diǎn)類型中選擇Term后可創(chuàng)建共現(xiàn)網(wǎng)絡(luò)。
以科學(xué)領(lǐng)域共現(xiàn)分析為例, 該方法涉及wc(webofscienceCategory)與sc(Subject.Category), 兩者是webofscience對(duì)期刊在更加廣闊視野中的科學(xué)分類。wc比sc分類更為細(xì)致,在CiteSpace中,在節(jié)點(diǎn)類型中選擇Category,可建立科學(xué)領(lǐng)域共現(xiàn)網(wǎng)絡(luò)。在共現(xiàn)圖譜中,右擊可選擇節(jié)點(diǎn)細(xì)節(jié)以觀察某一領(lǐng)域研究的時(shí)序特征,也可以對(duì)不同領(lǐng)域發(fā)文突發(fā)性進(jìn)行檢測(cè)。
未來(lái)研究中,知識(shí)圖譜仍在發(fā)展,現(xiàn)實(shí)應(yīng)用對(duì)知識(shí)圖譜技術(shù)提出了眾多挑戰(zhàn)。在知識(shí)表示層面,未來(lái)研究應(yīng)關(guān)注知識(shí)圖譜與規(guī)則等其他知識(shí)表示相聯(lián)合的方式。在知識(shí)獲取層面,未來(lái)研究將關(guān)注如何和降低自動(dòng)化知識(shí)獲取過(guò)程中的成本。在知識(shí)應(yīng)用中層面,未來(lái)研究將關(guān)注增加器學(xué)習(xí)能力,實(shí)現(xiàn)可解釋人工智能等目標(biāo)。