劉 竟 孫 薇 袁 潤(rùn)
(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)
國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究現(xiàn)狀及趨勢(shì)的可視化分析*
劉 竟 孫 薇 袁 潤(rùn)
(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)
選取CNKI數(shù)據(jù)庫(kù)收錄的關(guān)聯(lián)數(shù)據(jù)相關(guān)研究文獻(xiàn),利用社會(huì)網(wǎng)絡(luò)分析法、文獻(xiàn)計(jì)量法對(duì)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者共現(xiàn)和高頻關(guān)鍵詞共現(xiàn)進(jìn)行可視化,在此基礎(chǔ)上對(duì)高頻作者的合著網(wǎng)絡(luò)、中介中心性進(jìn)行分析,對(duì)高頻關(guān)鍵詞詞頻及圖譜、高頻關(guān)鍵詞共詞矩陣、高頻關(guān)鍵詞聚類情況進(jìn)行分析,呈現(xiàn)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)的研究現(xiàn)狀及熱點(diǎn),并基于技術(shù)生命周期理論,嘗試?yán)肔oglet Lab軟件估算國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)各生命周期階段的時(shí)間點(diǎn),對(duì)該領(lǐng)域的發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)。
關(guān)聯(lián)數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析技術(shù)生命周期可視化
從圖書(shū)館自動(dòng)化發(fā)展史看,幾乎每一項(xiàng)新信息技術(shù)的出現(xiàn),都能引起圖書(shū)館界的極大關(guān)注并推動(dòng)圖書(shū)館的管理與服務(wù)升級(jí)。2006年,互聯(lián)網(wǎng)之父Berners-Lee在分析Web發(fā)展與演化的基礎(chǔ)上提出了發(fā)展數(shù)據(jù)網(wǎng)絡(luò)的思想,指出數(shù)據(jù)網(wǎng)絡(luò)的核心和關(guān)鍵是關(guān)聯(lián)數(shù)據(jù)[1]。自主、異類、異構(gòu)和分布的海量數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián)一直是知識(shí)組織和知識(shí)發(fā)現(xiàn)的核心問(wèn)題,關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)為此提供一種輕型、漸增化、可伸縮和可擴(kuò)展的動(dòng)態(tài)機(jī)制,成為推動(dòng)語(yǔ)義網(wǎng)發(fā)展的重要力量之一[2]。2008年12月劉煒在上海召開(kāi)的“數(shù)字環(huán)境下圖書(shū)館前沿問(wèn)題研討班”上對(duì)關(guān)聯(lián)數(shù)據(jù)的概念、內(nèi)涵、技術(shù)實(shí)現(xiàn)做了引進(jìn)介紹[3],引起了國(guó)內(nèi)研究者對(duì)關(guān)聯(lián)數(shù)據(jù)的重視和興趣。從已發(fā)表文獻(xiàn)角度看,國(guó)內(nèi)已有一些對(duì)關(guān)聯(lián)數(shù)據(jù)相關(guān)文獻(xiàn)的定量分析,研究?jī)?nèi)容主要集中在對(duì)年載文量、文獻(xiàn)來(lái)源、研究機(jī)構(gòu)及被引頻次的統(tǒng)計(jì),而對(duì)作者間合著關(guān)系及發(fā)展趨勢(shì)的定量研究相對(duì)較少。
本文主要利用社會(huì)網(wǎng)絡(luò)分析軟件Ucinet和社會(huì)科學(xué)統(tǒng)計(jì)軟件SPSS繪制知識(shí)圖譜和聚類樹(shù)狀圖,揭示國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者合著關(guān)系及研究熱點(diǎn)。同時(shí),以Logistic模型為基礎(chǔ),構(gòu)建技術(shù)生命周期S曲線,嘗試對(duì)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)未來(lái)的發(fā)展進(jìn)行定量預(yù)測(cè),以期為本領(lǐng)域后續(xù)研究提供參考。
圖1 高頻作者合著網(wǎng)絡(luò)圖譜
2.1 數(shù)據(jù)來(lái)源
本文的數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)(簡(jiǎn)稱CNKI,包括期刊論文、學(xué)位論文及會(huì)議論文),以“主題”作為“檢索項(xiàng)”,檢索式為:主題=“關(guān)聯(lián)數(shù)據(jù)”O(jiān)R主題=“Linked data”,檢索年限為2008~2014年(檢索時(shí)間為2015年04月15日)。為確保查準(zhǔn)率,將研究方向限定在:計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、圖書(shū)情報(bào)與數(shù)字圖書(shū)館、自動(dòng)化技術(shù)、互聯(lián)網(wǎng)技術(shù)四個(gè)領(lǐng)域,在檢索結(jié)果中剔除重復(fù)和非相關(guān)文獻(xiàn)后得到有效文獻(xiàn)191篇,其中92篇被中文社會(huì)科學(xué)引文索引(CSSCI)收錄。
2.2 研究方法
本文運(yùn)用社會(huì)網(wǎng)絡(luò)分析法生成作者合著網(wǎng)絡(luò)圖譜來(lái)分析關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的作者合著關(guān)系,運(yùn)用文獻(xiàn)計(jì)量法、關(guān)鍵詞詞頻統(tǒng)計(jì)法、關(guān)鍵詞共詞分析法對(duì)國(guó)內(nèi)研究熱點(diǎn)進(jìn)行歸納,并結(jié)合技術(shù)生命周期S曲線對(duì)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)未來(lái)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)。
3.1 高頻作者合著網(wǎng)絡(luò)分析
利用Ucinet軟件集成的可視化工具Netdraw,對(duì)作者共現(xiàn)矩陣進(jìn)行處理,得到國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的高頻作者合著網(wǎng)絡(luò)圖譜,如圖1所示。圖中每個(gè)節(jié)點(diǎn)代表一個(gè)作者,節(jié)點(diǎn)大小代表了他們?cè)诰W(wǎng)絡(luò)中的中心度,節(jié)點(diǎn)之間的連線粗細(xì)可以表示作者兩兩之間的合作強(qiáng)度;另外,通過(guò)K-cores分析,可將所有節(jié)點(diǎn)進(jìn)行形狀的分類。由圖1可知:
(1)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域已經(jīng)形成了兩個(gè)相對(duì)穩(wěn)定的合著團(tuán)體,用圓形節(jié)點(diǎn)表示。上海科學(xué)技術(shù)情報(bào)研究所的劉煒、夏翠娟、張春景對(duì)“大”關(guān)聯(lián)數(shù)據(jù)和“關(guān)聯(lián)”大數(shù)據(jù)兩類不同應(yīng)用進(jìn)行了區(qū)分,對(duì)目前采用大數(shù)據(jù)技術(shù)發(fā)布關(guān)聯(lián)數(shù)據(jù)的方法和路徑進(jìn)行了梳理[5],并與廣東外語(yǔ)外貿(mào)大學(xué)圖書(shū)館的趙亮、朱雯晶合作,詳細(xì)介紹了如何利用開(kāi)源CMS平臺(tái)Drupal實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)[6];中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所的方安、洪娜、王軍輝借用UMLS的語(yǔ)義網(wǎng)絡(luò)構(gòu)建頂層本體,通過(guò)細(xì)化語(yǔ)義關(guān)系將疾病與其相關(guān)的知識(shí)關(guān)聯(lián),構(gòu)建了疾病與癥狀、檢查、藥物、醫(yī)療器械之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)了疾病知識(shí)的整合[7],并與四川大學(xué)公共管理學(xué)院的范煒合作,對(duì)當(dāng)前RDF可視化工具進(jìn)行調(diào)研,利用RelFinder構(gòu)建了基于生物醫(yī)學(xué)關(guān)聯(lián)數(shù)據(jù)的發(fā)現(xiàn)關(guān)系系統(tǒng)[8]。其中范煒、劉煒、夏翠娟、張春景在團(tuán)體中節(jié)點(diǎn)最大,即網(wǎng)絡(luò)中心度最高。除了與團(tuán)隊(duì)內(nèi)部合作外,他們還分別連接了鄒慶和錢(qián)國(guó)富,是本領(lǐng)域位于結(jié)構(gòu)洞位置的人。
(2)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域多數(shù)合著團(tuán)體呈現(xiàn)小團(tuán)體分散分布,用方形節(jié)點(diǎn)表示。圖中4個(gè)三人合著團(tuán)體中,張艷俠節(jié)點(diǎn)最大,即網(wǎng)絡(luò)中心度最高。除了與團(tuán)隊(duì)內(nèi)部合作外,張艷俠起到了連接畢強(qiáng)和團(tuán)隊(duì)內(nèi)其他成員的作用,是團(tuán)隊(duì)內(nèi)的核心著者。
(3)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域缺乏團(tuán)隊(duì)間合作。利用Ucinet對(duì)上述合著網(wǎng)絡(luò)進(jìn)行定量分析,網(wǎng)絡(luò)密度為0.0 807,結(jié)合圖1可見(jiàn),合著團(tuán)體間沒(méi)有連線,即合著團(tuán)隊(duì)間缺乏交流,不利于知識(shí)的深層次構(gòu)建。
3.2 高頻作者中介中心性分析
中介中心性是社會(huì)網(wǎng)絡(luò)分析中的重點(diǎn)之一,它反映了行動(dòng)者在其社會(huì)網(wǎng)絡(luò)中所處的地位及權(quán)力影響。中介中心性的測(cè)量根據(jù)的是該點(diǎn)在多大程度上位于圖中其它點(diǎn)的“中間”,這樣的節(jié)點(diǎn)具有“經(jīng)紀(jì)人”或“守門(mén)人”的作用[9]。因此,所測(cè)量出來(lái)的中心度可以揭示行動(dòng)者對(duì)資源控制的程度。利用Ucinet對(duì)高頻作者進(jìn)行中介中心性測(cè)度,得到排名前10的作者,如表1所示。由表1可知:
(1)中介中心性大于0的作者有7位,其中范煒、劉煒、夏翠娟、張春景為圖1中由圓形節(jié)點(diǎn)表示的合著團(tuán)體中的作者。由此可見(jiàn),位于合著團(tuán)體中的作者中介中心性相對(duì)較高,即掌握更多的學(xué)術(shù)資源,是連接其他作者的關(guān)鍵人物。
(2)中介中心性大于0.1的作者僅有范煒、張春俠兩位。某作者中介中心性越高,說(shuō)明該作者越多地占據(jù)資源和信息流通的關(guān)鍵位置,是本領(lǐng)域位于結(jié)構(gòu)洞位置的人。通過(guò)上述計(jì)算可知,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域位于結(jié)構(gòu)洞位置承擔(dān)橋梁作用的作者相對(duì)較少,不利于學(xué)科的均衡發(fā)展。
綜上,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者間尚未形成一支成熟的合作團(tuán)隊(duì),研究成果的共享僅局限于很小的范圍內(nèi)。在未來(lái)的發(fā)展中,2~3人的合著小團(tuán)體間應(yīng)加強(qiáng)團(tuán)隊(duì)間合作;處于中介位置的作者如范煒、張春俠應(yīng)進(jìn)一步發(fā)揮橋梁作用,推進(jìn)整個(gè)網(wǎng)絡(luò)的聯(lián)通,促進(jìn)作者間的交流與合作。
4.1 高頻關(guān)鍵詞詞頻及圖譜分析
關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語(yǔ)言詞匯。某個(gè)學(xué)術(shù)研究領(lǐng)域內(nèi)學(xué)術(shù)研究成果關(guān)鍵詞的集合可以揭示研究成果的總體內(nèi)容特征、研究?jī)?nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等,利用詞頻進(jìn)行情報(bào)分析研究可以對(duì)某些問(wèn)題進(jìn)行簡(jiǎn)單、明了的分析預(yù)測(cè),且結(jié)論較為可靠[10]。
本文對(duì)CNKI收錄的191篇相關(guān)論文的502個(gè)關(guān)鍵詞進(jìn)行歸納整理,去除不能表達(dá)論文主題概念的詞匯、合并同義詞以及下位詞,得到出現(xiàn)頻率大于等于4的23個(gè)高頻詞匯,如表2所示??梢钥闯?,關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義網(wǎng)、圖書(shū)館、數(shù)據(jù)網(wǎng)絡(luò)、RDF、關(guān)聯(lián)數(shù)、知識(shí)組織等是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的核心關(guān)鍵詞,是目前該領(lǐng)域的研究熱點(diǎn)。
表2 高頻關(guān)鍵詞詞頻統(tǒng)計(jì)
同時(shí)利用Ucinet繪制高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,結(jié)果如圖2所示,從圖中可見(jiàn),位于網(wǎng)絡(luò)核心位置且連線較粗的詞匯為:關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義網(wǎng)、圖書(shū)館、數(shù)據(jù)網(wǎng)絡(luò)、知識(shí)組織、RDF等,其結(jié)果與詞頻統(tǒng)計(jì)結(jié)果大致相符,進(jìn)一步驗(yàn)證了上述關(guān)鍵詞是本領(lǐng)域現(xiàn)階段的研究熱點(diǎn)。
4.2 高頻關(guān)鍵詞共詞矩陣分析
關(guān)鍵詞共詞矩陣分析法主要是對(duì)同一篇文獻(xiàn)詞匯對(duì)或名詞短語(yǔ)共同出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),揭示這些詞之間的親疏關(guān)系,進(jìn)而分析它們所代表的學(xué)科和主題的結(jié)構(gòu)變化[11]。一般認(rèn)為,詞匯對(duì)在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,則代表這兩個(gè)主題的關(guān)系越緊密。由此,統(tǒng)計(jì)一組文獻(xiàn)的關(guān)鍵詞兩兩之間在同一篇文獻(xiàn)出現(xiàn)的次數(shù),便可形成一個(gè)由這些詞匯對(duì)關(guān)聯(lián)所組成的共詞矩陣。
本文利用SATI構(gòu)建23*23的高頻關(guān)鍵詞共詞矩陣,表3為共詞矩陣的部分內(nèi)容。從表3中可以看出:關(guān)聯(lián)數(shù)據(jù)與語(yǔ)義網(wǎng)、圖書(shū)館、數(shù)據(jù)網(wǎng)絡(luò)、RDF、知識(shí)組織、本體、D2R、數(shù)字圖書(shū)館等的共現(xiàn)頻次較高;語(yǔ)義網(wǎng)與數(shù)據(jù)網(wǎng)絡(luò)、本體、圖書(shū)館、RDF、關(guān)聯(lián)數(shù)等的共現(xiàn)頻次較高;圖書(shū)館與數(shù)據(jù)網(wǎng)絡(luò)、知識(shí)組織之間也有較高的共現(xiàn)頻率。說(shuō)明這些關(guān)鍵詞之間有較高的緊密度,也說(shuō)明了其組合研究是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域論文的選題重點(diǎn)和研究熱點(diǎn)。
4.3 高頻關(guān)鍵詞聚類分析
聚類分析是根據(jù)研究對(duì)象的特征,按照物以類聚的原則將其進(jìn)行歸類的一種分析方法。通過(guò)聚類分析,可以實(shí)現(xiàn)組內(nèi)的研究對(duì)象具有較高的相似性,而組間的數(shù)據(jù)之間具有較大的差異性,其基本思想是認(rèn)為研究對(duì)象之間存在程度不同的親疏關(guān)系[12]。
將高頻關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入SPSS19.0進(jìn)行層次聚類分析得到高頻關(guān)鍵詞的聚類分析樹(shù)狀圖,如圖3所示。聚類結(jié)果顯示,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在下面五個(gè)部分:
圖2 高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
表3 高頻關(guān)鍵詞共詞矩陣(部分)
圖3 高頻詞層次聚類樹(shù)狀圖譜
(1)本體與語(yǔ)義互聯(lián)。包括關(guān)鍵詞本體、語(yǔ)義互聯(lián),其研究主要集中在基于知識(shí)地圖的多領(lǐng)域本體語(yǔ)義互聯(lián)研究、數(shù)字資源語(yǔ)義互聯(lián)研究、本體系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。以數(shù)字信息資源組織的多領(lǐng)域本體語(yǔ)義互聯(lián)為切入點(diǎn),通過(guò)對(duì)國(guó)內(nèi)外本體映射的研究現(xiàn)狀及本體映射聚類的分析,構(gòu)建基于知識(shí)地圖的多領(lǐng)域本體語(yǔ)義互聯(lián)框架模型。
(2)數(shù)據(jù)網(wǎng)絡(luò)體系構(gòu)建與關(guān)聯(lián)開(kāi)放數(shù)據(jù)。包括關(guān)鍵詞數(shù)據(jù)網(wǎng)絡(luò)、關(guān)聯(lián)開(kāi)放數(shù)據(jù)、科學(xué)數(shù)據(jù)、知識(shí)組織、語(yǔ)義網(wǎng),其研究主要集中在圖書(shū)館數(shù)據(jù)網(wǎng)絡(luò)體系的構(gòu)建及安全保障、關(guān)聯(lián)開(kāi)放數(shù)據(jù)關(guān)鍵技術(shù)、語(yǔ)義網(wǎng)環(huán)境下知識(shí)組織系統(tǒng)的研究與構(gòu)建。采用語(yǔ)義網(wǎng)技術(shù),對(duì)語(yǔ)義網(wǎng)知識(shí)組織系統(tǒng)進(jìn)行研究和分析,提出語(yǔ)義網(wǎng)知識(shí)組織系統(tǒng)的構(gòu)架,建立一個(gè)語(yǔ)義網(wǎng)知識(shí)組織系統(tǒng)原型,同時(shí)對(duì)現(xiàn)有關(guān)聯(lián)數(shù)據(jù)進(jìn)一步綠色化,用工程化方法來(lái)生產(chǎn)和維護(hù)綠色關(guān)聯(lián)數(shù)據(jù)。
(3)關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息聚合研究。包括關(guān)鍵詞圖書(shū)館、信息聚合、關(guān)聯(lián)數(shù)據(jù),其研究主要集中在構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息聚合模型,從數(shù)據(jù)層、聚合層和應(yīng)用層進(jìn)行研究,實(shí)現(xiàn)圖書(shū)館的內(nèi)部資源和外部數(shù)據(jù)網(wǎng)絡(luò)鏈接,擴(kuò)展資源范圍,改進(jìn)用戶服務(wù)。
(4)網(wǎng)絡(luò)信息資源組織體系與高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的構(gòu)建。包括關(guān)鍵詞RDF、URI、FRBR、SPARQL、RDA、開(kāi)放數(shù)據(jù)、元數(shù)據(jù)和知識(shí)發(fā)現(xiàn),其研究主要集中在探討FRBR理念應(yīng)用于網(wǎng)絡(luò)信息資源組織涉及的基本理論、規(guī)范控制、方法技術(shù)及應(yīng)用評(píng)價(jià),構(gòu)建基于FRBR的網(wǎng)絡(luò)信息資源組織體系,以及從學(xué)科知識(shí)規(guī)劃、學(xué)科知識(shí)元數(shù)據(jù)采集、學(xué)科知識(shí)組織與存儲(chǔ)、學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)門(mén)戶四個(gè)方面,結(jié)合元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)詳細(xì)闡述高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的建設(shè)方案。
(5)關(guān)聯(lián)數(shù)據(jù)環(huán)境下數(shù)據(jù)溯源及DBpedia分析。包括關(guān)鍵詞語(yǔ)義Web、數(shù)據(jù)溯源、DBpedia,其研究主要集中在分析W3C數(shù)據(jù)溯源推薦標(biāo)準(zhǔn)PROV的基礎(chǔ)上,探討其在語(yǔ)義Web架構(gòu)中的作用和地位,以及在數(shù)據(jù)關(guān)聯(lián)使用和推廣上所面臨的挑戰(zhàn);在基于關(guān)聯(lián)數(shù)據(jù)的基本原則和發(fā)布方法上,分析介紹DBpedia的實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)對(duì)自由文本進(jìn)行的結(jié)構(gòu)化數(shù)據(jù)抽取和RDF表達(dá),并基于URI參引、SPARQL查詢和RDF文件轉(zhuǎn)存等多種方法,實(shí)現(xiàn)多樣化的Web數(shù)據(jù)獲取以及和眾多數(shù)據(jù)集之間的關(guān)聯(lián)。
生命周期的概念起源于自然生態(tài)系統(tǒng),其基本內(nèi)涵可以概括為:任何事物都具有萌芽、生長(zhǎng)、成熟、直到衰老的一個(gè)周期過(guò)程。Anderson和Tushman把生命周期理論應(yīng)用于技術(shù)領(lǐng)域,認(rèn)為新技術(shù)產(chǎn)生于技術(shù)非連續(xù)狀態(tài),經(jīng)過(guò)技術(shù)間的激烈競(jìng)爭(zhēng)產(chǎn)生主導(dǎo)設(shè)計(jì)范式,并隨后進(jìn)入漸進(jìn)變革階段,直到一個(gè)新的非連續(xù)技術(shù)狀態(tài)的出現(xiàn)[13]。技術(shù)生命周期理論認(rèn)為,一項(xiàng)技術(shù)在其從進(jìn)入市場(chǎng)到退出市場(chǎng)的生命周期過(guò)程中,一般劃分為4個(gè)階段,即萌芽期、成長(zhǎng)期、成熟期和衰退期。研究者了解所研究領(lǐng)域處于技術(shù)生命周期的何種階段,有助于把握該領(lǐng)域的整體發(fā)展趨勢(shì)。
圖4 關(guān)聯(lián)數(shù)據(jù)研究生命周期S曲線
以上述的推算為基礎(chǔ),利用Loglet Lab軟件預(yù)測(cè)估算關(guān)聯(lián)數(shù)據(jù)領(lǐng)域各生命周期階段的時(shí)間點(diǎn),并以相關(guān)論文數(shù)量為縱軸,年份為橫軸,繪制生成關(guān)聯(lián)數(shù)據(jù)研究的時(shí)間-論文數(shù)S曲線發(fā)展趨勢(shì)圖,如圖4所示。圖中星號(hào)點(diǎn)表示實(shí)際的發(fā)文數(shù)量,實(shí)線表示預(yù)測(cè)的發(fā)文數(shù)量。由圖4可知:
(1)國(guó)內(nèi)對(duì)關(guān)聯(lián)數(shù)據(jù)的研究始于2008年,2012年進(jìn)入成長(zhǎng)期,發(fā)文量為54,即萌芽期與成長(zhǎng)期的拐點(diǎn)坐標(biāo)為(2012,54)。
(2)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究預(yù)計(jì)于2018年開(kāi)始步入成熟期,即反曲點(diǎn)坐標(biāo)為(2018,185)。2018年起,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究開(kāi)始進(jìn)入高速發(fā)展階段,發(fā)展速率將達(dá)到最大。
(3)國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究預(yù)計(jì)于2024年開(kāi)始步入衰退期,拐點(diǎn)坐標(biāo)為(2024,310)。2028年發(fā)文量將達(dá)到峰值,即(2028,325)。從2008年引入期算起,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究生命周期預(yù)計(jì)約為20年。
通過(guò)上述分析,本文可以得出以下結(jié)論:
(1)通過(guò)高頻作者合著網(wǎng)絡(luò)圖可知,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域已經(jīng)形成少量較為穩(wěn)定的合著團(tuán)體,但多數(shù)合著小團(tuán)體呈現(xiàn)分散分布;從網(wǎng)絡(luò)密度分析可知,國(guó)內(nèi)在關(guān)聯(lián)數(shù)據(jù)領(lǐng)域還沒(méi)有形成一支成熟的研究隊(duì)伍,缺乏團(tuán)隊(duì)間合作;從作者合著中介中心性分析可知,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域位于結(jié)構(gòu)洞位置承擔(dān)橋梁作用的作者較少,不利于學(xué)科均衡發(fā)展。
(2)通過(guò)高頻關(guān)鍵詞詞頻分析、共詞分析、聚類分析可知,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在:本體與語(yǔ)義互聯(lián)、數(shù)據(jù)網(wǎng)絡(luò)體系構(gòu)建與關(guān)聯(lián)開(kāi)放數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館信息聚合研究、網(wǎng)絡(luò)信息資源組織體系與高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的構(gòu)建、關(guān)聯(lián)數(shù)據(jù)環(huán)境下數(shù)據(jù)溯源及DBpedia分析等方面。
(3)通過(guò)技術(shù)生命周期S曲線的預(yù)測(cè)結(jié)果可知,關(guān)聯(lián)數(shù)據(jù)在國(guó)內(nèi)的發(fā)展時(shí)間約為20年,2008年引入我國(guó)后,預(yù)計(jì)2018年步入成熟,拐點(diǎn)坐標(biāo)約為(2018,185),從2024年起,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)的研究將開(kāi)始步入衰退,2028年達(dá)到峰值,坐標(biāo)約為(2028,325)。
本文對(duì)關(guān)聯(lián)數(shù)據(jù)研究的可視化,主要以國(guó)內(nèi)發(fā)表的各類研究論文為基礎(chǔ),討論該領(lǐng)域的研究團(tuán)體、研究現(xiàn)狀和研究熱點(diǎn),并大致估算其生命周期的各階段值,以期為今后的研究提供借鑒,并達(dá)到知識(shí)交流的目的。
[1]Berners-Lee T.Linked data[EB/OL].[2015-03-08].http:// www.w3.org/Designissues/LinkedData.html.
[2]沈志宏,張曉林.關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用現(xiàn)狀綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(11):1-9.
[3]劉煒.關(guān)聯(lián)數(shù)據(jù)概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書(shū)館學(xué)報(bào),2011(2):5-12.
[4]劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書(shū)情報(bào)學(xué)為例[J].信息資源管理學(xué)報(bào),2012(1):50-58.
[5]劉煒,夏翠娟,張春景.大數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù):正在到來(lái)的數(shù)據(jù)技術(shù)革命[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(4):2-9.
[6]夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(1):49-57.
[7]李亞子,錢(qián)慶,劉崢,等.基于UMLS的疾病知識(shí)整合框架研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(2):34-41.
[8]洪娜,錢(qián)慶,范煒,等.關(guān)聯(lián)數(shù)據(jù)中關(guān)系發(fā)現(xiàn)的可視化實(shí)踐[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(2):11-17.
[9]李亮,朱慶華.社會(huì)網(wǎng)絡(luò)分析方法在合著分析中的實(shí)證研究[J].情報(bào)科學(xué),2008(4):549-550.
[10]鞏永強(qiáng),劉莉.基于詞頻分析法的情報(bào)學(xué)研究熱點(diǎn)透析[J].圖書(shū)館學(xué)研究,2011(13):9-13.
[11]儲(chǔ)節(jié)旺,郭春俠.共詞分析法的基本原理及EXCEL實(shí)現(xiàn)[J].情報(bào)科學(xué),2011(6):931-934.
[12]儲(chǔ)節(jié)旺,閆土濤.知識(shí)管理學(xué)科體系研究(下)——聚類分析和多維尺度分析[J].情報(bào)理論與實(shí)踐,2012(3):5-9.
[13]Anderson P,Tushman M L.Technological discontinuities and dominant designs:A cyclical model of technological change[J].Administrative Science Quarterly,1990(4):604-633.
(責(zé)任編校駱雪松)
Visualization Analysis of the Progress and Trends in Linked Data Research in China
Liu Jing,Sun Wei,Yuan Run
Institute of Science and Technology Information,Jiangsu University,Zhenjiang 212013,China
Selecting research literature in the field of the linked data from the CNKI database,this study adopts social network analysis and the bibliometric method to analyze and visualize the co-occurrence authors and high-frequency key words.Based on these,this paper analyzes the co-authorship network and betweeness centrality of high-frequent authors, as well as the word frequency and map,matrix and clustering of high-frequent key words, presenting the research status and high points at home.Meanwhile,the study,with the aid of Loglet Lab,also attempts to estimate the timing of each phase of the life cycle to make a prediction of the developing trend in the field of linked data study.
linked data;social network analysis;technology life cycle;visualization
G250
劉竟,女,1980年生,博士,副教授,研究方向?yàn)樾畔⒔M織與管理,發(fā)表論文10余篇,出版專著1部;孫薇,女,1989年生,2013級(jí)圖書(shū)情報(bào)與檔案管理專業(yè)碩士研究生,研究方向?yàn)樾畔⒔M織與管理;袁潤(rùn),男,1965年生,博士,教授,研究方向?yàn)閿?shù)字圖書(shū)館、情報(bào)技術(shù),發(fā)表論文80余篇。
*本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“歐美圖書(shū)館學(xué)博士學(xué)位研究課題分析”(項(xiàng)目編號(hào):09CTQ006)的研究成果之一