李新龍,劉巖,何麗云,劉保延,張艷宏
?
知識圖譜研究概況及其在中醫(yī)藥領(lǐng)域的應(yīng)用
李新龍,劉巖,何麗云,劉保延,張艷宏
中國中醫(yī)科學(xué)院,北京 100700
作為科學(xué)計量學(xué)和信息計量學(xué)的新發(fā)展方向,知識圖譜技術(shù)已經(jīng)廣泛應(yīng)用到金融、工業(yè)、醫(yī)學(xué)等領(lǐng)域,成為真實世界研究中的熱點問題。本文就知識圖譜的概念和特點、繪制流程、現(xiàn)有軟件及其在中醫(yī)藥領(lǐng)域的應(yīng)用現(xiàn)狀、發(fā)展前景等進行文獻梳理,以期為中醫(yī)藥領(lǐng)域知識圖譜相關(guān)研究提供參考。
知識圖譜;中醫(yī)藥;應(yīng)用前景;綜述
隨著2012年谷歌第一版知識圖譜的發(fā)布,特定領(lǐng)域的知識圖譜構(gòu)建成為真實世界研究中的熱點問題。從搜索引擎優(yōu)化,到新藥發(fā)現(xiàn),知識圖譜在學(xué)術(shù)界掀起了一股熱潮,并滲透到金融、工業(yè)和醫(yī)學(xué)等領(lǐng)域。這種以科學(xué)學(xué)為基礎(chǔ),涉及應(yīng)用數(shù)學(xué)、信息學(xué)及計算機學(xué)等多學(xué)科的可視化技術(shù),成為科學(xué)計量學(xué)和信息計量學(xué)的新發(fā)展方向。本文就知識圖譜的概念、特點及其在中醫(yī)藥領(lǐng)域的應(yīng)用現(xiàn)狀、前景進行梳理,以期為中醫(yī)藥領(lǐng)域知識圖譜相關(guān)研究提供參考。
1.1 知識圖譜的概念
在知識圖譜的定義上,陳悅等[1-2]從其功能角度進行闡釋,認為知識圖譜能夠可視化地描述人類隨時間擁有的知識資源及其載體,繪制、挖掘、分析和顯示科學(xué)技術(shù)知識以及它們之間的相互聯(lián)系,在組織內(nèi)創(chuàng)造知識共享的環(huán)境以促進科學(xué)技術(shù)研究的合作和深入。楊國立等[3]從理論和方法層面,將其定義為把應(yīng)用數(shù)學(xué)、計算機科學(xué)、科學(xué)學(xué)、信息科學(xué)等學(xué)科的理論和方法與科學(xué)計量學(xué)引文分析、共現(xiàn)分析、社會網(wǎng)絡(luò)分析等方法結(jié)合,用可視化的圖譜形象地揭示科學(xué)發(fā)展進程和結(jié)構(gòu)關(guān)系的一種研究方法,屬于科學(xué)計量學(xué)的范疇。
楊思洛等[4]提出知識圖譜有廣義與狹義之分,廣義上可包括生物的基因圖譜、教育教學(xué)中的認知地圖、探索太空的天體圖、描繪地形的地理信息系統(tǒng)(GIS)圖、模擬人腦的神經(jīng)網(wǎng)絡(luò)圖、各種金屬圖譜等;狹義的知識圖譜主要是運用文獻計量學(xué)方法,通過文獻知識單元分析來可視化科學(xué)知識的結(jié)構(gòu)、關(guān)系與演化過程,包括“科學(xué)圖”“文獻計量圖”“文獻圖”“知識圖譜”等。
簡言之,知識圖譜是隨著計算機技術(shù)的發(fā)展,應(yīng)用數(shù)學(xué)算法來簡化知識單元結(jié)構(gòu)以達到可視化知識結(jié)構(gòu)關(guān)系的一種方法,是顯示科學(xué)知識的發(fā)展進程與結(jié)構(gòu)關(guān)系的一種圖形,是一種有效的知識管理工具。
1.2 研究對象
知識圖譜所描繪的對象主要包括:①從事科學(xué)技術(shù)活動和作為知識載體的人,包括科學(xué)家、技術(shù)專家、項目組、實踐團體或某一知識領(lǐng)域共同體;②顯性或編碼化的知識,如論文、專利、所學(xué)課程、數(shù)據(jù)庫等;③過程或方法,包括研究問題和解決問題的過程或方法、組織的業(yè)務(wù)流程,以及相關(guān)的知識投入等。
知識圖譜主要源于三大領(lǐng)域:①計算機科學(xué)領(lǐng)域的數(shù)據(jù)、信息、知識與知識域可視化研究;②圖書情報領(lǐng)域的引文分析可視化、知識地圖和知識網(wǎng)絡(luò)等研究;③復(fù)雜網(wǎng)絡(luò)系統(tǒng)和社會網(wǎng)絡(luò)分析的研究。上述領(lǐng)域的研究方向和內(nèi)容正在走向融合[5]。
參考國內(nèi)外已有研究,目前知識圖譜的繪制主要包括以下幾個版塊[4,6-7]。
數(shù)據(jù)檢索:繪制知識圖譜的基礎(chǔ),其數(shù)據(jù)源在傳統(tǒng)文獻數(shù)據(jù)庫的基礎(chǔ)上逐漸擴展到出版商、機構(gòu)聯(lián)盟等機構(gòu)網(wǎng)站的網(wǎng)絡(luò)日志、用戶記錄、點擊流數(shù)據(jù)等。
數(shù)據(jù)清洗:即對數(shù)據(jù)的預(yù)處理,包括查重、勘誤等,進行歷時或分時段對比分析時需要對數(shù)據(jù)進行分段處理;若樣本數(shù)據(jù)過大或分析目的不同,則需要進行有代表性的抽取。
構(gòu)建關(guān)系矩陣:選擇要分析的知識單元,如關(guān)鍵詞、題名、作者等,構(gòu)建其相互關(guān)系,常用方法有共詞分析、共引分析、共作者分析、書目耦合分析、期刊耦合分析等。
數(shù)據(jù)標(biāo)準(zhǔn)化:根據(jù)數(shù)據(jù)間的相似度對數(shù)據(jù)進行標(biāo)準(zhǔn)化,常用方法有集合論方法(Cosine、Pearson、Spearman、Ochiai、Jaccard指數(shù)等)和概率論方法(合力指數(shù)、概率親和力指數(shù)等)。
數(shù)據(jù)簡化:運用因子分析、多為尺度分析、自組織映射圖、尋徑網(wǎng)絡(luò)圖譜、聚類分析、潛在語義分析、三角法等方法處理數(shù)據(jù)以更好地展示各數(shù)據(jù)單元。
可視化展示:是知識圖譜構(gòu)建過程中最重要的一環(huán),通過運用不同的算法,調(diào)整相關(guān)參數(shù),構(gòu)建整個圖譜??赏ㄟ^不同模擬實現(xiàn)可視化,如幾何圖、戰(zhàn)略圖、沖積圖、主題河圖、地形圖、星團圖、簸幅圖等。
圖譜解讀:采用歷時分析、突變檢測、空間分析、網(wǎng)絡(luò)分析等方法對圖譜進行解讀,同時需要結(jié)合研究者的經(jīng)驗、知識、學(xué)術(shù)背景、學(xué)術(shù)功底等。
目前可用于知識圖譜繪制的軟件非常豐富,根據(jù)主要功能可分為2類[4]:一類為通用軟件,如SPSS、社會網(wǎng)絡(luò)分析軟件Ucinet和Pajek、詞頻分析軟件Wordsmith Tools和GIS相關(guān)軟件;另一類為繪制知識圖譜的專用軟件,如CiteSpace、Bibexcel、Gephi、VOSviewer、VantagePoint、Network Workbench Tool、NWB、Sci2 Tool、In-SPRIE、SciMAT、Histcite、GeoTime、ColPalRed、Guess、Leydesdorff、Jigsaw、Carrot等。分析各軟件的特點[6,8-9]可以看出,隨著知識圖譜的繪制軟件越來越多,一方面其支持的數(shù)據(jù)格式愈發(fā)多樣,相互之間的兼容性也逐步增強;另一方面,在可視化效果方面也日趨完善,知識展示的真實度、準(zhǔn)確度逐漸提高。詳見表1。
表1 常用知識圖譜繪制軟件比較
目前知識圖譜的研究中,國外學(xué)者主要集中在2個研究方向[10]:部分偏于技術(shù)研究,包括可視化工具和算法的開發(fā);部分以應(yīng)用為主,利用科學(xué)計量學(xué)理論及相關(guān)方法、知識圖譜軟件等進行分析研究。國內(nèi)研究也可分為2個方向:部分以科學(xué)計量學(xué)為理論基礎(chǔ),利用可視化方法研究科學(xué)學(xué)與管理學(xué)、科學(xué)技術(shù)合作等領(lǐng)域;部分以電子資源數(shù)據(jù)庫為數(shù)據(jù)源,通過可視化方式展示某一學(xué)科的研究前沿和發(fā)展動向。
4.1 應(yīng)用現(xiàn)狀
醫(yī)學(xué)領(lǐng)域各學(xué)科中采用知識圖譜理論與方法進行的研究尚處于起步階段,中醫(yī)藥領(lǐng)域已有部分學(xué)者開展了相關(guān)研究。
在學(xué)科層面,趙蓉英等[11]以Web of Science為數(shù)據(jù)來源,運用CiteSpace對中醫(yī)研究領(lǐng)域的研究熱點進行了可視化探索。徐浩等[12]以我國醫(yī)藥衛(wèi)生領(lǐng)域中文核心期刊文獻為數(shù)據(jù)來源,對我國中醫(yī)學(xué)科交叉領(lǐng)域的研究熱點進行了可視化分析,但研究僅限于中醫(yī)學(xué)與醫(yī)藥衛(wèi)生領(lǐng)域之間的合作。楊秦等[13]采用共詞分析及社會網(wǎng)絡(luò)方法對中醫(yī)外科瘡瘍領(lǐng)域的研究主題及分布進行了探索。
具體在疾病方面,譚火媛等[14]基于中國知識資源總庫(CNKI)收錄的近10年中醫(yī)藥治療高血壓相關(guān)文獻,對前沿與熱點研究進行了可視化分析。王淑斌等[15]對中西醫(yī)治療2型糖尿病的國內(nèi)外研究進行了系統(tǒng)梳理。在證候方面,劉俊麗等[16]采用文本挖掘技術(shù),通過數(shù)據(jù)清洗、實體抽取、構(gòu)建共詞矩陣并采用Ucinet軟件繪制乙型肝炎熱點研究知識圖譜,分析了子模塊中的中醫(yī)證候描述及疾病名稱。秦義等[17-18]基于CiteSpace軟件對氣虛證、血瘀證證候診斷標(biāo)準(zhǔn)的相關(guān)研究進行了可視化分析。在中藥材方面,郭棟等[19]通過關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)和聚類圖對中藥枸杞的育種、種植、采收、加工、儲存等5個領(lǐng)域的研究進行了熱點分析。在治療措施方面,李曌嬙等[20]對針灸治療腰椎間盤突出癥常用腧穴的演變過程及施穴治療的變遷進行了可視化分析,胡松潔等[21]運用Ucinet軟件對“五行音樂”療法的發(fā)展脈絡(luò)進行了梳理。
此外,張靜[22]基于CNKI核心期刊文獻關(guān)鍵詞,探討了中醫(yī)藥專業(yè)人才培養(yǎng)熱點主題。陳姍姍等[23]對中醫(yī)藥傳播發(fā)展的研究文獻進行了可視化分析,榮光等[24]基于中醫(yī)電子病歷研究領(lǐng)域的相關(guān)文獻,構(gòu)建了該領(lǐng)域的研究者、研究機構(gòu)、關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)。
上述研究主要集中在不同領(lǐng)域的研究現(xiàn)狀及熱點分析,多以期刊文獻為數(shù)據(jù)來源,多采用CiteSpace軟件構(gòu)建研究者、研究機構(gòu)、關(guān)鍵詞等信息的共現(xiàn)圖和聚類圖,從不同側(cè)面宏觀解釋了中醫(yī)學(xué)信息的整體結(jié)構(gòu)特點。但針對特定研究目標(biāo),尚未形成一套明確的建模策略及技術(shù),導(dǎo)致已有研究結(jié)果中也有差異甚至矛盾之處[5]。因此,中醫(yī)藥領(lǐng)域知識圖譜理論尚處在針對各學(xué)科結(jié)構(gòu)宏觀概述階段,急需解決對多層信息深度整合的知識圖譜建模策略及其技術(shù)。
近年來,已有學(xué)者在中醫(yī)藥知識圖譜構(gòu)建方法與標(biāo)準(zhǔn)化流程方面進行了嘗試和探索。于彤等[25]提出以中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS)為框架,以中醫(yī)藥領(lǐng)域現(xiàn)有的術(shù)語和數(shù)據(jù)庫資源為內(nèi)容,構(gòu)建大型知識圖譜的構(gòu)想,并進行了探索和實踐,但尚未實現(xiàn)中醫(yī)藥知識資源的有效整合及提供全面、及時、可靠的知識服務(wù)。阮彤等[26]基于文本抽取、關(guān)系數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)融合等技術(shù)提出了中醫(yī)藥知識問答和輔助開藥領(lǐng)域的知識圖譜半自動化構(gòu)建流程。此外,該課題組對知識圖譜進行了形式化定義,詳細描述了數(shù)據(jù)驅(qū)動的增量式知識圖譜構(gòu)建方法,同時闡述了以此方法所構(gòu)建的中醫(yī)藥知識圖譜在輔助開方領(lǐng)域的應(yīng)用,但未涉及其它領(lǐng)域[27]。賈李蓉等[28]以中藥知識圖譜為例,從數(shù)據(jù)來源、研究內(nèi)容、圖形化展示等方面探討如何構(gòu)建中醫(yī)知識圖譜,但其應(yīng)用尚局限于瀏覽檢索方面,對多種數(shù)據(jù)資源間的映射及數(shù)據(jù)元等標(biāo)準(zhǔn)未進行詳細論述。張德政等[29]提出了基于本體的中醫(yī)核心知識圖譜表示及其構(gòu)建方法,對中醫(yī)本體與知識圖譜的映射方法進行了探索,為中醫(yī)知識圖譜的構(gòu)建提供了較系統(tǒng)的方法流程,但對多源數(shù)據(jù)的獲取技術(shù)及中醫(yī)師臨床實際診療數(shù)據(jù)的研究未進行深入研究。王華珍等[30]以中醫(yī)慢性胃炎數(shù)據(jù)可視化處理為例,引入隨機森林(RF)技術(shù)進行可視化前的數(shù)據(jù)預(yù)處理,根據(jù)高維中醫(yī)數(shù)據(jù)的特征進行變換和降維,使數(shù)據(jù)在低緯空間呈現(xiàn)良好的分離性,從而增強了數(shù)據(jù)的可視化效果。
4.2 應(yīng)用前景
知識圖譜研究已經(jīng)滲透到金融、醫(yī)學(xué)和工業(yè)等領(lǐng)域,對知識圖譜定量與定性特征的科學(xué)理解已成為大數(shù)據(jù)時代科學(xué)研究中一個極其重要的挑戰(zhàn)性課題。結(jié)合自身知識體系的特點,中醫(yī)藥領(lǐng)域的知識圖譜研究應(yīng)以從事相關(guān)領(lǐng)域活動和作為知識載體的人(如臨床醫(yī)學(xué)領(lǐng)域的醫(yī)師)、顯性或編碼化的知識(如癥狀、藥物等)、過程或方法(如辨證論治等)為研究對象,運用圖論、統(tǒng)計學(xué)、應(yīng)用數(shù)學(xué)、數(shù)據(jù)挖掘等方法,研究知識之間多維網(wǎng)絡(luò)關(guān)系及演化規(guī)律等一系列問題。
在我國,中醫(yī)臨床研究領(lǐng)域的知識圖譜構(gòu)建研究仍較滯后,研究大多處在術(shù)語本體領(lǐng)域的研究層面。知識圖譜在中醫(yī)藥領(lǐng)域有著廣闊的前景,如在中醫(yī)藥知識體系構(gòu)架方面,可建立中醫(yī)藥知識地圖系統(tǒng)、維基百科系統(tǒng)[25]等;在中醫(yī)藥知識的推廣普及方面,可建立基于知識圖譜的信息檢索系統(tǒng)、基于自然語言的問答引擎[26]等;在臨床診療方面,可建立基于知識圖譜的四診信息采集、診斷、處方用藥系統(tǒng);在醫(yī)師診療規(guī)律挖掘方面,可運用知識圖譜挖掘中醫(yī)師“病-證-治-效”臨床診療數(shù)據(jù)之間的相互關(guān)系和內(nèi)在規(guī)律。因此,知識圖譜為開展中醫(yī)基礎(chǔ)理論體系、臨床診療規(guī)律研究提供了有利的工具,探索解決中醫(yī)臨床診療過程中多尺度非完整信息整合的核心技術(shù),建立中醫(yī)藥知識圖譜構(gòu)建的流程和規(guī)范將成為研究的熱點。
[1] 陳悅,劉則淵.悄然興起的科學(xué)知識圖譜[J].科學(xué)學(xué)研究,2005,23(2):149-154.
[2] 陳悅,劉則淵,陳勁,等.科學(xué)知識圖譜的發(fā)展歷程[J].科學(xué)學(xué)研究, 2008,26(3):449-460.
[3] 楊國立,李品,劉竟.科學(xué)知識圖譜——科學(xué)計量學(xué)的新領(lǐng)域[J].科普研究,2010,5(4):28-34.
[4] 楊思洛,韓瑞珍.國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012,20(6):101-109.
[5] 楊思洛,韓瑞珍.國外知識圖譜的應(yīng)用研究現(xiàn)狀分析[J].情報資料工作,2013(6):15-20.
[6] 肖明,邱小花,黃界,等.知識圖譜工具比較研究[J].圖書館雜志, 2013,32(3):61-69.
[7] 陳超美.科學(xué)前沿圖譜——知識可視化探索[M].北京:科學(xué)出版社, 2014.
[8] 鄧君,馬曉君,畢強.社會網(wǎng)絡(luò)分析工具Ucinet和Gephi的比較研究[J].情報理論與實踐,2014,37(8):133-138.
[9] 侯月明,喬曉東,孫衛(wèi),等.開源分析工具在中文文獻分析中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2013(3):71-76.
[10] 曹樹金,吳育冰,韋景竹,等.知識圖譜研究的脈絡(luò)、流派與趨勢——基于SSCI與CSSCI期刊論文的計量與可視化[J].中國圖書館學(xué)報,2015, 41(5):16-34.
[11] 趙蓉英,王敏.國際視野下中醫(yī)研究的可視化分析[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(7):36-41.
[12] 徐浩,濮文淵,錢愛兵,等.我國中醫(yī)學(xué)學(xué)科交叉領(lǐng)域研究熱點可視化分析[J].中草藥,2015,46(19):2966-2973.
[13] 楊秦,曾莉,李文林.中醫(yī)外科關(guān)于瘡瘍研究的知識圖譜分析[J].南京中醫(yī)藥大學(xué)學(xué)報,2012,28(6):535-537.
[14] 譚火媛,魏靜,譚定英,等.基于CiteSpaceⅢ的中醫(yī)藥治療高血壓前沿與熱點可視化研究[J].現(xiàn)代計算機:專業(yè)版,2016(11):50-54.
[15] 王淑斌.中西醫(yī)治療2型糖尿病的知識圖譜分析[D].北京:北京中醫(yī)藥大學(xué),2014.
[16] 劉俊麗,張秀梅,蔣勇青.基于文本挖掘的乙型肝炎相關(guān)文獻知識圖譜分析[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(1):48-53.
[17] 秦義,田元祥.基于CiteSpace的氣虛證證候診斷標(biāo)準(zhǔn)知識圖譜可視化分析[J].中醫(yī)雜志,2015,56(18):1588-1592.
[18] 秦義,田元祥.基于CiteSpace的血瘀證證候診斷標(biāo)準(zhǔn)研究的可視化分析[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2015,17(12):2656-2665.
[19] 郭棟,童元元,黃生權(quán),等.基于數(shù)據(jù)挖掘的枸杞研究熱點分析[J].中國中醫(yī)藥信息雜志,2016,23(9):48-51.
[20] 李曌嬙,田元祥,趙建新.針灸治療腰椎間盤突出癥常用腧穴的可視化分析[J].河北中醫(yī),2016,38(9):1372-1377.
[21] 胡松潔,馬彥平.基于知識圖譜的“中醫(yī)五行音樂療法”可視化構(gòu)建研究[J].長春中醫(yī)藥大學(xué)學(xué)報,2015,31(3):534-537.
[22] 張靜.中醫(yī)藥專業(yè)人才培養(yǎng)研究的知識圖譜與主題分析[J].濟寧醫(yī)學(xué)院學(xué)報,2017,40(1):51-55.
[23] 陳姍姍,邵英俊.基于中國知網(wǎng)的中醫(yī)藥傳播研究的計量分析[J]. 中國中醫(yī)藥現(xiàn)代遠程教育,2017,15(3):6-9.
[24] 榮光,謝晴宇,孟慶剛.中醫(yī)電子病歷研究領(lǐng)域科學(xué)知識圖譜分析[J].中國中醫(yī)藥信息雜志,2017,24(1):99-104.
[25] 于彤,劉靜,賈李蓉,等.大型中醫(yī)藥知識圖譜構(gòu)建研究[J].中國數(shù)字醫(yī)學(xué),2015,10(3):80-82.
[26] 阮彤,孫程琳,王昊奮,等.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(4):8-13.
[27] 阮彤,王夢婕,王昊奮,等.垂直知識圖譜的構(gòu)建與應(yīng)用研究[J].知識管理論壇,2016(3):226-234.
[28] 賈李蓉,劉靜,于彤,等.中醫(yī)藥知識圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志, 2015,36(8):51-53.
[29] 張德政,謝永紅,李曼,等.基于本體的中醫(yī)知識圖譜構(gòu)建[J].情報工程,2017,3(1):35-42.
[30] 王華珍,彭淑娟,緱錦,等.基于隨機森林的中醫(yī)數(shù)據(jù)可視化研究[J]. 系統(tǒng)仿真學(xué)報,2014,26(11):2751-2756.
Research Review ofKnowledge Graph and Its Application in TCM Field
LI Xin-long, LIU Yan, HE Li-yun, LIU Bao-yan, ZHANG Yan-hong
As the new development of scientometrics and informetrics, knowledge graph has infiltrated into the financial, industrial and medicalfields,and become a hot issue in the real world research.In this article, the concept and features of knowledge graph, construction and the existing softwares, the application status and development prospect in the TCM field were reviewed, whichmay provide references for research on the knowledge graph in the TCM field.
knowledge graph;TCM;application prospect;review
10.3969/j.issn.1005-5304.2017.07.033
R2-05
A
1005-5304(2017)07-0129-04
國家自然科學(xué)基金面上項目(81673964);國家自然科學(xué)基金青年基金(81503679)
劉保延,E-mail:cectcm@gmail.com
(2016-08-20)
(2017-04-09;編輯:向宇雁)