崔蒙,楊寅
中國中醫(yī)科學院中醫(yī)藥信息研究所,北京 100700
關于中醫(yī)藥科學數(shù)據(jù)建設的思考
崔蒙,楊寅
中國中醫(yī)科學院中醫(yī)藥信息研究所,北京 100700
摘要:從中醫(yī)藥文獻數(shù)據(jù)庫、《中醫(yī)藥學主題詞表》的研制到中醫(yī)藥信息數(shù)字化虛擬研究院、基于結(jié)構型數(shù)據(jù)庫的數(shù)據(jù)挖掘,中醫(yī)藥數(shù)據(jù)建設取得了顯著的成績。但中醫(yī)藥科學數(shù)據(jù)在建設和利用中也存在一些問題,需要思考。中醫(yī)藥科學數(shù)據(jù)建設需要采用虛擬研究院模式,必須有穩(wěn)定的隊伍。中醫(yī)藥科學數(shù)據(jù)建設與利用必須符合中醫(yī)藥學自身規(guī)律,建立適合自身數(shù)據(jù)處理的方法。中醫(yī)藥科學數(shù)據(jù)建設的理論和方法學問題,不可單純引進其他學科的理論和方法,而應該在中醫(yī)藥理論指導下借鑒這些理論和方法解決中醫(yī)藥數(shù)據(jù)建設的難點。
關鍵詞:中醫(yī)藥;科學數(shù)據(jù);虛擬研究院
【引文格式】崔蒙,楊寅.關于中醫(yī)藥科學數(shù)據(jù)建設的思考[J].中國中醫(yī)藥圖書情報雜志,2016,40(4):1-3. DOI: 10.3969/j.issn.2095-5707.2016.04.001
中醫(yī)藥科學數(shù)據(jù)是指在中醫(yī)長期醫(yī)療實踐活動及科學研究過程中所產(chǎn)生的原始性、基礎性數(shù)據(jù),以及按照不同需求、系統(tǒng)加工的數(shù)據(jù)。它既包括了中醫(yī)在幾千年醫(yī)療實踐活動中長期積累與整理編纂的海量數(shù)據(jù),也包括實施科技計劃項目與科技工作者科學實踐所產(chǎn)生的大量數(shù)據(jù),它是中醫(yī)理論繼承與創(chuàng)新發(fā)展、中醫(yī)臨床決策支持與中藥新藥研發(fā)的重要源泉與依據(jù)。
中醫(yī)藥科學數(shù)據(jù)建設起源于20世紀80年代初,中國中醫(yī)研究院圖書情報中心(即現(xiàn)在的中國中醫(yī)科學院中醫(yī)藥信息研究所)仿照美國國立醫(yī)學圖書館 Medline數(shù)據(jù)庫開始研制中醫(yī)藥文獻數(shù)據(jù)庫。盡管只是文摘數(shù)據(jù)庫,但采用美國國立醫(yī)學圖書館的標引技術,研制出《中醫(yī)藥學主題詞表》,對數(shù)據(jù)庫進行主題詞標引,起點比較高。該數(shù)據(jù)庫至今仍在持續(xù)維護中,收錄范圍已經(jīng)擴大到1949年至今,文獻量超過 140萬篇,對中醫(yī)藥科學數(shù)據(jù)的利用發(fā)揮了重要作用,是中醫(yī)藥科技查新的重要工具。
20世紀90年代末至21世紀初,隨著國家對科學數(shù)據(jù)建設重視程度的不斷提高,特別是國家科學數(shù)據(jù)共享工程的啟動,中醫(yī)藥科學數(shù)據(jù)建設獲得了快速的發(fā)展。由中國中醫(yī)科學院中醫(yī)藥信息研究所組織,建立了由全國37家中醫(yī)藥院校和研究院所的圖書館、信息中心、文獻中心共同參與的中醫(yī)藥信息數(shù)字化虛擬研究院(簡稱“虛擬研究院”)。虛擬研究院沒有行政關系,主要是以項目為紐帶,以共同目標為己任,以各個院校、研究院所的相關機構為依托,以各個數(shù)據(jù)庫為研究小組,形成了集全國力量為一體的中醫(yī)藥科學數(shù)據(jù)研制團隊。在浙江大學計算機科學與技術學院的全力支持下,引進最先進的計算機及網(wǎng)絡技術,開展了空前規(guī)模的中醫(yī)藥科學數(shù)據(jù)建設工作,開發(fā)了中醫(yī)藥科學數(shù)據(jù)共建與共享平臺,研制了中醫(yī)藥學語言系統(tǒng)、中醫(yī)臨床術語系統(tǒng)和20余個中醫(yī)藥專題詞表,制作了60余個中醫(yī)藥結(jié)構型專題數(shù)據(jù)庫,形成了全球最大規(guī)模的中醫(yī)藥科學數(shù)據(jù)平臺,對推動中醫(yī)藥行業(yè)的科學數(shù)據(jù)利用,以及對中醫(yī)藥行業(yè)重視科學數(shù)據(jù)起到了不可替代的作用。
與此同時,中醫(yī)藥科學數(shù)據(jù)的深度利用研究也蓬蓬勃勃地開展起來?;诮Y(jié)構型數(shù)據(jù)庫的數(shù)據(jù)挖掘工作取得了很大的進展,在方劑配伍規(guī)律、證候組合規(guī)律、名老中醫(yī)用藥規(guī)律等方面開展了大量的研究工作。在浙江大學計算機科學與技術學院的支持下,搭建了高性能計算平臺,支持50個節(jié)點的并行運算,運算峰值達每秒萬億次;研制了支持虛擬研究院工作的DartGrid平臺,實現(xiàn)了全國37家單位的遠程協(xié)同建庫工作;研制了支持知識服務的DartCloud云平臺,構建了知識服務平臺的智慧應用中心,極大地促進了中醫(yī)藥科學數(shù)據(jù)的深度利用。
當大數(shù)據(jù)理念提出后,我們提出了中醫(yī)藥數(shù)據(jù)所具有的2個鮮明特色,即中醫(yī)藥數(shù)據(jù)是全數(shù)據(jù)、是知識密集型數(shù)據(jù),并開始研制基于大數(shù)據(jù)的應用平臺,更加關注非結(jié)構化數(shù)據(jù)的處理、混雜數(shù)據(jù)的處理,以及數(shù)據(jù)間的相關關系,對基于中醫(yī)藥科學數(shù)據(jù)的知識服務展開了更加深入的研究。
在取得成績的同時,我們也發(fā)現(xiàn)了在中醫(yī)藥科學數(shù)據(jù)建設和利用中存在的問題,這些問題有可能延緩中醫(yī)藥科學數(shù)據(jù)建設與利用達到更高水平和更快發(fā)展的速度。因此,必須認真思考和解決這些問題。
2.1建立穩(wěn)定的虛擬研究院隊伍
中醫(yī)藥科學數(shù)據(jù)建設單位的規(guī)模一般不很大,依靠一個單位開展大型數(shù)據(jù)庫的建設和利用非常困難。另外,一個重大研究項目常常橫跨多個學科,應綜合應用多種研究方法探討其獨特規(guī)律[1]。因此,以項目為依托,緊密聯(lián)合多所大學及研究院編制內(nèi)的實體研究機構或科研小組的、全國性的協(xié)同工作在中醫(yī)藥科學數(shù)據(jù)建設中至關重要。而已經(jīng)建立起來的虛擬研究院是成功的范例,其多學科、多中心、多項目的合作模式,基于工程、多項目支撐、多層次結(jié)合、鼓勵自我優(yōu)勢探討的發(fā)展模式,中心負責、專業(yè)化分工、共建共享、松散聯(lián)合的運行模式,共同構成了虛擬研究院在中醫(yī)藥科學數(shù)據(jù)建設上的獨特優(yōu)勢[2]。通過近年的建設實踐,虛擬研究院保持了穩(wěn)步的發(fā)展,實現(xiàn)了研究方向的不斷豐富,研究領域的不斷拓展,參與單位科研人員整體水平的不斷提高,合作單位的不斷增多,國際交流的不斷擴展,數(shù)字化成果、數(shù)據(jù)利用成果、傳統(tǒng)知識保護成果、國際合作成果產(chǎn)出的不斷增多。然而,在實踐中我們發(fā)現(xiàn)虛擬研究院仍存在一些問題,最主要的是人員管理體制問題。
現(xiàn)行的人員管理體制中存在一把手負責制、干部輪換制。一把手負責制即組成虛擬研究院的機構負責人不僅負責確定數(shù)據(jù)建設的戰(zhàn)略和方針,還干預具體的管理過程以及方案的確定和實施。干部輪換制是指組成虛擬研究院的機構負責人經(jīng)過一定年限后,由所隸屬的科研院所進行更換,而新負責人可能來自院所的其他部門,不具備中醫(yī)藥信息研究背景和專業(yè)基礎。在這種管理體制下,“一把手”并不是這個專業(yè)的行家里手,甚至對這項工作沒有興趣,使得虛擬研究院的運行出現(xiàn)了很大的問題。換言之,一批干部輪換后,若由不擅長此項工作的人來主持,會影響工作開展。然而,科學數(shù)據(jù)的管理和完善不是單純的技術問題,而是技術與管理相結(jié)合的持續(xù)完善的管理過程[3]。對于虛擬研究院來說,其機構、組織、人員等的穩(wěn)定具有極其重要的作用和意義,特別是組成虛擬研究院機構的負責人的穩(wěn)定性對中醫(yī)藥科學數(shù)據(jù)建設工作的開展具有至關重要的作用。中醫(yī)藥科學數(shù)據(jù)的建設與利用是一項專業(yè)性很強的、需要持續(xù)進行的工作,并不是一項簡單的行政工作;凝聚一批有興趣、有能力、有事業(yè)心的負責人,對中醫(yī)藥科學數(shù)據(jù)建設事業(yè)具有極其重要的作用,而用簡單的行政管理辦法,隨意調(diào)動、更換負責人,會導致工作失去連貫性,特別是當新的負責人沒有足夠的興趣或能力時,甚至會導致工作終止,由此給中醫(yī)藥科學數(shù)據(jù)建設與利用帶來巨大損失。因此,虛擬研究院需要以負責人穩(wěn)定和研究人員關系平等為基礎的人員隊伍。
2.2建立適合中醫(yī)藥科學數(shù)據(jù)處理的方法
通過長時間的實踐,我們發(fā)現(xiàn)中醫(yī)藥科學數(shù)據(jù)建設與利用既要遵循一般科學數(shù)據(jù)建設的規(guī)律,也要遵循中醫(yī)藥學的規(guī)律,否則其數(shù)據(jù)建設和利用就會脫離中醫(yī)藥臨床與科研的實際,失去其應有的價值和意義。首先,中醫(yī)藥的臨床實踐是基于個體化診療的,這種個體化不僅指觀察對象的個體化,還包括觀察者的個體化,亦即參與診療過程的醫(yī)生和患者都具有個體化特征,形成一個相對獨立的個體化系統(tǒng)。當然,這是一個開放的獨立系統(tǒng),患者是處于自己個體的天地人三者合一的開放系統(tǒng)中,醫(yī)生也同樣處于其個體的天地人三者合一的系統(tǒng)中,兩者又組成了一個共同的開放系統(tǒng)。對于這樣一個系統(tǒng)所產(chǎn)生的數(shù)據(jù)必須要遵循中醫(yī)藥學的理論進行處理,才能發(fā)現(xiàn)其內(nèi)在規(guī)律。在這個系統(tǒng)中,有能夠使用混合大數(shù)據(jù)處理的數(shù)據(jù),如發(fā)現(xiàn)組成證候的癥狀群規(guī)律;也有只能根據(jù)單一系統(tǒng)處理的數(shù)據(jù),如醫(yī)生個體、或單個醫(yī)生與患者組成的系統(tǒng)診治時處方用藥的規(guī)律;因而不能簡單地使用大數(shù)據(jù)的處理方法處理中醫(yī)藥數(shù)據(jù)。其次,中醫(yī)藥數(shù)據(jù)是屬于知識密集型數(shù)據(jù),其數(shù)據(jù)量很難達到類似天文、海洋、氣候、地理等學科級別的數(shù)據(jù)量,因此,僅靠數(shù)據(jù)密集度發(fā)現(xiàn)新知識具有一定難度。更為適合的方法可能是建立基于本體的語義網(wǎng)絡,將數(shù)據(jù)中隱含的知識關聯(lián)起來,以期發(fā)現(xiàn)新的知識和規(guī)律。所以,中醫(yī)藥科學數(shù)據(jù)的處理必須符合中醫(yī)藥學本身的規(guī)律,服務于中醫(yī)藥知識和規(guī)律的發(fā)現(xiàn)與應用。隨著人工智能技術的發(fā)展,特別是近期韓國著名圍棋手李世石與谷歌 AlphaGo所進行的圍棋比賽,顯示了人工智能研究發(fā)展的態(tài)勢,使中醫(yī)藥科學數(shù)據(jù)的深度利用受到很大啟發(fā),甚或有了新的研究思路。
2.3建立中醫(yī)藥科學數(shù)據(jù)建設的理論和方法學
建立中醫(yī)藥科學數(shù)據(jù)建設的理論和方法學,不可單純引進其他學科的理論和方法,而應該在中醫(yī)藥理論指導下借鑒這些理論和方法,來解決中醫(yī)藥數(shù)據(jù)建設的難點。
基于中醫(yī)藥知識服務的科學數(shù)據(jù)建設有 4個難點,即⑴如何表達復雜、定性、模糊的中醫(yī)藥概念、知識與思維模式?⑵如何無縫集成融合不同學科的異構知識,保證知識的一致性并能快速查詢搜索?⑶如何重組、擴展、挖掘數(shù)據(jù)以發(fā)現(xiàn)隱形知識,實現(xiàn)知識創(chuàng)新價值?⑷如何實現(xiàn)智能的過程信息知識管理,提升行業(yè)經(jīng)濟效益?很明顯,單純引入其他學科的理論和方法不能直接解決這 4個難點,只有將前者融入中醫(yī)藥理論中,將之轉(zhuǎn)化成符合中醫(yī)藥發(fā)展變化規(guī)律的理論和方法,才能解決中醫(yī)藥科學數(shù)據(jù)建設的問題。
針對上述 4個難點,較為合適的解決方法依次是,⑴構建基于語義圖的中醫(yī)藥知識圖譜與知識庫,關鍵點為基于多圖語義的知識圖譜建模方法和唯象中醫(yī)藥知識建模方法;⑵研發(fā)基于語義互聯(lián)網(wǎng)的中醫(yī)藥知識搜索技術,關鍵點為多模型語義映射方法和分布式語義索引方法;⑶建立基于語義圖挖掘的中醫(yī)藥知識發(fā)現(xiàn),關鍵點是復雜網(wǎng)絡化知識的搜索挖掘方法和基于語義圖的泛化關聯(lián)規(guī)則挖掘方法;⑷獲取面向過程服務的知識集成方法及服務技術,關鍵點是基于語義發(fā)布訂閱的知識集成方法和面向移動環(huán)境的知識服務集成方法。
中醫(yī)藥科學數(shù)據(jù)建設是整個人口與健康科學數(shù)據(jù)共享平臺建設的不可或缺的部分,我們努力將中醫(yī)藥科學數(shù)據(jù)融入整個健康科學數(shù)據(jù)的共建共享,在促進整個健康事業(yè)發(fā)展中發(fā)揮作用。以虛擬研究院為組織模式的中醫(yī)藥科學數(shù)據(jù)建設在取得一定進展的同時,亦發(fā)現(xiàn)一些問題,產(chǎn)生了與之對應的思考。希望能夠經(jīng)由這些發(fā)現(xiàn)和思考進一步完善中醫(yī)藥科學數(shù)據(jù)建設工作,使中醫(yī)藥科學數(shù)據(jù)發(fā)揮更大的作用。
參考文獻
[1] 周增桓,李海燕,史先東,等.對科研協(xié)作中若干問題的探討[J].中華醫(yī)學科研管理雜志,2000,13(3):188-189.
[2] 崔蒙,謝琪,尹愛寧,等.中醫(yī)藥信息數(shù)字化虛擬研究院建設模式研究[J].上海中醫(yī)藥大學學報,2008,22(3):5-8.
[3] 吳金紅,陳勇躍.面向科研第四范式的科學數(shù)據(jù)監(jiān)管體系研究[J].圖書情報工作,2015,59(16):11-17.
(修回日期:2016-04-15;編輯:魏民)
中圖分類號:R2-05
文獻標識碼:A
文章編號:2095-5707(2016)04-0001-03
收稿日期:(2016-03-30)
基金項目:國家科技部重大專項(2012ZX09304003-001);國家中醫(yī)藥管理局行業(yè)專項(201207001-21);科技部科技基礎性工作專項(2009FY120300);中國中醫(yī)科學院創(chuàng)新團隊項目(PY1306) 第一作者:崔蒙,研究員,研究方向為中醫(yī)藥信息學。E-mail: cm@mail.cintcm.ac.cn
Reflections on the Construction of TCM Scientific Data
CUI Meng, YANG Yin
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract:The construction of TCM scientific data has made great achievements, including TCM literature database, the development of TCM keywords table, virtual institute of digital TCM information, and data mining based on structural database. At the same time, we found some problems in the construction and utilization of TCM scientific data, which demand our reflection. TCM virtual institute should be used to construct TCM scientific data and build a steady team. The construction and utilization of TCM scientific data should fit the law of TCM and establish a proper way of data processing. The problems in the theory and methodology of construction of TCM scientific data cannot be solved by solely introducing theories and methods of other subjects, but can be solved by referencing these theories and methods under the guidance of TCM theories.
Key words:TCM; scientific data; virtual institute