朱毓梅
山東中醫(yī)藥大學(xué),山東 濟(jì)南 250355
大數(shù)據(jù)時(shí)代背景下中醫(yī)古籍面臨的機(jī)遇與挑戰(zhàn)
朱毓梅
山東中醫(yī)藥大學(xué),山東 濟(jì)南 250355
中醫(yī)古籍承載的信息具有大數(shù)據(jù)的特征。本文論述了在“大數(shù)據(jù)”背景下,中醫(yī)古籍在集成、利用、知識(shí)發(fā)現(xiàn)等方面面臨的機(jī)遇和挑戰(zhàn)。
中醫(yī)古籍;大數(shù)據(jù);數(shù)據(jù)挖掘
信息和能源、材料一起,并稱為現(xiàn)代社會(huì)的三大支柱[1]。信息不可遏制的增長,導(dǎo)致了大數(shù)據(jù)時(shí)代的到來。大數(shù)據(jù)具有“大容量、種類多、流動(dòng)快、價(jià)值高”的含義[2]。在維克托?邁爾-舍恩伯格和肯尼思?庫克耶所著的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中談到,起源于電子信息領(lǐng)域的大數(shù)據(jù)概念正在日益深刻地改變著我們的生活以及理解世界的方式。在該書中談到,大數(shù)據(jù)具有三個(gè)特點(diǎn),第一是全面性;第二是模糊性;第三是由探求因果關(guān)系,轉(zhuǎn)向事物相關(guān)性的尋找,要讓數(shù)據(jù)自己發(fā)聲;建立在相關(guān)關(guān)系的分析基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心[3]。
中醫(yī)古籍是中醫(yī)理論和診療實(shí)踐傳承的載體。中醫(yī)古籍信息量巨大,據(jù)《中國中醫(yī)古籍總目》記載,在全國131個(gè)圖書館中館藏中醫(yī)書目有1.3萬種。
中醫(yī)古籍信息種類繁多,從臨床診療經(jīng)驗(yàn)的描述、中藥的采集、藥性的辨別到理論的闡述,既有嚴(yán)格遵循邏輯理論原則的醫(yī)案解釋,又有偏方驗(yàn)方匯集。中醫(yī)古籍信息歷經(jīng)幾千年,橫跨南北方,既有橫向的學(xué)術(shù)爭(zhēng)鳴,又有縱向的流派傳承,既有一定的理論自洽性,又有各自獨(dú)特的見解。
中醫(yī)古籍信息的利用率不高,但無疑古籍中蘊(yùn)含著極為有價(jià)值的知識(shí)。不僅臨床中醫(yī)醫(yī)生要借助于古代文獻(xiàn)中的知識(shí)來處理病患,2011年美國“拉斯克臨床醫(yī)學(xué)研究獎(jiǎng)”——青蒿素的發(fā)現(xiàn)也來源于古籍文獻(xiàn)。
中醫(yī)思維的習(xí)慣是“取類比象”。個(gè)例化診療是中醫(yī)臨床的特色描述方式。個(gè)別是一般的基礎(chǔ),規(guī)律是個(gè)體的凝練。中醫(yī)在被迫接受現(xiàn)代科學(xué)“大量、雙盲、隨機(jī)”統(tǒng)計(jì)學(xué)方式的同時(shí),也在堅(jiān)守著自己“天人合一,辨證論證,個(gè)體化診療”的特色。中醫(yī)傳統(tǒng)理論不是由“可觀察、可設(shè)計(jì)、可控制、可預(yù)測(cè)”的實(shí)驗(yàn)證實(shí)的、具有明確因果邏輯關(guān)系的科學(xué)理論,而是采用經(jīng)驗(yàn)的、“取類比象”的方式進(jìn)行的描述。比如對(duì)于發(fā)熱的癥狀而言,因?yàn)椤盁帷钡默F(xiàn)象和太陽的發(fā)熱、物體的發(fā)熱是具有相似性的,在現(xiàn)實(shí)生活中,用寒涼的物體可以消除或者消退熱的現(xiàn)象,而在中醫(yī)實(shí)踐中,石膏的服入可以治療發(fā)熱的癥狀,因此把石膏定位為具有“寒”的藥性。這種“石膏-發(fā)熱”到“寒-熱”關(guān)聯(lián)角度考慮問題的方式體現(xiàn)了中醫(yī)自然哲學(xué)的特征。這種特征無法像現(xiàn)代生物學(xué)那樣,從微觀邏輯的角度、從實(shí)驗(yàn)設(shè)計(jì)的角度令人完全信服,但這種關(guān)聯(lián)本身在實(shí)際的醫(yī)療實(shí)踐中是非常有效的。生物醫(yī)學(xué)的最終目的除了滿足人們對(duì)于人體自身的好奇心之外,就是對(duì)于疾病好轉(zhuǎn)的追求。忽略臨床需要,一味追求理論的完美對(duì)于醫(yī)學(xué)本身是有害的。中醫(yī)的這種關(guān)聯(lián)性思維方式無處不在,符合大數(shù)據(jù)時(shí)代對(duì)于相關(guān)性的重視。
在大數(shù)據(jù)時(shí)代,個(gè)別信息不確定,總體信息具有規(guī)律性。中醫(yī)古籍信息良莠不齊,真理和謬誤并存。就像我們不能從單一信息源出發(fā),確定某個(gè)網(wǎng)絡(luò)信息是否為真一樣,對(duì)于中醫(yī)古籍信息真實(shí)性的確定除了臨床驗(yàn)證之外,我們可以通過全面信息的分析獲得我們需要的知識(shí)。比如不同醫(yī)家對(duì)于“不寐”的理論闡述是不同的,他們所采用的方藥也是各異的,宋詠梅等[4]對(duì)歷代治療不寐方劑中的中藥進(jìn)行頻次分析得知,酸棗仁是所有方劑中使用頻率最高的藥物,使用頻率較高的藥物包括人參、茯神、麥冬、半夏、遠(yuǎn)志、熟地黃、生地黃、柏子仁,這些常用藥物在臨床中是常用的,也是有效的。從大量不確定信息中找出有價(jià)值的信息,是大數(shù)據(jù)時(shí)代的特征。
中醫(yī)專家系統(tǒng)的目的就是根據(jù)以往有效的臨床經(jīng)驗(yàn),在疾病好轉(zhuǎn)的驅(qū)動(dòng)下,預(yù)測(cè)當(dāng)前患者病因病機(jī)和診療方案的過程。預(yù)測(cè)的基礎(chǔ)是對(duì)以往海量數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。中醫(yī)古籍文獻(xiàn)中的大量病例,是構(gòu)建中醫(yī)專家系統(tǒng)的基礎(chǔ)。這些病例來自不同年代、不同地域的不同醫(yī)家,具有鮮明的個(gè)性化特征。對(duì)于一個(gè)具體的患者,不同醫(yī)家的預(yù)測(cè)方向可能是不同的,如何根據(jù)當(dāng)前大量的、模糊的、不確定的知識(shí)選擇最符合要求的診療方案,是中醫(yī)專家系統(tǒng)能最終廣泛應(yīng)用于臨床的關(guān)鍵所在。
中醫(yī)古籍最初全部都是以文本形式存在的,與信息化數(shù)據(jù)相比,具有傳播性慢、復(fù)制性差、容易損壞等特點(diǎn)。
傳統(tǒng)中醫(yī)從業(yè)者和研究者對(duì)中醫(yī)古籍的利用具有局限性、片面性、時(shí)效性、地域性等不足。大數(shù)據(jù)的理念和技術(shù)為中醫(yī)古籍信息的充分利用帶來了機(jī)遇。
在農(nóng)業(yè)社會(huì),很難想象一個(gè)人能夠有機(jī)會(huì)閱讀如此眾多、不同年代、不同流派、不同地域的中醫(yī)藥著作。信息化時(shí)代打破了時(shí)間、地域界限和流派之爭(zhēng),使得面向主題的全面信息的存儲(chǔ)和檢索變得簡(jiǎn)單和可能。王振國等[5]研制的“中醫(yī)藥古文獻(xiàn)保障系統(tǒng)”收錄了上至秦漢,下至當(dāng)代的十萬余首方劑,并具有靈活的面向用戶的知識(shí)服務(wù)功能;張啟明等[6]在visual foxpro平臺(tái)上,通過對(duì)歷代中醫(yī)醫(yī)案文本數(shù)據(jù)的規(guī)范化、結(jié)構(gòu)化處理,收錄了歷代醫(yī)案 22 459首,數(shù)據(jù)量達(dá)到2億。
中醫(yī)流傳幾千年,中醫(yī)理論和成功診療的實(shí)踐描述無疑是豐富的,信息量是巨大的。在過去,人們往往依靠個(gè)人在閱讀有限書籍和臨床的摸索悟性中尋找規(guī)律。如今數(shù)據(jù)挖掘技術(shù)使得規(guī)律的尋找變得更加直觀和觸手可及。相比于“第一原理”對(duì)客觀世界微觀領(lǐng)域的精確描述,數(shù)據(jù)挖掘強(qiáng)調(diào)收集大量的、復(fù)雜的、模糊的、不確定的數(shù)據(jù),分析數(shù)據(jù)集合從而獲得有用的信息和知識(shí)的過程[7-8]。
對(duì)中醫(yī)古籍信息進(jìn)行數(shù)據(jù)挖掘主要集中在病案和用藥規(guī)律的研究。曾大方[9]對(duì)《臨證指南醫(yī)案》進(jìn)行了頻數(shù)統(tǒng)計(jì)的分析;陳擎文[10]在中醫(yī)古籍治療中風(fēng)的醫(yī)案基礎(chǔ)中,運(yùn)用頻次分析和關(guān)聯(lián)分析的方法,找到古代名醫(yī)治療中風(fēng)最常用的7味中藥、9個(gè)藥對(duì)和3個(gè)三藥對(duì);周德生[11]集成了明清時(shí)期津液虧損的病案573例,采用R型系統(tǒng)聚類分析方法,確定了每個(gè)亞型的辨證用藥規(guī)律;王佑華等[12]探討了人工神經(jīng)網(wǎng)絡(luò)、決策樹、粗糙集等方法應(yīng)用于古籍文獻(xiàn)信息數(shù)據(jù)挖掘的可行性。
個(gè)性化診療是中醫(yī)的特色,也是中醫(yī)難以進(jìn)行規(guī)范化的桎梏。中醫(yī)專家系統(tǒng)是人工智能和中醫(yī)藥相結(jié)合的研究領(lǐng)域。自 1979年第一臺(tái)中醫(yī)專家系統(tǒng)——關(guān)幼波中醫(yī)肝病診療系統(tǒng)誕生以來,迎來了10多年的研究熱潮。到2008年底,研制的中醫(yī)專家系統(tǒng)有200多個(gè)[13],比如鮑友麟“胃脘痛”專家系統(tǒng)、梁宗翰兒科脾病專家診療系統(tǒng)等[14]。到上個(gè)世紀(jì)90年代,由于中醫(yī)專家系統(tǒng)的個(gè)性化特點(diǎn),研制成的專家系統(tǒng)往往很難進(jìn)行普及,中醫(yī)專家系統(tǒng)的研究陷入低潮。王瑞祥等[15]在胃脘痛中醫(yī)古籍信息的基礎(chǔ)上,針對(duì)不同醫(yī)生對(duì)同一患者診斷可能產(chǎn)生的不確定信息和不同癥狀體征對(duì)辨證的重要性難以把握的瓶頸問題,采用粗集理論結(jié)合聚類分析的方法,實(shí)現(xiàn)了不同年代中醫(yī)專家的集體會(huì)診,研制成功的胃脘痛中醫(yī)診療系統(tǒng),具有良好的理論基礎(chǔ)和臨床效果。
大數(shù)據(jù)時(shí)代盡管給人們帶來了更全面的信息,更先進(jìn)的技術(shù),更科學(xué)的算法,但要使得中醫(yī)古籍信息的作用得到充分的發(fā)揮,還面臨著許多尚待解決的問題。
大數(shù)據(jù)要求數(shù)據(jù)越多越好,但中醫(yī)古籍由于年代久遠(yuǎn),保存不利,大量古籍流失,有的版本流落在民間,有的版本遠(yuǎn)在海外,現(xiàn)存古籍也面臨大量修復(fù)的問題。
盡管大數(shù)據(jù)不強(qiáng)調(diào)數(shù)據(jù)的規(guī)范化和結(jié)構(gòu)化[3],但對(duì)于中醫(yī)古籍信息而言,由于年代和地域的差距過大,一詞多義、多詞同義現(xiàn)象非常普遍,如果不進(jìn)行適當(dāng)?shù)囊?guī)范化,很容易造成信息的誤讀,很難提取出有價(jià)值的信息。2010年,財(cái)政部專項(xiàng)公共衛(wèi)生專項(xiàng)資金“中醫(yī)藥古籍保護(hù)與利用能力建設(shè)”對(duì)400本中醫(yī)古籍進(jìn)行整理,有望在一定程度上實(shí)現(xiàn)對(duì)中醫(yī)古籍信息的確認(rèn)和規(guī)范化[16]。2012年,科技部重點(diǎn)項(xiàng)目“中醫(yī)藥基礎(chǔ)學(xué)科名詞術(shù)語規(guī)范研究項(xiàng)目”在北京啟動(dòng),項(xiàng)目將對(duì)中藥、方劑等十個(gè)學(xué)科的 8 000條名詞術(shù)語進(jìn)行規(guī)范,項(xiàng)目完成后,中醫(yī)規(guī)范化名詞術(shù)語將達(dá)到1.3萬條,并建立同義詞數(shù)據(jù)庫[17]。盡管如此,中醫(yī)古籍信息的規(guī)范化工作還有相當(dāng)長的道路要走。
中醫(yī)古籍中的不確定信息固然可以通過數(shù)據(jù)挖掘的手段提取出臨床和科學(xué)研究中有價(jià)值的知識(shí),但不可否認(rèn),很多有價(jià)值的知識(shí)并不是在古籍信息中普遍存在的。比如在發(fā)現(xiàn)青蒿素的過程中,是通過對(duì)古籍中記載的治療瘧疾的640個(gè)方藥一一實(shí)驗(yàn)之后,才找到青蒿這一治療瘧疾的中藥的。而數(shù)據(jù)挖掘僅僅體現(xiàn)在從2 000多個(gè)記載治療瘧疾的方藥中精選出640個(gè)方藥的過程。這種范圍的縮小盡管有價(jià)值,但也是遠(yuǎn)遠(yuǎn)不夠的。如何找到一個(gè)能對(duì)有價(jià)值信息進(jìn)行精確定位的工具,是大數(shù)據(jù)時(shí)代中醫(yī)古籍信息知識(shí)發(fā)現(xiàn)的關(guān)鍵。
在信息化浪潮里,中醫(yī)古籍以其悠久的歷史淵源、豐富多彩的信息內(nèi)容、高價(jià)值的知識(shí)蘊(yùn)含,越來越多地受到人們的關(guān)注,中醫(yī)特有的相關(guān)性思維方式符合大數(shù)據(jù)時(shí)代的特征。根據(jù)相關(guān)性知識(shí)構(gòu)建的具有預(yù)測(cè)功能的中醫(yī)專家系統(tǒng),可以在大量不同醫(yī)家不確定知識(shí)的基礎(chǔ)上進(jìn)行確定性診療。在大數(shù)據(jù)理念和技術(shù)的指導(dǎo)之下,以中醫(yī)古籍文本信息為本,最大限度地構(gòu)建同義詞數(shù)據(jù)庫,保持古籍信息的原汁原味,在正確語義的基礎(chǔ)上進(jìn)行知識(shí)發(fā)現(xiàn),并能及時(shí)應(yīng)用于臨床和科學(xué)研究,是中醫(yī)古籍信息發(fā)揮作用的必由之路。
[1]郁青.圖書館信息服務(wù)散論[J].圖書館界,2000,9(3):8-11.
[2]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報(bào), 2012(5):37-40.
[3]維克托?邁爾-舍恩伯格,肯尼思?庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012:18-42.
[4]宋詠梅,崔利銳,李軍偉.古代失眠方藥的文獻(xiàn)分析[J].山東中醫(yī)藥大學(xué)學(xué)報(bào),2012,36(5):392-394.
[5]王振國,劉耀,周揚(yáng).基于信息構(gòu)建(IA)的中醫(yī)藥古文獻(xiàn)保障系統(tǒng)研究[J].中國中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2004, 2(7):5-8.
[6]張啟明,王永炎,張志斌,等.中醫(yī)歷代醫(yī)案數(shù)據(jù)庫的建立與統(tǒng)計(jì)方法[J].山東中醫(yī)藥大學(xué)學(xué)報(bào),2005,29(4):298-299.
[7]DL Olson, D Delen. Advanced data mining techniques[M]. Springer Publishing Company,2008:5-7.
[8]Mehmed Kantardzic. Data Mining: Concepts, Models, Methods, and Algorithms[M]. A JOHN WILEY&SONS, INC, 2011:1-9.
[9]曾大方.《臨證指南醫(yī)案》方案的統(tǒng)計(jì)研究[J].山東中醫(yī)學(xué)院學(xué)報(bào),1985,9(1):13-17.
[10]陳擎文.數(shù)據(jù)挖掘技術(shù)在古代名中醫(yī)中風(fēng)醫(yī)案之應(yīng)用研究[J].中華中醫(yī)藥學(xué)刊,2008,26(10):2254-2257.
[11]周德生.明清時(shí)期津液虧損病案 573例辨證用藥統(tǒng)計(jì)分析[J].中醫(yī)藥研究,1998,14(4):12-13.
[12]王佑華,陸金根,柳濤,等.中醫(yī)醫(yī)案中的知識(shí)發(fā)現(xiàn)研究[J].中西醫(yī)結(jié)合學(xué)報(bào),2007,5(4):368-372.
[13]白春清.中醫(yī)專家系統(tǒng) 30年[J].醫(yī)學(xué)信息,2011,24(2):550-552.
[14]北京中醫(yī)管理局科教處.關(guān)幼波、鮑友麟、梁宗翰老中醫(yī)專家系統(tǒng)[J].北京中醫(yī),1992(4):54-55.
[15]王瑞祥.一種基于粗集簡(jiǎn)約的中醫(yī)專家系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)[J].時(shí)珍國醫(yī)國藥,2013,24(10):2476-2477.
[16]林玉婷,林莉.論中醫(yī)古籍的保護(hù)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2011,20(11):45-47.
[17]吳瀟湘.中醫(yī)藥基礎(chǔ)學(xué)科名詞術(shù)語規(guī)范研究啟動(dòng)[J].中醫(yī)藥管理雜志,2012,20(4):345.
Opportunities and Challenges of Traditional Chinese Medicine Ancient Books in the Era of Big Data
Zhu Yumei
(Shandong University of Traditional Chinese Medicine, Jinan Shandong 250355, China)
This article expounded that the information of Traditional Chinese Medicine(TCM) Ancient Books possesses the characteristic of Big Data and demonstrated the opportunities and challenges of TCM Ancient Books in the fields of data integration, information application and knowledge discovery.
TCM ancient book; Big Data; data mining
10.3969/j.issn.2095-5707.2014.03.004
國家公共衛(wèi)生資金項(xiàng)目(2010GJ01)
朱毓梅,副研究館員,研究方向:圖書與文獻(xiàn)信息研究。E-mail: zhuyumei000000@163.com
2014-03-28,編輯:魏民)