于彤 賈李蓉 劉靜 楊碩 董燕 朱玲
摘要:中醫(yī)藥學語言系統(tǒng)(TCMLS)是由中國中醫(yī)科學院中醫(yī)藥信息研究所聯(lián)合全國13家中醫(yī)藥科研單位和高等院校于2002年開始研制的大型術(shù)語系統(tǒng)。它是在統(tǒng)一醫(yī)學語言系統(tǒng)(UMLS)的基礎(chǔ)上,根據(jù)中醫(yī)藥領(lǐng)域的語言特點及學科體系特色,采用本體(ontology)的設(shè)計理念和方法研制而成。經(jīng)過10余年的發(fā)展,TCMLS的技術(shù)體系日趨成熟,相關(guān)研究也越來越深入和系統(tǒng)化。通過回顧TCMLS的發(fā)展歷程,對相關(guān)研究文獻進行綜述,分析存在的問題和未來的發(fā)展方向。
關(guān)鍵詞:中醫(yī)藥;語言系統(tǒng);中醫(yī)藥學語言系統(tǒng);本體
中醫(yī)藥學經(jīng)過幾千年的發(fā)展,在臨床實踐和醫(yī)學研究過程中產(chǎn)生了大量的概念和術(shù)語。朝代更迭、語言變遷、地域差異、學科融合等多種因素的綜合影響,使中醫(yī)藥學術(shù)語體系變得極為復雜。針對中醫(yī)藥文本中大量存在的同物異名、同名異物等現(xiàn)象,中醫(yī)藥工作者往往無法做出正確判斷。通過建立一個完整、準確的語言系統(tǒng),能夠有效處理詞義模糊、一詞多義、一義多詞等復雜的語言現(xiàn)象,可以解決長期困擾中醫(yī)藥信息化領(lǐng)域的術(shù)語使用不規(guī)范、術(shù)語組織不系統(tǒng)、信息檢索效能低下等問題。為此,中國中醫(yī)科學院中醫(yī)藥信息研究所(以下簡稱“信息所”)聯(lián)合全國13家中醫(yī)藥科研單位和高等院校,從2002年開始研制中醫(yī)藥學語言系統(tǒng)(traditional Chinese medicine languagesystem,TCMLS)。本文回顧了TCMLS的發(fā)展歷程,對相關(guān)研究文獻進行綜述,分析存在的問題和發(fā)展方向,為中醫(yī)藥學語言系統(tǒng)的研究、編制和使用人員提供參考。
1概述
TCMLS原名為中醫(yī)藥一體化語言系統(tǒng)。它是參照統(tǒng)一醫(yī)學語言系統(tǒng)(LMLS),根據(jù)中醫(yī)藥領(lǐng)域的語言特點及學科體系特色,采用本體(ontology)的設(shè)計理念和方法研制而成的大型術(shù)語系統(tǒng)。其目的在于利用現(xiàn)代信息技術(shù),逐步建立規(guī)范化的中醫(yī)藥術(shù)語體系,從而支持中醫(yī)藥信息資源的合理組織和有效檢索。
TCMLS主要包括語義網(wǎng)絡(semanticnetwork)和基礎(chǔ)詞庫兩大部分。其中,語義網(wǎng)絡定義了中醫(yī)藥領(lǐng)域最基本的語義類型(semantictype)和語義關(guān)系(semantic relation),構(gòu)成TCMLS的頂層框架?;A(chǔ)詞庫則以概念為單位對中醫(yī)藥術(shù)語進行系統(tǒng)梳理和準確詮釋,建立科學合理的概念分類體系以及概念之間的語義關(guān)系。經(jīng)過10余年的研發(fā),TCMLS的技術(shù)體系日趨完善,建立了成熟的術(shù)語采集系統(tǒng);組建了由300多名專家組成的術(shù)語加工團隊;收錄了約12萬個概念、30萬個術(shù)語和127萬條語義關(guān)系,涵蓋了中醫(yī)藥學科體系及與之相關(guān)的生物、化工、哲學等學科的專業(yè)術(shù)語,在文獻檢索、文本挖掘、術(shù)語集成等方面得到了實際應用。
2中醫(yī)藥學語言系統(tǒng)發(fā)展歷程
從20世紀90年代開始,本體技術(shù)在醫(yī)學領(lǐng)域得到廣泛應用,在知識獲取、知識管理和信息檢索等方面發(fā)揮了積極的作用。UMLS是其中的一個代表性本體,它集合了來自100多個詞表中的100多萬個概念,用于提高計算機“理解”醫(yī)學信息的能力,促進醫(yī)學信息系統(tǒng)之間的互操作。注意到UMLS在醫(yī)學領(lǐng)域取得的成功,中醫(yī)藥工作者開始考慮將本體技術(shù)引入中醫(yī)藥領(lǐng)域,以中醫(yī)藥學科為主導且遵循中醫(yī)藥發(fā)展思路,研發(fā)基于本體的大型術(shù)語系統(tǒng)。2002年,信息所聯(lián)合全國13家單位正式啟動了TCMLS的建設(shè)工作。TCMLS從建立之初到目前為止,大體經(jīng)歷了3個階段。
2.1建設(shè)初始階段(2002—2005年)
在建設(shè)初期,尹愛寧等提出了建立TCMLS的方法學,制定了TCMLS的技術(shù)標準。Zhou XZ等則從信息技術(shù)角度提出了TCMLS的技術(shù)方案。這些研究為TCMLS的建設(shè)給出了科學合理的頂層設(shè)計和路線圖,為其長期健康發(fā)展奠定了基礎(chǔ)。在此階段,各單位加工人員采用單機版的Protege軟件分別加工各自的部分,再由信息所統(tǒng)一匯總。這一加工模式促成了多單位數(shù)百人協(xié)同共建,但所加工的數(shù)據(jù)難免有所重復和矛盾。
2.2迅速成長階段(2005—2009年)
從2005年開始,基于萬維網(wǎng)(Web)的加工平臺成功部署并投入使用。各單位加工人員得以在統(tǒng)一的網(wǎng)絡平臺上協(xié)同共建,免去了數(shù)據(jù)匯總的環(huán)節(jié)?;诰W(wǎng)絡的協(xié)作方式顯著提升了加工效率,使TCMLS的規(guī)模得以迅速增長。但加工人員的主觀性和專業(yè)水平差異等因素造成TCMLS的數(shù)據(jù)存在很多質(zhì)量問題,因此數(shù)據(jù)質(zhì)量保證和數(shù)據(jù)清洗技術(shù)成為研究重點之一。在系統(tǒng)建設(shè)的同時,學者們也針對系統(tǒng)設(shè)計和架構(gòu)等問題進行了反復研討,提出了一系列調(diào)整和改進方案。
2.3穩(wěn)定發(fā)展階段(2009—2014年)
經(jīng)過上一階段的大規(guī)模數(shù)據(jù)加工,TCMLS已收集了現(xiàn)代中醫(yī)藥文獻中出現(xiàn)的大部分概念和術(shù)語,其數(shù)據(jù)增量開始逐年放緩。在2009年,信息所與維思比科技(北京)有限公司合作,在成熟的商業(yè)軟件的基礎(chǔ)上,搭建了更為穩(wěn)定的網(wǎng)絡加工平臺。在完成平臺改造和數(shù)據(jù)清洗等工作之后,TCMLS系統(tǒng)的數(shù)據(jù)質(zhì)量得以顯著提升。隨著TCMLS的發(fā)展成熟,其在文獻檢索、文本挖掘、術(shù)語集成等諸多方面的應用研究漸趨活躍。TCMLS的設(shè)計理念和成功經(jīng)驗,也在中醫(yī)古籍語言系統(tǒng)、傳統(tǒng)針灸知識體系語義網(wǎng)絡等系統(tǒng)的建設(shè)中得以推廣。
3中醫(yī)藥學語言系統(tǒng)相關(guān)研究
中醫(yī)藥術(shù)語系統(tǒng)具有鮮明的語言、文化和學科特色,沒有現(xiàn)成的解決方案可以照搬。在TCMLS的建設(shè)中,從中醫(yī)藥特點和需求出發(fā),開展了許多創(chuàng)新性的研究工作。下面從方法學研究、標準化研究、分析與評價研究以及應用研究等方面,對相關(guān)文獻進行綜合分析。
3.1方法學研究
學者們針對TCMLS的建設(shè),開展了系統(tǒng)性的方法學研究。尹愛寧等提出“復雜度約定與限定方法”“多學科交融與碰撞方法”以及“本體論與詮釋論關(guān)聯(lián)應用方法”等3種方法,為TCMLS的設(shè)計和構(gòu)建提供了新思路和新方法。尹愛寧等還完成了TCMLS的頂層設(shè)計,包括概念分類框架、語義類型以及語義關(guān)系等內(nèi)容。方青、曾召、謝琪也針對TCMLS的設(shè)計理念、設(shè)計原則、系統(tǒng)架構(gòu)和構(gòu)建方法開展了研究和討論。
學者們還針對TCMLS所涉及的信息科學方法與技術(shù)開展了研究。Zhou XZ等、方青提出了TCMLS的技術(shù)方案,包括系統(tǒng)架構(gòu)、數(shù)據(jù)存儲、概念編碼方式、編輯工具、查詢服務等內(nèi)容。湯萌芽研發(fā)了基于Web的TCMLS加工平臺,支持多單位大量人員的協(xié)同加工。Mao YX等針對TCMLS的管理和維護開展研究,提出了基于子本體模型的本體演化方法,以支持大型本體的重用。崔蒙等研究如何通過自動化方法逐步提升TCMLS的數(shù)據(jù)質(zhì)量,提出了基于語義網(wǎng)絡的數(shù)據(jù)清洗策略。
3.2標準化研究
為協(xié)調(diào)多機構(gòu)大量人員的編審工作,需要建立科學合理的技術(shù)標準。早在2003年,尹愛寧等就為TCMLS制定了包括收詞原則、收詞標準、一級類目、語義類型、語義關(guān)系在內(nèi)的技術(shù)標準。這項標準在系統(tǒng)建立過程中發(fā)揮了重要作用。但其適用范圍僅限于TCMLS,其他中醫(yī)藥本體均不完全符合這套標準,由此造成本體系統(tǒng)之間的異構(gòu)性。可見,為使一套技術(shù)規(guī)范具有廣泛的影響力和約束力,需要在權(quán)威的標準化組織的框架下開展工作。
鑒于此,信息所于2008年,代表我國向國際標準化組織(ISO)健康信息學技術(shù)委員會(TC 215)提出了技術(shù)規(guī)范“Health informatics Semanticnetwork
framework of traditional Chinesemedicine language system”的項目提案,致力于在ISO框架下推進TCMLS語義網(wǎng)絡框架的國際標準化工作。該項目于2012年得到成功立項,于2013年3月形成草案并進入評審和投票環(huán)節(jié),并于2014正式發(fā)布。它在多術(shù)語系統(tǒng)融合、術(shù)語服務以及術(shù)語系統(tǒng)互操作等領(lǐng)域?qū)l(fā)揮基礎(chǔ)性作用。
3.3分析與評價研究
學者們針對TCMLS各方面進行分析與評價研究,以期發(fā)現(xiàn)其中存在的問題,促進TCMLS的發(fā)展與完善。例如,賈李蓉等對TCMLS中語義類型的使用情況進行分析,找出不合理的語義類型并建議刪去。楊陽等、賈李蓉、曹莉等針對TCMLS語義關(guān)系進行了深入的分析和探討。賈李蓉還建議對TCMLS語義關(guān)系進行調(diào)整,如增加“開竅于……”“與……相表里”等中醫(yī)特有的語義關(guān)系。李莎莎指出TCMLS分類框架存在問題,提出了分類指導原則以及改進的分類框架,使TCMLS詞庫分類更加合理。賈李蓉等從術(shù)語的收詞范圍、術(shù)語完整性等方面對基礎(chǔ)詞庫進行了分析,提出了改進意見。
2012年,賈李蓉等針對TCMLS開展了較為全面、系統(tǒng)的評價研究。結(jié)果表明,該系統(tǒng)學科分類非常合理,語義分類基本合理,系統(tǒng)完整性較好,但語義關(guān)聯(lián)的準確性較差??梢姡琓CMLS設(shè)計合理且具有相當規(guī)模,適合開展應用研究,其數(shù)據(jù)質(zhì)量問題可在實際使用中逐步完善。
另外,謝琪、曾召等先后對TCMLS與UMLS進行比較分析。結(jié)果表明,TCMLS雖然借鑒了UMLS的設(shè)計方法,但其結(jié)構(gòu)和內(nèi)容均有鮮明的中醫(yī)藥特色,從而充分肯定了TCMLS的獨特性和創(chuàng)造性。
3.4應用研究
TCMLS作為中醫(yī)藥學規(guī)模最大的本體,在中醫(yī)藥信息化的發(fā)展中發(fā)揮著重要的作用。如何利用如此大規(guī)模的術(shù)語資源成為現(xiàn)階段研究的重點問題。TCMLS在文獻檢索、文本語義關(guān)系發(fā)現(xiàn)、術(shù)語集成等方面已經(jīng)取得了實際應用,初步驗證了TCMLS的實用性。
3.4.1文獻檢索 TCMLS能解決中醫(yī)藥學中同一概念具有不同表達形式、同一種表達形式表達意思不同的問題,從而改進文獻檢索的效果。賈李蓉等研發(fā)了基于TCMLS的中醫(yī)藥文獻檢索服務平臺,它能提供術(shù)語檢索、文獻檢索及互聯(lián)網(wǎng)資源檢索等服務。該平臺利用TCMLS的術(shù)語信息實現(xiàn)了同義檢索、相關(guān)概念檢索等高級功能,提升了檢索結(jié)果的全面性和準確性。
3.4.2文本語義關(guān)系發(fā)現(xiàn) 在中醫(yī)藥文獻中蘊含著大量的關(guān)聯(lián)性知識,體現(xiàn)為概念之間的關(guān)聯(lián)關(guān)系。若能實現(xiàn)從文獻中自動抽取語義關(guān)系的技術(shù),則可大幅提升知識獲取的效率。陶金火等、張小剛、于彤等開展了基于TCMLS從文本中發(fā)現(xiàn)語義關(guān)系的一系列嘗試。挖掘出來的語義關(guān)系可與TCMLS的語義關(guān)系相結(jié)合,得到更為全面、準確的語義關(guān)系,從而擴充TCMLS的數(shù)據(jù)。
3.4.3術(shù)語集成 術(shù)語系統(tǒng)的應用實踐表明,單個術(shù)語系統(tǒng)往往難以滿足科研或臨床應用的需求,多術(shù)語系統(tǒng)的融合已成為實現(xiàn)術(shù)語系統(tǒng)實用化的先決條件之一。鑒于此,于彤等采用本體技術(shù)研發(fā)中醫(yī)藥術(shù)語集成系統(tǒng),將TCMLS、中醫(yī)古籍語言系統(tǒng)等多個術(shù)語系統(tǒng)集成在同一個平臺中,通過Web提供一站式的術(shù)語信息檢索與訪問服務,支持語言學家對語義網(wǎng)絡進行歸納、瀏覽和比較研究。
4中醫(yī)藥學語言系統(tǒng)發(fā)展方向
TCMLS已趨于成熟并取得成功應用,但仍存在許多值得研究的問題。例如,隨著TCMLS系統(tǒng)規(guī)模的擴大,如何對本體進行有效管理?如何通過自動化方法提升TCMLS的數(shù)據(jù)質(zhì)量,逐步實現(xiàn)數(shù)據(jù)規(guī)范化?TCMLS等中醫(yī)藥本體皆自成體系、互不兼容,如何實現(xiàn)各系統(tǒng)之間的關(guān)聯(lián)、協(xié)調(diào)與融合?現(xiàn)就TCMLS加工及應用2個方面討論其研究思路及發(fā)展方向。
4.1大規(guī)模本體工程協(xié)作
TCMLS是由全國多家單位、數(shù)百名領(lǐng)域?qū)<液献骷庸さ拇笮捅倔w系統(tǒng),如何支持多機構(gòu)的大規(guī)模協(xié)作始終是一個重要的技術(shù)問題。TCMLS建設(shè)之初,使用Protege進行加工。Protege是由斯坦福大學研制的一款本體編輯軟件,具有開源免費、安裝方便、用戶界面友好等優(yōu)點,因此得到了廣泛使用。但它是一款單機版的軟件,需要各單位人員分別加工,再將數(shù)據(jù)統(tǒng)一匯總,這一加工方式導致數(shù)據(jù)合并時出現(xiàn)大量重復和不匹配的問題。隨著系統(tǒng)規(guī)模逐漸擴大,這個問題變得越來越嚴重。
2005年,浙江大學研發(fā)了基于Web的TCMLS加工工具,使各單位人員可以通過網(wǎng)絡進行實時同步加工,從而提升了加工效率和數(shù)據(jù)的一致性。此后,網(wǎng)絡化加工工具經(jīng)過多次升級,與之配套的審校機制也不斷完善,形成了相對成熟的虛擬協(xié)作模式。
在未來的研究中,可將單機版Protege與Web平臺相結(jié)合,進一步優(yōu)化大規(guī)模本體工程的協(xié)作模式。未來可實現(xiàn)TCMLS的模塊化,使用Protege開發(fā)獨立的本體模塊,使用Web平臺維護共享的本體框架。用戶可將個人開發(fā)的本體模塊導入Web平臺中,與共享本體相融合;也可從平臺中導出本體模塊,通過Protege進行編輯、推理和查詢。簡單知識組織系統(tǒng)(simple knowledge organizationsystem,SKOS)為本體在Web上的發(fā)布和交換提供了一項推薦標準,能支持上述目標的實現(xiàn)。將TCMLS轉(zhuǎn)換為SKOS本體,為在Web平臺上完成本體發(fā)布、導入導出、本體融合等任務奠定了基礎(chǔ)。
4.2推進中醫(yī)藥學語言系統(tǒng)實際應用
TCMLS在中醫(yī)藥信息化中具有巨大的應用潛力。中醫(yī)藥領(lǐng)域已積累了大量的數(shù)據(jù)庫和海量文獻,但僅提供簡單的檢索功能。如何基于TCMLS整合中醫(yī)藥數(shù)字資源,建立一站式知識服務平臺,面向中醫(yī)藥工作者和社會大眾提供完整、準確、智能的知識服務,是TCMLS應用研究的核心問題。
近年來,谷歌知識圖譜(Google knowledgegraph)的巨大成功,使“知識圖譜”成為知識服務領(lǐng)域的新的研發(fā)熱點。TCMLS的大型語義網(wǎng)絡為構(gòu)建大型中醫(yī)藥知識圖譜奠定了基礎(chǔ)。在今后的研究中,可基于TCMLS將中醫(yī)藥領(lǐng)域主要的術(shù)語系統(tǒng)和數(shù)據(jù)庫集成在一起,形成以“語義網(wǎng)絡”為骨架的大型知識圖譜。知識圖譜是TCMLS的一種自然的擴充,其知識內(nèi)容更加豐富,因此更具服務價值。
在知識圖譜的基礎(chǔ)上,可進一步搭建語義維基系統(tǒng),面向網(wǎng)絡用戶提供百科全書式的知識服務;并參考維基用戶的編輯結(jié)果和反饋意見,不斷完善和豐富TCMLS的內(nèi)容,進而實現(xiàn)一站式的知識檢索服務,為用戶提供異構(gòu)數(shù)據(jù)庫和文獻庫的統(tǒng)一檢索。在此基礎(chǔ)上,可逐步實現(xiàn)知識推薦、知識地圖、知識問答、決策支持、關(guān)系推理等高級服務。
5小結(jié)
TCMLS是基于本體技術(shù)研制的大型術(shù)語系統(tǒng),它對中醫(yī)藥領(lǐng)域的概念和術(shù)語進行了系統(tǒng)梳理,為中醫(yī)藥術(shù)語規(guī)范化提供了基礎(chǔ)性工具。目前,TCMLS已初具規(guī)模,其應用推廣工作也在穩(wěn)步進行之中。TCMLS的建立是一項創(chuàng)新性工作,對于中醫(yī)藥術(shù)語標準化以及信息數(shù)字化的實現(xiàn)具有重大意義。TCMLS的成功表明,本體能很好地處理中醫(yī)藥領(lǐng)域中各種復雜的語言現(xiàn)象,是構(gòu)建中醫(yī)藥術(shù)語系統(tǒng)的有效手段。在國內(nèi)外尚缺乏構(gòu)建本體的成熟流程、方法和技術(shù)規(guī)范的情況下,TCMLS也為本體工程方法學的發(fā)展與完善做出了貢獻。