国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中醫(yī)藥本體研究思考與展望
——從術語集到本體集*

2022-10-13 09:48徐靜雯
醫(yī)學信息學雜志 2022年8期
關鍵詞:生物醫(yī)學頂層術語

朱 彥 徐靜雯

(中國中醫(yī)科學院中醫(yī)藥信息研究所 北京 100700) (長春中醫(yī)藥大學醫(yī)藥信息學院 長春 130117)

1 引言

如何從海量數(shù)據(jù)中獲取高價值的知識是當前生物醫(yī)學大數(shù)據(jù)研究領域最大挑戰(zhàn)之一。語義標準化是打破“信息孤島”,實現(xiàn)多源數(shù)據(jù)的無歧義融合,確保數(shù)據(jù)用戶群體有效共享、使用的有效途徑,也是當前研究難點和熱點之一。本體作為支持異構信息語義層面的標準化和互操作、實現(xiàn)智能分析處理的有效手段[1],已經(jīng)在生物醫(yī)學數(shù)據(jù)分析、檢索、整合、共享與再利用等場景中發(fā)揮越來越重要的作用[2]。目前中醫(yī)藥信息標準化尤其是術語標準化工作已取得一定成效,陸續(xù)發(fā)布各級術語、編碼、范疇框架等標準,并開發(fā)詞表、術語集等知識組織系統(tǒng)。以此為基礎,關于中醫(yī)藥領域本體的研究與開發(fā)逐漸成為中醫(yī)藥語義標準化研究的熱點之一。筆者對近10年來中醫(yī)藥領域本體研究進行文獻調(diào)研、篩選和統(tǒng)計,梳理中醫(yī)藥領域內(nèi)現(xiàn)有本體研究進展、本體主題分布情況,對當前中醫(yī)藥本體研究仍存在的不足進行回顧和思考。在此基礎上提出現(xiàn)有本體研究的關鍵問題和重點方向,結合生物醫(yī)學本體研究最新進展和趨勢,提出“中醫(yī)藥本體集”的倡議,以期形成開放、共享的中醫(yī)藥領域基礎資源,為中醫(yī)藥多源數(shù)據(jù)整合和智能分析處理提供支持。

2 回顧與思考

2.1 現(xiàn)有知識組織系統(tǒng)為本體研究奠定堅實基礎

2.1.1 知識組織系統(tǒng)內(nèi)涵 目前在中醫(yī)藥標準化領域已構建和發(fā)布涵蓋各子領域的術語標準、語義分類框架,開發(fā)了一些術語集產(chǎn)品。這些不同結構和受控程度的研究成果,在知識組織系統(tǒng)(Knowledge Organization Systems, KOS)視角下會更清晰。知識組織系統(tǒng)是對人類知識結構進行表達和有組織闡述的各種語義工具的統(tǒng)稱,是對重復性術語和概念的統(tǒng)一規(guī)定,包括分類法、敘詞表、語義網(wǎng)絡、概念本體及其他情報檢索語言與標引語言[3]。而本體作為知識組織系統(tǒng)的新興高級形式,用人和計算機分別可以理解的自然語言和邏輯語言描述某一領域內(nèi)的實體及實體之間的相互關系,從而提供對某領域內(nèi)事物本質(zhì)的統(tǒng)一認識[4],見圖1。

圖1 知識組織系統(tǒng)類型分布情況[3]

2.1.2 中醫(yī)藥領域內(nèi)現(xiàn)有典型知識組織系統(tǒng)分類 這些傳統(tǒng)的知識組織系統(tǒng)為中醫(yī)藥領域本體構建提供了豐富的術語資源和模型參考,研究者以此為基礎開展諸多子領域的本體建設及應用研究工作。對中醫(yī)藥領域內(nèi)現(xiàn)有典型的知識組織系統(tǒng)進行分類梳理,見表1。

表1 中醫(yī)藥和現(xiàn)代生物醫(yī)學領域典型的KOS統(tǒng)計

續(xù)表1

2.2 開放共享提升研究水平和應用價值

當前科學數(shù)據(jù)開放共享已成為全球共識,其對于減少重復建設、提升科學數(shù)據(jù)應用價值具有重要意義[24]。由于版權等利益因素影響,傳統(tǒng)標準大多以收費紙質(zhì)出版物形式發(fā)布。中醫(yī)藥信息標準主要是由計算機使用,紙質(zhì)版信息標準尤其是術語標準給術語推廣應用帶來阻力。針對此問題,術語標準發(fā)布格式逐步改善,近期發(fā)布的中醫(yī)病證分類等國家標準采用Word和Excel格式,能極大方便標準的推廣使用。如果以紙質(zhì)版配合數(shù)據(jù)庫格式或者萬維網(wǎng)本體語言(Web Ontology Language,OWL)等本體開放格式進行發(fā)布,將進一步方便使用與共享[25]。

2.3 語義互操作是多源異構數(shù)據(jù)整合分析的關鍵

2.3.1 概述 FAIR原則已成為科學數(shù)據(jù)管理的國際準則[26],該原則倡導科研活動產(chǎn)出的數(shù)據(jù)在開放共享過程中努力實現(xiàn)數(shù)據(jù)可查找(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可復用(Reusable)。這4個目標層層遞進,其中可互操作最為關鍵。本體作為一種特殊數(shù)據(jù)也需要實現(xiàn)可互操作,尤其是語義層面的互操作,才能充分發(fā)揮對異構知識與數(shù)據(jù)整合分析的關鍵作用。

2.3.2 與已有標準、術語集或領域本體的復用和協(xié)調(diào) 本體提供對某領域內(nèi)事物本質(zhì)的統(tǒng)一認識,其本質(zhì)決定需要對領域內(nèi)現(xiàn)有語義標準、術語集或其他權威領域本體進行協(xié)調(diào)、復用或映射,強大的語義表達能力可支持其實現(xiàn)這一目標?!吨腥A人民共和國藥典》和國家標準因面向需求不同,同樣的術語其概念的粒度和內(nèi)涵可能存在差異,本體模型通過不同層級的概念模型,能有效協(xié)調(diào)此類語義差異,支持不同來源和標準下的數(shù)據(jù)集成與分析,見圖2。術語集或本體之間實現(xiàn)語義層面互操作最高效的方法是直接引用或復用。在構建本體過程中應首先考慮參考復用相應周圍本體以實現(xiàn)知識的復用和共享,盡量確保同一術語不出現(xiàn)在多個本體中,即確保正交性(orthogonality)[27]。未來科學大數(shù)據(jù)發(fā)展方向是實現(xiàn)不同領域不同電子信息的互通互用。在本體方面需要以一致方式開發(fā),盡量使用通用頂層本體并復用周圍領域本體,這也是本體構建的原則之一。

圖2 使用本體模型協(xié)調(diào)不同標準示例

2.3.3 頂層本體或框架研究 在本體構建過程中頂層本體提供領域本體所需的先輩術語,進而提供公共總體框架。中醫(yī)藥領域頂層本體是在語義層面總結中醫(yī)藥知識的基本概念框架,是中醫(yī)藥領域本體與通用頂層本體連接的基礎[28]。高成勉、包含飛和周強[29]提出一系列本體構建原則,并對中醫(yī)頂層本體構建以及應用進行初步探索,以期實現(xiàn)中醫(yī)、西醫(yī)及其他領域知識的共享互通。參照統(tǒng)一醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)中醫(yī)藥學語言系統(tǒng)語義網(wǎng)絡框架國際標準化組織(International Organization for Standardization,ISO)標準技術規(guī)范[30]為中醫(yī)藥頂層實體及關系提供上層框架。龍海、賈李蓉和朱玲等[31]嘗試將中醫(yī)臨床術語系統(tǒng)頂層分類與基本形式化本體(Basic Formal Ontology,BFO)進行比較和映射。Long H、Zhu Y和 Jia L等[32]將中醫(yī)藥語言系統(tǒng)(Traditional Chinese Medicinc Language System,TCUMLS)語義網(wǎng)絡框架基于通用形式化本體(General Formal Ontology,GFO)進行映射和本體化?;诒倔w論領域頂層概念梳理辨析研究方面,主要在中藥子領域有少量研究。如劉麗紅、賈李蓉和朱彥等[33]基于本體論的概念建模方法明確中藥子領域核心概念內(nèi)涵和關系,初步完成中藥子領域核心概念語義框架構建。上述研究為后續(xù)研究帶來重要啟示。一方面,領域中的頂層本體能對中醫(yī)藥領域本體構建提供參考和指導,但同時需要對其哲學基礎進行深入研究和辨別,考察其與中醫(yī)藥概念的適用性,尤其是涉及陰陽、五行等哲學層面的相關概念;另一方面,還需要加強基于本體論對中醫(yī)藥領域內(nèi)頂層概念的梳理研究,現(xiàn)有教材和國家標準中的中醫(yī)藥頂層概念往往是復合性的,需要仔細梳理辨析,借助本體論和邏輯學等工具將其拆解并明晰其間的區(qū)別和關系,形成初步語義框架,進而支持中醫(yī)藥領域頂層本體的最終形成。

2.4 形式化語義表達增強本體功能

現(xiàn)有主流本體語義OWL基于描述邏輯(Description Logics,DLs)進行形式化語義表達,實現(xiàn)知識的可計算性,從而支持本體邏輯推理和數(shù)據(jù)驗證等功能[34]。如使用OWL語言對藥典附錄中的“黑老虎根”和“廣西海風藤”不同概念的內(nèi)涵進行形式化表達,計算機能自動推斷出兩者的層級關系,見圖3?,F(xiàn)有研究對形式化定義的技術實現(xiàn)進行了一些探索,然而中醫(yī)藥核心概念的形式化定義尤其是全等關系的定義工作仍處于探索階段?,F(xiàn)有ICD-11在傳統(tǒng)醫(yī)學中醫(yī)疾病和證候部分未見其特征屬性和擴展定義的規(guī)則。究其原因,一方面由于缺少頂層本體的指導以及中醫(yī)藥領域頂層概念的梳理和定義,直接影響下層概念準確定義;另一方面,制定基于描述邏輯的定義,需要中醫(yī)藥領域?qū)<乙约坝嬎銠C、邏輯學等交叉背景的專家協(xié)作。

圖3 形式化定義支持自動推理示例

2.5 以應用驅(qū)動本體更新完善

以最成功的本體——基因本體(Gene Ontology, GO)為例,其最寶貴的組成部分在于基于GO的注釋數(shù)據(jù)庫和與之配套的分析方法和工具[14,35-36]?,F(xiàn)有本體應用研究在針對臨床應用方面主要聚焦基于專病的臨床診療知識表達,以支持輔助決策;文獻數(shù)據(jù)應用主要是利用本體進行知識分類和映射,增強檢索功能。從本體構建到應用主要還是使用成熟技術棧,包括本體編輯工具Protégé、SWRL規(guī)則語言、本體操作框架Jena、RACER和Pellet推理機等,二次開發(fā)應用系統(tǒng)。后續(xù)還要面向?qū)嶋H應用需求加強類似支持本體的語料注釋系統(tǒng)[37]、診斷系統(tǒng)[38]、副作用預測方法[39]等相關應用研究,構建注釋數(shù)據(jù)庫、分析算法和應用工具系列集合,在實踐中驗證所構建本體的合理性和完備性,不斷驅(qū)動其更新和完善。

3 倡議與展望

3.1 本體構建相關研究進展

3.1.1 國外 開放式生物與生物醫(yī)學本體工場(The Open Biological and Biomedical Ontologies (OBO) Foundry)[40]作為當前影響力最大的生物醫(yī)學本體開發(fā)國際社區(qū)提出一系列本體開發(fā)原則,全面支持開發(fā)具有互操作性并可以方便應用于大數(shù)據(jù)標準化的本體體系[41]。目前OBO Foundry庫中已有兩百多個本體,術語總量超過200萬。

3.1.2 國內(nèi) 為加速國內(nèi)生物醫(yī)學本體研究,完善本體共享和使用,國家人口與健康科學數(shù)據(jù)中心于2017年牽頭成立“中國生物醫(yī)學信息本體聯(lián)合工作組(OntoChina)”[42],希望通過廣泛協(xié)作將先進的本體構建理念和模式引入國內(nèi),建設服務于國內(nèi)生物醫(yī)學信息相關領域的本體資源,促進生物醫(yī)學本體在科學研究和健康產(chǎn)業(yè)的應用。OntoChina引入并翻譯基本形式化本體[43]、科學研究本體(Ontology for Biomedical Investigations,OBI)、關系本體(Relation Ontology,RO)、通用醫(yī)學本體(Ontology for General Medical Science,OGMS)、人類表型本體(Human Phenotype Ontology,HPO)等,并通過MedPortal平臺供免費瀏覽和下載使用。筆者牽頭組織并翻譯了麻省理工學院(Massachusetts Institute of Technology,MIT)出版社Barry Smith等撰寫的BFO本體著作。該著作是國內(nèi)第1部系統(tǒng)介紹BFO及其本體構建理論、方法和技術的書籍。筆者團隊借鑒OBO Foundry本體開發(fā)原則和可擴展互操作性本體的方法嘗試構建第1個基于頂層本體BFO的傳統(tǒng)中藥本體(Traditional Chinese Drug Ontology,TCDO)[5],并通過復用物種分類本體和植物解剖本體,實現(xiàn)與現(xiàn)代生物醫(yī)學知識體系的互聯(lián)互通。

3.2 構建中醫(yī)藥本體集的倡議

為了更好地推動中醫(yī)藥領域內(nèi)本體研究與落地應用,對近年來中醫(yī)藥領域本體的研究進行回顧和思考,總結學習成功經(jīng)驗,針對不足和問題,提出共同構建中醫(yī)藥本體集(TCM Ontology Set,TCM-OS)的倡議。最終目標是成為中醫(yī)藥信息化領域語義標準化的基礎資源。借鑒OBO Foundry等先進的本體理論、方法和技術,構建可互操作、語義表達規(guī)范的中醫(yī)藥領域本體集合。該本體集具有統(tǒng)一的中醫(yī)藥領域頂層本體,模塊化的子領域本體,并兼顧生物醫(yī)學知識融合。共同研究、開發(fā)和推廣基于本體的數(shù)據(jù)庫和算法工具,以開放共享模式聯(lián)合相關領域(中醫(yī)藥、計算機、哲學、邏輯學等)學者、專家共同參與研發(fā),企業(yè)參與驗證和推廣應用。學術應用免費開放使用,商業(yè)應用靈活授權以支持持續(xù)的學術研究。依托OntoChina和行業(yè)學會推動中醫(yī)藥領域本體研究社區(qū)建設。

4 結語

隨著科學研究進入“大數(shù)據(jù)+大科學=大發(fā)現(xiàn)”的數(shù)據(jù)驅(qū)動時代,中醫(yī)藥研究呈現(xiàn)出多源異構數(shù)據(jù)、多學科、多層次、多環(huán)節(jié)的整合研究趨勢。高質(zhì)量、可互操作的本體能提供人機可讀的規(guī)范語義標準共識,被認為是實現(xiàn)異構知識與數(shù)據(jù)整合分析解決方案的關鍵性環(huán)節(jié)之一。當前生物醫(yī)學本體研究發(fā)展迅速,中醫(yī)藥領域本體研究更是方興未艾,機遇與挑戰(zhàn)并存,應廣泛開展國內(nèi)與國際合作,共同研究開發(fā)中醫(yī)藥本體集,以期為提升中醫(yī)藥領域本體的整體研究水平,推動中醫(yī)藥信息化建設和科學研究提供更有力支持。

猜你喜歡
生物醫(yī)學頂層術語
廣西醫(yī)科大學生物醫(yī)學工程一流學科建設成效
蠑螈的皮膚受傷后可快速愈合
從頂層設計到落地實施
汽車頂層上的乘客
頂層住戶的無奈——滲漏篇
文學術語詞典中的“經(jīng)典”:艾布拉姆斯的《文學術語匯編》
納米機器人及其發(fā)展研究
车致| 龙陵县| 清镇市| 裕民县| 湖北省| 望奎县| 志丹县| 四会市| 乌拉特后旗| 朔州市| 凤凰县| 布尔津县| 泰安市| 乐都县| 扎兰屯市| 肇东市| 连江县| 京山县| 永昌县| 迭部县| 昆明市| 绥阳县| 咸丰县| 远安县| 临沂市| 辽宁省| 边坝县| 万山特区| 井冈山市| 柳河县| 江北区| 上犹县| 禄劝| 贵州省| 芮城县| 汝州市| 白银市| 社旗县| 望江县| 桦南县| 灌云县|