朱彥 喬幸潮 崔一迪 高曼 高博 王俊慧 尹仁芳
摘要:目的 ?研究和開發(fā)支持中醫(yī)和現(xiàn)代生物醫(yī)學(xué)本體和術(shù)語集的語義標注系統(tǒng)。方法 ?以MedPortal本體庫和中醫(yī)臨床術(shù)語集等為術(shù)語資源庫,設(shè)計語義標注系統(tǒng)工作流程和功能框架,并開發(fā)Web應(yīng)用系統(tǒng)。結(jié)果 ?構(gòu)建了一個基于Web的中醫(yī)藥文獻語義標注系統(tǒng),支持語料庫管理與維護、術(shù)語詞典管理、語義標注和語義檢索等功能,既可以為基于機器學(xué)習(xí)的信息抽取算法研究提供訓(xùn)練集,又能實現(xiàn)語義層面的多來源數(shù)據(jù)集成與知識融合。結(jié)論 ?該中醫(yī)藥文獻語義標注系統(tǒng)設(shè)計方案已經(jīng)過實際項目驗證,可為其他同類系統(tǒng)研發(fā)提供參考。
關(guān)鍵詞:中醫(yī)藥;文獻;語義標注;系統(tǒng)開發(fā)
中圖分類號:R2-03 ? ?文獻標識碼:A ? ?文章編號:2095-5707(2020)03-0005-04
Abstract: Objective To research and develop a semantic annotation system supporting ontology and terminology of TCM and modern biomedicine. Methods Taking MedPortal ontology repository and TCM clinical terminology system as term resources, the workflow and functional framework of semantic annotation system were designed and a web application system was developed. Results A web-based semantic annotation system was built, supporting corpus management and maintenance, term dictionary management, semantic annotation and semantic retrieval, etc., which could not only provide training set for the research of information extraction algorithm based on machine learning, but also realize the multi-source data integration and knowledge fusion at the semantic level. Conclusion The design scheme of the semantic annotation system of TCM literature has been verified by actual projects, and can provide a reference for the development of other similar systems.
Key words: TCM; literature; semantic annotation; system development
隨著生物醫(yī)學(xué)的發(fā)展,積累了越來越多的文獻資料。文獻數(shù)據(jù)是研究者獲取知識的重要來源,而方便快捷地從積累的文獻中檢索和獲取知識至關(guān)重要。由于文獻數(shù)據(jù)的增加,且大部分為非結(jié)構(gòu)化數(shù)據(jù),給知識檢索和數(shù)據(jù)挖掘增加了很大難度。語義標注就是在本體和資源之間構(gòu)建聯(lián)系,將數(shù)據(jù)智能化[1],是非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的重要過程。
在生物醫(yī)學(xué)領(lǐng)域,已有不少支持英文的標注系統(tǒng)開發(fā)與應(yīng)用的成功案例,例如,美國國立衛(wèi)生研究院(USA National Institutes of Health, NIH)開發(fā)的PubTator Central[2]。另外,基于本體的維基百科知識庫[3]、臨床文本語料庫等[4-5]也推動了本體在語義標注領(lǐng)域的應(yīng)用。近年來,國內(nèi)生物醫(yī)學(xué)領(lǐng)域也在本體構(gòu)建及社區(qū)建設(shè)方面發(fā)展很快,例如,“本體中國”社區(qū)及其本體庫MedPortal[6]。進行中文語義標注的重要前提是中文的本體術(shù)語資源。中醫(yī)藥領(lǐng)域也在本體研究和術(shù)語構(gòu)建方面取得了多項成果,包括中醫(yī)臨床術(shù)語系統(tǒng)[7-8]、中醫(yī)藥學(xué)語言系統(tǒng)(Traditional Chinese Medicine Language System, TCMLS)[9]等,這些本體術(shù)語資源為中文語義標注系統(tǒng)提供了很好的基礎(chǔ)。
雖然國內(nèi)對于語料標注領(lǐng)域一直都很關(guān)注并有一些研究[10-14],但現(xiàn)有開放的、可用的中文標注系統(tǒng),尤其是支持中醫(yī)和現(xiàn)代生物醫(yī)學(xué)本體和術(shù)語集的標注系統(tǒng)未見文獻報道。本研究以MedPortal本體庫和中醫(yī)臨床術(shù)語集等為術(shù)語來源,研究構(gòu)建基于自然語言處理的半自動化中醫(yī)藥文獻標注系統(tǒng)。
1 ?中醫(yī)藥文獻語義標注系統(tǒng)設(shè)計與實現(xiàn)
中醫(yī)藥文獻語義標注系統(tǒng)(以下簡稱“本系統(tǒng)”)面向中醫(yī)藥領(lǐng)域文獻自然語言處理的需求,構(gòu)建基本語料庫,同時也支持語料庫的持續(xù)維護??梢灾С謱?dǎo)入Excel格式詞匯表,也可以支持導(dǎo)入OWL(Web Ontology Language)數(shù)據(jù)。本系統(tǒng)采用MedPortal的中英文本體及中醫(yī)主題詞表、中醫(yī)臨床術(shù)語系統(tǒng)[7]等作為標注術(shù)語基礎(chǔ),共納入本體47個,術(shù)語100多萬條。
1.1 ?中醫(yī)藥文獻語義標注系統(tǒng)工作流程設(shè)計
⑴文本處理:將要標注的文本按照篇章結(jié)構(gòu)整理出目錄,轉(zhuǎn)換為標準的Excel格式的文檔,導(dǎo)入到標注系統(tǒng)中。⑵詞典管理:按照需要建立實體類型,并從MedPortal和中醫(yī)領(lǐng)域的術(shù)語集中導(dǎo)入術(shù)語,建立詞典。⑶標注:基于術(shù)語詞典,使用自然語言處理算法(Natural Langunge Possns, NLP)進行自動標注,并進行人工校對及補充。⑷導(dǎo)出:標注結(jié)果可以導(dǎo)出開發(fā)格式的語料庫,標注過程中識別出的新術(shù)語,可以擴充至系統(tǒng)的術(shù)語詞典(見圖1)。
1.2 ?中醫(yī)藥文獻語義標注系統(tǒng)功能設(shè)計
本系統(tǒng)具備以下5個功能:語料庫管理、術(shù)語詞典管理、文本標注、檢索、后臺管理(見圖2)。
1.2.1 ?語料庫管理 ?包括文本管理及語料庫導(dǎo)出。⑴文本管理:本系統(tǒng)支持批量文本上傳,原文檔在準備前應(yīng)將多級目錄數(shù)據(jù)整理成Excel格式,然后上傳到語料庫。一個語料庫中會包含若干個文檔。導(dǎo)出的語料庫作為后續(xù)機器學(xué)習(xí)的訓(xùn)練語料庫。 ?⑵語料庫導(dǎo)出:支持多種開放格式,如xml或Brat[15]等標準格式。
1.2.2 ?術(shù)語詞典管理 ?以語義類型單元來管理術(shù)語詞典,基于醫(yī)學(xué)一體化語言系統(tǒng)(Unified Medical Language System, UMLS)[16]和TCMLS[9,17]中的語義類型,在系統(tǒng)中建立所需的語義類型,每個語義類型包含一個術(shù)語詞典。
本系統(tǒng)支持MedPortal本體庫的術(shù)語導(dǎo)入,通過調(diào)用應(yīng)用程序接口(API)與MedPortal建立鏈接。MedPortal本體庫基于美國國家生物醫(yī)學(xué)本體中心(National Center for Biomedical Ontology, NCBO)的BioPortal系統(tǒng)的技術(shù),建立中國醫(yī)學(xué)本體資源庫,整合中文與外文醫(yī)學(xué)本體資源[18]。目前,MedPortal系統(tǒng)已整合生物醫(yī)學(xué)本體42個,建立了本體之間術(shù)語映射關(guān)系,并通過頁面和REST API方式,提供術(shù)語檢索、本體映射、數(shù)據(jù)標準化注釋等本體應(yīng)用服務(wù)。
用戶選定要導(dǎo)入的本體或者本體中的某個實體類,就可以將所選本體或?qū)嶓w類下的所有子節(jié)點批量導(dǎo)入到系統(tǒng)中。為了方便用戶查找,本系統(tǒng)還支持基于術(shù)語或標識ID的檢索、定位。例如,用戶輸入“cancer”,能查詢獲得節(jié)點的ID地址為“http://purl.obolibrary.org/obo/DOID_162”,并展示出該ID的樹形結(jié)構(gòu),進一步將該實體及其子節(jié)點的實體循環(huán)迭代導(dǎo)入進來。另外,與該術(shù)語為“has_exact_synonym(有準確同義詞)”關(guān)系的同義詞,也可以全部導(dǎo)入進來。系統(tǒng)還支持Excel格式的術(shù)語批量導(dǎo)入。本系統(tǒng)中的術(shù)語詞典包含術(shù)語ID、語義類型、概念I(lǐng)D等信息(見表1)。
1.2.3 ?語義標注 ?機器的初步標注都是依據(jù)詞典自動標注完成的。在標注過程中,可以選擇某一類或幾類實體,得到機器自動初步標注結(jié)果。自動標注的結(jié)果是可視的,會存在一些錯誤,可以直接修改自動標注的結(jié)果,也就是進行人工校對標注。人工校對的結(jié)果可以對詞典進行更新,用于下一個標注。這樣的迭代對模型進行了訓(xùn)練,對參數(shù)進行了調(diào)整,提高了模型自動標注的效率。本系統(tǒng)也具有增加同義詞的功能,可以標注選擇是否為首選詞或同義詞。
1.2.4 ?檢索 ?除了傳統(tǒng)的全文檢索模式,本系統(tǒng)還支持對標注結(jié)果進行語義檢索。例如,檢索“黃芪”,也可以檢索到標注了“黃耆”的文本段,反之亦然。因為這兩個術(shù)語對應(yīng)的概念I(lǐng)D是相同的。
1.2.5 ?后臺管理 ?包括用戶注冊、注銷及權(quán)限管理等功能。
1.3 ?開發(fā)工具與開發(fā)環(huán)境
本系統(tǒng)開發(fā)使用Java計算機語言,采用MVC設(shè)計模式和目前比較成熟的SpringMVC+ Spring+MyBatis框架。前端使用Html5作為開發(fā)語言,支持跨平臺開發(fā),并使用了Bootstrap等開發(fā)框架和工具,有效縮短了開發(fā)周期。
基于本系統(tǒng)設(shè)計方案,實現(xiàn)了各個功能模塊,目前已投入應(yīng)用到“皮膚病古籍知識庫”建設(shè)項目中。基于該語義標注系統(tǒng),用戶使用自動標注和人工審核相結(jié)合的模式,提高了工作效率。不同實體的標注結(jié)果可視化效果如圖3所示。
2 ?討論
基于本體的語義標注有助于多源信息識別和處理[19]。本體還使信息更加標準化,通過本體中的標準化術(shù)語,不同來源數(shù)據(jù)可以進行術(shù)語的統(tǒng)一,以消除認知差異,實現(xiàn)數(shù)據(jù)的整合與自動分析[20]。
本文介紹了中醫(yī)藥文獻語義標注系統(tǒng)的設(shè)計理念,并開發(fā)實現(xiàn)了該系統(tǒng)第一個版本,基本滿足現(xiàn)有語義標注工作的需求。下一步將繼續(xù)完善功能,包括支持實體關(guān)系的標注、實現(xiàn)供其他系統(tǒng)調(diào)用查詢功能接口、支持領(lǐng)域內(nèi)更多術(shù)語集和本體庫等。
后續(xù)系統(tǒng)的應(yīng)用場景包括:⑴面向自然語言處理的語料庫構(gòu)建。本系統(tǒng)能支持機器輔助人工的實體標注,并實現(xiàn)標注語料的管理功能,將標注好的語料按通用格式導(dǎo)出,可以為基于機器學(xué)習(xí)的信息抽取算法研究提供訓(xùn)練集,開發(fā)改進的算法又可以整合更新到標注系統(tǒng)中,提高機器標注效率,以此形成研究與應(yīng)用的閉環(huán)。⑵多來源的知識庫構(gòu)建。在本體庫和術(shù)語集的支持下,本系統(tǒng)可以對多來源、多領(lǐng)域的文獻數(shù)據(jù)實現(xiàn)統(tǒng)一語義框架下的標注,包括中醫(yī)藥領(lǐng)域和現(xiàn)代生物醫(yī)學(xué)領(lǐng)域的中英文文獻及中醫(yī)藥古代文獻等,從而真正實現(xiàn)語義層面的數(shù)據(jù)集成與知識融合。
參考文獻
[1] BANNOUR S, AUDIBERT L, SOLDANO H. Ontology-based semantic annotation: an automatic hybrid rule-based method[C]// Proceedings of the BioNLP Shared Task 2013 Workshop,2013.
[2] WEI C H, ALLOT A, LEAMAN R, et al. PubTator central: automated concept annotation for biomedical full text articles[J]. Nucleic Acids Research, 2019,47(W1):587-593.
[3] ONG E, HE Y Q. Community-based Ontology Development, Annotation and Discussion with MediaWiki extension Ontokiwi and Ontokiwi-based Ontobedia[J]. AMIA Joint Summits on Translational Science proceedings, 2016:65-74.
[4] ROBERTS A, GAIZAUSKAS R, HEPPLE M, et al. The CLEF Corpus: Semantic Annotation of Clinical Text[J]. Amia Annu Symp Proc, 2007:625-629.
[5] LóPEZ-GARCíA P, LEPENDU P, MUSEN M, et al. Cross-domain targeted ontology subsets for annotation: the case of SNOMED CORE and RxNorm[J]. Journal of Biomedical Informatics, 2014,47(2):105-111.
[6] HE Y Q,余紅,楊嘯林,等.本體:生物醫(yī)學(xué)大數(shù)據(jù)與精準醫(yī)學(xué)研究的基礎(chǔ)[J].生物信息學(xué),2018,16(1):7-14.
[7] 朱彥,賈李蓉,高博,等.中醫(yī)臨床術(shù)語系統(tǒng)V2.0設(shè)計與構(gòu)建[J].中國中醫(yī)藥圖書情報雜志,2018,42(3):10-15.
[8] 賈李蓉,劉靜,高博,等.中醫(yī)臨床術(shù)語系統(tǒng)V2.0病證類概念選取及關(guān)系設(shè)定[J].中華醫(yī)學(xué)圖書情報雜志,2017,26(12):26-29,55.
[9] 賈李蓉,于彤,崔蒙,等.中醫(yī)藥學(xué)語言系統(tǒng)研究進展[J].中國數(shù)字醫(yī)學(xué),2014,9(10):57-59,62.
[10] 趙芳芳.面向中文電子病歷的詞性標注技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[11] 于曉繁.基于本體和元數(shù)據(jù)的語義標注平臺模型與系統(tǒng)架構(gòu)研究[D].淄博:山東理工大學(xué),2012.
[12] 楊舟.基于自然語言處理的專利文檔自動語義標注方法研究[D].杭州:浙江大學(xué),2011.
[13] 竇玉萌,趙丹群.協(xié)作標注系統(tǒng)研究綜述[J].現(xiàn)代圖書情報技術(shù), 2009(2):9-17.
[14] 廖述梅.基于本體的語義標注原型評述[J].計算機工程與科學(xué), 2006,28(9):123-125,128.
[15] TSENETORP P, PYYSALO S, TOPIC G, et al. Brat: a Web-based Tool for NLP-Assisted Text Annotation[C]// Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, 2012.
[16] KASHYAP V. The UMLS? Semantic Network and the Semantic Web[J]. Amia Annu Symp Proc, 2003:351-355.
[17] 賈李蓉,李海燕,劉靜,等.中醫(yī)藥學(xué)術(shù)語系統(tǒng)研究概述[J].中國中醫(yī)藥圖書情報雜志,2015,39(5):7-10.
[18] PAN H, ZHU Y, YANG S, et al. Biomedical ontologies and their development, management, and applications in and beyond China [J]. Journal of Bio-X Research, 2019,2(4):178-184.
[19] TORNIAI C, BRUSH M, VASILEVSHY N, et al. Developing an Application Ontology for Biomedical Resource Annotation ? and Retrieval: Challenges and Lessons Learned[C]// International Conference on Biomedical Ontology. Buffalo, 2011:101-108.
[20] YANG X L, WANG Z, PAN H J, et al. Ontology: Footstone for Strong Artificial Intelligence[J]. Chinese Medical Sciences Journal, 2019,34(4):277-280.
(收稿日期:2020-04-08)
(修回日期:2020-04-30;編輯:魏民)