李榮耀,徐 倩,吳雨璐,劉秀峰
(廣州中醫(yī)藥大學醫(yī)學信息工程學院,廣州 510006)
中醫(yī)經(jīng)典博大精深,源遠流長,歷代醫(yī)家在數(shù)千年的實踐中總結(jié)了豐富的臨床經(jīng)驗,形成了完整的知識體系。其不僅傳承了中醫(yī)藥學理論知識,而且記載了歷代醫(yī)藥學家防病治病的醫(yī)理醫(yī)術(shù)和方藥研究成果,有著寶貴的科研價值和臨床價值。其中,《本草綱目》作為中國傳統(tǒng)醫(yī)藥學的集大成者,被譽為“東方醫(yī)學巨典”。它不僅僅是一部醫(yī)藥巨著,全面系統(tǒng)地總結(jié)了明朝中期以前藥物學的成就,影響了后世中醫(yī)、中藥學的發(fā)展,還是一部世界性的博物學著作,書中涉及內(nèi)容廣泛,囊括了天文、地理、生物、化學、地質(zhì)、采礦乃至歷史方面,把我國醫(yī)藥科學提高到了一個新的水平,具有劃時代的意義。
隨著知識的爆炸式增長,知識圖譜悄然興起,成為知識管理領(lǐng)域中的一項新興技術(shù),知識圖譜在知識管理、語義搜索、問答等領(lǐng)域得到了廣泛的應用。知識圖譜作為一種知識表示、存儲的手段,因其表達能力強、擴展性好,并能夠兼顧人類認知與機器自動處理,被認為是解決深度學習可解釋性和認知智能長期挑戰(zhàn)等困境的一種手段。不僅便于知識的管理和保存,同時還能通過可視化的方式直觀地展示相關(guān)知識架構(gòu)及其依賴關(guān)系,幫助人們理解和學習知識。因此,充分利用知識圖譜技術(shù)將《本草綱目》結(jié)構(gòu)化存儲與展示是時代的選擇。此外,《本草綱目》中的草藥等實體具有大量的圖片資源,若能將其一并融合到知識圖譜中,將大大擴展知識圖譜的可視化結(jié)構(gòu),具有一定的研究意義。
知識圖譜的早期理念是萬維網(wǎng)之父Tim Berners-Lee 關(guān)于語義網(wǎng)的超級設想,目的在于采用圖結(jié)構(gòu)來建模和記錄世界萬物之間的知識和關(guān)聯(lián),以便實現(xiàn)更加精準的對象級搜索。知識圖譜從語義角度出發(fā),以事實三元組的形式描述客觀世界中的實體及其關(guān)系,將實體抽象為節(jié)點,將關(guān)系抽象為邊,通過結(jié)構(gòu)化的形式對知識進行建模,是一種用圖模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法。知識圖譜的數(shù)據(jù)來源不僅可以是文本,也可以是圖片、視頻、音頻等視覺或聽覺等多模態(tài)顯示的數(shù)據(jù)。模態(tài),是一種生物學概念,指感官條件下事物發(fā)生或存在的方式。這里的多模態(tài)就是指語言、視覺、聽覺等不同模態(tài)通道的融合,能夠充分融合利用多種模態(tài)數(shù)據(jù)的知識圖譜就叫做多模態(tài)知識圖譜。
作為一種表示和存儲知識的手段,知識圖譜本身的可推理、可解釋性表現(xiàn)較好。結(jié)合多模態(tài)的知識圖譜不僅可以提高視覺和聽覺識別的性能,而且視覺、聽覺等多模態(tài)信息可以用來擴展知識圖譜,具有實物演示、消除歧義、補充細節(jié)的作用,兩者相輔相成。作為承載底層海量知識并支持上層智能應用的重要載體,知識圖譜實現(xiàn)多模態(tài)融合的重要性不言而喻。
現(xiàn)有多模態(tài)知識圖譜的研究統(tǒng)計,多模態(tài)知識圖譜的構(gòu)建在傳統(tǒng)知識圖譜構(gòu)建基礎(chǔ)上,經(jīng)歷了早期的圖數(shù)據(jù)庫時代和近期數(shù)據(jù)規(guī)模更加龐大、關(guān)系更加復雜的圖譜資源庫時代。表1為部分現(xiàn)有可視化數(shù)據(jù)資源和多模態(tài)知識圖譜。目前國內(nèi)外有學者圍繞多模態(tài)構(gòu)建開展研究,譬如多模態(tài)信息提取、表示學習等方面。如李直旭等以教材、大綱、網(wǎng)絡資源等為依據(jù),對知識點進行分類匯總,構(gòu)建了多模態(tài)教學知識圖譜。劉昱然面向黨建領(lǐng)域,從第三方平臺獲取了文本、圖片、視頻數(shù)據(jù),構(gòu)造了多模態(tài)數(shù)據(jù)集,提出了標簽對齊的多模態(tài)數(shù)據(jù)融合方法(LCSMMF)。司徒凌云等提出了基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建技術(shù)體系。Li提出了一種基于教育詞典的微調(diào)雙向編碼器表示(BERT)模型,添加了雙向長短期記憶條件隨機場(BiLSTM-CRF),用以識別教育實體,同時重點收集了教師語音,構(gòu)建了多模態(tài)知識圖譜。綜上,領(lǐng)域內(nèi)多模態(tài)知識圖譜的構(gòu)建研究已經(jīng)初見雛形。
表1 部分現(xiàn)有可視化數(shù)據(jù)資源和多模態(tài)知識圖譜
目前,在中醫(yī)藥領(lǐng)域,知識圖譜主要被用于處理結(jié)構(gòu)化的文本數(shù)據(jù),而對半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的研究和應用則相對較少,對中醫(yī)經(jīng)典《本草綱目》以及相關(guān)圖像等多模態(tài)信息的整理和研究比較少見,因此,如何構(gòu)建《本草綱目》的多模態(tài)知識圖譜是一個急需探索和挖掘的問題。
多模態(tài)知識圖譜的構(gòu)建通常有兩種方法:用文字標記圖像或者將圖像定位到實體。本文基于中醫(yī)經(jīng)典《本草綱目》和權(quán)威標準,通過數(shù)據(jù)清洗、實體抽取等自然語言處理方法從文本數(shù)據(jù)中抽取實體,參考《中醫(yī)藥學語言系統(tǒng)語義網(wǎng)絡框架》中的語義關(guān)系和相關(guān)文獻對《本草綱目》中的關(guān)系進行歸納,得到“實體-屬性-屬性內(nèi)容”和“實體-關(guān)系-實體”的三元組模型,利用模糊查找等方法在項目組自建的基本中藥、癥狀等圖片庫中得到對應圖片,進而通過知識融合將知識導入neo4j 圖數(shù)據(jù)庫,形成了《本草綱目》的多模態(tài)知識圖譜,總體流程見圖1。為控制實體、關(guān)系及其圖片的相對準確性,起初的數(shù)據(jù)清洗和最終的數(shù)據(jù)融合均進行了必要的人工審查工作。
圖1 《本草綱目》多模態(tài)知識圖譜構(gòu)建總體流程
本研究的數(shù)據(jù)處理對象為.txt 格式的中醫(yī)經(jīng)典古籍《本草綱目》。《本草綱目》共52 卷,載藥1892 種,分為16 部,部之下又分為60 類,類中許多同科草藥通常排列在一起。一藥名下列8 個項目,具體介紹如表2 所示。此書采用“目隨綱舉”編寫體例,同時以《證類本草》為藍本加以變革。
表2 《本草綱目》各藥下8個項目的介紹
此書不僅繼承和總結(jié)了以前的本草學成就,還考證了過去本草學中的若干錯誤,綜合大量科學資料,結(jié)合豐富的臨床實踐經(jīng)驗,提出了較科學的藥物分類方法,融入了先進的生物進化思想,對科研、臨床、教學有重要的參考價值。
在文本處理的過程中,本研究使用微軟的Visual Studio Code 編輯工具。與其他工具相比,Visual Studio Code 屬于輕量級的編輯器,啟動速度快,插件豐富,便于觀察文本規(guī)律,進行文本的高級處理。在獲取草藥、疾病等圖片過程中,本研究以PyCharm為編程環(huán)境,在構(gòu)建多模態(tài)知識圖譜過程中,本研究使用圖數(shù)據(jù)庫neo4j。圖數(shù)據(jù)庫(graph database)并非指存儲圖片的數(shù)據(jù)庫,而是以“圖”這種數(shù)據(jù)結(jié)構(gòu)存儲和查詢數(shù)據(jù),目前圖數(shù)據(jù)庫中比較典型的產(chǎn)品便是neo4j。
《本草綱目》中每一味中藥的藥名、釋名、氣味以及主治疾病均較為結(jié)構(gòu)化,格式較為固定,不同數(shù)據(jù)均以特定的標點符號分隔。雖然疾病名稱、藥物用法、服用劑量和方劑名稱的文本較為分散,格式較為不一致,但也是半結(jié)構(gòu)化的數(shù)據(jù)。其部分原文如圖2所示。
圖2 《本草綱目》部分原文
本文依據(jù)“釋名”、“氣味”等特定名稱及“冒號”、“句號”等在特定位置的標點符號來匹配目標,使用Visual Studio Code 工具中的“正則表達式替換”和“更改所有匹配項”等方法對原文進行整理,如圖3所示。
圖3 《本草綱目》的整理環(huán)境
再用類似方法格式化文本,同時利用Visual Studio Code 右側(cè)預覽中的黃色提示人工審查文本的數(shù)據(jù)缺失、部分標點符號不規(guī)范、數(shù)據(jù)不整齊等問題,據(jù)此對文本進行人工補全、規(guī)范化等操作,得到處理后的文本,部分如圖4所示。
圖4 部分規(guī)范化后的《本草綱目》
實體與關(guān)系構(gòu)建是一個比較復雜的過程,最終任務是實現(xiàn)實體抽取和關(guān)系抽取。實體抽取是指從非結(jié)構(gòu)化的文本數(shù)據(jù)集中提取有意義的實體,并將其歸類?,F(xiàn)代較為自動化的抽取方法,最常用的是有監(jiān)督的抽取方法,尤其是面向深度學習的神經(jīng)網(wǎng)絡模型,雖然其自動化水平較高,但一般較難得到準確的結(jié)果,通常需要人工對其抽取結(jié)果進行評估和審查修改,加之前期的數(shù)據(jù)集整理,仍需要耗費大量人力。本文認為,對于專業(yè)性強且較為結(jié)構(gòu)化的中醫(yī)典籍的實體抽取仍需基于文本規(guī)則的方法,于是本文參考《中醫(yī)藥學語言系統(tǒng)語義網(wǎng)絡框架》,基于文本規(guī)律構(gòu)建抽取規(guī)則,使用正則表達式替換、字段分割等方法,抽取《本草綱目》的實體和關(guān)系。
《中醫(yī)藥學語言系統(tǒng)語義網(wǎng)絡框架》(GB/T 38324-2019)是一項國際標準,該標準是由中國中醫(yī)科學院中醫(yī)藥信息研究所研究員崔蒙團隊歷時3 年制成。其規(guī)定了中醫(yī)藥學語言系統(tǒng)的語義概念、語義類型和語義關(guān)系,并對其進行了詳細定義。本文在參考該標準中實體類型和關(guān)系類型的基礎(chǔ)上,查閱了《本草綱目》的相關(guān)文獻,同時聯(lián)系實際應用,得到了《本草綱目》的5 個實體類型、5 種關(guān)系和6 個中藥實體屬性,如表3所示。
表3 《本草綱目》實體、屬性、關(guān)系列表
實體和關(guān)系的三元組字典的構(gòu)建是形成知識圖譜的先決條件,這項任務決定著知識圖譜的最終形態(tài)。文本處理后的《本草綱目》數(shù)據(jù)規(guī)整,便于通過程序處理得到實體、屬性和關(guān)系。本研究主要通過Python 中的字符串分割和正則表達式匹配方法,構(gòu)建“實體-屬性-值內(nèi)容”的三元組字典,舉例如表4所示。其中,部分中藥的屬性又各不相同,但最終都是為各中藥的信息作補充。同時,構(gòu)建了“實體-關(guān)系-實體”的三元組字典,舉例如表5所示。
表4 “實體-屬性-值內(nèi)容”的三元組字典舉例
表5 “實體-關(guān)系-實體”的三元組字典舉例
多模態(tài)知識圖譜實現(xiàn)了多種模態(tài)數(shù)據(jù)的融合。在上文整理得出實體類型中,中藥、疾病等實體均可在網(wǎng)絡上找到相關(guān)圖片。本研究根據(jù)分離出的實體在項目組自建的基本中藥、癥狀圖片網(wǎng)絡數(shù)據(jù)庫中設計模糊查詢程序找到相關(guān)圖片實體和鏈接,構(gòu)建具有文本、圖片兩種模態(tài)的《本草綱目》的多模態(tài)知識圖譜。對于一些相對少見且難以使用程序?qū)ふ业膶嶓w圖片,通過人工查找的方法對數(shù)據(jù)進行補全,最后通過人工審查與修正,以保證實體與圖片的對應與準確。最終共計得到770張中藥實體圖片,25張中藥產(chǎn)物實體圖片,3881張癥狀實體。
本文使用實體圖片對應的網(wǎng)絡鏈接,更新實體字典,在基于已經(jīng)結(jié)構(gòu)化表示的實體基礎(chǔ)上,為其添加圖片信息,整合、擴充構(gòu)建的實體字典,通過程序一并導入到neo4j 圖數(shù)據(jù)庫中,實現(xiàn)《本草綱目》知識圖譜的多模態(tài)。其中,通過網(wǎng)絡鏈接存儲的實體圖片占用數(shù)據(jù)庫空間小,偏于大量導入,有利于多模態(tài)知識圖譜的進一步分享與擴展。導入neo4j 圖數(shù)據(jù)庫的關(guān)鍵方法是利用py2neo 庫構(gòu)建導入實體與關(guān)系的類與函數(shù)。
本文最終構(gòu)建得到共10799 個實體和14686條關(guān)系,其中中藥實體、中藥產(chǎn)物實體和疾病實體為多模態(tài)數(shù)據(jù),具體《本草綱目》的多模態(tài)知識圖譜(部分)如圖5所示。
圖5 《本草綱目》的多模態(tài)知識圖譜(部分)
相比傳統(tǒng)的連續(xù)式文本,以結(jié)構(gòu)化、多模態(tài)的形式展示數(shù)據(jù),可以更直觀地觀察實體間的關(guān)系,進而發(fā)現(xiàn)隱含的規(guī)律。例如,我們想知道治療“小便不通”的中藥有哪些,通過Cypher 查詢語句即可快速檢索得到答案。進而我們可以分析相關(guān)的中藥及其功效等,試圖挖掘其圍繞癥狀——“小便不通”的臨床應用。
從圖6可以看到,在《本草綱目》中車前和梔子均治療“小便不通”。車前的藥用記載見于《神農(nóng)本草經(jīng)》,藥用種子,列為上品,載:“車前子,味甘,寒。主氣癃,止痛,利水道小便,除濕痹。久服輕身耐老。一名當?shù)馈?。車前子來源于車前科植物車前PlantagoasiaticaL?;蚱杰嚽癙.depressaWilld。的干燥成熟種子,具有清熱、利尿通淋、滲濕止瀉、明目、祛痰的作用。梔子始載于《神農(nóng)本草經(jīng)》,是我國傳統(tǒng)的常用中藥材,具有瀉火除煩、清熱利尿、涼血解毒、外用消腫止痛等功效。梔子仁是梔子的仁,《雷公炮炙論》云:“凡使梔子,先去皮須了,取仁,以甘草水浸一宿,漉出焙干,搗篩如赤金末用”。由這兩個藥物組成的方劑中,八正散主治熱淋,證見尿頻尿急,溺時澀痛,淋瀝不暢等。方中滑石和木通為君藥;萹蓄、瞿麥、車前子同為臣藥;山梔子仁和大黃俱為佐藥;甘草調(diào)和諸藥?!短交菝窈蛣┚址健肪?:“治大人、小兒心經(jīng)邪熱,一切蘊毒,咽干口燥,大渴引飲,心忡面熱,煩躁不寧,目赤睛疼,唇焦鼻衄,口舌生瘡,咽喉腫痛。又治小便赤澀,或癃閉不通,及熱淋、血淋,并宜服之?!毕嚓P(guān)研究表明,改良八正散結(jié)合微波照射治療慢性前列腺炎的臨床療效優(yōu)于鹽酸坦洛新緩釋膠囊,值得進一步推廣應用。
圖6 “小便不通”的實體與關(guān)系
知識圖譜及其多模態(tài)化是發(fā)展迅速的交叉技術(shù)領(lǐng)域,并在不斷地與其他領(lǐng)域進一步融合。目前在中醫(yī)領(lǐng)域的研究還十分有限,相關(guān)技術(shù)的運用也比較初級,大規(guī)模中醫(yī)藥多模態(tài)知識圖譜的構(gòu)建與應用仍面臨較大挑戰(zhàn),本文從以下三個方面對中醫(yī)藥多模態(tài)知識圖譜總體研究作以下討論與展望:
(1)中醫(yī)藥知識的數(shù)據(jù)來源。中醫(yī)藥是中華民族上下五千年優(yōu)秀文化歷史沉淀的結(jié)晶,迄今為止,其數(shù)據(jù)類別多種多樣,從計算機視角去看,可將其分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)三類。非結(jié)構(gòu)化數(shù)據(jù)一般包括中醫(yī)經(jīng)典、領(lǐng)域書籍、科研論文、專家講課視頻等,此類數(shù)據(jù)容易獲取。目前完全使用中醫(yī)領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的知識圖譜體量較小,更大規(guī)模的是中醫(yī)方劑知識圖譜、中醫(yī)養(yǎng)生知識圖譜等。半結(jié)構(gòu)化數(shù)據(jù)一般包括中醫(yī)臨床病歷、中醫(yī)醫(yī)案、中醫(yī)藥圖片、網(wǎng)絡知識、行業(yè)網(wǎng)站數(shù)據(jù)、制藥工程數(shù)據(jù),半結(jié)構(gòu)化的詞典、行業(yè)標準、百科數(shù)據(jù)、藥品說明書等,這些數(shù)據(jù)具有一定的結(jié)構(gòu)性,且容易發(fā)現(xiàn)文本規(guī)律,便于利用計算機技術(shù)使其結(jié)構(gòu)化,從而構(gòu)建知識圖譜。此類數(shù)據(jù)可通過購買、爬取收集等一些技術(shù)手段獲取。結(jié)構(gòu)化數(shù)據(jù)一般包括中醫(yī)藥的術(shù)語系統(tǒng)、專業(yè)機構(gòu)整理的數(shù)據(jù)庫數(shù)據(jù)等,可直接用于構(gòu)建知識圖譜,但一般難以直接獲取。基于以上分析,本文認為,面向非結(jié)構(gòu)化和半結(jié)構(gòu)化中醫(yī)藥數(shù)據(jù)的研究處理將是未來發(fā)展的主要方向之一,這方面的研究也急需加快腳步。
(2)中醫(yī)藥多模態(tài)知識圖譜的構(gòu)建方法。知識圖譜的構(gòu)建流程一般包括知識獲取、知識抽取、知識存儲和知識融合。知識獲取即知識的數(shù)據(jù)來源,這里的數(shù)據(jù)應是多模態(tài)的,此外,還應包括數(shù)據(jù)的預處理。知識抽取依據(jù)任務不同可以分為實體識別、關(guān)系抽取和事件抽取等。一般研究者要依據(jù)文本結(jié)構(gòu),選擇合適的抽取方法。對于較為結(jié)構(gòu)化的文本,大多采用基于規(guī)則的方法;對于非結(jié)構(gòu)化的文本,近期流行使用深度學習等自動化抽取方法,但當前仍處于技術(shù)探索階段,研究趨向分化,趨于不同數(shù)據(jù)對應不同處理方法的發(fā)展方向。知識存儲,即數(shù)據(jù)的存儲方式,目前業(yè)內(nèi)存儲知識的方式有三種,分別是RDF 存儲、傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲和圖數(shù)據(jù)庫存儲。多模態(tài)知識圖譜的存儲方式主要以圖數(shù)據(jù)存儲為主。知識融合一般指將不同的知識圖譜進行融合,但還應包括不同模態(tài)數(shù)據(jù)的融合。知識融合需要處理兩個層面的問題:其一是模式層的融合,主要任務是新舊本體的融合;其二是數(shù)據(jù)層的融合,包括實體的屬性、關(guān)系以及相應圖片、音頻等多模態(tài)數(shù)據(jù)的融合,主要的問題是如何避免實例以及關(guān)系的沖突問題,以免造成不必要的冗余。
(3)中醫(yī)藥多模態(tài)知識圖譜的應用。知識圖譜的應用一般包括知識圖譜補全與推理、知識檢索與知識分析和智能問答等。本文基于多模態(tài)知識圖譜的技術(shù)背景構(gòu)建了《本草綱目》的多模態(tài)實體與關(guān)系,若能將類似工作繼續(xù)下去,對中醫(yī)藥概念體系進行系統(tǒng)梳理,相信不久便能實現(xiàn)大量中醫(yī)藥知識的關(guān)聯(lián)與融合,構(gòu)建規(guī)?;U展性強的中醫(yī)領(lǐng)域多模態(tài)知識圖譜。同時,隨著語言預訓練的興起,利用知識圖譜來拓展訓練模型從而處理復雜問題的能力不斷提升,多種模態(tài)的數(shù)據(jù)可被用來增強知識圖譜中實體對齊、鏈接預測和關(guān)系推理的效果,若能將中醫(yī)領(lǐng)域的多模態(tài)知識圖譜體系應用于中醫(yī)知識跨模態(tài)檢索、中醫(yī)知識智能問答、臨床診療的輔助推理與判斷等領(lǐng)域,將大大提升搜索、推薦和問答中知識提供的準確度,有效提高計算機分析癥狀與藥物對應關(guān)系的性能,輔助醫(yī)生制定診療方案,提高中醫(yī)臨床的工作效率,為患者提供更好的就醫(yī)體驗。
本文聚焦于中醫(yī)藥領(lǐng)域,立足于中醫(yī)經(jīng)典從“藏”到“用”的轉(zhuǎn)變,以半結(jié)構(gòu)化和非結(jié)構(gòu)化的中醫(yī)經(jīng)典——《本草綱目》為數(shù)據(jù)源,以中醫(yī)藥概念間的實體構(gòu)建關(guān)系類型,抽取文本以及相關(guān)圖像等多模態(tài)信息,對數(shù)據(jù)進行整理、歸納與研究,闡述了實體、關(guān)系抽取、知識融合等知識圖譜構(gòu)建和應用中的相關(guān)技術(shù)和工作,最后利用4圖數(shù)據(jù)庫進行規(guī)范且統(tǒng)一的存儲表示,形成了具有特色的多模態(tài)的《本草綱目》的知識圖譜。同時,本文還對多模態(tài)知識圖譜的研究進展進行了介紹,并討論了中醫(yī)藥多模態(tài)知識圖譜的主要研究方向。在大數(shù)據(jù)時代利用現(xiàn)代先進技術(shù)對中醫(yī)經(jīng)典進行高效的知識獲取、知識存儲和知識管理有著極其重要的意義,希望本文能為相關(guān)領(lǐng)域的研究者提供研究思路。