張錦超 黎晶 石敏 肖建成 陳好鐵 丁長松 黃辛迪
收稿日期:2023-07-17
基金項目:2022年度湖南省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(2906);湖南省教育廳普通高等學(xué)校教學(xué)改革研究項目(HNJG-2022-0726);湖南中醫(yī)藥大學(xué)校級教學(xué)改革研究項目(2020-JG029)
DOI:10.19850/j.cnki.2096-4706.2024.03.003
摘? 要:為整合和利用中醫(yī)藥大數(shù)據(jù),基于多視角、相似性等方法融合多源數(shù)據(jù),建立中醫(yī)方藥數(shù)據(jù)庫,串聯(lián)方藥-成分-靶點-疾病數(shù)據(jù)實體,利用圖數(shù)據(jù)庫建立可視化知識圖譜。平臺基于機器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建方藥數(shù)據(jù)挖掘模塊,基于中藥藥性、方劑組成和深度學(xué)習(xí)技術(shù)實現(xiàn)藥方功效預(yù)測,提供方藥數(shù)據(jù)統(tǒng)計與關(guān)聯(lián)分析,構(gòu)建數(shù)據(jù)挖掘平臺。采用阿里云服務(wù)架構(gòu),以B/S模式提供中醫(yī)藥數(shù)據(jù)展示、查詢、中藥關(guān)聯(lián)關(guān)系分析、知識圖譜、功效預(yù)測等應(yīng)用服務(wù),利用計算機技術(shù)輔助中醫(yī)藥信息研究與利用,推進中醫(yī)藥信息化發(fā)展。
關(guān)鍵詞:中醫(yī)藥數(shù)據(jù);數(shù)據(jù)挖掘;功效預(yù)測;關(guān)聯(lián)分析;知識圖譜
中圖分類號:TP311.5? 文獻標識碼:A? ? 文章編號:2096-4706(2024)03-0011-06
Design and Application of Traditional Chinese Medicine Prescription Yunzhi Data Mining Platform
ZHANG Jinchao1, LI Jing1, SHI Min1, XIAO Jiancheng1, CHEN Haotie1, DING Changsong2, HUANG Xindi1
(1.School of Information Science and Engineering, Hunan University of Chinese Medicine, Changsha? 410208, China;
2.Office of Science & Technology, Hunan University of Chinese Medicine, Changsha? 410208, China)
Abstract: In order to integrate and utilize Big Data of TCM, this paper integrates multi-source data based on multi-perspective, similarity and other methods, establishes a TCM prescription database, connects the data entity of prescription-composition-target-disease, and uses the graph database to establish a visual Knowledge Graph. The platform constructs prescription data mining modules based on machine learning and deep learning, achieves the efficacy prediction of prescription based on the medicinal property of TCM, prescriptions composition and deep learning technology, provides data statistics and association analysis of prescriptions, and the data mining platform is built. It adopts Alibaba cloud service architecture to provide application services such as TCM data display, query, association analysis of TCM, Knowledge Graph, and efficacy prediction in B/S mode, and uses computer technology to assist the research and utilization of TCM information to promote the informatization development of TCM.
Keywords: Traditional Chinese Medicine data; data mining; efficacy prediction; association analysis; Knowledge Graph
0? 引? 言
中醫(yī)藥學(xué)是中華文明的瑰寶,發(fā)展至今積累了大量數(shù)據(jù)資源。傳統(tǒng)醫(yī)藥凝聚著深邃的哲學(xué)智慧,是優(yōu)秀傳統(tǒng)文化的重要載體,在促進文明互鑒、維護人民健康等方面發(fā)揮著重要作用。這些論述深刻闡述了中醫(yī)藥的歷史價值、文化價值、現(xiàn)實作用,是堅定民族自信、文化自信的重要支撐,增強了我們傳承創(chuàng)新發(fā)展中醫(yī)藥的底氣和信心[1]。
和現(xiàn)代醫(yī)學(xué)相比,中醫(yī)藥學(xué)突出一人一方的治療流程,旨在制定特定條件下的最優(yōu)方案。在大多數(shù)診治過程中,中醫(yī)藥學(xué)療效評價和西醫(yī)通過大量的人體試驗獲取同一藥品效果的反饋方式不同。由于中藥數(shù)據(jù)千變?nèi)f化,且患者都采用個體辨證論治的治療方式,在小樣本集上很難獲得可重復(fù)的治療效果評價模板。因此,如何整合中醫(yī)學(xué)的臨床大數(shù)據(jù)和利用大數(shù)據(jù)的優(yōu)勢來促進中醫(yī)藥的發(fā)展具有現(xiàn)實意義和挑戰(zhàn)性。
隨著大數(shù)據(jù)時代的到來,已出現(xiàn)了許多中醫(yī)藥數(shù)據(jù)信息平臺。例如中國中醫(yī)科學(xué)院開發(fā)的中醫(yī)百科全書(The Encyclopedia of Traditional Chinese Medicine, ETCM),該數(shù)據(jù)庫包含常用草藥和中藥配方及其成分的全面和標準化信息、中藥成分和預(yù)測靶基因信息,還開發(fā)了基本分析功能,使用戶可以探索中藥草藥、配方、成分、基因靶標以及相關(guān)途徑或疾病之間的關(guān)系或建立網(wǎng)絡(luò)[2]。由北京中醫(yī)藥大學(xué)、中國科學(xué)院計算技術(shù)研究所和四川大學(xué)華西醫(yī)院腎臟研究所組成研究團隊共同建立的本草組鑒(A High-Throughput Experiment and Reference-guided Database of Traditional Chinese Medicine, HERB),這一數(shù)據(jù)庫系統(tǒng)整理了高通量轉(zhuǎn)錄組篩選的數(shù)據(jù)和文獻數(shù)據(jù),以了解中藥/成分的分子作用,確定對應(yīng)的基因靶標,并與現(xiàn)代各種疾病關(guān)聯(lián)起來,供中醫(yī)藥研究使用[3]。
但當(dāng)前人們對中醫(yī)藥數(shù)據(jù)信息的需求不再局限于簡單的查詢,尤其是對數(shù)據(jù)分析的需求尤為迫切。相較于現(xiàn)有數(shù)據(jù)庫只關(guān)注了一部分中醫(yī)藥數(shù)據(jù)的數(shù)據(jù)列表,我們設(shè)計了一款完整涵蓋多數(shù)據(jù)源、數(shù)據(jù)融合、挖掘分析、知識圖譜、可視化、多層次的系統(tǒng),同時具有數(shù)據(jù)關(guān)聯(lián)分析、藥性分析功效預(yù)測功能,并且采用基于實現(xiàn)高效、安全、易管理的云基礎(chǔ)架構(gòu),實現(xiàn)操作簡便、運行穩(wěn)定、靈活響應(yīng)的系統(tǒng),以助力中醫(yī)研究與決策。
本系統(tǒng)旨在構(gòu)建中醫(yī)方藥云智數(shù)據(jù)挖掘平臺,收集整理并構(gòu)建中醫(yī)藥方藥組成及藥性數(shù)據(jù)集、中醫(yī)藥化學(xué)、生物學(xué)數(shù)據(jù)集,融合疾病、靶點、成分、中藥、方劑及其關(guān)聯(lián)構(gòu)建多層次數(shù)據(jù)庫,同時利用知識圖譜、關(guān)聯(lián)分析、機器學(xué)習(xí)等實現(xiàn)數(shù)據(jù)分析與展示,為中醫(yī)藥物質(zhì)研究、臨床治療、科研教學(xué)提供有效數(shù)據(jù)支持。
1? 中醫(yī)方藥云智數(shù)據(jù)庫構(gòu)建
1.1? 數(shù)據(jù)來源
中醫(yī)藥歷史悠久,源遠流長,數(shù)據(jù)量龐大而繁雜,傳統(tǒng)的查詢查閱方式過于煩瑣,需要大量的時間和精力。本系統(tǒng)數(shù)據(jù)來源于對現(xiàn)有的中醫(yī)文獻的收集整理,借鑒數(shù)據(jù)來自Pubmed、HERB、TCMSP(中藥系統(tǒng)藥理學(xué)數(shù)據(jù)庫與分析平臺)、ETCM、SYMMAP(中醫(yī)藥證候關(guān)聯(lián)數(shù)據(jù)庫)、YaTCM(傳統(tǒng)中藥數(shù)據(jù)庫)等現(xiàn)有中醫(yī)藥數(shù)據(jù)庫?;诓煌瑪?shù)據(jù)源的數(shù)據(jù)特點,對各個字段及其內(nèi)容進行數(shù)據(jù)融合。
1.2? 數(shù)據(jù)融合
由于多信息源的數(shù)據(jù)難以直接轉(zhuǎn)化,且化合物命名規(guī)則多樣,使得研究人員難以對不同數(shù)據(jù)庫間獲取的化合物信息進行歸納和去除冗余。數(shù)據(jù)融合旨在緩解數(shù)據(jù)庫更新不及時、數(shù)據(jù)冗余、單一數(shù)據(jù)庫信息廣度深度不足的局限。
1.2.1? 基于階段的數(shù)據(jù)融合
基于階段的融合方法常用于多模態(tài)智能系統(tǒng),通過將不同階段產(chǎn)生的特征進行融合,以提取更豐富、更準確的信息。在特征提取階段,針對每個中醫(yī)藥模態(tài)的數(shù)據(jù),我們提取方法將中醫(yī)藥數(shù)據(jù)轉(zhuǎn)化為特征向量進行特征表示。例如,在23維中藥藥性文本模態(tài)中,使用藥名詞向量、中藥屬性提取藥性特征基于余弦相似度進行融合。對于關(guān)系特征,采用多數(shù)據(jù)源、多階段互補融合轉(zhuǎn)化為標準的結(jié)構(gòu)化數(shù)據(jù)。
1.2.2? 基于語義的數(shù)據(jù)融合
基于語義的融合方法是一種利用自然語言處理和知識圖譜等技術(shù),將多個不同來源的語義信息進行整合和融合的方法。其中在知識表示階段,我們使用知識圖譜來表示實體、關(guān)系和屬性之間的關(guān)聯(lián),知識圖譜可以通過結(jié)構(gòu)化數(shù)據(jù)、標準本體和語義關(guān)聯(lián)等方式進行構(gòu)建和擴充實現(xiàn)數(shù)據(jù)融合。
1.3? 數(shù)據(jù)庫的建立
基于融合后的數(shù)據(jù)庫建立中醫(yī)藥藥材、靶點、方劑、成分和疾病之間相互關(guān)聯(lián),最終實現(xiàn)五層次“方劑-藥材-成分-靶點-疾病”的實體關(guān)聯(lián),構(gòu)建中醫(yī)藥與治療功效基礎(chǔ)物質(zhì)研究的知識圖譜。例如,方劑數(shù)據(jù)庫包括方劑名、方劑類別、方劑劑量方式等屬性,其中類別劃分依據(jù)方劑學(xué)教材、方劑大辭典為主、中醫(yī)藥專業(yè)人士等作為補充[4,5]。中藥數(shù)據(jù)庫包括中藥名、四性、五味、歸經(jīng)、有無毒等多個屬性,功效類別劃分基于中國藥典和中藥學(xué)教材[6,7]。所采用的數(shù)據(jù)庫各個實體的核心屬性如表1所示。
表1? 數(shù)據(jù)庫各實體的核心屬性
實體 核心屬性
方劑 方劑名、類別、計量方式等
藥材 中藥名、四性、五味、歸經(jīng)、有無毒等
成分 成分名、分子公式、藥品分級等
靶點 靶點名、關(guān)聯(lián)方劑、關(guān)聯(lián)藥材等
疾病 疾病名、關(guān)聯(lián)藥材、關(guān)聯(lián)成分等
2? 中醫(yī)方藥云智數(shù)據(jù)挖掘云平臺系統(tǒng)設(shè)計
2.1? 系統(tǒng)的系統(tǒng)架構(gòu)
系統(tǒng)實現(xiàn)的過程融入云平臺架構(gòu)設(shè)計,以實現(xiàn)系統(tǒng)彈性、靈活性和可擴展性。系統(tǒng)采用Docker容器技術(shù)將應(yīng)用程序和依賴項打包成簡單、可移植的容器鏡像,同時使用容器編排工具Kubernetes進行容器部署、編排和管理,實現(xiàn)跨云平臺的無縫遷移和管理。融入云平臺架構(gòu)設(shè)計,系統(tǒng)可充分利用云平臺提供的資源和服務(wù),實現(xiàn)彈性伸縮、自動化部署、高可用性和災(zāi)備能力,以及實時監(jiān)控和日志分析。總之,云平臺架構(gòu)設(shè)計提高了系統(tǒng)的可靠性、可擴展性和效率,為應(yīng)用的快速迭代和持續(xù)交付提供了基礎(chǔ)支撐。
系統(tǒng)具體實現(xiàn)采用Python中request、openyxl、BeautifulSoup等工具庫收集、清理和整理數(shù)據(jù)。前端使用Vue CLI搭建前端頁面,Apache ECharts繪制數(shù)據(jù)概況圖,Element Plus組件加速前端開發(fā),應(yīng)用D3.js繪制知識圖譜。后端使用SpringBoot框架搭建后臺接口和基本框架,通過TensorFlow 1.15.5構(gòu)建藥物功效預(yù)測模型,基于Apriori算法實現(xiàn)數(shù)據(jù)關(guān)聯(lián)關(guān)系分析模型,基于Neo4J構(gòu)建知識圖譜數(shù)據(jù)庫。
系統(tǒng)采用B/S架構(gòu),用戶能夠通過瀏覽器訪問本平臺,實現(xiàn)多平臺提供服務(wù)。同時本平臺頁面友好、操作簡便,后臺維護性好、拓展性強。本系統(tǒng)的系統(tǒng)架構(gòu)圖如圖1所示。
圖1? 系統(tǒng)架構(gòu)圖
2.2? 系統(tǒng)的主要功能
中醫(yī)方藥云智數(shù)據(jù)挖掘平臺包含四大功能模塊:數(shù)據(jù)管理模塊、關(guān)聯(lián)分析模塊、功效預(yù)測模塊、知識圖譜展示模塊。介紹如下:
1)數(shù)據(jù)管理模塊,包括五類實體“方劑-藥材-成分-靶點-疾病”的列表、查詢與管理功能。以列表的形式展示完整的疾病、靶點、成分、中藥、方劑的列表數(shù)據(jù);可根據(jù)輸入的參數(shù)查詢展示對應(yīng)的實體詳細信息,可根據(jù)需求對數(shù)據(jù)進行后臺內(nèi)容維護。
2)關(guān)聯(lián)分析模塊,可根據(jù)用戶選擇的方劑類型、輸入的置信度及支持度,展示中藥數(shù)據(jù)集的關(guān)聯(lián)關(guān)系。
3)功效預(yù)測模塊,系統(tǒng)對用戶展示量化后的中藥藥性數(shù)據(jù)和提取特征的方劑數(shù)據(jù),提供中藥功效預(yù)測。
4)知識圖譜展示模塊,根據(jù)輸入的指令繪制知識圖譜,展示疾病、靶點、成分、中藥、方劑實體之間的關(guān)系,助力醫(yī)療研究。
3? 中醫(yī)方藥云智數(shù)據(jù)挖掘平臺實現(xiàn)與應(yīng)用
3.1? 實體展示和查詢
平臺可根據(jù)用戶選擇,展示疾?。―isease)及關(guān)聯(lián)藥材、關(guān)聯(lián)成分等實體屬性;靶點(Targets)及關(guān)聯(lián)方劑、關(guān)聯(lián)藥材等實體屬性;成分(Ingredient)及分子公式、藥品分級等實體屬性;中藥(Herbs)及四性、五味、歸經(jīng)、有無毒等實體屬性;方劑(Formula)及來源、類別、計量方式等實體屬性。單擊具體實體名稱可查看實體屬性詳情信息。
以中藥數(shù)據(jù)為例,實體信息列表展示如圖2所示,點擊艾葉標簽后,進入該藥材的詳細信息頁面,如圖3所示。
3.2? 關(guān)聯(lián)關(guān)系分析
用戶可選定方劑類別并預(yù)置用戶參數(shù),平臺提供頻次分析和關(guān)聯(lián)分析功能,以表格、知識圖譜等形式輸出結(jié)果。用戶還可以在輸入框采用特定格式手動輸入數(shù)據(jù)、或按照平臺規(guī)定上傳相應(yīng)格式的Word或Excel文檔自定義數(shù)據(jù),預(yù)置輸入支持度和置信度,展示自定義數(shù)據(jù)集的關(guān)聯(lián)關(guān)系分析結(jié)果。
以選擇口服藥和補益藥,支持度和置信度分別選擇0.04、0.5為例,點擊Search按鈕后,生成的一、二、三項集如圖4所示。
3.3? 知識圖譜構(gòu)建
系統(tǒng)提供實體多節(jié)點關(guān)聯(lián)關(guān)系顯示,還可構(gòu)建多類型節(jié)點之間的關(guān)聯(lián)圖譜。用戶自定義或選擇調(diào)整實體類別和每級擴展節(jié)點個數(shù)(默認10個),右側(cè)繪制對應(yīng)數(shù)據(jù)的實體節(jié)點和關(guān)系圖,繪圖區(qū)支持鼠標位置放大縮小,便于用戶使用。
例如在左側(cè)菜單中,選擇Formula(方劑),在下拉菜單或者文本框中輸入AN GONG JIANG YA WAN(安宮降壓丸),知識圖譜中顯示如圖5所示。
點擊中心節(jié)點出現(xiàn)擴展環(huán)圖,供用戶選擇實體關(guān)聯(lián)類別,此例中選擇herbs(中藥)關(guān)聯(lián)后,顯示該方劑所含的所有中藥材節(jié)點。畫布中提供中藥材多選框,用戶可勾選需展示的節(jié)點,生成二級關(guān)聯(lián)圖譜,如圖6所示。本功能支持生成多級關(guān)聯(lián)圖譜,以輔助理解各個組成之間的關(guān)系。
3.4? 藥物功效預(yù)測
基于23維中藥藥性進行功效預(yù)測,其中藥性量化的依據(jù)是基于人民衛(wèi)生出版社出版的《方劑學(xué)》教材收集到的中醫(yī)藥數(shù)據(jù),將所收集中藥屬性數(shù)字化。其中23維藥性是寒、熱、溫、涼、平、酸、苦、甘、辛、咸、心、肺、膀胱、肝、膽、脾、腎、胃、大腸、小腸、三焦、心包、毒。其中將“寒、熱、溫、涼、平、酸、辛、甘、苦、咸、毒性”采用指數(shù)等級量化,若藥性為大寒,則為2,寒為1,小寒為0.5;苦為1,微苦為0.5,無此藥性為0。其余屬性采用二值量化,即有此屬性時記為1,無此屬性記為0[8]。以中藥功效術(shù)語詞組的主謂語順序和具體表達的意義為依據(jù),規(guī)范后得到功效術(shù)語詞組[8]。
本系統(tǒng)使用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建藥物屬性與藥材功效的深度學(xué)習(xí)模型[8,9],基于梯度下降法和小批量Adam算法迭代求解網(wǎng)絡(luò)各層之間的連接權(quán)重和中藥向量層的量化值,形成各屬性的計算量化取值。
在此功能頁面,平臺將收集處理之后的中藥屬性量化數(shù)據(jù)以分頁的形式展示,此外,用戶可在頁面內(nèi)搜索關(guān)鍵字,定位并查看的中藥藥性量化值。以麻黃為例,按照藥材23維,原始量化值是溫、微苦、辛、肺、膀胱,計算量化值中溫的比重減小其余屬性比重增大,此時可以預(yù)測功效為:消腫,解表,宣肺,發(fā)汗,利水,平喘,除濕,散結(jié),如圖7所示。
用戶還可以在頁面左側(cè)選擇相應(yīng)藥性來直接預(yù)測其功效,例如選擇溫、微苦、辛、肺、膀胱,點擊“功效預(yù)測”,預(yù)測功效為:泄熱,消痔,峻下冷積,除煩,溫散止痛,溫補肝腎,開胃,化痰,如圖8所示。
3.5? 補益藥方劑功效預(yù)測
本系統(tǒng)利用HPE-GCN模型[10]將圖卷積網(wǎng)絡(luò)與中藥屬性相結(jié)合來預(yù)測方劑的功效,基于補益藥數(shù)據(jù)集、數(shù)據(jù)處理、特征學(xué)習(xí),最終實現(xiàn)功效預(yù)測。HPE-GCN模型對中藥和方劑的低維特征表示較為完整,利用中藥藥性特征、藥性相似性計算、方藥依賴程度構(gòu)建特征中藥關(guān)聯(lián)圖和方藥關(guān)聯(lián)圖,利用圖神經(jīng)網(wǎng)絡(luò)進行補益方分類預(yù)測[9]?;诖朔椒▽ρa氣、補血、補陰、補陽四小類功效預(yù)測精度較高,可以作為中醫(yī)藥研究的有效分析工具。
例如輸入方劑為四物湯,其藥材組成為:當(dāng)歸、川芎、芍藥、熟地黃。其中當(dāng)歸是一種常用的補血藥物,具有活血調(diào)經(jīng)、補血養(yǎng)顏的功效;熟地黃是一種滋陰補腎的草藥,具有益氣補血、滋補肝腎的功效;白芍是一種血液活化藥物,具有舒緩經(jīng)痛、抗炎鎮(zhèn)痛的功效;川芎是一種活血化瘀的草藥,具有消炎、止痛和舒經(jīng)散瘀的功效。綜合來看,該方劑的組成與補血類方劑的特點相符,因此可以預(yù)測該方劑屬于補血類方劑。
4? 結(jié)? 論
現(xiàn)階段中藥資源數(shù)據(jù)庫以及中醫(yī)藥數(shù)據(jù)挖掘平臺的建設(shè)已有一定基礎(chǔ),但都局限于對中醫(yī)藥文獻的保存和目錄數(shù)據(jù)庫形式等,沒有對方藥配方、病理、醫(yī)治方法之間的關(guān)系網(wǎng)絡(luò)進行層次劃分和總結(jié),本項目對多源中藥資源數(shù)據(jù)進行整合歸納,完善對“方劑-中藥-成分-靶點-疾病”五個層次之間關(guān)系數(shù)據(jù)的知識網(wǎng)絡(luò)建設(shè),并且進一步構(gòu)建方藥數(shù)據(jù)挖掘平臺,使得對病癥藥方的檢索及推薦更加方便快捷,對中醫(yī)藥發(fā)展傳播具有重大意義。
參考文獻:
[1] 余艷紅,于文明.充分發(fā)揮中醫(yī)藥獨特優(yōu)勢和作用 為人民群眾健康作出新貢獻 [J].中國中西醫(yī)結(jié)合雜志,2020,40(9):1029-1031.
[2] XU H,ZHANG Y,LIU Z,et al. ETCM:an encyclopaedia of traditional Chinese medicine [J].Nucleic Acids Research,2019,47(D1):D976-D982.
[3] FANG S,DONG L,LIU L,et al. HERB:a high-throughput experiment- and reference-guided database of traditional Chinese medicine [J].Nucleic Acids Research,2021,49(D1):D1197-D1206.
[4] 李冀,左錚云. 方劑學(xué) [M].北京:中國中醫(yī)藥出版社,2021.
[5] 彭懷仁,王旭東,吳承艷. 中醫(yī)大辭典:第2版 [M].北京:人民衛(wèi)生出版社,2017.
[6] 國家藥典委員會.中華人民共和國藥典 [M].北京:中國醫(yī)藥科技出版社,2020.
[7] 高學(xué)敏.中藥學(xué) [M].北京:人民衛(wèi)生出版社,2000.
[8] 鄧樂,丁長松,黃辛迪,等.基于多層前饋神經(jīng)網(wǎng)絡(luò)的中藥藥性量化研究 [J].中草藥,2020,51(16):4277-4283.
[9] 匡文軒,周婉珠,晏峻峰.神經(jīng)網(wǎng)絡(luò)在中醫(yī)領(lǐng)域應(yīng)用的文獻計量與圖譜分析 [J].中醫(yī)藥導(dǎo)報,2021,27(4):168-173.
[10] LIU J,HUANG Q,YANG X,et al. HPE-GCN:Predicting efficacy of tonic formulae via graph convolutional networks integrating traditionally defined herbal properties [J].Methods,2022,204:101-109.
作者簡介:張錦超(2002—),男,漢族,湖南長沙人,本科在讀,研究方向:數(shù)據(jù)挖掘方向;通訊作者:黃辛迪(1987—),女,漢族,湖南長沙人,講師,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息化。