孟慶良,展俊平,郭會卿,郭洪濤,鄭 光,呂愛平,姜 淼△
(1.河南省中醫(yī)院,鄭州 450002;2.河南中醫(yī)學(xué)院第一附屬醫(yī)院,鄭州 450002; 3.蘭州大學(xué)數(shù)學(xué)院,蘭州 730000;4.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,北京 100700)
甲氨蝶呤(MTX)是抗代謝類藥物及葉酸拮抗劑,可阻止DNA合成,亦干擾RNA、蛋白質(zhì)合成,屬細(xì)胞周期特異性藥物,臨床上主要用于惡性腫瘤諸如兒童急性白血病和絨毛膜上皮癌等治療[1]。近年來亦廣泛用于治療類風(fēng)濕關(guān)節(jié)炎、強(qiáng)直性脊柱炎、異位妊娠、銀屑病等非惡性腫瘤疾病,均取得較為顯著的療效[2]。甲氨蝶呤在全國各中醫(yī)院均有應(yīng)用,從中西醫(yī)結(jié)合治療角度,在臨床疾病治療的療效評價(jià)研究中已經(jīng)取得了豐碩成果[3]。然而查閱資料發(fā)現(xiàn),大量的文獻(xiàn)報(bào)道側(cè)重于甲氨蝶呤在西醫(yī)學(xué)中的應(yīng)用,與中醫(yī)的聯(lián)合治療報(bào)道甚少或者缺乏總結(jié)。本文利用課題組的文本挖掘技術(shù),對甲氨蝶呤和中醫(yī)的聯(lián)合應(yīng)用規(guī)律進(jìn)行淺析,以期更好地指導(dǎo)和服務(wù)于臨床。
文本挖掘是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取有意義的數(shù)據(jù)[4],具體說一般包括數(shù)據(jù)收集整理、選擇性挖掘、結(jié)構(gòu)化分析、可視化以及評價(jià)[5]5個過程。
登錄中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(Chinese BioMedical Literature Data,CBM),在主題檢索下分別檢索關(guān)鍵詞“甲氨蝶呤”。經(jīng)過檢索出現(xiàn)款目詞、主題詞、命中文獻(xiàn)數(shù),合并檢索主題詞得到文獻(xiàn)7681篇(檢索日期:2013年9月15日)。為能看到每篇文獻(xiàn)的流水號、標(biāo)題、摘要、主題詞等信息,在顯示格式中選擇“詳細(xì)”和“顯示全部”。
將收集來的數(shù)據(jù)按照下載的先后順序整合到一個平面文件(后綴txt)中,以ANSI編碼格式保存。利用專有的文本提取工具(軟件著作權(quán),軟著登字第0261882號,登記號2010SR073409),對下載的非結(jié)構(gòu)化txt文本數(shù)據(jù)進(jìn)行信息提取,保存成格式化的、便于大型關(guān)系型數(shù)據(jù)庫(Microsoft SQL Server, SQL)處理的格式,隨后導(dǎo)入SQL中進(jìn)行下一步的挖掘分析。假設(shè)每篇文獻(xiàn)的貢獻(xiàn)度是相同的,1篇文獻(xiàn)中重復(fù)出現(xiàn)的關(guān)鍵詞只需要計(jì)算1次,據(jù)此構(gòu)建算法進(jìn)行數(shù)據(jù)清洗工作[6]。
清洗完畢后的數(shù)據(jù)分別得到挖掘?qū)ο蟮囊痪S和二維頻次數(shù)據(jù),即相關(guān)挖掘要素在數(shù)據(jù)集中出現(xiàn)的文獻(xiàn)總的頻數(shù)以及兩兩之間的頻數(shù)關(guān)系,因?yàn)閿?shù)據(jù)較多,為了網(wǎng)絡(luò)圖更直觀的展示,我們對數(shù)據(jù)采取切片分層的形式,統(tǒng)一只選取頻數(shù)的前15來進(jìn)行圖形構(gòu)建,用Cytoscape 2.8軟件進(jìn)行可視化處理。
本文中形成可視化的網(wǎng)絡(luò)圖,筆者采用圖形大小和連線的寬度兩種方式同時進(jìn)行客觀展示,圖形內(nèi)為要素名稱,連線代表要素兩兩之間的關(guān)聯(lián)。圖形的面積越大,代表該要素與其他要素關(guān)聯(lián)的越多,越處于核心的位置;連線越寬,代表該要素與甲氨蝶呤的關(guān)系越密切;在文獻(xiàn)中出現(xiàn)的頻次越高,其權(quán)重越大。然后結(jié)合專業(yè)知識進(jìn)行解析,一旦發(fā)現(xiàn)不合理的結(jié)果,即回溯原文獻(xiàn)數(shù)據(jù)集,如果是噪音,仍按算法進(jìn)行噪音清洗,直至噪音降到滿意為止。最后的結(jié)果可視化成圖,結(jié)合專業(yè)知識進(jìn)行解析。人工閱讀評價(jià)使得結(jié)果更加客觀,通過這種優(yōu)化的文本挖掘組合,能夠比較客觀地總結(jié)各方面的規(guī)律。
圖1顯示,文本挖掘一維數(shù)據(jù)共提取到62個疾病58個癥狀。按照1.3中所述,數(shù)據(jù)切片選擇頻數(shù)前5的疾病(括號內(nèi)為文獻(xiàn)篇數(shù),以下同)分別為腫瘤(230)、類風(fēng)濕關(guān)節(jié)炎(183)、白血病(147)、淋巴瘤(101)、異位妊娠(97);頻數(shù)前5的癥狀分別為腫脹(102)、晨僵(67)、腹痛(57)、壓痛(50)、強(qiáng)直(50),二維數(shù)據(jù)切片選擇頻次排前15組合構(gòu)建網(wǎng)絡(luò)圖。
圖1 甲氨蝶呤相關(guān)疾病和癥狀網(wǎng)絡(luò)圖
圖2 甲氨蝶呤與中藥以及湯藥的聯(lián)合應(yīng)用網(wǎng)絡(luò)圖
二維數(shù)據(jù)中,共提取到癥狀組合165項(xiàng)疾病668項(xiàng)。由圖可知,腫瘤、淋巴瘤、類風(fēng)濕關(guān)節(jié)炎、異位妊娠這4種疾病與甲氨蝶呤的相關(guān)度較高,腫瘤與甲氨蝶呤的連線最寬,說明相關(guān)度最高,而淋巴瘤的圖形最大,表示與其他疾病的關(guān)聯(lián)最多。上圖右側(cè)癥狀結(jié)果中,黑色虛線方框內(nèi),如壓痛、晨僵、關(guān)節(jié)腫脹、疼痛等多屬于關(guān)節(jié)癥狀,這可能與甲氨蝶呤在類風(fēng)濕關(guān)節(jié)炎中的治療應(yīng)用有密切關(guān)聯(lián)。
圖2顯示,一維數(shù)據(jù)共提取到86項(xiàng)中藥33項(xiàng)方劑。頻數(shù)前5的方劑分別為獨(dú)活寄生湯(60)、蠲痹湯(55)、桂枝芍藥知母湯(46)、四物湯(41)、烏頭湯(36);頻數(shù)前5的中藥分別為雷公藤(76)、當(dāng)歸(30)、白芍(26)、川芎(24)、甘草(19);二維數(shù)據(jù)切片選擇頻次排前15組合構(gòu)建網(wǎng)絡(luò)圖。
中藥以及湯藥的組合分別為421項(xiàng)和28項(xiàng)。由圖可知,雷公藤、獨(dú)活、桃仁、川芎等與甲氨蝶呤的相關(guān)度較高,且從左側(cè)方框內(nèi)可以看出,牛膝、防風(fēng)、白芍、當(dāng)歸、細(xì)辛等正是中醫(yī)方劑獨(dú)活寄生湯的組成,而方劑中獨(dú)活寄生湯相關(guān)度最高(圖形最大),其次是蠲痹湯。
中成藥一維數(shù)據(jù)62項(xiàng),雷公藤多苷(34)、丹參注射液(5)、川芎嗪注射液(3)、姜黃素(2)、三七總皂苷(2)依次為頻數(shù)前5。
圖3顯示,二維數(shù)據(jù)組合357項(xiàng),雷公藤多甙與甲氨蝶呤關(guān)系最密切。作為臨床風(fēng)濕免疫科的常用藥,雷公藤多甙片在類風(fēng)濕關(guān)節(jié)炎、白塞病、自身免疫性肝炎等疾病的治療中,常為首選中成藥,而鱉甲煎丸和甘草甜素的廣泛聯(lián)用,則可能是針對自身免疫性肝炎的治療;同時,由橢圓標(biāo)注的川芎嗪注射液、當(dāng)歸針、丹參注射液、三七總皂苷可以看出,甲氨蝶呤與活血化瘀之品的聯(lián)合較為廣泛。
圖3 甲氨蝶呤與中成藥的聯(lián)合應(yīng)用網(wǎng)絡(luò)圖
圖4 甲氨蝶呤與中醫(yī)聯(lián)合治療應(yīng)用網(wǎng)絡(luò)圖
圖4顯示,為進(jìn)一步明晰甲氨蝶呤與中醫(yī)臨床的聯(lián)合應(yīng)用規(guī)律,我們對所有數(shù)據(jù)結(jié)果進(jìn)行了二次篩選綜合分析整理,仍然采用切片形式,各選二維結(jié)果中頻數(shù)前5的數(shù)據(jù)整合于一個文件中,通過Cytoscape軟件進(jìn)行網(wǎng)絡(luò)圖的構(gòu)建,選擇“疾病—癥狀—中藥—方劑—中成藥”的思路,以便更清晰地整體反映中西醫(yī)結(jié)合運(yùn)用甲氨蝶呤時的臨床規(guī)律。
甲氨蝶呤作為臨床一線用藥,在相關(guān)疾病的中醫(yī)聯(lián)合治療策略中,一直被廣泛應(yīng)用,而中醫(yī)學(xué)是祖國寶貴的傳統(tǒng)醫(yī)學(xué),其療效確切。王永炎院士指出,中醫(yī)學(xué)的發(fā)展遠(yuǎn)遠(yuǎn)超越了學(xué)科和領(lǐng)域,呈現(xiàn)出多學(xué)科交叉融合的特點(diǎn),必須革新技術(shù),解釋新的規(guī)律[7],利用中醫(yī)藥科學(xué)思維,結(jié)合生物醫(yī)學(xué)朝向和新技術(shù),當(dāng)能推動生物醫(yī)學(xué)的創(chuàng)新性發(fā)展[8],以實(shí)效研究為準(zhǔn),最終提高臨床療效[9]。因此,本文采用課題組的文本挖掘技術(shù),以臨床為出發(fā)點(diǎn),總結(jié)淺析甲氨蝶呤聯(lián)合中醫(yī)治療的基本規(guī)律,為臨床醫(yī)生提供參考。
以“疾病—癥狀—中藥—方劑—中成藥”為基本思路,在同一個維度上,通過大量的文獻(xiàn)數(shù)據(jù),總結(jié)其臨床規(guī)律。從圖4可以看出,甲氨蝶呤主要用于腫瘤、類風(fēng)濕關(guān)節(jié)炎、白血病以及淋巴瘤的治療,相當(dāng)于中醫(yī)學(xué)“癌”、“痹癥”、“血證”、“惡核”等;臨床癥狀包括壓痛、腫脹、晨僵以及強(qiáng)直等,主要為關(guān)節(jié)系統(tǒng)病變引發(fā),這與風(fēng)濕免疫科常見疾病如類風(fēng)濕關(guān)節(jié)炎、強(qiáng)直性脊柱炎、銀屑病關(guān)節(jié)炎等較為吻合;與中藥聯(lián)合應(yīng)用較多的是當(dāng)歸、白芍、川芎等補(bǔ)血活血養(yǎng)陰之品,以及雷公藤、獨(dú)活、秦艽等祛風(fēng)濕止痹痛藥,符合臨床上腫瘤和類風(fēng)濕關(guān)節(jié)炎多虛多瘀多濕的疾病特性;中藥湯劑獨(dú)活寄生湯、桂枝芍藥知母湯、蠲痹湯則是中醫(yī)院風(fēng)濕骨病科常用藥;中成藥中的雷公藤多苷片,更是甲氨蝶呤的常用聯(lián)合藥物之一。需要注意的是,我們挖掘的文獻(xiàn)數(shù)據(jù),甲氨蝶呤與活血化瘀類中成藥的聯(lián)合亦較為廣泛,如丹參注射液、川芎嗪注射液等,考慮和疾病本身相關(guān)。
我們嘗試?yán)矛F(xiàn)有的數(shù)據(jù)庫平臺,通過在大量文獻(xiàn)中進(jìn)行的信息抽取、語詞識別、發(fā)現(xiàn)知識間的關(guān)聯(lián)[10],有效地找到所需信息[11]進(jìn)行整合分析,獲得的結(jié)果更具有代表性。本文以甲氨蝶呤為關(guān)鍵詞,對與其聯(lián)合應(yīng)用的中醫(yī)中藥、湯藥、中成藥等分布規(guī)律的結(jié)果進(jìn)行提煉,找出其要素與要素的基本組合,采用切片分層和多維度分析,結(jié)果更加客觀,可重復(fù)性強(qiáng)[12]。為廣大中醫(yī)醫(yī)務(wù)工作者提供更為直觀的參考,亦為中醫(yī)進(jìn)一步臨床研究提供可能有益的基礎(chǔ)。
[1] 何澤民,王資媛,蔡曉虹.甲氨蝶呤的臨床應(yīng)用[J].海峽藥學(xué),2005,17(3):119-121.
[2] 刁永紅,劉英,馬華. 非惡性腫瘤的治療進(jìn)展[J].山東醫(yī)藥,2010,50(50):118-120.
[3] 呂愛平,劉孟宇,張弛,等. 中西醫(yī)結(jié)合醫(yī)學(xué)研究30年回顧[J].中國中西醫(yī)結(jié)合雜志,2011,31(11):1445-1451.
[4] Zheng Guang, Guo Hongtao,Lu Aiping et al. Two dimensions data slicing algorithm, a new approach in mining rules of literature in traditional Chinese medicine. Communications in Computer and Information Science, v 237 CCIS, 161-174,
[5] Zheng Guang, Jiang Miao, Lu Aiping, Exploring the biological basis of deficiency pattern in rheumatoid arthritis through text mining. 2011 IEEE International Conference on Bioinfor matics and Biomedicine Workshops[J]. BIBMW, 2011,811-816.
[6] Guang Zheng, Miao Jiang, Aiping Lu. Discrete derivative: a data slicing algorithm for explo ration of sharing biological networks between rheumatoid arthritis and coronary heart disease. BioData Mining 2011,4:18. http://www.biodatamining.org/content/4/1/18.
[7] 王永炎.大科學(xué)時代中醫(yī)研究思路[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2012,18(8):813-817.
[8] 姜淼,查青林,呂愛平,等.基于中醫(yī)藥科學(xué)思維的生物醫(yī)學(xué)創(chuàng)新研究思路與方法[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志, 2010,16(5): 354-357.
[9] 謝雁鳴,魏戌,王永炎. 非惡性腫瘤的治療進(jìn)展[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2013,19(2):139-142.
[10] JC Lamirels, Al Shehabi, C Francois, et al. Intelligent Patent Analysis Through the Use of a Neural Network:Experiment of Multi-viewpoint Analysis with the Multi SOM Model[C].Japan:The ACL 2003Workshop on Patent Corpus Processing,Sapporo,2003.
[11] Fayyad UM Piatetsky-Shapiro G Smith P. From data mining to knowledge discovery: an overview [A ]. In: Advances in knowledge discovery and data mining[C]. Cambridge :AAAT/MIT Press, 1996:1-34.
[12] Li, S., et al., Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J]. IET Syst Biol, 2007,1(1):51-60.