,
白血病是造血干細(xì)胞功能異常的克隆性惡性疾病,是國內(nèi)十大高發(fā)性惡性腫瘤之一。目前醫(yī)學(xué)界普遍認(rèn)為白血病的發(fā)病機(jī)制與感染、放射、化學(xué)和遺傳等因素有關(guān),但其確切病因至今尚未明確。近年來,有關(guān)基因與白血病關(guān)系的研究較熱,文獻(xiàn)也較多。本文利用Weka平臺挖掘文獻(xiàn)中白血病與基因的潛在關(guān)系。
Weka平臺(Waikato Environment for Knowledge Analysis)的全名是懷卡托智能分析環(huán)境,是一個(gè)公開的數(shù)據(jù)挖掘工作平臺。它集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。Weka的數(shù)據(jù)格式要求為ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件,也是一種二維表格。Cobweb是Weka提供的聚類算法之一,是現(xiàn)在流行的一種簡單增量概念聚類算法。它用分類屬性-值對描述輸入對象,以一個(gè)分類樹的形式創(chuàng)建層次聚類[1]。
書目信息共現(xiàn)分析系統(tǒng)(Bliographic Item Co-Occurrence Mining System,BICOMS) 是文本挖掘的基礎(chǔ)工具,所生成的矩陣可以進(jìn)一步應(yīng)用于聚類分析和社會網(wǎng)絡(luò)分析等[2-3]。
以“l(fā)eukemia [majr] AND genes [majr]”為檢索策略,檢索PubMed,得到4 069條文獻(xiàn)記錄,并將結(jié)果保存成xml文件。利用BICOMS抽取主要主題詞/副主題,設(shè)定出現(xiàn)頻次的閾值為100,即頻次大于100的42個(gè)詞為高頻詞。這些高頻詞出現(xiàn)9 662次,累計(jì)百分比為39.222%(9 662/24 634)。其中排名前10位的高頻詞見表1,出現(xiàn)頻次最高的為原癌基因(706次)。
表1 排名前10位的高頻詞及其出現(xiàn)頻次
再利用BICOMS生成高頻詞的共現(xiàn)矩陣(表2)和零一矩陣(即詞篇矩陣),以txt形式導(dǎo)出,并利用Excel將零一矩陣轉(zhuǎn)置(表3),再分別保存成Weka所需的csv格式文件。
表2 高頻詞共現(xiàn)矩陣(42行×42列)(部分)
表3 高頻詞詞篇矩陣轉(zhuǎn)置矩陣4069(行)×42(列)(部分)
打開Weka3.6.8,進(jìn)入Explorer模塊,通過Preprocess的Open功能導(dǎo)入csv文件,以未監(jiān)督的過濾器NumberToNomal過濾數(shù)據(jù),然后保存成ARFF文件以用于聚類分析。
選擇Weka提供的聚類算法Cobweb,根據(jù)研究需要設(shè)置不同參數(shù),對比聚類結(jié)果,選擇聚類結(jié)果最優(yōu)時(shí)的參數(shù)設(shè)置為Weka.clusters.Cobweb -A 1.0 -C 0.0028209479177387815 -S 42,聚類模型選擇use training set,選擇store clusters for visualization以保存聚類結(jié)果用于可視化。運(yùn)行后得到的聚類樹結(jié)果如圖1所示。
圖1 聚類樹結(jié)果
Cobweb共進(jìn)行了7次聚合,5次剪切,形成一棵節(jié)點(diǎn)數(shù)為12、葉子數(shù)(即主題詞數(shù))為42的聚類樹。分析得出各葉子節(jié)點(diǎn),具體數(shù)據(jù)見表4。
表4 高頻詞的Cobweb聚類結(jié)果
注:此結(jié)果是經(jīng)過加工優(yōu)化的結(jié)果
本文的目的是試圖找出各類白血病與各個(gè)基因之間的關(guān)系,因此理想的聚類結(jié)果是每類中都有白血病高頻詞和相關(guān)基因,且越多越好。從表5可見,第1,2,4,5類中沒有白血病或基因高頻詞,聚類效果較差;其余類既有白血病相關(guān)高頻詞,也有基因相關(guān)高頻詞,聚類效果較好。
表5 各類聚類效果比較
注:染色體和泛指的基因名詞也算基因;聚類率=(白血病數(shù)+基因數(shù))/該類總?cè)~子樹,且越大越好
聚類結(jié)果較差的原因有三:一是高頻詞中存在非白血病相關(guān)主題詞或基因相關(guān)主題詞,二是因Cobweb把所有高頻詞看作要聚類的屬性而不能百分之百地將基因和白血病聚在一起,三是數(shù)據(jù)存在局限性。本文使用的42個(gè)高頻詞中,白血病數(shù)與基因數(shù)分布不均,白血病數(shù)(11)小于基因數(shù)(15)。
根據(jù)聚類結(jié)果,查閱并分析每類,即聚類效果較好的第3,6,7類文獻(xiàn),得出白血病與基因關(guān)系的研究熱點(diǎn)和方向,總結(jié)如下。
第3類聚類結(jié)果表明B淋巴細(xì)胞白血病和骨髓增生異常綜合癥與免疫球蛋白基因和癌基因融合及表達(dá)相關(guān)。Yone J等[4]發(fā)現(xiàn),bcl-2基因第五側(cè)翼區(qū)是免疫球蛋白基因重排的一個(gè)端點(diǎn)集中區(qū)。與14號染色體長臂第32個(gè)基因和18號染色體長臂第21個(gè)基因易位影響bcl-2基因第三區(qū)域相比,bcl-2基因第五區(qū)域不僅能融合重鏈基因,也能融合兩條輕鏈基因位點(diǎn)。他們克隆并測定了11條B淋巴細(xì)胞腫瘤中的bcl-2基因第五側(cè)翼區(qū)與免疫球蛋白的融合鏈,這些腫瘤細(xì)胞由長距離聚合酶鏈?zhǔn)椒磻?yīng)聚合而來。bcl-2基因第五區(qū)域與免疫球蛋白融合基因的異構(gòu)解剖激活bcl-2基因。特異性癌基因-免疫球蛋白基因重組的形成機(jī)制與14號染色體和18號染色體易位不同。
第6類聚類結(jié)果表明實(shí)驗(yàn)性白血病、成人T細(xì)胞白血病和成紅細(xì)胞細(xì)胞白血病與病毒基因、abl基因和bcr-abl融合蛋白及其轉(zhuǎn)錄相關(guān)。Kamihire S等[5]將人類T細(xì)胞白血病病毒整合成人T細(xì)胞白血病細(xì)胞基因組DNA,發(fā)現(xiàn)Ⅰ型人類T細(xì)胞白血病病毒是成人T細(xì)胞白血病的病原體,且白血病細(xì)胞總是攜帶前病毒基因組,以單克隆的方式與宿主基因組同一序列位點(diǎn)整合,稱為單克隆整合。部分前病毒基因組缺失最先出現(xiàn)在gag區(qū)域,然后擴(kuò)散到pol和env區(qū)域,而且長末端重復(fù)和pX區(qū)域幾乎總是守恒的。前病毒狀態(tài)的分析可提供有用的診斷和病毒學(xué)—腫瘤學(xué)信息,包括成人T細(xì)胞白血病和Ⅰ型人類T細(xì)胞白血病病毒的病理學(xué),尤其是pX基因在腫瘤形成中重要作用的信息。
第7類結(jié)果表明淋巴瘤與人類第11號染色體、原癌基因和ras基因突變及表達(dá)相關(guān)。自然殺傷細(xì)胞腫瘤是一種很罕見的疾病,已經(jīng)報(bào)道的常見異常腫瘤抑制基因有Rb,p53,p15INK4B和p14ARF。Sugimoto KJ等[6]用DNA印記法、聚合酶鏈?zhǔn)椒磻?yīng)單核苷酸多態(tài)性檢測法、蛋白質(zhì)印跡法和免疫組織化學(xué)著色法分析N-ras,K-ras,H-ras,c-myc,n-myc和mdm2等癌基因的狀態(tài),發(fā)現(xiàn)ras基因家族沒有發(fā)生點(diǎn)突變,c-myc和N-myc沒有發(fā)生突變,c-myc蛋白沒有過度表達(dá),但mdm2蛋白在一部分案例中表達(dá)度很高,且mdm2蛋白的過度表達(dá)與p14ARF,p53和Rb基因不相關(guān)。最后得出結(jié)論:mdm2的過度表達(dá)可能與自然殺傷細(xì)胞腫瘤有關(guān),尤其是有攻擊性的子類。
本文利用Weka軟件平臺對PubMed數(shù)據(jù)庫中的白血病與基因相關(guān)數(shù)據(jù)進(jìn)行Cobweb聚類挖掘分析,得出白血病在基因方面的3個(gè)研究熱點(diǎn)。根據(jù)癌癥基因組圖譜研究網(wǎng)(The Cancer Genome Atlas Research Network)發(fā)表于國際權(quán)威雜志NEJM 2013年5月30日在線版上的成果[7],9種基因與白血病有關(guān)。
它們分別是轉(zhuǎn)錄融合基因、編碼核仁磷蛋白的基因(npm1)、腫瘤抑制基因、DNA甲基化相關(guān)基因、信號轉(zhuǎn)導(dǎo)基因、染色質(zhì)修飾基因、黏連蛋白復(fù)合物基因、隨性轉(zhuǎn)錄因子基因和剪接體復(fù)合物基因。本文得出的白血病研究相關(guān)熱點(diǎn)基因均在其列。