馬 毅 郭杏莉 孫宇彤 苑倩倩 任 陽(yáng) 段 然 高 琳
(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 西安 710071)
隨著已確定的lncRNA的數(shù)量持續(xù)增長(zhǎng),許多相關(guān)的數(shù)據(jù)庫(kù)、計(jì)算方法被提出來(lái),其中包括通用的數(shù)據(jù)庫(kù)GENCODE[6],針對(duì)lncRNA的專用數(shù)據(jù)庫(kù)lncRNAdb[7],LncRbase[8],LncRNA2Function[9],LncRNA2Target[10],同時(shí)包括基于網(wǎng)絡(luò)的大規(guī)模lncRNA功能預(yù)測(cè)方法lncGFP[11],以及通用的計(jì)算模型和框架[12].關(guān)于lncRNA在普通疾病和癌癥中的作用,分別有LncRNADisease[13]和Lnc2Cancer[14]數(shù)據(jù)庫(kù).即使有一定數(shù)量的lncRNA-疾病關(guān)聯(lián)關(guān)系已經(jīng)得到實(shí)驗(yàn)驗(yàn)證,不可忽略的是,絕大多數(shù)lncRNA-疾病關(guān)聯(lián)關(guān)系仍然是未知的.因此,分析lncRNA與疾病關(guān)聯(lián)關(guān)系并預(yù)測(cè)潛在的關(guān)聯(lián)關(guān)系具有重要的研究?jī)r(jià)值和社會(huì)意義.這些研究不僅可以幫助我們加深對(duì)復(fù)雜疾病在分子層面的致病機(jī)理的理解,而且可以利用lncRNA作為疾病診斷、預(yù)測(cè)的生物靶標(biāo)以及治療和預(yù)防的藥物靶標(biāo).
預(yù)測(cè)潛在的疾病與lncRNA關(guān)聯(lián)關(guān)系的計(jì)算方法可分為2大類:基于機(jī)器學(xué)習(xí)和基于網(wǎng)絡(luò)的方法.基于機(jī)器學(xué)習(xí)的方法通常使用疾病與lncRNA關(guān)聯(lián)關(guān)系來(lái)訓(xùn)練學(xué)習(xí)模型,然后用學(xué)習(xí)得到的模型來(lái)預(yù)測(cè)新的關(guān)聯(lián)關(guān)系.這類方法整合了各種生物信息來(lái)注釋lncRNA.例如,Zhao等人[15]使用樸素貝葉斯模型來(lái)整合基因組、調(diào)節(jié)子和轉(zhuǎn)錄組特征,進(jìn)而識(shí)別與癌癥相關(guān)的潛在lncRNA.這個(gè)方法需要陰性的訓(xùn)練樣本(即與疾病無(wú)關(guān)的lncRNA)來(lái)訓(xùn)練模型,考慮到并沒(méi)有這種實(shí)驗(yàn)驗(yàn)證的陰性樣本,在這項(xiàng)研究中,所有未知的lncRNA-疾病關(guān)聯(lián)關(guān)系被認(rèn)為是陰性樣本用于訓(xùn)練.最近,一個(gè)半監(jiān)督模型——正則化最小二乘(RLS)[16]克服了這一限制,該模型不需要陰性的訓(xùn)練樣本.
相對(duì)于比較少的基于機(jī)器學(xué)習(xí)方法的研究,許多基于網(wǎng)絡(luò)的方法被提出來(lái)預(yù)測(cè)與疾病相關(guān)的潛在lncRNA.基于網(wǎng)絡(luò)的方法通常根據(jù)lncRNA與疾病的關(guān)聯(lián)得分大小對(duì)候選的lncRNA進(jìn)行排序,進(jìn)而預(yù)測(cè)致病基因.最常用的算法是標(biāo)簽傳播算法,比如隨機(jī)漫步(RWR)[17-21]和KATZ[22].這些研究的主要區(qū)別在于傳播算法所應(yīng)用的底層網(wǎng)絡(luò)不同.例如:Sun等人[17]將RWR應(yīng)用于lncRNA功能相似網(wǎng)絡(luò)(lncRNA FSN);Liu等人[18]基于lncRNA和蛋白質(zhì)編碼基因表達(dá)譜構(gòu)建了蛋白質(zhì)編碼基因-lncRNA二部網(wǎng)絡(luò),然后利用RWR算法來(lái)預(yù)測(cè)癌癥相關(guān)的lncRNA;與此同時(shí),Zhou等人[19]和Ganegoda等人[20]結(jié)合lncRNA相似網(wǎng)絡(luò)建立了lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò),然后在該網(wǎng)絡(luò)上應(yīng)用RWR算法預(yù)測(cè)潛在疾病lncRNA關(guān)聯(lián)關(guān)系.這些基于網(wǎng)絡(luò)的方法是基于一種觀察結(jié)果提出的,即在功能上類似的lncRNA通常與相同或相似的疾病聯(lián)系在一起,即疾病模塊原理.以上方法都是通過(guò)構(gòu)建網(wǎng)絡(luò)提出基于網(wǎng)絡(luò)的計(jì)算模型,有的方法結(jié)合基因表達(dá)譜數(shù)據(jù)等構(gòu)建網(wǎng)絡(luò),所構(gòu)建網(wǎng)絡(luò)結(jié)合了多種信息的邏輯關(guān)聯(lián)網(wǎng)絡(luò),構(gòu)建方法相對(duì)復(fù)雜.
本文使用了一種異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)相關(guān)性計(jì)算方法——HeteSim,該方法用來(lái)預(yù)測(cè)基因和疾病的關(guān)聯(lián)關(guān)系,得到了很好的實(shí)驗(yàn)驗(yàn)證[23].因此,我們將這種方法應(yīng)用到lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)中,通過(guò)挖掘網(wǎng)絡(luò)中疾病與lncRNA之間的關(guān)聯(lián)關(guān)系,計(jì)算疾病與lncRNA關(guān)聯(lián)得分,預(yù)測(cè)潛在疾病關(guān)聯(lián)lncRNA,預(yù)測(cè)結(jié)果優(yōu)于其他方法.
預(yù)測(cè)lncRNA與疾病之間的關(guān)聯(lián)關(guān)系可以理解為lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)上的一個(gè)相關(guān)性搜索任務(wù).異質(zhì)信息網(wǎng)絡(luò)是一種特殊的信息網(wǎng)絡(luò),下面是信息網(wǎng)絡(luò)的定義,在此基礎(chǔ)上可以定義得到同質(zhì)信息網(wǎng)絡(luò)和異質(zhì)信息網(wǎng)絡(luò).
定義1.信息網(wǎng)絡(luò).給定一個(gè)模式S=(A,R),它由對(duì)象類型集合A和關(guān)系集合R構(gòu)成.信息網(wǎng)絡(luò)被抽象定義為一個(gè)有向圖G= (V,E),其中,V是所有實(shí)體節(jié)點(diǎn)的集合,E是所有關(guān)系邊的集合.并且存在一個(gè)節(jié)點(diǎn)類型的映射函數(shù)φ:V→A和一個(gè)邊類型的映射函數(shù)θ:E→R,對(duì)于每個(gè)對(duì)象v∈V屬于一種特殊的對(duì)象類型φ(v)∈A,每個(gè)鏈接e∈E屬于一種特殊的關(guān)系類型θ(e)∈R,那么這種網(wǎng)絡(luò)類型就是信息網(wǎng)絡(luò).當(dāng)對(duì)象類型的種類|A|>1或者關(guān)系類型的種類|R|>1時(shí),這種信息網(wǎng)絡(luò)是異質(zhì)信息網(wǎng)絡(luò).例如圖1(a)就是由電影數(shù)據(jù)構(gòu)建成電影異質(zhì)信息網(wǎng)絡(luò).
Fig. 1 Heterogeneous information network instance and meta-path[24]圖1 異質(zhì)信息網(wǎng)絡(luò)實(shí)例和元路徑[24]
基于已知的lncRNA與疾病關(guān)聯(lián)關(guān)系,構(gòu)建lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò),如圖2(a)所示.網(wǎng)絡(luò)中包含2種類型節(jié)點(diǎn),分別為lncRNA和疾病,包含1種類型的邊,即lncRNA-疾病關(guān)聯(lián)關(guān)系.為了集成更多的疾病相關(guān)的基因信息,類似地,我們集成了OMIM(online mendelian inheritance in man)數(shù)據(jù)庫(kù)中已知的編碼基因與疾病的關(guān)聯(lián)關(guān)系,將上面所構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)進(jìn)行了擴(kuò)展.擴(kuò)展后的網(wǎng)絡(luò)中包含2種類型節(jié)點(diǎn),分別為基因和疾病,其中基因包括lncRNA和從OMIM中集成的編碼基因.相應(yīng)的邊擴(kuò)展為基因-疾病關(guān)聯(lián)關(guān)系.lncRNA與疾病的關(guān)聯(lián)預(yù)測(cè)在基因-疾病關(guān)聯(lián)異質(zhì)信息網(wǎng)絡(luò)上進(jìn)行.
由于HeteSim是一種路徑約束的相關(guān)性計(jì)算方法,所以選擇相關(guān)路徑是非常重要的.構(gòu)建了異質(zhì)信息網(wǎng)絡(luò)之后,我們的目的是要研究lncRNA和疾病的相關(guān)關(guān)系,即通過(guò)現(xiàn)有的異質(zhì)信息網(wǎng)絡(luò)預(yù)測(cè)出lncRNA是否和其他疾病相關(guān)聯(lián),因此我們選擇lncRNA-疾病-lncRNA-疾病(LDLD)作為元路徑,如圖2所示.在此路徑下使用HeteSim算法計(jì)算lncRNA和疾病之間的相關(guān)性,就能根據(jù)已有的關(guān)系預(yù)測(cè)出潛在的lncRNA-疾病關(guān)聯(lián)關(guān)系.
Fig. 2 LncRNA-Disease heterogeneous information network and meta-path LDLD圖2 LncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)和元路徑LDLD
石川等人[24]提出了HeteSim算法來(lái)計(jì)算異質(zhì)信息網(wǎng)絡(luò)中任意節(jié)點(diǎn)對(duì)的相關(guān)性,該方法具有對(duì)稱特性而且可以計(jì)算相同或不同類型對(duì)象之間的相關(guān)性,從而適用于很多的應(yīng)用.HeteSim是一種基于雙向隨機(jī)游走(pair-wise random walk)的相關(guān)性計(jì)算方法,它將元路徑P分割成2條相等長(zhǎng)度的元路徑PL和PR,之后將對(duì)象s和t分別沿著元路徑PL和PR進(jìn)行隨機(jī)游走,最后將2個(gè)對(duì)象走到相同中間節(jié)點(diǎn)的概率作為s和t的相關(guān)性.
對(duì)于我們選擇的元路徑lncRNA-疾病-lncRNA-疾病(LDLD),由于路徑長(zhǎng)度是奇數(shù),元路徑兩端的2個(gè)節(jié)點(diǎn)始終都不會(huì)在1個(gè)點(diǎn)相遇,因此我們需要插入中間類型M從而使路徑可以等分成路徑PL=LDM和PR=MLD,如圖3所示:
Fig. 3 Before and after insertion of the intermediate type M圖3 插入中間類型M前后
下面介紹如何利用矩陣乘法計(jì)算lncRNA和疾病之間的關(guān)聯(lián)得分.首先,我們定義2類矩陣:轉(zhuǎn)移概率矩陣和可達(dá)概率矩陣.
根據(jù)HeteSim的定義,類型L中的節(jié)點(diǎn)基于元路徑P=LDLD到類型D中的節(jié)點(diǎn)之間的相似度為類型L的節(jié)點(diǎn)和類型D中的節(jié)點(diǎn)隨機(jī)游走恰好在元路徑中間類型M相遇的概率,計(jì)算公式為
(1)
式(1)表明L和D之間基于路徑P的相關(guān)性是2個(gè)概率分布的內(nèi)積.
對(duì)于lncRNA和疾病類型中具體的對(duì)象l,d,基于路徑P的關(guān)聯(lián)得分計(jì)算為
(2)
其中QP(l,:)為矩陣QP中對(duì)象l所對(duì)應(yīng)的行向量.
為了使得HeteSim得分取值位于區(qū)間[0,1],還需要對(duì)計(jì)算出的關(guān)聯(lián)得分進(jìn)行標(biāo)準(zhǔn)化處理:
(3)
由式(1)~(3)我們就可以計(jì)算出lncRNA和疾病之間的關(guān)聯(lián)得分.可以看到,計(jì)算HeteSim得分的過(guò)程主要包括3個(gè)部分:鄰接矩陣標(biāo)準(zhǔn)化運(yùn)算、矩陣連乘運(yùn)算、相似度標(biāo)準(zhǔn)化運(yùn)算.
實(shí)驗(yàn)中所使用疾病與基因關(guān)聯(lián)數(shù)據(jù)均來(lái)自文獻(xiàn)[25],包括lncRNA與疾病關(guān)聯(lián)數(shù)據(jù)以及已知的編碼基因與疾病關(guān)聯(lián)數(shù)據(jù).lncRNA與疾病關(guān)聯(lián)數(shù)據(jù)包括2個(gè)部分:1)來(lái)自LncRNADisease數(shù)據(jù)庫(kù)[13]的數(shù)據(jù),其中包含480條實(shí)驗(yàn)驗(yàn)證的lncRNA與疾病關(guān)聯(lián)關(guān)系,涉及到166種疾病和118種lncRNA;2)在PubMed上進(jìn)行文本挖掘得到的lncRNA與疾病關(guān)聯(lián)數(shù)據(jù),其中包含380條lncRNA-疾病關(guān)聯(lián)的數(shù)據(jù),包括226種lncRNA和145種疾病.
整合上述2種數(shù)據(jù)集,最終得到了578條lncRNA-疾病關(guān)聯(lián)關(guān)系,其中包括295種lncRNA和214種疾病,構(gòu)成了lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò).
編碼基因與疾病關(guān)聯(lián)數(shù)據(jù)來(lái)自O(shè)MIM數(shù)據(jù)庫(kù)[26].針對(duì)上述lncRNA-疾病關(guān)聯(lián)數(shù)據(jù)中涉及到的214種疾病,其中160種疾病可通過(guò)MIM編號(hào)在OMIM數(shù)據(jù)庫(kù)中找到該疾病的致病基因,Yang等人[25]提取了OMIM數(shù)據(jù)庫(kù)中這160種疾病與編碼基因的關(guān)聯(lián)關(guān)系,得到980條編碼基因與疾病關(guān)聯(lián)的數(shù)據(jù)條目,包括801個(gè)編碼基因和160種疾病.
通過(guò)整合上述lncRNA與疾病關(guān)聯(lián)數(shù)據(jù)、編碼基因與疾病關(guān)聯(lián)數(shù)據(jù),得到1 558條編碼-長(zhǎng)非編碼基因與疾病的關(guān)聯(lián)關(guān)系,其中包括214種疾病和1 096種基因(編碼基因或lncRNA),根據(jù)以上數(shù)據(jù)構(gòu)建基因-疾病異質(zhì)信息網(wǎng)絡(luò).
上述2個(gè)網(wǎng)絡(luò)中的具體信息如表1所示:
Table 1 Specific Information in the LncRNA/Gene-DiseaseHeterogeneous Information Network表1 lncRNA/基因-疾病異質(zhì)信息網(wǎng)絡(luò)中的具體信息
對(duì)基因-疾病異質(zhì)信息網(wǎng)絡(luò)中不存在連邊的基因與疾病對(duì),采用HeteSim算法計(jì)算疾病與基因之間的關(guān)聯(lián)得分,預(yù)測(cè)潛在的lncRNA和疾病關(guān)聯(lián)關(guān)系.對(duì)每一個(gè)疾病,選取關(guān)聯(lián)得分在top10的基因認(rèn)為是其潛在的致病基因.
HeteSim在lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)中的性能通過(guò)留一交叉驗(yàn)證(leave-one-out cross valida-tion, LOOCV)實(shí)驗(yàn)來(lái)評(píng)估.由于二部網(wǎng)絡(luò)中度為1的節(jié)點(diǎn)所關(guān)聯(lián)邊被移除后會(huì)成為孤立節(jié)點(diǎn),不能通過(guò)網(wǎng)絡(luò)方法和計(jì)算模型得到任何信息,因此本文的預(yù)測(cè)方法無(wú)法計(jì)算這些邊的得分值.所以,在進(jìn)行留一交叉驗(yàn)證之前應(yīng)過(guò)濾這類邊.最后,我們保留了532條邊,其中包括103個(gè)疾病和163個(gè)基因(包括44個(gè)lncRNA和119個(gè)編碼基因).對(duì)于保留的每一條關(guān)聯(lián)關(guān)系中的疾病,我們?cè)跊](méi)有邊相連的lncRNA中隨機(jī)選取1個(gè)lncRNA與該疾病相連,構(gòu)造本文實(shí)驗(yàn)的負(fù)樣本.
在每次留一交叉驗(yàn)證運(yùn)行過(guò)程中,我們刪除1個(gè)已知的lncRNA-疾病關(guān)聯(lián)邊,然后在剩下的網(wǎng)絡(luò)中應(yīng)用HeteSim算法計(jì)算出刪除邊的HeteSim關(guān)聯(lián)得分.這個(gè)被刪除的邊被認(rèn)為是測(cè)試樣本,剩下的網(wǎng)絡(luò)結(jié)構(gòu)被認(rèn)為是訓(xùn)練樣本.通過(guò)設(shè)定不同的閾值(topk%,1≤k≤100),我們使用ROC曲線和ROC曲線下的區(qū)域(AUC)來(lái)評(píng)估HeteSim在網(wǎng)絡(luò)上的表現(xiàn).ROC曲線的橫軸是“假陽(yáng)性率”(FPR),它是實(shí)際負(fù)樣本中錯(cuò)誤地識(shí)別為正樣本的比例;縱軸是“真陽(yáng)性率”(TPR),它是所有實(shí)際正樣本中正確識(shí)別的正樣本的比例.二者的計(jì)算公式為
(4)
(5)
TPR表示的是移除的關(guān)聯(lián)邊排名在k%以內(nèi)的比率;FPR表示的是不存在的關(guān)聯(lián)邊排名在k%以內(nèi)的比率.當(dāng)閾值k在1~100之間變化時(shí)可以得到相應(yīng)的TPR和FPR.通過(guò)這種方式,可以繪制ROC曲線,從而計(jì)算AUC.按照以上步驟,我們?cè)趌ncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)上進(jìn)行了留一交叉驗(yàn)證,并取得了0.682 8的AUC.相應(yīng)的ROC曲線如圖4所示:
Fig. 4 Leave-one-out cross validation ROC curve圖4 留一交叉驗(yàn)證ROC曲線圖
為了提高方法的性能,我們將編碼基因和疾病關(guān)聯(lián)關(guān)系整合到lncRNA-疾病網(wǎng)絡(luò)中得到基因-疾病異質(zhì)信息網(wǎng)絡(luò).我們?cè)诨?疾病異質(zhì)信息網(wǎng)絡(luò)上進(jìn)行了留一交叉驗(yàn)證,負(fù)樣本的構(gòu)造方法與之前類似,得到的AUC值為0.783 5,如圖4所示.很明顯,編碼基因-疾病關(guān)聯(lián)關(guān)系的整合可以提高我們方法的性能,分析原因主要是通過(guò)集成編碼基因-疾病關(guān)聯(lián)數(shù)據(jù)增加了網(wǎng)絡(luò)中邊的數(shù)量,使網(wǎng)絡(luò)結(jié)構(gòu)變得更緊密,潛在的基因可以從其他基因和疾病中獲得更多信息傳播,從而可以更好地進(jìn)行預(yù)測(cè).因此,在我們做鏈路預(yù)測(cè)相關(guān)方面研究時(shí),通過(guò)整合多種數(shù)據(jù),結(jié)合更有意義的語(yǔ)義信息,可以有效地提升預(yù)測(cè)的準(zhǔn)確性.
在這里我們與Yang等人[25]提出的方法在相同的數(shù)據(jù)集上進(jìn)行比較,這2種方法都是基于已知的基因與疾病之間的關(guān)聯(lián),不借助其他的信息進(jìn)行疾病與基因的關(guān)聯(lián)預(yù)測(cè),圖4給出了本文方法與Yang等人的方法預(yù)測(cè)結(jié)果比較,本文方法優(yōu)于Yang等人的方法.此外.我們又與IRWRLDA[21]和KATZLDA[22]這2種方法進(jìn)行比較,這2種方法除了已知的lncRNA-疾病關(guān)聯(lián)數(shù)據(jù),還加入了lncRNA相似性和疾病相似性的數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè),本文的方法優(yōu)于這2種方法,比較結(jié)果如圖4所示.
為進(jìn)一步驗(yàn)證本文方法的可靠性和實(shí)用性,分別對(duì)卵巢癌和胃癌2種疾病做案例分析.對(duì)每一種疾病,所有未與該疾病有關(guān)聯(lián)連邊的基因按照其與該疾病的關(guān)聯(lián)得分從大到小進(jìn)行排序,排名top10的基因被認(rèn)為是與該疾病潛在關(guān)聯(lián)的基因.
卵巢惡性腫瘤是女性常見(jiàn)的惡性腫瘤之一,發(fā)病率僅次于子宮頸癌和子宮體癌.而卵巢上皮癌死亡率占各類婦科腫瘤的首位,對(duì)婦女的生命造成非常嚴(yán)重的威脅.表2顯示了卵巢癌中排名top10的基因,包括4個(gè)lncRNA,目前這4個(gè)已有文獻(xiàn)通過(guò)生物實(shí)驗(yàn)等證實(shí)確實(shí)與該疾病有關(guān),對(duì)應(yīng)的PubMed唯一標(biāo)識(shí)碼(PubMed unique identifier, PMID)也在表2中給出,通過(guò)PMID可以在PubMed搜索引擎中查閱對(duì)應(yīng)的文獻(xiàn).例如:Zhou等人[27]通過(guò)研究發(fā)現(xiàn)MALAT-1在卵巢腫瘤中高表達(dá),會(huì)促進(jìn)卵巢癌細(xì)胞的生長(zhǎng)和遷移,表明MALAT-1可能是卵巢癌發(fā)展的重要因素;Yang等人[28]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)UCA1在上皮性卵巢癌組織和細(xì)胞中異常上調(diào),研究表明UCA1是上皮性卵巢癌的新預(yù)后生物標(biāo)志物;Xiu等人[29]發(fā)現(xiàn)MEG3的表達(dá)在上皮性卵巢癌中較低,通過(guò)調(diào)節(jié)ATG3活性和誘導(dǎo)自噬在上皮性卵巢癌中充當(dāng)腫瘤抑制劑,并可能被認(rèn)為是卵巢癌的生物標(biāo)志物;Zhang等人[30]研究發(fā)現(xiàn)在患有卵巢癌的患者中,HOTAIR顯著上調(diào).此外,HOTAIR的上調(diào)增加了卵巢癌細(xì)胞的增殖、遷移和侵襲,從而促成了卵巢癌細(xì)胞的惡性進(jìn)展.
Table 2 Top10 Genes Linked to Ovarian Cancer表2 Top10與卵巢癌有關(guān)的基因
胃癌是起源于胃黏膜上皮的惡性腫瘤,在我國(guó)各種惡性腫瘤中發(fā)病率居首位,對(duì)人類的健康造成巨大威脅.表3顯示了胃癌中排名top10的基因,包括5個(gè)lncRNA,其中有3個(gè)目前已有文獻(xiàn)證實(shí)確實(shí)與該疾病有關(guān).例如:Okugawa等人[31]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)在腹膜播散的胃癌細(xì)胞中,HOTAIR的SiRNA抑制細(xì)胞增殖、遷移和侵襲,為HOTAIR表達(dá)作為鑒定腹膜轉(zhuǎn)移患者的潛在生物標(biāo)志物的生物學(xué)和臨床意義提供了新的證據(jù),并且作為胃腫瘤患者的新治療靶點(diǎn);Chen等人[32]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)MALAT-1在胃癌細(xì)胞系和組織中上調(diào);此外,MALAT-1在高轉(zhuǎn)移潛能胃癌細(xì)胞系SGC7901M中的表達(dá)高于在低轉(zhuǎn)移潛能胃癌細(xì)胞系SGC7901NM中的表達(dá),結(jié)果表明MALAT-1可能部分通過(guò)調(diào)節(jié)上皮間質(zhì)轉(zhuǎn)化(EMT)促進(jìn)胃癌細(xì)胞的遷移和侵襲;Xu等人[33]通過(guò)實(shí)驗(yàn)證明MEG3miR21通過(guò)調(diào)節(jié)EMT參與胃癌的腫瘤進(jìn)展和轉(zhuǎn)移.
Table 3 Top10 Genes Linked to Gastric Cancer表3 Top10與胃癌有關(guān)的基因
長(zhǎng)非編碼 RNA在許多生物過(guò)程中具有重要的功能,這些長(zhǎng)非編碼 RNA 的變異或功能失調(diào)會(huì)導(dǎo)致一些復(fù)雜疾病的發(fā)生.因此,通過(guò)生物信息學(xué)方法預(yù)測(cè)潛在的長(zhǎng)非編碼 RNA-疾病關(guān)聯(lián)關(guān)系,這對(duì)于致病機(jī)理的探索以及疾病診斷、治療、預(yù)后和預(yù)防都具有重要的意義.
近年來(lái),針對(duì)這一問(wèn)題,很多研究者已提出了其他基于網(wǎng)絡(luò)的預(yù)測(cè)方法,并且在網(wǎng)絡(luò)模型的基礎(chǔ)上集成基因表達(dá)數(shù)據(jù)或者基因與miRNA之間的調(diào)控關(guān)系數(shù)據(jù),實(shí)現(xiàn)lncRNA與疾病關(guān)聯(lián)的預(yù)測(cè).
本文使用了一種異質(zhì)信息網(wǎng)絡(luò)中的相關(guān)性計(jì)算方法——HeteSim,用來(lái)預(yù)測(cè)lncRNA與疾病之間的關(guān)聯(lián).該方法基于路徑約束,通過(guò)元路徑兩端節(jié)點(diǎn)隨機(jī)游走到中間節(jié)點(diǎn)相遇的概率作為疾病與lncRNA之間的關(guān)聯(lián)得分,發(fā)掘潛在的疾病與lncRNA關(guān)聯(lián)關(guān)系.實(shí)驗(yàn)結(jié)果表明該計(jì)算方法有較高的預(yù)測(cè)準(zhǔn)確性和魯棒性,并且該方法可以很好地集成其他類型的關(guān)聯(lián)數(shù)據(jù),例如基因間的蛋白質(zhì)相互作用[34]、lncRNA和編碼基因的共表達(dá)、miRNA對(duì)lncRNA和編碼基因的調(diào)控、疾病之間的相似性信息等.集成這些關(guān)聯(lián)數(shù)據(jù),從而對(duì)元路徑進(jìn)行擴(kuò)展,可以使更多與lncRNA疾病相關(guān)的語(yǔ)義信息被用來(lái)預(yù)測(cè),有利于預(yù)測(cè)的準(zhǔn)確性,這也是本文工作進(jìn)一步深入研究的方向.