丁尉哲,南 洋,吳卷書,崔 迪,張 力,2,3,劉宏生,2,3
(1.遼寧大學(xué)生命科學(xué)院;2.遼寧省生物大分子計算模擬與信息處理工程技術(shù)研究中心;3.遼寧省藥物分子模擬與設(shè)計工程實驗室,遼寧 沈陽 110036)
lncRNA是一類長度超過200個核苷酸的非編碼RNA,可通過多種機制發(fā)揮其生物學(xué)功能[1]。miRNA是生物體內(nèi)源基因編碼的長度約為21~25個核苷酸的非編碼小RNA,主要通過與靶mRNA互補配對在轉(zhuǎn)錄水平上對基因的表達進行負調(diào)控。越來越多研究表明,lncRNA與miRNA的相互作用也共同控制著一些復(fù)雜疾病的生理過程[2-3]。目前已有多種計算方法用于lncRNA-蛋白質(zhì)相互作用和lncRNA-疾病相互作用預(yù)測,但只有少數(shù)幾個模型能用于預(yù)測lncRNA-miRNA相互作用[4]。本研究基于lncRNA和miRNA的序列、功能和表達譜數(shù)據(jù)及已知的lncRNA-miRNA互作數(shù)據(jù),通過網(wǎng)絡(luò)相似性整合算法,預(yù)測lncRNA與miRNA互作對。該研究為lncRNA-miRNA互作預(yù)測建立了新的方法,同時也為疾病機理分析提供了新思路。
1.1 材料
1.1.1 lncRNA與miRNA關(guān)聯(lián)數(shù)據(jù) 本研究中l(wèi)ncRNA與miRNA相互作用數(shù)據(jù)來源于lncRNASNP2數(shù)據(jù)庫(http://bioinfo.life.hust.edu.cn/lncRNASNP#!/)[5]。在刪除無效和重復(fù)的記錄后,共下載了10597條互作數(shù)據(jù),其中包括780種不同類型的lncRNA和275種不同類型的miRNA。
1.1.2 lncRNA和miRNA的序列信息 lncRNA的序列信息來自LNCipedia數(shù)據(jù)庫(https://Incipedia.org/)[6]。miRNA的序列信息來自miRBase數(shù)據(jù)庫(http://www.mirbase.org/index.shtml)[7]。在刪除重復(fù)的記錄及無效的序列信息之后,共獲得7263個相互作用對。此外,為了更好地驗證本研究方法的有效性,進一步考慮了表達譜相似性和功能相似性信息。lncRNA的表達譜信息和功能注釋信息來自NONCODE數(shù)據(jù)庫(http://www.noncode.org/)[8]。去除無效和冗余信息后獲得了用于計算表達譜的449個lncRNA和用于計算功能注釋的264個lncRNA。此外,在刪除無效和重復(fù)的信息后,在microRNA數(shù)據(jù)庫(http://www.mirbase.org/)中獲得了230個miRNA的表達譜信息,并在miRTarBase 7.0數(shù)據(jù)庫(http://miRTarBase.mbc.nctu.edu.tw)中獲得272個miRNA的功能數(shù)據(jù)[9]。
1.2 方法
1.2.1 lncRNA序列相似性的測定 使用基于字符串匹配的Needleman-Wunsch算法[10]對lncRNA進行序列比對,并將lncRNA序列相似性結(jié)果歸一化到0到1的范圍內(nèi),其中1對應(yīng)于兩個lncRNA完全相同,而0則對應(yīng)于缺少與該序列相關(guān)的相似性信息。具體公式如下:
(1)
其中LR(li,lj)為lncRNAli和lj之間的序列相似性,ns(li,lj)為lncRNA中兩個比較序列之間的最大匹配數(shù)。
1.2.2 miRNA序列相似性的測定 miRNA序列之間相似度可由下列公式計算:
(2)
其中MR(mi,mj)為miRNAmi和mj之間的序列相似性,ns(mi,mj)為miRNA中兩個比較序列之間的最大匹配數(shù)。
1.2.3 預(yù)測lncRNA與miRNA關(guān)聯(lián)數(shù)據(jù) 通過引入鄰接矩陣Y可以更好地描述lncRNA-miRNA的關(guān)系。若lncRNAli與miRNAmj相互作用,則矩陣元素Yij為1,否則為0,其中字母l和m分別代表實驗中涉及的lncRNA和miRNA。同時,序列相似性數(shù)據(jù)中矩陣Y的維數(shù)被設(shè)為780×275,而利用表達譜相似性數(shù)據(jù)和功能相似性數(shù)據(jù)得到的矩陣維數(shù)則分別為449×230和264×272。
1.2.4 NSILMI方法預(yù)測lncRNA與miRNA相互作用 本研究提出通過整合miRNA和lncRNA的向量空間得分來計算潛在的lncRNA-miRNA互作得分的方法,命名為:NSILMI(Network Similarity Integration Method for predicting LncRNA-MiRNA Interactions,NSILMI)。在本研究中,主要采用余弦相似度來計算向量空間得分。
在lncRNA向量空間中,向量VLRi被用來描述lncRNAi與所有l(wèi)ncRNA之間的相似性并由LRi(矩陣LR的第i行)來表示。同樣地,向量VYj被用來描述miRNAj和所有l(wèi)ncRNA之間的相似性并由Yj(矩陣Y的第j列)進行表示
VLRi=LRiVLRi=LRi
(3)
VYj=YjVYj=Yj
(4)
lncRNA空間分數(shù)被定義為:
(5)
其中VLRi·VYjVLRi·VYj是向量VLRi和VYj的點積,||VLRi||是向量VLRi的范數(shù),||VYj||是向量VYj的范數(shù),而NSILMI_L(i,j)則為向量VLRi和VYj的余弦相似度。當VLRi和VYj之間的夾角越小時,向量空間分數(shù)NSILMI_L(i,j)就越大。
因此,在lncRNA-lncRNA相似網(wǎng)絡(luò)中,與lncRNAi相關(guān)的lncRNA空間相似性越高,lncRNAi與miRNAj之間的關(guān)聯(lián)相似度就越大。同樣地,與miRNAj相關(guān)的lncRNAs的空間相似性越高,lncRNAi與miRNAj之間的關(guān)聯(lián)相似度也就越大。
而在miRNA向量空間中,向量VMRj被用來表示miRNAj與所有miRNAs之間的相似性并由MRj(矩陣MR的第j列)來表示它。向量VYi則被用來表示lncRNAi與所有miRNAs之間的相似性并由Yi(矩陣Y的第i行)表示
VLRj=LRj
(6)
VYi=Yi
(7)
MiRNA空間分數(shù)被定義為
(8)
其中VYi·VMRj是向量VMRj和VYi的點積;||VMRj||是向量VMRj的范數(shù),||VYi||是向量VYi的范數(shù),而NSILMI_M(i,j)則為向量VMRj和VYi的余弦相似度。當VMRj和VYi之間的夾角越小時,向量空間得分NSILMI_M(i,j)就越大。
所以,在lncRNA-miRNA相似網(wǎng)絡(luò)中,與lncRNAi相關(guān)的miRNAs空間相似性越高,lncRNAi和miRNAj的關(guān)聯(lián)相似度就越大。同樣地,與miRNAj相關(guān)的miRNAs的空間相似性越高,lncRNAi與miRNAj的關(guān)聯(lián)相似度越大。
1.2.5 整體打分 將lncRNA空間分數(shù)和miRNA空間分數(shù)集成為
NSILMA(i,j)=α×NSILMA_L(i,j)+(1-α)×NSILMA_M(i,j)
(9)
其中,α是平衡兩個空間相似性的貢獻的參數(shù),α∈(0,1) ,NSILMI(i,j)是lncRNA i對miRNA j的預(yù)測相關(guān)分數(shù)。
1.2.6 模型評估 本研究采用100次重復(fù)的5折交叉驗證檢驗NSILMI的準確性。采用ROC (receiver operating characteristic,ROC)曲線和ROC曲線下面積(area under curve,AUC)作為性能指標來評價NSILMI的預(yù)測準確性。一般情況下,AUC值在0.5和1.0之間,AUC值越大,模型越好[11]。
TPR(True Positive Rate)為分類器預(yù)測的陽性樣本中真陽性樣本的比例,同時也是ROC曲線的x坐標(以Sensitivity表示)。FPR(False Positive Rate)則表示陽性樣本占分類器預(yù)測的陰性樣本的比例,同時也是ROC曲線的縱坐標(以1-specificity表示)。在本研究中,使用如下公式進行計算
(10)
(11)
其中FP、TP、FN和TN分別是假陽性、真陽性、假陰性和真陰性。之后采用Logistic回歸分類器,將每個樣本概率設(shè)為正值并通過界定臨界值(0.6)將大于或等于0.6的概率為陽性,小于0.6的概率為陰性。然后通過計算一組FPR和TPR可以得到平面上相應(yīng)的坐標點。最終,隨著臨界值的逐漸降低,越來越多的樣本歸為陽性,但這些陽性也與真陰性混在一起,即TPR和FPR會同時增加。而當臨界值最大時,對應(yīng)的坐標點為(0,0)。相反,當臨界值最小時,對應(yīng)的坐標點則為(1,1)。
2.1 整體打分結(jié)果為了找到合適的值,通過實驗考察了從0.1到1的不同值。圖1顯示,當為0.7時,基于序列的NSILMI獲得了最高的預(yù)測性能。
圖1 不同α值下NSILMI的平均AUC
2.2 NSILMI與文獻中報道模型的比較為了測試NSILMI模型的預(yù)測準確性,通過計算AUC值對NSILMI和其他網(wǎng)絡(luò)預(yù)測方法的質(zhì)量進行了評估。在本研究中,NSILMI與其他五種方法:LMFNRLMI[12]、NDALMA、LMI-INGI[13]、KATZLDA[14]和CF[15]進行了比較。在這些網(wǎng)絡(luò)預(yù)測方法中,CF是常用的協(xié)同過濾算法。通過挖掘lncRNA已知互作數(shù)據(jù),CF能夠預(yù)測出與lncRNA顯著相關(guān)的miRNAs,并根據(jù)不同的參數(shù)對lncRNA組進行劃分,以便推薦具有相似參數(shù)選擇的miRNAs。KATZLDA算法則可以合成已知關(guān)系來構(gòu)建異構(gòu)網(wǎng)絡(luò)。其主要利用lncRNA-miRNA關(guān)聯(lián)矩陣構(gòu)建組合網(wǎng)絡(luò),并計算綜合異構(gòu)網(wǎng)絡(luò)中每個節(jié)點的數(shù)目和長度,從而推斷出lncRNA-miRNA對的得分。
圖2展示了五種方法計算的AUC值。由圖2可知,NSILMI獲得了更好的AUC值(0.9814),高于LMFNRLMI (0.9554)、NDALMA (0.9255)、LMI-INGI (0.8917)、KATZLDA (0.8253)和CF (0.6713)。因此,與其他方法相比,NSILMI方法在推斷潛在的lncRNA-miRNA相互作用方面擁有更高的精度。
圖2 NSILMI與LMFNRLMI、NDALMA、LMI-INGI、KATZLDA和CF預(yù)測性能的比較
2.3 不同類型相似度比較為了進一步驗證NSILMI的有效性和適用性,我們分別使用基于表達譜相似度和基于功能相似度的數(shù)據(jù)作為測試集。為了更直觀地比較不同類型相似度計算的效果,圖3展示了AUC值的比較結(jié)果。
如圖3所示,基于功能相似度和表達譜相似度計算的AUC值分別為0.8831和0.8654并低于基于序列相似度的0.9814。因此,雖然基于表達譜相似度和功能相似度的AUC值低于基于序列相似度的AUC值,但是結(jié)果仍都在0.85以上,這充分證明了我們方法的適用性和優(yōu)越性。
圖3 基于不同相似度的NSILMI預(yù)測性能的比較
2.4 實例測試為了評估了NSILMI模型預(yù)測未知lncRNA-miRNA相互作用的能力,使用lncRNASNP2數(shù)據(jù)庫的更新版本預(yù)測了新的lncRNA-miRNA互作對。表1列出了由NSILMI模型預(yù)測并排名前20個的lncRNA-miRNA互作對,其中16個互作對已被實驗證實存在。
表1 NSILMI預(yù)測的前20個新互作對及其在預(yù)測中的排名
先前基于miRNAs的研究已經(jīng)證明,miRNAs參與了人類疾病的病理過程并可以作為某些疾病的標志物。其中,miR-193b-3p的下調(diào)可能通過介導(dǎo)NCAPG的上調(diào)來促進胃癌細胞的增殖[16]。這些結(jié)果證明了NSILMI模型在預(yù)測lncRNA-miRNA相互作用的實用性。盡管仍有部分未被實驗證實,但隨著實驗文獻和數(shù)據(jù)庫的完善,將會有越來越多的lncRNA-miRNA互作對得到證實。
lncRNA和miRNA在細胞的生理調(diào)控中發(fā)揮了至關(guān)重要的作用。其中,lncRNA DILC可以在膽囊癌組織中高水平表達,并且與生存預(yù)后有關(guān)[17]。而膀胱癌組織中miR-212的相互作用則與HMGA2密切相關(guān),并能通過靶向調(diào)控HMGA2影響膀胱癌細胞的增殖、遷移和侵襲能力[18]。
而lncRNA和miRNA的相互作用在一些復(fù)雜疾病中也參與了重要作用。其中LncRNA UCA1通過膠質(zhì)瘤中miR-206/CLOCk軸促進了細胞的生長和侵襲,因此LncRNA UCA1/miR- 206/CLOCk軸可能是神經(jīng)膠質(zhì)瘤的一個潛在的新靶點[19]。此外,lncRNAs HIF1A-AS2則通過與miR-153-3p結(jié)合來促進HIF-1α的上調(diào),從而促進缺氧狀態(tài)下HUVEC中的血管生成[20]。因此,lncRNA和miRNA的相互作用被認為是一些復(fù)雜疾病的重要原因。
本研究利用lncRNA和miRNA的序列、功能和表達譜信息,以及已知的lncRNA-miRNA相互作用信息,采用網(wǎng)絡(luò)相似性整合算法,建立了可靠的lncRNA-miRNA互作預(yù)測模型。通過與其他網(wǎng)絡(luò)預(yù)測方法比較,證明了NSILMI模型在推斷潛在的lncRNA-miRNA互作對具有較好的效果。同時,我們也利用表達譜相似度和功能相似度驗證了該模型的適用度并取得了較好的結(jié)果。這些結(jié)果均表明NSILMI模型在預(yù)測lncRNA-miRNA相互作用上具有可靠性和適用性。
同時,雖然上述實驗取得了較好的效果,但基于本模型的預(yù)測仍存在一定的局限性。首先,由于該算法依賴于已被實驗測定的相互作用數(shù)據(jù),導(dǎo)致樣本缺乏,可能會導(dǎo)致過擬合,因此需要使用了更多的實驗數(shù)據(jù)進行訓(xùn)練和學(xué)習(xí)。其次,因為模型的參數(shù)選擇非常復(fù)雜,很難得到完美的組合來提高預(yù)測精度。最后,本研究所使用的表達譜相似度、功能相似度、序列相似度,相似度矩陣的計算依賴于大量的計算資源。因此,在實際應(yīng)用中,相似度的計算會給在線預(yù)測工具的開發(fā)帶來困難。
綜上所述,我們利用lncRNA和miRNA相互作用數(shù)據(jù)建立了NSILMI,成功對lncRNA-miRNA互作對進行預(yù)測。該項研究為lncRNA-miRNA關(guān)聯(lián)的預(yù)測提供了新手段,也為復(fù)雜疾病的研究提供新方法和思路。