摘要:隨著高通量技術(shù)在癌癥基因組學(xué)中發(fā)展,目前迫切需要開發(fā)新的計(jì)算方法來全面挖掘潛在的抗癌藥物靶標(biāo),如Long non-coding RNA(lncRNA)。在這項(xiàng)研究中,開發(fā)了一個(gè)基于隨機(jī)游走的模型,即RWLDA模型,以基于連接疾病和lncRNA的網(wǎng)絡(luò),將lncRNA作為表征抗癌藥物治療反應(yīng)的潛在生物標(biāo)志物。使用五折交叉驗(yàn)證檢測模型性能,發(fā)現(xiàn)RWLDA的優(yōu)異性能,五折交叉驗(yàn)證ROC值為0.9643。同時(shí),也篩選出潛在與肝癌相關(guān)的lncRNA。
關(guān)鍵詞:隨機(jī)游走;lncRNA;disease;cancer
一、前言
一種長度超過200個(gè)核苷酸的非編碼RNA被命名為長非編碼RNA(lncRNA),在最近幾十年得到了相當(dāng)大的關(guān)注[1]。許多研究證實(shí),人類基因組中含有數(shù)千種lncRNA。大量lncRNA在許多重要的生物學(xué)過程中發(fā)揮著重要作用,包括染色質(zhì)修飾、轉(zhuǎn)錄和轉(zhuǎn)錄后調(diào)控、基因組剪接、分化、免疫應(yīng)答等[2]。lncRNA的突變和故障與人類疾病密切相關(guān),如神經(jīng)疾病、血液疾病、心血管疾病和各種癌癥。LncRNAs已參與復(fù)雜疾病的診斷、預(yù)后、預(yù)防和治療。LncRNA已成為癌癥的新候選生物標(biāo)志物[3]。
lncRNA疾病關(guān)聯(lián)預(yù)測的實(shí)驗(yàn)方法昂貴且耗時(shí)。lncRNADisease[4]數(shù)據(jù)庫包含了200多種常見疾病和2000多種長非編碼RNA(lncRNAs)關(guān)聯(lián)。然而,NONCODE數(shù)據(jù)庫[5]包含了90000多個(gè)人類常見lncRNA。長非編碼RNA(lncRNAs)與疾病之間的大多數(shù)關(guān)系仍然未被發(fā)現(xiàn)和驗(yàn)證。因此,迫切需要研究人員開發(fā)一種全新的計(jì)算模型來挖掘潛在的lncRNA和疾病關(guān)聯(lián)。
近年來,基于網(wǎng)絡(luò)科學(xué)和機(jī)器學(xué)習(xí)算法被開發(fā)和設(shè)計(jì)出來用于挖掘潛在長非編碼RNA(lncRNA)與疾病關(guān)聯(lián)。人類生物系統(tǒng)是一個(gè)包含各種類型生物分子相互作用的高度復(fù)雜且龐大的異質(zhì)網(wǎng)絡(luò)。因此,基于網(wǎng)絡(luò)相互作用的計(jì)算模型可以為人類生物系統(tǒng)的各種生物分子網(wǎng)絡(luò)提供可量化的表征。已經(jīng)提出了多種計(jì)算模型,通過整合多種數(shù)據(jù)源和機(jī)器學(xué)習(xí)算法來識別lncRNA疾病關(guān)聯(lián)或lncRNA蛋白質(zhì)相互作用關(guān)系。Chen等人提出了一種基于拉普拉斯正則化最小二乘框架的半監(jiān)督學(xué)習(xí)方法的LRLSLDA計(jì)算模型[6],以預(yù)測潛在的疾病相關(guān)lncRNA。此外,LRLSLDA不需要負(fù)性樣本,并且可以基于整合lncRNA表達(dá)譜生物數(shù)據(jù)和已知長非編碼RNA(lncRNA)疾病相關(guān)性產(chǎn)生可靠的結(jié)果?;诠δ芟嗨频膌ncRNA有大概率可能與發(fā)病機(jī)理類似疾病存在關(guān)聯(lián)的假設(shè),Chen等人基于網(wǎng)絡(luò)相互作用理論開發(fā)了一種新的長非編碼RNA(lncRNA)-疾病關(guān)聯(lián)計(jì)算模型LRLSLDA-LNCSIM,將疾病語義表達(dá)相似性和lncRNA功能相似性與lncRNA表達(dá)相似性相結(jié)合,使用LRLSLDA中的lncRNA高斯相互作用譜核相似性和疾病高斯相互作用輪廓核相似性。有標(biāo)簽監(jiān)督分類器的模型不足在于,通過算法隨機(jī)挑選未標(biāo)記的lncRNA疾病關(guān)聯(lián)作為負(fù)樣本。LDAP是一個(gè)用于lncRNA疾病關(guān)聯(lián)預(yù)測的Web服務(wù)器,通過基于lncRNA相似性和疾病相似性整合多個(gè)生物數(shù)據(jù)資源,該數(shù)據(jù)資源使用矩陣的幾何平均值來融合不同的數(shù)據(jù)資源,而SVM用于預(yù)測潛在的lncRNA病患關(guān)聯(lián)。
基于lncRNA功能相似性,使用jacard系數(shù)表征它們的相似性,以及帶重啟的隨機(jī)游走的預(yù)測模型RWLDA。和其他四種方法進(jìn)行交叉驗(yàn)證,RWLDA有更優(yōu)異的性能。
二、計(jì)算模型
(一)數(shù)據(jù)
LDA網(wǎng)絡(luò)數(shù)據(jù)來源于LncRNADisease[6]數(shù)據(jù)庫。關(guān)聯(lián)網(wǎng)絡(luò)Mld中包含5918個(gè)經(jīng)過實(shí)驗(yàn)驗(yàn)證的LDA。數(shù)據(jù)集包含2659個(gè)lncRNA和216種疾?。ㄒ姳?)。在關(guān)聯(lián)網(wǎng)絡(luò)中,如果疾病 d(i) 與lncRNA l(j) 相互作用,則 Mld(i,j)值為1,否則為0。此外,變量 d 和 l 分別定義為疾病和lncRNA的數(shù)目。
(二)相似性計(jì)算
疾病關(guān)聯(lián)相似性:兩種疾病如果它們的共享相同的lncRNA越多,則這種疾病越相似。如果兩種疾病的相似度為0,則說明兩種疾病沒有任何相同的lncRNA。假設(shè) N(i)代表與小分子藥物d(i) 相關(guān)的負(fù)作用集;用 SMdacc (d(i),d(j)) 表示小個(gè)小分子藥物 d(i) 和 d(j)之間的副作用相似。RWLDA使用基于Jaccard公式計(jì)算了疾病關(guān)聯(lián)相似性。|X|表示集合X的基數(shù)。
(1)
lncRNA關(guān)聯(lián)相似性:兩種lncRNA如果它們出現(xiàn)相同的疾病越多,則這種lncRNA越相似。如果兩種lncRNA的相似度為0,則說明兩種lncRNA沒有調(diào)控相同的疾病。假設(shè) N(i)代表與lncRNAl(i)相關(guān)的負(fù)作用集;用 SMlacc (l(i),l(j))表示小分子藥物 l(i)和 l(j) 之間的副作用相似。RWLDA使用基于Jaccard公式計(jì)算了疾病關(guān)聯(lián)相似性。|X| 表示集合X的基數(shù)。
(2)
受ThrRW模型的啟發(fā),開發(fā)了可運(yùn)行在網(wǎng)絡(luò)中的LDA預(yù)測模型(RWLDA)。假設(shè)矩陣M(i * j)表示已知的LDA關(guān)聯(lián)矩陣。這些矩陣中的值為1(對應(yīng)實(shí)體之間存在關(guān)聯(lián))和0(否則)。SMd (I* I)和SMl(J * J)分別是疾病相似性矩陣,lnRNA相似性矩陣。 M(i,j) 的值表示疾病d(i) 與 lnRNA (j) 預(yù)測關(guān)聯(lián)概率的大小。
(三)RWLDA模型
RWLDA根據(jù)已知的關(guān)聯(lián)信息預(yù)測可能的LDA。RWLDA通過迭代更新矩陣M獲得了潛在關(guān)聯(lián)信息?;炯僭O(shè)是兩個(gè)lncRNA之間的相似性越高,它們與相同disease相互作用的可能性就越高。同樣,兩個(gè)小分子藥物之間的相似度越高,它們與同一疾病相關(guān)的可能性就越高。
RWLDA模型在數(shù)學(xué)上,隨機(jī)游走過程可通過公式(3)和公式(4)進(jìn)行描述。
(3)
(4)
如上述公式所示,在每個(gè)隨機(jī)游走步驟中,lncRNA和疾病關(guān)聯(lián)都得到了擴(kuò)展(通過將左側(cè)的 SMd與右側(cè)的 SMl 相乘獲得),從而發(fā)現(xiàn)了一些可能的LDA(通過更新矩陣M)。參數(shù) (t = 1、2,...) 是迭代步驟。矩陣B作為先驗(yàn)知識控制著迭代過程。參數(shù) α∈[0,1] 用于懲罰較長的路徑并控制B中已知關(guān)聯(lián)的權(quán)重,見圖1。
(四)結(jié)果分析
在五折交叉驗(yàn)證中,RWLDA與4種最新的LDA預(yù)測方法LDGRNMF,KATZLDA,SMiR-NBI和NCP-BiRW在數(shù)據(jù)集上進(jìn)行了5倍交叉驗(yàn)證(見表3,圖2)。表3以及圖2顯示了在兩個(gè)數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證的AUC。在表3中每一行最好的性能以黑體字表示。圖2顯示了在數(shù)據(jù)集中五個(gè)方法的AUC。在相同的數(shù)據(jù)集中,RWLDA的性能在這五種方法中是最好的(見圖2)。
在預(yù)測的前10個(gè)LDA關(guān)聯(lián)中,發(fā)現(xiàn)其中有七個(gè)與肝癌相關(guān)。它們可以控制和調(diào)節(jié)各種生理和病理過程(見表2)。
三、結(jié)語
盡管RWLDA在預(yù)測lncRNA-疾病關(guān)聯(lián)方面取得了顯著成果,但也應(yīng)該意識到任何計(jì)算模型都存在局限性。例如,模型的準(zhǔn)確性依賴于輸入數(shù)據(jù)的質(zhì)量和完整性,而且模型可能無法捕捉到所有的生物復(fù)雜性。因此,未來的研究需要進(jìn)一步優(yōu)化模型,探索更多的生物數(shù)據(jù)源,并驗(yàn)證模型在不同類型的疾病和lncRNA中的應(yīng)用。
總之,新的模型為理解lncRNA在疾病中的作用提供了新的視角,并為開發(fā)新的治療策略提供了可能。同時(shí),期待RWLDA模型能夠在未來的研究中得到更廣泛的應(yīng)用,并為生物醫(yī)學(xué)研究領(lǐng)域帶來更多的突破。
參考文獻(xiàn)
[1]Yang P ,Ormerod T J ,0007 L W , et al.AdaSampling for Positive-Unlabeled and Label Noise Learning With Bioinformatics Applications.[J].IEEE Trans. Cybernetics,2019,49(05):1932-1943.
[2]Shen, Cong, et al. Lpi-ktaslp: Prediction of lncrna-protein interaction by semi-supervised link learning with multivariate information.[J].IEEE Access.2019(07):13486-13496.
[3]Liang C ,Yu S ,Luo J .Adaptive multi-view multi-label learning for identifying disease-associated candidate miRNAs.[J].PLoS Computational Biology,2019,15(04):e1006931.
[4]Xing C ,Gui-Ying Y .Novel human lncRNA-disease association inference based on lncRNA expression profiles.[J].Bioinformatics (Oxford, England),2013,29(20):2617-24.
[5]Yi Z ,Hui L ,Shuangsang F , et al.NONCODE 2016: an informative and valuable data source of long non-coding RNAs.[J].Nucleic acids research,2016,44(D1):D203-8.
[6]Qu J ,Chen X ,Sun Y , et al.Inferring potential small molecule–miRNA association based on triple layer heterogeneous network[J].Journal of Cheminformatics,2018,10(01):1-14.
作者單位:黔南民族職業(yè)技術(shù)學(xué)院
責(zé)任編輯:張津平、尚丹