董文文,林志毅
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
E-mail:lzy291@gdut.edu.cn
近年來研究表明,非編碼RNA(ncRNA)與蛋白質(zhì)的相互作用對生物過程如蛋白質(zhì)合成,基因表達(dá),RNA加工和發(fā)育調(diào)控等具有積極影響[1].隨著生物技術(shù)的不斷發(fā)展,ncRNA尤其是長非編碼RNA(lncRNA)已在各種生物學(xué)過程中發(fā)揮了重要作用[2].研究表明某些lncRNA的失調(diào)和突變與人類疾病[3]有關(guān),例如肺癌[4]、宮頸癌[5]、骨肉瘤[6]、顱內(nèi)動脈瘤[7]等.因此,一些學(xué)者希望通過了解lncRNA的機(jī)制來探索使用lncRNA作為輔助治療工具的可能性[8,9].目前已經(jīng)建立的數(shù)據(jù)庫如LncRNADisease[10]、NRED[11]、Lnc2Cancer v2.0[12]、MNDR V2.0[13]和NONCODE[14]等有助于lncRNA與疾病關(guān)系的研究.但是,由于進(jìn)行生物學(xué)實(shí)驗(yàn)或臨床研究需要大量成本和時(shí)間,而且這些數(shù)據(jù)庫中包含的lncRNA-疾病的關(guān)系很少,這對研究人員是一個(gè)限制.
因此,近年來研究人員在生物信息學(xué)領(lǐng)域開發(fā)了許多計(jì)算方法來計(jì)算潛在的lncRNA-疾病關(guān)系[15].目前的lncRNA與疾病關(guān)系預(yù)測方法可大致分為兩類.一類是基于構(gòu)造的生物網(wǎng)絡(luò)來預(yù)測lncRNA與疾病間的關(guān)系[16,17].例如,Yu等人[18]提出雙隨機(jī)游走(BRWLDA)方法考慮了lncRNA相似性和疾病相似性之間的結(jié)構(gòu)差異,使用lncRNA功能相似性和疾病語義相似性構(gòu)建了兩個(gè)網(wǎng)絡(luò),在這兩個(gè)網(wǎng)絡(luò)上使用多個(gè)隨機(jī)游動來預(yù)測潛在的lncRNA-疾病關(guān)系.但是,BRWLDA仍然具有隨機(jī)游走方法的缺點(diǎn).Xie等人[19]提出基于不平衡隨機(jī)游走(LDA-LNSUBRW)的計(jì)算方法,但該方法僅考慮單一相似性,仍然存在數(shù)據(jù)稀疏性等問題.另一類方法是基于機(jī)器學(xué)習(xí)算法預(yù)測lncRNA-疾病的關(guān)系[20].近年來,基于矩陣分解的機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于異構(gòu)數(shù)據(jù)的融合[21,22].例如,Fu等人[23]開發(fā)的基于矩陣分解的數(shù)據(jù)融合方法(MFLDA),該方法可以很好地利用異構(gòu)數(shù)據(jù)源并應(yīng)用于各種類型實(shí)體之間的相關(guān)性預(yù)測.但是該方法的性能取決于最佳參數(shù)的選擇,目前尚無法有效的解決最佳參數(shù)的選擇問題.Gao等人[24]提出基于高斯核函數(shù)的雙重稀疏協(xié)同矩陣分解方法(DSCMF)來推斷潛在的lncRNA與疾病關(guān)系.DSCMF結(jié)合了矩陣分解和協(xié)同過濾,但是,如何更好地選擇整合相似性的方法來改善預(yù)測結(jié)果是一個(gè)需要解決的問題.Xuan等人[25]提出PMFILDA 方法,該方法在矩陣分解基礎(chǔ)上增加了概率計(jì)算.但是,其結(jié)果在很大程度上受miRNA-疾病關(guān)系網(wǎng)絡(luò)的影響,預(yù)測精度仍有進(jìn)一步提升的空間.
針對以上方法仍然存在的數(shù)據(jù)源來源單一、數(shù)據(jù)稀疏、預(yù)測精度低等問題,本文提出一種新的流形正則化的非負(fù)矩陣分解計(jì)算方法(MRNMFLDA)來預(yù)測lncRNA與疾病的關(guān)系.首先,MRNMFLDA使用相似性網(wǎng)絡(luò)融合方法來分別整合lncRNA的兩種相似性與疾病的兩種相似性,實(shí)現(xiàn)了兩種數(shù)據(jù)源的有效融合,解決了單一相似性矩陣的數(shù)據(jù)稀疏性問題.然后,本方法通過構(gòu)建標(biāo)簽加權(quán)矩陣、引入流形正則化約束的非負(fù)矩陣分解算法來預(yù)測lncRNA與疾病潛在的關(guān)系,充分考慮了數(shù)據(jù)內(nèi)部的幾何結(jié)構(gòu)的聯(lián)系,既有效防止過擬合問題并顯著提高了預(yù)測性能.實(shí)驗(yàn)結(jié)果表明:MRNMFLDA方法在留一交叉驗(yàn)證和5折交叉驗(yàn)證的方案中AUC值分別達(dá)到0.8927和0.8635±0.0054與其他方法(PMFILDA,LDA-LNSUBRW ,DSCMF,BRWLDA )相比具有優(yōu)越的性能.
本文從LncRNADisease數(shù)據(jù)庫[10]中下載最新的lncRNA-疾病關(guān)系數(shù)據(jù),該數(shù)據(jù)集包含115種lncRNA和178種疾病,以及540種經(jīng)過實(shí)驗(yàn)驗(yàn)證的關(guān)系.該數(shù)據(jù)集將用作lncRNA與疾病關(guān)系預(yù)測的訓(xùn)練數(shù)據(jù)集,并用作交叉驗(yàn)證實(shí)驗(yàn)的標(biāo)準(zhǔn).從上述已知關(guān)系中,我們可以得到lncRNA-疾病鄰接矩陣A∈Rm×n,其中m和n分別是lncRNA和疾病的數(shù)目,如果lncRNAi與疾病j相關(guān),則A(i,j)為1.否則為0.
本文采用有向無環(huán)圖(DAG)用來描述疾病的語義相似性[26].對于疾病C,DAG(C)=(D(C),E(C)),其中D(C)表示自身及其祖先節(jié)點(diǎn)的集合,E(C) 表示D(C)中連接各個(gè)節(jié)點(diǎn)邊的集合.假設(shè)疾病t屬于D(C),則疾病t對C的語義貢獻(xiàn)定義如下:
DC(t)=1,t=C
max0.5*DC(t′)|t′∈t的孩子,t≠C
(1)
疾病C的語義值定義如下:
D(C)=∑t∈DAG(C)DC(t)
(2)
A和B兩種不同疾病間的語義相似性DSS計(jì)算為如下:
DSS(A,B)=∑t∈DAG(A)∩DAG(B)(DA(t)+DB(t))D(A)+D(B)
(3)
其中t是D(A)和D(B)中的常見疾病DA(t)和DB(t)分別表示疾病t對疾病A和B的貢獻(xiàn).
本文采用Chen等人[27]的計(jì)算lncRNA功能相似性的方法,用d表示疾病,疾病的集合設(shè)為D={d1,d2,…,dk},則兩種不同lncRNA的功能相似性計(jì)算如下:
SIM(d,D)=max1≤i≤kDSS(d,di)
(4)
其中DSS(d,di)代表d和di之間疾病的語義相似性值.LncRNAli和lj之間的功能相似性由LFS(li,lj)表示如下:
LFS(li,lj)=∑d∈DiSIM(d,DJ)+∑d∈DjSIM(d,Di)|Di|+|Dj|
(5)
基于功能相似的lncRNA與疾病具有相似的相互作用模式的假設(shè),利用已知的lncRNA與疾病的關(guān)聯(lián)網(wǎng)絡(luò),計(jì)算它們之間的高斯距離[15,28].首先,我們將疾病d(i)的關(guān)聯(lián)情況SS(d(i))表示在已知的lncRNA-疾病關(guān)系網(wǎng)絡(luò)中的二進(jìn)制向量編碼,0代表不存在關(guān)聯(lián)關(guān)系,1代表存在關(guān)聯(lián)關(guān)系.然后,疾病d(i)與疾病d(j)之間的高斯核相似性GD的計(jì)算公式如下:
GDd(i),d(j)=
exp-γ′dSSd(i)-SSd(j)2
(6)
在先前研究的基礎(chǔ)上,本文最終確定了γ′d= 1[29]的參數(shù).γd是用于控制高斯核頻寬的參數(shù),可以改善模型的性能.調(diào)整此參數(shù)可以使疾病之間的相似性更加標(biāo)準(zhǔn)化.γd的計(jì)算公式如下:
γd=γ′d1nd∑ndi=1SSd(i)2
(7)
LncRNA高斯核相似性GL計(jì)算方法同上.
為防止過度擬合并顯著提高學(xué)習(xí)性能,本文提出一種新的流形正則化非負(fù)矩陣分解方法(MRNMFLDA)來預(yù)測lncRNA與疾病的關(guān)系.MRNMFLDA采取3個(gè)步驟來預(yù)測lncRNA與疾病的關(guān)系.首先,MRNMFLDA使用相似性網(wǎng)絡(luò)融合方法來整合lncRNA功能相似性與lncRNA高斯核相似性,得到lncRNA網(wǎng)絡(luò)融合相似性.同樣的,MRNMFLDA使用相似性網(wǎng)絡(luò)融合方法來整合疾病的語義相似性和疾病高斯核相似性得到疾病網(wǎng)絡(luò)融合相似性.然后,MRNMFLDA對lncRNA網(wǎng)絡(luò)融合相似性矩陣和疾病網(wǎng)絡(luò)融合相似性矩陣進(jìn)行了正則化,將兩個(gè)正則化項(xiàng)以及構(gòu)建的標(biāo)簽加權(quán)矩陣合并到非負(fù)矩陣分解目標(biāo)函數(shù)中,并引入了迭代算法來優(yōu)化目標(biāo)函數(shù).最后, lncRNA-疾病潛在的關(guān)系是通過構(gòu)建的流形正則化約束的非負(fù)矩陣分解算法來預(yù)測的.MRNMFLDA方法的偽代碼如表1所示.MRNMFLDA方法的流程圖如圖1所示.
使用上述相似性計(jì)算方法,得到4個(gè)相似性矩陣,lncRNA功能相似性矩陣LFS,lncRNA高斯核性矩陣GL,疾病語義相似性DSS,疾病高斯核相似性矩陣GD.然而,僅使用單一的相似性矩陣無法提供多方面的生物學(xué)信息,存在數(shù)據(jù)稀疏性問題.因此,如何使用合理有效的方法融合lncRNA和疾病的兩個(gè)相似性矩陣,解決單一相似性矩陣的數(shù)據(jù)稀疏性問題,是本文需要解決的第1個(gè)關(guān)鍵問題.此外,如何能夠有效利用數(shù)據(jù)間幾何結(jié)構(gòu)之間的關(guān)聯(lián)從而提高方法的預(yù)測性能是本文著重解決的第2個(gè)關(guān)鍵問題.
表1 MRNMFLDA方法的偽代碼Table 1 Pseudocode of MRNMFLDA method
圖1 MRNMFLDA方法的流程圖Fig.1 Flowchart of MRNMFLDA method
針對第1個(gè)關(guān)鍵問題,本文提出了一種非線性的相似性網(wǎng)絡(luò)融合方法來整合lncRNA和疾病的相似性.相似性網(wǎng)絡(luò)融合(簡稱SNF)是一種多組學(xué)融合的方法,多應(yīng)用于癌癥數(shù)據(jù)分析[30],miRNA-EF相互作用數(shù)據(jù)分析[31]和lncRNA-miRNA相互作用分析[32].它能夠捕獲不同數(shù)據(jù)的全局和局部特征.對于lncRNA的相似性,SNF定義如下:
Gfl(i,j)=LFS(i,j)2∑a≠iLFS(i,a),i≠j12,i=j
(8)
Lfl(i,j)=LFS(i,j)∑a∈NiLFS(i,a),j∈Ni0,otherwise
(9)
Ggl(i,j)=GL(i,j)2∑a≠iGL(i,a),i≠j12,i=j
(10)
Lgl(i,j)=GL(i,j)∑a∈NiGL(i,a),j∈Ni0,otherwise
(11)
Ffl(b+1)=Lfl×Ggl(b)×LflT
(12)
Fgl(b+1)=Lgl×Gfl(b)×LglT
(13)
Fl=Ffl+Fgl2
(14)
其中Gfl,Lfl,Ggl和Lgl分別表示lncRNA功能相似性的全局矩陣,lncRNA功能相似性的局部矩陣,lncRNA高斯核相似性全局矩陣,lncRNA高斯核相似性局部矩陣.Ni代表lncRNA i 的K近鄰.a是最近鄰居的數(shù)量.對于不在最近鄰居中的鄰居,該值轉(zhuǎn)換為0.公式(8)-公式(11)的計(jì)算過程可增強(qiáng)網(wǎng)絡(luò)中的強(qiáng)鏈接,消除網(wǎng)絡(luò)中的弱鏈接,從而大大降低了數(shù)據(jù)噪聲干擾.Ffl和Fgl分別表示lncRNA功能相似性的融合矩陣和lncRNA高斯核相似性的融合矩陣.公式(12)和公式(13)經(jīng)過b次非線性的迭代過程,每次迭代交換不同原始網(wǎng)絡(luò)的信息,得到網(wǎng)絡(luò)融合矩陣,使得融合效果最佳.Fl表示lncRNA網(wǎng)絡(luò)融合相似性矩陣.疾病網(wǎng)絡(luò)融合相似性矩陣Fd可以用相似的方式獲得.
3.2.1 標(biāo)準(zhǔn)的非負(fù)矩陣分解算法
非負(fù)矩陣分解(NMF)是一種有效的數(shù)據(jù)處理技術(shù),其目的是找到兩個(gè)低秩非負(fù)矩陣,兩者的乘積是原始矩陣的最佳近似表示.NMF可以將lncRNA-疾病矩陣A∈Rm×n分解為兩個(gè)低秩的矩陣,即U∈Rm×K和V∈Rn×k(k≤min(m,n) ),且A≈UVT.在這里,我們用數(shù)學(xué)公式將與疾病相關(guān)的lncRNA預(yù)測問題表達(dá)為以下目標(biāo)函數(shù):
minU,V‖A-UVT‖2Fs.tU≥0,V≥0
(15)
其中‖·‖F(xiàn)代表Frobenius范數(shù).Lee等人[33]提出的迭代更新算法可以使上述目標(biāo)函數(shù)最小化.
3.2.2 構(gòu)建標(biāo)簽加權(quán)矩陣
lncRNA-疾病鄰接矩陣A的元素由已知的lncRNA與疾病關(guān)系標(biāo)簽信息和未知的lncRNA與疾病關(guān)系信息標(biāo)簽信息組成.與單一相似性矩陣類似,A也是一個(gè)稀疏矩陣,其中大多數(shù)值為零,并且這些零值可能具有未知的關(guān)系,即存在lncRNA-疾病鄰接矩陣的稀疏性問題.這種情況可能會導(dǎo)致在預(yù)測未發(fā)現(xiàn)的lncRNA-疾病關(guān)聯(lián)中表現(xiàn)不理想.Peng等人[34]提出構(gòu)建標(biāo)簽加權(quán)矩陣的方法來解決基因與蛋白質(zhì)原始關(guān)系矩陣的稀疏性問題.鑒于此,本文通過構(gòu)建新的標(biāo)簽加權(quán)矩陣的方法解決lncRNA-疾病鄰接矩陣的稀疏性問題,并將構(gòu)建的標(biāo)簽加權(quán)矩陣引入到本文的改進(jìn)NMF中.本文的目標(biāo)是使用已知的標(biāo)簽信息來預(yù)測未知的lncRNA和疾病的關(guān)系.因此,我們設(shè)Y為m×n的標(biāo)簽加權(quán)矩陣.如果已知lncRNAi和疾病j的相應(yīng)關(guān)系,則將Y的元素設(shè)為非零值,否則將Y的元素設(shè)為0.考慮到某些lncRNA和疾病暫時(shí)沒有已經(jīng)驗(yàn)證的聯(lián)系,我們?yōu)閅設(shè)置了不同的權(quán)值.Y(i,j)的權(quán)重設(shè)置如下:
Y(i,j)=1,ifA(i,j)isknownandA(i,j)=1
0.5,ifA(i,j)isknownandA(i,j)=0
0,ifA(i,j)isunknown
(16)
3.2.3 MRNMFLDA目標(biāo)函數(shù)
原始數(shù)據(jù)矩陣的維度較高,含有許多冗余數(shù)據(jù).標(biāo)準(zhǔn)NMF能夠?qū)⒏呔S數(shù)據(jù)以低維數(shù)據(jù)形式近似表示,適合lncRNA或疾病關(guān)系數(shù)據(jù)的處理.但是,標(biāo)準(zhǔn)NMF只是在歐式空間中對數(shù)據(jù)進(jìn)行降維,不能有效利用lncRNA或疾病關(guān)系數(shù)據(jù)內(nèi)部空間的幾何結(jié)構(gòu),而關(guān)系數(shù)據(jù)的幾何結(jié)構(gòu)往往表達(dá)了數(shù)據(jù)的真實(shí)表示形式.
因此,為了解決第二關(guān)鍵問題,且提高標(biāo)準(zhǔn)NMF的預(yù)測能力,本文在標(biāo)準(zhǔn)NMF基礎(chǔ)上,基于流形學(xué)習(xí)的思想提出了改進(jìn)的NMF.
流形學(xué)習(xí)思想基于局部不變的假設(shè),認(rèn)為如果兩個(gè)數(shù)據(jù)點(diǎn)在原始幾何結(jié)構(gòu)中接近,則兩個(gè)數(shù)據(jù)點(diǎn)的新表示形式也接近[35].為了保留固有的幾何結(jié)構(gòu),假設(shè)兩種lncRNA在lncRNA網(wǎng)絡(luò)中連接,則lncRNA低秩矩陣中兩種lncRNA的表示形式應(yīng)接近.同樣,具有關(guān)系的疾病在疾病低秩矩陣中應(yīng)顯示相似的表示形式.目前,Yan等人[36]已將流形學(xué)習(xí)的思想引入到標(biāo)準(zhǔn)NMF中,并成功地應(yīng)用于藥物-靶蛋白關(guān)系預(yù)測.
基于流形學(xué)習(xí)的思想,本文提出的改進(jìn)NMF是將兩個(gè)相似性矩陣(疾病網(wǎng)絡(luò)融合相似性矩陣,lncRNA網(wǎng)絡(luò)融合相似性矩陣)正則化項(xiàng)以及構(gòu)建的標(biāo)簽加權(quán)矩陣分解項(xiàng)合并到NMF目標(biāo)函數(shù)中,來發(fā)掘數(shù)據(jù)內(nèi)部的幾何結(jié)構(gòu),進(jìn)而提高lncRNA-疾病關(guān)系預(yù)測的精度.其中,新的NMF目標(biāo)函數(shù)如下:
minOBJ(U,V)=Y⊙(A-UV)2F+λltrUTLlU+
λdtrVLdVT+αU2F+βV2F
(17)
上式中⊙代表哈達(dá)瑪積,tr(UTLlU)代表lncRNA網(wǎng)絡(luò)融合相似性矩陣Fl的流形正則化項(xiàng),Ll∈Rm×m是Fl的一個(gè)拉普拉斯矩陣.Dl∈Rm×m是對角矩陣,其對角線元素對應(yīng)值是矩陣Fl的行總和(或列總和),Ll=Dl-Fl.類似地,tr(VLdVT)是疾病網(wǎng)絡(luò)融合相似性矩陣Fd的流形正則化項(xiàng).為了避免過擬合問題, 采用‖U‖2F和‖V‖2F來懲罰U和V的幅度.λl和λd是控制Fl正則項(xiàng)和Fd正則項(xiàng)的正則化參數(shù),α和β是平滑參數(shù).
3.2.4 迭代更新U和V,得到預(yù)測評分矩陣
為了獲得U和V的解,首先對U和V中的值進(jìn)行隨機(jī)初始化,然后使用公式(18)和公式(19)中的更新規(guī)則對其進(jìn)行迭代更新,重復(fù)該過程,直到根據(jù)準(zhǔn)則(等式(20))判斷算法收斂為止.U和V的具體求解過程如下:
Ui,k←Y⊙AVT+λlFlUY⊙(UV)VT+λlDlU+αUUi,k
(18)
Vk,j←UT(Y⊙A)+λdVFdUT(Y⊙(UV))+λdVDd+βVVk,j
(19)
OBJt-OBJt-1OBJt<ε
(20)
其中OBJt代表目標(biāo)函數(shù)在迭代步驟t時(shí)的值.ε是一個(gè)小的正數(shù),在此設(shè)置為10-6.再根據(jù)公式(18)和公式(19)的更新規(guī)則,更新U和V之后直到收斂,我們獲得了最終的lncRNA預(yù)測評分矩陣為Score=U*VT.最后,基于預(yù)測評分矩陣,對與疾病相關(guān)的lncRNA進(jìn)行了排名(如表2-表4所示).通常,預(yù)測得分最高的lncRNA與相應(yīng)疾病相關(guān)的可能性更高.
表2 預(yù)測與肺癌相關(guān)的lncRNATable 2 Predicted lncRNAs associated with lung cancer
表3 預(yù)測與宮頸癌相關(guān)的lncRNATable 3 Predicted lncRNAs associated with cervical cancer
表4 預(yù)測與骨肉瘤相關(guān)的lncRNATable 4 Predicted lncRNAs associated with osteosarcoma
在本文中,使用留一交叉驗(yàn)證(LOOCV)[37]和五折交叉驗(yàn)證(5-fold-CV)[38]兩種方法來評估MRNMFLDA方法的預(yù)測準(zhǔn)確性.LOOCV是使用540種lncRNA疾病關(guān)系中的一種作為測試樣本,其余的作為訓(xùn)練集.在五折交叉驗(yàn)證中,將所有l(wèi)ncRNA-疾病關(guān)系矩陣隨機(jī)分為5組,其中一組用作測試集,而其他4組用作訓(xùn)練集.預(yù)測分?jǐn)?shù)由MRNMFLDA計(jì)算并排序,選擇特殊排名位置作為閾值,并用(ROC)曲線下面區(qū)域面積(AUC值)作為性能指標(biāo)來評估預(yù)測性能.ROC曲線可以繪制不同閾值下的真陽性率(TPR)和假陽性率(FPR)之間的關(guān)系.如果AUC接近1,則預(yù)測性能會更好.
參數(shù)的取值對算法的性能有很大的影響.在本文提出的預(yù)測方法中有6個(gè)參數(shù):SNF中的鄰居數(shù)a;迭代次數(shù)b;相似性正則化權(quán)重參數(shù)λl和λd;平滑參數(shù)α和β.本文討論其中一個(gè)參數(shù)的影響時(shí),預(yù)先給定其他5個(gè)參數(shù),選出該參數(shù)的最優(yōu)值后再進(jìn)行逐個(gè)調(diào)整.本文在LOOCV中討論參數(shù)對MRNMFLDA方法性能的影響.對于SNF中a和b,參數(shù)調(diào)整范圍是{1,2,3,…,10},實(shí)驗(yàn)結(jié)果圖2顯示當(dāng)a=2,b=2時(shí), AUC值最高.對于非負(fù)矩陣分解部分λl和λd的參數(shù)調(diào)整范圍是{10-4,10-3,10-2,10-1},實(shí)驗(yàn)結(jié)果圖2顯示,當(dāng)λl=10-1和λd=10-1時(shí),AUC值最高.平滑參數(shù)α和β的參數(shù)調(diào)整范圍為{0.1,0.2,0.3,…,1},實(shí)驗(yàn)結(jié)果圖2顯示,AUC值隨著參數(shù)增加呈遞減趨勢,所以當(dāng)α=0.1和β=0.1時(shí),此時(shí)AUC值最高.說明當(dāng)a=2,b=2,λl=10-1,λd=10-1,α=0.1和β=0.1時(shí),算法的預(yù)測性能最佳.
圖2 參數(shù)a,b,λl,λd,α,β在LOOCV中對方法的影響Fig.2 Effect of parameters a,b,λl,λd,α and β on the method in LOOCV
4.2.1 與單一相似性網(wǎng)絡(luò)的比較
MRNMFLDA方法的性能評估分為兩部分:網(wǎng)絡(luò)融合相似性與單一相似性比較性能評估,MRNMFLDA方法與其他預(yù)測方法的性能評估.
網(wǎng)絡(luò)融合相似性與單一相似性比較性能評估考慮以下情況:1)引入lncRNA網(wǎng)絡(luò)融合相似性F^l和疾病網(wǎng)絡(luò)融合相似性Fd的預(yù)測性能;2)僅考慮LncRNA高斯核相似性(GL)和疾病高斯核相似性(GD)的預(yù)測性能;3)僅考慮lncRNA功能相似性(LFS)和疾病語義相似性(DSS)的預(yù)測性能.
對比結(jié)果中圖3顯示本文采用的網(wǎng)絡(luò)融合相似性網(wǎng)AUC值(0.8927)高于僅考慮GL、GD的AUC值(0.8230)和僅考慮LFS、DSS的AUC值(0.8073),表明本文提出的相似性網(wǎng)絡(luò)融合方法SNF來整合lncRNA與疾病的相似性,能夠顯著提高預(yù)測性能.
4.2.2 與其他方法比較
為了更好地評估MRNMFLDA方法的預(yù)測性能,本文首先采用LOOCV將MRNMFLDA與其他預(yù)測方法(PMFILDA[25],LDA-LNSUBRW[19],DSCMF[24],BRWLDA[18])進(jìn)行了比較.顯然,如圖4所示MRNMFLDA的AUC為0.8927,高于其他方法的AUC(PMFILDA 0.8744,LDA-LNSUBRW 0.8703,BRWLDA 0.7848,DSCMF 0.7917).為了進(jìn)一步驗(yàn)證MRNMFLDA的預(yù)測性能,本文采用5-fold-CV進(jìn)一步驗(yàn)證預(yù)測性能.如圖5所示,MRNMFLDA的AUC值為0.8635±0.0055,高于其他方法的AUC(PMFILDA 0.8522±0.0075,LDA-LNSUBRW 0.8374±0.0047,DSCMF 0.7510±0.0081,BRWLDA 0.7469±0.0064).以上結(jié)果表明,本文提出的方法在這5種方法中預(yù)測性能最佳.
圖3 基于網(wǎng)絡(luò)融合相似性與單一相似性在LOOCV中的ROC曲線和AUC值Fig.3 ROC curve and AUC value of network fusion similarity based and single similarity based in LOOCV
圖4 5種方法(MRNMFLDA,PMFILDA,DSCMF,BRWLDA,LDA-LNSUBRW)在LOOCV中的ROC曲線和AUC值Fig.4 ROC curve and AUC values of the five methods in the LOOCV (MRNMFLDA,PMFILDA,LDALNSUBRW,DSCMF,BRWLDA)
為了進(jìn)一步驗(yàn)證MRNMFLDA方法預(yù)測lncRNA與疾病潛在的關(guān)系的能力,本文選擇了肺癌(lung cancer),宮頸癌(cervical cancer)和骨肉瘤(osteosarcoma)3種癌癥疾病進(jìn)行案例研究.首先根據(jù)MRNMFLDA方法預(yù)測得分結(jié)果篩選排名前10的lncRNA,再從Lnc2Cancer和MNDR數(shù)據(jù)庫中查找這些lncRNA與對應(yīng)疾病的確證關(guān)系.表2-表4結(jié)果顯示預(yù)測得分中排名前10的lncRNA在數(shù)據(jù)庫中得到驗(yàn)證的數(shù)量分別為10,9,8,說明了本預(yù)測方法結(jié)果的可靠性.
圖5 5種方法(MRNMFLDA,PMFILDA,DSCMF,BRWLDA,LDALNSUBRW)在5-fold-CV中的的ROC曲線和AUC值Fig.5 ROC curve and AUC values of the five methods in the 5-fold-CV (MRNMFLDA,PMFILDA,LDALNSUBRW,DSCMF,BRWLDA)
以肺癌為例,lncRNA與肺癌的具體相關(guān)性分析如下.肺癌是嚴(yán)重威脅人體生命健康的惡性腫瘤之一,流行病學(xué)研究表明85%的肺癌發(fā)病是由長期吸煙引起的,此外,引起肺癌的其他因素還包括遺傳,職業(yè),電離輻射,空氣污染等[39].Du等人[40]發(fā)現(xiàn)lncRNA CDKN2B-AS1通過調(diào)節(jié)p53信號通路介導(dǎo)了特發(fā)性肺纖維化患者肺癌的發(fā)生.Jun等人[41]發(fā)現(xiàn),lncRNA UCA1可以調(diào)節(jié)肺癌細(xì)胞的增殖、侵襲能力并誘導(dǎo)細(xì)胞凋亡,并推測UCA1可能成為治療肺癌的重要靶點(diǎn),而lncRNA GAS5在肺癌的發(fā)生發(fā)展中具有抑制作用[7].
上述分析結(jié)果表明,MRNMFLDA方法對lncRNA-疾病關(guān)系具有可靠的預(yù)測能力.同時(shí)MRNMFLDA方法預(yù)測方法在未來的lncRNA-疾病關(guān)系研究和實(shí)驗(yàn)驗(yàn)證中具有巨大的潛力.
lncRNA在疾病的發(fā)生過程中起著重要作用,因此研究lncRNA與疾病的關(guān)系是非常有必要的.本文提出了一種新的流形正則化非負(fù)矩陣分解方法來預(yù)測lncRNA與疾病的關(guān)系.首先,本文采用的相似性網(wǎng)絡(luò)融合方法不僅考慮了兩種數(shù)據(jù)源的有效融合,而且有效緩解了數(shù)據(jù)稀疏性的問題.然后,本文基于流形正則化思想將疾病網(wǎng)絡(luò)融合相似性和lncRNA網(wǎng)絡(luò)融合相似性這兩個(gè)相似性網(wǎng)絡(luò)正則化項(xiàng)與標(biāo)簽加權(quán)矩陣合并到標(biāo)準(zhǔn)NMF框架中,充分考慮了數(shù)據(jù)內(nèi)部的幾何結(jié)構(gòu)的聯(lián)系,既防止了過擬合問題并顯著提高了預(yù)測性能.進(jìn)一步的LOOCV和5-fold-CV實(shí)驗(yàn)驗(yàn)證以及肺癌,宮頸癌、骨肉瘤3種疾病的案例分析證明了MRNMFLDA預(yù)測方法對lncRNA-疾病關(guān)系具有可靠的預(yù)測能力.更重要的是,該方法也降低了研究者們研究不同疾病的致病基因的研究成本.總之,結(jié)果表明,MRNMFLDA在探索lncRNA-疾病潛在的關(guān)系中發(fā)揮積極作用.
下一步的更深入的研究工作中,將考慮改進(jìn)相似性網(wǎng)絡(luò)融合方法,提出更好的優(yōu)化正則化約束方案來提高方法的預(yù)測能力.