張 奕,王真梅
(1.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541006;2.廣西嵌入式技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室(桂林理工大學(xué)),廣西 桂林 541006)
環(huán)狀RNA(circular RNA,circRNA)是一種新型的單鏈非編碼RNA 分子,與傳統(tǒng)RNA 不同,circRNA 具有封閉的環(huán)狀結(jié)構(gòu),以各種形式廣泛存在于真核細(xì)胞中,在調(diào)節(jié)微小RNA(microRNA,miRNA)介導(dǎo)的基因表達(dá)方面扮演著十分重要的角色[1-2]?,F(xiàn)在越來越多的研究者通過研究circRNA 在疾病發(fā)生中所起到的作用和作用機(jī)制,探討它作為生物標(biāo)志物的診斷價(jià)值和在疾病治療中的作用[3-4]。因此,與疾病相關(guān)的circRNA 被認(rèn)為是一種新的疾病診斷和治療的生物標(biāo)志物,系統(tǒng)地了解circRNA 與疾病的關(guān)聯(lián)關(guān)系是生物信息學(xué)研究的一個(gè)重要內(nèi)容,有利于疾病的診斷、治療和預(yù)后,是未來研究的新途徑[5]。
現(xiàn)有的預(yù)測(cè)circRNA-疾病關(guān)聯(lián)關(guān)系的方法可分為基于網(wǎng)絡(luò)傳播、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)這3 大類。
1)基于網(wǎng)絡(luò)傳播的方法。
通過構(gòu)建基于已知circRNA-疾病關(guān)聯(lián)、circRNA 相似性和疾病相似性的異質(zhì)網(wǎng)絡(luò)預(yù)測(cè)circRNA-疾病關(guān)聯(lián)。Fan 等[5]在circRNA 表達(dá)譜、疾病表型相似性和已知的circRNA-疾病關(guān)聯(lián)構(gòu)建的異質(zhì)網(wǎng)絡(luò)上,提出一種基于KATZ 測(cè)度的人類circRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型(computational model of KATZ measures for Human CircRNA-Disease Association,KATZHCDA)。該模型對(duì)異質(zhì)網(wǎng)絡(luò)采用簡單的度量方法就能成功地預(yù)測(cè)出circRNA-疾病關(guān)聯(lián)關(guān)系;但不適用于預(yù)測(cè)沒有任何已知circRNA 關(guān)聯(lián)的新疾病或沒有任何已知疾病關(guān)聯(lián)的孤立circRNA。Xiao 等[6]開發(fā)了一種基于圖形多標(biāo)簽學(xué)習(xí)的線上方法,利用circRNA 空間和疾病空間的不同特征保證了數(shù)據(jù)的局部幾何結(jié)構(gòu),將圖的正則化和混合規(guī)范約束條件納入模型,減少了訓(xùn)練的時(shí)間和成本;但circRNA(疾病)相似性計(jì)算仍然嚴(yán)重依賴已知的circRNA-疾病關(guān)聯(lián)信息,預(yù)測(cè)精度不高。Lei 等[7]利用circRNA(疾?。┫嗨菩院鸵阎猚ircRNA-疾病關(guān)聯(lián)構(gòu)成的異質(zhì)網(wǎng)絡(luò)計(jì)算路徑加權(quán)方法預(yù)測(cè)circRNA-疾病的關(guān)聯(lián)。該模型結(jié)合circRNA 功能相似性分?jǐn)?shù)、疾病語義相似性分?jǐn)?shù)和高斯相互作用譜內(nèi)核相似性分?jǐn)?shù),填充疾病和circRNA 相似性網(wǎng)絡(luò)的稀疏值,并且只使用了3 步內(nèi)的路徑達(dá)到了減少噪聲信息的效果;但該模型對(duì)數(shù)據(jù)稀疏的矩陣預(yù)測(cè)效果仍不理想。
2)基于機(jī)器學(xué)習(xí)的方法。
利用circRNA(疾?。┫嗨菩院鸵阎猚ircRNA-疾病關(guān)聯(lián)構(gòu)建circRNA(疾?。┨卣?,并設(shè)計(jì)分類器識(shí)別與疾病相關(guān)的circRNA。Lei 等[8]提出一種計(jì)算方法,將重啟隨機(jī)游走算法應(yīng)用于具有全局網(wǎng)絡(luò)拓?fù)湫畔⒌募訖?quán)特征,并采用K最近鄰(K-Nearest Neighbors,KNN)算法根據(jù)特征進(jìn)行分類提高預(yù)測(cè)性能;但該方法在揭示疾病和沒有任何關(guān)聯(lián)的新circRNA或circRNA 和沒有任何關(guān)聯(lián)的新疾病之間的關(guān)聯(lián)關(guān)系方法略有不足。Yan 等[9]采用基于Kronecker 積的正則化最小二乘法實(shí)現(xiàn)潛在的circRNA-疾病關(guān)聯(lián)預(yù)測(cè);但該模型沒有考慮其他相關(guān)的生物數(shù)據(jù)信息(如circRNA-miRNA 關(guān)聯(lián)和序列信息),預(yù)測(cè)精度不高。Ding 等[10]開發(fā)了一個(gè)基于隨機(jī)游走和邏輯回歸的計(jì)算模型,重啟隨機(jī)游走方法可以得到每個(gè)circRNA 的全局關(guān)系信息,比僅使用基于相似性的方法性能更好;但該模型無法預(yù)測(cè)與circRNA 沒有任何關(guān)聯(lián)的新疾病或與疾病沒有任何關(guān)聯(lián)的新circRNA。
3)基于深度學(xué)習(xí)的方法。
通過整合circRNA、疾病和miRNA 等多源生物信息數(shù)據(jù)構(gòu)建復(fù)雜的circRNA-疾病關(guān)聯(lián)異構(gòu)網(wǎng)絡(luò)圖,提取circRNA 和疾病的非線性特征,實(shí)現(xiàn)circRNA-疾病關(guān)聯(lián)預(yù)測(cè)。Wang等[11]提出了一種融合多源生物信息的深度卷積神經(jīng)網(wǎng)絡(luò)計(jì)算方法,利用空間關(guān)系自動(dòng)提取circRNA-疾病描述的深層特征,極端學(xué)習(xí)機(jī)具有快速訓(xùn)練和良好的歸一化性能的優(yōu)勢(shì),能快速準(zhǔn)確地預(yù)測(cè)潛在的circRNA-疾病關(guān)聯(lián)關(guān)系;但該方法沒有優(yōu)化數(shù)據(jù),可能含有更多的噪聲信息,會(huì)造成實(shí)驗(yàn)結(jié)果一定的偏差。Fan 等[12]融合circRNA、miRNA 和疾病之間的多種相似性和相互作用特征,構(gòu)建雙層卷積神經(jīng)網(wǎng)絡(luò),有效引入了circRNA 和疾病的相似性構(gòu)建circRNA(疾?。┑耐?fù)涮卣鳎坏珱]有考慮更多可靠的生物信息,導(dǎo)致預(yù)測(cè)精度不高。Li 等[13]利用圖注意網(wǎng)絡(luò)學(xué)習(xí)circRNA(疾?。┑臐撛诒硎荆瑘D卷積網(wǎng)絡(luò)提取非線性特征,解決了傳統(tǒng)方法中成本高和耗時(shí)長的難題;但忽略了線性特征的重要性。Deepthi 等[14]提出了一種集合方法,整合circRNA(疾病)相似性構(gòu)建特征,利用深度自動(dòng)編碼器提取隱藏的生物模式,用隨機(jī)森林分類器進(jìn)行訓(xùn)練;但該方法需要負(fù)樣本訓(xùn)練模型。Chen 等[15]使用矩陣補(bǔ)全方法填充矩陣中缺失值以達(dá)到預(yù)測(cè)良好的效果;但未能低成本快速地尋找最優(yōu)參數(shù)。Lu 等[16]提出一種基于深度矩陣分解方法的circRNA-疾病關(guān)聯(lián)(Deep Matrix Factorization for CircRNA-Disease Association,DMFCDA)預(yù)測(cè)。該方法利用多層神經(jīng)網(wǎng)絡(luò)捕捉非線性特征,掌握數(shù)據(jù)的復(fù)雜結(jié)構(gòu)。DMFCDA 加入注意力機(jī)制,關(guān)注重要信息,忽略或減少其他信息,可以提高預(yù)測(cè)性能。Li 等[17]提出一種基于加速歸納式矩陣補(bǔ)全的circRNA-疾病關(guān)聯(lián)(Speedup Inductive Matrix Completion for CircRNA-Disease Associations,SIMCCDA)預(yù)測(cè)模型,將circRNA-疾病關(guān)聯(lián)轉(zhuǎn)化為推薦系統(tǒng)問題,并應(yīng)用歸納式矩陣補(bǔ)全算法預(yù)測(cè)潛在的circRNA-疾病關(guān)聯(lián)關(guān)系,不僅取得了良好的預(yù)測(cè)效果,而且節(jié)省了內(nèi)存和降低了訓(xùn)練時(shí)間成本;但SIMCCDA 不能應(yīng)用于沒有任何關(guān)聯(lián)的新疾病或孤立circRNA 的預(yù)測(cè)。
針對(duì)以上3 類方法的固有缺陷,本文在圖自動(dòng)編碼器的基礎(chǔ)上,融合歸納式矩陣補(bǔ)全和自注意力機(jī)制對(duì)預(yù)測(cè)精度進(jìn)行二階段提高,提出新型circRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型——GIS-CDA(Graph auto-encoder combining Inductive matrix complementation and Self-attention mechanism for predicting CircRNA-Disease Association)模型。GIS-CDA 模型的建立過程如圖1 所示,分為以下3 個(gè)步驟:
圖1 GIS-CDA模型建立過程Fig.1 Construction process of GISCDA model
1)整合多源生物信息數(shù)據(jù),包括已知circRNA-疾病關(guān)聯(lián)、疾病語義相似性、circRNA 功能相似性和circRNA(疾病)高斯相互作用譜內(nèi)核相似性。
2)圖自動(dòng)編碼器對(duì)circRNA 和疾病相似性進(jìn)行編碼和解碼。學(xué)習(xí)circRNA(疾病)潛在特征,獲得circRNA(疾病)的低維表征。將學(xué)習(xí)到的特征輸入歸納式矩陣補(bǔ)全,生成關(guān)聯(lián)矩陣,提高節(jié)點(diǎn)之間的相似性和依賴性。模型訓(xùn)練后得到circRNA(疾病)特征矩陣,將兩者整合得到circRNA-疾病特征矩陣,增強(qiáng)預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。
3)將第2)步得到的circRNA 特征矩陣、疾病特征矩陣和circRNA-疾病特征矩陣作為數(shù)據(jù)輸入,分別引入自注意力機(jī)制,提取重要特征,減少對(duì)其他生物信息的依賴。
1.1.1 疾病語義相似性
疾病語義信息因其有效性和穩(wěn)定性被廣泛用于疾病相似性的度量[14]。本文從MeSH(Medical Subject Headings)數(shù)據(jù)庫[9]獲取每種疾病的相關(guān)注釋詞,利用有向無環(huán)圖(Directed Acyclic Graph,DAG)[9]計(jì)算疾病語義相似性。任意疾病dt對(duì)疾病di的語義貢獻(xiàn)值用(dt)表示,計(jì)算如式(1)所示:
其中σ表示語義貢獻(xiàn)的衰減系數(shù),根據(jù)Wang 等[18]提出的計(jì)算疾病語義相似性計(jì)算方法,σ取最優(yōu)值0.5。
在DAG 中擁有更多共同部分的疾病具有更高的語義相似性[9]。矩陣DS∈Rnd×nd表示疾病語義相似性矩陣(nd表示疾病數(shù)),矩陣元素DS(di,dj)表示疾病di與dj之間的疾病語義相似性,計(jì)算如式(2)所示:
其中:T(di)表示疾病di的DAG;D(di)表示疾病di的語義值,計(jì)算如式(3)所示:
1.1.2 circRNA功能相似性
集合D={d1,d2,…,dnd}表示疾病集,max(dt,D)表示任意疾病dt在疾病集D中語義相似性的最大值,計(jì)算如式(4)所示:
功能相似的circRNA 往往與相似的疾病相關(guān)[14]。根據(jù)此假設(shè),結(jié)合Chen 等[15]提出的miRNA 功能相似性計(jì)算方法,獲 得circRNA 功能相 似性矩 陣CS∈Rnc×nc(nc表 示circRNA 數(shù)),矩陣元素CS(ci,cj)表示circRNAci與cj之間的功能相似性,計(jì)算如式(5)所示:
其中,集合Di表示與circRNAci有關(guān)聯(lián)的疾病集;集合Dj表示與circRNAcj有關(guān)聯(lián)的疾病集;|Di|和|Dj|分別表示集合Di和Dj中疾病的數(shù)量。
1.1.3 高斯相互作用譜內(nèi)核相似性
矩陣A∈Rnc×nd表示已知的circRNA-疾病關(guān)聯(lián)。如果circRNAci與疾病dj存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián),則定義矩陣元素A(ci,dj)=1;如果任何circRNAci與疾病dj不存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián),則定義矩陣元素A(ci,dj)=0。由于circRNA 與疾病的已知關(guān)聯(lián)數(shù)量少,導(dǎo)致已知關(guān)聯(lián)矩陣中存在大量的缺失值,呈現(xiàn)出固有的稀疏性。本文引入circRNA與疾病的高斯相互作用譜內(nèi)核相似性填充缺失值[14]。矩陣CK∈Rnc×nc表示circRNA 高斯相互作用譜內(nèi)核相似性,矩陣元素CK(ci,cj)表示circRNAci與cj的高斯相互作用譜內(nèi)核相似性,計(jì)算如式(6)所示:
其中μc表示高斯相互作用譜內(nèi)核相似性的控制內(nèi)核帶寬,控制CK(ci,cj)的大小,計(jì)算如式(7)所示:
同理,矩陣DK∈Rnd×nd表示疾病高斯相互作用譜內(nèi)核相似性,矩陣元素DK(di,dj)表示疾病di與疾病dj的高斯相互作用譜內(nèi)核相似性,計(jì)算如式(8)所示:
其中μd表示高斯相互作用譜內(nèi)核相似性的控制內(nèi)核帶寬,控制DK(di,dj)的大小,計(jì)算如式(9)所示:
1.1.4 集成相似性
如前所述,本文已經(jīng)獲得了疾病語義相似性、circRNA 功能相似性、circRNA(疾?。└咚瓜嗷プ饔米V內(nèi)核相似性??紤]到疾病語義相似性和circRNA 功能相似性固有存在的稀疏性,通過整合來自多個(gè)數(shù)據(jù)源的互補(bǔ)信息和不同的表示方法,采用集成相似性量化每對(duì)circRNA(疾?。┫嗨菩钥朔逃邢∈栊?。circRNA 集成相似性由矩陣Xc∈Rnc×nc表示,矩陣元素Xc(ci,cj)的計(jì)算如式(10)所示:
同理,矩陣Xd∈Rnd×nd表示疾病集成相似性,矩陣元素Xd(di,dj)的計(jì)算如式(11)所示:
1.2.1 圖自動(dòng)編碼器
Li 等[19]利用圖自動(dòng)編碼器獲得低維表示,可以提高模型的預(yù)測(cè)精度。為此,GIS-CDA 采用圖自動(dòng)編碼器從圖的節(jié)點(diǎn)中提取嵌入向量,學(xué)習(xí)潛在特征,重構(gòu)原始輸入數(shù)據(jù),獲取低維表示以達(dá)到提高預(yù)測(cè)精度的目的。
利用circRNA 集成相似性矩陣Xc和疾病集成相似性矩陣Xd,構(gòu)建circRNA 特征向量c=[c1,c2,…,cnc]和疾病特征向量d=[d1,d2,…,dnd]。使用兩層圖卷積神經(jīng)網(wǎng)絡(luò)將關(guān)聯(lián)矩陣A分別與circRNA 和疾病的特征向量相結(jié)合,得到相應(yīng)的低維表示。
將Xc、Xd作為編碼器[19]的輸入,使用tanh 函數(shù)增加模型對(duì)非線性數(shù)據(jù)的處理能力并進(jìn)行歸一化。編碼器對(duì)Xc編碼,得到低維表示Zc,計(jì)算如式(12)(13)所示:
同理,編碼器對(duì)Xd編碼,得到低維表示Zd,計(jì)算如式(14)(15)所示:
由于circRNA(疾?。┨卣飨蛄亢w了結(jié)構(gòu)信息,本文采用解碼器[19]識(shí)別潛在的circRNA-疾病關(guān)聯(lián)關(guān)系。解碼器采用sigmoid 激活函數(shù)器[19],使平均激活程度小于1。矩陣Fc∈Rnc×nd表示解碼器對(duì)Zc解碼得到的circRNA 特征矩陣,計(jì)算如式(16)所示:
同理,矩陣Fd∈Rnd×nc表示解碼器對(duì)Zd解碼得到的疾病特征矩陣,計(jì)算如式(17)所示:
1.2.2 歸納式矩陣補(bǔ)全
GIS-CDA 借鑒歸納式矩陣補(bǔ)全的方法[15],利用上一步推導(dǎo)得到的疾病特征矩陣Fd和circRNA 特征矩陣Fc,重建circRNA-疾病關(guān)聯(lián)矩陣,填補(bǔ)已知關(guān)聯(lián)矩陣A中的缺失值。補(bǔ)全后的關(guān)聯(lián)矩陣Q∈Rnc×nd的計(jì)算如式(18)所示:
GIS-CDA 采用最小化損失函數(shù)訓(xùn)練參數(shù),以達(dá)到優(yōu)化損失函數(shù)的目的[20],在沒有過擬合的情況下降低損失,提高優(yōu)化效率。模型優(yōu)化過程如式(19)所示:
其中:L表示損失函數(shù);λ表示平衡因子,取值為10-8,W∈Rnc×nd表示權(quán) 重矩陣;‖ ‖·F表示矩陣的弗羅貝尼烏斯范數(shù)。
1.2.3 自注意機(jī)制
圖注意力網(wǎng)絡(luò)通過注意力機(jī)制學(xué)習(xí)圖上節(jié)點(diǎn)的表示,為不同的鄰居節(jié)點(diǎn)分配不同的學(xué)習(xí)權(quán)重,使節(jié)點(diǎn)特征之間的相關(guān)性更好地整合到模型中,取得了較好的預(yù)測(cè)性能[21]。為此,GIS-CDA 引入自注意力機(jī)制,通過矩陣的秩不等式提高預(yù)測(cè)精度[22],計(jì)算如式(20)所示:
其中:rank(*)表示矩陣的秩;α∈(0,1)為Fc和Fd之間的平衡系數(shù),α取值為0.5。
由此,將Fc和Fd整合為最終的circRNA-疾病特征矩陣F∈Rnc×nd,計(jì)算如式(21)所示:
將推導(dǎo)得到的矩陣Fc、Fd和F作為數(shù)據(jù)輸入,令Fc、Fd和F分別等價(jià)于自注意力機(jī)制中的查詢、關(guān)鍵字和值。通過點(diǎn)乘方式計(jì)算Fc和Fd中兩個(gè)向量之間的相似性,softmax 優(yōu)化后,再和F中每個(gè)向量點(diǎn)乘得到對(duì)應(yīng)的自注意力層的輸出向量,用矩陣E∈Rnc×nd表示,計(jì)算如式(22)所示:
其中d表示隱藏層的向量維度,值設(shè)為256。
由此,將式(19)更改寫為式(23):
在文獻(xiàn)[22]的基礎(chǔ)上加入重建誤差,計(jì)算如式(24)所示:
綜上,本文模型的總損失函數(shù)如式(25)所示:
其中:β表示平衡因子,為方便計(jì)算,將β的值設(shè)為1;λ的值設(shè)為10-8。
從circR2Disease 數(shù)據(jù)庫[23]中獲取經(jīng)實(shí)驗(yàn)驗(yàn)證的739 個(gè)circRNA-疾病已知關(guān)聯(lián)關(guān)系(涉及661 個(gè)circRNA 與100 種疾?。?。刪除冗余數(shù)據(jù)后,只挑選與人類復(fù)雜疾病相關(guān)的650個(gè)已知關(guān)聯(lián)數(shù)據(jù)(涉及585 個(gè)circRNA 與88 種疾?。┳鳛橐阎P(guān)聯(lián)矩陣。所有實(shí)驗(yàn)均在AMD 1.80 GHz CPU 和Windows 10 操作系統(tǒng)上完成。
由于已知circRNA-疾病關(guān)聯(lián)數(shù)量遠(yuǎn)小于未知的關(guān)聯(lián)數(shù)量,從所有未經(jīng)實(shí)驗(yàn)驗(yàn)證的65 361 個(gè)circRNA-疾病關(guān)聯(lián)對(duì)中隨機(jī)挑選650 個(gè)circRNA-疾病關(guān)聯(lián)對(duì)作為負(fù)樣本,circRNA-疾病關(guān)聯(lián)數(shù)據(jù)中的650 個(gè)已知關(guān)聯(lián)作為正樣本。為減少隨機(jī)樣本分區(qū)的變化,采用了10 次重復(fù)的五折和十折交叉驗(yàn)證的平均接收者操作特征曲線下面積(Area Under Receiver Operating Characteristic curve,AUROC)、精確率-召回率曲線下面積(Area Under Precision-Recall curve,AUPR)作為評(píng)估指標(biāo)評(píng)估GIS-CDA 預(yù)測(cè)性能。其中,AUROC 是以假正例率(False Positive Rate)為橫坐標(biāo)、真正例率(True Positive Rate)為縱坐標(biāo)的接收者操作特征(Receiver Operating Characteristic,ROC)曲線下面積,AUPR 是以召回率(Recall)為橫坐標(biāo)、精確率(Precision)為縱坐標(biāo)的精確率-召回率(Precision-Recall,PR)曲線下面積。五折和十折交叉驗(yàn)證后,得到GIS-CDA 的ROC 曲線和PR 曲線,如圖2 所示。
圖2 GIS-CDA交叉驗(yàn)證結(jié)果Fig.2 Cross validation results of GIS-CDA
由圖2 結(jié)果可知,GIS-CDA 模型在十折交叉驗(yàn)證的AUROC、AUPR 值比五折交叉驗(yàn)證分別高出了0.75、4.47 個(gè)百分點(diǎn),表明GIS-CDA 模型使用十折交叉驗(yàn)證利用了更多的訓(xùn)練數(shù)據(jù),可以準(zhǔn)確地評(píng)估GIS-CDA 模型在circRNA-疾病關(guān)聯(lián)預(yù)測(cè)性能。
對(duì)參數(shù)的分析可以定量地評(píng)估模型的穩(wěn)定性[20]。本節(jié)分析Fc和Fd之間的平衡系數(shù)α、學(xué)習(xí)率l和隱藏層維度d這3 個(gè)參數(shù)值的選擇對(duì)GIS-CDA 預(yù)測(cè)性能的影響。
2.3.1 隱藏層維度選擇
根據(jù)文獻(xiàn)[22]取固定學(xué)習(xí)率l為0.01,F(xiàn)c和Fd之間的平衡系數(shù)α為0.5,分析隱藏層維度d對(duì)GIS-CDA 性能的影響。針對(duì)每個(gè)d∈{32,64,128,256,512}進(jìn)行五折交叉驗(yàn)證后,得到相應(yīng)的AUROC 值和AUPR 值,如表1 所示。
表1 不同隱藏層維度d下的AUROC、AUPR值Tab.1 AUROC、AUPR values with different hidden layer dimension d
隱藏層維度越高,誤差越小,但是會(huì)增加模型復(fù)雜度,也可能會(huì)出現(xiàn)過擬合現(xiàn)象。由表1 可知,當(dāng)維度從32 增加到256,GIS-CDA 的性能隨之提升;當(dāng)維度為512 時(shí),AUROC 值和AUPR 值分別比維度256 的低1.87 和4.23 個(gè)百分點(diǎn)。當(dāng)維度為256 時(shí),模型的AUROC 值和AUPR 值最大。因此,本文將隱藏層維度d設(shè)定為256,既保證了模型預(yù)測(cè)性能,又節(jié)省了時(shí)間與空間成本。
2.3.2 平衡系數(shù)選擇
固定l為0.01,d為256,針對(duì)每個(gè)Fc和Fd之間的平衡系數(shù)α∈{0.1,0.3,0.5,0.7,0.9}進(jìn)行五折交叉驗(yàn)證后,得到相應(yīng)的AUROC 值和AUPR 值,如表2 所示。
表2 不同平衡系數(shù)α下的AUROC、AUPR值Tab.2 AUROC、AUPR values with different balance coefficient α
Fc和Fd之間的平衡系數(shù)α不僅決定融合后circRNA-疾病特征矩陣的稀疏性,也關(guān)系到節(jié)點(diǎn)之間的相關(guān)性是否更好地整合到模型中。由表2 可知,當(dāng)α=0.5 時(shí),模型的AUROC 值和AUPR 值最大。
2.3.3 學(xué)習(xí)率選擇
固定d為256,α為0.5,改變學(xué)習(xí)率l為常用的數(shù)值。針對(duì)每個(gè)l∈{0.001,0.005,0.01,0.05,0.1}進(jìn)行五折交叉驗(yàn)證后,得到相應(yīng)的AUROC 值和AUPR 值,如表3 所示。
表3 不同學(xué)習(xí)率l下的AUROC、AUPR值Tab.3 AUROC、AUPR values with different learning rate l
學(xué)習(xí)率l控制模型學(xué)習(xí)的速度。由表3 可知,當(dāng)l為0.01時(shí),AUROC 值和AUPR 值最大。
通過對(duì)3 種參數(shù)值的選擇分析可知,當(dāng)α為0.5,l為0.01 和d為256 時(shí),GIS-CDA 可獲得最佳的預(yù)測(cè)性能(即AUROC 值為0.930 3,AUPR 值為0.227 1)。
為了驗(yàn)證引入的自注意力機(jī)制和重建的損失函數(shù)對(duì)模型GIS-CDA 的預(yù)測(cè)精度二次提高的效果,本文設(shè)置了3 組對(duì)比實(shí)驗(yàn),具體如表4 所示。
表4 消融實(shí)驗(yàn)對(duì)比設(shè)置Tab.4 Comparison setting of ablation experiment
經(jīng)五折交叉驗(yàn)證后,得到3 組對(duì)比實(shí)驗(yàn)的ROC 曲線和PR 曲線,如圖3 所示。
圖3 消融實(shí)驗(yàn)結(jié)果對(duì)比Fig.3 Comparison of ablation experimental results
由圖3 可知,無論是AUROC 值還是AUPR 值,GIS-CDA均優(yōu)于3 組對(duì)照實(shí)驗(yàn),其中:第2 組的AUROC 值比第3 組高37.06 個(gè)百分點(diǎn),AUPR 值高14.77 個(gè)百分點(diǎn),說明加入重建損失函數(shù),減小了誤差,提高了模型優(yōu)化性能;第1 組的AUROC 值比第3 組 高29.19 個(gè) 百分點(diǎn),AUPR 值 高13.42 個(gè)百分點(diǎn),說明加入了自注意力機(jī)制可以減少對(duì)其他信息的依賴,對(duì)融合circRNA-疾病有較大的幫助;GIS-CDA 的AUROC值比第1、2 組分別高了11.12 和3.25 個(gè)百分點(diǎn),AUPR 值分別高8.05 和6.7 個(gè)百分點(diǎn),說明結(jié)合自注意力機(jī)制和重建損失函數(shù),可以獲取更多的有用信息,進(jìn)而提高模型預(yù)測(cè)精度。綜上表明,引入自注意力機(jī)制和重建損失函數(shù)對(duì)GIS-CDA 預(yù)測(cè)精度的提高是至關(guān)重要的。
為了進(jìn)一步驗(yàn)證GIS-CDA 模型的預(yù)測(cè)性能,本文在circRNADisease[24]、circ2Disease[25]和circR2Disease[23]這3 個(gè)數(shù)據(jù)集上進(jìn)行了拓展實(shí)驗(yàn)。刪除冗余數(shù)據(jù)后,只挑選與人類復(fù)雜疾病相關(guān)的已知關(guān)聯(lián)數(shù)據(jù)用于circRNA-疾病潛在關(guān)聯(lián)預(yù)測(cè),詳細(xì)數(shù)據(jù)如表5 所示。
表5 不同數(shù)據(jù)集數(shù)據(jù)細(xì)節(jié)Tab.5 Data details of different datasets
五折交叉驗(yàn)證后,得到3 個(gè)數(shù)據(jù)集的ROC 曲線和PR 曲線,如圖4 所示。
圖4 不同數(shù)據(jù)集預(yù)測(cè)結(jié)果對(duì)比Fig.4 Comparison of prediction results on different datasets
由表5 可知,circR2Disease 的疾病數(shù)、circRNA 數(shù)和關(guān)聯(lián)數(shù)均比circRNADisease 和circ2Disease 多一倍以上。由圖4可知,GIS-CDA 在circ2Disease、circRNADisease、circR2Disease數(shù)據(jù)集上取得的AUROC 值分別是0.843 0、0.848 9、0.930 3,AUPR 值分別是0.159 4、0.163 6、0.227 1。實(shí)驗(yàn)結(jié)果表明,GIS-CDA 在不同數(shù)據(jù)集上AUROC 值和AUPR 值均取得了0.840 0 和0.150 0 以上的預(yù)測(cè)結(jié)果,說明模型具有魯棒性,可適用于不同尺度的數(shù)據(jù)。
在相同的數(shù)據(jù)集條件下,以AUROC 和AUPR 作為評(píng)價(jià)指 標(biāo),將GIS-CDA 與KATZHCDA[5]、DMFCDA[16]、RWR(Random Walk with Restart)[26]和SIMCCDA[17]這4 個(gè)先 進(jìn)模型進(jìn)行性能對(duì)比,涉及到的參數(shù)均使用各自模型推薦的最優(yōu)參數(shù)。五折交叉驗(yàn)證后的ROC 曲線和PR 曲線如圖5 所示,AUROC 值、AUPR 值和運(yùn)行時(shí)間如表6 所示。
表6 所提模型與現(xiàn)有模型的AUROC值、AUPR值和運(yùn)行時(shí)間對(duì)比Tab.6 Comparison of AUROC values,AUPR values and running time of the proposed model and existing models
運(yùn)行時(shí)間方面,GIS-CDA 僅高于SIMCCDA,但GIS-CDA的AUROC 值和AUPR 值分別比SIMCCDA 的高5.01 和13.86個(gè)百分 點(diǎn)。此 外,GIS-CDA 的AUROC 值、AUPR 值優(yōu)于KATZHCDA、DMFCDA 和RWR,其中AUROC 值分別高出了13.19、35.73 和13.28 個(gè)百分點(diǎn),AUPR 值分別高出21.72、22.43 和21.96 個(gè)百分點(diǎn)。由此,從AUROC 值、AUPR 值和運(yùn)行時(shí)間這3 方面可以得出,GIS-CDA 模型的預(yù)測(cè)性能更優(yōu)。
為了驗(yàn)證GIS-CDA 模型在真實(shí)案例中的預(yù)測(cè)效果,本文分別對(duì)神經(jīng)膠質(zhì)癌[27]和胃癌[28]進(jìn)行了案例研究。經(jīng)計(jì)算預(yù)測(cè)與此兩種疾病相關(guān)的circRNA,將得到的關(guān)聯(lián)預(yù)測(cè)得分按降序排列后,分別篩選排名前10 位的circRNA,如表7、8所示。
表7 前10個(gè)與神經(jīng)膠質(zhì)癌相關(guān)的circRNATab.7 Top 10 circRNAs associated with glioma
表8 前10個(gè)與胃癌相關(guān)的circRNATab.8 Top 10 circRNAs associated with gastric cancer
表7、8 通過在PMID 數(shù)據(jù)庫中搜索相關(guān)文獻(xiàn)和報(bào)告,得到了GIS-CDA 模型的預(yù)測(cè)結(jié)果。表中數(shù)據(jù)顯示,在GIS-CDA預(yù)測(cè)的前10 位與神經(jīng)膠質(zhì)癌、胃癌相關(guān)的circRNA 中,各有7、8 個(gè)已被文獻(xiàn)證實(shí)。其中:circPVT1 通過上調(diào)miR-199a-5p抑制膠質(zhì)癌的生長和轉(zhuǎn)移[29],circHIPK3 通過miR-524-5p/KIF2A 介導(dǎo)的PI3K/AKT 途徑促進(jìn)神經(jīng)膠質(zhì)癌的轉(zhuǎn)移和凋亡[30];CirITCH 通過Wnt/β-catenin 途徑封存miR-17 預(yù)防胃癌的發(fā)生,是胃癌的預(yù)后標(biāo)志物[31];circCCDC66 通過靶向miR-618/BCL2 軸克服胃癌細(xì)胞對(duì)順鉑的耐藥性[32]。案例分析進(jìn)一步驗(yàn)證了GIS-CDA 具有識(shí)別與疾病關(guān)聯(lián)circRNA 的良好性能,具有一定的應(yīng)用價(jià)值。
本文在圖自動(dòng)編碼器基礎(chǔ)上,引入歸納式矩陣補(bǔ)全與自注意力機(jī)制,通過二階段融合實(shí)現(xiàn)circRNA-疾病關(guān)聯(lián)預(yù)測(cè)。GIS-CDA 模型克服了現(xiàn)有模型訓(xùn)練時(shí)間長、預(yù)測(cè)準(zhǔn)確度不高的缺陷,具有較好的預(yù)測(cè)性能。今后將整合更多的生物數(shù)據(jù)集來進(jìn)一步提升模型的預(yù)測(cè)性能。