国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于結(jié)構(gòu)方程模型的疾病性狀相關(guān)基因的識(shí)別*

2023-07-11 07:31:32牟紅婷
關(guān)鍵詞:性狀聚類方程

牟紅婷

(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)

1 引言

癌癥、心血管疾病等復(fù)雜疾病是影響人們身體健康的一個(gè)重要因素。其發(fā)病率高,遺傳方式不確定,致病機(jī)理異常復(fù)雜[1~2]。疾病性狀是復(fù)雜疾病的表現(xiàn)特征,是疾病的特征標(biāo)簽,而且復(fù)雜疾病多表現(xiàn)為連續(xù)的數(shù)量性狀變異,疾病性狀很容易被量化。因此為了了解復(fù)雜疾病的發(fā)病機(jī)制,發(fā)現(xiàn)和疾病性狀相關(guān)的基因非常重要,這對(duì)復(fù)雜疾病的診斷、治療以及預(yù)防都起到至關(guān)重要的作用[3~4]。

復(fù)雜疾病并不只是由單個(gè)基因引起的,而是由多個(gè)基因共同決定,受多個(gè)基因共同影響。其中每個(gè)基因的作用相對(duì)較弱,但是它們的綜合作用卻可以產(chǎn)生顯著作用。在分離分析每一個(gè)基因時(shí),都有產(chǎn)生巨大假陽(yáng)性的結(jié)果的可能性,因此我們很難發(fā)現(xiàn)相互作用的基因[5]。除此之外,人體中有數(shù)以萬(wàn)計(jì)的基因,如果對(duì)全部基因進(jìn)行研究分析,無(wú)論是基因與基因之間的相互作用關(guān)系還是基因與疾病性狀之間的相互作用關(guān)系都是龐大且復(fù)雜的,這對(duì)數(shù)據(jù)的選擇工作也提出了新的挑戰(zhàn)。

所以本文提出利用結(jié)構(gòu)方程模型對(duì)基因和疾病相關(guān)性狀建模,量化了多個(gè)基因的綜合作用,以及多組基因和疾病相關(guān)性狀的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)與疾病性狀相關(guān)的基因。結(jié)構(gòu)方程模型可以用來(lái)解決多個(gè)變量之間的相互作用,明確量化單個(gè)變量對(duì)整體的作用和單個(gè)變量之間的作用[6~7]。與其他方法相比,結(jié)構(gòu)方程模型所估計(jì)的參數(shù)更加準(zhǔn)確,而且無(wú)需考慮控制變量;其次這種方法可以將測(cè)量誤差排除在外。

2 材料和方法

2.1 數(shù)據(jù)

癌癥的mRNA 表達(dá)譜數(shù)據(jù)和臨床數(shù)據(jù)從基因表達(dá)Omnibus(GEO)(https://www.ncbi)獲得,我們對(duì)下載的數(shù)據(jù)進(jìn)行了預(yù)處理,刪除部分與實(shí)驗(yàn)不相關(guān)的數(shù)據(jù),對(duì)缺失值進(jìn)行刪除或填補(bǔ),以及對(duì)基因數(shù)據(jù)標(biāo)準(zhǔn)化等。最終獲得肺癌數(shù)據(jù)(GSE103512、GSE74777)共176 例。臨床數(shù)據(jù)都包括樣本的年齡、腫瘤大小和腫瘤分期,以便識(shí)別和癌癥性狀相關(guān)的基因。

2.2 建立基因潛變量

利用結(jié)構(gòu)方程模型對(duì)癌癥基因和性狀建模,但是無(wú)法對(duì)所有的基因建模,所以我們從全部的基因中篩選差異表達(dá)基因,建立基因潛變量。使用limma 包通過(guò)分析比較正常樣本與疾病樣本的基因歸一化表達(dá)數(shù)據(jù),篩選出表達(dá)最差異的部分基因。然后對(duì)差異表達(dá)基因進(jìn)行分層聚類,把最相似的基因聚為一類。因子分析(factor analysis)[8]是一種用來(lái)探討連續(xù)變量之間相關(guān)性的統(tǒng)計(jì)方法。利用因子分析來(lái)確定代表一組基因相互作用的共同影響,并用一個(gè)變量來(lái)代替,這個(gè)變量就是潛變量。因子分析的數(shù)學(xué)模型其實(shí)是聯(lián)系潛在因子與可觀測(cè)變量的一系列方程組。

xi是第i 個(gè)可觀測(cè)變量。f是潛變量。λi是待估計(jì)的因子載荷,δi是各個(gè)觀測(cè)變量的度量誤差。

2.3 結(jié)構(gòu)方程模型

結(jié)構(gòu)方程模型即用變量的協(xié)方差矩陣來(lái)分析變量之間關(guān)系,模型中既包含有可觀測(cè)的顯在變量,也包含無(wú)法直接觀測(cè)的潛在變量。結(jié)構(gòu)方程模型包括兩個(gè)部分:測(cè)量模型和結(jié)構(gòu)模型。

測(cè)量模型一般由兩個(gè)方程式組成,分別規(guī)定了內(nèi)生的潛在向量η和內(nèi)生的可觀測(cè)變量Y之間,以及外生的潛在向量ξ和外生的可觀測(cè)變量X之間的聯(lián)系,即:

其中,ΛY表示Y對(duì)η的回歸系數(shù)矩陣(p×m),ε表示Υ的測(cè)量誤差構(gòu)成的向量(P×1) 。 ΛX表示X對(duì)ξ的回歸系數(shù)矩陣(q×n),δ表示X的測(cè)量誤差構(gòu)成的向量(q×1) 。

結(jié)構(gòu)方程模型規(guī)定了所研究的系統(tǒng)中假設(shè)的潛在外生變量和潛在內(nèi)生變量之間的因果關(guān)系,即

其中,B表示潛在內(nèi)生變量對(duì)潛在外生變量的效應(yīng)的系數(shù)矩陣(m×n)。Γ 表示潛在外生變量對(duì)潛在內(nèi)生變量的效應(yīng)的系數(shù)矩陣(m×n),ζ表示殘差項(xiàng)構(gòu)成的向量(m×1) 。

為了確定模型參數(shù),盡量減小模型中隱含的模型協(xié)方差矩陣與樣本協(xié)方差矩陣之間的差距,采用最大似然法,通過(guò)擬合得到矩陣方程中所有自由參數(shù)的值。

3 結(jié)果

3.1 數(shù)據(jù)預(yù)處理

因?yàn)榛驍?shù)目龐大,所以只利用其中一部分基因來(lái)進(jìn)行試驗(yàn)分析。為了選取基因,使用limma 包通過(guò)分析比較正常樣本與疾病樣本的歸一化表達(dá)數(shù)據(jù),來(lái)識(shí)別差異表達(dá)基因,結(jié)果如圖1 所示。選取最差異的前70 個(gè)基因?yàn)橐唤M命名為S1,選取中間70 個(gè)基因?yàn)镾2,最不差異的70 個(gè)基因?yàn)镾3。分別利用結(jié)構(gòu)方程模型進(jìn)行分析每組基因,比較并討論它們與疾病相關(guān)性狀之間的關(guān)系。

圖1 火山圖

圖1 為火山圖,基因差異表達(dá)分析的結(jié)果。橫軸是log2(FC),縱軸是-log10(P value),每個(gè)點(diǎn)代表一個(gè)基因。

3.2 建立結(jié)構(gòu)方程模型

在結(jié)構(gòu)方程模型中,把外生觀測(cè)變量基因變量設(shè)定為X,ξ即基因潛變量,用來(lái)表示基因的綜合作用。把Y設(shè)定為內(nèi)生觀測(cè)變量,η即疾病潛變量,用來(lái)表示疾病性狀的綜合作用。為了確定ξ,對(duì)S1組基因進(jìn)行聚類,如圖2所示。然后對(duì)不同的聚類結(jié)果分別做因子分析驗(yàn)證,同一個(gè)聚類下的基因的共同作用用一個(gè)潛變量來(lái)表示。這個(gè)過(guò)程是用Mplus軟件完成。

圖2 熱圖

為了確定潛變量的數(shù)目,使用貝葉斯信息準(zhǔn)則(BIC)[9~10]來(lái)決定把基因聚為幾類,以此確定結(jié)構(gòu)模型的最佳模型。根據(jù)表1 列出的結(jié)果可以看出,當(dāng)潛在類別數(shù)量逐漸增加時(shí),模型的BIC 值先減小后增大。在8 個(gè)模型中,聚類5 的BIC 值最低(25167.205),所以選擇聚類5 為最佳模型,即有5個(gè)基因潛變量。

表1 基于不同聚類結(jié)果的因子分析結(jié)果

圖2 為熱圖,對(duì)基因表達(dá)量進(jìn)行標(biāo)準(zhǔn)正態(tài)化,然后計(jì)算基因表達(dá)值之間的歐氏距離進(jìn)行聚類。

表1 為基于不同聚類結(jié)果的因子分析結(jié)果,通過(guò)模型評(píng)估標(biāo)準(zhǔn)確定最佳測(cè)量模型。

在確定好ξ和η后,又選取肺癌患者臨床指標(biāo)數(shù)據(jù)中的3 項(xiàng)作為內(nèi)生觀測(cè)變量Y,并且用一個(gè)內(nèi)生潛變量η來(lái)表示。建立了基因與疾病相關(guān)性狀之間的結(jié)構(gòu)方程模型,采用極大似然法進(jìn)行擬合[11]。對(duì)基因組S2和S3利用以上相同的方法建立結(jié)構(gòu)方程模型。通過(guò)因子分析驗(yàn)證,選擇模型7為S2組基因的最佳模型,選擇模型8 為S3 組基因的最佳模型。

在建立的結(jié)構(gòu)方程模型中,疾病潛變量和基因潛變量之間的路徑系數(shù)代表基因?qū)膊⌒誀畹挠绊憽?duì)3 組路徑系數(shù)進(jìn)行了分析比較,如表2。在S1 組中有5 個(gè)基因潛變量,最顯著的是0.835,這個(gè)基因潛變量代表9 個(gè)基因的綜合作用;S2 組中有7個(gè)基因潛變量,最顯著的是0.823,涵蓋了5 個(gè)基因;S3 組中有8 個(gè)基因潛變量,最顯著的是0.722,代表4個(gè)基因的綜合作用。

表2 為疾病潛變量和基因潛變量之間的路徑系數(shù),從S1 到S3 模型,每組基因不同,所以基因潛變量的數(shù)目也不同。

3.3 相關(guān)性分析

為了驗(yàn)證得到的基因的綜合作用以及和疾病性狀的相關(guān)性,選出在三組實(shí)驗(yàn)中對(duì)疾病性狀影響最大的基因進(jìn)行分析。對(duì)單一基因和單一性狀做了雙變量相關(guān)性分析,然后對(duì)基因總體和性狀總體做了典型相關(guān)分析。結(jié)果如表3 和表4,雙變量相關(guān)性分析結(jié)果表明單個(gè)基因和單個(gè)性狀之間幾乎沒有相關(guān)性,而典型相關(guān)分析結(jié)果表明基因總體和性狀總體是顯著相關(guān)的。

表3 雙變量相關(guān)性分析結(jié)果

表4 典型相關(guān)分析結(jié)果

通過(guò)相關(guān)性分析,不僅可以說(shuō)明這部分基因是和疾病性狀或病人生存有明顯的關(guān)聯(lián)關(guān)系,更重要的是它們驗(yàn)證了基因的綜合作用,證明通過(guò)結(jié)構(gòu)方程模型得到的這部分基因是通過(guò)基因間的相互作用和疾病性狀顯著相關(guān)的。從而證明通過(guò)結(jié)構(gòu)方程模型得到的結(jié)論是有顯著意義的。

表3 為雙變量相關(guān)性分析結(jié)果。每一個(gè)基因和每一個(gè)性狀分別做雙變量相關(guān)性分析。是結(jié)構(gòu)方程模型中的疾病性狀。

表4 為典型相關(guān)分析結(jié)果。三組基因分別計(jì)算基因整體和所有性狀的的相關(guān)性。相關(guān)性<0.05證明顯著相關(guān)。

我們還對(duì)得到的基因做了文獻(xiàn)挖掘,在我們得到的和疾病性狀相關(guān)的基因中,很多基因已有資料證明和肺癌或者癌癥的發(fā)病或治療是有密切聯(lián)系的。AQP4 是AOPs 水通道蛋白基因家族成員,AQPs 與癌癥生物學(xué)功能密切相關(guān),并在二十多種人類癌細(xì)胞中都有表達(dá)[12],與腫瘤的類型、等級(jí)、增殖、遷移及血管生成均相關(guān)[13~14]。MMP12 是一種基質(zhì)金屬蛋白酶,對(duì)非小細(xì)胞肺癌的局部復(fù)發(fā)和遠(yuǎn)處轉(zhuǎn)移具有較好的預(yù)測(cè)價(jià)值[15]。在肺腺癌腫瘤組織中表達(dá)水平上調(diào),可能參與肺腺癌發(fā)生、發(fā)展[16]。SPP1 是一種骨橋蛋白,它的表達(dá)同腫瘤的致癌作用和轉(zhuǎn)移密切相關(guān),可能作為腫瘤發(fā)生的一個(gè)標(biāo)志物。它在肺癌中高表達(dá),是癌旁組織的6 倍以上,具有極為明顯的差異,提示可以用作臨床指標(biāo)用于監(jiān)測(cè)癌腫復(fù)發(fā)或轉(zhuǎn)移[17~18]。CDKN3 被認(rèn)為在細(xì)胞周期調(diào)控中發(fā)揮重要作用。研究發(fā)現(xiàn),CDKN3的過(guò)表達(dá)與卵巢癌、腎癌等多種實(shí)體瘤的增殖密切相關(guān)[19~20]。

4 結(jié)語(yǔ)

我們最后通過(guò)結(jié)構(gòu)方程模型獲得了三組和疾病性狀相關(guān)的基因,一共18 個(gè)基因。并且通過(guò)相關(guān)性分析驗(yàn)證他們的綜合作用是和疾病顯著相關(guān)的。復(fù)雜疾病的性狀是受許多基因控制的,和許多基因都相關(guān),但是單個(gè)基因的作用是微弱的,只有它們的綜合作用才可以產(chǎn)生共顯性的效應(yīng)。所以在通過(guò)結(jié)構(gòu)方程模型得到的基因中,單個(gè)基因并不都是和該疾病相關(guān)的,但是基因和基因之間是存在相互作用的,他們綜合作用的結(jié)果是和疾病性狀顯著相關(guān)的,從而證明通過(guò)結(jié)構(gòu)方程模型得到的結(jié)論是有意義的。

基因數(shù)目龐大且基因間的作用復(fù)雜難以估計(jì),結(jié)構(gòu)方程模型對(duì)于衡量多個(gè)基因的綜合作用,理清觀測(cè)變量、潛變量之間的關(guān)系無(wú)疑是一種很好的方法,然而結(jié)構(gòu)方程模型也有它的局限性。第一,結(jié)構(gòu)方程模型對(duì)樣本大小有較高的要求,特別是在假設(shè)較為復(fù)雜的模型的情況下,意味著有更多的未知參數(shù)需要估計(jì);第二,由于結(jié)構(gòu)方程模型是一種驗(yàn)證性方法,它對(duì)所要研究的變量結(jié)構(gòu)要求有一定的先驗(yàn)信息,以便建模。在本文中,是對(duì)基因聚類后建模。在接下來(lái)的工作中,也可以針對(duì)這一點(diǎn),利用其它方法,充分挖掘基因數(shù)據(jù)中的信息,建立更適合衡量基因綜合作用的模型。

猜你喜歡
性狀聚類方程
方程的再認(rèn)識(shí)
方程(組)的由來(lái)
寶鐸草的性狀及顯微鑒定研究
圓的方程
基于DBSACN聚類算法的XML文檔聚類
9種常用中藥材的性狀真?zhèn)舞b別
對(duì)“性狀分離比模擬”實(shí)驗(yàn)的改進(jìn)
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
陸地棉數(shù)量性狀的多元統(tǒng)計(jì)分析
桂阳县| 金平| 灵山县| 银川市| 永川市| 广昌县| 民和| 贵南县| 德钦县| 漯河市| 东乡族自治县| 华蓥市| 昌图县| 奎屯市| 西乌珠穆沁旗| 得荣县| 宁城县| 长葛市| 梧州市| 托里县| 黄陵县| 南皮县| 伊吾县| 古浪县| 略阳县| 高安市| 乌什县| 德兴市| 磴口县| 普格县| 墨玉县| 铁岭县| 晴隆县| 乌兰浩特市| 永年县| 天等县| 长治市| 黔江区| 林州市| 北宁市| 大兴区|