国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息研究的乳腺癌與阿爾茨海默癥的免疫系統(tǒng)發(fā)病機(jī)理探尋

2016-02-16 06:23牟曉陽
關(guān)鍵詞:互信息患病調(diào)控

劉 芳 孔 薇* 牟曉陽

1(上海海事大學(xué)信息工程學(xué)院,上海 201306)2(美國羅文大學(xué)生物化學(xué)系,美國 新澤西 08028)

基于互信息研究的乳腺癌與阿爾茨海默癥的免疫系統(tǒng)發(fā)病機(jī)理探尋

劉 芳1孔 薇1*牟曉陽2

1(上海海事大學(xué)信息工程學(xué)院,上海 201306)2(美國羅文大學(xué)生物化學(xué)系,美國 新澤西 08028)

近年來,越來越多的流行病學(xué)研究顯示多種癌癥與阿爾茨海默癥(AD)呈現(xiàn)負(fù)相關(guān),但分子生物學(xué)機(jī)制尚不明確。從基因信號傳導(dǎo)及調(diào)控網(wǎng)絡(luò)構(gòu)建方面研究這種負(fù)相關(guān),將對兩種疾病致病機(jī)理的探尋起重要作用。選取乳腺癌(BC)與AD進(jìn)行對比研究??紤]到傳統(tǒng)特征基因提取方法注重單個基因在不同樣本中的表達(dá)差異而忽視基因之間的關(guān)聯(lián)性,從基因之間的關(guān)聯(lián)性出發(fā),利用互信息(MI)首先提取兩種疾病中共有的差異表達(dá)基因作為特征基因。在此基礎(chǔ)上,鑒于網(wǎng)絡(luò)成分分析(NCA)約束條件較強(qiáng)、運(yùn)行時間過長等局限性,采用快速網(wǎng)絡(luò)成分分析算法(FastNCA),推演出特征基因中轉(zhuǎn)錄因子的表達(dá)活性及其對靶基因的調(diào)控強(qiáng)度,并分別構(gòu)建兩種疾病的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,轉(zhuǎn)錄因子POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1等在兩種疾病中表達(dá)活性及調(diào)控作用相反,如轉(zhuǎn)錄因子RFC5的表達(dá)活性從健康到BC患病過程中由0.269降低至0.077,而從健康到AD患病過程中則由-0.430升高至0.307。通過分子生物學(xué)分析可知,它們所影響的調(diào)控關(guān)系及生物過程對BC及AD的致病起著關(guān)鍵作用,對兩種疾病之間呈現(xiàn)負(fù)相關(guān)性機(jī)制的探尋具有重要意義。

乳腺癌;阿爾茨海默癥;互信息;快速網(wǎng)絡(luò)成分分析;機(jī)體免疫

引言

近年來,越來越多的流行病學(xué)統(tǒng)計(jì)顯示癌癥與老年癡呆癥特別是阿爾茨海默癥(Alzheimer′s disease, AD)之間呈現(xiàn)負(fù)相關(guān)即癌癥患者患AD的可能性較其他人大幅降低,反之亦然[1]。為了更清楚地了解癌癥和AD之間負(fù)相關(guān)關(guān)系,很多學(xué)者就癌癥和AD分別利用基因表達(dá)數(shù)據(jù)等進(jìn)行了多方面的研究,研究結(jié)果顯示,與癌癥和AD相關(guān)的基因、通路等或許共同參與了一些與細(xì)胞增殖和凋亡有關(guān)的基本的生物學(xué)過程,但在兩類疾病中卻起著相反的作用[2]。已證實(shí)的Pin1通過擴(kuò)大致癌基因信號通路促進(jìn)惡性腫瘤的發(fā)生,Pin1表達(dá)降低會有損tau蛋白功能及淀粉樣前體蛋白加工最終導(dǎo)致神經(jīng)元纖維纏結(jié)及神經(jīng)元退變從而促進(jìn)AD的發(fā)生[2]。Wnt信號通路上調(diào)會阻止神經(jīng)元退化,保證其活性更容易形成癌癥,相反,抑制Wnt通路能使神經(jīng)元死亡或消失促使AD的發(fā)生,在Wnt通路中關(guān)鍵分子的表現(xiàn)、基因組的多態(tài)性和擾動性決定其發(fā)展為癌癥或是AD[2]。然而目前對于兩種疾病在免疫過程中為什么會呈現(xiàn)負(fù)相關(guān)及其呈現(xiàn)負(fù)相關(guān)的根本原因還知之甚少,因在AD與女性雌激素及內(nèi)分泌相關(guān)的癌癥中這種負(fù)相關(guān)性更加明顯[3]。為此本課題選擇乳腺癌(breast cancer, BC)與AD進(jìn)行對比研究,通過提取與免疫系統(tǒng)緊密相關(guān)的顯著特征基因,構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)對它們的負(fù)相關(guān)關(guān)系及其致病機(jī)理進(jìn)行探尋。

傳統(tǒng)的基因提取算法往往只注重單個基因在兩類樣本中的表達(dá)差異而忽略了基因相互之間行為的復(fù)雜性,而熵和互信息(mutual information, MI) 則能抓住模式上的相似性,能有效處理基因間復(fù)雜關(guān)系。對于任意兩條基因若互信息大說明二者在同一樣本中共表達(dá)程度高,反之則弱。運(yùn)用互信息算法[4]在基因表達(dá)數(shù)據(jù)中挖掘差異表達(dá)基因,就是搜索那些在健康樣本與患病樣本中互信息值相差很大的基因作為特征基因。另一方面,基因表達(dá)數(shù)據(jù)無法體現(xiàn)基因轉(zhuǎn)錄調(diào)控信息,考慮到快速網(wǎng)絡(luò)成分分析(fast-network component analysis, FastNCA)算法[5-6]摒除了傳統(tǒng)網(wǎng)絡(luò)成分分析(network component analysis,NCA)算法不穩(wěn)定、運(yùn)行時間長等缺點(diǎn),本研究將FastNCA算法用于共有轉(zhuǎn)錄因子,分別推演出兩種疾病患病前后轉(zhuǎn)錄因子活性變化及其對靶基因調(diào)控強(qiáng)度的變化,并構(gòu)建調(diào)控網(wǎng)絡(luò),結(jié)合分子生物學(xué)研究探討B(tài)C和AD在免疫反應(yīng)下負(fù)相關(guān)的原理,為它們致病機(jī)理的深入研究提供了有益的依據(jù)。

1 算法

1.1 互信息算法

在信息論中,隨機(jī)變量出現(xiàn)的期望值或自信息的均值用熵來衡量,兩個系統(tǒng)間的統(tǒng)計(jì)相關(guān)或一個系統(tǒng)能提供給另一個系統(tǒng)的信息量的多少是用互信息來衡量的。為了能有效抓住基因之間復(fù)雜的關(guān)聯(lián)性,有效提取出復(fù)雜疾病的致病基因[7],采用互信息算法提取特征基因。設(shè)基因變量X=[x1,x2,…,xs]是一個基因表達(dá)模式,S表示基因表達(dá)數(shù)據(jù)中的樣本的數(shù)量,基因變量X的熵即為該基因表達(dá)模式所包含的信息量,即

(1)

聯(lián)合熵表示一對基因變量X和Y的不確定的度量,即

(2)

互信息表示對于兩個隨機(jī)變量X和Y,其中一個變量能提供給另一個變量的信息量,即

(3)

綜上,可以得到基因變量X,Y之間的互信息,有

(4)

根據(jù)式(4)分析兩個基因變量間的關(guān)聯(lián)性,若I(X,Y)較大則表明基因變量X,Y之間相關(guān)性較大,可以認(rèn)為它們在生物學(xué)上存在著較強(qiáng)的關(guān)聯(lián)性,反之,若I(X,Y)為0或較小,則表明基因變量X,Y不相互包含任何信息,即在生物學(xué)上不存在關(guān)聯(lián)性。

1.2 基于互信息算法的特征基因提取

由于基因變量的連續(xù)性,因此在計(jì)算基因變量的熵或互信息時,首先應(yīng)對其離散化,本研究借助直方圖方法[9]將基因表達(dá)數(shù)據(jù)全部離散化,分別求出各個基因的熵及基因之間的聯(lián)合熵,最后根據(jù)式(4)計(jì)算基因變量之間的互信息。

基因表達(dá)數(shù)據(jù)微陣列E=(E(i,j))NS,N表示基因的數(shù)量,S表示數(shù)據(jù)樣本數(shù)。E(i,j)表示第i條基因在第j個樣本下的表達(dá)水平值,對于只包含健康對照樣本和患病樣本的情況,可將E分為健康對照樣本Ec和患病樣本Ea兩部分,利用式(4)分別計(jì)算得出Ec和Ea中基因之間的互信息Ic和Ia,其中I為N×N的矩陣。I(i,j)是指第i條基因和第j條基因在兩類樣本中的互信息值,兩條基因之間的互信息值越大,則說明二者在該樣本中關(guān)聯(lián)程度較高,反之關(guān)聯(lián)程度較弱,基于互信息的性質(zhì),研究中最終選定了兩類狀態(tài)的基因做為特征基因:第1類是將在健康對照樣本中互信息值較小的基因稱其與其他基因失聯(lián),若該基因在患病樣本中的互信息值較高則稱其與其他基因關(guān)聯(lián)。則認(rèn)為此類基因在疾病產(chǎn)生過程中從失聯(lián)狀態(tài)變化為較高關(guān)聯(lián)狀態(tài)勢必對疾病的產(chǎn)生具有重要的作用,因此將上述基因作為從失聯(lián)到關(guān)聯(lián)狀態(tài)的特征基因;第2類相反,從關(guān)聯(lián)到失聯(lián)狀態(tài)的基因,也將其選為特征基因。以第2類狀態(tài)為例,求取從關(guān)聯(lián)到失聯(lián)狀態(tài)的特征基因的提取方法。

選取兩個閾值Tc和Ta其中Tc>Ta,并對Ic和Ia進(jìn)行如下具體算法步驟:

(5)

(6)

(7)

(8)

為了將所有基因表達(dá)數(shù)據(jù)值映射到[-1,1]區(qū)間,首先對數(shù)據(jù)進(jìn)行了歸一化,最后對BC的17個健康對照樣本、45個無轉(zhuǎn)移樣本及AD的13個健康對照樣本、10個患病樣本分別通過式(1)計(jì)算每條基因的信息熵,并將信息熵應(yīng)用于基因表達(dá)數(shù)據(jù)中,若某基因?qū)?yīng)的信息熵值越大,則表明該基因在相應(yīng)樣本中含有的信息量越大,對分類貢獻(xiàn)率越高。

1.3 快速網(wǎng)絡(luò)成分分析算法

由于基因表達(dá)數(shù)據(jù)不能直接體現(xiàn)基因間轉(zhuǎn)錄調(diào)控信息,兩種疾病所提取特征基因無法比較分析其轉(zhuǎn)錄調(diào)控功能和方向的異同,本研究將目前生物學(xué)上已知的TF-TG(transcription factor-target gene)調(diào)控關(guān)系作為先驗(yàn)知識,基于NCA構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。

NCA是一種用來分析轉(zhuǎn)錄網(wǎng)絡(luò)基因表達(dá)數(shù)據(jù)的算法[8],其實(shí)質(zhì)是根據(jù)基因表達(dá)數(shù)據(jù)和轉(zhuǎn)錄因子-靶基因調(diào)控關(guān)系的連通性網(wǎng)絡(luò),進(jìn)而推演出TF活性及其對TG的調(diào)控強(qiáng)度,可表示為

(9)

式中,矩陣ENM表示N個基因在M個樣本中的基因表達(dá)數(shù)據(jù),矩陣CNL表示L個轉(zhuǎn)錄因子對N個靶基因的調(diào)控關(guān)系,矩陣PLM表示L個轉(zhuǎn)錄因子在M個樣本下的表達(dá)活性。

由式(9)不難看出,要將基因表達(dá)矩陣E分解為調(diào)控矩陣C和活性矩陣P的解不是唯一的,需要分別給C和P矩陣添加更多的約束條件才能滿足唯一解的需求,如矩陣C必須是列滿秩矩陣P必須是行滿秩,且矩陣C的每一列必須至少有L-1個0,當(dāng)滿足了上面的約束條件后,分解E矩陣最優(yōu)解可以通過以下目標(biāo)函數(shù)來求解,即

(10)

FastNCA算法包括3個主要步驟。

步驟1:對矩陣E利用奇異值分解,求得其秩為L的EYM逼近,即

(11)

式中,UL=W。

步驟2:估計(jì)調(diào)控矩陣C。對于i=1,2,…,M,將矩陣W進(jìn)行重排,則調(diào)控矩陣C的第i列可以表示為

(12)

步驟3:估計(jì)轉(zhuǎn)錄因子活性矩陣P=C+EL。

此處規(guī)定L=M,從而獲得更好的性能,與傳統(tǒng)利用最小二乘法的NCA算法相比,利用奇異值分解的FastNCA算法,在算法的運(yùn)行速度上明顯比NCA有較大的提高,而且計(jì)算復(fù)雜度低,具有很高的穩(wěn)定性。

1.4 實(shí)驗(yàn)數(shù)據(jù)

所使用的基因表達(dá)數(shù)據(jù)取自美國國家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)基因表達(dá)數(shù)據(jù)庫。乳腺癌數(shù)據(jù)使用的是GSE42568數(shù)據(jù)集,其121個樣本包括17個健康對照樣本、45個無轉(zhuǎn)移患病樣本(BCno)及59個腋下淋巴轉(zhuǎn)移樣本(BCmeta)。所使用的是17個健康對照樣本和45個無轉(zhuǎn)移患病樣本(BCno)。阿爾茨海默癥數(shù)據(jù)使用的是GSE5281數(shù)據(jù)集,其包含了161組不同大腦皮層組織樣本的基因表達(dá)數(shù)據(jù),所使用的是海馬區(qū)(hippocampus,HIP)基因表達(dá)數(shù)據(jù),它包括13個健康對照樣本和10個患病樣本。數(shù)據(jù)集GSE42568 和GSE5281中每個樣本都含有54 675個探針數(shù)據(jù)。轉(zhuǎn)錄因子對靶基因的調(diào)控關(guān)系選用的是提供了人類4 105個轉(zhuǎn)錄因子對1 974個靶基因的調(diào)控關(guān)系的ITFP(integrated transcription factor platform, http://itfp.biosino.org/itfp/)平臺。

2 結(jié)果

2.1 互信息提取特征基因

最終通過計(jì)算分別對上述4類樣本挑選出滿足上述條件的5 000條基因,以BC為例,對BC 分別計(jì)算在正常樣本和患病樣本5 000條基因的互信息值可得兩互信息矩陣Ic和Ia,利用互信息提取特征基因的關(guān)鍵在于閾值Tc和Ta的選取,閾值選取不得當(dāng)會造成得到的特征基因數(shù)過多或過少,都將直接影響后續(xù)的FastNCA算法構(gòu)建調(diào)控網(wǎng)絡(luò)。為了使結(jié)果具有生物學(xué)意義,閾值的選取可根據(jù)圖中孤立點(diǎn)的比例或者圖的密度來選擇,關(guān)于孤立點(diǎn)及圖的密度定義可參考文獻(xiàn)[4]。具體閾值取值及得到的特征基因數(shù)部分實(shí)驗(yàn)數(shù)據(jù)如表1所示,經(jīng)過多次實(shí)驗(yàn)得出,對BC而言從關(guān)聯(lián)到失聯(lián)較為理想的閾值為Tc=2.32和Ta=1.9,將BC、AD各自兩類樣本得到的兩個互信息矩陣Ic和Ia分別進(jìn)行式(5)~(8)處理。最終對于BC和AD分別得到兩種狀態(tài)對稱矩陣I1和I2共4個互信息實(shí)對稱矩陣。分別對上述4個實(shí)對稱互信息矩陣行求和,并以和值所在行為基準(zhǔn)進(jìn)行降序排列,其中和值越大則表示該條基因在對應(yīng)的樣本中與許多基因相關(guān)聯(lián),反之和值為0的基因則表示該基因在對應(yīng)樣本中并不與其他基因有關(guān)聯(lián),依據(jù)上述步驟最終挖掘出BC兩種狀態(tài)下的基因分別為769條和923條、共計(jì)1 572條BC特征基因,同理對AD兩種狀態(tài)提取共計(jì)1 476條特征基因,對BC和AD兩組實(shí)驗(yàn)得到的差異表達(dá)基因取交集,最后得到175條在兩組數(shù)據(jù)集中都差異表達(dá)的顯著基因。

表1 閾值選取與特征基因提取Tab.1 Threshold selection and extracting feature gene

利用DAVID 方法(http://david.abcc.ncifcrf.gov/home.jsp),對上述175條差異表達(dá)顯著的基因進(jìn)行分析,得到的GO功能注釋[10]的生物過程(BP)、細(xì)胞組分(CC)、分子功能(MF)和KEGG通路[11]分別如表2~5所示,這175個特征基因在BC和AD中表達(dá)差異顯著。從表格中可以看出,上述表達(dá)差異顯著的基因主要參與的生物過程有磷酸代謝過程、細(xì)胞凋亡、程序性細(xì)胞死亡等,其細(xì)胞組分主要是細(xì)胞器官腔、細(xì)胞骨架等,其分子功能主要是核苷酸結(jié)合、核糖核苷酸結(jié)合、蛋白質(zhì)激酶活性及金屬離子結(jié)合等。其中,細(xì)胞凋亡、程序性細(xì)胞死亡等是免疫反應(yīng)的主要組成部分,它與許多疾病尤其是癌癥和AD的發(fā)生發(fā)展密切相關(guān)。

表2 175個表達(dá)差異顯著基因的GO功能注釋(BP)Tab.2 175 significantly differentially expressed genes in GO functional annotation (BP)

表3 175個表達(dá)差異顯著基因的GO功能注釋(CC)Tab.3 175 significantly differentially expressed genes in GO functional annotation (CC)

表4 175個表達(dá)差異顯著基因的GO功能注釋(MF)Tab.4 175 significantly differentially expressed genes in GO functional annotation (MF)

表5 175個表達(dá)差異顯著基因參與的KEGG通路

Tab.5 175 significantly differentially expressed genes involved in the KEGG pathway

KEGG通路參與基因數(shù)長期增強(qiáng)作用4腎細(xì)胞癌4癌癥通路8軸突導(dǎo)向5間隙連接4Wnt信號通路5醛固酮調(diào)節(jié)的鈉離子的重吸收3淀粉和蔗糖代謝3類固醇激素的生物合成3卵細(xì)胞成熟分裂4子宮內(nèi)膜癌3非小細(xì)胞肺癌3致病性大腸桿菌感染3

2.2 基于FastNCA構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)

為了得到兩種疾病中差異共表達(dá)基因中起主要作用的轉(zhuǎn)錄因子及其對靶基因的調(diào)控強(qiáng)度信息,首先將175個差異表達(dá)基因作為靶基因與轉(zhuǎn)錄庫進(jìn)行匹配,得到了520個TFs及其調(diào)控的87個TGs共1 004條調(diào)控關(guān)系。選取調(diào)控基因個數(shù)較多(≥6)的14個TFs及其調(diào)控的34個靶基因。為了能更形象具體地觀察轉(zhuǎn)錄因子對靶基因的調(diào)控強(qiáng)度及其活性,現(xiàn)將FastNCA得到的結(jié)果利用Cytoscape軟件(http://www.cytoscape.org/)分別構(gòu)建BC、AD健康對照樣本與其各自患病樣本下的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。為了便于觀察分析,上述兩幅圖中的基因都位于相同的位置,分別如圖1、2所示。

圖1 BC樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。(a)健康對照樣本;(b)患病樣本Fig.1 BC samples transcriptional regulatory network diagram.(a)Healthy control samples;(b)Diseased samples

圖2 AD樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。 (a) 健康對照樣本;(b)患病樣本Fig.2 AD samples transcriptional regulatory network diagram.(a) Healthy control samples;(b) Diseased samples

在兩幅圖中,圓形節(jié)點(diǎn)代表靶基因,三角形節(jié)點(diǎn)代表轉(zhuǎn)錄因子。節(jié)點(diǎn)的白色和黑色分別表示表達(dá)水平或活性的上調(diào)和下調(diào),顏色的深淺代表了表達(dá)水平或活性的高低,連線的實(shí)線和虛線分別表示轉(zhuǎn)錄因子對靶基因的調(diào)控強(qiáng)度的正負(fù)。從構(gòu)建的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖,可見轉(zhuǎn)錄因子和靶基因之間存在一對多及多對一的情況,充分印證了所選取互信息算法提取差異共表達(dá)基因的必要性。比較圖1(a)、(b),可以明顯看出在BC患病前后轉(zhuǎn)錄因子表達(dá)活性升高的有WHSC1、ANAPC5、POLR2E、THOC4、PTBP1、MRPS12、MYST3、FBXO22,轉(zhuǎn)錄因子表達(dá)活性降低的有MCM4、RFC5、RPAP3、KPNA1、KPNA2、ZCCHC7。同理,比較圖2(a)、(b),AD患病前后的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖中轉(zhuǎn)錄因子表達(dá)活性升高的有WHSC1、ANAPC5、RFC5、KPNA1、MRPS12,轉(zhuǎn)錄因子表達(dá)活性降低的有MCM4、RPAP3、 KPNA2、ZCCHC7、POLR2E、THOC4、FBXO22、MYST3、PTBP1。

將BC和AD共用的14個轉(zhuǎn)錄因子相對于各自的健康參照樣本的轉(zhuǎn)錄活性變化趨勢進(jìn)行構(gòu)圖,具體如圖3所示,圖中橫軸的1、2分別代表健康對照樣本、患病樣本??v坐標(biāo)代表轉(zhuǎn)錄因子活性的高低,其中圓形端點(diǎn)線段代表了BC的轉(zhuǎn)錄因子活性變化趨勢,三角形端點(diǎn)的線段代表AD的轉(zhuǎn)錄因子活性變化趨勢。

圖3 BC與AD轉(zhuǎn)錄因子表達(dá)活性對比圖(各子圖中橫坐標(biāo)“1”和“2”分別表示健康對照樣本和患病樣本,縱坐標(biāo)表示對應(yīng)轉(zhuǎn)錄因子的表達(dá)活性,兩者均為無量綱量)Fig.3 BC and AD transcription factor expression activity comparison chart(The ‘1’and ‘2’ in the abscissas of each sub-figure represents healthy and AD/BC sample respectively, and the ordinate denotes the activities of the corresponding TFs.Both of them are dimensionless variables)

從圖3中可以清楚地看到,BC與AD轉(zhuǎn)錄因子表達(dá)活性相反的有POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1,其余的7個轉(zhuǎn)錄因子的表達(dá)活性是一致的。

3 討論

癌癥與AD之間呈現(xiàn)負(fù)相關(guān)關(guān)系已在流行病學(xué)統(tǒng)計(jì)中越來越明顯,但目前對于其發(fā)生的根本原因仍知之甚少。利用生物信息學(xué)方法進(jìn)行兩種疾病特征基因選擇和信號傳導(dǎo)通路分析是目前有針對性的有效分析方法之一。本課題選用互信息這一更能體現(xiàn)基因相關(guān)性的算法提取BC和AD共有的175條差異表達(dá)基因,利用GO數(shù)據(jù)庫對提取的特征基因所參與的生物學(xué)過程及通路進(jìn)行分類分析發(fā)現(xiàn)其參與的主要生物學(xué)過程有磷酸代謝過程、蛋白質(zhì)氨基的磷酸化、調(diào)控細(xì)胞死亡、雌激素代謝過程、氧化還原及程序性細(xì)胞死亡,即在兩種病中都包含的常見的生物學(xué)過程但作用效果卻不同,如在細(xì)胞代謝過程中對BC而言補(bǔ)償?shù)拇x效應(yīng)是糖酵解的上調(diào)即瓦爾堡效應(yīng),而對AD而言則是氧化磷酸化的上調(diào)與瓦爾堡效應(yīng)相反[12]。

本課題提取出了癌癥通路涉及的基因有APC、AR、CUL2、HGF、PRKCA、TPR、KRAS、CRK,軸突導(dǎo)向通路涉及的基因有EPHA4、CHP、EFNB2、RGS3、KRAS、類固醇激素的生物合成通路涉及的基因有AKR1C1、COMT、HSD17B1,參與Wnt通路的基因有APC、CHP、CSNK1A1、CSNK2A2、PRKCA,文獻(xiàn)[2]已經(jīng)證實(shí)Wnt信號通路上調(diào)會阻止神經(jīng)元退化,保證其活性更容易形成癌癥,相反,抑制Wnt通路能使神經(jīng)元死亡或消失促使AD的發(fā)生。由此可見更深入的探尋BC和AD致病基因相關(guān)通路是研究兩者呈現(xiàn)負(fù)相關(guān)根本原因的重要任務(wù)之一。

在信使RNA合成方面,本課題對所提取的轉(zhuǎn)錄因子POLR2E患病前后表達(dá)活性值進(jìn)行計(jì)算可知,其在乳腺癌中的表達(dá)活性升高0.169而在AD中的活性降低0.27。目前已有研究表明POLR2E主要編碼RNA聚合酶Ⅱ[13],RNA聚合酶Ⅱ被認(rèn)為在負(fù)責(zé)信使RNA合成中作用最大,故POLR2E表達(dá)活性上調(diào)會間接導(dǎo)致mRNA合成量增多從而加速細(xì)胞的增殖。由圖1、2可知轉(zhuǎn)錄因子RFC5調(diào)控靶基因SMARCA4且其表達(dá)活性從健康到BC患病過程中由0.269降低至0.077,而從健康到AD患病過程中則由-0.43升高至0.307。SMARCA4屬于SWI / SNF的成員,已有研究表明SWI / SNF表達(dá)紊亂會導(dǎo)致BC和AD的發(fā)生[14-15]。THOC4基因的表達(dá)也對胚胎細(xì)胞起重要的作用且受ZFP206的調(diào)控[16]。Zhang 等的研究發(fā)現(xiàn),ZFP206調(diào)控胚胎干細(xì)胞的增殖和分化,并在胚胎細(xì)胞增殖過程中過表達(dá),這剛好符合圖3中THOC4在BC和AD中的表達(dá)活性情況,即THOC4表達(dá)活性升高促進(jìn)細(xì)胞增殖促使乳腺癌的形成同時降低了AD患病概率。在炎癥反應(yīng)方面,F(xiàn)BXO22、SKP1、GogB相互作用具有抗炎作用,GogB升高會抑制NF-κB,降低則會增加炎癥反應(yīng)。而許多研究均已證實(shí)炎癥在AD的發(fā)病過程中扮演著重要的角色[17]。研究顯示BIG3通過封鎖KPNA1與PHB2(抗增殖蛋白)的鏈接區(qū)域達(dá)到抑制PHB2表達(dá)的效果,與此同時PHB2又和雌激素受體之間在細(xì)胞核中存在相互作用[18]。文獻(xiàn)[3]則表明雌激素可以下調(diào)炎癥基因的表達(dá)同時會增加乳腺癌的風(fēng)險。研究表明p53功能性突變上調(diào)MYST53會促進(jìn)腫瘤的生長。Sheikh等的研究表明,MOZ(MYST3, KAT6A)通過INK4A-ARF通路能夠抑制衰老[19]。這正好與圖3中MYST3作為BC和AD共有的轉(zhuǎn)錄因子表達(dá)活性相符,即在BC中表達(dá)活性升高了0.079同時在AD中表達(dá)活性降低了0.502。PTBP1與乳腺腫瘤的形成有關(guān),并對腫瘤細(xì)胞的生長和保持改變屬性是必不可少的,PTBP1表達(dá)水平的下降會導(dǎo)致PKM1表達(dá)的上調(diào),同時PKM1會進(jìn)一步促進(jìn)氧化磷酸化并減少腫瘤的形成[20]。而Demetrius等的研究表明,在AD中存在氧化磷酸化的上調(diào)跡象[12]。由圖3不難看出,該轉(zhuǎn)錄因子在BC中的表達(dá)活性上升而在AD中表達(dá)活性降低。綜上所述本課題所提取的與BC和AD相關(guān)基因、轉(zhuǎn)錄因子及涉及的通路共同參與了細(xì)胞增殖和凋亡有關(guān)的基本的生物過程,但在兩種疾病中卻起著相反作用,這為生物學(xué)實(shí)驗(yàn)及有關(guān)BC和AD負(fù)相關(guān)致病機(jī)理的分析提供了堅(jiān)實(shí)的依據(jù)和基礎(chǔ)。

4 結(jié)論

鑒于BC和AD發(fā)病機(jī)制復(fù)雜且都與免疫系統(tǒng)有關(guān),以及相關(guān)研究顯示二者呈負(fù)相關(guān),為了更進(jìn)一步了解二者呈負(fù)相關(guān)的原因,本研究首先對BC和AD基因表達(dá)數(shù)據(jù)分別利用特征基因提取算法獲取二者的特征基因并取其共有的特征基因。為了避免傳統(tǒng)特征基因提取方法只注重單個基因在不同樣本中的表達(dá)差異而忽視了基因之間的關(guān)聯(lián)性,研究中選用互信息算法分別提取BC和AD的致病特征基因,然后通過FastNCA算法構(gòu)建TF-TG轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),最后運(yùn)用Cytoscape構(gòu)圖直觀呈現(xiàn)TF對TG的調(diào)控強(qiáng)度及表達(dá)活性變化。在最后得到的在兩種疾病中表達(dá)活性及調(diào)控作用呈相反關(guān)系的轉(zhuǎn)錄因子,包括POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1等。通過分子生物學(xué)分析可知,它們所影響的調(diào)控關(guān)系及生物過程對BC及AD的致病起著關(guān)鍵作用。通過對調(diào)控網(wǎng)絡(luò)的分析,也發(fā)現(xiàn)了很多BC和AD致病的共有基因,對兩種疾病之間呈現(xiàn)負(fù)相關(guān)機(jī)制的探尋具有重要意義。

[1] Catalá-López F, Crespo-Facorro B, Vieta E, et al. Alzheimer′s disease and cancer: current epidemiological evidence for a mutual protection[J]. Neuroepidemiology, 2014, 42(2): 121-122.

[2] Driver JA. Inverse association between cancer and neurodegenerative disease: review of the epidemiologic and biological evidence[J]. Biogerontology, 2014, 15(6): 547-557.

[3] Realmuto S, Cinturino A, Arnao V, et al. Tumor diagnosis preceding Alzheimer’s disease onset: is there a link between cancer and Alzheimer’s disease?[J]. Journal of Alzheimer's Disease, 2012, 31(1): 177-182.

[4] 張煥萍,王惠南,盧光明,等. 基于互信息的差異共表達(dá)致病基因挖掘方法[J]. 東南大學(xué)學(xué)報: 自然科學(xué)版, 2009, 39(1): 151-155.

[5] Chang C, Ding Z, Hung YS, et al. Fast network component analysis for gene regulation networks[C]// 2007 IEEE Workshop on Machine Learning for Signal Processing. Thessaloniki:IEEE, 2007: 21-26.

[6] Chang C, Ding Z, Hung YS, et al. Fast network component analysis (FastNCA) for gene regulatory network reconstruction from microarray data[J]. Bioinformatics, 2008, 24(11): 1349-1358.

[7] 孫嘯,陸祖宏,謝建明. 生物信息學(xué)基礎(chǔ)[M]. 北京:清華大學(xué)出版社,2005.

[8] Liao JC, Boscolo R, Yang YL, et al. Network component analysis: reconstruction of regulatory signals in biological systems[J]. Proceedings of the National Academy of Sciences, 2003, 100(26): 15522-15527.

[9] Steuer R, Kurths J, Daub CO, et al. The mutual information: detecting and evaluating dependencies between variables[J]. Bioinformatics, 2002, 18(Suppl 2): S231-S240.

[10] Gene Ontology Consortium. The Gene Ontology (GO) database and informatics resource[J]. Nucleic Acids Research, 2004, 32(Suppl 1): D258-D261.

[11] Kanehisa M, Goto S. KEGG: Kyoto encyclopedia of genes and genomes[J]. Nucleic Acids Research, 2000, 28(1): 27-30.

[12] Demetrius LA, Simon DK. The inverse association of cancer and Alzheimer's: A bioenergetic mechanism[J]. Journal of the Royal Society Interface, 2013, 10(82): 20130006.

[13] Ye X, Xiao P, Hu X, et al. Crystallization and preliminary X-ray analysis of the RPB5 subunit of human RNA polymerase II[J]. Acta Crystallographica Section F: Structural Biology and Crystallization Communications, 2011, 67(11): 1391-1393.

[14] Reisman D, Glaros S, Thompson EA. The SWI/SNF complex and cancer[J]. Oncogene, 2009, 28(14): 1653-1668.

[15] Schirer Y, Malishkevich A, Ophir Y, et al. Novel marker for the onset of frontotemporal dementia: early increase in activity-dependent neuroprotective protein (ADNP) in the face of Tau mutation[J]. PloS ONE, 2014, 9(1): e87383.

[16] Zhang W, Walker E, Tamplin OJ, et al. Zfp206 regulates ES cell gene expression and differentiation[J]. Nucleic Acids Research, 2006, 34(17): 4780-4790.

[17] Pilar AVC, Reid-Yu SA, Cooper CA, et al. Active modification of host inflammation by Salmonella[J]. Gut microbes, 2013, 4(2): 140-145.

[18] Kim NH, Yoshimaru T, Chen YA, et al. BIG3 inhibits the estrogen-dependent nuclear translocation of PHB2 via multiple karyopherin-alpha proteins in breast cancer Cells[J]. PLoS ONE, 2015, 10(6):e0127707.

[19] Sheikh BN, Phipson B, El-Saafin F, et al. MOZ (MYST3, KAT6A) inhibits senescence via the INK4A-ARF pathway[J]. Oncogene, 2015,34(47): 5807-5820.

[20] He X, Arslan AD, Ho TT, et al. Involvement of polypyrimidine tract-binding protein (PTBP1) in maintaining breast cancer cell growth and malignant properties[J]. Oncogenesis, 2014, 3(1): e84.

Exploration of Pathogenesis in Immune System of Breast Cancer and Alzheimer′s Disease Based on Mutual Information

Liu Fang1Kong Wei1*Mou Xiaoyang2

1(InformationEngineeringCollege,ShanghaiMaritimeUniversity,Shanghai201306,China)2(DepartmentofChemistryandBiochemistry,RowanUniversity,NJ08028,USA)

In recent years, a growing number of epidemiological studies have shown that many kinds of cancer and Alzheimer′s disease have an inverse association, but the molecular biological mechanism remains unclear. Researching the inverse association from gene signal transduction and regulatory networks will play an important role in exploring the pathogenesis of both diseases. Breast cancer (BC) and AD were selected to be analyzed. Taking account of that the traditional genes extraction algorithms focused on a single gene expressed differently in different samples and ignored the links among the correlation genes, mutual information (MI) was utilized to extract the differentially expressed genes in the two diseases basing on the correlation among genes using as feature genes. In this paper, considering the limitation of network component analysis (NCA),such as the strong constraint conditions and the long running time, fast-network component analysis (FastNCA), improved by NCA,was brought up to get the activity of transcription factors among feature genes and TF′s regulate strength of target genes, and construct two diseases transcriptional regulatory networks, respectively. Experimental results showed that the activities and the regulate and control strength of TFs were totally opposite in the two diseases, for example POLR2E, RFC5, THOC4, FBXO22, KPNA1, MYST3 and PTBP1, for example, transcription factors RFC5 activities in BC decreased from 0.269 to 0.077, and in AD increased by -0.430 to 0.307. According to the experiment and analysis of molecular biology, the regulate relationship and the biological process influence from these TFs play a vital role in BC and AD.

breast cancer; Alzheimer′s disease; mutual information; fast network component analysis; immunity

10.3969/j.issn.0258-8021. 2016. 03.006

2015-10-28, 錄用日期:2016-03-21

國家自然科學(xué)基金(61271466);上海市教委科研創(chuàng)新項(xiàng)目(15ZZ079)

Q343.1

A

0258-8021(2016) 03-0292-09

*通信作者(Corresponding author), E-mail:weikong@shmtu.edu.cn

猜你喜歡
互信息患病調(diào)控
樓市調(diào)控是否放松
碘-125粒子調(diào)控微小RNA-193b-5p抑制胃癌的增殖和侵襲
野生動物與人獸共患病
如何調(diào)控困意
經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
基于互信息的圖像分割算法研究與設(shè)計(jì)
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
基于增量式互信息的圖像快速匹配方法
完形填空訓(xùn)練
吉水县| 中西区| 扶沟县| 临清市| 濮阳县| 图片| 琼结县| 郸城县| 麦盖提县| 汶上县| 沽源县| 连云港市| 丹寨县| 英吉沙县| 土默特左旗| 什邡市| 宁远县| 博爱县| 宁阳县| 龙南县| 常山县| 饶河县| 靖边县| 陆河县| 北票市| 兴安盟| 临夏市| 日照市| 沙湾县| 临澧县| 黔南| 大新县| 青铜峡市| 东丰县| 信阳市| 绥阳县| 河西区| 乐平市| 阳江市| 荥阳市| 仙游县|