劉一凡
摘 要:EGFR(Epidermal Growth Factor Receptor)是表皮生長(zhǎng)因子受體(HER)中的一種重要蛋白,屬于EGF(Epidermal Growth Factor)家族。作為一種跨膜蛋白,其信號(hào)通路對(duì)細(xì)胞多種生理過程起重要作用。本文中從該蛋白的氨基酸組成、親水性分析、系統(tǒng)發(fā)育分析,亞細(xì)胞定位,三級(jí)結(jié)構(gòu)模擬等多個(gè)方面對(duì)該蛋白進(jìn)行了生物信息學(xué)分析,這些結(jié)果有助于我們更進(jìn)一步地了解EGFR蛋白的結(jié)構(gòu)與功能。
關(guān)鍵詞:EGFR;生物信息學(xué);初步分析;EGFR蛋白;系統(tǒng)發(fā)育分析;亞細(xì)胞定位預(yù)測(cè);三級(jí)結(jié)構(gòu)預(yù)測(cè)
EGF以及其受體于1953年由范德堡大學(xué)的Stanley Cohen教授發(fā)現(xiàn)。Cohen教授因此與意大利的Rita Levi-Montalcini共享了1986年諾貝爾醫(yī)學(xué)獎(jiǎng)。在許多癌癥病例中,影響EGFR表達(dá)或活性的突變是癌癥的重要誘因。導(dǎo)致EGFR過度表達(dá)的突變被證明與多種癌癥的產(chǎn)生有關(guān)。其中包括肺部鱗狀細(xì)胞癌(80%有關(guān)),腸癌、惡性膠質(zhì)瘤(50%有關(guān))與頭頸部上皮腫瘤(80%至100%有關(guān))。[1]上述與癌癥有關(guān)的突變與EGFR的聯(lián)系主要體現(xiàn)在前者能導(dǎo)致EGFR保有異常的持續(xù)活性,間接引發(fā)不受控制的細(xì)胞增殖與分化。對(duì)EGFR的抑制是當(dāng)前開發(fā)相關(guān)癌癥療法的一個(gè)重要發(fā)展方向。研究EGFR蛋白質(zhì)的結(jié)構(gòu)是研究EGFR的作用機(jī)理、信號(hào)傳遞和抑制方法的基本。本文從氨基酸組成分析、系統(tǒng)發(fā)育分析、亞細(xì)胞定位預(yù)測(cè)和三級(jí)結(jié)構(gòu)預(yù)測(cè)四個(gè)方面對(duì)EGFR的結(jié)構(gòu)做了研究和探討,以期為EGFR及其致病機(jī)理的研究和相關(guān)癌癥治療方法的開發(fā)提供參考。
1 材料與方法
1.1 材料
從uniprot[2]上下載EGFR蛋白氨基酸序列(FASTA格式),以人的EGFR蛋白序列為例:
>sp|P00533|EGFR_HUMAN Epidermal growth factor receptor OS=Homo sapiens OX=9606 GN=EGFR PE=1 SV=2
1.2 方法
1.2.1EGFR氨基酸組成分析
利用Bioedit進(jìn)行氨基酸分析。Bioedit是一款生物學(xué)序列調(diào)整軟件,通過分析蛋白質(zhì)氨基酸序列,為用戶研究蛋白質(zhì)組成和性質(zhì)提供參考。本文主要利用了其氨基酸組成分析和疏水性分析功能。
1.2.2 系統(tǒng)發(fā)育分析
使用MEGA [3]軟件進(jìn)行EGFR系統(tǒng)發(fā)育分析。MEGA5是MEGA(Molecular Evolutionary Genetics Analysis)軟件家族的產(chǎn)品,具有強(qiáng)大的DNA分析和蛋白質(zhì)序列數(shù)據(jù)處理功能。本文主要利用了其物種進(jìn)化樹構(gòu)建和親緣關(guān)系分析等功能,簡(jiǎn)潔直觀地展示出系統(tǒng)發(fā)育分析結(jié)果。
1.2.3 亞細(xì)胞定位
在https://psort.hgc.jp/form2.html上對(duì)該蛋白在細(xì)胞中的分布情況進(jìn)行分析。通過在線計(jì)算,得出了EGFR在細(xì)胞中的定位分析結(jié)果。
1.2.4 EGFR三級(jí)結(jié)構(gòu)預(yù)測(cè)
使用SWISS-MODEL[4]進(jìn)行三級(jí)結(jié)構(gòu)預(yù)測(cè)。SWISS-MODEL是一個(gè)頗負(fù)盛名的蛋白質(zhì)3D結(jié)構(gòu)建構(gòu)服務(wù)器,為來自全球各地的生物研究者免費(fèi)提供蛋白質(zhì)三級(jí)結(jié)構(gòu)模型建立服務(wù)。本文主要使用了由SWISS-MODEL提供的模型對(duì)EGFR三級(jí)結(jié)構(gòu)進(jìn)行說明和預(yù)測(cè)。
2 結(jié)果與分析
2.1 氨基酸組成分析
使用Bioedit進(jìn)行EGFR氨基酸組成分析,發(fā)現(xiàn)組成EGFR的氨基酸種類及其占比如下圖:
結(jié)果可見,EFGR中亮氨酸(Leu)含量最高。甘氨酸(Gly)、絲氨酸(Ser)含量很高,谷氨酸(Glu)、脯氨酸(Pro)含量居中。氨基酸占蛋白質(zhì)成分越多,則其對(duì)蛋白質(zhì)的影響一定程度上更顯著。由此推斷EGFR蛋白可能有膠原蛋白的性質(zhì)(甘氨酸和絲氨酸含量很高,均達(dá)到7 Mol%),其結(jié)構(gòu)上可能具有RNA、黏蛋白和寡聚糖的結(jié)合位點(diǎn)。這與EGFR作為一種信號(hào)傳導(dǎo)的受體,在哺乳動(dòng)物上皮細(xì)胞、膠質(zhì)細(xì)胞等細(xì)胞表面有廣泛分布有關(guān)。
接著我們對(duì)EGFR蛋白進(jìn)行了疏水性分析,如下圖:
在藍(lán)線以上的曲線峰值表現(xiàn)出EGFR在一定氨基酸位點(diǎn)區(qū)間的疏水性。
由此可知,EGFR蛋白有三個(gè)總體來說疏水性表現(xiàn)強(qiáng)烈的區(qū)間,分別為0-175位,350-500位和600-950位。同理,在藍(lán)線以下的曲線區(qū)間表現(xiàn)出EGFR在該氨基酸位點(diǎn)區(qū)間的親水性,其區(qū)間廣泛分布于幾乎整個(gè)蛋白質(zhì)中,說明親水性在EGFR中總體上表現(xiàn)更普遍。綜上所述,EGFR總體表現(xiàn)出親水性,但不突出。
2.2 系統(tǒng)發(fā)育分析
使用MEGA軟件繪制進(jìn)化樹。以人類(HUMAN)、小鼠(MOUSE)、獼猴(MACMU)、雞(CHICK)、黑腹果蠅(DROME)五種物種為例,對(duì)其EGFR蛋白序列進(jìn)行系統(tǒng)發(fā)育分析,以研究EGFR蛋白在不同物種間有怎樣的進(jìn)化關(guān)系。進(jìn)化樹如下圖所示。
對(duì)進(jìn)化樹在不同物種間進(jìn)行親緣關(guān)系分析的進(jìn)化距離,如下圖:
由圖3和圖4可知,小鼠、人類、獼猴位于同一進(jìn)化樹分類下,表明三者進(jìn)化關(guān)系較為密切。其中,人類與獼猴又處于同一進(jìn)化樹分類的子類下,表明二者親緣關(guān)系非常相近??赏茰y(cè)是由于人與獼猴同屬靈長(zhǎng)類,是遺傳特征非常相似的哺乳動(dòng)物。黑腹果蠅(DROME)和雞(CHICK)則分居進(jìn)化樹另外兩個(gè)分支上,說明兩者彼此間以及和上述三者的親緣關(guān)系都較遠(yuǎn)。
2.3 亞細(xì)胞定位
采用PSORTⅡ工具上對(duì)EGFR在細(xì)胞中的分布進(jìn)行了定位。結(jié)果如下圖。
結(jié)果表示,EGFR蛋白有30.4%位于細(xì)胞質(zhì)膜(plasma membrane)上,有17.4%各在內(nèi)質(zhì)網(wǎng)(endoplasmic reticulum)、液泡膜(vacuolar)、細(xì)胞核(nuclear)中。在細(xì)胞質(zhì)基質(zhì)(cytoplasmic)、線粒體(mitochondrion)、高爾基體(Golgi)和細(xì)胞骨架(cytoskeleton)中也有少量分布。不難看出,EGFR主要分布在細(xì)胞的生物膜系統(tǒng)上,這與其作為信號(hào)通路參與細(xì)胞間信息交流的功能有很大關(guān)系。同時(shí),EGFR在細(xì)胞內(nèi)與蛋白質(zhì)合成與能量提供有關(guān)的細(xì)胞器上也有一定分布,說明EGFR可能與細(xì)胞合成和分泌激素、糖類和脂質(zhì)等有機(jī)物有關(guān)。
2.4 EGFR三級(jí)結(jié)構(gòu)預(yù)測(cè)
使用SWISS-MODEL進(jìn)行EGFR三級(jí)結(jié)構(gòu)構(gòu)建,得到的MODEL 01 三維結(jié)構(gòu)預(yù)覽圖如下(BMP形式):
2.5 建模質(zhì)量評(píng)估
對(duì)MODEL 01的建??煽砍潭冗M(jìn)行評(píng)估,結(jié)果如下:
橫坐標(biāo)表示氨基酸位點(diǎn),縱坐標(biāo)表示該模型的預(yù)測(cè)與EGFR蛋白的相似程度,區(qū)間為(0,1),在一定氨基酸位點(diǎn)區(qū)間中,取值越大,表示模型在該區(qū)間與蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)得越相近。由圖可知,MODEL 01總體相似程度在0.7-0.8之間,說明該模型能較貼切地說明EGFR蛋白的結(jié)構(gòu)。GMQE是一種建模準(zhǔn)確度的估計(jì)值,在0至1內(nèi)取值,取值越高越說明模型具有更佳的可靠性。MODEL 01的GMQE達(dá)到0.58,說明MODEL 01是預(yù)測(cè)三級(jí)結(jié)構(gòu)的較為可靠的模型。
參考文獻(xiàn):
[1]王榮,石冬琴,謝華,李文斌,田薇,賈正平.非小細(xì)胞肺癌中 EGFR 基因突變及靶向藥物治療研究進(jìn)展.中國(guó)藥理學(xué)通報(bào),2013,29(1):22-6.
[2]The UniProt C:Uniprot:The universal protein knowledgebase.Nucleic acids research 2017;45:D158-D169.
[3]Tamura K,Peterson D,Peterson N,Stecher G,Nei M,Kumar S:Mega5:Molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance,and maximum parsimony methods.Molecular biology and evolution 2011;28:2731-2739.
[4]Biasini M,Bienert S,Waterhouse A,Arnold K,Studer G,Schmidt T,Kiefer F,Gallo Cassarino T,Bertoni M,Bordoli L,Schwede T:Swiss-model:Modelling protein tertiary and quaternary structure using evolutionary information.Nucleic acids research 2014;42:W252-258.