張 征,彭友松
(1.湖南農業(yè)大學植物保護學院,湖南省農業(yè)大數據分析與決策工程技術研究中心,長沙 410082;2.湖南大學生物學院生物信息中心,長沙 410082)
動物病毒識別并結合受體是其感染宿主細胞的第一步。動物病毒受體通常分布于宿主細胞的細胞膜表面,其分子類型包括蛋白質、糖類、酸和脂質等;其中,蛋白質對動物病毒的附著能力更強,特異性更高[1]。動物病毒與其對應受體的結合對于病毒靶向侵入特定的組織和細胞至關重要。病毒受體在宿主細胞或組織上的存在與表達是動物病毒感染宿主的前提條件[2-4]。過去的研究表明,哺乳動物病毒受體在被病毒感染的組織中的表達量較高[2,5],且在各哺乳動物中均有高度的保守性[1]。
在漫長且持續(xù)的進化壓力下,病毒不僅通過改變自身基因組和逃逸宿主免疫防御機制等增加感染效率[6],某些病毒還選擇了分布于細胞膜表面的多個蛋白作為病毒受體[1]。這提示,病毒在入侵細胞的過程中,可能需要多個蛋白受體的協(xié)同作用。根據與病毒的結合順序,可將這些病毒受體分為第一受體和第二受體。病毒在與第一受體順利結合后,第二受體通常作為輔助因子促進病毒進入宿主細胞,因此,第二受體也稱為共受體、輔助受體(coreceptor)等[7-8]。例如,人類免疫缺陷病毒1 型(human immunodeficiency virus 1,HIV-1)在與第一受體CD4 結合后,還需進一步與CD4 的共受體CCR5 或CXCR4 結合形成復合體,最終通過膜融合的方式侵入宿主細胞[9-10]。先前的研究表明,HIV-1 的gp120蛋白與CD4 的結合是不穩(wěn)定且可逆的[11],故而CD4與共受體CCR5 的表達水平差異會影響HIV-1 病毒對巨噬細胞的感染[12-13]。
目前關于病毒共受體的研究僅局限于單個動物病毒,而基于某一類別或整個病毒群體的系統(tǒng)性分析較少。病毒-受體相互作用是一個高度的動態(tài)過程,目前已知的病毒受體和病毒共受體數量較少。為了更加全面、深入地探索病毒共受體間的潛在關聯(lián),本研究從哺乳動物病毒-受體數據庫Viral-Receptor[1]中收集病毒-受體蛋白相互作用關系,并將同一種病毒在同一種宿主中使用的多個病毒受體定義為病毒共受體(virus co-receptors),利用生物信息學方法從結構、功能、進化和組織表達等角度,系統(tǒng)分析了哺乳動物病毒共受體的共性特征。
1.1.1 哺乳動物病毒受體和哺乳動物蛋白組
從哺乳動物病毒-受體數據庫ViralReceptor(http://www.computationalbiology.cn:5000/viralReceptor)[1]中收集150 種哺乳動物病毒蛋白受體。于2021 年4 月5 日,從NCBI(https://www.ncbi.nlm.nih.gov/)網站下載所有哺乳動物參考蛋白組。對這些哺乳動物的參考蛋白組中的蛋白數量進行統(tǒng)計,發(fā)現其中157 種哺乳動物的蛋白數量要遠遠多于其他哺乳動物(表1),因此,本文選擇這157 種哺乳動物進行分析。
表1 NCBI refseq數據庫中157 種哺乳動物的蛋白數量Tab.1 The number of protein sequences of 157 mammal species in NCBI RefSeq database
1.1.2 哺乳動物病毒共受體組合及其對照組
從ViralReceptor 數據庫中一共收集了322 對哺乳動物病毒-受體相互作用關系,包括142 種哺乳動物病毒種或亞種和150 種病毒蛋白受體[1]。使用兩種或更多受體的病毒,得到其中每種哺乳動物病毒的共受體蛋白的兩兩組合,共形成277 種哺乳動物病毒共受體組合(其中包括249 種人類病毒共受體組合)。為了對比,在排除掉病毒共受體組合后,將各哺乳動物中的病毒受體蛋白的兩兩組合(共4 456 對)作為對照組1(其中包括4 311 對人類病毒受體蛋白的兩兩組合),簡稱非病毒共受體組。為了進一步保證試驗結果的魯棒性,隨機選取300個人類細胞膜蛋白和300 個人類蛋白,并分別將蛋白兩兩組合,得到44 850 對人類細胞膜蛋白組合和44 850 對人類蛋白組合,它們分別作為對照組2 和對照組3。
1.1.3 人類病毒受體的組織表達
于2021年5月11日從Expression Atla 數據庫[14]中收集了人類病毒蛋白受體的基因和其他人類基因在32 種常見人體組織中的表達量。其中基因表達量用每百萬條映射讀取的轉錄本(transcripts per million reads,TPM)表示。
1.1.4 人類病毒受體的蛋白相互作用網絡
于2021 年4 月22 日從STRING 數據庫(version 11)[15]中下載人類蛋白相互作用關系,并進一步挑選綜合得分(combine score)大于或等于400 的蛋白相互作用關系作為人類蛋白網絡。
1.2.1 哺乳動物病毒共受體的結構共性分析
為了研究哺乳動物病毒共受體的蛋白結構共性,使用InterProScan 軟件(version 5.30)[16]預測哺乳動物病毒受體以及隨機選取的300 個人類細胞膜蛋白和300 個人類蛋白在Pfam 數據庫中的蛋白結構域。
1.2.2 哺乳動物病毒共受體的功能共性分析
為了研究哺乳動物病毒共受體的功能共性,使用DiShIn 軟件[17](https://github.com/lasigeBioTM/DiShIn)中Lin[18]提出的語義相似性度量方法,基于基因本體論(gene ontology,GO)數據庫,分別計算哺乳動物病毒共受體組合與3 個對照組的蛋白功能相似性。在分析蛋白功能的相似程度時,按照得分大小分為以下幾種情況:當得分≥0.8 時,可視為兩個蛋白的功能極為相似;當0.6≤得分<0.8 時,可視為功能高度相似;當0.4≤得分<0.6 時,可視為功能中度相似;當0.2≤得分<0.4 時,可視為功能低度相似;當得分<0.2 時,說明兩個蛋白之間的功能相似程度極弱,可視為功能不相似[19-20]。
1.2.3 哺乳動物病毒共受體的共進化分析
為了研究哺乳動物病毒共受體的共進化,參考常用于評估蛋白共進化的mirrorTree 方法[21]。首先,利用BLAST(version 2.6.0)[22]收集所有哺乳動物病毒受體分別在157 種哺乳動物中的同源蛋白。其中,同源蛋白的門檻設置為E值(E-value)<1e-10,覆蓋率(query coverage)≥80%,序列一致性(sequence identity)≥30%,且僅選取每種哺乳動物中最相似的蛋白(E值最小)作為病毒受體的同源蛋白。然后,通過MAFFT 軟件(version 6.240)[23]依次將每種哺乳動物病毒受體與其對應的所有同源蛋白進行多序列比對,并利用MEGA CC 軟件(version 10.2.5)[24]中的鄰接法(neighbor-joining algorithm)建立系統(tǒng)發(fā)育樹。最終,使用perl 腳本從系統(tǒng)發(fā)育樹中提取蛋白間的遺傳距離,并基于Pearson 相關系數(Pearson correlation coefficient,PCC)計算兩個蛋白家族的距離矩陣間的相關性,評估哺乳動物病毒共受體的共進化程度。此外,為了進行比較,分別對隨機選取的300 個人類細胞膜蛋白和300 個人類蛋白進行了上述分析。在分析兩個蛋白家族間的共進化程度時,按照相關系數的大小將共進化程度分為以下幾種情況:當|PCC|≥0.8 時,可視為兩個蛋白家族間的共進化程度極高;當0.6≤|PCC|<0.8 時,可視為共進化程度較高;當0.4≤|PCC|<0.6 時,可視為共進化程度適中;當0.2≤|PCC|<0.4 時,可視為共進化程度較低;當|PCC|<0.2 時,說明兩個蛋白之間的共進化程度極弱,可視為沒有共進化[19-20]。
1.2.4 人類病毒共受體的共表達分析
為了研究人類病毒共受體的組織表達關聯(lián)性,本研究收集了人類病毒受體和其他人類基因在人體常見32 種組織中的表達量,并基于Spearman 相關系數(Spearman correlation coefficient,SCC)計算各蛋白組合在人體組織中表達量的相關性,評估人類病毒共受體及其他蛋白組合的共表達水平。在分析兩個蛋白間的共表達程度時,按照相關系數的大小將共表達程度分為以下幾種情況:當|SCC|≥0.8 時,可視為兩個蛋白的共表達水平極高;當0.6≤|SCC|<0.8 時,可視為共表達水平較高;當0.4≤|SCC|<0.6 時,可視為共表達水平適中;當0.2≤|SCC|<0.4 時,可視為共表達水平較低;當|SCC|<0.2 時,說明兩個蛋白之間的共表達水平極弱,可視為沒有共表達[19-20]。
1.2.5 繪圖與統(tǒng)計學分析
采用R 軟件進行數據處理、圖片制作及統(tǒng)計分析,其中衡量兩組間差異的秩和檢驗通過Wilcox test 計算。若P值小于0.05,則認為有顯著性差異。采用Adobe Illustrator軟件進行圖片編輯。
基于ViralReceptor 數據庫收集的哺乳動物病毒共來源于22 種病毒科,其中雙鏈DNA 病毒的微小核糖核酸病毒科(Picornaviridae)、逆轉錄病毒的逆轉錄病毒科(Retroviridae)和雙鏈DNA 的皰疹病毒科(Herpesviridae)的病毒數量最多,占所有病毒的47.2%[1]。從病毒受體的角度來看,收集的哺乳動物病毒受體共來源于13 種哺乳動物,其中人類病毒受體所占比例最高(96/150)(圖1a)。如圖1b 所示,一共有64 種哺乳動物病毒使用兩個或更多病毒受體(其中Nipah henipavirus在人和小鼠中都存在多個病毒受體)。基于這些哺乳動物病毒中每種病毒的共受體蛋白,得到它們的兩兩組合,共形成277種哺乳動物病毒共受體組合。
圖1 哺乳動物病毒受體的分布情況Fig.1 Description of mammalian virus receptors
首先,本研究分析了哺乳動物病毒共受體的結構共性。由于蛋白結構域的結構相對穩(wěn)定、預測方法較為成熟,同時考慮到目前僅有少量哺乳動物病毒受體的蛋白三維結構被解析且還存在空間結構解析不完整的問題,選擇基于Pfam 數據庫中的蛋白結構域分析哺乳動物病毒共受體的結構共性。結果從277 對哺乳動物病毒共受體中發(fā)現,有32 對存在相同的蛋白結構域,其比例為11.6%。如果只考慮這些病毒共受體組合中的人類病毒共受體組合(共249 對),則有22 對存在相同的蛋白結構域,其比例為8.8%。可以看出,僅有少量病毒共受體中存在相同的蛋白結構域。在對照組的結構共性分析中,對照組1(4 456 對非病毒共受體)中僅有151對存在相同的蛋白結構域,其比例為3.4%;在對照組2(隨機選擇的44 850 對人類細胞膜蛋白)和對照組3(隨機選擇的44 850 對人類蛋白)中分別有1 467 對和184 對存在相同的蛋白結構域,其比例分別為3.3%和0.4%。相較于上述的病毒共受體組合,對照組中存在相同蛋白結構域的比例更小。
本研究還進一步統(tǒng)計了上述存在相同蛋白結構域的蛋白組合中相同蛋白結構域的數量?;赑fam 數據庫的分析結果表明,哺乳動物病毒共受體和人類病毒共受體中相同的蛋白結構域數目顯著高于所有對照組(P <0.001 或P <0.05)(圖2)。結果表明,相較于其他蛋白組合,病毒共受體擁有更多相同的蛋白結構域。
圖2 哺乳動物病毒共受體的結構共性分析Fig.2 Analysis of structural commonality of the mammalian virus co-receptor
基于GO 數據庫,本研究比較了哺乳動物病毒共受體的蛋白功能相似性。從生物過程來看,哺乳動物病毒共受體和人類病毒共受體的功能相似性的中位數得分分別為0.283 和0.281,蛋白功能相似性較低。這可能是由于這些病毒共受體彼此分工明確,在病毒入侵宿主細胞的過程中,各病毒受體參與不同的生物過程造成的。在對照組的功能共性分析中,對照組1、2 和3 的功能相似性得分分別為0.208、0.152 和0.111。結果表明,病毒共受體組合在生物過程中的功能相似性均顯著高于所有對照組(P <0.001)(圖3a)。
圖3 哺乳動物病毒共受體的功能共性分析Fig.3 Analysis of function commonality of the mammalian virus co-receptor
從細胞組分來看,哺乳動物病毒共受體和人類病毒共受體的功能相似性中位數得分分別為0.615和0.620,蛋白功能相似性較高,表明這些病毒共受體的分布位置較為相似。在對照組的功能共性分析中,對照組1、2 和3 的功能相似性得分分別為0.594、0.591 和0.446。結果表明,病毒共受體在細胞組分中的功能相似性分別顯著高于對照組1 和對照組3(P <0.05或P <0.001)(圖3b)。
從分子功能來看,哺乳動物病毒共受體和人類病毒共受體的功能相似性中位數得分均為0.475,蛋白功能相似性適中。結合先前的分析[1],這可能是因為病毒受體雖分工明確,但大多均與蛋白結合有關。故這些病毒共受體在分子功能中的功能相似性要高于生物過程。在對照組的功能共性分析中,對照組1、2 和3 的功能相似性得分分別為0.406、0.240 和0.268。結果表明,病毒共受體在分子功能中的功能相似性均顯著高于所有對照組(P <0.001)(圖3c)。
結果表明,參與本研究的150 種哺乳動物病毒受體分別在41~157 種哺乳動物中有同源蛋白,其中有74 種哺乳動物病毒受體在所有哺乳動物中均有同源蛋白(圖4)。例如,人類病毒受體整聯(lián)蛋白β1(integrin beta-1)作為纖連蛋白和骨橋蛋白等多種蛋白的受體,主要負責與蛋白的結合與識別,所有哺乳動物中都有其同源蛋白。從整體上來看,哺乳動物病毒受體平均在150 種哺乳動物中都有對應的同源蛋白。
圖4 哺乳動物病毒共受體的共進化分析Fig.4 Analysis of co-evolution of the mammalian virus co-receptor
基于BLAST 的結果查看了哺乳動物病毒受體與其同源蛋白間的序列一致性。結果表明,兩類蛋白的序列一致性得分在0.458~0.991 之間,平均得分為0.816。其中有99 種哺乳動物病毒受體與其同源蛋白的序列一致性得分高于0.8(圖5)。與先前的研究結果相似[1],隨機挑選的人類細胞膜蛋白和人類蛋白與哺乳動物病毒受體在其他哺乳動物中具有相似的同源蛋白數和序列一致性(圖6)。
圖5 哺乳動物病毒受體及其同源蛋白的序列一致性分析Fig.5 Distribution of the average pairwise sequence identities between mammalian virus receptors and their homologs
圖6 哺乳動物病毒受體的保守性分析Fig.6 Conservation analysis of mammalian virus receptors
基于上述收集的哺乳動物病毒及其同源蛋白,本研究分析了哺乳動物病毒共受體間的共進化程度。哺乳動物病毒共受體和人類病毒共受體的共進化得分分別為0.436 和0.457,共進化程度適中。由此可推測,在病毒入侵宿主細胞的過程中,多個病毒受體的協(xié)同作用使得病毒共受體間的共進化程度獲得提升。在對照組的共進化分析中,對照組1 的共進化得分為0.512,而對照組2 和對照組3的共進化得分分別為0.290 和0.324。結果表明,病毒共受體的共進化程度均顯著高于對照組2 和3(P <0.001),但低于對照組1(圖4),故推測這可能是由于收集的病毒受體數量不足導致的,即對照組1中可能存在真實的病毒共受體組合。
基于STRING 數據庫下載的人類蛋白相互作用網絡,查看了人類病毒共受體間的蛋白相互作用的比例。在人類蛋白相互作用網絡中,249 對人類病毒共受體組合中有88 對存在蛋白相互作用,其比例為35.3%。而在對照組的蛋白相互作用關系中的結果顯示:對照組1(4 311 對非人類病毒共受體組合)中僅有314 對存在蛋白相互作用,其比例為7.3%;在對照組2 和對照組3 中,分別有447 對和153 對存在蛋白相互作用,其比例分別為1.0%和0.3%。由此可推測,這可能是由于病毒受體間協(xié)同作用,使得病毒共受體間存在蛋白作用的比例明顯高于對照組。
基于32 種常見的人體組織,查看了人類病毒共受體的表達共性。人類病毒共受體的共表達得分為0.269,共表達程度較低。在對照組的共表達分析中,對照組1(4 311對非人類病毒共受體組合)的共表達得分為0.237;而對照組2 和3 的共表達得分分別為0.150 和0.239。結果表明,病毒共受體在常見人體組織中的共表達程度均顯著高于所有對照組(P <0.001 或P <0.01)(圖7)。這可能是由于部分病毒共受體組合在宿主蛋白相互作用網絡中存在蛋白相互作用關系,所以這些病毒共受體才需要同步表達滿足彼此間的相互作用。
圖7 人類病毒共受體的共表達分析Fig.7 Analysis of co-expression of the human virus co-receptor
本研究基于迄今為止最為全面且高質量的哺乳動物病毒-受體數據庫ViralReceptor,從結構、功能、進化、組織表達和蛋白相互作用等方面對哺乳動物病毒共受體的特征進行了系統(tǒng)性研究。結果表明,雖然相較于對照組,病毒共受體組合中相同的蛋白結構域數量更多,蛋白功能相似性也更高,但實際上擁有相同的蛋白結構域的病毒共受體比例并不高,僅占11.6%,且病毒共受體在生物過程和分子功能中的功能相似性也并不高。本研究推測,這些病毒共受體間不僅有合作,還存在明確分工。結合先前的研究[1],本研究認為,哺乳動物病毒在尋找蛋白受體時,更傾向于選擇結構和功能多樣性較高、且結構和功能不完全相似的蛋白作為病毒受體,以此增加入侵宿主細胞的多種途徑。
在人類蛋白相互作用網絡中,人類病毒共受體中的蛋白相互作用比例更高,是所有對照組的5 倍以上。這可能是由于病毒入侵宿主細胞的過程較為復雜,所以可能需要多個病毒受體的協(xié)同作用。先前的研究表明,部分病毒受體與其他病毒受體相互作用結合形成蛋白多聚體。例如,由整聯(lián)蛋白α-V(integrin alpha-V)和整聯(lián)蛋白β-3(integrin beta-3)形成的二聚體不僅能夠與肌動蛋白、纖維黏連蛋白等蛋白相互作用,還能作為柯薩奇病毒[25]、皰疹病毒[26]和西尼羅河病毒[27]等病毒的蛋白受體。從實際大小來看,人類細胞的平均直徑約為病毒的100~1 000倍,體積約為病毒的106~109倍;而人類蛋白相對來說則小得多,病毒的平均直徑約為人類蛋白的10~100 倍,體積約為人類蛋白的103~106倍。由此可見,病毒與蛋白受體結合的過程中需要極大的能量,而單個蛋白受體可能無法勝任,需要利用多個蛋白聚合形成的多聚體將病毒聚集至宿主細胞的表面,進而侵染和進入宿主細胞體內。
在常見的32 種人體組織中,人類病毒共受體的共表達水平顯著高于對照組。從結果來看,病毒共受體的共表達水平整體得分較低。本研究推測,這可能是因為病毒在感染不同組織或器官時,使用的病毒受體并不完全相同。然而,目前關于病毒在不同類型的組織或細胞中使用的病毒受體的詳細數據較少,難以進行深入研究。
本研究存在一些局限性。首先,由于絕大部分病毒的受體蛋白尚未解析,導致病毒受體收錄不完整且具有偏向性。根據目前收集的哺乳動物病毒-受體相互作用關系,在142 種哺乳動物病毒中,僅發(fā)現64 種哺乳動物病毒擁有多個病毒受體,其中54 種為人類病毒;而剩余的78 種病毒僅使用一種病毒受體。不排除分析結果可能會受到數據缺失、偏向的影響。而且由于收集的病毒-蛋白受體相關作用關系不足,導致更多病毒共受體尚未發(fā)現或被誤認為非病毒共受體。另外,由于病毒-受體相互作用是一個高度的動態(tài)過程,病毒可能僅需利用部分病毒受體即可成功入侵宿主細胞。但由于已知的病毒共受體相對較少,本研究為了分析更多潛在的病毒共受體組合,將同一種病毒在同一種宿主中使用的多個病毒受體定義為病毒共受體,即收集的部分病毒共受體組合在病毒入侵宿主細胞時可能并不存在共同作用。再者,在哺乳動物病毒共受體的共進化分析中,由于各哺乳動物中原本存在的進化關系,導致分析結果受背景噪音的影響。因此,后續(xù)仍需嘗試使用更好、更快的方法來研究病毒共受體間的共進化。
綜上所述,本研究從結構、功能、進化、組織表達等方面對哺乳動物病毒共受體進行了系統(tǒng)分析,將有助于深入了解病毒共受體的共有特征,并為病毒受體發(fā)現鑒定等研究提供參考。