張婉琪,王哲紅,張瑩鈺,王青青,崔 鑫,朱廣藝,胡建軍
(1.塔里木大學(xué)生命科學(xué)學(xué)院,新疆阿拉爾843300 ; 2.哈密市動(dòng)物疾病預(yù)防與控制中心 ,新疆哈密839000 ; 3.塔里木大學(xué)動(dòng)物科學(xué)學(xué)院,新疆阿拉爾843300 ; 4.哈密市信訪局 ,新疆哈密839000)
僅對(duì)牛乳頭瘤病毒部分基因序列進(jìn)行分析,難以掌握病毒的遺傳特性。因此,本研究從分子水平上對(duì)新疆南疆牛乳頭瘤病毒1型SY-12株進(jìn)行全基因組序列測(cè)定和基因組結(jié)構(gòu)特征分析,為進(jìn)一步開展新疆南疆乳頭狀瘤基因功能研究和疾病疫源追溯提供科學(xué)依據(jù)。
圖4 SY-12基因組結(jié)構(gòu)圖
Fig.4 Structure of complete genomic sequence of the SY-12 strain
A:SY-12株基因組結(jié)構(gòu)示意圖;序列代表上游調(diào)控區(qū)的各結(jié)構(gòu),紅色加粗代表E1結(jié)合位點(diǎn)(AACAAT)EIBS;綠色加粗下劃線代表TATA框(TATAAAA/T);黃色背景代表回文結(jié)構(gòu)(TCGGTGCACCGA);藍(lán)色加粗下劃線代表核因子結(jié)合位點(diǎn)NF-1(TTGGCA);方框內(nèi)代表多腺苷酸化信號(hào)PolyA(AATAAA);加粗下劃線代表E2結(jié)合位點(diǎn)(E2BS)的共有序列(ACC-N6-GGT);雙下劃線代表6T串聯(lián)區(qū)(TTTTTT);灰色背景波浪線代表6A串聯(lián)區(qū)(AAAAAA)
A: Genomic structure of SY-12. The sequences represent the structures of the upstream regulatory region. Bold and red texts denote the E1 binding site (AACAAT). Bold and green texts denote the TATA box (TATAAAA/T). Shaded boxes of yellow denote the palindrome structure (TCGGTGCACCGA). Bold and blue texts denote the NF-1 (TTGGCA). The rectangle denotes polyadenylation signals (AATAAA). Bold and underline denotes the E2 binging motif (ACC-N6-GGT). A double underline denotes the series of TTTT. Wavy lines and shaded boxes denote the series of AAAAAA
1.1 材料 試驗(yàn)樣品的采集來源于新疆南疆某養(yǎng)殖戶患病牛,-20 ℃保存?zhèn)溆玫?0%甘油磷酸緩沖液中保存樣品。
1.2 引物設(shè)計(jì) 通用引物MY11和MY09作為BPV基因分型擴(kuò)增引物[3],以NC001522和X02346為參考序列設(shè)計(jì)全基因擴(kuò)增引物,引物序列如表1所示,所有引物序列均由生工生物工程(上海)股份有限公司合成。
表1 擴(kuò)增引物Table 1 Specific primers
1.3 PCR反應(yīng)體系 采用20 μL PCR擴(kuò)增反應(yīng)體系:模板DNA 1.0 μL,ddH2O 15.5 μL,2×LA Buffer 2.0 μL,引物Primer F(10 mmol/L)0.4 μL,引物Primer R(10 mmol/L)0.4 μL。反應(yīng)條件:95 ℃預(yù)變性3 min;95 ℃變性30 s;54 ℃退火45 s;72 ℃每kb延伸1 min;32個(gè)循環(huán),72 ℃延伸10 min。PCR擴(kuò)增產(chǎn)物經(jīng)1.5%瓊脂糖凝膠電泳檢測(cè),確定擴(kuò)增片段大小。
1.4 PCR產(chǎn)物純化回收測(cè)序 取PCR切膠回收產(chǎn)物,參照AxyPrep DNA凝膠回收試劑盒說明書純化回收PCR產(chǎn)物,并送北京金諾銳杰基因科技有限公司測(cè)序。
1.5 數(shù)據(jù)的拼接及序列分析 測(cè)序序列在NCBI中進(jìn)行BLAST, MEGA6.0軟件鄰近法進(jìn)行系統(tǒng)發(fā)育分析,并繪制遺傳進(jìn)化樹。
2.1 SY-12株全基因組PCR擴(kuò)增 根據(jù)GenBank中BPV-1參考毒株序列(NC001522和X02346),設(shè)計(jì)擴(kuò)增引物,對(duì)新疆南疆SY-12流行株進(jìn)行全基因組擴(kuò)增,得到1個(gè)大的擴(kuò)增片段,以1.5%的瓊脂糖凝膠電泳分離得到約為7 800 bp的大片段,結(jié)果見圖1。
圖1 PCR 擴(kuò)增SY-12株全基因組的電泳結(jié)果
Fig.1 PCR amplification for the completegenome of the SY-12 strainM:DL-10 000 Marker; 1:陰性對(duì)照; 2:目的片段
M: DL-10 000 Marker; 1: Negative control; 2: Target fragment
2.2 SY-12株全基因組測(cè)序同源性分析 使用DNASTAR.Lasergene.v7.1對(duì)測(cè)序數(shù)據(jù)進(jìn)行拼接,得到SY-12株全基因組序列(登錄號(hào)為KX907623.1),全長為7 946 bp,A+T含量為54.76%,G+C含量為45.24%。使用DNASTAR MegAlign的Clustal W Method對(duì)SY-12株全基因組與BPV參考毒株序列全基因組比較分析,SY-12株與BPV-1型參考株(X02346和NC001522)的核苷酸同源性達(dá)到99.4%和99.4%,與BPV-2型參考株(PPB2CG和KC878306)的核苷酸同源性均達(dá)到了87.1%,與BPV-13型參考株(JQ798171)的核苷酸同源性達(dá)到了85.7%,見圖2。
其中,Wij為空間權(quán)重,表示地區(qū)i與地區(qū)j二者的位置關(guān)系;n為觀察值的數(shù)目;yi和yj分別代表樣本i和j所處地點(diǎn)的觀察值為樣本點(diǎn)的平均值。
2.3 BPV不同基因型系統(tǒng)進(jìn)化樹的構(gòu)建 依據(jù)BPV基因組中最保守的,并被廣泛用于基因分型的,負(fù)責(zé)編碼主要外殼蛋白的L1基因?yàn)榛鶞?zhǔn)[4-5]。以不同基因型BPV的L1基因?yàn)閰⒄招蛄?,?yīng)用MegAlign軟件對(duì)SY-12株與BPV不同基因型的L1基因序列進(jìn)行同源性分析,采用MEGA 6軟件建立相應(yīng)的系統(tǒng)進(jìn)化樹,見圖3。
圖2 BPV全基因組序列同源性分析
Fig.2 Homology analysis of the complete genomic sequence of BPV
圖3L1基因序列構(gòu)建的不同基因型BPV系統(tǒng)進(jìn)化樹
Fig.3 Phylogenetic tree inferred from theL1 nucleotidesequences of different genotypes of BPV▲: 代表SY-12株 ▲:Refers to SY-12 strain
從進(jìn)化樹上可以看出:SY-12株與BPV-1參考株(X01346和NC-001522.1)位于同一進(jìn)化分支上,均為BPV-1基因型。同時(shí),與參考株BPV-2型(PPB2CG和KC878306)、BPV-13型(JQ798171)同屬Delta屬。BPV-5(AF457465)和BPV-8(DQ098913)屬于Epsilon屬;BPV-3(AF486184),BPV-4(X05817),BPV-6(AJ620208),BPV-9(AB331650),BPV-10(AB331651),BPV-11(AB543507)和BPV-12(JF834523)同屬Xi屬,以及還未被定義的PV屬BPV-7(NC-007612)。
2.4 SY-12株與參考株全基因組核苷酸序列差異比較 通過對(duì)SY-12株全基因組與BPV-1型參考株(X01346和NC-001522.1)比較分析,在4 094~4 375 nt和7 643~7 916 nt之間核苷酸序列有較大差異,見表2、表3。
2.5 SY-12株與參考株核苷酸和氨基酸同源性分析 將SY-12株與同屬各參考株,BPV-1型參考株(X01346和NC-001522.1)、BPV-2型參考株(PPB2CG和KC878306.1)和BPV-13型參考株(JQ798171)功能基因片段E1、E2、E4、E5、E6、E7、L1和L2的核苷酸、氨基酸分別進(jìn)行核苷酸與氨基酸同源性比較。結(jié)果見表4、表5。
表2 4 094~4 375 nt核苷酸差異Table 2 Nucleotide difference of 4 094~4 375 nt
表3 7 643~7 916 nt核苷酸差異Table 3 Nucleotide difference of 7 643~7 916 nt
表4 SY-12株與參考株核苷酸同源性比較分析Table 4 Comparison and analysis of nucleotide homology between SY-12 strain and reference strains (%)
表5 SY-12株與參考株氨基酸同源性比較分析Table 5 Comparison and analysis of amino acid homology between SY-12 strain and reference strains (%)
2.6 SY-12株全基因組結(jié)構(gòu)分析 SY-12株全基因組序列與GenBank中BPV-1型參考株全基因組結(jié)構(gòu)進(jìn)行比較分析,SY-12株含有BPV-1基因型所具有的結(jié)構(gòu)特征,包括3個(gè)區(qū)域,非編碼區(qū)(Non-coding region),即病毒復(fù)制轉(zhuǎn)錄必要元件的上游調(diào)控區(qū)(URR)或長控區(qū)(Long control region,LCR區(qū)),早期轉(zhuǎn)錄區(qū)(E區(qū)),含6個(gè)開放讀碼框(ORFs);負(fù)責(zé)編碼衣殼蛋白的晚期基因區(qū)(L區(qū)),含L1和L2兩個(gè)ORFs[6-8]。
通過與BPV-1型參考序列比對(duì),提交BPV-1型SY-12株全基因組序列至GenBank,獲得登錄號(hào)為KX907623.1。各功能基因位置如下:91~504 nt為E6基因,479~862 nt為E7基因,849~2 666 nt為E1基因,2 608~3 840 nt為E2基因,3 191~3 529 nt為E4基因,3 879~4 013 nt為E5基因,4 187~5 596 nt為L2基因,5 609~7 096 nt為L1基因;其余則為非編碼區(qū)即病毒復(fù)制轉(zhuǎn)錄的上游調(diào)控區(qū)和長控區(qū),并且基因組缺失E3和E8基因。
在早期轉(zhuǎn)錄區(qū),SY-12株基因組的E區(qū)含有6個(gè)開放閱讀框,分別為E6、E7、E1、E2、E4和E5,其中E6、E7和E1基因有部份重疊,E4完全在E2中,在3 191~3 529 nt。結(jié)構(gòu)圖見中插彩版圖4,具體分析如下。
分析SY-12株全基因組序列,具有E1結(jié)合位點(diǎn)(AACAAT)EIBS,即非編碼區(qū)4~9 nt和長控區(qū)6 557~6 562 nt;在SY-12株全基因組序列具有TATA框(TATAAAA/T),即非編碼區(qū)58~64 nt和7 109~7 115 nt;在SY-12株全基因組序列具有回文結(jié)構(gòu)即BPV非編碼區(qū)增強(qiáng)子的序列TCGGTGCACCGA,7 627~7 638 nt;在SY-12株全基因組序列中具有4個(gè)核因子結(jié)合位點(diǎn)NF-1(TTGGCA),即位于E6基因282~287 nt、E4基因3 469~3 474 nt、L2基因4 732~4 737 nt和非編碼區(qū)7 326~7 331 nt處;在SY-12株全基因組序列中存在4個(gè)多腺苷酸化信號(hào)PolyA(AATAAA),即晚期轉(zhuǎn)錄區(qū)4 180~4 185 nt和6 434~6 439 nt處,非編碼區(qū)7 092~7 097 nt和7 156~7 161 nt處。
在SY-12株全基因組序列中存在10個(gè)E2結(jié)合位點(diǎn)(E2BS)的共有序列ACC-N6-GGT[9],即位于早期轉(zhuǎn)錄區(qū)基因E1的2 396~2 407 nt處,非編碼區(qū)的7 203~7 214 nt、7 365~7 376 nt、7 408~7 419 nt、7 510~7 521 nt、7 591~7 602 nt、7 620~7 631 nt、7 760~7 771 nt、7 781~7 792 nt、7 896~7 907 nt。
在SY-12株全基因組序列中存在19個(gè)6T串聯(lián)區(qū)(TTTTTT),即非編碼區(qū)26~31 nt處,位于早期轉(zhuǎn)錄區(qū)基因E1的1 455~1 460 nt、1 889~1 894 nt、2 048~2 053 nt、2 049~2 054 nt、2 192~2 197 nt、2 546~2 551 nt、2 547~2 552 nt,位于早期轉(zhuǎn)錄區(qū)基因E5的3 957~3 962 nt,位于晚期轉(zhuǎn)錄區(qū)基因L2的4 123~4 128 nt,跨L2基因與非編碼區(qū)的5 597~5 602 nt,位于非編碼區(qū)的5 598~5 603 nt和5 599~5 604 nt,位于晚期轉(zhuǎn)錄區(qū)基因L1的5 703~5 708 nt和6 338~6 343 nt,位于非編碼區(qū)的7 438~7 443 nt、7 439~7 444 nt、7 440~7 445 nt、7 924~7 929 nt。
在SY-12株全基因組序列中存在23個(gè)六A串聯(lián)區(qū)(AAAAAA),位于非編碼區(qū)的40~45 nt,位于早期轉(zhuǎn)錄區(qū)基因E6的384~389 nt,位于早期轉(zhuǎn)錄區(qū)基因E1的1 510~1 515 nt、2 120~2 125 nt、2 121~2 126 nt、2 122~2 127 nt、2 123~2 128 nt,位于早期轉(zhuǎn)錄區(qū)基因E2的2 749~2 754 nt,位于晚期轉(zhuǎn)錄區(qū)基因L2的5 575~5 580 nt、5 576~5 581 nt,位于晚期轉(zhuǎn)錄區(qū)基因L1的6 166~6 171 nt、7 056~7 061 nt、7 078~7 083 nt、7 079~7 084 nt、7 080~7 085 nt、7 081~7 086 nt、7 082~7 087 nt、7 083~7 088 nt、7 084~7 089 nt、7 085~7 090 nt、7 086~7 091 nt、7 087~7 092 nt、7 088~7 093 nt。
SY-12株氨基酸序列中,E6和E7蛋白的氨基酸序列中出現(xiàn)典型的鋅指結(jié)構(gòu)(CX2CX29CX2C)[10],E2蛋白缺乏亮氨酸拉鏈結(jié)構(gòu)(LX6LX6LX6LX6L)[11]。
乳頭瘤病毒(Papilloma Virus,PV)是一類閉合環(huán)狀的[12]DNA致瘤病毒,BPV是PV家族成員之一[13]。根據(jù)對(duì)BPV核苷酸同源性分析,已確定BPV有13個(gè)基因型以及若干未分類的假定基因型,而這些牛乳頭狀瘤病毒主要包含在4個(gè)不同的屬內(nèi):Delta屬、Epsilon屬、Xi屬以及還未被定義的PV屬(BPV-7)。本試驗(yàn)依據(jù)1對(duì)通用引物對(duì)新疆南疆某農(nóng)戶的患牛病料進(jìn)行了病毒的PCR法檢測(cè),檢測(cè)結(jié)果為牛乳頭狀瘤病毒基因1型。采用特異性擴(kuò)增引物和測(cè)序引物對(duì)SY-12株全基因組序列進(jìn)行測(cè)序,成功克隆BPV-1-SY-12的全長序列,SY-12株全基因組與BPV參考毒株序列全基因組核苷酸序列比較分析顯示,BPV-1型SY-12株與參考株BPV-1型(X01346和NC-001522.1)、BPV-2型參考株(PPB2CG和KC878306.1)和BPV-13型(JQ796171)的核苷酸同源性達(dá)到了99.4%、99.4%、87.1%、87.1%和85.7%,并同屬Delta屬。結(jié)果顯示,SY-12株全基因組與BPV-1參考毒序列核苷酸序列存在著部分差異,但是新疆南疆SY-12株可能與BPV1-X01346和BPV1-NC-001522.1流行株具有相同的來源。
對(duì)BPV-1-SY-12全基因組序列分析,全基因組長為7 946 bp,GC%含量為45.24%,共有8個(gè)開放閱讀框,即6個(gè)早期編碼區(qū)和2個(gè)晚期編碼區(qū)依次為E6、E7、E1、E2、E4、E5、和L1、L2。其中E6與E7基因部分片段重疊,E7和E1基因部分重疊,E1和E2基因部分重疊,E4基因完全包含在E2基因內(nèi)。
對(duì)SY-12全基因組分析,在早期轉(zhuǎn)錄區(qū)存在2個(gè)核因子結(jié)合位點(diǎn)NF-1(TTGGCA),在晚期轉(zhuǎn)錄區(qū)和上游調(diào)控區(qū)各有1個(gè)核因子結(jié)合位點(diǎn)NF-1(TTGGCA),在非編碼區(qū)和長控區(qū)各有1個(gè)E1結(jié)合位點(diǎn)(AACAAT)EIBS,在非編碼區(qū)和上游調(diào)控區(qū)各具有1個(gè)TATA框(TATAAAA/T),在上游調(diào)控區(qū)具有BPV非編碼區(qū)增強(qiáng)子的序列TCGGTGCACCGA即回文結(jié)構(gòu),在晚期轉(zhuǎn)錄區(qū)中存在2個(gè)多腺苷酸化信號(hào)PolyA(AATAAA),在上游調(diào)控區(qū)存在2個(gè)多腺苷酸化信號(hào)PolyA(AATAAA)。
在SY-12株全基因組序列中存在10個(gè)E2結(jié)合位點(diǎn)(E2BS)的共有序列ACC-N6-GGT,主要位于早期轉(zhuǎn)錄區(qū)和上游調(diào)控區(qū)[14-15]。在SY-12株全基因組序列中存在多個(gè)6T串聯(lián)區(qū)(TTTTTT)和6A串聯(lián)區(qū)(AAAAAA),并且在SY-12株氨基酸序列中,在E6和E7蛋白的氨基酸序列中均出現(xiàn)典型的鋅指結(jié)構(gòu)(CX2CX29CX2C)[10]。目前認(rèn)為該結(jié)構(gòu)是細(xì)胞內(nèi)核酸結(jié)合蛋白所具備的特異性結(jié)構(gòu),因而認(rèn)為E6、E7蛋白是DNA結(jié)合蛋白,可以調(diào)節(jié)基因的活性,進(jìn)一步影響宿主細(xì)胞的增殖和分化,使該過程失去控制而形成腫瘤[10,15]。
目前對(duì)牛乳頭瘤病毒的研究多集中針對(duì)功能基因和基因型鑒定的方向,隨著分子生物學(xué)的發(fā)展,從分子水平上闡明乳頭狀瘤病毒不同基因型和基因結(jié)構(gòu)成為可能。新疆南疆SY-12流行株全基因組序列的測(cè)定,對(duì)我國以及新疆地區(qū)的牛乳頭狀瘤的病原鑒定、流行規(guī)律和遺傳演化起到重要的作用。