竇懷乾, 李仰平, 呂 佳, 竇錦壯, 李語(yǔ)麗, 王 師,2**
(1.中國(guó)海洋大學(xué)海洋生物遺傳學(xué)與育種教育部重點(diǎn)實(shí)驗(yàn)室,山東 青島 266003;2.海洋生物學(xué)與技術(shù)功能實(shí)驗(yàn)室,青島海洋科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,山東 青島 266237)
蝦夷扇貝(Patinopectenyessoensis)于1980年代初由日本引入中國(guó)[1],并在山東、遼寧等北方沿海地區(qū)進(jìn)行大規(guī)模人工養(yǎng)殖。目前已在渤海及黃海北部形成規(guī)模化和產(chǎn)業(yè)化養(yǎng)殖,成為中國(guó)北方最重要的海水養(yǎng)殖貝類(lèi)之一[2]。
近幾年,隨著二代高通量測(cè)序技術(shù)(Next generation sequencing, NGS)技術(shù)快速的發(fā)展,組學(xué)研究成為了當(dāng)前的熱點(diǎn)。目前,利用高通量測(cè)序技術(shù)已經(jīng)完成了許多海洋軟體動(dòng)物基因組的測(cè)序和拼接,例如:馬氏珠母貝(Pinctadafucata)[3]、太平洋牡蠣(Crassostreagigas)[4]、帽貝(Lottiagigantea)[5]、章魚(yú)(Octopusbimaculoides)[6]、蝦夷扇貝(Patinopectenyessoensis)[7]等。在基因組拼接的過(guò)程中,物理圖譜是一個(gè)最重要的輔助完成全基因組拼接,提高基因組拼接水平的工具之一。物理圖譜基于逐步克隆(Clone-by-clone)的策略[8]獲得各個(gè)克隆的相對(duì)位置;其與基因組草圖結(jié)合,能對(duì)基因組中的重復(fù)序列和拼接斷點(diǎn)等區(qū)段進(jìn)行修正和連接,不僅能顯著提升拼接的效果,更能對(duì)拼接得到的基因組進(jìn)行校正。
利用Fosmid大片段文庫(kù)已完成多個(gè)物種物理圖譜的構(gòu)建,如:人(Homosapiens)[9]、大猩猩(Gorillagorilla)[10]、水稻(Oryzasativa)[11]、長(zhǎng)臂猿(Nomascusleucogenys)[12]、甜菜(Betavulgaris)[13]等。這種方法在海洋生物中也有廣泛的應(yīng)用,例如海鞘(Botryllusschlosseri)[14],半滑舌鰨(Cynoglossussemilaevis)[15]、斑節(jié)對(duì)蝦(Penaeusmonodon)[16],櫛孔扇貝(Chlamysfarreri)[17]等。構(gòu)建物理圖譜的方法有SNaPshot技術(shù)[18]、BioNano[19]、OpticalMap[20]、WGP技術(shù)等[21],而WGP (Whole genome profiling,全基因組解析)物理圖譜是一種基于大片段克隆文庫(kù)混池策略及克隆特異序列標(biāo)簽的新型物理圖譜構(gòu)建方法。它利用克隆間標(biāo)簽序列的特異性來(lái)確定克隆的重疊關(guān)系,排除了DNA指紋技術(shù)酶切條帶大小差異產(chǎn)生的誤差,提高了精度和可靠性;與高通量測(cè)序結(jié)合,不需要對(duì)酶切片段進(jìn)行電泳,極大簡(jiǎn)化了實(shí)驗(yàn)操作步驟。利用WGP法,van Oeveren等完成了擬南芥(Arabidopsisthaliana)物理圖譜[21]的構(gòu)建。以擬南芥BAC文庫(kù)6 144個(gè)克隆為材料,采用EcoRI/MseI兩種限制性?xún)?nèi)切酶獲取標(biāo)簽,最終解碼4 599個(gè)克隆,克隆解碼率為74.8%;構(gòu)建完成的物理圖譜實(shí)現(xiàn)了98%的標(biāo)簽準(zhǔn)確排序,覆蓋了97%的基因組。Nicolas Sierro等利用WGP法構(gòu)建了煙草的物理圖譜[22],對(duì)425 088個(gè)BAC克隆,采用EcoRI/MseI兩種限制性?xún)?nèi)切酶獲取標(biāo)簽,成功解碼361 034個(gè),解碼率84.9%。
在利用WGP法進(jìn)行物理圖譜構(gòu)建時(shí),實(shí)驗(yàn)中的克隆混池策略,即多少?gòu)埌?克隆)混合在一起,是物理圖譜構(gòu)建的關(guān)鍵。在選定的混合尺度下,既需要控制混合的克隆數(shù)目,保證能夠獲得高克隆解碼率,又需要能盡可能多的混合克隆,來(lái)平衡測(cè)序的成本。因此,在進(jìn)行WGP法物理圖譜構(gòu)建之前,對(duì)克隆混池策略及解碼率進(jìn)行研究,就顯得尤為重要。本實(shí)驗(yàn)室于近期完成了蝦夷扇貝基因組圖譜[7]的繪制工作,但基因組的高復(fù)雜度及高重復(fù)序列含量,使得某些區(qū)段會(huì)產(chǎn)生拼接的錯(cuò)誤,物理圖譜便可以對(duì)這些錯(cuò)誤的拼接進(jìn)行校正[23]。因此本研究基于構(gòu)建完成的蝦夷扇貝Fosmid大片段文庫(kù),對(duì)4、8、12、16張384孔培養(yǎng)板混合尺度下Fosmid克隆解碼率進(jìn)行了分析,為后期采用WGP法構(gòu)建蝦夷扇貝物理圖譜提供了混池和解碼方案的參考。
1.1.1 實(shí)驗(yàn)材料 實(shí)驗(yàn)材料為新鮮蝦夷扇貝活體解剖后,保存于-80 ℃超低溫冰箱的肉柱(橫紋肌)。試劑盒為Epicentre CopyControlTMFosmid 文庫(kù)構(gòu)建試劑盒。
1.1.2 蝦夷扇貝基因組DNA的提取及末端修復(fù) 蝦夷扇貝的DNA采用酚/氯仿抽提法提取,使用1%瓊脂糖凝膠電泳檢測(cè)DNA完整性,并利用核酸蛋白質(zhì)檢測(cè)儀(NanoVue spectrophotometer, General Electric)檢測(cè)A260/A280、A260/A230以及DNA濃度,確保樣品合格。然后對(duì)基因組DNA進(jìn)行末端修復(fù),以保證片段和載體連接效率。反應(yīng)的組分如下:20 μg DNA x μL,End-Repair 10×Buffer 8 μL,0.25 mol/L dNTPs 8 μL,1 mmol/L ATP 8 μL,End-Repair Enzyme Mix 4 μL,ddH2O (52-x) μL。22 ℃恒溫45 min,加入Loading Buffer后,70 ℃,滅活10 min。
1.1.3 目的片段回收及目的片段與載體連接 末端修復(fù)的產(chǎn)物,經(jīng)脈沖場(chǎng)凝膠電泳進(jìn)行目的片段的回收,具體方法如下:采用線(xiàn)性自動(dòng)程序,20~60 kb輸入片段大小,0.5×TBE電泳液,電泳16 h;EB染色10 min,根據(jù)Marker位置,切取40 kb大小的目的片段,經(jīng)Epicentre CopyControlTMFosmid試劑盒進(jìn)行目的片段的回收;然后將目的片段和試劑盒中提供的載體(CopyControl pCC1FOSTM)進(jìn)行連接。
連接反應(yīng)10 μL,體系如下:0.25 μg插入片段6 μL,10×Fast-Link連接緩沖液1 μL,10 mmol/L ATP 1 μL,pCC1FOS 載體(0.5 μg/μL)1 μL,F(xiàn)ast-Link DNA連接酶(試劑盒內(nèi)置)1 μL。置于PCR儀(Bio-Rad),22 ℃恒溫2 h;70 ℃滅活10 min。
1.1.4 質(zhì)粒包裝與噬菌體轉(zhuǎn)導(dǎo) 將連接產(chǎn)物與試劑盒中的MaxPlax Lambda Packaging Extracts包裝蛋白進(jìn)行包裝,每次25 μL,連續(xù)包裝2次。待包裝完成之后,補(bǔ)加25 μL氯仿和940 μL噬菌體稀釋緩沖液(PDB)混勻,然后取10 μL混合樣與提前準(zhǔn)備好的A600在0.8~1.0的宿主菌(試劑盒提供)100 μL進(jìn)行噬菌體的轉(zhuǎn)導(dǎo),可同時(shí)轉(zhuǎn)導(dǎo)多個(gè)樣品。
1.1.5 克隆的培養(yǎng)及獲取 將多個(gè)上述110 μL混合體系分別涂布到LB固體平板(氯霉素12.5 μg/mL)進(jìn)行克隆培養(yǎng)。在克隆生長(zhǎng)到合適大小,利用滅菌牙簽將克隆逐一挑取到無(wú)菌且添加了400 μL(氯霉素12.5 μg/mL)液態(tài)LB的96孔深孔板中。37 ℃過(guò)夜培養(yǎng),然后添加甘油,至終濃度為20%,混勻之后轉(zhuǎn)移到384孔板中保存。至此,即完成蝦夷扇貝Fosmid文庫(kù)的構(gòu)建。
在WGP測(cè)序文庫(kù)構(gòu)建之前,以實(shí)驗(yàn)室的蝦夷扇貝基因組數(shù)據(jù)為基礎(chǔ),利用計(jì)算機(jī)進(jìn)行混合克隆數(shù)目的模擬。具體方式如下:蝦夷扇貝基因組大小約1 Gb,用BsaXI和FspEI兩種酶進(jìn)行酶切;從基因組中隨機(jī)獲得384N(N=1,2…24)個(gè)40 kb片段,一個(gè)片段即代表一個(gè)克隆,模擬克隆在384孔培養(yǎng)板中的分布分別進(jìn)行行池、列池、板池的編號(hào);獲得相應(yīng)倍數(shù)下,片段內(nèi)的BsaXI和FspEI兩種酶酶切標(biāo)簽總和,并統(tǒng)計(jì)標(biāo)簽唯一位置出現(xiàn)的概率,獲得混池策略的模擬結(jié)果。
在具體的實(shí)驗(yàn)中,需要在384培養(yǎng)板混合數(shù)目和解碼率兩者之間進(jìn)行取舍。更少的板數(shù)混合會(huì)獲得更高的解碼率,但實(shí)驗(yàn)通量較小,單一混合樣本包含的克隆數(shù)目較少,為了獲得特定的覆蓋度,測(cè)序的成本會(huì)增加。反之,更多的板數(shù)混合雖然會(huì)帶來(lái)解碼率的降低,但能在單一樣本的測(cè)序中包含更多的克隆數(shù)目,降低測(cè)序的成本。所以實(shí)驗(yàn)中需要選擇合適的混合尺度來(lái)平衡解碼率和混合尺度相關(guān)連的測(cè)序成本。
1.3.1 實(shí)驗(yàn)材料 實(shí)驗(yàn)材料為構(gòu)建完成的蝦夷扇貝Fosmid文庫(kù)克?。罕4嬗?80 ℃超低溫冰箱,共計(jì)320張384孔培養(yǎng)板,122 880個(gè)克隆。實(shí)驗(yàn)開(kāi)始前,挑取384孔板中的克隆置于96孔培養(yǎng)板中進(jìn)行活化。
實(shí)驗(yàn)中對(duì)超級(jí)池,行池,列池的界定如下。以8張為例:超級(jí)池:8 張 384 孔培養(yǎng)板的克隆。二級(jí)池:8 張 384 孔培養(yǎng)板疊在一起的行和列的克隆,稱(chēng)行池和列池(16行24列)。板池:每張 384 孔培養(yǎng)板對(duì)應(yīng)的克隆。這樣每 8 張 384 孔培養(yǎng)板中,就包括了 1 個(gè)超級(jí)池,16 個(gè)行池,24 個(gè)列池,8 個(gè)板池,共 49 個(gè)池。該研究構(gòu)建了4、8、12、16張384 孔培養(yǎng)板為單位的4個(gè)混合尺度共200個(gè)池。
1.3.2 質(zhì)粒提取 用堿裂解法[24]提取通過(guò)混合克隆獲得的每個(gè)行池、列池、板池的質(zhì)粒DNA(共200個(gè)樣品),使用1 %瓊脂糖凝膠電泳檢測(cè)質(zhì)粒DNA完整性,并利用核酸蛋白質(zhì)檢測(cè)儀檢測(cè)A260/A280、A260/A230以及DNA濃度,確保樣品合格。然后統(tǒng)一稀釋至200 ng/μL,以便后續(xù)實(shí)驗(yàn)使用。
1.3.3 2b-RAD測(cè)序文庫(kù)構(gòu)建 將提取的Fosmid克隆質(zhì)粒進(jìn)行2b-RAD測(cè)序文庫(kù)的構(gòu)建[25]。本研究采用了限制型內(nèi)切酶BsaXI,和修飾依賴(lài)型內(nèi)切酶FspEI兩種酶,進(jìn)行固定標(biāo)簽長(zhǎng)度的2b-RAD型文庫(kù)的構(gòu)建。
(1) 限制性?xún)?nèi)切酶酶切
BsaXI(New England Biolabs)酶切體系15 μL,組成如下:質(zhì)粒DNA 1 μL,Buffer 4 1.5 μL,BsaXI 2 μL,ddH2O 11.5 μL。設(shè)置酶切反應(yīng)空白對(duì)照組,內(nèi)切酶用同等體積 ddH2O 替代,其余組分同實(shí)驗(yàn)組一致。37 ℃恒溫孵育3 h。取2 μL樣品,1%瓊脂糖檢測(cè)DNA條帶是否被切開(kāi)。
FspEI酶在酶切之前,需要利用M.SssI酶對(duì)質(zhì)粒DNA進(jìn)行預(yù)處理,使其所有CG位點(diǎn)全部轉(zhuǎn)化成可被FspEI識(shí)別的甲基化酶切位點(diǎn)。具體反應(yīng)體如下:M.SssI(New England Biolabs)反應(yīng)體系20 μL,組成如下:質(zhì)粒DNA 1 μL,10×Buffer-2 2 μL,10×SAM 2 μL,M.SssI 1 μL,ddH2O 14 μL。37 ℃恒溫孵育1 h,65 ℃滅活20 min。
FspEI(New England Biolabs)酶切體系30μL,組成如下:M.SssI處理產(chǎn)物10 μL,10×CutSmart Buffer 3 μL,30×Enzyme Activator Solution 1 μL,F(xiàn)spEI 1 μL,ddH2O 15 μL。設(shè)置酶切反應(yīng)空白對(duì)照組,內(nèi)切酶用同等體積 ddH2O 替代,其余組分同實(shí)驗(yàn)組一致。37 ℃恒溫3 h, 80 ℃滅活20 min。取2 μL樣品,1%瓊脂糖檢測(cè)DNA條帶是否被切開(kāi)。
(2) 接頭連接
利用T4 DNA連接酶在BsaXI酶切標(biāo)簽兩端連接Illumina 測(cè)序平臺(tái)特異接頭Ad1(Slx-MpAd1-NNN)和Ad2(Slx-MpAd2-NNN)[25];而FspEI標(biāo)簽兩端連接的接頭為Ad1(Slx-MpAd1-NNNN)和Ad2(Slx-MpAd2-NNNN)。
T4連接反應(yīng)體系22 μL,組成如下:酶切產(chǎn)物DNA 10 μL,ATP (10 mmol/L) 2 μL,Ad1(5 μmol/L) 0.8 μL,Ad2(5 μmol/L) 0.8 μL,T4 ligase buffer 2.2 μL,T4 ligase 2 μL。4 ℃恒溫過(guò)夜。
(3) 1stPCR擴(kuò)增
用Phusion高保真DNA聚合酶(New England Biolabs)和Illumina測(cè)序平臺(tái)特定引物1stP1(Slx-1st-MpPrimer-1) 和1stP2(Slx-1st-MpPrimer-2)對(duì)連接過(guò)接頭的標(biāo)簽進(jìn)行一輪PCR擴(kuò)增,來(lái)增加標(biāo)簽的數(shù)目。
1stPCR擴(kuò)增體系20 μL,組成如下:連接產(chǎn)物7 μL,5×H buffer 4 μL,dNTPs(10 mmol/L) 0.6 μL,1stP1(10 mmol/L)0.4 μL,1stP2(10 mmol/L) 0.4 μL,Phusion DNA Polymerases 0.2 μL,ddH2O 7.4 μL。PCR條件如下:(98 ℃ 5 s, 60 ℃ 20 s, 72 ℃ 10 s),14個(gè)循環(huán),72 ℃延伸10 min。
(4) 1stPCR產(chǎn)物回收
1stPCR產(chǎn)物經(jīng)10%非變性聚丙烯酰胺凝膠300 V/60 min電泳后,回收約100 bp的目標(biāo)片段。充分研磨膠塊,加入40 μL ddH2O,4 ℃透析過(guò)夜。天根CA2柱過(guò)濾回收獲得1stPCR產(chǎn)物。
(5) 2ndPCR擴(kuò)增
提純后的1stPCR產(chǎn)物與二輪擴(kuò)增引物 2ndP1(Slx-2nd-MpPrimer)和2ndP2(Slx-index-Barcode進(jìn)行第二輪PCR擴(kuò)增,用來(lái)引入Barcode序列。(2ndP2中含有一段Barcode序列,能夠在平行測(cè)序中區(qū)分來(lái)自不同樣品的標(biāo)簽)。
2ndPCR擴(kuò)增體系20 μL,組成如下:1stPCR產(chǎn)物3 μL,5×H buffer 4 μL,dNTPs(10 mmol/L) 0.6 μL,2ndP1(10 mmol/L) 0.2 μL,2ndP2(10 mmol/L) 0.2 μL,Phusion DNA Polymerases 0.2 μL,ddH2O 11.8 μL。PCR條件如下:(98 ℃ 5 s, 60 ℃ 20 s, 72 ℃ 10 s),7個(gè)循環(huán),72 ℃延伸10 min。
(6)產(chǎn)物純化
采用QIAquick PCR Purification Kit (QIAGEN) 純化試劑盒純化PCR產(chǎn)物,35 μL的ddH2O洗脫DNA。
(7)文庫(kù)測(cè)序
構(gòu)建完成的2b-RAD測(cè)序文庫(kù),采用Illumina HiSeq 2000 平臺(tái)進(jìn)行單末端測(cè)序(36SE)。
1.3.4 測(cè)序數(shù)據(jù)的分析 測(cè)序獲得的數(shù)據(jù)利用本實(shí)驗(yàn)室開(kāi)發(fā)的RADtyping[26]軟件進(jìn)行分析,詳細(xì)步驟如下:
(1)質(zhì)量過(guò)濾:將原始測(cè)序文件中,含N及堿基平均質(zhì)量低于30的序列去除。
(2)文庫(kù)劃分:根據(jù)序列中添加的Barcode(2ndP2),將來(lái)自相同行池,列池的標(biāo)簽分到一起。
(3)提取BsaXI和FspEI標(biāo)簽:根據(jù)兩種酶的酶切位點(diǎn)提取酶切標(biāo)簽。
(4)去除污染標(biāo)簽:將提取到的酶切標(biāo)簽分別與宿主細(xì)菌基因組序列和載體序列比對(duì),并去除比對(duì)上的污染標(biāo)簽。
(5)標(biāo)簽聚類(lèi):對(duì)得到的標(biāo)簽無(wú)錯(cuò)配的聚類(lèi),只保留出現(xiàn)大于等于2次的標(biāo)簽,去除可能測(cè)序錯(cuò)誤數(shù)據(jù)。
(6) 解碼克?。焊鶕?jù)1.3.1中的混池策略,解碼標(biāo)簽(克隆)。解碼規(guī)則如下:a在對(duì)應(yīng)的行池、列池、板池中,只出現(xiàn)一次的標(biāo)簽,意味著它在三維坐標(biāo)中擁有唯一的點(diǎn),能夠定位到單個(gè)克隆。標(biāo)簽對(duì)應(yīng)的克隆即為解碼出的克隆,這樣克隆能夠用于重疊群的建立。b在行、列、板三種池中都出現(xiàn),但二級(jí)池出現(xiàn)多次的標(biāo)簽,能夠定位到多個(gè)克隆。c只出現(xiàn)在1種或2種二級(jí)池的標(biāo)簽,無(wú)法定位到克隆。定位到多個(gè)克隆及無(wú)法定位到克隆的標(biāo)簽,都無(wú)法用于后續(xù)克隆重疊群的建立。
通過(guò)上述解碼分析,統(tǒng)計(jì)解碼出的克隆個(gè)數(shù),獲得解碼率。并統(tǒng)計(jì)每個(gè)超級(jí)池中單個(gè)克隆解出的標(biāo)簽數(shù)及標(biāo)簽測(cè)序深度結(jié)果。
2.1.1 目的片段的回收 在文庫(kù)的構(gòu)建中,目的片段的回收至關(guān)重要,回收片段的質(zhì)量決定了后期連接的效率。該實(shí)驗(yàn)中,實(shí)驗(yàn)獲得的目的DNA具有很高的片段一致性(見(jiàn)圖1)。
2.1.2 轉(zhuǎn)導(dǎo)效果 10 μL包裝產(chǎn)物轉(zhuǎn)導(dǎo)涂板后,每張平板(直徑15 cm)一般可形成約1 000個(gè)克隆左右,效價(jià)為1×105cfu/mL。圖2所示為包裝產(chǎn)物的轉(zhuǎn)導(dǎo)結(jié)果圖,克隆數(shù)目較多,大小較為一致,轉(zhuǎn)導(dǎo)效果好良好。
2.2.1 模擬數(shù)據(jù)結(jié)果分析 混合克隆數(shù)目的數(shù)據(jù)模擬分析結(jié)果見(jiàn)圖3。
由圖3可知,隨著混合的384孔板的數(shù)目的增加,即克隆數(shù)目的增加,解碼率呈現(xiàn)逐漸下降的趨勢(shì)。BsaXI對(duì)應(yīng)的解碼率從最開(kāi)始的99.74%下降到85.66%,F(xiàn)spEI對(duì)應(yīng)的解碼率從最開(kāi)始的99.48%下降到93.29%,前者比后者下降的幅度更大。
(M1:λ DNAHindIII digest;M2:42 kb Fosmid control DNA;1~2:切膠回收的目的DNA片段。M1:λ DNAHindIII digest; M2:42 kb Fosmid control DNA; 1~2: DNA fragments.)
圖1 脈沖場(chǎng)凝膠電泳檢測(cè)切膠回收DNA片段
Fig.1 DNA fragments detection with Pulse field gel electrophoresis
圖2 噬菌體轉(zhuǎn)導(dǎo)克隆培養(yǎng)結(jié)果圖
圖3 超級(jí)池構(gòu)建策略的模擬結(jié)果
綜合模擬數(shù)據(jù)的結(jié)果以及實(shí)驗(yàn)成本的因素,最終挑選了模擬混合尺度中的4、8、12、16這4個(gè)混合尺度去進(jìn)行實(shí)驗(yàn)部分的超級(jí)池及對(duì)應(yīng)測(cè)序文庫(kù)的構(gòu)建。
2.2.2 測(cè)序數(shù)據(jù)統(tǒng)計(jì) 本研究中以BsaXI和FspEI兩種限制性?xún)?nèi)切酶構(gòu)建的2b-RAD文庫(kù),經(jīng)Illumina HiSeq 2000測(cè)序后,獲得的原始測(cè)序reads 經(jīng)過(guò)質(zhì)量過(guò)濾,得到高質(zhì)量reads。如表 1所示,高質(zhì)量reads均占測(cè)序原始reads的99%以上,測(cè)序數(shù)據(jù)質(zhì)量較高,可用于后續(xù)分析。
表1 測(cè)序數(shù)據(jù)統(tǒng)計(jì)
2.2.3 標(biāo)簽統(tǒng)計(jì) 以8張384孔培養(yǎng)板板混合得到的二級(jí)池為例。21 356個(gè)BsaXI酶切標(biāo)簽中,定位到單個(gè)克隆的標(biāo)簽數(shù)為1 054,占總標(biāo)簽數(shù)的47.08%;定位到多個(gè)克隆的標(biāo)簽數(shù)為5 063,占總標(biāo)簽數(shù)的23.71%;無(wú)法定位到克隆的標(biāo)簽數(shù)為6 239,占總標(biāo)簽數(shù)的29.21%。141 166個(gè)FspEI酶切標(biāo)簽中,共有40 553個(gè)標(biāo)簽成功定位到單個(gè)克隆,占總標(biāo)簽數(shù)的28.73%;定位到多個(gè)克隆的標(biāo)簽數(shù)為26 046,占總標(biāo)簽數(shù)的18.45%;無(wú)法定位到克隆的標(biāo)簽數(shù)為74 567,占總標(biāo)簽數(shù)的52.82%。其他混合條件下的結(jié)果如表2所示。整體來(lái)說(shuō),約有50%的BsaXI酶切標(biāo)簽中能定位到克隆上;約有30%FspEI酶切標(biāo)簽?zāi)芏ㄎ坏娇寺∩稀?/p>
表2 BsaXI和FspEI酶切標(biāo)簽解碼統(tǒng)計(jì)
2.2.4 克隆解碼率和平均標(biāo)簽數(shù)統(tǒng)計(jì) 以8張384孔培養(yǎng)板混合得到的二級(jí)池為例,此超級(jí)池共包含克隆3 072(8×16×24)個(gè)。10 054個(gè)定位到克隆上的BsaXI酶切標(biāo)簽,成功解出克隆2 179個(gè),克隆的解碼率為70.93%,平均每個(gè)克隆所含的標(biāo)簽數(shù)為4.61。40 533個(gè)定位到克隆上的FspEI酶切標(biāo)簽,成功解出2 668個(gè)克隆,克隆解碼率為86.85%,平均每個(gè)克隆所含的標(biāo)簽數(shù)為15.2。聯(lián)合分析BsaXI和FspEI兩種酶切標(biāo)簽,克隆解碼率為88.41%。
其他混合尺度下解碼情況如表3所示,隨著超級(jí)池所含的384孔培養(yǎng)板板數(shù)的增加,即克隆數(shù)量的增加,2種酶的解碼率都明顯下降。4種尺度下,F(xiàn)spEI酶對(duì)應(yīng)的克隆平均標(biāo)簽數(shù)在15個(gè)左右,BsaXI酶對(duì)應(yīng)的克隆平均標(biāo)簽數(shù)在5個(gè)左右。FspEI酶的克隆解碼率高于BsaXI酶的解碼率;聯(lián)合兩種酶切標(biāo)簽進(jìn)行解碼,克隆解碼效率得到明顯提升。
表3 不同混合尺度下克隆的解碼率
本研究中,測(cè)序得到的酶切標(biāo)簽根據(jù)解碼情況可以分為三類(lèi)。在對(duì)應(yīng)的行池、列池、板池中,只出現(xiàn)一次的標(biāo)簽,意味著它在三維坐標(biāo)中擁有唯一的點(diǎn),能夠定位到克隆上,這樣的克隆解碼出的克隆。這樣的標(biāo)簽(克隆)能夠用于重疊群的建立。在行、列、板三種池都出現(xiàn),但二級(jí)池出現(xiàn)3次及3次以上的標(biāo)簽,能夠定位到多個(gè)克隆。只出現(xiàn)在1種或2種二級(jí)池的標(biāo)簽,無(wú)法定位到克隆。后兩者都不能用于后續(xù)重疊群的分析。對(duì)于定位到多個(gè)克隆的標(biāo)簽,說(shuō)明這個(gè)標(biāo)簽出現(xiàn)在基因組的多個(gè)位置,即該標(biāo)簽有可能是是重復(fù)序列的一部分。對(duì)于無(wú)法定位到克隆的標(biāo)簽,可能是因?yàn)榭寺∩L(zhǎng)不均勻,導(dǎo)致在取樣時(shí)有的二級(jí)池沒(méi)有取到含有該標(biāo)簽的克隆(例如僅在行池和列池中檢測(cè)到,而未在板池中檢測(cè)到)。
對(duì)于定位到克隆的兩種酶切標(biāo)簽的比例,BsaXI的標(biāo)簽有效率約為50%,F(xiàn)spEI的標(biāo)簽有效率約為30%。這可能是由于FspEI為4堿基內(nèi)切酶,在蝦夷扇貝基因組中有比BsaXI更多的酶切位點(diǎn),相同的混合尺度下,重復(fù)序列來(lái)源的標(biāo)簽更容易被測(cè)到;相同的測(cè)序深度下,定位到克隆的標(biāo)簽更不容易被測(cè)到。同一種酶切標(biāo)簽,混合克隆的數(shù)量提高解碼率會(huì)跟著降低。從4個(gè)384孔培養(yǎng)板板增加到16個(gè),BsaXI酶的解碼率由72.27%降到68.49%,F(xiàn)spEI酶的解碼率由88.35%降到79.90%。對(duì)比兩種酶切標(biāo)簽,定位到克隆的FspEI標(biāo)簽數(shù)明顯多于BsaXI標(biāo)簽數(shù),F(xiàn)spEI酶切標(biāo)簽的克隆解碼率明顯高于BsaXI酶切標(biāo)簽的克隆解碼率。
此外,可以通過(guò)構(gòu)建更長(zhǎng)片段的克隆文庫(kù)(如BAC文庫(kù)),來(lái)提高定位到克隆的標(biāo)簽數(shù),獲得更高的解碼率。更長(zhǎng)的克隆片段包含更多的酶切位點(diǎn),每個(gè)克隆中所能檢測(cè)到的標(biāo)簽數(shù)目也會(huì)越多,克隆被解碼的概率也隨之增大。克隆片段長(zhǎng)度的增加,組成克隆重疊群的克隆數(shù)目會(huì)越少,也更有利于克隆之間的正確排序。達(dá)到相同的基因覆蓋度,更長(zhǎng)片段的克隆文庫(kù)需要更少的克隆進(jìn)行混池,也能降低WGP法混合池構(gòu)建的成本及測(cè)序的成本;但插入片段越長(zhǎng),構(gòu)建克隆文庫(kù)的難度越大,實(shí)驗(yàn)成本也會(huì)隨之增加,需要在文庫(kù)的插入片段長(zhǎng)度、成本和實(shí)驗(yàn)難度上做權(quán)衡。
綜合以上分析,在后期的實(shí)驗(yàn)中同時(shí)使用兩種酶,能夠使每個(gè)克隆所含的標(biāo)簽數(shù)目提高,獲得比一種酶更高的解碼率。在結(jié)合實(shí)驗(yàn)成本,測(cè)序成本及比對(duì)實(shí)驗(yàn)的4個(gè)混合尺度下的綜合解碼率之后,本研究最終確定了由8張384孔培養(yǎng)板混合的混池策略及利用BsaXI和FspEI兩種酶切標(biāo)簽聯(lián)合進(jìn)行克隆解碼的解碼方案。該方案聯(lián)合解碼率達(dá)到88.41%,比逐個(gè)克隆進(jìn)行測(cè)序解碼率更高;在獲得高解碼率的同時(shí),單個(gè)混合樣品包含更多的克隆,降低了測(cè)序成本,為后期利用WGP方法構(gòu)建蝦夷扇貝物理圖譜,提供了克隆混池和解碼參考方案。