鄧 冰,賈鷗陽,楊雨嫻,孟俊龍,常明昌,劉靖宇,*
(1.山西農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院,山西 晉中 030801;2.山西省食用菌工程技術(shù)研究中心,山西 晉中 030801;3.黃土高原食用菌山西省重點實驗室,山西 晉中 030801)
目前已知的絕大多數(shù)生物共享一套遺傳密碼,即構(gòu)成信使RNA 的4 種堿基按一定順序排列形成三聯(lián)體密碼子,理論上種密碼子決定了蛋白的氨基酸種類和排列順序[1]。另外,常見的20 種氨基酸中甲硫氨酸(Met)和色氨酸(Trp)分別只對應(yīng)1個密碼子,UGA、UAA 和UAG 不編碼氨基酸(終止密碼子),其余18 種氨基酸分別對應(yīng)2~6 個密碼子(即同義密碼子)[2]。在不存在環(huán)境脅迫和突變偏差的前提下,同義密碼子中各核苷酸的理論突變概率一致,即同義密碼子的出現(xiàn)頻率相同[3]。但隨著現(xiàn)代分子生物學(xué)和高通量測序技術(shù)的不斷發(fā)展,國內(nèi)外研究工作者發(fā)現(xiàn)不同物種基因組之間密碼子使用存在一定偏好性[4-5]。如菠蘿基因組編碼亮氨酸(Leu)的6 個密碼子中,CTC、TTG、CTT 以及CTG 的相對使用度(Relative synonymous codon usage,RSCU)大于1.0,顯著高于TTA 和CTA(0.6 左右);而竹節(jié)參中僅TTG 和CTT 的RSCU 值大于1.0(1.4 左右),其余同義密碼子的RSCU值在0.75 左右[4-6]。另外進化關(guān)系接近物種的密碼子偏好性相似,密碼子偏好性可以作為判斷物種系統(tǒng)發(fā)育的依據(jù):單子葉植物同義密碼子第3 位堿基的鳥嘌呤和胞嘧啶含量(The guanine and cytosine content of the third nucleotide of synonymous codon,GC3s)顯著高于雙子葉植物,而單子葉植物中進化程度高的菠蘿,其密碼子偏好性更偏向于雙子葉植物[6-7]。近年來隨著雙孢蘑菇、金針菇、草菇、羊肚菌、蛹蟲草以及香菇等多種食用真菌的基因圖譜繪制工作陸續(xù)完成,基于基因組數(shù)據(jù)解析不同食用真菌密碼子使用特點及偏性形成因素,對于進一步完善常見食用真菌系統(tǒng)分類具有重要意義[8]。
香菇(Lentinula edodes)是目前國內(nèi)產(chǎn)量最多的食用菌種類,生產(chǎn)區(qū)域涉及河南、河北、福建、貴州和浙江等多個省份,預(yù)計行業(yè)產(chǎn)值近1000 億元[9]。香菇呼吸代謝旺盛,采后貯藏期間極易發(fā)生軟化、褐變等品質(zhì)劣變現(xiàn)象[10]。通過基因工程手段能為解析香菇品質(zhì)劣變機制提供思路,而知悉香菇的密碼子偏好性是進行關(guān)鍵基因功能研究和遺傳轉(zhuǎn)化研究的基礎(chǔ)[11]?;诖?,筆者根據(jù)香菇基因組數(shù)據(jù)確定各密碼子使用度和偏好性影響因素,基于現(xiàn)有轉(zhuǎn)錄組數(shù)據(jù)鑒定香菇基因組最優(yōu)密碼子,以期通過以上研究為借助分子手段優(yōu)化香菇采后貯藏方法提供依據(jù)。
從NCBI 下載香菇細胞核基因組所有編碼序列(https://www.ncbi.nlm.nih.gov/projects/r_gencoll/ftp_service/nph-gc-ftpservice.cgi/?HistoryId=MCID_627779 e66ca1313a5470ffa6&QueryKey =3&ReleaseType =Gen Bank&FileType=CDS_FASTA&Flat=true),使用TBtools軟件提取其中長度大于300 bp,且以ATG 起始同時以終止密碼子(TGA、TAG、TAA)結(jié)束的序列。以課題組香菇子實體采后貯藏期間的有參轉(zhuǎn)錄組測序數(shù)據(jù)為依據(jù),參照上述篩選結(jié)果對所有基因的表達水平(FPKM 值)進行排序,分別選取前2.5%和后2.5%為高表達基因(High expression genes,HEG)和低表達基因(Low expression genes,LEG)序列集。
運行CodonW 軟件,選擇Initial Menu Option 中的Codon usage incidences 進行不同序列集的密碼子參數(shù)分析,包括密碼子適應(yīng)指數(shù)、有效密碼子數(shù)以及GC 含量等指標(biāo)。具體操作流程如下:將全基因組編碼序列集、HEG 序列集以及LEG 序列集文件置于CodonW 軟件包文件夾,運行軟件,選擇Codon usage indices,點擊Select all,選擇載入文件并在input.dat后輸入待處理文件名,結(jié)果文件名稱默認與序列文件名稱相同,點擊Run C-codons,隨后其他參數(shù)均設(shè)為默認值。全部運行結(jié)束后在初始界面選擇Quit,同時得到.out 和.blk 兩種類型結(jié)果文件,包括同義密碼子第3 位各堿基的含量(T3s、C3s、A3s、G3s 和GC3s),密碼子不同位置GC 含量(GC1、GC2 和GC3),以及密碼子適應(yīng)指數(shù)(Codon adaptation index,CAI,反映各基因密碼子與密碼子最佳使用模式的偏性程度)。
使用百邁克云平臺(https://www.omicstudio.cn/tool?order=complex)的相關(guān)性分析軟件進行各密碼子使用參數(shù)與基因表達水平的Pearson 相關(guān)系數(shù)計算,并進行相關(guān)性網(wǎng)絡(luò)圖繪制。以相關(guān)系數(shù)(rho)>0.3 且P值<0.01 為標(biāo)準(zhǔn)判定為顯著正相關(guān),以rho<-0.3且P值<0.01 為標(biāo)準(zhǔn)判定為顯著負相關(guān)。
使用在線軟件EMBOSS explorer-CUSP 分別計算各密碼子在基因組編碼序列集、HEG 序列集、LEG 序列集中的RSCU 值和使用頻率,將基因組編碼序列集中RSCU 值>1 的同義密碼子定義為香菇細胞核基因組高頻密碼子,以HEG 序列集與LEG 序列集RSCU差值(ΔRSCU)≥0.2 為標(biāo)準(zhǔn)篩選香菇細胞核基因組最優(yōu)密碼子。
以CodonW 軟件計算出的不同序列集的各指標(biāo)為依據(jù)進行密碼子使用影響因素分析。奇偶偏好分析:分別以各編碼基因的G3/(G3+C3)和A3/(A3+T3)為橫、縱坐標(biāo)進行散點圖繪制(G3、C3、A3 和T3 分別為密碼子第3 位堿基G、C、A、T 的含量),通過分析散點分布區(qū)域判斷各密碼子第3 位堿基的偏倚傾向[12]。中性繪圖:分別以各編碼基因的GC3 和GC12(密碼子第1 位和第2 位GC 含量的平均值)為橫縱坐標(biāo)進行散點圖繪制,通過分析散點在圖中對角線周圍的分布情況判斷選擇壓力和進化約束力對密碼子使用的影響[13]。ENC 繪圖:分別以各編碼基因的GC3s 和有效密碼子數(shù)(Effective number of codon,ENC)為橫縱坐標(biāo)進行散點圖繪制,以Nc=2+s+29/[s2+(1-s)2]繪制標(biāo)準(zhǔn)曲線(s 為GC3s),通過分析散點與標(biāo)準(zhǔn)曲線的偏離程度判斷中性突變和選擇壓力對密碼子偏好的影響[14]。ENC 期望值分布頻率:以(ENCexp-ENCobs)/ENCexp 為橫坐標(biāo)(其中ENCexp 為預(yù)期ENC 值,ENCobs為觀察ENC 值),以各區(qū)間內(nèi)編碼基因數(shù)量為縱坐標(biāo)繪制柱形圖,分析ENC 期望值的分布情況[15]。
通過在線數(shù)據(jù)庫Codon Usage Database 查找雙孢蘑菇(Agaricus bisporus)、金針菇(Flammulina filiformis)、蛹蟲草(Cordyceps militaris)、草菇(Volvariella volvacea)、羊肚菌(Morchella conica)、銀耳(Tremella fuciformis)、赤芝(Ganoderma lucidum)和球孢白僵菌(Beauveria bassiana)等真菌各密碼子相對使用度,使用Heml 軟件繪制熱圖(log2 歸一化處理)并進行聚類分析。
從已公布的香菇基因組數(shù)據(jù)中提取9805 個編碼基因,剔除其中非ATG 起始、無終止密碼子以及短于300 bp 的編碼序列,共獲得了9272 個用于密碼子偏好性分析的候選序列。另外,基于現(xiàn)有轉(zhuǎn)錄組數(shù)據(jù),從基因組候選序列中篩選出232 個HEG 序列和232個LEG 序列,分別以基因組編碼序列、HEG 序列和LEG 序列為對象統(tǒng)計密碼子堿基組成和偏好性相關(guān)參數(shù)。結(jié)果顯示:3 組序列均呈現(xiàn)GC1>GC3>GC2的趨勢(表1),表明香菇基因組編碼序列在選擇密碼子時傾向于以G/C 起始,以A/T 結(jié)尾。ENC 值呈現(xiàn)出基因組序列>LEG 序列>HEG 序列的趨勢,表明與相比基因組中的其他基因,HEG 存在一定密碼子偏性。HEG 序列的GC 含量、C3s 值、GC3 值、GC3s 值和CAI 值均顯著高于基因組序列和LEG 序列(P<0.05),ENC 值則顯著低于其他兩組序列(P<0.05),表明香菇中基因的高表達可能與密碼子G/C 堿基分布不同造成的密碼子偏好性有關(guān)[16]。
表1 香菇編碼序列堿基組成及密碼子參數(shù)Table 1 Nucleobase composition and codon usage parameter in L.edodes
對各序列密碼子堿基組成、CAI 值、ENC 值以及基因表達之間的相關(guān)性進行分析(圖1),結(jié)果顯示基因表達與序列C3s 含量、GC3、GC3s、GC 含量、C 含量以及CAI 呈顯著正相關(guān),與密碼子A3s 和A 呈顯著負相關(guān);ENC 與G3s 和A3s 呈顯著正相關(guān),與T3s 和CAI 含量呈顯著負相關(guān),進一步證實G/C 堿基分布不同造成的密碼子偏好會影響香菇基因表達。
圖1 香菇密碼子參數(shù)與基因表達相關(guān)性網(wǎng)絡(luò)Fig.1 Correlation network between codon parameters and gene expression of L.edodes
由圖2 可見,香菇基因組編碼序列中共29 個高頻密碼子(RSCU 值>1),其中12 個以U 結(jié)尾,10 個以A 結(jié)尾,6 個以C 結(jié)尾,1 個以G 結(jié)尾。苯丙氨酸(Phenylalanine,Phe,F(xiàn))、酪氨酸(Tyrosine,Tyr,Y)、組氨酸(Histidine,His,H)、谷氨酰胺(Glutamine,Gln,Q)、天冬酰胺(Asparagine,Asn,N)、賴氨酸(Lysine,Lys,K)、精氨酸(Arginine,Arg,R)、天冬氨酸(Aspartic acid,Asp,D)和谷氨酸(Glutamic acid,Asp,E)分別有1 個RSCU 值>1 的同義密碼子,其余氨基酸(蛋氨酸和色氨酸除外)分別有2~3 個RSCU 值>1 的同義密碼子。3 個終止密碼子(Terminator,Ter)中UGA 的RSCU 值>1,整體使用次數(shù)為4016(43.31%),為香菇中最常用終止密碼子。
圖2 香菇基因組相對同義密碼子使用度Fig.2 RSCU of L.edodes genomic coding sequences
由表2 可見,基于ΔRSCU 范圍鑒定出16 個最優(yōu)密碼子,其中11 個(68.7%)以C 結(jié)尾,5 個(31.3%)以U 結(jié)尾,該結(jié)果與密碼子C3s 和基因表達相關(guān)性的分析結(jié)果一致,即香菇最優(yōu)密碼子優(yōu)先以C 結(jié)尾。苯丙氨酸(Phe,UUC)、異亮氨酸(Ile,AUC)、纈氨酸(Val,V)、脯氨酸(Pro,P)、蘇氨酸(Thr,Y)、丙氨酸(Ala,A)、酪氨酸(Tyr,UAC)和天冬酰胺(Asn,AAC)各有1 個最優(yōu)密碼子,ΔRSCU 范圍為0.21~0.43。亮氨酸(Leu,CUU 和CUC)、絲氨酸(Ser,UCU 和UCC)、精氨酸(Arg,CGU 和CGC)和甘氨酸(Gly,CGU 和CGC)各有2 個最優(yōu)密碼子,對比分析以上各同義密碼子ΔRSCU 以及在不同組(HEG 和LEG)中RSCU值和出現(xiàn)次數(shù),可以發(fā)現(xiàn)同義密碼子中堿基均勻分布更有利于基因表達,即CUC >CUU、UCU >UCC、CGU>CGC、GGU>GGC。
表2 香菇高表達基因和低表達基因相對同義密碼子使用度Table 2 RSCU of HEG and LEG of L.edodes
PR2-plot 分析(圖3A)結(jié)果顯示:基因組序列和LEG 序列中分別有6002 個(68.14%)和132 個(56.89%)基因位于G3/(G3+C3)<0.5 且A3/(A3+T3)<0.5 區(qū)域(圖中左下方),即密碼子偏向于以U/C 結(jié)尾;HEG序列中137 個(59.05%)分布于G3/(G3+C3)>0.5 且A3/(A3+T3)<0.5 區(qū)域(圖中右下方),即該部分編碼基因的密碼子偏向于以U/G 結(jié)尾。以上結(jié)果表明香菇基因組中4 種堿基使用不均衡,密碼子使用模式受選擇和突變等多種因素影響[17]。
中性繪圖分析(圖3B)結(jié)果顯示:HEG 多位于中性圖右側(cè)(141 個,60.78%),且GC12 與GC3 無顯著相關(guān)性;基因組序列和LEG 序列中分別有5677 個(64.81%)和172 個(70.78%)位于中性圖左側(cè),并且LEG 序列中GC12 與GC3 呈顯著正相關(guān)(相關(guān)系數(shù)為0.38)。以上結(jié)果表明香菇相關(guān)基因高表達是適應(yīng)性進化和自然選擇的結(jié)果,而其他基因的表達模式則主要受到進化過程中基因突變的影響[18]。
香菇全基因組中僅有2 個編碼序列的ENC 值小于35,多數(shù)基因不具有密碼子偏好性[19]。ENC-plot 分析結(jié)果顯示:香菇全基因組中多個基因不同程度偏離期望曲線,其中HEG 整體偏離程度最大(圖3C)。ENC-plot 分析中散點與期望曲線的偏離代表堿基突變和選擇壓力對基因密碼子偏好性的影響程度[20],表明外界選擇壓力影響了香菇密碼子偏好性形成,其中HEG 序列密碼子偏好性形成受到的影響最大。另外香菇大部分基因的(ENCexp-ENCobs)/ENCexp 位于0~0.1 區(qū)域(圖3D),說明大部分基因的ENC 觀察值低于期望,同時整體差異較小[19],這一結(jié)果表明中性突變是香菇密碼子偏好性形成的重要因素之一。
圖3 香菇密碼子偏好性形成影響因素分析Fig.3 Analysis of influencing factors on the formation of codon preference in Lentinus edodes
編碼基因密碼子偏性能在一定程度上反映物種間的進化關(guān)系。將香菇與常見食用菌細胞核基因組的密碼子偏好性進行對比(圖4),發(fā)現(xiàn)香菇與金針菇以及雙孢蘑菇密碼子使用偏性相似,其中與雙孢蘑菇相似度最高;銀耳與赤芝,蛹蟲草與球孢白僵菌在密碼子使用偏性上相似。
圖4 香菇與常見食用菌密碼子偏好性比較及聚類分析Fig.4 Comparation and cluster analysis of codon bias of L.edodes and common edible fungi
密碼子是生物體編碼基因的基本結(jié)構(gòu),明確其偏好性可以為探明物種基因進化關(guān)系、提高蛋白異源表達水平以及解析基因功能等生物學(xué)問題提供依據(jù)[21]。常見食用菌中雙孢蘑菇和蛹蟲草的平均ENC 值分別為56.13 和45.66,分別有9 個(10583 個編碼基因)和202 個(9651 個編碼基因)編碼基因的ENC 值低于35[22-23];香菇細胞核編碼基因的平均ENC 值56.93,9272 個基因中僅2 個基因的ENC 值小于35,說明與常見食用菌相比其整體密碼子偏性較弱。香菇細胞核編碼基因的平均GC 含量(48.66%)低于雙孢蘑菇(49.08%)、羊肚菌(52.2%)、金針菇(52.34%)和蛹蟲草(59.53%)等大型真菌,表明與其他食用菌相比香菇傾向于使用AT 豐富的密碼子[22-25],香菇高頻密碼子分析結(jié)果亦證實了此觀點。對基于轉(zhuǎn)錄組數(shù)據(jù)篩選出的高表達基因的密碼子偏性進行分析,發(fā)現(xiàn)香菇細胞核基因的高表達與密碼子GC 含量、GC3 含量以及GC3s 呈顯著相關(guān);同時HEG 序列集中C3s 含量顯著高于全基因組序列和LEG 序列,而G3s 含量則顯著低于全基因組序列和LEG 序列,該結(jié)果與最優(yōu)密碼子偏好以C 結(jié)尾相一致。雙孢蘑菇的最優(yōu)密碼子亦偏向于以C 結(jié)尾,同時其編碼基因GC 含量與香菇相似[22],暗示兩物種間進化關(guān)系接近。基于密碼子使用頻率對香菇與常見真菌進行聚類分析,結(jié)果也證實兩物種密碼子使用偏性相似。
堿基組成、序列長度以及信使RNA 二級結(jié)構(gòu)等均會影響單一基因的密碼子偏性,不同物種基于環(huán)境壓力和基因組特性演變出各具特點的密碼子使用模式[26]。雙孢蘑菇、蛹蟲草和金針菇等大型真菌的基因組密碼子偏性呈現(xiàn)出受堿基突變和選擇壓力雙重影響的特點,而高表達基因則更多是自然選擇的結(jié)果[22-24]。與大型真菌不同,落葉松-楊柵銹菌的基因組密碼子偏性更多是堿基突變的結(jié)果,推測可能是由于落葉松-楊柵銹菌轉(zhuǎn)性寄生且宿主單一,選擇壓力對于密碼子偏性的影響有限[27]。與雙孢蘑菇、蛹蟲草和金針菇等食用菌相似,自然選擇是香菇高表達基因密碼子偏性形成的主要因素,并且以上食用菌的最優(yōu)密碼子均傾向于以C 結(jié)尾[22-24],推測與胞嘧啶易發(fā)生甲基化從而調(diào)控信使RNA 穩(wěn)定性有關(guān)[28]。
基因組學(xué)與分子生物學(xué)的快速發(fā)展為解析物種關(guān)鍵基因功能提供了可能[8]。以近年來獲得廣泛關(guān)注的CRISPR/Cas9 基因編輯技術(shù)為例,該系統(tǒng)以sgRNA 為向?qū)?,指?dǎo)crRNA-tracrRNA-Cas9 復(fù)合物對DNA 目標(biāo)區(qū)域進行編輯[29]。目前該基因編輯系統(tǒng)在香菇中的應(yīng)用相對滯后,基于香菇密碼子偏好性對Cas9 進行密碼子優(yōu)化可以推動香菇CRISPR/Cas9 基因編輯技術(shù)的優(yōu)化和應(yīng)用,為解析香菇采后品質(zhì)劣變相關(guān)基因的功能研究提供參考。