張艷艷,江賢章*
(1.福建師范大學 生命科學學院,福建福州 350117;2.工業(yè)微生物發(fā)酵技術國家地方聯(lián)合工程研究中心,福建福州 350117)
密碼子是核苷酸三聯(lián)體,而遺傳密碼是指遺傳物質(zhì)存儲遺傳信息的生化指令,由64 個密碼子組成。遺傳密碼具有簡并性,所有的氨基酸都由2 ~6 個密碼子以不同的使用頻率進行編碼(色氨酸和甲硫氨酸除外),這種現(xiàn)象被稱為密碼子使用偏倚[1]。這種密碼子使用的差異在使蛋白質(zhì)序列保持一致的同時,也可以調(diào)節(jié)蛋白質(zhì)生產(chǎn)的效率與準確性[2]。造成密碼子使用差異的影響因素有很多,如自然選擇(tRNA豐度、蛋白質(zhì)折疊、基因長度等)、突變壓力(包括GC 含量和堿基的突變位置)以及隨機遺傳漂變。密碼子使用偏倚在預測外源基因的最佳宿主方面具有重要作用,可通過密碼子優(yōu)化來提高外源基因的表達水平[3]。
類球紅細菌(Rhodobacter sphaeroides)屬于紫色非硫細菌,是目前研究最深入的光合微生物之一,可以產(chǎn)生輔酶Q10 等,已被廣泛應用于食品、農(nóng)業(yè)、醫(yī)藥等多個領域,擁有巨大的工業(yè)化開發(fā)潛力[4]。同時,類球紅細菌經(jīng)常被用來表達外源蛋白,廣泛應用于基因表達研究中。本研究以R. sphaeroides基因組為研究對象,對其密碼子使用偏好性進行分析,對在類球紅細菌中開展合成生物學研究、改造基盤細胞、表達外源基因等具有重要的意義。
在NCBI(美國國家生物信息中心,https://www.ncbi.nlm.nih.gov/genome/)公共數(shù)據(jù)庫中檢索獲得類球紅細菌2.4.1 基因組,基因組數(shù)據(jù)編號GCA_000012905.2。主要使用的軟件有Galaxy生物信息學分析平臺(https://usegalaxy.org/)、Python 3.9、CodonW 1.4.2、Origin 9.0 等。
利用Galaxy 的腳本過濾長度小于300 bp 的CDS,收集到3 921 個CDS。利用中性圖估計和表征3 個密碼子(GC1、GC2、GC3)位置之間的密碼子使用模式。以ENC 為縱坐標,GC3 為橫坐標繪制ENC-plot 進行分析。以G3/(G3+C3)為橫坐標,A3/(A3+T3)為縱坐標繪圖分析[5]。中心點代表無偏度使用時密碼子的狀態(tài),其余點與中心點的矢量距離代表其偏倚程度和方向[6]。
RSCU(同義密碼子相對使用度)代表一個密碼子的實際使用頻率與無偏好性時理論使用頻率間的比值。運用CodonW 1.4.2 軟件分析相對同義密碼子使用度,將RSCU >1 的密碼子作為高頻密碼子[7]。根據(jù)ENC 值的大小,取兩極(最大值和最小值)10%的基因建立高、低表達基因庫,計算兩庫的差值,將ΔRSCU ≥0.08 的密碼子視為高表達優(yōu)越密碼子[8]。結合統(tǒng)計結果篩選RSCU >1 且ΔRSCU ≥0.08 的密碼子確定為最優(yōu)密碼子[9]。
利用CodonW 分別計算類球紅細菌與常見的基盤微生物,如大腸桿菌(Escherichia coli)、谷氨酸棒桿菌(Corynebacterium glutamicum)以及釀酒酵母(Saccharomyces cerevisiae)的密碼子使用頻率并進行比較。
構建了類球紅細菌2.4.1基因組編碼序列的中性圖,結果顯示多數(shù)基因分布在對角線下方(圖1)。GC12的含量分布在0.389 ~0.741 2,GC3 的含量分布在0.411 ~0.957,基因大多分布在對角線下方,密碼子中GC12 和GC3 之間相關系數(shù)r為0.128 5。結果表明類球紅細菌基因組密碼子受到突變的影響很弱,而自然選擇壓力是導致密碼子偏好性產(chǎn)生的主要原因。
圖1 中性繪圖分析
由圖2 可知,大部分基因的ENC 觀察值落在曲線下方,偏好性顯著,表明類球紅細菌密碼子的偏好性主要受自然選擇壓力的影響。為更準確地估計觀測ENC 值和期望值之間的偏差,計算了(ENCexp-ENCobs)/ENCexp,結果發(fā)現(xiàn)ENC 值略小于GC3s 的預期ENC 值,說明突變可能是類球紅細菌2.4.1 進化史上的一個影響較弱的因素,自然選擇壓力可能在影響密碼子使用模式中發(fā)揮重要作用。
圖2 ENC-plot 曲線
利用PR2-plot 繪圖分析了類球紅細菌2.4.1 基因中氨基酸家族中密碼子第三位堿基A 與T 或G 與C 之間的關系,結果如圖3 所示,大部分基因分布在圖的右上方(直線表示中位數(shù)),表明密碼子第3 位A的使用頻率高于T,G 的使用頻率高于C。理論上,如果密碼子的使用模式僅受到突變的影響,則A 與T、G 與C 堿基使用頻率相等。然而,圖3 結果顯示A 和T、G 和C 的使用存在不均衡,表明類球紅細菌2.4.1基因組密碼子的使用模式除了受到突變的影響外,還可能受到其他因素,如選擇壓力等的影響。
圖3 PR2-plot 分析
為了分析類球紅細菌2.4.1 基因組中不同氨基酸的相對密碼子的使用度,確定同義密碼子的使用模式以及C/G 末端密碼子的首選程度,本實驗計算了RSCU 值,繪制了RSCU 堆積圖(圖4)。分析表明RSCU >1 的密碼子有27 個,其中G 或C 結尾的密碼子占85.19%,以G 結尾的有10 個,以C 結尾的有13 個,說明類球紅細菌偏愛使用以G 或C 結尾的同義密碼子。以ENC 值為偏好性標準,構建高、低表達庫,分別計算高表達和低表達基因中各密碼子的RSCU 值和ΔRSCU 值,結果發(fā)現(xiàn)ΔRSCU 值>0.3 的共有19 個密碼子是高表達優(yōu)越密碼子。選取高表達優(yōu)越密碼子與高頻密碼子結合分析,將其共有的密碼子定義為最優(yōu)密碼子,共有15 個(CUC、CUG、AUC、GUG、CCG、ACC、GCC、CAG、AAC、AAG、GAC、GAG、UGC、UGA 和GGC)。在這15個最優(yōu)密碼子中,除了UGA 是終止密碼子外,其余密碼子全都以G 或C 結尾,進一步表明了類球紅細菌中的密碼子使用偏向于G 或C 結尾的同義密碼子。
圖4 相對密碼子使用堆積圖
將類球紅細菌基因組密碼子使用頻率分別與常見的基盤微生物,如大腸桿菌、谷氨酸棒桿菌及釀酒酵母的密碼子使用頻率進行比較,結果發(fā)現(xiàn)大腸桿菌和谷氨酸棒狀桿菌中分別有27 個和26 個密碼子使用頻率與類球紅細菌2.4.1 密碼子使用頻率差異倍數(shù)大于2 或者小于1/2,而密碼子使用頻率差異倍數(shù)大于3 或者小于1/3 的密碼子分別有16 個(占25.0%)和17 個(占26.6%)。以類球紅細菌為基盤細胞,表達來自大腸桿菌、谷氨酸棒桿菌的基因時,需注意對Glu、Arg、Pro、Ser 以及Gly 等幾個氨基酸密碼子的優(yōu)化。釀酒酵母中有38 個密碼子的使用頻率與類球紅細菌密碼子使用頻率差異倍數(shù)大于2 或者小于1/2(占59.4%),有27 個密碼子的使用頻率差異倍數(shù)大于3 或者小于1/3(占42.2%),有9 個密碼子使用頻率差異倍數(shù)大于10 或者小于1/10。結果說明類球紅細菌與釀酒酵母的密碼子使用頻率差異較大,在表達類球紅細菌中表達來自釀酒酵母的基因時,需要考慮整體密碼子偏好性對基因表達的影響,反之亦然。
隨著合成生物學的興起,在基盤細胞中表達多個外源基因,構建新的代謝通路,調(diào)控關鍵基因的表達水平,成為合成生物學研究的主要方向。類球紅細菌具有重要的開發(fā)前景,因此研究類球紅細菌密碼子使用偏好性,對人工合成外源基因,使之在類球紅細菌中高效地表達,具有重要的意義。本文通過對類球紅細菌基因組進行分析,發(fā)現(xiàn)在類球紅細菌使用頻率較高的27 個密碼子中,以G 或C 結尾的密碼子占85.19%。同時,在15 個高表達優(yōu)越密碼子中,除了終止密碼子外,其余密碼子全都以G 或C 結尾,說明類球紅細菌偏愛使用以G 或C 結尾的密碼子。通過研究分析得到類球紅細菌基因組密碼子使用的偏好性主要受到選擇壓力的影響。最后經(jīng)過ENC 差異分析構建了類球紅細菌高低表達基因庫,確定了19 個高表達優(yōu)越密碼子和15 個高表達最優(yōu)密碼子。