靖美東,王有銘,姚珂瑩,黃 玲*
(南通大學(xué)生命科學(xué)學(xué)院基礎(chǔ)生物學(xué)教研室,南通 226019)
小鼠包含3 個(gè)主要的亞種,分別是Mus musculus musculus(M.m.musculus)、M.m.castaneus 和M.m.domesticus[1-2]?,F(xiàn)在,小鼠野生群體和幾千個(gè)實(shí)驗(yàn)室品系已成為生物學(xué)和生物醫(yī)學(xué)研究中最廣泛使用的模式動(dòng)物[3-4]。經(jīng)典的小鼠實(shí)驗(yàn)室品系培育過(guò)程中發(fā)生了不同亞種間的交配,導(dǎo)致其基因組混有不同祖先基因組成分[5]。越來(lái)越多基因組數(shù)據(jù)的發(fā)布[6-7]讓研究者可以比較野生群體和實(shí)驗(yàn)室品系基因組的差異,從而篩選和確定與復(fù)雜性狀相關(guān)的功能基因。已有的核基因序列比較發(fā)現(xiàn),由于品系構(gòu)建過(guò)程中使用的奠基群體很小,實(shí)驗(yàn)室品系所含的遺傳變異只是野生群體的一小部分[8]。對(duì)經(jīng)典實(shí)驗(yàn)室自交系及野生衍生自交系線粒體基因組的比較發(fā)現(xiàn):經(jīng)典實(shí)驗(yàn)室自交系的線粒體基因組具有更快地積累替代突變[9],且其蛋白質(zhì)編碼基因的純化選擇有放松趨勢(shì)[5]。實(shí)驗(yàn)室品系與野生衍生品系之間在基因組演化和遺傳變異水平上的差異提示:僅針對(duì)實(shí)驗(yàn)室品系的研究可能會(huì)遺漏自然條件下復(fù)雜性狀相關(guān)的重要等位基因,將阻礙研究成果向人類生物醫(yī)學(xué)研究的轉(zhuǎn)移[10]。野生小鼠群體是實(shí)驗(yàn)室品系的后備遺傳資源庫(kù),是生物學(xué)和生物醫(yī)學(xué)研究中寶貴的補(bǔ)充實(shí)驗(yàn)資源[11]。
線粒體基因組因其母系遺傳、沒(méi)有廣泛的重組及較快的核苷酸替代率等特點(diǎn)而被廣泛應(yīng)用于不同類群的系統(tǒng)發(fā)育研究[12]。比起單個(gè)線粒體基因,線粒體全基因組序列包含更多的演化歷史信息,能極大降低隨機(jī)誤差和非同源相似情況對(duì)結(jié)果的影響?;诰€粒體基因組數(shù)據(jù)的系統(tǒng)發(fā)育研究可以更準(zhǔn)確地分析小鼠實(shí)驗(yàn)室品系的母系來(lái)源及其與野生群體的關(guān)系[12]。而且,人類和小鼠群體中多種功能失調(diào)疾病都與線粒體基因組缺陷有密切關(guān)系[13],所以線粒體基因組的研究越來(lái)越受重視。雖然已有學(xué)者[5,9]對(duì)少數(shù)經(jīng)典實(shí)驗(yàn)室自交系和野生衍生品系的線粒體基因組進(jìn)行了初步的比較研究,但是實(shí)驗(yàn)室品系與野生小鼠群體的線粒體基因組差異依然不清楚。
本研究對(duì)20 只來(lái)自中國(guó)的野生小鼠樣品進(jìn)行了線粒體全基因組測(cè)序,并結(jié)合已發(fā)布的來(lái)自其他國(guó)家的野生小鼠樣品以及實(shí)驗(yàn)室個(gè)體的線粒體基因組數(shù)據(jù),對(duì)18 個(gè)國(guó)家192 只野生小鼠以及126 只實(shí)驗(yàn)室小鼠的線粒體全基因組序列進(jìn)行比較分析,揭示了野生群體與實(shí)驗(yàn)室品系間線粒體基因組的演化及遺傳差異。
1.1 小鼠樣品來(lái)源與線粒體基因組擴(kuò)增 對(duì)來(lái)自我國(guó)18 個(gè)地區(qū)(漠河、和豐、雙遼、烏魯木齊、朝陽(yáng)、包頭、喀左、大同、延安、臨沂、長(zhǎng)治、漢中、武漢、萍鄉(xiāng)、昆明、臺(tái)灣、南寧和廣州)的20 只小鼠進(jìn)行線粒體基因組測(cè)序。標(biāo)本鑒定、取材、DNA 提取和聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction,PCR)擴(kuò)增方法參照文獻(xiàn)[14]的處理方式。用34 對(duì)引物對(duì)線粒體全基因組進(jìn)行PCR 擴(kuò)增,擴(kuò)增片段長(zhǎng)度約1 500 bp,片段間至少有200 bp 的相互重疊。PCR 擴(kuò)增完成后進(jìn)行瓊脂糖電泳檢測(cè),后送至上海生工生物工程有限公司進(jìn)行DNA 測(cè)序。
1.2 序列組裝、注釋和分析 采用DNASTAR 軟件包(Lasergene version 7.1;Madison,WI,USA)進(jìn)行線粒體基因組組裝和注釋,注釋用小鼠參考序列是NC_005089。軟件tRNAscan-SE v1.12(http://lowelab.ucsc.edu/tRNAscan-SE/)進(jìn)行tRNA 的鑒別。序列組裝后投遞至GenBank(接受號(hào)為:KF781645-KF781664)。
1.3 公共數(shù)據(jù)庫(kù)線粒體基因組數(shù)據(jù)的組裝 來(lái)自公共數(shù)據(jù)庫(kù)的172 只小鼠(71 只M.m.musculus、51 只M.m.castaneus、50 只M.m.domesticus)線粒體基因組被下載,用軟件NOVOplasty 2.(https://github.com/ndierckx/NOVOPlasty)在Linux 系統(tǒng)中進(jìn)行組裝。126 只實(shí)驗(yàn)室小鼠(8 只M.m.musculus、4 只M.m.castaneus 和114 只M.m.domesticus)的線粒體數(shù)據(jù)從公共數(shù)據(jù)庫(kù)下載,用于后續(xù)的比較分析。
1.4 系統(tǒng)發(fā)育分析 192 只野生小鼠的線粒體基因組序列和126 只實(shí)驗(yàn)室小鼠線粒體基因組的單倍型序列進(jìn)行系統(tǒng)發(fā)育分析,分析中Mus spretus(NC_025952)用作外群,采用貝葉斯法和最大似然法兩種方法進(jìn)行系統(tǒng)樹構(gòu)建。前者分析軟件為Mr-Bayes 3.2.7a[15],后 者 為PhyML 3.0(http://www.atgcmontpellier.fr/phyml/)[16]。jModelTest 2.1.7[17]進(jìn)行最佳模型的選擇,GTR+I+G 模式為最佳模型。
1.5 基因組多態(tài)性、遺傳分化和進(jìn)化 選擇壓力分析小鼠3 個(gè)亞種的野生群體及實(shí)驗(yàn)室群體的線粒體基因組核苷酸多樣性(π)、單倍型多樣性(Hd)及變異位點(diǎn)數(shù)(S)分別進(jìn)行計(jì)算。Mega X[18]用來(lái)計(jì)算亞種或群體之間的遺傳距離。Arlequin v 3.5.2.2[19]用來(lái)計(jì)算遺傳固定指數(shù)(Fst)。蛋白質(zhì)編碼基因的三位密碼子堿基組成和密碼子使用情況也用Mega X[18]計(jì)算。進(jìn)化選擇壓力分析的指標(biāo)參數(shù)(非同義突變率:Ka,同義突率:Ks 和兩者比率Ka/Ks)用軟件Arlequin v 3.5.2.2[19]計(jì)算。
2.1 系統(tǒng)發(fā)育關(guān)系 兩種不同的系統(tǒng)樹構(gòu)建方法得到了具有相同拓?fù)浣Y(jié)構(gòu)的結(jié)果(圖1),樹中每一分支的支持值都>0.7,說(shuō)明結(jié)果可靠。系統(tǒng)樹中,所有樣品清楚地聚為3 支(K2P 距離為0.02)。其中一支包括71 個(gè)M.m.musculus 亞種的野生個(gè)體序列、7 個(gè)實(shí)驗(yàn)室品系序列單倍型(Hap 1~Hap 7)和12 個(gè)來(lái)自中國(guó)北方地區(qū)(漠河、和豐、雙遼、烏魯木齊、朝陽(yáng)、包頭、喀左、大同、臨沂、雅安、長(zhǎng)治和漢中)的個(gè)體序列。另一支包含53 個(gè)M.m.musculus 亞種的野生個(gè)體序列、2 個(gè)實(shí)驗(yàn)室品系序列單倍型(Hap 8~Hap 9)和8 個(gè)來(lái)自中國(guó)南方地區(qū)(武漢、萍鄉(xiāng)、昆明、臺(tái)灣、南寧和廣州)的個(gè)體序列。第3 支包含48 個(gè)M.m.musculus 亞種的野生個(gè)體序列和52 個(gè)實(shí)驗(yàn)室品系序列單倍型(Hap 10~Hap 61)。
圖1 小鼠線粒體基因組系統(tǒng)發(fā)育樹
2.2 線粒體基因組遺傳多態(tài)性 分別計(jì)算的野生群體和實(shí)驗(yàn)室群體的線粒體全基因組及不同功能類型。序列的π、Hd 和S 結(jié)果顯示,線粒體基因組不同功能類型的序列多態(tài)性水平顯著不同(表1)。在野生群體中,線粒體基因組非編碼區(qū)(CR)的多態(tài)性最高,而rRNA 基因的多態(tài)性最低;總體上,M.m.castaneus亞種的π 最高,M.m.musculus 和M.m.domesticus 的π 水平相近;M.m.musculus 亞種的Hd 最高。
表1 小鼠野生群體和實(shí)驗(yàn)室品系線粒體基因組遺傳多態(tài)性比較
2.3 遺傳分歧 小鼠不同亞種間的K2P 距離為0.022~0.025,野生群體和實(shí)驗(yàn)室群體間數(shù)值差異不大(表2)。亞種內(nèi),野生群體和實(shí)驗(yàn)室群體間的K2P距離分為0.005(M.m.domesticus)、0.006(M.m.musculus)和0.007(M.m.castaneus)。不同亞種的野生群體間Fst值分別是0.687(castaneus/musculus)、0.779(domesticus/musculus)和0.722(domesticus/castaneus)(表2),同樣支持M.m.musculus 和M.m.castaneus 之間更近的親緣關(guān)系。不同亞種的實(shí)驗(yàn)室群體之間的Fst 值顯著大于野生群體間(castaneus/musculus:0.910;domesticus/musculus:0.912;domesticus/castaneus:0.916)。亞種內(nèi),野生群體和實(shí)驗(yàn)室群體間的Fst 值分別為0.117(M.m.musculus)、0.189(M.m.castaneus)和0.231(M.m.domesticus)。
表2 小鼠野生群體與實(shí)驗(yàn)室品系線粒體基因組K2P 遺傳距離(對(duì)角線以下)和Fst 值(對(duì)角線以上)
進(jìn)一步分析顯示,線粒體基因組不同功能分類序列(蛋白質(zhì)編碼基因、RNA 基因、非編碼區(qū)序列)在野生群體和實(shí)驗(yàn)室群體之間的分歧水平顯著不同,而且3 個(gè)亞種的分析結(jié)果趨勢(shì)一致(表3)。蛋白質(zhì)編碼基因和RNA 基因積累了分歧水平較高,而非編碼區(qū)序列積累的分歧很小。
表3 小鼠野生群體與實(shí)驗(yàn)室品系線粒體基因組不同功能類型序列間的Fst 值
2.4 線粒體蛋白質(zhì)編碼基因的核苷酸組成、密碼子使用和演化模式 對(duì)于相同的蛋白質(zhì)編碼基因,第1 位和第2 位密碼子的堿基組成在所有6 個(gè)分析組中都相同或相近。有4 個(gè)基因(ND1、ND2、ND4L 和Cytb)的第3 位密碼子堿基含量在不同亞種之間差異明顯(附錄)。Atp8 基因非常特殊,其第1 位碼子(7.0%~7.4%)和第2 位密碼子(4.4%)的鳥嘌呤含量特別低。ND6 基因是唯一在輕鏈上表達(dá)的蛋白質(zhì)編碼基因,其堿基組成獨(dú)特:第1 位密碼子的鳥嘌呤含量(1.2%~1.8%)極低;第1 位密碼子(49.6%~50.4%)和第2 位密碼子(46.8%~47.6%)腺嘌呤的含量非常高。
野生群體中,3 個(gè)亞種的同義密碼子使用頻率差異小,氨基酸使用頻率非常相近(圖2)。使用頻率較高的氨基酸為亮氨酸(Leu)、異亮氨酸(Ile)、絲氨酸(Ser)和蘇氨酸(Thr)。在亞種內(nèi),野生群體和實(shí)驗(yàn)室群體的同義密碼子使用頻率差異明顯,導(dǎo)致氨基酸使用頻率的差異顯著。有趣的是,3 個(gè)亞種的實(shí)驗(yàn)室群體密碼子使用頻率變化趨勢(shì)一致(圖2)。
圖2 小鼠3 個(gè)亞種12 個(gè)線粒體基因組蛋白質(zhì)編碼基因的密碼子使用頻率
為了檢測(cè)由重鏈編碼的12 個(gè)蛋白質(zhì)編碼基因的演化模式,以M.spretus(NC_025952)為外群計(jì)算了Ka、Ks 和Ka/Ks(附錄)??傮w上,所有分析組12 個(gè)基因的Ka/Ks 值均<0.3,甚至絕大多數(shù)的值均<0.05。
系統(tǒng)發(fā)育樹的結(jié)果表明:來(lái)自中國(guó)北方的12 只小鼠樣本屬于M.m.musculus 亞種,而來(lái)自中國(guó)南方的8 只小鼠樣本屬于M.m.castaneus 亞種。該結(jié)果與之前中國(guó)小鼠亞種組成及分布研究的結(jié)論[14]一致。在M.m.musculus 分支中,中國(guó)小鼠樣本的分布特征支持該亞種從中亞經(jīng)由中國(guó)西北邊境進(jìn)入中國(guó)境內(nèi),并逐漸向東、向南擴(kuò)散[14,20]。之前根據(jù)線粒體非編碼區(qū)序列構(gòu)建的系統(tǒng)樹[14]和本文基于線粒體全基因組序列構(gòu)建的系統(tǒng)樹(圖1)都提示:臺(tái)灣的小鼠很可能由不同地區(qū)的祖先(如中國(guó)大陸地區(qū)、東南亞地區(qū))經(jīng)不同的路線遷入。需要更多來(lái)自臺(tái)灣地區(qū)的小鼠基因組數(shù)據(jù)進(jìn)一步確定該結(jié)論。由系統(tǒng)樹確定的小鼠實(shí)驗(yàn)室品系的母系來(lái)源與公共基因庫(kù)GenBank中的記錄結(jié)果一致:絕大多數(shù)的品系都是M.m.domesticus 母系祖先的后代(圖1)。同時(shí),本研究結(jié)果也支持M.m.musculus 和M.m.castaneus 兩個(gè)亞種之間更近的親緣關(guān)系[21-22]。
由于樣本數(shù)量增加,本研究檢測(cè)到M.m.castaneus和M.m.musculus 線粒體基因組的π 比之前的研究結(jié)果[20]顯著提高。已知小鼠實(shí)驗(yàn)室品系的基因組是不同亞種祖先基因組的混合[8,10]。本研究根據(jù)線粒體基因組數(shù)據(jù)構(gòu)建的系統(tǒng)樹(圖1)和根據(jù)不同類型的單分子標(biāo)記研究結(jié)果[10,23]都表明:實(shí)驗(yàn)室品系培育中最主要的貢獻(xiàn)者是M.m.domesticus 亞種,之后是M.m.musculus 亞種,而M.m.castaneus 亞種涉及較少。實(shí)驗(yàn)室小鼠的遺傳變異水平顯著低于野生群體(表1),與之前的報(bào)道[10,24]一致。所以,僅針對(duì)實(shí)驗(yàn)室品系進(jìn)行的遺傳學(xué)研究確實(shí)會(huì)遺漏與復(fù)雜性狀相關(guān)的重要遺傳信息,野生小鼠群體應(yīng)該作為生物醫(yī)學(xué)研究的重要補(bǔ)充資源。K2P 距離和Fst 是用來(lái)衡量種或亞種內(nèi)不同群體間遺傳分歧的常用參數(shù)。根據(jù)對(duì)Fst值的分類定義[25],以上結(jié)果說(shuō)明小鼠野生群體和實(shí)驗(yàn)室群體之間已經(jīng)積累了顯著的遺傳分歧。
實(shí)驗(yàn)室環(huán)境和自然環(huán)境的選擇壓力不同,功能序列(蛋白質(zhì)編碼基因和RNA 基因)要比非編碼區(qū)序列承受更大的選擇壓力[26],它們更可能在不同的選擇壓力下通過(guò)固定不同的堿基突變而積累遺傳差異。
堿基組成是基因組DNA 的重要特征,堿基突變和突變恢復(fù)之間的平衡是核苷酸頻率的決定因素,而G/C 堿基比率能反映DNA 序列的總體突變趨勢(shì)[27]。自然選擇壓力和突變壓力都會(huì)影響第1 位和第2 位密碼子的堿基組成;第3 位密碼子的突變對(duì)翻譯后氨基酸種類的影響很小,所以受自然選擇壓力較小,只有突變壓力對(duì)其發(fā)揮作用[9]。
線粒體基因組中12 個(gè)重鏈(H 鏈)表達(dá)的蛋白質(zhì)編碼基因的堿基組成表現(xiàn)出哺乳動(dòng)物和鳥類線粒體基因組蛋白質(zhì)編碼基因的一般特征。例如,第2 位密碼子胸腺嘧啶(T)的含量在3 位密碼子中是最高的;第3 位密碼子腺嘌呤(A)的含量在3 位密碼子中是最高的;第3 位密碼子鳥嘌呤(G)的含量在3 位密碼子中是最低的;3 位密碼子中腺嘌呤和胸腺嘧啶的含量之和(A+T)總是大于胞嘧啶和鳥嘌呤含量之和(C+G)[28]。一個(gè)基因的密碼子頻率與同義密碼子的使用頻率緊密相關(guān)。在演化過(guò)程中,同一個(gè)物種不同地理群體或不同物種的相同基因可能要承受不同突變壓力或自然選擇壓力[29]。小鼠線粒體基因組中12 個(gè)由重鏈表達(dá)的蛋白質(zhì)編碼基因共包含3 626 個(gè)密碼子(不含終止密碼子)。野生群體中,3 個(gè)亞種的同義密碼子使用頻率差異較小,氨基酸使用頻率非常相近。在每個(gè)亞種內(nèi),野生群體和實(shí)驗(yàn)室群體的同義密碼子使用頻率差異明顯,導(dǎo)致氨基酸使用頻率的顯著差異。而且,3 個(gè)亞種的實(shí)驗(yàn)室群體密碼子使用頻率變化趨勢(shì)一致。11 種氨基酸(苯丙氨酸-Phe、亮氨酸-Leu*、異亮氨酸-Ile*、蛋氨酸-Met、纈氨酸-Val、蘇氨酸-Thr、丙氨酸-Ala、天冬氨酸-Asn*、半胱氨酸-Cys、精氨酸-Arg 和甘氨酸-Gly)的使用頻率在實(shí)驗(yàn)室群體中是上升的,而8 種氨基酸(絲氨酸-Ser、脯氨酸-Pro、絡(luò)氨酸-Tyr*、組氨酸-His*、谷氨酰胺-Gln*、天冬氨酸-Asp、谷氨酸-Glu 和色氨酸-Trp)的使用頻率在實(shí)驗(yàn)室群體中是下降的。星號(hào)標(biāo)示的氨基酸使用量變化>30。當(dāng)針對(duì)不同的實(shí)驗(yàn)室單倍型序列分別計(jì)算時(shí),結(jié)果沒(méi)有明顯變化。以上結(jié)果表明:來(lái)自實(shí)驗(yàn)室環(huán)境和自然環(huán)境的不同選擇壓力明顯地影響了線粒體基因組中蛋白質(zhì)編碼基因的密碼子使用頻率。
選擇壓力分析(Ka/Ks)表明這些基因在野生群體和實(shí)驗(yàn)室群體中都經(jīng)受純化選擇的影響。對(duì)每一個(gè)基因來(lái)說(shuō),3 個(gè)亞種的Ka、Ks 和Ka/Ks 值都不同,提示亞種特異性的演化過(guò)程。每個(gè)基因的相關(guān)數(shù)值在野生群體中變化范圍較大,但是來(lái)自相同地區(qū)的序列所得數(shù)值相同或相近;實(shí)驗(yàn)室品系基因序列的數(shù)值比較一致,而且與最近親緣祖先的值非常相近(圖1)。相對(duì)于野生親緣祖先,部分實(shí)驗(yàn)室單倍型序列的Ka、Ks 和Ka/Ks 值表現(xiàn)出不同程度的上升或下降,提示出所受純化選擇壓力的放松或增強(qiáng)[30]。之前的研究[5,9]認(rèn)為,相比野生親緣祖先,實(shí)驗(yàn)室自交系的線粒體DNA 具有更高的堿基替代率,而且基因純化選擇壓力放松。本研究基于大樣本量線粒體基因組序列的分析清楚地顯示:不同的實(shí)驗(yàn)室單倍型序列表現(xiàn)出多樣的變化趨勢(shì)。例如,Cytb 基因的M.m.castaneus 實(shí)驗(yàn)室單倍型Hap 8 和Hap 9 相對(duì)于野生祖先表現(xiàn)出明顯的純化選擇加強(qiáng),其Ka 值下降、Ks 值上升、Ka/Ks 值下降;在M.m.musculus 實(shí)驗(yàn)室單倍型Hap 1~Hap 7 中,該基因表現(xiàn)出純化選擇壓力的放松,其Ka 值和Ka/Ks 值都上升;在M.m.domesticus 實(shí)驗(yàn)室品系中,有些單倍型呈現(xiàn)純化選擇壓力加強(qiáng),一些單倍型呈現(xiàn)純化選擇壓力放松,還有些單倍型的值與野生親緣祖先相同。這些結(jié)果表明,小鼠實(shí)驗(yàn)室品系中線粒體基因組蛋白質(zhì)編碼基因的具體演化過(guò)程比之前猜想的更加復(fù)雜,但是其演化模式與野生群體相比并沒(méi)有明顯不同。
針對(duì)小鼠野生群體和實(shí)驗(yàn)室品系線粒體基因組進(jìn)行的比較分析揭示了不同環(huán)境下小鼠線粒體基因組變異的特征。研究證明現(xiàn)有實(shí)驗(yàn)室品系僅包含小鼠自然遺傳多態(tài)性的極小部分,有必要利用更大量野生奠基群體培育更多的新品系。野生群體和實(shí)驗(yàn)室品系的線粒體基因組已經(jīng)積累了明顯的遺傳分歧,而且不同功能分類序列由于承受選擇壓力不同導(dǎo)致分歧程度不同。雖然野生群體和實(shí)驗(yàn)室品系的線粒體基因組蛋白質(zhì)編碼基因的密碼子堿基組成很相近,但是密碼子使用頻率卻有明顯差異,導(dǎo)致20種氨基酸的使用頻率發(fā)生明顯變化。相對(duì)于野生祖先,不同的實(shí)驗(yàn)室單倍型序列表現(xiàn)出多樣的Ka、Ks和Ka/Ks 值變化趨勢(shì),提示不同實(shí)驗(yàn)室品系中線粒體基因的演化過(guò)程比較復(fù)雜。本研究結(jié)果有助于更全面了解小鼠實(shí)驗(yàn)室品系培育過(guò)程中線粒體基因組演化特征及與野生群體的差異。
南通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2022年5期