黃新芯,蔣艷琳,蔣小姿,楊天燕
(浙江海洋大學水產(chǎn)學院,浙江舟山 316022)
微衛(wèi)星DNA(Microsatellite DNA)又稱為簡單重復(fù)序列(simplesequence repeat,SSR),是生物基因組,尤其是高等生物基因組中廣泛分布的以1~6 個核苷酸為基元,首尾串聯(lián)而成的重復(fù)序列[1],具有遺傳變異水平高、重復(fù)序列多、數(shù)量豐富、呈共顯性遺傳、引物具有通用性等特點[2-4]。微衛(wèi)星最早發(fā)現(xiàn)于人類基因組中[5],有關(guān)魚類微衛(wèi)星的研究是從虹鱒Oncorhynchus mykiss 開始的,而后大西洋鮭Salmo salar、大西洋鱈魚Gadus morhua、羅非魚Oreochromis niloticus 等多種魚類微衛(wèi)星位點也得到了開發(fā)[6]。發(fā)展至今,高度多態(tài)性的微衛(wèi)星分子標記技術(shù)已十分成熟[7],在多種水產(chǎn)動物群體遺傳結(jié)構(gòu)和遺傳多樣性、遺傳連鎖圖譜構(gòu)建,系統(tǒng)發(fā)育和親緣關(guān)系鑒定等研究領(lǐng)域得到了廣泛應(yīng)用[8]。
龍頭魚Harpadon nehereus 俗稱豆腐魚、水潺或狗母魚,隸屬于是燈籠魚目Myctophiformes,龍頭魚科Harpadontidae,龍頭魚屬Harpadon[9],是廣泛分布于印度洋和西太平洋沿岸水域的中下層魚類,在我國主要集中于黃海南部、東海以及南海河口[10]。20 世紀80 年代以來,以龍頭魚為代表的中小型魚類生物量呈迅猛增加趨勢,已成為我國近海漁業(yè)優(yōu)勢種,經(jīng)濟地位和生態(tài)價值也得到提升[11]。然而近年來,由于海洋生態(tài)環(huán)境破壞和捕撈壓力的增大,包括孟加拉灣以及我國東海在內(nèi)的部分海區(qū)龍頭魚群體逐漸呈現(xiàn)出低齡化、小型化趨勢[12-14]。如何保護與合理開發(fā)利用龍頭魚生物資源已成為亟待解決的現(xiàn)實問題。
已有的研究工作主要立足于通過種群的動態(tài)監(jiān)測和生物學特征的測定來反映龍頭魚資源狀況,從群體遺傳學角度揭示其遺傳多樣性水平的研究報道則多以線粒體基因組序列分析為主。李海燕等[15]和XU T J,et al[16]曾采用磁珠富集法開發(fā)龍頭魚微衛(wèi)星標記,但由于操作步驟繁瑣、技術(shù)難度大,開發(fā)微衛(wèi)星位點數(shù)量有限,難以滿足進一步研究需求。近年來,隨著以Roche 公司的454 技術(shù)、Illumina 公司的Solexa、Hiseq 技術(shù)和LifeTechnologies 公司的Solid 技術(shù)為代表的二代高通量測序技術(shù)的發(fā)展[17],多種海洋生物微衛(wèi)星分子標記的大規(guī)模開發(fā)得以實現(xiàn),然而至今未見到采用高通量測序數(shù)據(jù)開發(fā)龍頭魚微衛(wèi)星分子標記的相關(guān)報道。本研究采用新一代Illumina 高通量測序技術(shù)對龍頭魚肌肉組織轉(zhuǎn)錄組進行測定分析,挖掘微衛(wèi)星序列信息,探討其分布、組成和長度等特征,以期為龍頭魚及其近緣物種多態(tài)性分子標記的有效開發(fā)及遺傳多樣性研究提供基礎(chǔ)信息,為其資源的合理開發(fā)與可持續(xù)利用政策的制定提供遺傳學依據(jù)。
用于轉(zhuǎn)錄組測序的龍頭魚樣品于2020 年5 月采自浙江舟山近海。剪取適量樣品背部肌肉裝入含有RNAhold 保存液的凍存管中保存,送至上海生工生物工程股份有限公司進行cDNA 文庫構(gòu)建和基于Illumina HiseqTM2500 平臺的轉(zhuǎn)錄組測序。
測序獲得的龍頭魚樣本轉(zhuǎn)錄組Raw data 經(jīng)FastQC 和Trimmomatic[18]軟件進行質(zhì)量評估和剪切,去除接頭、樣品標識序列、低質(zhì)量reads 以及帶N 堿基較多的reads,獲取Clean data。使用Trinity 軟件[19]對純凈讀數(shù)進行De nove 組裝成Transcript,去冗余取每個轉(zhuǎn)錄本聚類中最長的轉(zhuǎn)錄本作為Unigene,用于后續(xù)分析研究。
使用Micro-Satellite(MISA)[20]軟件對龍頭魚轉(zhuǎn)錄組Unigenes 中潛在的微衛(wèi)星序列(SSR)進行搜索,設(shè)置篩選條件為:基元長度1~6 bp,單堿基重復(fù)次數(shù)≥10,二堿基重復(fù)次數(shù)≥6,三、四、五、六堿基重復(fù)次數(shù)≥5。若2 個SSR 之間的距離小于100 bp,記為1 個復(fù)合微衛(wèi)星[21]。
使用Excel 軟件統(tǒng)計SSR的數(shù)量、發(fā)生頻率、出現(xiàn)頻率、分布距離與密度、重復(fù)類型、重復(fù)區(qū)段長度變化、重復(fù)基元類別。在微衛(wèi)星初始統(tǒng)計時,保持其原始重復(fù)類別,不進行歸類,如將G 和C 單獨統(tǒng)計,而在討論部分為與他人結(jié)果進行比較,考慮堿基互補配對的原則。通過以上數(shù)據(jù)的統(tǒng)計整理,分析龍頭魚轉(zhuǎn)錄組微衛(wèi)星序列的分布特征。
SSR 發(fā)生頻率=含SSR的Unigenes 總數(shù)/ Unigenes 總數(shù)
SSR 相對豐度=篩選獲得的SSR 總數(shù)/轉(zhuǎn)錄組Unigenes 總長度
SSR 平均距離=Unigenes 總長度/篩選獲得的SSR 總數(shù)
SSR 出現(xiàn)頻率=檢測所得SSR 總數(shù)/ Unigenes 總數(shù)
基于Illumina HiseqTM2500 平臺測序,總計產(chǎn)出41 886 302 條Raw reads,經(jīng)質(zhì)控得到39 233 566 條Clean reads,共計5 584 743 187 個核苷酸,GC 含量為51.39%、N 堿基比例0.02%,Q20(質(zhì)量值≥20的堿基數(shù)目所占百分比)為97.94%,Q30(堿基質(zhì)量值≥30的堿基數(shù)目所占百分比)為91.58%。經(jīng)Trinity 從頭組裝獲得35 859 條Transcripts,去冗余后得到29 756 條Unigenes,平均長度為570.45 bp,N50 為797 bp,N90為249 bp(表1)。長度大于1 Kb的Unigens 有4 120 條,占總Unigenes的13.84%,大于500 bp的有9 634條,占比32.38%。表明,本研究中轉(zhuǎn)錄組文庫的測序和組裝結(jié)果較好,可以進行后續(xù)生物學研究。
表1 轉(zhuǎn)錄組數(shù)據(jù)組裝結(jié)果統(tǒng)計表Tab.1 Statistical table of transcriptome data assembly of H.nehereus
使用MISA 軟件對總長16 974 320 bp的29 756 條Unigenes 序列進行篩選,發(fā)現(xiàn)共有6 023 個SSR 位點分布在5 085 條Unigens 中,發(fā)生頻率為17.1%,其中4 215 條Unigenes 含有單一的SSR 位點,約占序列總數(shù)的83%。去除以復(fù)合形式存在的551 個SSR 位點,獲得6 類完美型SSR 共5 652 個,總長度86 517 bp,相對豐度為332.97 個/Mb,即平均每3 Kb 出現(xiàn)1 個SSR 位點。在完美型SSR 位點中,67.59%為單堿基重復(fù)類型(3 820 個),二堿基重復(fù)類型(1 171 個)占比20.72%,三、四、五、六堿基重復(fù)類型相對較少,僅11.69%,發(fā)生頻率、相對豐度、總長度也呈現(xiàn)出同樣的趨勢(表2)。
表2 龍頭魚轉(zhuǎn)錄組不同重復(fù)類型完美型微衛(wèi)星位點分布特征Tab.2 Distribution of perfect SSR loci with different repeat types in H.nehereus transcriptome
龍頭魚轉(zhuǎn)錄組微衛(wèi)星中共檢測出重復(fù)基元148 種,其中三、四堿基重復(fù)基元種類最為豐富,分別有51、63 種,單堿基受堿基數(shù)量的限制,重復(fù)基元種類最少,僅有4 種,但在數(shù)量上占據(jù)了絕對優(yōu)勢,其中A、T 重復(fù)基元占到了總SSR 數(shù)量的65.20%,相對而言五、六堿基重復(fù)基元種類與數(shù)量分布均較少(表3)。從基元在各自重復(fù)類型中的含量來看,A 在單堿基重復(fù)中最多,達到了1 848 個,C 最少為54 個;二堿基重復(fù)以GT(16.74%),TG(16.57%),AC(16.23%),CA(12.98%)為主;三堿基重復(fù)中,占比較高的有GAG(5.72%),GAT(4.93%),TTG(4.54%),AAT(4.34%),CCT(4.34%),TTA(3.94%);四堿基重復(fù)出現(xiàn)頻率較多的是TTTG(8.21%),AAAC(7.46%),CTGT(5.22%);五、六堿各重復(fù)類型數(shù)量分布較為均勻,無明顯優(yōu)勢重復(fù)基元(圖1)。
表3 龍頭魚轉(zhuǎn)錄組SSR 中優(yōu)勢重復(fù)堿基類別Tab.3 Dominant base classes in each base repeat type in H.nehereus transcriptome
圖1 龍頭魚轉(zhuǎn)錄組中各類型微衛(wèi)星重復(fù)數(shù)分布Fig.1 Distribution of different copy numbers of various types of microsatellites in H.nehereus transcriptome
龍頭魚轉(zhuǎn)錄組微衛(wèi)星位點中,10 次重復(fù)的SSR 數(shù)量最多,達1 313 個,占SSR 總數(shù)的23.23%;其次是6,11,12 次重復(fù),位點數(shù)量均在500~800 個之間,約占總SSR 數(shù)目的33.78%(圖2)。統(tǒng)計表明,單堿基重復(fù)次數(shù)分布在6~58 次,其中11~15 次最多,占單堿基總數(shù)的47.70%;二堿基重復(fù)拷貝數(shù)在6~46 次之間,以6~10 次重復(fù)居多,共894 個,達到了該類型核苷酸總數(shù)的76.34%;三、四堿基重復(fù)次數(shù)分別分布在5~26次和5~20 次之間,尤其是5~10 次重復(fù),分別占其重復(fù)類型總數(shù)的96.45%、88.81%;五、六堿基基元重復(fù)次數(shù)均小于16 次,以5~10 次居多(表4)。
圖2 龍頭魚轉(zhuǎn)錄組中SSR 重復(fù)次數(shù)分布Fig.2 Distribution of the repeats number of SSR repeats in H.nehereus transcriptome
總的來說,該研究中SSR基元重復(fù)次數(shù)主要分布在6~10 次,對應(yīng)的SSR 位點共2 431 個,占總SSR 數(shù)目的43.01%;其次是11~15 次,共2 009 個,占比33.54%;重復(fù)次數(shù)大于25 次的位點相對較少,主要由單堿基和二堿基組成,共163 個,占SSR總數(shù)的2.89%(表4)。此外,當SSR 重復(fù)次數(shù)達到了10 次,隨著重復(fù)次數(shù)的增加其位點總數(shù)呈顯出遞減的趨勢,且單堿基重復(fù)所占的比例逐漸增大。
表4 龍頭魚轉(zhuǎn)錄組不同類型微衛(wèi)星重復(fù)次數(shù)區(qū)間分布特征Tab.4 Distribution interval of the copy number in different microsatellite motifs for H.nehereus transcriptome
龍頭魚微衛(wèi)星序列長度區(qū)間跨度較大,范圍在10~92 bp,其中六堿基重復(fù)序列長度變化最小在30~42 bp 之間;二堿基重復(fù)序列長度范圍最大,為12~92 bp;單、三、四、五、核苷酸重復(fù)序列長度范圍分別為10~58、15~78、20~80 和25~60 bp。微衛(wèi)星的多態(tài)性源于等位基因間重復(fù)單位數(shù)的不同導致的序列長度差異,根據(jù)長度的不同可將微衛(wèi)星分為2 類:具有高度多態(tài)性的Ⅰ型(重復(fù)序列長度大于等于20 bp)和中度多態(tài)性Ⅱ型(重復(fù)序列長度在12~20 bp 之間),當重復(fù)序列長度小于12 bp 時多態(tài)性較低[22]。Ⅰ與Ⅱ型微衛(wèi)星作為分子標記的潛在可用性較高[23]。在本研究中,Ⅰ型SSR 共896 條,占SSR 總數(shù)的15.85%,Ⅱ型SSR 有2 819條,占SSR 總數(shù)的49.88%(圖3)。
圖3 龍頭魚轉(zhuǎn)錄SSR 長度分布特征Fig.3 Length distribution of transcriptomic SSR in H.nehereus
近年來,隨著轉(zhuǎn)錄組測序技術(shù)在非模式生物遺傳學研究中的廣泛應(yīng)用,基于轉(zhuǎn)錄組數(shù)據(jù)挖掘微衛(wèi)星位點逐漸成為微衛(wèi)星標記開發(fā)的重要手段之一[24]。ZHENG Jian,et al[25]通過轉(zhuǎn)錄組測序開發(fā)得到了7 490 個小黃魚Larimichthys polyactis SSR 標記;SONG Chenyu,et al[26]從斑尾刺蝦虎魚Acanthogobius ommaturus 測序數(shù)據(jù)中篩選出4 756 個SSR 位點。而目前有關(guān)龍頭魚的相關(guān)研究報道較少。本研究對龍頭魚肌肉組織進行轉(zhuǎn)錄組測序,從組裝所得序列中鑒定出大量SSR 位點。相較于XU T J,et al[16]采用鏈霉親和素磁珠吸附這種傳統(tǒng)方式開發(fā)龍頭魚微衛(wèi)星,轉(zhuǎn)錄組測序經(jīng)濟、快捷且高效。同時,由于轉(zhuǎn)錄本具有較高的保守性,通過轉(zhuǎn)錄組開發(fā)得到的微衛(wèi)星在近緣物種中具有更高的通用性[27]。此外,來源于轉(zhuǎn)錄組的微衛(wèi)星標記具有特異性并與某些功能基因緊密連鎖,可為后續(xù)遺傳圖譜構(gòu)建、QTL 定位等奠定基礎(chǔ)。
本研究通過對龍頭魚轉(zhuǎn)錄組進行SSR 位點分析,在29 756 條Unigenes 中共識別位點5 652 個,出現(xiàn)頻率為18.99%,與江鱈Lota lota(16.61%)[28]和缺須盆唇魚Placocheilus cryptonemus(12.08%)[29]轉(zhuǎn)錄組微衛(wèi)星數(shù)據(jù)相比,龍頭魚轉(zhuǎn)錄組中SSR 出現(xiàn)頻率較高,但低于銀鯧Pampus argenteus(28.49%)[23],總體來說,龍頭魚轉(zhuǎn)錄組中SSR 數(shù)量保持在較為豐富的水平。從相對豐度來看,龍頭魚(0.333 SSR/Kb)遠大于大口黑鱸Micropterus salmoides(0.153 SSR/Kb)[30]、雙須骨舌魚Osteoglossum bicirrhosum(0.101 SSR/Kb)[31],低于黃唇魚Bahaba flavolabiata(0.429 SSR/Kb)[32]。造成這種差異的原因可能與物種間差異、轉(zhuǎn)錄組結(jié)構(gòu)、檢測標準、搜索軟件選擇以及SSR 位點所在基因的表達豐度有關(guān)[33]。此外,盡管本研究未采用多組織混合樣本,無法進行基因差異化表達研究,但從微衛(wèi)星標記開發(fā)角度來看,轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量及微衛(wèi)星含量均處在中上水平,能夠為分子標記開發(fā)及遺傳學研究提供充足的序列資源。
所獲得的龍頭魚轉(zhuǎn)錄組中不同類型的SSR 豐度差異較大,其中單堿基重復(fù)為最主要的重復(fù)類型。有研究推測,多數(shù)脊椎動物(包括魚類)基因組微衛(wèi)星中單堿基重復(fù)豐度最高,而在轉(zhuǎn)錄組中似乎也有同樣的趨勢,這可能與微衛(wèi)星序列越長,突變率就越高,因此穩(wěn)定性就越差有關(guān)[34]。由于單堿基重復(fù)出現(xiàn)極低多態(tài)性位點的可能性相對較大[35],為提高后續(xù)分子標記開發(fā)的可用性,在對重復(fù)堿基類型進行統(tǒng)計時可將其扣除,則余下的微衛(wèi)星以二堿基重復(fù)居多,其次是三堿基重復(fù)。一般認為,重復(fù)基元的含量與物種進化水平的高低有緊密的聯(lián)系,低級重復(fù)基元出現(xiàn)頻率高的物種進化水平較高,而高級重復(fù)基元的大量存在表明了進化時間較短或變異頻率較低,即高級基元微衛(wèi)星多態(tài)性普遍比低級基元低[36]。龍頭魚中1~3 堿基重復(fù)類型約占總SSR的97.28%,表明其可能具有較長的進化歷史較長或較高的變異頻率,開發(fā)潛力較高;4~6 堿基重類型相對較少,與團頭魴Megalobrama amblycephala[37]等研究結(jié)果相似。
龍頭魚二堿基重復(fù)以GT/AC 基元為主,與牙鲆P.olivaceus[38]一致。相對來說,GC 含量十分稀少,這一特點在翹嘴鱖Siniperca chuatsi[39]、草魚Ctenopharyngodon idella[40]、紅鰭東方鲀Takifugu rubripes[41]等水生生物轉(zhuǎn)錄組微衛(wèi)星序列中均有體現(xiàn)。已有研究表明在脊椎動物基因組中GC 重復(fù)類型較為罕見,這可能是基因組DNA 由于CpG 甲基化,胞苷酸C 易通過脫氨基作用轉(zhuǎn)變?yōu)樾叵汆奏[42]。值得注意的是,三堿基重復(fù)類型中AGG/CCT 含量較為豐富,脊椎動物和木本植物均有類似報道,但在魚類研究中并不常見[43]。AGG與生物早期生長和發(fā)育密切相關(guān),加之三堿基重復(fù)在某些遺傳疾病控制上的特殊作用,推測AGG的高頻率分布可能有助于龍頭魚早期生長調(diào)控以及控制致病基因的表達[44]。在單、四堿基重復(fù)中A/T、TTTG/CAAA 和AAAC/GTTT 基元含量豐富,體現(xiàn)出一定的A/T 優(yōu)勢,也在一定程度上對GC 含量的稀少起到了支撐作用??偟膩碚f,SSR 各堿基類型的優(yōu)勢基元分布在不同物種間存在差異,但仍然保留了一定程度的相似性。
分子標記的性能優(yōu)劣及可用性主要通過其多態(tài)性來評價,微衛(wèi)星憑借其豐富的長度多態(tài)性,成為了一種理想的分子標記[45]。目前認可度較高的有關(guān)SSR 多態(tài)性形成機制主要有2 種:一種是DNA 復(fù)制過程中聚合酶的滑移造成重復(fù)次數(shù)的差異[46];另一種是在減速分裂過程中,同源染色體及非姐妹染色單體的不對等交換和重組[47]。微衛(wèi)星多態(tài)性在基元特征上主要表現(xiàn)為重復(fù)次數(shù)的不同以及堿基數(shù)不同形成的片段長度差異。一般情況下,隨著重復(fù)次數(shù)的增加,微衛(wèi)星序列的變異性也會增加,其多態(tài)性潛力也就越大[33]。從重復(fù)次數(shù)來看,龍頭魚微衛(wèi)星基元重復(fù)次數(shù)在5~58 之間,主要集中在5~25 次,若不考慮容易發(fā)生錯配的單堿基重復(fù)類型,重復(fù)數(shù)最高達到46 次。從片段長度來看,超過60%的SSR 位點具有中度及以上水平的多樣性,表明龍頭魚轉(zhuǎn)錄組來源的SSR 具有較高的多態(tài)性潛能。
生物種群資源量的衰退常伴隨著遺傳多樣性水平的下降及遺傳結(jié)構(gòu)的改變。龍頭魚作為我國重要的海水經(jīng)濟魚類,其資源的保護與開發(fā)利用理應(yīng)受到充分的關(guān)注。本研究通過高通量測序揭示龍頭魚轉(zhuǎn)錄組中SSR 分布特征和規(guī)律,提供了高效開發(fā)多態(tài)性微衛(wèi)星標記的數(shù)據(jù)基礎(chǔ)。這些分子標記將應(yīng)用于龍頭魚群體遺傳多樣性與遺傳結(jié)構(gòu)研究,評估龍頭魚種質(zhì)資源,探討不同地理群體的遺傳差異,闡明其系統(tǒng)地理格局,進而為龍頭魚漁業(yè)管理單元的劃分提供科學依據(jù),促進龍頭魚資源的合理開發(fā)、利用與保護。同時由于微衛(wèi)星側(cè)翼序列的保守性,經(jīng)過篩選的SSR 標記有望用于其它親緣關(guān)系較近物種的研究。