賴瑞聯(lián) 沈朝貴 馮新 陳義挺 韋曉霞 吳如健
關(guān)鍵詞:橄欖;轉(zhuǎn)錄組;簡單重復(fù)序列;單核苷酸多態(tài)性;插入缺失標(biāo)記
中圖分類號:S667.5 文獻標(biāo)識碼:A
橄欖(Canarium album)是我國熱帶亞熱帶地區(qū)特色果樹,其果實富含多種營養(yǎng)和藥用成分,在我國福建、廣東、四川、廣西等地區(qū)廣泛栽培。福州市是我國橄欖最主要的產(chǎn)地之一,“福州橄欖”品牌于2011 年獲得農(nóng)業(yè)部地理標(biāo)志保護品牌,2017 年品牌價值評估達20.80 億元人民幣,入選全國農(nóng)產(chǎn)品百強[1]。福州市傳統(tǒng)栽培的橄欖品種主要包括長營、惠圓、檀香、自來圓等。其中,長營和惠圓的果實性狀存在明顯差異,長營可食率約為78.40%,可供鮮食或加工,在長營基礎(chǔ)上選育出了一系列鮮食品種,例如福欖1 號(光甜)[2]、清欖1 號[3]、福欖2 號[4]等;惠圓可食率約為85.20%,因鮮食品質(zhì)較差,主要以加工為主,通過惠圓選育出了惠圓1 號[5]、惠圓3 號[6]等橄欖加工品種。作為我國特色果樹產(chǎn)業(yè),品質(zhì)性狀提升是橄欖科研創(chuàng)新的重要命題。目前,在橄欖品種選育[2, 7]、性狀評價[8-9]、品質(zhì)模型[10]、遺傳背景[11]等方面都開展了大量研究。值得注意的是,橄欖童期較長,開發(fā)果實性狀相關(guān)分子標(biāo)記用于育種材料初步篩選可有效提高種質(zhì)創(chuàng)新和育種效率。而現(xiàn)階段,橄欖果實性狀形成分子機制研究及相關(guān)標(biāo)記的開發(fā)仍處于空白,限制了橄欖分子輔助育種進程。
DNA 分子標(biāo)記鑒定是植物分子輔助育種重要技術(shù)手段,尤其是具有高靈敏度、高特異性的簡單重復(fù)序列標(biāo)記(simple sequence repeats, SSR)和單核苷酸多態(tài)性標(biāo)記(single nucleotide polymorphism,SNP)在許多植物中得到了有效應(yīng)用。?AHIN 等[12] 篩選了抗霜霉病相關(guān)的向日葵(Helianthus annuus)SSR 標(biāo)記并成功應(yīng)用于向日葵輔助育種;GHARSALLAH 等[13]結(jié)合表型和SSR 標(biāo)記挖掘了番茄(Lycopersicon esculentum)品種耐鹽特性相關(guān)位點,有效提高了番茄耐鹽脅迫育種效率;TERAKAMI 等[14]采用SSR 標(biāo)記對中國梨(Pyrus ussuriensis)黑斑病易感基因進行了定位,為梨抗黑斑病輔助育種提供了重要途徑。
在SNP 開發(fā)相關(guān)研究中,TAN 等[15]開發(fā)了小麥(Triticum aestivum)抗黑森癭蚊基因的SNP 標(biāo)記,可用于進一步指導(dǎo)小麥育種;KIM 等[16]通過轉(zhuǎn)錄組測序挖掘了蘿卜(Raphanus sativus)SNP標(biāo)記用于蘿卜種子的鑒定、純度檢測和親本組合的調(diào)整;FROUIN 等[17]鑒定了水稻(Oryza sativa)預(yù)防砷吸收和積累相關(guān)的SNP 位點,為水稻相關(guān)育種提供了參考依據(jù)。目前,橄欖轉(zhuǎn)錄組測序相關(guān)研究也取得了一定進展,為分子標(biāo)記開發(fā)奠定了良好的基礎(chǔ)[18]。在前期研究基礎(chǔ)上,本研究基于轉(zhuǎn)錄組數(shù)據(jù)對具有不同性狀的橄欖品種長營和惠圓的果實進行SSR 和SNP/InDel 特征分析,以期為橄欖果實性狀相關(guān)分子標(biāo)記開發(fā)提供數(shù)據(jù)基礎(chǔ)。
1 材料與方法
1.1 材料
供試材料為長營和惠圓橄欖品種的果實,取自福建省農(nóng)業(yè)科學(xué)院果樹研究所橄欖種質(zhì)資源圃(26° 07′40″N,119°20′16″E)。以孔祥佳等[19]建立橄欖果實成熟度評價體系為參考標(biāo)準(zhǔn),采集不同品種成熟、健康、無機械病蟲損傷的果實,充分洗凈后用液氮速凍,并置于超低溫冰箱中保存?zhèn)溆谩?/p>
1.2 方法
1.2.1 RNA提取與檢測 采用植物多糖多酚試劑盒E.Z.N.A.TM Plant RNA Kit 提取果實總RNA,采用1.0%瓊脂糖凝膠電泳和Agilent 2100 bioanalyzer(Agilent Technologies, USA)檢測總RNA的完整性, 隨后利用NanoPhotometer spectrophotometer(IMPLEN, USA)檢測總RNA 的純度。
1.2.2 文庫構(gòu)建與質(zhì)檢 取1 μg 橄欖果實總RNA,采用NEBNext? UltraTM RNA Library Kit試劑盒(Illumina, USA)進行建庫。首先使用Oligo(dT)磁珠富集帶有polyA 尾的mRNA,使用二價陽離子在高溫下在NEBNext 第一鏈合成反應(yīng)緩沖液(5×)中進行裂解,使用隨機寡核苷酸引物和M-MuLV 逆轉(zhuǎn)錄酶體系合成cDNA 第一鏈。隨后使用RNaseH 酶降解RNA 鏈,再通過DNA 聚合酶I 合成cDNA 第二鏈。純化后的cDNA 進行末端修復(fù)、加A 尾、連接測序接頭,隨后使用AMPure XPbeads 篩選長度為250~300 bp 的cDNA片段,經(jīng)PCR擴增后進行PCR 產(chǎn)物純化,最終獲得文庫。采用Qubit 2.0 Fluorometer(Invitrogen,USA)和Agilent2100 bioanalyzer 進行文庫質(zhì)量檢測,隨后采用qRT-PCR 對文庫進行定量,篩選有效濃度高于2.0 nmol/L 的文庫后用于后續(xù)測序。
1.2.3 RNA 測序與數(shù)據(jù)組裝 采用TruSeq PECluster Kit v3 cBot HS(Illumina, USA)對樣本進行聚類,隨后在Illumina Novaseq 平臺上對制備的文庫進行測序,并產(chǎn)生150 bp 配對末端讀數(shù)。測序片段的圖像數(shù)據(jù)經(jīng)CASAVA 轉(zhuǎn)化為fastq 格式的序列數(shù)據(jù)文件,去除帶測序接頭、無法確定堿基信息以及低質(zhì)量的reads,最終獲得高質(zhì)量的clean reads。隨后采用TRINITY 軟件[20]將cleanreads 拼接成transcripts,再采用CORSET 軟件[21]進行層次聚類后得到最長cluster 序列作為unigene用于后續(xù)分析。每個樣本進行3 次生物學(xué)重復(fù)。
1.2.4 SSR 位點鑒定 采用MISA 1.0 軟件[22]篩選和識別unigene,并對轉(zhuǎn)錄組SSR 位點進行分析,鑒定出單堿基重復(fù)、雙堿基重復(fù)、三堿基重復(fù)、四堿基重復(fù)、五堿基重復(fù)和六堿基重復(fù)等類型的橄欖果實SSR。采用Microsoft Excel 2013 軟件進行數(shù)據(jù)分析和圖表制作。
1.2.5 SNP/InDel 分型與特征分析 采用Picardtoolsv1.41 和Samtools v0.1.18 軟件進行排序并刪除重復(fù)數(shù)據(jù),同時合并每個樣本的校準(zhǔn)結(jié)果,并采用GATK3 軟件v3.4 版本[23]默認(rèn)參數(shù)進行SNP位點檢測和數(shù)據(jù)統(tǒng)計。
2 結(jié)果與分析
2.1 橄欖果實的SSR 位點檢測
2.1.1 SSR 位點數(shù)量 通過長營和惠圓橄欖品種果實轉(zhuǎn)錄組測序, 6 個測序樣本平均獲得22 813 726 bp 的raw reads,過濾后的clean reads為22 019 057 bp,原始數(shù)據(jù)過濾后的平均堿基數(shù)為6.61 Gb,整體測序錯誤率約為0.02%,Q20 和Q30 分別為98.11%和94.19%,說明測序結(jié)果較好,可用于后續(xù)分析。拼接后,共獲得125 021條轉(zhuǎn)錄本和44 062 條unigenes,這些unigenes 包含54 735 280 bp 核苷酸。采用MISA1.0 對獲得的unigenes 進行SSR 位點鑒定,總共在10 124 條unigenes 上鑒定到13 935 個SSR 位點,發(fā)生頻率為22.98%,平均每1 kb 序列出現(xiàn)0.25 個SSR 位點。這些SSR 分布的unigenes 中,2657 條序列包含1 個以上的SSR 位點,1072 條序列包含復(fù)合型SSR 位點??梢?,橄欖果實轉(zhuǎn)錄組中廣泛分布SSR 位點。
2.1.2 SSR 重復(fù)基元類型 橄欖果實SSR 位點的重復(fù)基元類型如表1 所示。SSR 重復(fù)基元類型較為豐富,除了含有單堿基重復(fù)到六堿基重復(fù)6 種類型,還包含977 種復(fù)雜重復(fù)類型。對單堿基重復(fù)到六堿基重復(fù)的SSR 類型進一步分析發(fā)現(xiàn),單堿基重復(fù)的SSR 類型最多,達到9308 個,占全部SSR 位點的66.80%,隨著重復(fù)基元堿基數(shù)的增加,類型數(shù)量逐漸減少,六堿基重復(fù)的SSR 類型僅有65 個,占全部SSR 位點的0.47%。從SSR位點的出現(xiàn)頻率和分布距離來看,單堿基重復(fù)的SSR 位點類型分別為21.12%和5.88 kb,而六堿基重復(fù)的SSR 位點類型分別為0.15%和842.08 kb。結(jié)果可見,不同重復(fù)基元類型的SSR 位點數(shù)目和分布存在較大差異。
2.1.3 SSR 序列長度分布 不同重復(fù)基元的橄欖果實SSR 類型的序列長度為10~320 bp,平均長度為36.19 bp。對其中單堿基重復(fù)基元到六堿基重復(fù)基元的SSR 序列進一步分析發(fā)現(xiàn)(表2),整體上序列長度為10~72 bp,平均長度為14.34 bp。其中,長度差異最大的是單堿基重復(fù)的SSR 類型,介于10~64 bp 之間,平均長度為12.85 bp;差異最小的為五堿基重復(fù)的SSR類型,介于25~30 bp之間,平均長度為25.68 bp。
2.1.4 SSR 優(yōu)勢重復(fù)基元分布特征 橄欖果實SSR 位點基元數(shù)量統(tǒng)計分析結(jié)果如圖1 所示。分布頻率最高的基元分別是A/T(9290個,占比66.67%)、AG/CT(1304 個,占比9.36)、AT/AT(857 個,占比6.15%)、AAT/ATT(421 個,占比3.02%)、AAG/CTT(392 個,占比2.81%)。對不同SSR 重復(fù)基元類型的出現(xiàn)頻數(shù)進行分析發(fā)現(xiàn),所有SSR 位點共出現(xiàn)105 種重復(fù)基元,單堿基到六堿基重復(fù)的基元類型分別為2、4、10、21、29、39 種。單堿基重復(fù)基元到六堿基重復(fù)基元中的優(yōu)勢重復(fù)基元分別為A/T、AG/CT、AAT/ATT、AAAT/ATTT ( 65 個, 占比0.47% )、AAGAG/CTCTT (10個, 占比0.07% ) 和AGATGG/ATCTCC(5 個,占比0.04%)。
2.1.5 SSR 各基元類型重復(fù)次數(shù) 橄欖果實SSR位點不同基元類型的重復(fù)次數(shù)統(tǒng)計結(jié)果如圖2 所示。其中,單堿基重復(fù)基元的重復(fù)次數(shù)主要分布在9~12 和13~16 之間,分別占SSR 位點總數(shù)的41.69%和17.22%,占單堿基重復(fù)基元總數(shù)的62.42%和25.77%;雙堿基到六堿基重復(fù)基元的重復(fù)次數(shù)均主要集中在5~8,分別占對應(yīng)重復(fù)基元總數(shù)的68.67%、93.55%、98.30%、100%和98.46%。不同重復(fù)基元類型的SSR 位點數(shù)量隨著重復(fù)次數(shù)的增多呈遞減趨勢。
2.2 橄欖果實的SNP/InDel 的特征分析
基于轉(zhuǎn)錄組數(shù)據(jù)進行不同性狀橄欖品種果實SNP/InDel 挖掘。共獲得284 992 個SNP 位點,平均每1 kb 序列含有5.21 個。其中,轉(zhuǎn)換類型的SNP 位點共166 162 個,C/T 和A/G 發(fā)生頻率相近,每1 kb 序列分別含有1.51 個和1.52 個。顛換類型的SNP 位點共118 830 個,每1 kb 序列中A/T、A/C、T/G 和C/G 的平均個數(shù)分別為0.63、0.53、0.54 和0.47。轉(zhuǎn)換類型的SNP 位點(3.03個)的發(fā)生頻率明顯高于顛換類型(2.18 個)。其中,第1、2 和3 位上發(fā)生SNP 突變的密碼子數(shù)量分別為51 513、25 378 和50 306。在這些SNP 位點中,4479 條unigenes 包含1 個SNP 位點,3096 條unigenes 包含2 個SNP 位點,2419條unigenes 包含3 個SNP 位點,隨著SNP 位點數(shù)增多,unigenes 的數(shù)量逐漸減少(圖3A)。值得注意的是,其中的14 條unigenes 包含有100個以上的SNP 位點(表3),其中的9 條unigenes得到了功能注釋,仍有5 條unigenes 在所有數(shù)據(jù)庫中未得到有效比對,這些存在高頻SNP 變異的unigenes 可能在果實性狀差異形成過程中發(fā)揮了重要功能。
基于轉(zhuǎn)錄組測序數(shù)據(jù),共獲得18 548 個InDel位點,平均每1 kb 序列含有2.95 個,其分布變化趨勢與SNP 相似(圖3B),unigenes 中含有1 個InDel 位點的數(shù)量最多,達到7853 條。InDel 位點最多的是Cluster-4594.16496,達到24 個InDel位點,通過比對預(yù)測,其可能是胼胝質(zhì)合成酶。
3 討論
3.1 轉(zhuǎn)錄組測序可有效開發(fā)橄欖SSR 和SNP/InDel 標(biāo)記
轉(zhuǎn)錄組測序是植物SSR 和SNP/InDel 標(biāo)記開發(fā)有效的技術(shù)手段。VIDYA 等[24]從生姜(Zingiberofficinale)轉(zhuǎn)錄組中挖掘了16 790 個EST-SSR 位點,其中4597 個SSR 位點分布在已預(yù)測的編碼基因中;ZHOU 等[25]從楠木(Phoebe bournei)轉(zhuǎn)錄組中鑒定了40 853 個SSR 位點,并對其中23個多態(tài)性EST-SSR 標(biāo)記進行應(yīng)用;TULSANI 等[26]從芫荽(Coriandrum sativum)轉(zhuǎn)錄組中鑒定到了9746 個SSR 位點,為其轉(zhuǎn)錄組草圖和基因標(biāo)記提供了重要信息;XU 等[27]基于轉(zhuǎn)錄組測序從草珊瑚(Sarcandra glabra)中挖掘了726 476 個SNP位點和42 939 個InDel 位點,為其資源開發(fā)奠定了基礎(chǔ)。本研究采用Illumina Novaseq 測序平臺,從不同性狀的橄欖果實中分別挖掘了13 935 個SSR 位點、284 992 個SNP 位點和18 548 個InDel位點,為后續(xù)橄欖分子標(biāo)記開發(fā)和應(yīng)用奠定了數(shù)據(jù)基礎(chǔ)。
3.2 橄欖果實中存在豐富多樣的SSR位點
SSR 標(biāo)記具有多態(tài)性高、分辨率高、通用性好、穩(wěn)定性強等優(yōu)點,是物種種質(zhì)資源鑒定、遺傳連鎖圖譜構(gòu)建、基因定位、數(shù)量性狀基因位點分析、分子標(biāo)記輔助育種等研究的重要技術(shù)手段[28]。本研究通過轉(zhuǎn)錄組高通量測序,在10 124條unigenes 上鑒定到13 935 個SSR 位點,發(fā)生頻率為22.98%。其中,單堿基重復(fù)基元類型的SSR位點最多并且單堿基重復(fù)是橄欖果實的優(yōu)勢重復(fù)基元,隨著重復(fù)堿基數(shù)量的增加,SSR 位點出現(xiàn)頻率下降,與油梨(Persea americana)[29]、甜柿(Diospyros kaki)[30]、香椿(Toona sinensis) [31]等物種的規(guī)律一致。橄欖果實中的優(yōu)勢重復(fù)基元主要包括A/T 、AG/CT 、AT/AT 、AAT/ATT、AAG/CTT 等,尤其A/T 的比例達到66.67%,與甜柿[30]、龍眼(Dimocarpus longan)[32]、油梨[29]等其他物種存在一定的相似性,但仍有差異,可見SSR 位點分布存在物種特異性。此外,橄欖果實SSR 位點中也發(fā)現(xiàn)了6 個CG/CG 和29 個CCG/CGG 重復(fù)基元,其在雙子葉植物中較為少見[30],可能在橄欖進化過程中發(fā)揮特殊的生物學(xué)功能。從多態(tài)性上看,通常認(rèn)為長度大于20 bp的SSR 位點具有較高的多態(tài)性[33],橄欖果實中四堿基、五堿基和六堿基重復(fù)的SSR 位點長度均在20 bp 以上,具有更高的多態(tài)性,可能具有較高的應(yīng)用價值。
3.3 橄欖果實中廣泛分布SNP/InDel位點
SNP/InDel 具有高效性、準(zhǔn)確性,并且與作物性狀密切相關(guān)。本研究基于轉(zhuǎn)錄組測序,共檢測到橄欖果實284 992 個SNP 位點,平均每1 kb 序列含有5.21 個SNP 位點。其中,轉(zhuǎn)換和顛換類型的比例為1.398,與理論值0.500 存在較大偏差,說明橄欖進化過程中對不同類型的選擇并非隨機而可能存在偏向性[34]。此外,本研究共獲得橄欖果實18 548 個InDel 位點,每1 kb 序列平均包含2.95 個InDel 位點。后續(xù)還應(yīng)進一步針對SNP/InDel位點進行深入研究,開發(fā)橄欖果實性狀相關(guān)的特異性分子標(biāo)記,為橄欖種質(zhì)資源鑒定和分子輔助育種提供技術(shù)支撐。