普天磊 韓學琴 羅會英 鄧紅山 鄒枚伶 金杰 夏志強 王文泉
關鍵詞:辣木;SNP;雜合度;群體結構;遺傳多樣性
中圖分類號:S792.99 文獻標識碼:A
辣木(Moringa oleifera Lam.)屬于辣木科辣木屬的多年生落葉喬木,又被稱為鼓槌樹,辣木原產于印度,是埃塞俄比亞、尼日利亞、菲律賓和蘇丹的重要農作物,在非洲、美洲等熱帶亞熱帶地區(qū)均有分布,在我國的云南、海南、福建、廣州等地均有種植[1]。辣木有13 個種,其葉片中約含有20%~30%的蛋白質,葉片、花、果實含有豐富的維生素A、維生素B、維生素C 和鈣、鎂等礦物質,種子含高油酸,可用作化妝品、烹飪和機械潤滑油,種子榨油后的剩余物可用于凈化污水、飼喂動物[2-4]。同時辣木含有豐富的皂苷、生物堿、黃酮、酚類等次生代謝產物,具有抗氧化、抗炎、細胞保護、神經保護、抗癌等藥理作用[5-6]。
SNP 標記相比較于RFLP、SSR 等傳統(tǒng)分子標記而言,可檢測單個堿基的插入、缺失、轉換和顛換,具有變異數(shù)量多,分布廣,遺傳穩(wěn)定性高,檢測快、通量高的優(yōu)點[7]?;赟NP 標記進行的遺傳分析在植物學領域應用較多,例如,高嵩等[8]利用SNP 芯片進行玉米遺傳多樣性、群體遺傳結構和類群間遺傳關系分析,選育并審定了玉米新品種;韓志剛等[9]基于SNP 標記對148 份馬鈴薯種質遺傳多樣性進行分析,認為馬鈴薯絕大部分栽培種遺傳相似性高,遺傳背景不夠豐富。目前,國內并沒有利用SNP 分子標記對辣木種群的遺傳學進行分析的報道。AFSM 技術為簡化基因組測序技術,該法分別利用EcoR I-Msp I 和EcoR I-Hpa II 兩種酶對基因組DNA 進行雙酶切,并在兩端加上區(qū)分不同樣本的標簽和接頭,樣品混合后進行雙端測序,測序后獲得的SNP 標記數(shù)量多,比傳統(tǒng)分子標記更好地代表全基因組的遺傳信息,具有成本低、準確性和穩(wěn)定性高、易于操作的優(yōu)點[10]。
雜合度分析有助于深入了解辣木的遺傳組成情況,確定繁育類型,合理規(guī)劃育種,傳統(tǒng)研究繁育類型的方法主要是基于對花器官的形態(tài)學分析,傳粉媒介的觀察以及溫室雜交試驗展開,主要通過表型性狀進行評估,易受環(huán)境、氣候、栽培措施等因素影響,不能準確地反映植物基因型[11-13]。辣木群體結構的研究對于辣木種質資源的挖掘、利用和保護具有重要的理論和實踐意義,遺傳多樣性及群體分化分析是遺傳學研究的核心內容,親本的遺傳關系很大程度決定子代種子的質量,親本間存在差異的遺傳信息會隨著雜交或自交過程傳遞給子代,使之在單核苷酸水平上呈現(xiàn)出來。目前辣木的繁育類型頗受爭議,還沒有學者基于SNP 對辣木的繁育類型進行研究,國內辣木育種工作進展緩慢,沒有自主產權的辣木品種,存在種子繁殖會發(fā)生性狀分離及種子管理不規(guī)范等問題,造成辣木優(yōu)良品種缺乏、品種混亂的現(xiàn)象[14],辣木親本和子代群體的遺傳分析對于確定辣木繁育類型、分析親緣關系及選育優(yōu)良品種具有重要的意義。
本研究以96 份辣木為研究材料,結合基因組AFSM 高通量測序技術,與參考基因組進行比對后,進行基因型分析、雜合度分析、群體結構、遺傳多樣性、群體分化及連鎖不平衡分析,以揭示辣木親本與子代間的遺傳關系,為辣木繁育類型和種質親緣關系提供理論指導,以及為發(fā)掘控制辣木種質優(yōu)良性狀的優(yōu)異等位基因提供理論依據(jù)。
1 材料與方法
1.1 材料
選取來源于同一母本通過自然授粉得到的YMLM002 辣木種子94 粒,該種質是經過連續(xù)3a的跟蹤觀測篩選出的果用型優(yōu)良單株材料,具有產量高、果型好、種子飽滿的特點[15]。辣木種子先用清水浸泡10 h,軟化種子硬殼,再用100 mg/L高錳酸鉀溶液浸泡0.5 h 消毒,清水洗凈后點播于穴盤中(紅土∶蛭石=1∶1),適時補充水分保證濕潤,待苗長至15 cm 左右,收集94 份子代樣品、1 份母株和1 份扦插苗樣品備用。
1.2 方法
1.2.1 辣木基因組DNA 提取及建庫 采用CTAB 法提取辣木樣品DNA,用Nano Drop ND-1000 對DNA 樣品濃度進行檢測,并調節(jié)樣品濃度至100 ng/μL,置于–20 ℃保存。采用AFSM 技術進行建庫,利用EcoR I-Msp I 和EcoR I-Hpa II兩種酶對96 份辣木DNA 樣品進行混合雙酶切,再將酶切產物連接加上用于區(qū)分不同樣品的接頭標簽,純化后進行PCR 擴增,樣品混合后再用高通量測序平臺Illumina 進行雙端測序,并計算GC含量和Q30 評估測序數(shù)據(jù)質量。
1.2.2 辣木群體基因型分析 利用Perl 腳本對原始測序數(shù)據(jù)進行過濾,使用Bowtie 軟件將過濾數(shù)據(jù)比對到辣木參考基因組ASM980114v1,再使用VCFtools 和BCFtools 軟件檢測并統(tǒng)計SNP 和Indel 位點信息。
1.2.3 辣木基因雜合度分析 使用AWK 語言分析96 份樣品的雜合位點,并計算個體內基因的雜合位點比率即為個體內雜合度;同時通過將子代數(shù)據(jù)分別與親本進行比對,找出差異位點,統(tǒng)計差異位點概率即為子代與親本比對雜合度,分別生成個體內雜合度及子代與親本比對雜合度統(tǒng)計圖。
1.2.4 群體結構分析、遺傳多樣性及群體分化分析 利用Plink 對變異位點進行過濾,過濾掉最小等位基因頻率低于0.05 及基因型缺失率小于5%的位點,哈迪–溫伯格檢驗顯著性P>0.0001,保留高質量的變異位點,再使用ADMIXTURE 軟件進行群體結構分析,將亞群數(shù)K 值范圍設置為1~10,根據(jù)得到的交叉驗證錯誤率(cross-validationerror, CV error)值選擇合適的亞群數(shù)K 值,以個體占亞群的遺傳成分系數(shù)確定個體歸屬的類群,用R 軟件繪制群體遺傳結構矩陣圖。采用GCTA 軟件對過濾得到的高質量文件進行主成分分析,并用R 軟件繪圖;采用VCFtools 軟件計算辣木群體的遺傳多樣性指數(shù)(π)及群體分化指數(shù)(Fst)。
1.2.5 連鎖不平衡分析 使用LDBlockShow 軟件,計算不同標記距離下的D值,并生成單體型塊圖以展示位點間的連鎖不平衡程度。
2 結果與分析
2.1 辣木群體基因型分析
96 份辣木樣品基因組DNA 經過AFSM技術建庫、測序,將數(shù)據(jù)過濾并比對至辣木參考基因組ASM980114v1,參考基因組信息來源于NCBI 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/data-hub/taxonomy/3735/),基因組大小為253.9 Mb,測序得到1.8 G 數(shù)據(jù)文件,346 615 757 條reads,測序長度為150 bp,平均GC 值為50.53%,平均Q30 為94.49%。采用VCFtools 和BCFtools 軟件處理樣品基因組數(shù)據(jù)后,得到1 187 831 個SNP 和150 861 個Indel位點,以及11 158 個多等位基因位點,4930 個多等位基因SNP 位點。SNP 同類型堿基之間的突變?yōu)檗D換,不同類型堿基之間的突變?yōu)轭崜Q,SNPs發(fā)生轉換概率與顛換概率的比值為2.08,單一序列發(fā)生轉換次數(shù)為804 031,單一序列發(fā)生顛換次數(shù)為383 471(圖1)。
SNPs 發(fā)生堿基轉換和顛換概率隨著位點的增大呈現(xiàn)先逐漸增加后緩慢降低的趨勢(圖1)。辣木不同類型的突變位點中,堿基轉換的變異數(shù)量顯著大于顛換的數(shù)量,其中堿基G/A 和C/T 的替換都較高,分別為243 672 和241 616 次;堿基A/G和T/C 的替換次之,分別為161 258 和158 648 次,堿基插入/缺失發(fā)生的次數(shù)隨著堿基插入/缺失長度的增加而呈現(xiàn)出迅速下降的趨勢。
2.2 辣木自然結實子代基因雜合度分析
采用1 187 831 個SNP 位點和150 861 個Indel位點分析96 份辣木樣品的雜合度(圖2)。辣木同源染色體上的SNP 位點為同一類型堿基,則該SNP 位點稱為純合SNP 位點,若為不同類型堿基,則為SNP 雜合位點。由圖2A 可知,辣木個體內雜合度在10.79%~0.36%之間,個體內平均雜合度為4.89%,其中,母株雜合度為5.65%,扦插苗雜合度為5.34%。由圖2B 可知,子代與親本比對雜合度在21.22%~35.33%之間,子代與親本的比對平均雜合度為24.85%。由此可知,導致辣木子代雜合的基因中,約有4.89%的基因為自身雜合基因,19.96%為外來遺傳物質導致雜合的基因,基本表明辣木通過自花和異花2 種授粉方式繁衍后代。
2.3 辣木群體結構分析
采用Plink 對變異位點進行過濾后,得到141 323 個SNP 位點,再通過軟件利用所有SNP和Indels 分子標記對96 份辣木樣品進行群體遺傳結構分析,由圖3A 可知,當K 值為3 時,隨著K 值的增大,CV error 逐漸增大。由于K 值為2和3 時,CV error 值均較小且較為接近,分別為0.401 和0.404,但當K 值為2,即將96 份樣品分為2 個亞群時,各亞群的個體呈現(xiàn)分布不集中的現(xiàn)象,故將96 份辣木樣品分為3 個亞群(subgroup1-3)。根據(jù)個體在3 個亞群的Q 值,將個體歸類到Q 值占比最大的亞群(圖3B),發(fā)現(xiàn)3個亞群中分別有47、31、18 份材料,其中母株和扦插苗屬于亞群1,亞群2、亞群3 均為子代樣品。
主成分分析發(fā)現(xiàn)(圖3C),亞群1 和亞群2在PC1 軸上有分布差距,而亞群3 與亞群1、2在PC2 軸上有一定的分布差距。大部分亞群可以聚類在一起,表明聚類結果與群體結構的劃分具有一致性。同時,上述結果(辣木親本與子代樣本聚類為3 個亞群)再次論證了雜合度分析結果,即在生殖遺傳的過程中,辣木并非以自花授粉的方式繁衍后代,在一定程度上接受了外來的花粉,導致后代在不包含母株的另外2 個群體中有分布。
由圖4 可知,群體進化樹的聚類結果與群體結構的劃分相一致,各亞群大致能聚在一起,且樣品間有一定的交叉。相比較而言,亞群1 的分枝長度較短,有4 個個體分散在亞群2 中;亞群2 的分布總體集中,有7 個個體與亞群3 有交叉;同時,亞群3 有3 個個體與亞群1 有交叉。
2.4 辣木群體遺傳多樣性及分化分析
3 個亞群的π 值差距較小且均較低,平均π值也較低,為0.0010,表明96 個辣木群體的遺傳多樣性水平低。各亞群的Fst 在0.0049~0.0110 之間,其中亞群1 和亞群2 間的Fst 值最小,亞群2和亞群3 間的Fst 值最大,各亞群間的Fst 值均小于0.05,表明各樣本之間存在較弱的遺傳分化(當Fst 等于0 或1 時,分別表明亞群間沒有分化或完全分化;當Fst 為0~0.05 時,表明亞群間的分化較弱;當Fst 為0.05~0.15 時,表明亞群間為中度分化;當Fst 為0.15~0.25 時,表明亞群間的分化較強[16]),各亞群間的親緣關系相對較近。
2.5 連鎖不平衡分析
結合多態(tài)性核心SNP 位點在辣木基因組上對應位置分析,發(fā)現(xiàn)共有136 個Scaffold,主要Scaffold 統(tǒng)計情況見表1(SNP 數(shù)量前十的Scaffold)。其中,Scaffold 1 的SNP 數(shù)目最多,為62 225個,Scaffold 122 的SNP 數(shù)目最少,為288 個。通過LDBlockShow 軟件對Scaffold 1 在6.748~6.749 Mb 區(qū)域內的變異信息進行連鎖不平衡分析,發(fā)現(xiàn)6 748 044~6 748 185 位點之間具有強連鎖不平衡關系,而6 748 040 與6 748 041、6 748 041與6 748 044 等位點間的連鎖關系弱(圖5)。
3 討論
AFSM 技術采用EcoR I-Hpa II 和EcoR I-MspI 兩組雙酶切體系簡化基因組DNA 的復雜度,目前已發(fā)展得較為成熟,已用于檢測巴西木薯、澳洲堅果、麻瘋樹等植物的SNP、Indel 及甲基化位點[17-19],該技術DNA 處理步驟和數(shù)據(jù)分析步驟相對簡單,效率高,測定的位點穩(wěn)定,無需進行超聲剪切或熒光標記,試驗成本低,適用于大量非模型物種的基因分型。本研究利用該技術得到1 187 831 個SNP 和150 861 個Indel 位點,可實現(xiàn)辣木親本及子代遺傳分析的目的。
國內外相關學者從不同的角度對辣木的繁育系統(tǒng)進行研究,呂亞等[20]發(fā)現(xiàn)狹瓣辣木在開花第一天就有花粉活力和微弱的柱頭可授性,且開花之初柱頭高于雄蕊,之后逐漸低于雄蕊。MULUVI等[21]利用AFLP 分子標記研究肯尼亞種源辣木的繁育系統(tǒng),表明該種源辣木種子是自交和異交的混合產物。起國海[22]研究辣木對干熱河谷傳粉網(wǎng)絡的影響,并表明辣木單花能提供5~30 μL,含糖量高達60.5%的花蜜報酬物,屬于昆蟲傳粉植物,主要傳粉者為蜂類。本研究中辣木個體內平均雜合度4.89%,子代與親本的比對平均雜合度為24.85%,表明辣木繁殖方式為自交與異交同時存在。因此,在進行辣木雜種優(yōu)勢利用時,需要關注相關個體間的隨機化分布和最小距離,以最大限度地增加差異品種/系間的雜交受精,并盡量減少品種內部的自交。
植物的繁育系統(tǒng)、選擇、遺傳漂移、突變和遷移是影響植物群體遺傳結構的進化因子[23],本研究利用ADMIXTURE 軟件對辣木的群體結構進行分析,將96 個辣木群體劃分成3 個亞群,該結果與聚類分析和主成分分析的結果類似,3 種群體結構分析方法相互補充印證,表明辣木群體的遺傳結構劃分可靠。在群體結構劃分中,大部分亞群可以聚類在一起,其中,1 亞群有親本及子代樣品,而2、3 亞群均為子代樣品,該結果表明辣木自然結實子代群體除了攜帶親本的遺傳信息外,還攜帶有外來的遺傳信息,即辣木繁衍后代的方式不僅為自花授粉,而且還存在異花授粉。子代樣品在3 個亞群中均有分布,可能是由于親本植株種植于保存有不同辣木種質的資源圃內,不同來源材料的花粉傳播至親本植株所導致的。
群體的π 值和Fst 值是衡量群體遺傳分化程度的重要參數(shù),RAJALAKSHMI 等[24]使用ISSR、SRAP 標記研究印度種源辣木的遺傳多樣性,表明辣木的平均遺傳分化系數(shù)為0.15,總遺傳多樣性指數(shù)為0.17。本研究發(fā)現(xiàn)辣木群體的π 值為0.0010,F(xiàn)st 值在0.0049~0.0110 之間,表明本研究所用辣木群體遺傳分化弱,遺傳多樣性較低,該現(xiàn)象應該是由于選取的辣木群體是親本與子代親緣關系較近造成的。同時,也表明引起子代雜合的外來基因與親本的基因型差異不大,這可能是由于本研究文采用的是栽培種辣木資源,經歷了多次的人工選擇育種,資源間豐度低造成的,后續(xù)可引進印度、非洲種源的優(yōu)良辣木種質,以豐富資源圃內的辣木種質[25]。
當2 個距離較近的等位基因在同一單體型上同時出現(xiàn)的頻率高于隨機出現(xiàn)的頻率時,表明它們處于連鎖不平衡狀態(tài)。在定位克隆中,通過連鎖可檢測到產生連鎖信號的變異,在關聯(lián)分析中,利用鄰近位點形成的強連鎖不平衡,有助于找到與性狀相關的位點[26-27]。本文對辣木的SNP 位點進行了連鎖不平衡分析,并在單體型塊圖上發(fā)現(xiàn)了連鎖不平衡關系強的基因區(qū)域,可為研究多個處于連鎖不平衡的位點與重要性狀的關聯(lián)性提供參考依據(jù)。