凌立貞,杜毛毛,張書(shū)東
(六盤(pán)水師范學(xué)院生物科學(xué)與技術(shù)學(xué)院,貴州 六盤(pán)水 553004)
罌粟(Papaver somniferum L.)為罌粟科(Papaveraceae)罌粟屬1~2 年生草本植物[1]。罌粟屬全球約有100 種,其中中國(guó)有7 種[2],主要分布于中國(guó)的東北與西北地區(qū),與大麻、古柯并稱為世界“三大毒品原植物”[1]。該植物全草均有毒,未成熟果實(shí)內(nèi)含乳白色汁液,去掉大量水分后形成黑色膏狀物質(zhì)便是鴉片。其主要成分有嗎啡、可待因、蒂巴因、罌粟堿等生物堿,在醫(yī)學(xué)上有著重要的研究?jī)r(jià)值。同時(shí),這些物質(zhì)具有很強(qiáng)的毒性,吸食后會(huì)使人產(chǎn)生強(qiáng)烈的依賴性[3],給自身和社會(huì)帶來(lái)嚴(yán)重的危害。目前,罌粟屬植物通常是通過(guò)花、果實(shí)、根、莖、葉等形態(tài)特征來(lái)進(jìn)行鑒別,該方法大多需要較完整的植株[4]。另外,在一些毒品運(yùn)輸過(guò)程中,通常都以提取物或者其他形式運(yùn)輸,雖然可以通過(guò)化學(xué)成分進(jìn)行鑒定,但是需要的儀器設(shè)備比較昂貴,操作比較復(fù)雜。一些幼苗期的罌粟屬植物與毒品原植物罌粟形態(tài)上極為相近,但主要化學(xué)成分還沒(méi)有達(dá)到檢測(cè)的量,這些都為毒品原植物罌粟的鑒定增加了難度。因此,亟需從分子水平鑒定毒品原植物。
簡(jiǎn) 單 重復(fù) 序 列(Simple Sequence Repeat,SSR),又稱微衛(wèi)星脫氧核糖核酸(Microsatellite DNA),通常是以1~6個(gè)核苷酸為重復(fù)單元、反復(fù)出現(xiàn)的簡(jiǎn)單序列,如(AC)n、(AAG)n、(CATG)n等。與其他分子標(biāo)記相比,SSR 具有數(shù)量大、多態(tài)性高、保守性強(qiáng)等諸多優(yōu)點(diǎn)[4],被廣泛應(yīng)用于物種或品種的鑒定。趙麗霞等[5]利用SSR 分子標(biāo)記對(duì)羅田8 個(gè)主栽板栗品種進(jìn)行鑒別,該鑒別技術(shù)解決了生產(chǎn)中難以從外表鑒別相似品種的問(wèn)題。谷方紅等[6]借助微衛(wèi)星技術(shù)將大麥及麥芽的8 個(gè)品種區(qū)分開(kāi)來(lái)。李元元等[7]利用3 個(gè)特異性SSR 分子標(biāo)記構(gòu)建罌粟熒光復(fù)合擴(kuò)增檢驗(yàn)體系,將罌粟與虞美人、大麻等進(jìn)行有效區(qū)分。然而,不同地域之間的罌粟植物也存在著多態(tài)性差異。因此,一套完善的罌粟種屬、種間以及溯源推斷體系的建立還需要在基因組范圍內(nèi)開(kāi)發(fā)更多的特異性分子標(biāo)記。
目前,通過(guò)表達(dá)序列標(biāo)簽(Expressed Sequence Tag,EST)序列[8]和簡(jiǎn)化基因組序列[1]篩選出特異性SSR 標(biāo)記僅155 個(gè)(包括59 個(gè)EST-SSR引物及96 個(gè)基因組SSR 引物),但均表現(xiàn)出多態(tài)性較低、遺傳分化區(qū)別能力較差和等位基因數(shù)量較少等缺點(diǎn)。目前,罌粟全基因組已公布,為全基因水平SSR 位點(diǎn)的分析及標(biāo)記開(kāi)發(fā)提供了可能。切利克(Celik)等[9]利用焦磷酸測(cè)序技術(shù)對(duì)罌粟基因組DNA 進(jìn)行了測(cè)序,并對(duì)其進(jìn)行SSR 技術(shù)檢測(cè),共獲得長(zhǎng)度為474 Mb 的1 244 412 條序列,得出以AAG/TTC為最豐富的三核苷酸重復(fù),但是未見(jiàn)有關(guān)罌粟全基因組SSR的分析報(bào)道。本研究目的旨在對(duì)罌粟全基因組進(jìn)行SSR 分析,通過(guò)對(duì)罌粟全基因組中SSR數(shù)量和重復(fù)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),分析SSR 重復(fù)基元組成和單堿基、二堿基、三堿基、四堿基、五堿基和六堿基重復(fù)次數(shù)占比以及組成與分布特征,對(duì)罌粟全基因組SSR 位點(diǎn)進(jìn)行全面而系統(tǒng)的分析,為罌粟的鑒別和遺傳多樣性分析等提供分子標(biāo)記信息。
罌粟基因組數(shù)據(jù)包括11 條染色體的序列數(shù)據(jù)從美國(guó)國(guó)家生物技術(shù)信息中心基因數(shù)據(jù)庫(kù)(GenBank)下載獲取。
利用微衛(wèi)星識(shí)別軟件(MIcroSAtellite Identification,MISA)(https://webblast.ipk-gatersleben.de/misa/)對(duì)罌粟基因組不同染色體的1~6 bp的重復(fù)核苷酸進(jìn)行查找,其最少重復(fù)數(shù)分別設(shè)定為10、6、4、3、3、3。最后形成以.statistics 為后綴的文件。里面記錄了該基因組長(zhǎng)度、微衛(wèi)星的總數(shù)量、重復(fù)基元類型以及重復(fù)次數(shù)等信息。利用Geneious R9.0.2軟件將罌粟的11條染色體整合為1個(gè)fasta文件,統(tǒng)計(jì)SSR位點(diǎn)。
所有的數(shù)據(jù)分析和作圖均利用Microsoft 2010 Excel軟件完成。
罌粟全基因組總序列長(zhǎng)度為2 216 804 860 bp,共檢測(cè)出833 005 個(gè)SSR 位點(diǎn),總長(zhǎng)度為11 285 328 bp,占全基因組長(zhǎng)度的0.51%。罌粟全基因組中SSR不同重復(fù)類型的分布特征如表1所示。
表1 罌粟全基因組中SSR不同重復(fù)類型的分布特征
由表1可知,單堿基的總長(zhǎng)度最長(zhǎng),高達(dá)4 255 317 bp,其次為三堿基、四堿基、二堿基、五堿基,分別是3 122 538 bp、1 908 484 bp、931 340 bp、703 155 bp。SSR 總長(zhǎng)度最短的是六堿基,只有364 494 bp。其平均長(zhǎng)度最長(zhǎng)的是六堿基(18.86 bp),最短的是四堿基(12.46 bp)。在罌粟基因組SSR中,平均距離最短的是單堿基,只有6.61 kb;其次分別是三堿基(9.69 kb)、四堿基(14.47 kb)、二堿基(42.73 kb)、五堿基(49.66 kb)和六堿基(114.69 kb)。從分布密度來(lái)看,罌粟基因組在每1 Mb序列中有315.8個(gè)SSR位點(diǎn),其中單堿基的密度最高,平均每1 Mb有375.77個(gè),而六堿基的只有8.72個(gè)。
在罌粟全基因組中,堿基的重復(fù)類型種類數(shù)量眾多,共有3 288種,其中單堿基僅有4種,分別為A、T、C、G;重復(fù)類型種類數(shù)量最多的是六堿基,有2 087 種;二至五堿基的分別為12、60、240、885種(表1)。很明顯,重復(fù)種類數(shù)量隨著堿基重復(fù)單元數(shù)增加而增加。首先,單堿基重復(fù)單元數(shù)量最高,占40.25%,其次是三堿基重復(fù)單元和四堿基重復(fù)單元占比分別為27.45%和18.39%(表1)。六堿基重復(fù)單元占比最少,僅有2.32%。罌粟全基因組SSR中不同重復(fù)類型的重復(fù)次數(shù)頻率分布如圖1所示。
圖1 罌粟全基因組SSR中不同重復(fù)類型的重復(fù)次數(shù)頻率分布
由圖1 可知,罌粟全基因組中重復(fù)序列的重復(fù)次數(shù)大多在3~20 次,少部分的重復(fù)次數(shù)大于20次,僅占總體的2.53%,且每種重復(fù)堿基都是隨著重復(fù)次數(shù)的增多而減少。首先,堿基重復(fù)大于20次的單堿基共有18 803個(gè),其次二堿基有2 094個(gè),然后是三堿基和四堿基,分別是146 個(gè)和19個(gè),最后,五堿基與六堿基重復(fù)次數(shù)均沒(méi)有超過(guò)16次。
罌粟全基因中各重復(fù)類型不同基元的比例分布如圖2所示。
圖2 罌粟全基因中各重復(fù)類型不同基元的比例分布
由圖2 可知在單堿基中,A/T 占絕對(duì)優(yōu)勢(shì),為單堿基重復(fù)基元的96.68%,并在全部重復(fù)基元中排首位。二堿基重復(fù)堿基共有4 種(AT/AT、CG/CG、AG/CT、AC/GT),其中AT/AT的重復(fù)基元占比最高,為66.59%,在全部重復(fù)單元中占4.15%。最少的是CG/CG,僅有0.05%,剩余的是AG/CT、AC/GT,分別占重復(fù)基元兩個(gè)堿基的23.92%、9.44%。三堿基重復(fù)堿基有10種,其中AAG/CTT是三堿基重復(fù)基元中占比最高的,為27.61%,位居全部重復(fù)基元SSR 位點(diǎn)的第二位。其次是AAT/ATT、AGC/CTG,分別占重復(fù)基元三個(gè)堿基的18.80%、15.06%。四堿基中1/3 的重復(fù)基元是AAAT/ATTT,但不在全部重復(fù)拷貝類型的前十位中。五堿基重復(fù)基元中占比最多是AAAAT/ATTTT,為37.23%,位居全部重復(fù)基元SSR 位點(diǎn)的第十位。而六堿基的占比最多是AAAAAT/ATTTTT,占重復(fù)基元六個(gè)堿基的23.19%。一至六堿基的重復(fù)類型中,優(yōu)勢(shì)重復(fù)類型分別為A/T、AT/AT、AAG/CTT、AAAT/ATTT、AAAAT/ATTTT、AAAAAT/ATTTTT,這6組數(shù)據(jù)的總和超過(guò)52%,大多為A、T堿基的序列。所有SSR 位點(diǎn)更傾向于腺嘌呤(A)與胸腺嘧啶(T)所構(gòu)成的堿基。
SSR在11條染色體上數(shù)量分布如圖3所示。
圖3 SSR在11條染色體上數(shù)量分布
由圖3 可知,SSR 位點(diǎn)在罌粟基因組11 條染色體上的分布是不均勻的。7 號(hào)染色體上的SSR位點(diǎn)數(shù)量最多,有99 794 個(gè),其中單堿基SSR 數(shù)量最多,有39 251 個(gè)。而第11 號(hào)染色體上SSR 位點(diǎn)數(shù)量最少,為53 710 個(gè),六堿基只有1 276 個(gè)。在11條染色體中,每條染色體的單堿基SSR都多于其他堿基的數(shù)目,而六堿基SSR 是最少的,二堿基的SSR 數(shù)量均少于單堿基、三堿基和四堿基。
SSR在染色體上的分布距離如圖4所示。
圖4 SSR 在染色體上的分布距離
由圖4 可知,罌粟11 條染色體上的SSR 平均分布距離為2.66 kb,每一條染色體上的SSR 分布距離都不盡相同,但與染色體的長(zhǎng)度相關(guān)性不大。第11 條染色體長(zhǎng)度是最短的,但SSR 的分布距離為2.61 kb,比染色體長(zhǎng)度較長(zhǎng)的1 號(hào)和5號(hào)的都大。而在染色體長(zhǎng)度第二短的4 號(hào)染色體SSR 分布距離是最大的,為2.74 kb,超出平均距離約3%的長(zhǎng)度。1 號(hào)染色體上的SSR 分布距離最短,為2.61 kb,低于平均距離的2%。染色體長(zhǎng)度最長(zhǎng)是7 號(hào)染色體,SSR 分布距離為2.71 kb,是所有染色體中相對(duì)平均長(zhǎng)度為第二的染色體。
染色體長(zhǎng)度與重復(fù)類型相關(guān)性如圖5所示。
由圖5a 可知,在全基因組中檢測(cè)出的3 288種重復(fù)基元不均等地分布在11 條染色體上。總體趨勢(shì)是染色體長(zhǎng)度越長(zhǎng),重復(fù)基元種類數(shù)量也越多。但在1、3和6號(hào)染色體上,重復(fù)類型的數(shù)量與染色體長(zhǎng)度呈現(xiàn)出略微下降的趨勢(shì)。在最長(zhǎng)的7 號(hào)染色體上,SSR 重復(fù)類型種類達(dá)到了峰值,為1 538 種。為了探究堿基重復(fù)類型與染色體長(zhǎng)度是否有相關(guān)性,進(jìn)行線性回歸分析,發(fā)現(xiàn)堿基重復(fù)類型與染色體長(zhǎng)度的一元回歸方程為y=330304x-3E+08,R2為0.96,擬合效果較好。這些結(jié)果說(shuō)明重復(fù)類型的數(shù)量與其所在染色體的長(zhǎng)度具有一定的線性關(guān)系(圖5b)。
隨著高通量測(cè)序技術(shù)的發(fā)展,越來(lái)越多的植物、動(dòng)物和微生物的基因組數(shù)據(jù)都在陸續(xù)公布。SSR 位點(diǎn)廣泛分布在生物基因組中,分布模式一定程度上可以反映出不同染色體的特點(diǎn)[10]。從形態(tài)學(xué)上區(qū)分物種存在著巨大的限制,而SSR 標(biāo)記具有多態(tài)性高、符合孟德?tīng)栠z傳、保守性強(qiáng)等優(yōu)點(diǎn),可以解決形態(tài)學(xué)鑒定中難以解決的問(wèn)題。
本研究通過(guò)GenBank數(shù)據(jù)庫(kù)下載獲取罌粟全基因組序列,并利用MISA軟件對(duì)罌粟全基因組中的SSR 位點(diǎn)進(jìn)行分析,一共得到微衛(wèi)星序列833 005條,重復(fù)類型數(shù)量共有3 288種,這說(shuō)明在罌粟全基因組中的重復(fù)類型數(shù)量豐富。其中單堿基的SSR 數(shù)量位點(diǎn)是最多的,占據(jù)總長(zhǎng)度的40.25%。其結(jié)果與黑果枸杞(Lycium ruthenicum)[11]、大花序桉(Eucalyptus cloeziana)[12]、紫果西番蓮(Passiflora edulis)[13]等植物的研究結(jié)果相似,但在殼斗科植物錐栗(Castanea henryi)[14]和閩楠(Phoebe bournei)[15]的研究中是以二核苷酸或三核苷酸重復(fù)單元為主的。這些研究說(shuō)明在不同植物中SSR重復(fù)類型中最豐富的類型是不同的。這些SSR在基因組中的平均距離為2.66 kb,與大花序桉[12]平均距離(3.13 kb)較為接近。對(duì)樟樹(shù)(Cinnamomum camphora)[16]SSR位點(diǎn)分析發(fā)現(xiàn),每隔0.35 kb就有一個(gè)微衛(wèi)星位點(diǎn)出現(xiàn),在灌木椒(Capsicum frutescens)全基因組中兩個(gè)重復(fù)序列之間相隔8.72 kb[17],黑枸杞的平均距離為5.28 kb[11]。因此,SSR在不同物種上的分布差異性很大。
以前研究表明堿基重復(fù)基元類型多以一類堿基為主,如在柳樹(shù)(Salix caprea)中以二堿基(TC/AG、GA/CT 和CA/GT)為主,占復(fù)合微衛(wèi)星位點(diǎn)的3/4[18]。而本研究中的結(jié)果表明罌粟全基因組SSR中數(shù)量較多的重復(fù)類型較復(fù)雜,其中位居前六位的重復(fù)基元有A/T、AAG/CTT、AAAT/ATTT、AAT/ATT、AT/AT 和AAC/GTT,占全基因組SSR 位點(diǎn)總數(shù)的52%。堿基偏好性的本質(zhì)是反映密碼子的使用偏好情況,不同的密碼子翻譯形成的氨基酸種類不同,從而使不同植物有著不同的生理表達(dá)。罌粟SSR 序列在一定程度上偏好于A 與T 所構(gòu)成的堿基。而在小麥等植物中是以C和G為主要重復(fù)類型。另外,罌粟全基因組中,7號(hào)染色體分布的SSR位點(diǎn)最多。研究發(fā)現(xiàn),在罌粟11條染色體中,染色體長(zhǎng)度越長(zhǎng),其上分布的SSR位點(diǎn)的數(shù)量相對(duì)會(huì)越多,在毛果楊(Populus trichocarpa)[19]中也發(fā)現(xiàn)類似的現(xiàn)象。因此,物種內(nèi)染色體長(zhǎng)度的差異也是影響分布在染色體上SSR數(shù)量的原因之一。通過(guò)相關(guān)性分析,可以看出重復(fù)基元類型與染色體的長(zhǎng)度有一定的關(guān)系。本研究對(duì)罌粟全基因組內(nèi)的SSR 分析發(fā)現(xiàn),SSR 上的分布是比較多的,其中單堿基的重復(fù)序列最多。這些SSR 的序列以A和T堿基為主,而重復(fù)基元種類比較多,含量高的重復(fù)基元體現(xiàn)在多種類型。另外,SSR 在罌粟11條染色體上的分布是不均等的,重復(fù)類型與染色體的長(zhǎng)度體現(xiàn)出一定的線性關(guān)系。這些研究結(jié)果將為進(jìn)一步篩選有效的SSR 提供數(shù)據(jù)基礎(chǔ)。
六盤(pán)水師范學(xué)院學(xué)報(bào)2023年6期