孫紅正 郭凱 宋寧垣 趙全志
(河南農(nóng)業(yè)大學(xué)農(nóng)學(xué)院/河南糧食作物協(xié)同創(chuàng)新中心/河南省水稻生物學(xué)重點(diǎn)實(shí)驗(yàn)室,鄭州450002;第一作者:sunhongzheng@foxmail.com;*通訊作者:qzzhaoh@126.com)
水稻是我國(guó)重要的糧食作物,全國(guó)以稻米為主食的人口占總?cè)丝诘?5%[1]。貯藏蛋白是大米的第二大主要成分,糙米中蛋白質(zhì)含量占8%~11%[2],精米中蛋白質(zhì)含量占5.5%~12%[3]。稻米中的蛋白質(zhì)根據(jù)其在不同溶劑中的溶解性不同可分為清蛋白、球蛋白、醇溶蛋白和谷蛋白。其中,清蛋白溶于水,球蛋白不溶于水但溶于稀鹽溶液,醇溶蛋白不溶于水和稀鹽而溶于乙醇,而谷蛋白則只能溶于酸或堿溶液,根據(jù)其溶解性不同可以將這4種蛋白依次提取出來(lái)。貯藏蛋白在稻米中的分布是不均勻的,球蛋白、清蛋白主要分布在糊粉層和次糊粉層,谷蛋白和醇溶蛋白主要分布于胚乳外層部分[4]。水稻精米中谷蛋白占70%~80%,醇溶蛋白占18%~20%[5]。貯藏蛋白于內(nèi)質(zhì)網(wǎng)合成,然后轉(zhuǎn)運(yùn)至不同蛋白體中,在水稻胚乳中,貯藏蛋白主要以蛋白體PB-I、PB-II的形式存在,PB-I蛋白體是較為光滑的球形蛋白體,主要含難以被人體消化吸收的醇溶蛋白,PB-II蛋白體則是性狀不規(guī)則的非球形結(jié)構(gòu),主要含易消化的谷蛋白[6-7]。大量研究表明,稻米中蛋白質(zhì)含量與稻米食味品質(zhì)之間存在負(fù)相關(guān)關(guān)系,蛋白質(zhì)含量過(guò)高的稻米食味品質(zhì)往往較差[8]。但是,也有一些研究認(rèn)為,稻米品質(zhì)不僅與蛋白質(zhì)含量有關(guān),與谷蛋白和醇溶蛋白的比例也有關(guān)系[3,5,9]。目前,關(guān)于稻米中4類(lèi)貯藏蛋白質(zhì)的遺傳及表達(dá)模式相關(guān)研究較少,關(guān)于水稻貯藏蛋白的命名及分類(lèi),不同的文獻(xiàn)中對(duì)各個(gè)基因位點(diǎn)的命名不盡相同,甚至出現(xiàn)把谷蛋白基因與球蛋白基因、清蛋白基因與球蛋白基因混淆進(jìn)行研究[10-14]。本文以水稻基因組注釋數(shù)據(jù)庫(kù)和基因表達(dá)數(shù)據(jù)庫(kù)為依據(jù),分析水稻中4類(lèi)貯藏蛋白在基因組的分布、不同拷貝之間的進(jìn)化關(guān)系及其表達(dá)模式,對(duì)各個(gè)貯藏蛋白家族的分類(lèi)及表達(dá)進(jìn)行整理,為進(jìn)一步研究稻米貯藏蛋白提供理論參考和基礎(chǔ)。
根據(jù)RGAP(Rice Genome Annotation Project,http://rice.plantbiology.msu.edu/)水稻基因組注釋信息從RGAP數(shù)據(jù)庫(kù)下載谷蛋白、醇溶蛋白、清蛋白和球蛋白基因序列[15]?;蛟谌旧w上的位置及基因結(jié)構(gòu)信息通過(guò)RGAP基因組瀏覽器獲取。
谷蛋白與醇溶蛋白基因家族拷貝數(shù)較多,獲取谷蛋白與醇溶蛋白基因編碼序列后使用MEGA6.06軟件對(duì)序列進(jìn)行多重序列比對(duì)[16],然后使用Neighbor-Joining法構(gòu)建系統(tǒng)進(jìn)化樹(shù),建樹(shù)過(guò)程中堿基替換模型使用泊松分布模型,對(duì)多重比對(duì)中的空格采用pair-wise deletion處理,進(jìn)化樹(shù)的可靠性采用500次的bootstrap進(jìn)行檢驗(yàn)。
谷蛋白、醇溶蛋白、清蛋白和球蛋白4類(lèi)貯藏蛋白基因的表達(dá)數(shù)據(jù)從RGAP Rice Gene Expression數(shù)據(jù)庫(kù)(http://rice.plantbiology.msu.edu/expression.shtml)下載。
圖2 水稻谷蛋白基因的基因結(jié)構(gòu)示意圖
圖3 水稻谷蛋白基因的系統(tǒng)進(jìn)化樹(shù)
在RGAP基因組注釋數(shù)據(jù)庫(kù)中,有15個(gè)表達(dá)的基因被注釋為谷蛋白基因,在這15個(gè)基因中,有12個(gè)基因被命名分別屬于GluA、GluB、GluC和GluD四種類(lèi)型,3個(gè)基因未命名但屬于谷蛋白家族。谷蛋白基因在水稻基因組中分別位于第1、第2、第3、第8和第10染色體上,第1染色體2個(gè)拷貝,第2染色體10個(gè)拷貝,第3、第8、第10染色體上各1個(gè)拷貝(見(jiàn)圖1)。其中,第2染色體上10個(gè)拷貝成簇分布,8個(gè)拷貝位于第2染色體短臂上,分別是GluB類(lèi)型7個(gè)拷貝和GluD類(lèi)型1個(gè)拷貝。長(zhǎng)臂靠近著絲粒位置2個(gè)拷貝分別是GluC-1和LOC_Os02g25860。
基因結(jié)構(gòu)方面,在15個(gè)谷蛋白基因中,12個(gè)已命名的谷蛋白基因均有4個(gè)編碼外顯子區(qū),編碼氨基酸從236~531個(gè)氨基酸不等。LOC_Os02g25860有4個(gè)外顯子但僅有3個(gè)編碼外顯子,編碼區(qū)長(zhǎng)度與GluA、GluB、GluC和GluD基因相比明顯變短。LOC_Os08g03410有3個(gè)外顯子,編碼外顯子區(qū)也有3個(gè),編碼區(qū)長(zhǎng)度與已命名谷蛋白基因相當(dāng)。LOC_Os01g55630則有5個(gè)外顯子,編碼長(zhǎng)度與其他谷蛋白基因相比也較短(見(jiàn)圖2)。
在谷蛋白基因的系統(tǒng)進(jìn)化樹(shù)中,谷蛋白基因家族分為3大支:GluA亞家族、GluB亞家族、GluC亞家族。GluA亞家族除了已命名的GluA-1、GluA-2、GluA-3外還包括LOC_Os01g55630。GluB亞家族包括GluB-1a、GluB-1b、GluB-2、GluB-3、GluB-4、GluB-5、Glu-B6、Glu-B7和GluD-1(見(jiàn)圖3)。因此,谷蛋白基因GluD-1雖然被命名為GluD亞家族,但在親緣關(guān)系上與GluB亞家族較為接近。GluC亞家族包括GluC-1以及2個(gè)未命名的拷貝LOC_Os08g03410和LOC_Os02g25860。
水稻谷蛋白基因的表達(dá)量基本表現(xiàn)為灌漿早期表達(dá)量較低,而后表達(dá)量急劇升高,到后期表達(dá)量又有所降低。花后25 d的籽粒中谷蛋白基因表達(dá)除了LOC_Os08g03410明顯表現(xiàn)為胚乳中表達(dá)量遠(yuǎn)高于胚中的表達(dá)量,也說(shuō)明谷蛋白基因的表達(dá)并不是嚴(yán)格的胚乳特異性表達(dá)。LOC_Os08g03410的表達(dá)模式與其他谷蛋白基因明顯不同,在花后25 d,胚中的表達(dá)量達(dá)到36 316.4 RPKM(Read Per Kilobase per Million),而胚乳中的表達(dá)量只有990.4 RPKM,說(shuō)明LOC_Os08g03410傾向于在胚中特異表達(dá)。15個(gè)谷蛋白基因中,GluA-1和GluA-2的表達(dá)水平最高,花后10 d籽粒中的表達(dá)量分別達(dá)到55 337.8 RPKM和38 553.9 RPKM。GluA-3、GluB-1a、GluB-1b、GluB-2、GluB-4、GluB-5、GluC-1的表達(dá)量處于同一水平,花后10 d表達(dá)量都在15000~20 000 RPKM之間。GluB-7、GluB-6、GluD-1、LOC_Os01g55630、LOC_Os02g25860的表達(dá)量相對(duì)較低(見(jiàn)表1)。
表1 水稻谷蛋白基因在籽粒中的表達(dá)量(RPKM)
圖4 水稻醇溶蛋白基因在基因組上的分布
圖5 水稻醇溶蛋白基因的基因結(jié)構(gòu)示意圖
水稻基因組注釋數(shù)據(jù)庫(kù)中有28個(gè)醇溶蛋白基因分別位于第5、第6、第7和第12染色體,其中17個(gè)拷貝成簇分布于第5染色體,其他染色體上,第7染色體5個(gè)拷貝,第12染色體4個(gè)拷貝,第6染色體2個(gè)拷貝,均呈簇狀集中分布于染色體某一區(qū)段(圖4)。28個(gè)醇溶蛋白基因中,有25個(gè)以“PROLM+數(shù)字”命名,有3個(gè)拷貝LOC_Os05g26400、LOC_Os05g26368、LOC_Os05g26386未被命名。其中PROLM3、LOC_Os05g26400、PROLM6在基因組上的位置完全相同,LOC_Os05g26400與PROLM6完全相同,而PROLM3與這兩者編碼區(qū)相同但轉(zhuǎn)錄本不同,屬于可變剪接版本。
在28個(gè)醇溶蛋白基因中,有7個(gè)拷貝存在內(nèi)含子結(jié)構(gòu),且均有2個(gè)編碼區(qū)外顯子,其他21個(gè)拷貝均無(wú)內(nèi)含子,說(shuō)明該基因家族可能是基因反轉(zhuǎn)錄插入重復(fù)的結(jié)果(見(jiàn)圖5)。PROLM1編碼區(qū)最短,僅編碼24個(gè)氨基酸,其他拷貝編碼氨基酸在89~156個(gè)氨基酸區(qū)間,相對(duì)谷蛋白編碼氨基酸較小。
圖6 水稻醇溶蛋白基因的系統(tǒng)進(jìn)化樹(shù)
在進(jìn)化關(guān)系上,28個(gè)醇溶蛋白基因家族可分為兩大亞家族,Ⅰ亞家族19個(gè)拷貝,包括第5染色體成簇分布的除PROLM1外的其他16個(gè)拷貝和第7染色體PROLM19、PROLM20、PROLM22 3個(gè)拷貝。Ⅱ亞家族包括PROLM1、PROLM23、PROLM24、PROLM25、PROLM26、PROLM27、PROLM28、PROLM29、PROLM30共9個(gè)拷貝(見(jiàn)圖6)。其中,PROLM1序列較短,整條序列與Ⅱ亞家族的末端編碼序列有同源性,因此,將PROLM1歸入Ⅱ亞家族。
在28個(gè)醇溶蛋白基因中,PROLM22、PROLM24、PROLM25、PROLM26的表達(dá)量處于較高水平,花后25 d胚乳中表達(dá)量均在10 000 RPKM以上,最高的PROLM26表達(dá)量接近59 998.8 RPKM,因此,這3個(gè)拷貝是分離胚乳高效表達(dá)啟動(dòng)子較好的候選基因。PROLM3、LOC_Os05g26400、PROLM6、PROLM10、PROLM13的表達(dá)量極低,PROLM9、LOC_Os05g26386無(wú)表達(dá),其他拷貝則處于中等表達(dá)水平。在表達(dá)的醇溶蛋白拷貝中,均表現(xiàn)出胚乳中表達(dá)量遠(yuǎn)高于胚中的表達(dá)量,表現(xiàn)出傾向但并不嚴(yán)格的胚乳特異性表達(dá)。
水稻清蛋白和球蛋白基因在基因組的拷貝數(shù)相對(duì)較少,清蛋白基因有5個(gè)拷貝被檢測(cè)到表達(dá):SSA1、SSA2、SSA3、SSA4和SSA5,清蛋白基因SSA2、SSA3和SSA4在第3染色體成簇分布,其他2個(gè)基因分別位于第5和第11染色體。在基因結(jié)構(gòu)上SSA2有內(nèi)含子,其他4個(gè)拷貝無(wú)內(nèi)含子。清蛋白基因編碼氨基酸從69~361個(gè)氨基酸不等。5個(gè)清蛋白拷貝中,SSA1和SSA5的表達(dá)量較高,SSA2、SSA3表達(dá)量極低(見(jiàn)表3)。清蛋白占水稻籽粒中總蛋白的5%左右,并且大部分清蛋白翻譯后經(jīng)過(guò)糖基化修飾,在籽粒中最高表達(dá)量出現(xiàn)在花后18~20 d[17]。
球蛋白基因有3個(gè)拷貝:globulin 2、7S globulin和7S globulin 2,分別位于第1、第5和第11染色體。3個(gè)拷貝中,7S globulin和7S globulin 2的基因結(jié)構(gòu)中無(wú)內(nèi)含子,表達(dá)水平也較低,而globulin 2在胚乳中沒(méi)有檢測(cè)到表達(dá),僅在花后25 d的胚中檢測(cè)到極低水平表達(dá)(見(jiàn)表3)。
前人研究將水稻谷蛋白分為4個(gè)亞家族GluA、GluB、GluC和GluD。GluD-1(LOC_Os02g15090)是GluD亞家族唯一的拷貝,該基因由Kawakatsu等人于2008年命名[10]。但是從谷蛋白基因系統(tǒng)進(jìn)化關(guān)系(圖3)上看,LOC_Os02g15090與GluB亞家族基因聚成一支,并明顯區(qū)別于GluC亞家族,因此本研究中將該基因以GluB-8命名。牛洪斌等于2007年克隆1個(gè)谷蛋白基因并將其命名為GluB-7[18],但是經(jīng)過(guò)序列檢索,該序列(AY987390)與GluB-2的相似程度最高,因此判斷該序列應(yīng)為GluB-2。另外3個(gè)沒(méi)有命名的基因位點(diǎn)中LOC_Os01g55630(GluA-5)由于與GluA-3相似程度最高,鑒于之前Takaiwa報(bào)道GluA-4為假基因[12],因此將LOC_Os01g55630命名順延為GluA-5。由于Kawakatsu等認(rèn)為GluC-2是假基因[10],因此LOC_Os02g25860、LOC_Os08g03410分別根據(jù)其在系統(tǒng)進(jìn)化樹(shù)上的位置與其他谷蛋白基因的親緣關(guān)系分別命名為GluC-3、GluC-4。
醇溶蛋白有3個(gè)拷貝LOC_Os05g26400、LOC_Os05g26368、LOC_Os05g26386未被命名,其中,LOC_Os05g26400與PROLM6、LOC_Os05g26386與PROLM9這兩對(duì)基因在基因組上的位置及轉(zhuǎn)錄本和編碼區(qū)完全相同,因此,LOC_Os05g26400、LOC_Os05g26386這2個(gè)拷貝是錯(cuò)誤注釋造成的。另外一個(gè)醇溶蛋白基因LOC_Os05g26368在系統(tǒng)進(jìn)化關(guān)系上與PROLM13最近,因此將LOC_Os05g26368命名為PROLM13b。醇溶蛋白基因拷貝數(shù)較多,但大多數(shù)無(wú)內(nèi)含子結(jié)構(gòu),因此有可能是基因轉(zhuǎn)錄以后被反轉(zhuǎn)錄插入基因組的結(jié)果。醇溶蛋白翻譯后形成的蛋白根據(jù)其在電泳圖譜上的位置主要有10 kDa、13 kDa和16 kDa 3類(lèi)蛋白,不同種類(lèi)醇溶蛋白的表達(dá)對(duì)蛋白體PB-I的形成起重要作用[19]。
表2 水稻醇溶蛋白基因在籽粒中的表達(dá)量(RPKM)
表3 水稻清蛋白和球蛋白基因在籽粒中的表達(dá)量(RPKM)
水稻籽粒中,處于高水平表達(dá)量(>10 000 RPKM)的谷蛋白基因有10個(gè),而醇溶蛋白基因處于高水平表達(dá)的基因也有4個(gè)拷貝,因此,水稻貯藏蛋白基因是分離高效籽粒表達(dá)啟動(dòng)子的理想候選基因。Qu等[11]曾研究比較了6個(gè)水稻谷蛋白啟動(dòng)子在水稻胚乳中的表達(dá)特異性及啟動(dòng)活性。在應(yīng)用方面,前人曾用水稻谷蛋白啟動(dòng)子Gt13a在水稻胚乳中特異表達(dá)人血清白蛋白和人粒細(xì)胞巨噬細(xì)胞集落刺激因子[20-21],而Gt13a胚乳特異啟動(dòng)子即為GluA-1(LOC_Os01g55690)的啟動(dòng)子。從谷蛋白基因的表達(dá)量來(lái)看,GluA-1、GluA-2、GluA-3、GluB-1a、GluB-1b、GluB-2、GluB-4、GluB-5、GluC-1這幾個(gè)谷蛋白基因在胚乳中的表達(dá)量都相對(duì)較高,是克隆高效胚乳特異啟動(dòng)子的理想候選基因。而本研究中命名的GluC-4(LOC_Os08g03410)谷蛋白基因在花后25 d胚中的表達(dá)量遠(yuǎn)高于胚乳中的表達(dá)量(見(jiàn)表1),因此該谷蛋白基因啟動(dòng)子可以作為候選胚特異啟動(dòng)子來(lái)研究胚的發(fā)育進(jìn)程及其對(duì)籽粒灌漿的影響。除了谷蛋白基因,醇溶蛋白基因中,PROLM22、PROLM24、PROLM25、PROLM26的表達(dá)量也比較高,特別是PROLM26在花后25 d的表達(dá)量達(dá)到將近60 000 RP-KM,比GluA-1的啟動(dòng)活性還要高,因此也是比較理想的候選高效胚乳特異啟動(dòng)子。
稻米中蛋白質(zhì)含量是影響稻米品質(zhì)的重要因素之一,而且蛋白質(zhì)組分也會(huì)影響稻米品質(zhì)。精米中蛋白質(zhì)主要以谷蛋白和醇溶蛋白為主[22],研究者大都認(rèn)為醇溶蛋白對(duì)稻米食味品質(zhì)有負(fù)面影響[4]。稻米中蛋白質(zhì)的合成處于動(dòng)態(tài)平衡狀態(tài),在某一貯藏蛋白被抑制的情況下,其他貯藏蛋白會(huì)在轉(zhuǎn)錄和翻譯水平上進(jìn)行補(bǔ)償,抑制醇溶蛋白表達(dá)能夠提高稻米的營(yíng)養(yǎng)價(jià)值[7,23],因此,可以通過(guò)篩選低醇溶蛋白的品種或采用基因工程的手段抑制醇溶蛋白以提高稻米的營(yíng)養(yǎng)和食味品質(zhì)。
[1]胡忠孝.中國(guó)水稻生產(chǎn)形勢(shì)分析[J].雜交水稻,2009,24(6):1-7.
[2]陳能,羅玉坤,謝黎虹,等.我國(guó)水稻品種的蛋白質(zhì)含量及與米質(zhì)的相關(guān)性研究[J].作物學(xué)報(bào),2006,32(8):1 193-1 196.
[3]張欣,施利利,丁得亮,等.稻米蛋白質(zhì)相關(guān)性狀與RVA特征譜及食味品質(zhì)的關(guān)系[J].食品科技,2014,39(10):188-191.
[4]張啟莉,謝黎虹,李仕貴,等.稻米蛋白質(zhì)與蒸煮食味品質(zhì)的關(guān)系研究進(jìn)展[J].中國(guó)稻米,2012,18(4):1-6.
[5]吳洪愷,劉世家,江玲,等.稻米蛋白質(zhì)組分及總蛋白質(zhì)含量與淀粉RVA譜特征值的關(guān)系[J].中國(guó)水稻科學(xué),2009,23(4):421-426.
[6]王繼馨,張?jiān)平?,程?ài)華,等.水稻蛋白亞基含量對(duì)米飯食味的影響[J].中國(guó)農(nóng)學(xué)通報(bào),2008,24(1):89-92.
[7]Kim H J,Lee J Y,Yoon U H,et al.Effects of reduced prolamin on seed storage protein composition and the nutritional quality of rice[J].Int J Mol Sci,2013,14(8):17 073-17 084.
[8]王忠,顧蘊(yùn)潔,陳剛,等.稻米的品質(zhì)和影響因素[J].分子植物育種,2003,1(2):231-241.
[9]孫平.蛋白質(zhì)含量多會(huì)降低稻米食味嗎?——試析日本產(chǎn)銷(xiāo)界關(guān)于稻米食味和應(yīng)否追肥問(wèn)題的爭(zhēng)議[J].中國(guó)稻米,1998,4(5):31-33.
[10]Kawakatsu T,Yamamoto M P,Hirose S et al.Characterization of a new rice glutelin gene GluD-1 expressed in the starchy endosperm[J].J Exp Bot,2008,59(15):4 233-4 245.
[11]Qu L Q,Xing Y P,Liu W X et al.Expression pattern and activity of six glutelin gene promoters in transgenic rice[J].J Exp Bot,2008,59(9):2 417-2 424.
[12]Takaiwa F,K Oono.Genomic DNA sequences of two new genes for new storage protein glutelin in rice[J].Jpn J Genet,1991,66(2):161-171.
[13]Duan M,Sun S S.Profiling the expression of genes controlling rice grain quality[J].Plant Mol Biol,2005,59(1):165-178.
[14]Lee H J,Jo Y M,Lee J Y,et al.Lack of globulin synthesis during seed development alters accumulation of seed storage proteins in rice[J].Int J Mol Sci,2015,16(7):1 4717-1 436.
[15]Yuan Q,Ouyang S,Liu J et al.,The TIGR rice genome annotation resource:annotating the rice genome and creating resources for plant biologists[J].Nucleic Acids Res,2003,31(1):229-233.
[16]Tamura K,Stecher G,Peterson D,et al.MEGA6:molecular evolutionary genetics analysis version 6.0[J].Mol Biol Evol,2013,30(12):2 725-2 729.
[17]Mawal Y R,Mawal M R,Ranjekar P K.Biochemical and immunological characterization of rice albumin[J].Biosci Rep,1987,7(1):1-9.
[18]牛洪斌,覃懷德,王益華,等.水稻谷蛋白的一個(gè)新基因克隆及表達(dá)分析[J].作物學(xué)報(bào),2007,33(3):349-355.
[19]Saito Y,Shigemitsu T,Yamasaki R,et al.Formation mechanism of the internal structure of type I protein bodies in rice endosperm:relationship between the localization of prolamin species and the expression of individual genes[J].Plant J,2012,70(6):1 043-1 055.
[20]He Y,Ning T,Xie T,et al.Large-scale production of functional human serum albumin from transgenic rice seeds[J].Proc Natl Acad Sci U S A,2011,108(47):19 078-19 083.
[21]Ning T,Xie T,Qiu Q,et al.Oral administration of recombinant human granulocyte-macrophage colony stimulating factor expressed in rice endosperm can increase leukocytes in mice[J].Biotechnol Lett,2008,30(9):1 679-1 686.
[22]劉奕,程方民.稻米中蛋白質(zhì)和脂類(lèi)與稻米品質(zhì)的關(guān)系綜述[J].中國(guó)糧油學(xué)報(bào),2006,21(4):6-10.
[23]Kawakatsu T,Hirose S,Yasuda H,et al.Reducing rice seed storage protein accumulation leads to changes in nutrient quality and storage organelle formation[J].Plant Physiol,2010,154(4):1 842-1 854.