趙麗娜,李巍偉,賀寶玲,胡 芬,王 洋,余 源,高 爽
基于多維液相色譜質(zhì)譜組合分析的痢疾桿菌蛋白質(zhì)基因組學
趙麗娜,李巍偉,賀寶玲,胡 芬,王 洋,余 源,高 爽
目的 應用多維液相色譜質(zhì)譜組合體系為基礎(chǔ)的蛋白質(zhì)組學方法對福氏痢疾桿菌基因組注釋進行完善。方法痢疾桿菌福氏2a型301株(Sf2a301)的全菌蛋白經(jīng)胰酶消化,二維液相色譜分離后進行MALDI-TOF/TOF和ESI-MS/MS組合鑒定,質(zhì)譜數(shù)據(jù)分別應用MASCOT和SEQUEST軟件檢索基于Sf2a301全基因組構(gòu)建的6個讀碼框數(shù)據(jù)庫,完成對原基因組注釋的驗證和補充。結(jié)果研究表明多維液相色譜質(zhì)譜組合體系能夠增加鑒定蛋白的覆蓋率,共鑒定Sf2a301的1 231個蛋白編碼基因產(chǎn)物,涵蓋了COGs 數(shù)據(jù)庫22個功能分類組中的20個,包含306個功能未知的假定蛋白。發(fā)現(xiàn)了9個未注釋的基因,得到RT-PCR和Northern blot的進一步驗證。新基因大多數(shù)是重疊基因,包含3個嵌套基因。結(jié)論多維液相色譜質(zhì)譜組合體系相對于單一的串聯(lián)質(zhì)譜技術(shù)能夠更加有效驗證、補充痢疾桿菌的基因組注釋,更新后的基因組注釋庫為今后開展痢疾桿菌功能研究提供更多的靶點。
福氏痢疾桿菌;基質(zhì)輔助激光解吸電離;電噴霧電離;蛋白質(zhì)基因組學;基因組注釋
Supported by the National Natural Science Foundation of China (No. 81302323), the Science and Technology Research Project of the higher Education Institutions in Hebei Province (No. QN20131059), the Training Foundation of North
China University of Science and Technology (No. GP201518) and the PhD Research Startup Foundation of North China University of Science and Technology
痢疾桿菌(Shigella)是一種引起人類和靈長類動物細菌性痢疾的革蘭氏陰性桿菌。細菌性痢疾是世界上尤其是發(fā)展中國家高發(fā)的急性腸道傳染病,每年有超過100萬人死亡。福氏痢疾桿菌(S.flexneri)是發(fā)展中國家引起菌痢的主要菌種,在我國福氏痢疾桿菌引起的感染占60%[1]。我國于2001年首先完成了福氏痢疾桿菌優(yōu)勢血清型2a代表株301(S.flexneri2a str.301,Sf2a301) 的全基因組測序和注釋工作,應用計算機軟件預測Sf2a301全基因組包含4 443個開放閱讀框(open reading frames, ORFs)[2]。
目前認為計算機概率算法預測基因由于其內(nèi)在局限性會引起一定的錯誤率,迫切需要實驗室方法進行驗證。近些年興起的應用蛋白質(zhì)數(shù)據(jù)注釋基因組的蛋白質(zhì)基因組學(proteogenomics)是通過質(zhì)譜鑒定的肽為來源于蛋白編碼基因產(chǎn)物的存在提供了最直接證據(jù),與其它基因組注釋手段相比有著不可替代的作用。蛋白質(zhì)基因組學已經(jīng)被應用于許多經(jīng)過測序的原核生物的重新注釋中[3-5],然而目前最大的問題是相對較低的蛋白鑒定率直接影響了基因組注釋的覆蓋度和準確度,因此發(fā)展快速、高通量的蛋白質(zhì)基因組學技術(shù)方法仍是一項富有挑戰(zhàn)性的工作。
基質(zhì)輔助激光解吸附電離 (matrix-assisted laser desorption ionization,MALDI)和電噴霧電離(electrospray ionization,ESI)是兩種不同的離子化方式,以往的研究表明兩種質(zhì)譜聯(lián)用可以提高鑒定蛋白的覆蓋率[6],但至今未見這種方法在基因組注釋中的應用。本研究以痢疾桿菌Sf2a301為研究對象,酶解的全菌蛋白經(jīng)二維液相色譜(two-dimensional liquid chromatography,2D LC)分離后進行基質(zhì)輔助激光解吸附電離飛行時間串聯(lián)質(zhì)譜(MALDI-time of flight tandem mass spectrometry,MALDI-TOF/TOF)和電噴霧串聯(lián)質(zhì)譜(ESI-tandem mass spectrometry,ESI-MS/MS)的多維液相色譜質(zhì)譜組合體系分析,以期從驗證已注釋基因、發(fā)現(xiàn)新基因等方面對痢疾桿菌基因組注釋進行全面和精確的驗證和補充。
1.1 材料
1.1.1 菌株Sf2a301菌株由中國醫(yī)學科學院病原生物學研究所惠贈。
1.1.2 主要試劑與儀器 色譜級乙腈(ACN)、三氟乙酸(TFA)等生化試劑購自Sigma公司;測序級胰蛋白酶等酶試劑購自Roche公司;反轉(zhuǎn)錄試劑盒等購于Promega 公司。Ultimate 3 000高壓液相色譜購自Dionex公司;Ultraflex Ⅲ型MALDI-TOF/TOF質(zhì)譜儀購自Bruker公司;LCQ Deca XP plus阱質(zhì)譜儀購自Thermo公司;PTC-100 PCR儀購自Bio-Rad公司。
1.2 蛋白樣品制備 從含0.01%剛果紅的TSB培養(yǎng)基平板上挑取Sf2a301的單菌落接入5 mL不含抗生素的TSB培養(yǎng)基中,200 r/min,37 ℃培養(yǎng)過夜。過夜培養(yǎng)菌液以1∶100稀釋到無抗性TSB培養(yǎng)基中,37 ℃,200 r/min振蕩培養(yǎng),選擇細菌生長旺盛的對數(shù)生長周期收集菌體。全菌蛋白樣品制備操作步驟參見文獻[7],提取的蛋白通過BCA法測定濃度。
1.3 還原烷基化和溶液內(nèi)酶切 具體操作步驟參見文獻[8]。部分酶切樣品溶于100 μL甲酸(FA)進行ESI鑒定,其余樣品溶于100 μL 0.1% TFA后續(xù)進行MALDI鑒定。14 000 r/min, 4 ℃離心10 min, 取上清進行質(zhì)譜分析。
1.4 二維液相色譜分離質(zhì)譜鑒定
1.4.1 2D LC-MALDI-TOF/TOF分離鑒定 取上述20 μL酶解肽段混合物(0.1% TFA)通過Ultimate 3 000高效液相色譜進行分離,分11個NaCl濃度梯度對第一維強陽離子柱(SCX)進行洗脫,分別為0.5 mmol/L,1 mmol/L,2 mmol/L,3 mmol/L, 5 mmol/L,10 mmol/L,25 mmol/L,50 mmol/L,100 mmol/L,200 mmol/L,500 mmol/L。洗脫下的樣品在二維毛細管反相柱中以同樣的梯度進行洗脫,流速為2 μL/min,流動相是A液(100% H2O+0.05% TFA)、B液(80% ACN+0.04% TFA)。洗脫條件參見文獻[7]:分離的液相餾分點樣在自動點靶儀的PAC靶上,PAC靶放入MALDI-TOF/TOF質(zhì)譜儀進行分析。質(zhì)譜加速電壓是20 kv,串聯(lián)質(zhì)譜加速電壓是9 kv,質(zhì)量掃描范圍為 m/z 700-4 000 Da。
1.4.2 2D LC-ESI-MS/MS分離鑒定 上述的20 μL解肽片段混合物(5% FA)通過ESI離子肼質(zhì)譜(LCQ Deca XP plus)進行分析。分15個NH4Cl濃度梯度對第一維SCX進行洗脫,洗脫下的樣品通過二維反相柱的流速為200 μL/min, 流動相是A液(100% H2O+0.15% FA)和B液(100% ACN+0.15% FA)。參見文獻[8]從反相柱上洗脫下來的肽段以流速為200 nL/min經(jīng)電噴霧進入質(zhì)譜檢測, 條件為噴霧電壓為1.8 kV,一級質(zhì)譜的質(zhì)量掃描范圍m/z 400-1 500 Da, 選取離子強度最強的3個離子進行二級質(zhì)譜掃。
1.5 質(zhì)譜數(shù)據(jù)分析 MALDI和ESI質(zhì)譜數(shù)據(jù)分別通過MASCOT 2.0搜索引擎和SEQUEST 3.3軟件檢索Sf2a301的6個讀碼框數(shù)據(jù)庫。MASCOT的檢索條件:允許一個酶切位點遺漏,動態(tài)修飾為甲硫氨酸氧化,肽段質(zhì)量誤差±0.3 Da,二級質(zhì)量誤差±0.5 Da,大于95% 置信水平的蛋白鑒定結(jié)果有統(tǒng)計學意義。在控制假陽性率<1%條件下,SEQUEST篩選條件:ΔCn≥0.1,+1價肽,Xcorr≥1.9,+2價肽,Xcorr≥2.2,+3價,肽Xcorr≥3.75。
1.6 構(gòu)建Sf2a301的6個讀碼框數(shù)據(jù)庫 NCBI中下載Sf2a301完整的FASTA格式的全基因組序列,其染色體及大質(zhì)粒pCP301的核苷酸序列GenBank登記號分別為AE005674和AF386526。利用Perl程序?qū)f2a301全基因組序列按照“六位移碼翻譯”策略,根據(jù)所有可能的ORFs翻譯成相應的氨基酸序列(保留氨基酸序列大于15的ORFs)。
1.7 細菌總RNA提取及RT-PCR 按照Promega 公司總RNA提取試劑盒說明提取Sf2a301的RNA,測定提取的總RNA的濃度和純度。根據(jù)Primer Premier 5.0軟件設(shè)計要驗證新基因的引物序列(表1)。RT-PCR擴增體系參照Promega公司反轉(zhuǎn)錄試劑盒說明書。反應條件:95 ℃變性5 min,94 ℃變性1 min;退火53 ℃, 45 s,72 ℃延伸1 min,30個循環(huán),72 ℃延伸8 min。PCR產(chǎn)物純化后直接測序,如果是小于100 bp短序列采用PCR產(chǎn)物T載體克隆后測序。
1.8 Northern blot 針對嵌套基因設(shè)計的探針序列(表1)。按上述方法提取細菌總RNA,RNA樣品中加入1倍體積的2×Loading Buffer中,95 ℃水浴 5 min變性,冰浴1 min。30 μg總RNA樣品在6%聚丙烯酰胺凝膠變性膠中進行電泳分離,轉(zhuǎn)膜,將膜置于UV交聯(lián)儀中自動交聯(lián), 80 ℃下干烤2 h,加入6~10 mL ULRAhyb到雜交管中,42 ℃預雜交1~4 h。標記探針,將變性的探針加入到預雜交液中,37 ℃雜交過夜, 低嚴緊性洗膜,再高嚴緊性洗膜,壓片顯影。
2.1Sf2a301的6個讀碼框數(shù)據(jù)庫Sf2a301全基因組序列按照“六位移碼翻譯”策略翻譯的6個讀碼框數(shù)據(jù)庫包含90 330個條目的氨基酸序列(每個序列均大于15個氨基酸)。
2.2 蛋白編碼基因的表達驗證及功能分析 37 ℃條件下于對數(shù)生長期(OD600≈1.0)收集Sf2a301菌體。MALDI和ESI串聯(lián)質(zhì)譜數(shù)據(jù)分別通過MASCOT和SEQUEST軟件搜索Sf2a301的6個讀碼框數(shù)據(jù)庫,圖1顯示兩種不同質(zhì)譜方法鑒定得到的肽和蛋白數(shù)目。MALDI鑒定到2 677個肽,ESI鑒定到1 958個肽,總共鑒定結(jié)果為3 794個肽(圖1A);MALDI鑒定出960個ORFs,ESI鑒定729個,最終鑒定得到1 231個ORFs的編碼產(chǎn)物(圖1B)。檢索結(jié)果再與NCBI中Sf2a301的蛋白質(zhì)數(shù)據(jù)庫進行比對,共驗證了Sf2a301的1 222個已注釋蛋白。MALDI鑒定的蛋白匹配肽的個數(shù)為2.8,ESI是2.7,組合鑒定后單個蛋白匹配的肽段數(shù)增加至3.1;MALDI和ESI蛋白鑒定的平均氨基酸序列覆蓋率分別為14.3%和13.9%,組合鑒定后升高為16.0%。
表1 RT-PCR引物和Northern Blot探針
Tab.1 Primers and probes used in RT-PCR and Northern Blot
GenetagLength(bp)Sequenceofprimerandprobe(5′-3′)BIO01608118F:TGAACCCAATATCTTTCCTTAGCR:AACGACCAACTCCAGAGCACABIO2349654F:ATGCGGCCCAATTTACTGCTR:TCAGTTTATCGAACAAACCCATBIO0723578F:ATGTTCGGGTCGCAGCATCGR:TTATTGTTCCTTCCTACGCAACBIO43803140F:GCCGCGCTTGTTGAAAACR:CGCACAATCGCGAGCAACBIO50043444F:GGGCATATTCGCTTCCACGR:GGCTACTTCGGTCGCCTCTTBIO00681189F:TGCCATTCTATTTCAGGAAGGR:TCAGCGCAGCACCTCCTGipaD588F:CCTTACTATGCTCAACGACACCR:TGAGATACCTTGCCGATTGTTCnegativecontrol-F:ACCGAGGAATGAATAAAGAAR:TACGAAAACCAGTATTAACCACBIO42245150CGATTTTCGGTCTGACTCGTGGGGT?GAACGCTAABIO32212126TTTCTCAATGTGATTACTTCCGTACCGC?CCACCACBIO6007263GCCTTTTCTGCACAATCATTGGCTGAATC5srRNA118GCCTGGCAGTTCCCTACTCTCGCATGG
A: Distribution comparision of peptides identified by MALDI and ESI; B:Distribution comparision of proteins identified by MALDI and ESI.圖1 不同質(zhì)譜方法識別的肽和蛋白的數(shù)目Fig.1 Identification of peptides and proteins by different mass spectrometry methods
根據(jù)蛋白質(zhì)直系同源簇(clusters of orthologous groups of proteins,COGs)數(shù)據(jù)庫對Sf2a301的已鑒定蛋白進行功能分類,結(jié)果顯示(圖2)所鑒定的蛋白涵蓋了Sf2a301的COGs 數(shù)據(jù)庫中22個功能分類組中的20個,即鑒定蛋白幾乎參與了痢疾桿菌的所有生物學過程。其中包含306個功能未知的假定(hypothetical)蛋白(S組)。
圖2 鑒定蛋白的功能分類Fig.2 Function classification of protein identified
2.3 新蛋白編碼基因的鑒定及功能分析 將串聯(lián)質(zhì)譜獲得的肽段檢索Sf2a301的6個讀碼框數(shù)據(jù)庫,所得鑒定產(chǎn)物若在現(xiàn)有注釋庫中無同源物,則作為候選的新基因。本研究綜合MALDI和ESI鑒定結(jié)果共發(fā)現(xiàn)9個未注釋的新基因,新基因基本特征見表2。應用BLASTP對未注釋基因進行其它血清型痢疾桿菌或大腸桿菌的同源蛋白比對,結(jié)果顯示在其它腸道菌中能夠找到同源蛋白的有4個基因,找不到任何同源蛋白的有5個基因。新基因具有兩個突出特征:一是序列短,基因編碼產(chǎn)物平均由128個氨基酸組成,其中有5個ORFs的蛋白編碼產(chǎn)物少于50個氨基酸;二是基因重疊,除了BIO01608和 BIO00681,大多數(shù)新基因與已注釋的蛋白編碼基因有重疊現(xiàn)象。
對于那些與已注釋基因無重疊或部分重疊的新基因,應用RT-PCR驗證其轉(zhuǎn)錄產(chǎn)物的存在。RT-PCR擴增結(jié)果(圖3)所示,6個基因BIO23496、BIO07235、BIO01608、BIO43803、BIO00681和 BIO50043擴增結(jié)果均為陽性,與PCR產(chǎn)物預期大小一致。并對相應的PCR產(chǎn)物進行測序,測序結(jié)果與NCBI上預測的核苷酸序列一致。
對于編碼序列完全包含在對側(cè)已知更長基因編碼序列范圍內(nèi)(nested C)的嵌套基因,應用Northern blot驗證其轉(zhuǎn)錄產(chǎn)物的存在。結(jié)果顯示(圖4),除陽性對照5S rRNA 外,3個基因均出現(xiàn)雜交信號,分別是BIO42245、BIO32212和 BIO60072,并且雜交條帶的大小與預測值相近。
表2 9個新基因的基本特征
Tab.2 Characteristics of nine novel genes
GenetagGenelocationLength(aa)Overlaps?AnnotationinotherenterobacteriaVerificationBIO006811938609-193842162NoputativebacteriophageproteinRT?PCRBIO01608135438-13568080NohypotheticalproteinRT?PCRBIO500432538118-2537021365PartialSsulfatetransportersubunitRT?PCRBIO438034577512-4576022496PartialChypotheticalproteinRT?PCRBIO234962533103-253315617PartialSNoneRT?PCRBIO072351784677-178475425PartialSNoneRT?PCRBIO422454131171-413132049NestedCNoneNorthernblotBIO32212856749-85687441NestedCNoneNorthernblotBIO600723846510-384644820NestedCNoneNorthernblot
Note: * No. ORFs not overlapping other genes; Partial S: ORFs partially overlapping known genes on the same strand; Partial C: ORFs partially overlapping known genes on the complementary strand; Nested C: ORFs completely contained within known genes on the complementary strand.
M: DNA Marker; 1: BIO23496; 2: BIO07235; 3: BIO01608; 4: BIO43803; 5: BIO00681; 6: BIO50043; 7: negative control (cDNA as template); negative control (genomic DNA as template); positive control (housekeeping gene ipaD).圖3 新基因的RT-PCR擴增Fig.3 RT-PCR amplification of novel genes
M: RNA Marker; 1: BIO42245;2:BIO32212;3: positive control 5S rRNA;4: BIO60072.圖4 Northern blot檢測新基因轉(zhuǎn)錄產(chǎn)物Fig.4 Validating transcriptional products using Northern blot analysis
應用生物信息學軟件預測新基因編碼產(chǎn)物的功能結(jié)構(gòu)域,只有BIO01608和BIO50043的蛋白產(chǎn)物具有特定功能的結(jié)構(gòu)域。BIO01608具有YmgB超家族結(jié)構(gòu)域,與生物膜合成和對酸的抵抗性有關(guān);BIO50043具有ABC-CysA-硫酸鹽保守轉(zhuǎn)運結(jié)構(gòu)域,與硫酸鹽轉(zhuǎn)運有關(guān)。
蛋白質(zhì)基因組學是將質(zhì)譜鑒定的肽段定位到用6個讀碼框翻譯策略構(gòu)建的全基因組骨架上,識別的肽段分為兩類,一類是來源于已注釋蛋白數(shù)據(jù)庫可用于驗證已注釋基因的結(jié)構(gòu)與表達;另一類是與6個讀碼框數(shù)據(jù)庫的核酸序列相匹配,卻不包含于已注釋蛋白數(shù)據(jù)庫中,可以用于發(fā)現(xiàn)新的基因或修正已注釋基因的結(jié)構(gòu)[9]。目前研究表明蛋白質(zhì)基因組學只是作為一種補充手段對已注釋基因組進行完善,還不能在全基因組水平上進行基因注釋。原因在于其高度依賴蛋白質(zhì)組學技術(shù)的特性使其具有難以克服的內(nèi)在缺陷,如果不能獲得高覆蓋率的質(zhì)譜數(shù)據(jù)就不能對基因組進行全面的注釋,因此蛋白質(zhì)組學技術(shù)方法上的改進和提高勢在必行。本研究考慮到單一質(zhì)譜的局限性,應用2D LC-MALDI-TOF/TOF和2D LC-ESI-MS/MS的多維液相色譜質(zhì)譜組合體系從蛋白水平上共驗證Sf2a301的1 231個ORFs的表達,其中包含1 222個已注釋基因的表達產(chǎn)物,占Sf2a301總基因組已注釋的4 443個ORFs編碼產(chǎn)物的28.0%, 與以往研究相比[7-8]這是迄今為止福氏痢疾桿菌驗證蛋白表達基因數(shù)目最多的結(jié)果。本實驗結(jié)果顯示, MALDI和ESI對肽和蛋白的鑒定結(jié)果既相互確認又互相補充,組合鑒定相對于單一質(zhì)譜鑒定能夠很大程度上提高了鑒定蛋白的數(shù)量和可信程度,這與以往的研究結(jié)論一致[10-11],從而能夠更為全面的完善基因組注釋。因此,多維液相色譜質(zhì)譜組合體系可以作為今后完善基因組注釋可供借鑒的技術(shù)平臺。
在任何一個細菌的基因組中,大概有30%~50%的ORFs編碼產(chǎn)物是功能未知的假定蛋白。由于沒有可供比對的實驗驗證的蛋白產(chǎn)物,假定蛋白注釋過程中相對于已知功能的蛋白注釋出錯率更高,所以更加需要實驗室驗證假定的ORFs是否能夠翻譯成蛋白質(zhì)[12]。Sf2a301在NCBI已注釋蛋白數(shù)據(jù)庫中包括1 944個保守的假定蛋白,本研究共驗證了306個假定ORFs產(chǎn)物的表達,占預測的假定ORFs編碼產(chǎn)物的16.0% 左右[13]。分析假定蛋白的鑒定率(16.0%)要低于已注釋蛋白(28.0%),考慮可能有相當比例注釋為假定蛋白的基因其實并不存在,只不過是對基因的錯誤注釋而已[14]。
蛋白質(zhì)基因組學不僅能對已注釋基因進行表達驗證,還可以發(fā)現(xiàn)新的未注釋基因。本研究鑒定的新基因具有序列短和與已注釋基因有重疊的特征,進一步分析發(fā)現(xiàn)這兩個特征恰恰是新基因無法被計算機軟件預測的原因。以往研究表明對短基因(尤其是小于150個核苷酸組成的基因)的預測一直以來是計算機預測方法難以解決的瓶頸;而對于重疊基因的預測由于一定的篩選閾值的設(shè)定,往往是相對長的基因而非短基因保留下來而被注釋[15]。為了進一步證實新基因的存在,本研究通過分子生物學方法RT-PCR和Northern blot分別驗證了與已注釋基因無、部分重疊的新基因和與已注釋基因完全重疊的嵌套基因表達,從而從轉(zhuǎn)錄和翻譯兩個水平證實了新基因的表達。以往研究發(fā)現(xiàn)細菌中基因重疊的序列比較短,超過80%以上重疊的核苷酸數(shù)目小于30 bp,嵌套基因則更少[16]。一般嵌套基因編碼區(qū)都是包含于對側(cè)已知基因的編碼序列內(nèi),如福氏2a痢疾桿菌的setBA /pic[17]、大腸桿菌的ins5B/ins5A[18]和熒光假單孢菌的Pfl01_0939/cosA基因?qū)19],我們的研究結(jié)果發(fā)現(xiàn)的3個嵌套基因均符合這樣的基因排列方式。嵌套基因的存在增加了基因組結(jié)構(gòu)的復雜性,常規(guī)的基因預測算法和標準對判別多個核苷酸重疊的基因有效性差,嵌套基因根本無法通過這種方法進行預測。本研究結(jié)果表明蛋白質(zhì)基因組學是在蛋白水平對嵌套基因進行實驗室驗證的非常有效方式。
本研究對新基因的功能預測結(jié)果顯示大多數(shù)基因編碼產(chǎn)物沒有發(fā)現(xiàn)特定功能的結(jié)構(gòu)域。文獻報道原核生物的基因重疊結(jié)構(gòu)往往與基因表達的調(diào)節(jié)機制有關(guān),嵌套基因的功能往往與其宿主基因的功能有關(guān)聯(lián)[20]。因此,探討新基因的生物學功能有待于今后的進一步研究。
[1] Liu Y, Hu L, Pan L. Prevalence of plasmid-mediated quinolone resistance determinants in association with β-lactamases, 16S rRNA methylase genes and integrons amongst clinical isolates of Shigella flexneri[J]. J Med Microbiol, 2012, 61(pt8): 1174-1176. DOI: 10.1099/jmm.0.042580-0
[2] Jin Q, Yuan Z, Xu J, et al. Genome sequence ofShigellaflexneri2a: insights into pathogenicity through comparison with genomes ofEscherichiacoliK12 and O157[J]. Nucleic Acids Res, 2002, 30(20): 4432-4441. DOI: 10.1093/nar/gkf566
[3] Muller SA, Findeiβ S, Pernitasch SR, et al. Identification of new protein coding sequences and signal peptidase cleavage sites ofHelicobacterpyloristrain 26695 by proteogenomics[J]. J Proteomics, 2013, 86(6): 27-42. DOI: 10.1016/j.jprot.2013.04.036
[4] Armengaud J, Hartmann EM, Bland C. Proteogenomics for environmental microbiology[J]. Proteomics, 2013, 13(18/19): 2731-2742. DOI: 10.1002/pmic.201200576
[5] Castellana N, Bafna V. Proteogenomics to discover the full coding content of genomes: a computational perspective[J]. J Proteomics, 2010 73(11), 2124-2135. DOI: 10.1016/j.jprot.2010.06.007
[6] Suzuki T, Maeda T, Grant S, et al. Confirmation of fructans biosynthesized in vitro from [1-13C]glucose in asparagus tissues using MALDI-TOF MS and ESI-MS[J]. J Plant Phsiol, 2013, 170(80):715-722. DOI: 10.1016/j.jplph.2012.12.005
[7] Zhao L, Liu L, Leng W, et al. A proteogenomic analysis ofShigellaflexneriusing 2D LC-MALDI TOF/TOF[J]. BMC genomics, 2011, 12: 528. DOI: 10.1186/1471-2164-12-528
[8] Zhu L, Zhao G, Stein R, et al. The proteome ofShigellaflexneri2a 2457T grown at 30 and 37 ℃[J]. Mol Cell Proteom, 2010, 9(6): 1209-2020. DOI: 10.1074/mcp.M900446-MCP200
[9] Zhang K, Wang LH, Chi H, et al. Proteogenomics: Improving genomes annotation by proteomics[J]. Prog Biochem Biophys, 2013, 40(4): 297-308. (in Chinese)
張昆, 王樂珩, 遲浩, 等. 蛋白質(zhì)基因組學: 運用蛋白質(zhì)組技術(shù)注釋基因組[J]. 生物化學與生物物理進展, 2013, 40(4): 297-308.
[10] Bodnar WM, Blackburn RK, Krise JM, et al. Exploiting the complementary nature of LC/MALDI/MS/MS and LC/ESI/MS/MS for increased proteome coverage[J]. J Am Soc Mass Spectrom, 2003, 14(9): 971-979. DOI: 10.1016/s1044-0305(03)00209-5
[11] Medzihradszky KF, Leffler H, Baldwin MA, et al. Protein identification by in-gel digestion, high-performance liquid chromatography, and mass spectrometry: peptide analysis by complementary ionization techniques[J]. J Am Soc Mass Spectrom, 2001, 12(2): 215-221. DOI: 10.1016/S1044-0305(00)00214-2
[12] Ansong C, Purvine SO, Adkins JN, et al. Proteogenomics: needs and roles to be filled by proteomics in genome annotation[J]. Brief Funct Genomic Proteomic, 2008, 7(1): 50-62. DOI: 10.1093/bfgp/eln010
[13] Ishino Y, Okada H, Ikeuchi M, et al. Mass spectrometry-based prokaryote gene annotation[J]. Proteomics, 2007, 7(22): 4053-4065. DOI:10.1002/pmic.200700080
[14] Jaffe JD, Berg HC. Church GM: Proteogenomic mapping as a complementary method to perform genome annotation[J]. Proteomics, 2004, 4(1): 59-77. DOI:10.1002/pmic.200300511
[15] Payne SH, Huang ST. Pieper R: A proteogenomic update toYersinia: enhancing genome annotation[J]. BMC Genomics 2010, 11: 460. DOI: 10.1186/1471-2164-11-460
[16] Johnson ZI, Chisholm SW. Properties of overlapping genes are conserved across microbial genomes[J]. Genome Res, 2004, 14(11): 2268-2272. DOI: 10.1101/gr.2433104
[17] Al-Hasani K, Rajakumar K, Bulach D, et al. Genetic organization of the she pathogenicity island inShigellaflexneri2a[J]. Microb Pathog, 2001, 30(1): 1-8. DOI: 10.1006/mpat.2000.0404
[18] Delaye L, Deluna A, Lazcano A, et al. The origin of a novel gene through overprinting inEscherichiacoli[J]. BMC Evol Biol, 2008, 8: 31. DOI: 10.1186/1471-2148-8-31
[19] Silby MW, Levy SB. Overlapping protein-encoding genes inPseudomonasfluorescensPf0-1[J]. PLoS Genet 2008, 4(6): e1000094. DOI: 10.1371/journal.pgen.1000094
[20] Jaworski DM, Beem-Miller M, Lluri G, et al. Potential regulatory relationship between the nested gene DDC8 and its host gene tissue inhibitor of metalloproteinase-2[J]. Physiol Genomics, 2007, 28(2): 168-178. DOI: 10.1152/physiolgenomics.00160.2006
Proteogenomics analysis ofShigellaby combined multidimensional liquid chromatography tandem mass spectrometry
ZHAO Li-na, LI Wei-wei, HE Bao-ling, HU Fen, WANG Yang, YU Yuan, GAO Shuang
(CollegeofLifeSciences,NorthChinaUniversityofScienceandTechnology,Tangshan063000,China)
To apply proteomics method based on the combined multidimensional liquid chromatography mass spectrometry to the genome annotation ofS.flexneri, bacterial proteins ofS.flexneri2a str. 301 (Sf2a301) were digested with trypsin, and peptides were separated by using two-dimensional liquid chromatography, and subsequently identified by using MALDI-TOF/TOF and ESI-MS/MS. Spectra data were searched respectively with MASCOT and SEQUEST against all possible six-frame translation database generated from whole genome sequences ofS.flexnerito confirm and complement the genome annotation ofSf2a301. The research showed that proteome coverage could be greatly improved under the combination analysis of multi-dimensional liquid chromatography mass spectrometry. A total of 1 231 proteins ofSf2a301 were unambiguously identified in this research, involved in 20 groups of 22 functional groups in COGs. Meanwhile, 306 hypothetical proteins were validated. Nine novel genes were discovered. Furthermore, novel genes were confirmed by RT-PCR or Northern blot experiment. Most of novel genes were overlapping genes, three even nested within the coding region of other known genes. Compared to any single tandem mass spectrometry, combined multidimensional liquid chromatography mass spectrometry can better validate and complement the genome annotation ofS.flexneri. The updated database could provide more targets for those interested inShigellato perform functional studies.
Shigellaflexneri; MALDI; ESI; proteogenomics; genome annotation
10.3969/j.issn.1002-2694.2016.012.005
國家自然科學基金(No. 81302323);河北省高等學校科學技術(shù)研究項目(No. QN20131059);華北理工大學培育基金項目(No. GP201518);華北理工大學博士科研啟動基金聯(lián)合資助
華北理工大學生命科學學院,唐山 063000
R378.25
A
1002-2694(2016)12-1064-06
2016-06-15;
2016-09-14