后基因組時代微生物天然產(chǎn)物高效發(fā)掘體系設計與展望

2022-07-26 02:23潘華奇

微生物學雜志 2022年3期

潘華奇

(中國科學院沈陽應用生態(tài)研究所，遼寧沈陽 110016)

長期的實踐表明，不論是新型醫(yī)藥還是農(nóng)藥的創(chuàng)制，天然產(chǎn)物(natural products，NPs)及其啟發(fā)合成的小分子藥物均占據(jù)著極其重要的地位。Newman等統(tǒng)計了過去39年的藥物，發(fā)現(xiàn)小分子藥物占所有1 881種新批準藥物的77.53%，其中以NPs為先導成藥的有916種，占所有小分子藥物65.71%[1]。同樣在植物保護領域，Sparks和Bryant總結了過去 70 年超過800種植物保護化合物，發(fā)現(xiàn)NPs及其啟發(fā)合成的農(nóng)藥占總數(shù)的近一半[2]?？梢?，化學多樣性極其豐富的NPs擁有獨特的化學空間和藥效優(yōu)勢成為創(chuàng)新醫(yī)藥和農(nóng)藥的重要來源與啟迪。微生物因具有極其龐大的類群和豐富的代謝產(chǎn)物成為新型醫(yī)藥和農(nóng)藥的重要來源，并且貢獻了最多的抗生素[3-4]。自1928年 Fleming 發(fā)現(xiàn)青霉素開始，微生物來源的藥物進入快速發(fā)展的黃金時期，并長期成為國際社會的研究熱點，尤其是2015年著名殺蟲劑阿維菌素的發(fā)明者卡貝爾和大村智獲得諾貝爾獎，又掀起了微生物先導藥物的研究熱潮[5]。然而隨著微生物(尤其土壤微生物)的不斷開發(fā)和重復篩選(包括菌種和篩選方法的重復)，發(fā)現(xiàn)新穎藥用先導化合物的幾率不斷下降[6-7](圖1A)。因此，科學家將目光投向包括植物內(nèi)生菌[8]、海洋微生物[9]、極端環(huán)境微生物等尚未充分發(fā)掘的特境微生物新資源。進入21世紀以來，海洋微生物來源的新NPs進入快速增長期(圖1B)，尤其是2008年以后海洋新NPs的增量幾乎都是源于海洋微生物。目前，海洋微生物每年貢獻約1 000個新NPs，占海洋來源新NPs總數(shù)的2/3以上(圖1B)?？梢?，特境微生物來源的新NPs已成為發(fā)現(xiàn)新型活性先導化合物的重要增長點和研究熱點[8-10]。

圖1 不同生境微生物來源新NPs的發(fā)現(xiàn)趨勢Fig.1 Trend in the discovery of new NPs from microbes in different eco-environment

近十多年來，隨著基因組學的迅猛發(fā)展，人們認識到微生物具有豐富的編碼次級代謝產(chǎn)物的生物合成基因簇(biosynthetic gene clusters，BGCs)，估計高產(chǎn)的放線菌具有20～50個BGCs[11]，真菌則具有30～70個BGCs[12-13]，這賦予其生產(chǎn)新結構藥用先導化合物的巨大潛能。但是目前發(fā)現(xiàn)的NPs僅是其冰山一角，絕大部分(大約80%～90%)的BGCs在常規(guī)條件下是沉默的或低表達的，因此許多基因組挖掘的激活策略應運而生[14]。特別是當前合成生物學和機器學習等新技術層出不窮，為微生物NPs的發(fā)掘帶來了新的機遇。在后基因組時代如何實現(xiàn)微生物源藥用先導化合物高效發(fā)掘？本文將從富含BGCs 的“潛力菌種”選擇、生物信息學預測、“隱性”BGCs激活以及激活產(chǎn)物的高效識別等方面進行論述，并提出了在后基因組時代微生物NPs高效發(fā)掘的集成新線路，泛生物合成基因簇(pan-BGCs)的概念，以及對發(fā)掘NPs藥用先導化合物過程中一些問題的思考。

1 富含BGCs“潛力菌種”的選擇

從可培養(yǎng)微生物中發(fā)掘NPs依然是先導藥物分子發(fā)現(xiàn)的主流，選擇菌株則是最為關鍵的第一步。越來越多的研究發(fā)現(xiàn)，產(chǎn)生生物活性代謝產(chǎn)物的微生物在分類學分布上是很不均衡的，放線菌門(Actinobacteria)、厚壁菌門(Firmicutes)、變形菌門(Proteobacteria)、藍細菌門(Cyanobacteria)和子囊菌門(Ascomycota)等類群的基因組中含有豐富的BGCs(表1)[15]，特別是這些類群中的鏈霉菌屬、芽孢桿菌屬、假單胞菌屬和曲霉屬等，其成員是過去大多數(shù)生物活性物質(zhì)的貢獻者[16]。最新的宏基因組研究發(fā)現(xiàn)，在微生物的分類等級中，鏈霉菌目、分枝桿菌目、伯克氏菌目、根瘤菌目、假單胞菌目、腸桿菌目、桿菌目、放線菌目、藍藻目和乳酸桿菌目依次是已報道基因組數(shù)據(jù)中蘊含BGCs最為豐富的Top10類群(表1)[17]。因此，利用分類學為導向優(yōu)先從富含BGCs的微生物類群中挖掘藥用先導分子是一種行之有效的策略。

根據(jù)泛基因組學的定義，編碼次級代謝途徑等菌株生長非必需的相關基因組成了特定微生物種屬的非必需基因組[18]，它們反映了物種的多樣性和進化優(yōu)勢。因此作者認為，富含BGCs的微生物類群應具有高度開放的泛基因組，進化速度快，基因得失、倍增、水平轉(zhuǎn)移或基因組重排事件頻繁，同時也造就了更加豐富的種及以下分類單元的多樣性。這一論斷也得到鏈霉菌屬和曲霉屬等具有龐大種群數(shù)量的支持。截至2022 年 5 月 28 日，LPSN數(shù)據(jù)庫公布鏈霉菌屬的有效種為696個，也是MIBiG 數(shù)據(jù)庫中BGCs條目最多的屬，達到638個；曲霉屬超過750個種(NCBI中數(shù)據(jù))，是MIBiG 數(shù)據(jù)庫中BGCs條目第二多的屬，為88個；芽孢桿菌屬和假單胞菌屬的有效種分別為103和299個，對應MIBiG 數(shù)據(jù)庫中條目數(shù)分別為56個和68個?？傊?，上述富含BGCs類群往往具有較強的開放型泛基因組，且擁有較大數(shù)量的物種組成和多樣性[19-20]。

“潛力菌株”所在類群具有高度開放的泛基因組，這是它們適應環(huán)境多樣性的結果。比如評估鏈霉菌屬泛基因組的流動性值揭示了它們暴露于不同生活方式和棲息地而形成的巨大多樣性，它們?nèi)菀淄ㄟ^水平轉(zhuǎn)移獲得遺傳物質(zhì)，從而更好地適應環(huán)境[19]。毫無疑問，這也導致了鏈霉菌較大的基因組和豐富多樣的蛋白質(zhì)編碼基因。同樣，弗蘭克菌屬泛基因組的流動性值高達0.9，說明該群體的個體擁有更多獨特的基因[21]，鑒于該屬是富含BGCs的類群，提示該屬的BGCs分布具有亞種甚至菌株的特異性。

特殊生境即特殊生態(tài)環(huán)境(special eco-environment)，指在結構和功能上具有明顯的異質(zhì)性或特殊性，并導致生態(tài)元的數(shù)量或品質(zhì)明顯不同的生態(tài)環(huán)境。因此特殊生態(tài)環(huán)境決定了微生物的物種多樣性，也塑造了它們獨特的基因組。一個有趣的發(fā)現(xiàn)是鏈霉菌屬的兩株菌CNQ-509 和WAC 06738屬于同一進化分支，但它們分別來自海洋和土壤，這種不同生境來源造就的主要區(qū)別是它們基因組中NRPS(non-ribosomal peptide synthetase)和I型PKS(polyketide synthase)基因簇的不同數(shù)量[19]。可見，特殊環(huán)境對微生物群體中獨特BGCs的塑造是特境微生物作為新NPs重要源泉的根本。

什么樣的特殊生境更容易塑造出“天才”或“潛力”微生物呢？作者認為不應該是極端的生態(tài)環(huán)境，而應該是生物多樣性豐富、化學信號交流頻繁，且具有一定空間獨立性的微生境。其中植物內(nèi)生的真菌具有成為高產(chǎn)NPs潛力菌株的巨大天然優(yōu)勢。主要原因如下：①地球上龐大的植物王國種類超過35萬種，甚至不同地理環(huán)境和氣候下的同種植物、同種植物的不同組織器官對其內(nèi)生微生物都是一個獨特的微生境，必然塑造出具有個體特異性的內(nèi)生菌種群?？梢?，植物內(nèi)生菌(包括真菌)是一個極其豐富多樣的資源，同樣它們也蘊含著數(shù)量龐大的NPs。②在長期的進化過程中內(nèi)生真菌與其植物宿主逐漸形成了復雜的共生關系，它們參與了植物免疫系統(tǒng)的防御反應[22]。還有一些藥用植物內(nèi)生真菌，它們在生長過程中會產(chǎn)生與宿主相同或相似的生物活性成分[23]，提示內(nèi)生真菌相比其他微生物產(chǎn)生藥用NPs的比例更高。③隨著基因組學的發(fā)展，人們認識到，微生物NPs的豐富度與其基因組大小成正相關[11]，而真菌作為基因組最大的微生物類群之一，蘊含著更加豐富多樣的BGCs[12]?？梢灶A見，植物內(nèi)生真菌作為自然選擇潛力菌株的大本營，將會成為未來藥用NPs發(fā)掘的重要貢獻者。

總之，作者建議富含BGCs“潛力菌株”的選擇應優(yōu)先遵循以下原則：①根據(jù)分類學導向，優(yōu)先選擇公認富含BGCs的類群(以屬及屬內(nèi)特異分支為佳)；②優(yōu)選微生物的所在類群應廣泛分布于不同生境且物種數(shù)量較多，具有開放的泛基因組；③依據(jù)系統(tǒng)進化樹，利用與目標菌株處于同一或相近分支參考菌株或類群的基因組數(shù)據(jù)，參照預測目標菌株BGCs的潛能(以有可利用的種及種內(nèi)菌株的參考基因組為佳)，通過預測結果選擇潛力菌株；④對于同一進化分支，微生物的去重復化非常必要，但根據(jù)相應類群的泛基因組學特征應有不同標準，如流動值高的要重視不同來源、不同表型的菌株；⑤除了表1提到的主要類群，富含BGCs的小眾微生物類群也有不少值得系統(tǒng)開發(fā)(如異壁放線菌屬、疣孢菌屬等)。盡管本文更關注可培養(yǎng)的微生物類群，但相信隨著宏基組學研究的深入，將有更多尚未被培養(yǎng)的蘊含豐富BGCs的類群被不斷發(fā)現(xiàn)。

2 生物信息學預測

對于潛力菌株BGCs多樣性、新穎性和合成產(chǎn)物結構的精準預測是微生物NPs發(fā)掘的基礎與重點。研究初期，基于關鍵合成基因序列導向的分析方法，逐漸拉開了微生物NPs新結構預測的帷幕。如Hornung等通過對含有新型FADH2依賴型鹵化酶的系統(tǒng)發(fā)育分析，推定相應鹵化酶催化產(chǎn)生新型鹵代化合物，并使用質(zhì)譜驗證了次級代謝物類別和鹵化酶基因序列之間的顯著相關性，從而快速發(fā)現(xiàn)了新的多環(huán)型xanthone類NPs[24]。隨后美國Scripps海洋研究所Jensen研究小組基于PKS或NRPS縮合結構域KS(ketosynthase)或C(condenstion)的系統(tǒng)發(fā)育樹而建立的在線分析方法NaPDoS (http://napdos.ucsd.edu/)，可以預測聚酮或非核糖體肽類化合物的類別與結構[25]。盡管NaPDoS已被新的工具替代，但以關鍵合成基因序列導向的預測方法，在其他新穎同工酶及其催化合成產(chǎn)物的預測中仍持續(xù)發(fā)揮著重要作用[26]。

近十年來，隨著基因組、宏基因組的測序成本不斷降低，公共數(shù)據(jù)庫中積累了大量可參考的基因組序列。同時越來越多NPs生物合成途徑的闡明與新穎酶催化機制的解析，使得利用現(xiàn)有數(shù)據(jù)庫預測BGCs成為可能。因此，催生了許多優(yōu)秀的生物信息學程序包，如能快速鑒定整個微生物基因組中BGCs的antiSMASH(antibiotics & secondary metabolite analysis shell)[27]；采用隱馬爾科夫模型(hidden markov model，HMM)搜索策略，識別真菌基因組中 PKS、NRPS、hybrid-PKS/NRPS 和萜類BGCs中保守結構域的SMURF (secondary metabolite unknown regions finder)[28]等。目前，由諾和諾德基金會生物可持續(xù)性中心與丹麥技術大學維護的次級代謝產(chǎn)物生物信息門戶網(wǎng)站SMBP為大多數(shù)NPs預測工具提供了一站式目錄和鏈接，為個性化使用挖掘工具與訪問數(shù)據(jù)庫提供了便利[29]。SMBP網(wǎng)站包括了對PKS/NRPS結構域進行保守分析和功能預測的SBSPKS、預測腺苷?；Y構域活性位點結合底物的NRPSpredictor2、將PKS/NRPS基因簇數(shù)據(jù)與LC-MS/MS 數(shù)據(jù)關聯(lián)的集成平臺PRISM/GNP，以及使用系統(tǒng)發(fā)育基因組學來識別BGCs的EvoMining等。其中，antiSMASH能夠快速鑒定和分析微生物基因組中的BGCs，并保持其功能的持續(xù)擴展與更新[27]。它利用最小信息和存儲庫MIBiG中已知功能BGCs，通過KnownClusterBlast模塊比較分析已知BGCs來實現(xiàn)預測，并集成與交互連接了NCBI BLAST+、HMMer 3、Muscle 3、FastTree、PySVG和JQuery SVG等開源工具，成為當前最受青睞和使用最廣泛的BGCs預測集成工具[30-31]。

值得注意的是，作者在使用antiSMASH挖掘真菌的NPs時，發(fā)現(xiàn)其對預測真菌BCGs中功能基因注釋的準確率并不高，建議與SMURF預測結果比較確認，必要時還需結合2ndFind進行人工注釋。2ndFind作為FramePlot 4.0beta的替代工具由日本國立傳染病研究所維護，是利用已出現(xiàn)次級代謝相關蛋白的Pfam(protein family)結構域來搜索次級代謝生物合成蛋白的在線注釋工具(https://biosyn.nih.go.jp/2ndfind/)。尤其它通過參考已知同源物種的次級代謝相關蛋白數(shù)據(jù)，并關聯(lián)了BLASTP功能，可以實現(xiàn)基因編碼蛋白與SwissProt數(shù)據(jù)庫中蛋白序列的快速比對，從而獲得更加嚴謹?shù)墓δ茏⑨專侨斯ぷ⑨尰蚬δ艿挠辛ぞ摺?/p>

為了進一步挖掘微生物中蘊含BGCs的巨大潛能，Cimermancic等提出了基于已知BGCs中出現(xiàn)的蛋白質(zhì)家族Pfam結構域頻率的新算法ClusterFinder，使用HMM模型可在全基因組范圍內(nèi)預測潛在的BGCs，為非連鎖BGCs協(xié)同合成未知類型化合物的預測提供可能[32]。他們從1 154個原核生物基因組預測得到33 351個可能的BGCs(評估的假陽性率為5%)，高置信度的BGCs為10 724個，其中7 377 BGCs是在antiSMASH未被預測到的，并發(fā)現(xiàn)了尚未被表征的合成芳香多烯羧酸這類最大的BGC家族，這極大地提升了基因組挖掘的潛能[32]。而當antiSMASH選擇加載ClusterFinder算法后，Swift等從腸道新美鞭菌綱的厭氧真菌基因組中相比SMURF預測出更多的生物合成基因和NPs類別，包括細菌素和脂肪酸類及糖類衍生物等[33]?？梢灶A見，這些新算法的出現(xiàn)將為混合培養(yǎng)協(xié)同產(chǎn)生新穎NPs的預測提供分析工具。

當前，隨著對先導分子藥用功能的日趨重視，基因組挖掘技術從追求NPs的化學多樣性向高效藥理活性轉(zhuǎn)變。2019年，Yan等使用抗性基因為導向的基因組挖掘策略從微生物中發(fā)現(xiàn)了一種新型天然產(chǎn)物除草劑aspterric acid，其通過靶向植物支鏈氨基酸合成途徑中二羥酸脫水酶而顯著抑制植物的生長[34]。最新的人工智能與基因組挖掘技術相結合，更是為NPs結構多樣性高效挖掘與功能利用提供了典范。我國王軍和陳義華團隊整合了多種人工智能領域中自然語言分析(natural language processing)的神經(jīng)網(wǎng)絡方法，通過深度機器學習構建了準確率超過90%的抗菌肽預測模型，利用該模型對1萬多個微生物組進行了小蛋白預測和抗菌肽挖掘，最后確定240余種為潛在新型的抗菌肽候選分子，并合成了其中216種；經(jīng)實驗驗證，其中181種新型抗菌肽具有抗菌活性，發(fā)掘準確率達83.8%，部分活性接近迄今NPs中真核抗菌肽最強活性的表現(xiàn)，并對革蘭陰性多重耐藥菌具有較強的抑菌能力，在感染肺炎克雷伯菌的動物模型中有3個抗菌肽展現(xiàn)出良好的體內(nèi)治療作用和安全性[35]。綜上可見，利用人工智能賦能微生物基因組挖掘深度拓展了自然界潛在跨物種BGCs和NPs總庫容的認知，為NPs結構與生物活性關聯(lián)提供線索，顯著提高了微生物藥物發(fā)掘的效率，是未來BGCs精準預測及其NPs定向發(fā)掘的發(fā)展方向。

3 沉默生物合成基因簇的激活

微生物具有豐富的編碼次級代謝產(chǎn)物的BGCs，這賦予其生產(chǎn)新結構藥用先導化合物的巨大潛能[36-37]，但是廣泛存在“隱性”BGCs在常規(guī)條件下是不表達或低表達的[38]。當前，高效基因編輯技術和合成生物學的興起，給基因組挖掘帶來了巨大的機遇。沉默BGCs激活的策略很多，且被研究者反復總結[13-14,39]。按照它們對激活BGCs的靶向性，可以分為靶向性激活和非靶向/多效性激活兩大類[39]。這里按照激活作用的層次和位點，將內(nèi)源性激活策略歸納為細胞水平(菌間的混合培養(yǎng)和菌內(nèi)的培養(yǎng)調(diào)控)、細胞器/基因簇水平(表觀遺傳學、核糖體工程和代謝分流等)、基因水平(全局性調(diào)控基因、途徑特異性調(diào)控基因、生物合成基因和前體供應相關基因等)、轉(zhuǎn)錄元件(啟動子工程和轉(zhuǎn)錄因子誘餌)、蛋白水平(突變生物合成和翻譯后修飾)，外源性激活歸納為直接克隆、改造BGCs調(diào)控及優(yōu)化宿主表達體系的異源表達，以及無需宿主細胞的體外重構(無細胞代謝工程系統(tǒng)和從頭合成的無細胞合成系統(tǒng)[40])(表2)。

上述激活方法均有良好的激活效果且各有特點。比如，內(nèi)源的靶向激活策略，能特異性激活，但需要全面認識目標BGCs，以及具備可行的遺傳操作體系。表觀遺傳學和核糖體工程既可采用化學誘導劑，也可采用基因編輯的方式實現(xiàn)，但往往會出現(xiàn)“效應熱點”，導致不同菌株的激活效應趨同。培養(yǎng)調(diào)控和混合培養(yǎng)隨機性較強，但簡單易行、使用廣泛，且不受BGCs序列信息未知的影響，甚至可激活無法通過生物信息學預測的BGCs；當然它存在激活的“報酬遞減效應”，當培養(yǎng)激活條件達到一定數(shù)量后，出現(xiàn)新激活效應將越來越難。BGCs激活時強化基因功能的策略有基因水平的基因倍增(過表達)和高活性基因置換(組合生物合成)、轉(zhuǎn)錄水平的強啟動子置換、蛋白水平有利于提高酶活性的突變生物合成。在實際應用中這些激活方法經(jīng)常聯(lián)合交互使用，如基于遺傳改造的激活方式與培養(yǎng)調(diào)控策略聯(lián)合使用[41]，以盡可能多地激活BGCs，提高微生物NPs的多樣性，增加發(fā)現(xiàn)結構新穎藥用先導化合物的幾率。

盡管許多BGCs激活策略已被大家熟知并廣泛應用，但近幾年也提出了一些有啟發(fā)意義的激活策略。如BGCs中的關鍵生物合成蛋白需要翻譯后修飾才能發(fā)揮活性，在PKS和NRPS中的酰基或肽基載體蛋白(carrier protein，CP)初始為無活性的脫輔基apo-CP形式，需要通過磷酸泛酰巰基乙胺基轉(zhuǎn)移酶(phosphopantetheinyl transferase，PPTase)修飾，將供體輔酶A 上的4-磷酸泛酰巰基乙胺轉(zhuǎn)移到CP保守的絲氨酸殘基側鏈羥基上，才能成為有活性的全酶holo-CP形式。利用這一原理，我國瞿旭東團隊首次構建了基于CP活性調(diào)控的翻譯后修飾激活策略，通過在放線菌中過表達PPTase激活元件，實現(xiàn)約70%研究菌株中代謝物產(chǎn)量的增加[42]。轉(zhuǎn)錄因子誘餌(transcription factor decoy，TFD)是含有轉(zhuǎn)錄因子結合位點的一段核酸序列，其能與抑制型轉(zhuǎn)錄因子結合，使阻遏蛋白調(diào)控的沉默BGCs實現(xiàn)正常轉(zhuǎn)錄表達。基于此，研究人員構建了具有TFDs的載體，經(jīng)結合轉(zhuǎn)移，穩(wěn)定游離的TFDs載體在鏈霉菌體內(nèi)能引誘抑制轉(zhuǎn)錄的阻遏蛋白分子離開，成功激活了8個PKS和NRPS類型的沉默BGCs[43]。該研究為大型沉默BGCs的轉(zhuǎn)錄激活提供了新策略。此外，先進的CRISPR/Cas9工具盒，不僅在啟動子工程激活等高效基因編輯中廣泛使用，而且利用催化活性喪失的Cas9突變體(dCas9)，將dCas9蛋白與轉(zhuǎn)錄激活因子和抑制因子融合，發(fā)展了激活基因轉(zhuǎn)錄的CRISPRa(CRISPR/dCas-mediated transcriptional activation)和干擾基因轉(zhuǎn)錄的CRISPRi(CRISPR interference)等系統(tǒng)，可調(diào)控微生物中次級代謝物生產(chǎn)的轉(zhuǎn)錄效率，實現(xiàn)沉默BGCs的可控表達[44-45]。

表2 沉默BGCs激活的策略與方法

事實上，次級代謝產(chǎn)物BGCs沉默或低表達的原因具有復雜性和多樣性。正常的BGCs受到細胞內(nèi)不同層級調(diào)控系統(tǒng)的嚴格控制，只有在特定的環(huán)境或培養(yǎng)條件下表達；同時其表達產(chǎn)物的產(chǎn)量水平(也可理解為產(chǎn)物對宿主細胞的反饋效應)可能取決于宿主細胞的稀有tRNAs、密碼子偏好性、DNA修飾及各代謝途徑的通量，也可能取決于產(chǎn)物穩(wěn)定性以及其對宿主的毒性等因素。同時，BGCs中任何關鍵合成基因沉默或編碼蛋白功能失活，也能導致BGCs沉默。因此，BGCs的激活策略也多種多樣，不局限于這里提及的方法，凡是能避開現(xiàn)有宿主不同層級的調(diào)控系統(tǒng)，強化BGCs合成基因和前體供應相關基因的表達，以及編碼蛋白活性提高的策略均可應用于沉默或低表達BGCs的激活。相信隨著人們對BGCs沉默機制的認識不斷加深，基因高效克隆、組裝和編輯等新興技術的不斷推出，在合成生物學和人工智能的助推下，深入挖掘沉默BGCs蘊含的“暗物質(zhì)”將使新NPs的發(fā)現(xiàn)更上一層樓。

4 激活產(chǎn)物的識別

盡管許多基因組挖掘策略在激活微生物BGCs中展現(xiàn)出良好的效果，但是在新穎先導化合物的高效發(fā)掘中，僅僅依靠激活目標BGCs或增加次級代謝產(chǎn)物的多樣性是遠遠不夠的，更重要的是激活BGCs及其產(chǎn)生化合物的高效識別。眾所周知，從BGCs到活性物質(zhì)的產(chǎn)生，要經(jīng)歷基因的轉(zhuǎn)錄、翻譯和酶催化生物合成等階段，因此在轉(zhuǎn)錄水平、蛋白水平和代謝物水平的檢測，均能表征BGCs的激活情況。尤其是轉(zhuǎn)錄組、蛋白組、代謝組的發(fā)展，加速了BGCs表達的識別及其合成NPs的發(fā)現(xiàn)。比如，通過轉(zhuǎn)錄水平的挖掘能高效篩選出BGCs激活的方式以及相應的培養(yǎng)條件[46]。在蛋白水平，Gubbens等基于定量蛋白質(zhì)組學技術建立了天然產(chǎn)物蛋白質(zhì)組學發(fā)掘策略，該方法將生物合成蛋白水平的變化與次級代謝產(chǎn)物的產(chǎn)生聯(lián)系起來，還能利用生物活性和蛋白質(zhì)表達譜之間的相關性，快速發(fā)現(xiàn)負責生成目標NPs的BGCs[47]。

編碼次級代謝產(chǎn)物的BGCs是否表達受到轉(zhuǎn)錄、翻譯、翻譯后修飾、功能蛋白質(zhì)折疊組裝等復雜機制的控制，所以轉(zhuǎn)錄或蛋白水平的檢測，可以明確沉默BGCs激活時在每個階段的表達狀況，但并不能完全體現(xiàn)BGCs終端代謝產(chǎn)物的分泌情況。因此，基于代謝水平的高效識別方法對于微生物NPs的發(fā)現(xiàn)至關重要。目前沒有一種化合物的分析方法可以無偏向性地涵蓋所有代謝物的識別，基于色譜(LC和GC)、紫外吸收光譜(UV或DAD)、熒光光譜、紅外光譜、質(zhì)譜(MS)、核磁共振(NMR)，甚至特定基團的顯色反應都能作為激活產(chǎn)物識別的手段。包括Thin layer chromatography (TLC)、HPLC-UV、LC-MS、GC-MS、LC-NMR、NMR-PCA[48]等，但它們在分辨率、靈敏度、通量等方面各有特點。

基于質(zhì)譜的分析具有靈敏度高、分析速度快、動態(tài)范圍寬、結構信息豐富、樣品用量少和通量高等優(yōu)勢，成為代謝物識別的主流分析平臺，也在代謝組學研究中發(fā)揮著重要作用。質(zhì)譜分析發(fā)展非常迅速，可根據(jù)化合物的理化性質(zhì)、結構類型和檢測目的，選擇適宜的離子源(如EI、ESI、CI、APCI、FI、FAB、MALDI)和質(zhì)量分析器(如Magnetic sector、Quadrupole、Ion traps、Time of flight、FTICR)。目前在微生物NPs領域使用最廣泛、識別激活產(chǎn)物最高效的是色譜-紫外光譜-質(zhì)譜聯(lián)用技術(HPLC-DAD-MS)，它通過分離粗提物、根據(jù)色譜峰的紫外吸收譜特征進行化合物分類、并結合質(zhì)譜數(shù)據(jù)識別和發(fā)現(xiàn)目標激活化合物。如作者通過基因組挖掘發(fā)現(xiàn)芽孢桿菌SCSIO 05746具有產(chǎn)生4種NRPS類物質(zhì)和3種PKS I型產(chǎn)物的潛能，然后使用OSMAC策略的培養(yǎng)調(diào)控進行這些BGCs的激活，采用HPLC-DAD-HRESIMS成功篩選到同時激活其中六種類型化合物的培養(yǎng)條件，并在正負離子掃描模式下對不同離子峰進行表征，識別了一系列新的bacillibactin、fengycin、bacillaene和macrolactin類型的衍生物，也為激活目標化合物的跟蹤分離與結構鑒定提供指導[49]。

盡管上述色譜-質(zhì)譜聯(lián)用技術在產(chǎn)物識別上取得了很大成功，但一方面僅基于一級質(zhì)譜數(shù)據(jù)很難獲得可靠的化學注釋，另一方面對原始數(shù)據(jù)采用人工識別和分析的方式，非常耗時費力。特別是對某一類群微生物NPs進行系統(tǒng)發(fā)掘時，不可避免地出現(xiàn)許多NPs的重復發(fā)現(xiàn)，不同的微生物類群在相同激活條件可能存在趨同效應，那么如何高效地排除不同菌株、不同激活條件下重復的NPs，發(fā)現(xiàn)新的目標分子？如何高效評價眾多激活策略的效果，篩選更佳的激活方法？美國加州大學圣地亞哥分校的Dorrestein和Bandeira 團隊開發(fā)了以HPLC-HRMS/MS為基礎，結合了質(zhì)譜碎裂數(shù)據(jù)分析和數(shù)據(jù)庫搜索功能的分子網(wǎng)絡技術(molecular networking，MN)，較好地解決了上述問題。該方法根據(jù)MS/MS 質(zhì)譜碎片的相似性建立了可視化分子網(wǎng)絡圖，直觀顯示了未知樣品中各組成成分之間的關系和化學分類，解讀了微生物表型和基因型之間的復雜關聯(lián)[50]。隨后他們倡導建立了GNPS(global natural products social molecular networking)開放網(wǎng)絡數(shù)據(jù)庫(http://gnps.ucsd.edu)，供人們利用已處理或已識別的串聯(lián)質(zhì)譜數(shù)據(jù)(MS/MS)，快速識別質(zhì)譜圖中已知成分和相關成分，從而促進目標分子的識別和追蹤[51]。目前該技術應用十分廣泛，已從微生物藥用先導化合物發(fā)現(xiàn)擴展到整個藥物發(fā)現(xiàn)和藥物代謝等領域[52]。作者應用MN技術，從海綿來源鏈霉菌18A01中高效識別并靶向分離一系列具有顯著己糖激酶II抑制活性的新穎α-吡喃酮類衍生物[53]。

盡管如此，MN也很難完整、準確地注釋二級質(zhì)譜中的龐大數(shù)據(jù)信息，而人工分析每個節(jié)點的碎片信息不能滿足大數(shù)據(jù)集進行化學注釋的需求。因此，面對如何更好注釋代謝物的挑戰(zhàn)，科學家開發(fā)了新的計算方法和碎片預測方法，極大提高了質(zhì)譜數(shù)據(jù)的解析效率，實現(xiàn)了代謝產(chǎn)物的高效識別與解析[54]。如MS2LDA一種受文本挖掘啟發(fā)的方法，將碎片光譜分解為一組保守的碎片和中性丟失特征(稱為Mass2Motifs)，它能識別同時出現(xiàn)與結構基序相關的離子，并將其分解成一組特征子結構Mass2Motifs，表示結構家族。目前還提供了用戶可以Web訪問的應用程序ms2lda.org[55]。DEREPLICATOR通過比較基于特定計算機碎片規(guī)則生成的理論光譜，系統(tǒng)地將肽類天然產(chǎn)物數(shù)據(jù)庫中的結構與質(zhì)量碎片光譜聯(lián)系起來，能夠注釋具有相似氨基酸組成的肽類NPs。最近推出的 DEREPLICATOR+，將這種注釋策略擴展到聚酮、黃酮、萜烯和其他類別的NPs[56]。網(wǎng)絡注釋傳播 (network annotation propagation，NAP)基于對重疊結構指紋最合理的候選結構進行重新排序來改進類似物的注釋準確性，通過光譜網(wǎng)絡(spectral network)傳播譜庫匹配，進行計算機化學注釋，實現(xiàn)NPs的高效識別與靶向分離[54]。

上述工具增強了從數(shù)據(jù)集中獲取化學結構注釋的能力，但是它們都有其自己的輸出格式，阻礙了有效數(shù)據(jù)的匹配組合。因此，MolNetEnhancer整合MN、MS2LDA、NAP等的數(shù)據(jù)，通過ClassyFire對數(shù)據(jù)集中存在的類別進行自動化學分類，為代謝組學的數(shù)據(jù)提供更全面的化學概覽，同時還能顯示每個子結構模式的分子細節(jié)[57]。目前，這些先進的計算機注釋工具已經(jīng)被整合到GNPS平臺，極大地彌補了現(xiàn)有公共存儲庫參考碎片譜不足的缺陷。使用增強的分子網(wǎng)絡技術，Maimone等研究了立枯絲核菌共同培養(yǎng)誘導放線菌StreptomyceslunalinharesiiA54A產(chǎn)生具有抗真菌活性的次級代謝物，發(fā)現(xiàn)了僅在共培養(yǎng)時產(chǎn)生的158離子，并注釋了去鐵胺鐵載體和茴香霉素衍生物兩類物質(zhì)，自動化化學分類發(fā)現(xiàn)最豐富的離子來自羧酸和衍生物(n=31)、異戊二烯醇脂質(zhì)(n=15)等，以及共培養(yǎng)時產(chǎn)生相對數(shù)量更多的六種新結構化合物[58]。這一研究也為微生物微量激活產(chǎn)物的高效識別提供了有益啟發(fā)。

以上詳細論述了普適性最強、使用最廣泛的非靶向代謝物檢測與注釋的最新進展，但還有適用于不同場景和目標的其他化學識別技術。比如被稱為“分子顯微鏡”的質(zhì)譜成像技術(imaging mass spectrometry，IMS)允許直接從生物樣品中二維可視化代謝物、表面脂質(zhì)、肽和蛋白質(zhì)的分布，主要包括基質(zhì)輔助激光解吸電離(matrix assisted laser desorption ionization，MALDI)質(zhì)譜成像、解吸電噴霧電離(desorption electrospray ionization，DESI)質(zhì)譜成像以及二次離子質(zhì)譜(secondary ion MS，SIMS)成像等[59]。其中MALDI-IMS由于空間分辨率高和檢測分子量范圍廣，在微生物肽類分子識別中廣泛應用[60]。還有基于NMR精準預測結構的技術，如小分子精確識別技術SMART(small molecule accurate recognition technology)采用卷積神經(jīng)網(wǎng)絡將HSQC(heteronuclear multiple-quantum coherence)光譜與實驗光譜庫進行比較，識別結構相似的分子[61]；MADByTE(metabolomics and dereplication by two dimensional experiments)則是基于TOCSY(total correlation spectroscopy)和 HSQC 光譜來識別復雜混合物中的獨立自旋體系，通過匹配樣品間的自旋系統(tǒng)特征創(chuàng)建各樣品的化學相似性網(wǎng)絡，通過匹配已知化合物光譜特征實現(xiàn)化合物去重復，優(yōu)先識別有生物活性的成分[62]。值得一提的是TLC-bioautography和BioMAP(antibiotic mode of action profile)篩選模式是將化學特性與生物活性關聯(lián)的識別方法，有助于活性NPs的快速發(fā)現(xiàn)。例如，BioMAP高通量平臺通過匹配15種臨床病原菌的抑制活性，依據(jù)抗菌譜類別實現(xiàn)了復雜混合物中潛在抗菌NPs的分類與識別，并高效和低成本地發(fā)現(xiàn)了結構獨特的萘醌抗生素[63]。

總之，基于MS的化合物識別技術在不斷發(fā)展，尤其當前機器學習賦能非靶向代謝組學的化學注釋技術，實現(xiàn)了代謝物質(zhì)譜數(shù)據(jù)集的高通量處理與化合物精準注釋，將在微生物新NPs的發(fā)掘中發(fā)揮越來越重要的作用。當然，其他類型的化合物識別技術也各有特點，研究者應該根據(jù)實際需求選擇使用。

5 系統(tǒng)學導向微生物產(chǎn)物發(fā)掘線路設計與展望

當前，癌癥和感染性疾病嚴重威脅人類健康。據(jù)統(tǒng)計，全球每年有近 1 000 萬癌癥死亡病例[64]，我國更是全球癌癥高發(fā)率和高死亡率的“重災區(qū)”[65]。在全球十大健康威脅中，和感染密切相關的多種疾病和行為占據(jù)了前10位中的6個[66]。同樣，在農(nóng)業(yè)領域，作物病害給農(nóng)業(yè)生產(chǎn)造成了巨大的損失。尤其是植物真菌病害，按最低發(fā)病水平計算，可造成世界五大糧食作物每年減少1.94億t[67]?？梢?，研制治療癌癥、感染性疾病的新型藥物以及防治植物病害的新型綠色農(nóng)藥的需求巨大而迫切。另一方面，獨特NPs的多樣性是新藥創(chuàng)制的源泉和基礎，尤其在現(xiàn)代基因編輯技術、各類組學技術和人工智能的支持下NPs藥物展現(xiàn)出巨大的發(fā)展?jié)撃堋Ｒ虼?，在后基因組時代NPs藥物必將在需求和新技術的驅(qū)動下迎來又一個發(fā)展的黃金時期。

那么在新時代如何基于NPs的化學多樣性，從中高效發(fā)掘微生物藥用先導化合物是一個重要的基礎性科學問題。為此，作者提出了基于潛力菌株優(yōu)選和多組學導向的高效發(fā)掘新穎藥用先導化合物的集成研究體系SPLSD(Systematic Pipeline for efficient Lead Structure Discovery from microbial natural products by promising strain selection and multi-omics mining)(圖2)。首先選擇動植物共附生微生物為優(yōu)選的研究對象，測定其16S RNA或ITS(internal transcribed spacer)基因序列并構建系統(tǒng)發(fā)育樹，初步認識其分類學地位以及基因型的獨特性；然后文獻調(diào)研或采用NCBI基因組數(shù)據(jù)分析其所在類群的泛基因組特征，依此進行分支菌株的選擇和去重復(流動值低的可在種或亞種層次去重復，流動值高的要重視每一個獨特來源的基因型菌株)，并利用相近類群泛基因組數(shù)據(jù)參考分析選擇菌株的BGCs豐富度、主要類別和新穎性，優(yōu)選泛基因組開放程度高、流動值大、參考基因組富含新穎BGCs、且該進化分支或類群NPs研究尚不充分的菌株作為目標潛力菌株“promising strains”；對于所在類群泛基因組流動值較低且與參考菌株高度同源的，可以使用參考菌株基因組進行目標菌株BGCs的預測，對于相應流動值高的則還需要對選擇的潛力菌株進行全基因組測序和生物信息學分析，精準認識其合成新穎次級代謝產(chǎn)物的潛能和特異性；隨后對目標潛力菌株采用多種靶向或隨機激活的策略(不局限于圖2中展示的激活策略)，改變其化學多樣性或激活目標產(chǎn)物，并通過不同表達水平檢測(轉(zhuǎn)錄和代謝水平)和效應物功能篩選，識別目標藥用次級代謝產(chǎn)物的激活條件；最后使用活性導向和化學追蹤的手段對目標產(chǎn)物完成分離、鑒定和活性評價，并通過結構優(yōu)化不斷改善成藥性，實現(xiàn)新穎藥用先導化合物的高效發(fā)掘。

針對SPLSD挖掘線路還有幾點補充說明。①對于無需菌株本身基因組信息的激活策略，根據(jù)實際情況可不測定潛力菌株的基因組序列，但毫無疑問，基因組測序有助于全面了解選擇菌株的潛能和特異性，也有助于利用靶向激活策略系統(tǒng)地發(fā)掘其蘊含的目標NPs。②antiSMASH等基于規(guī)則的預測工具對于含有尚未被闡明的生物合成新機制以及非線性催化合成的BGCs很難實現(xiàn)準確預測；同時在實踐中往往由于化學結構多樣性與其生物合成機制闡明的滯后性，導致生物信息學預測的新穎BGCs并不保證能產(chǎn)生新NPs。因此，基因組序列信息的挖掘與激活產(chǎn)物的化學識別相結合，不僅能篩選激活培養(yǎng)條件，還能互相印證、促進新NPs的發(fā)掘及其生物合成途徑的闡明。③多樣性導向的挖掘方法對于發(fā)現(xiàn)新穎NPs非常有效，但NPs的功能也應被優(yōu)先考慮，因此針對特定功能和結構類型的NPs進行靶向發(fā)掘是非常必要的，也是SPLSD體系所提倡的。④非靶向NPs挖掘或靶向NPs識別困難時，對激活或多樣性提高的提取物進行充分的活性篩選有助于提早發(fā)現(xiàn)NPs的功能和潛在應用方向。但對于為數(shù)不多的提取物進行多模型活性篩選是不經(jīng)濟的，因此非常有必要建立化合物差異的提取物庫，并對其持續(xù)進行不同活性模型的高通量篩選，實現(xiàn)高值NPs的高效發(fā)現(xiàn)。

圖2 基于潛力菌株優(yōu)選和多組學挖掘的高效發(fā)現(xiàn)微生物天然產(chǎn)物先導結構的研究系統(tǒng)(SPLSD)Fig.2 The systematic pipeline for efficient lead structure discovery from microbial natural products by promising strain selection and multi-omics mining (SPLSD)體系中的激活策略不僅僅局限于圖中列舉的方法，任何能避開宿主的調(diào)控系統(tǒng)，強化BGCs合成基因和前體供應相關基因的表達，以及編碼蛋白活性提高的策略均可應用于隱性BGCs的激活The activation approaches are not limited to these methods listed in the figure. Any strategy that can avoid the host′s regulatory system, enhance the expression of biosynthesis genes and precursor supply-related genes, and improve the catalytic activity of encoded proteins can be used to activate cryptic BGCs

在過去的實踐中，結構多樣性導向的新NPs發(fā)掘，會產(chǎn)生大量“無活性”NPs。據(jù)統(tǒng)計，過去五年海洋來源的7 500多種新NPs中絕大部分進行了細胞毒性、抗菌、抗真菌或抗炎活性的篩選，但占總數(shù)68%的新NPs不具有上述活性[68]。當前NPs 生物活性發(fā)掘側重于癌癥、微生物感染和炎癥，這嚴重限制了NPs化學多樣性在新出現(xiàn)代謝、免疫和神經(jīng)退行性等疾病治療，以及增強植物免疫、抗逆性和促生等方面的應用。作者倡導的NPs系統(tǒng)發(fā)掘線路SPLSD也強調(diào)擴展化學多樣性與活性篩選相結合的重要性。小分子NPs與生物在自然界中長期共同進化，其生物學功能影響著宿主細胞特定的生理代謝過程，NPs作為“天生我才必有用”的自然進化產(chǎn)物，應充分進行各類生物活性模型篩選，相信隨著通過更多細胞、酶/蛋白等不同功能和水平模型的高通量篩選，甚至虛擬藥物篩選，NPs將會在生命科學研究、醫(yī)藥健康與現(xiàn)代農(nóng)業(yè)生產(chǎn)中發(fā)揮越來越重要的作用。

還有，盡管NPs因為其結構的多樣性和復雜性長期以來都是創(chuàng)制新藥的重要來源和啟迪，但是NPs直接成藥卻少之又少。據(jù)統(tǒng)計，去除9個植物源的提取藥物，在1 202個小分子藥物中，NPs直接成藥的67個，僅占5.57%，而NPs衍生物藥物為320個，達到26.62%[69]。特別在抗感染藥(抗菌藥、抗真菌藥、抗寄生蟲藥和抗病毒藥)中，NPs衍生物成藥和其直接成藥的比例高達83∶13，提高了約6.4倍[70]。農(nóng)藥領域NPs直接成藥的僅占市場總量的4%，而以NPs為模板或啟迪的占到50%[71]。藥用NPs表現(xiàn)出“先導強、成藥弱”的顯著特點。這主要是因為NPs來源的藥用先導化合物往往存在生物利用度差、代謝不穩(wěn)定、副作用明顯等缺陷。因此，以新穎的藥用NPs骨架為先導，在保持其結構復雜性和藥理活性的基礎上，通過持續(xù)的結構優(yōu)化，改善其藥學性質(zhì)，是創(chuàng)制新藥的有效途徑。而我國作為新NPs發(fā)現(xiàn)的大國，應加強自主發(fā)現(xiàn)NPs的化學修飾，通過持續(xù)改善其ADMET特性(absorption、 distribution、 metabolism、 excretion、 toxicity)，引導實現(xiàn)創(chuàng)新藥物的成功開發(fā)。

此外，盡管作者強調(diào)了可培養(yǎng)微生物中NPs的挖掘方法，但是隨著宏基因組學、代謝組學、合成生物學和人工智能等的飛速發(fā)展，讓非培養(yǎng)依賴的NPs挖掘技術限制因素越來越少。尤其適合大數(shù)據(jù)集處理的ClusterFinder等新算法和MolNetEnhancer等化合物注釋工具，揭示了自然界蘊含BGCs的無限潛力，使得包含潛在跨物種的“Pan-BGCs”合成的“非自然”NPs挖掘變成了現(xiàn)實，極大地擴展了自然界總的NPs庫。同時，基于合成生物學理念RetroPath、optStoic、RxnFinder等工具的建立[72]，也為Pan-BGCs預測產(chǎn)物的人工合成提供了便利?？梢韵嘈牛谛录夹g的推動下非培養(yǎng)依賴的挖掘策略有望成為未來新NPs產(chǎn)生的重要途徑。