張 鳳,陳萬生
新陳代謝是活細胞中全部有序化學反應的總稱,是生物體最基本的生命活動過程。機體無時無刻不在進行著新陳代謝。代謝組學的本質就是系統(tǒng)研究機體代謝物的變化規(guī)律,揭示在特定時間點機體內部發(fā)生的生物化學活動,是系統(tǒng)生物學的重要組成部分[1-2]。代謝組學的研究目的是通過研究代謝物之間的相互轉化與含量水平變化,將這些信息與病理生理過程中的生物化學以及生理功能改變聯(lián)系起來,發(fā)現(xiàn)潛在的生物標志物。代謝物水平受許多因素的影響,包括遺傳、疾病、環(huán)境、藥物、飲食等,故代謝組學反應的是上述因素綜合作用后機體的代謝組水平特征,是對生命活動“最后環(huán)節(jié)”的研究,被譽為“真實場景的評估”,與表型最為接近的組學,最能反應機體未來發(fā)生的變化;且這些特征性代謝物的出現(xiàn)或改變一般遠早于傳統(tǒng)的病理學終點。因此,對于特征性代謝物的干預使得疾病的治療有極大的可能性[3-4]。另外,代謝物的動態(tài)特性有助于疾病的診斷和預后評判,以及預測和監(jiān)測藥物治療效果,正逐漸成為精準化藥物治療的有力工具。
Fiehn[5]將代謝組學分析分為以下幾個層次:代謝物的靶標分析,主要針對樣本中的一個或者幾個化合物;代謝輪廓分析,對某一特定類別的代謝產物或某一代謝途徑的所有中間物進行分析;代謝組學分析,采用特定的方法對樣本中所有代謝物進行定性和定量分析;代謝指紋分析,對樣本進行快速分類分析。前3個層次為靶向代謝組學技術,最后1項為非靶向代謝組學技術。因此,當前一般認為非靶向代謝組學技術為定性分析,通過差異組學分析發(fā)現(xiàn)候選生物標志物,提出科學假設;靶向代謝組學技術為定量分析,以非靶向代謝組學技術確定的一組候選生物標志物為分析目標,通過準確的定性和定量分析驗證實驗提出的假設,完成對候選生物標志物進行篩選、確認和驗證。
2.1樣本類型代謝組學分析可利用各種生物樣本,從尿液和血液到糞便、滑液、唾液、組織、特定細胞和腫瘤組織等。血液(以血清和血漿的形式)和尿液是最容易獲取的生物樣本,因為它們容易通過微創(chuàng)方法對患者及健康人進行采集,也不需要對這些類型的生物樣品進行額外的研磨或分餾。其中血液所提供的小分子信息多于尿液,相對于尿液而言比較容易保存及前處理,因此成為最佳選擇[6-7]。但兩者也不是萬能的分析樣本,如在風濕性疾病患者中,關節(jié)或骨骼的滑液和組織與發(fā)病機制的關系較血液或尿液更為密切[8]。
2.2樣本處理不同的生物樣本需要的前處理方法不同,主要是獲得性質、狀態(tài)均一化的樣本,并且盡可能降低生物樣本中的殘留酶、氧化還原反應等的影響,一般包括液液萃取、固相萃取、蛋白沉淀、冷凍干燥等。在實際操作的過程中,樣本的前處理取決于實驗選擇的代謝組學檢測技術。如由于尿液中小分子極性物質濃度較高,在核磁共振(nuclear magnetic resonance,NMR)檢測時應加入相應濃度的緩沖鹽,降低鹽濃度造成的化學位移偏移和弛豫時間偏倚;在采用氣相色譜-質譜聯(lián)用(gas chromatography-mass spectrometer,GC-MS)法時,應對樣本進行充分的衍生化,增強代謝產物的熱穩(wěn)定性,提高質譜離解能力;在進行液相色譜-質譜聯(lián)用(liquid chromatography-mass spectrometer,LC-MS)分析時,首先應去除生物樣本中的蛋白[9-10]。一般情況下并不會對生物樣本進行多次或者多步驟的處理,以免失去一些內源性代謝物的信息。為盡可能降低生物樣本中的殘留酶、氧化還原反應等的影響,生物樣本在采集后需要進行“淬滅”,最常用的方法是冷凍處理(液氮保存)或者冷甲醇保存等,避免強酸、強堿、高溫等條件,減少代謝物降解[11]。
2.3樣本檢測代謝組學的數(shù)據(jù)采集對象種類繁多,所檢測化合物分布類型廣泛、理化性質存在明顯差異,因此很難對生物樣本用同一種方法進行全面的分析。目前主要的數(shù)據(jù)采集和分析技術包括NMR、MS和LC、GC、毛細管電泳(capillary electrophoresis,CE)等技術聯(lián)用的方式,這些技術各有千秋、各有側重,能夠在實際應用的過程中相互補充。
NMR是最先應用于代謝組學研究的技術,主要優(yōu)點是可以對代謝物進行定量分析,對樣本無破壞性,分析速度快,不需要衍生化前處理,不需要樣本分離等;但靈敏度低、檢測動態(tài)范圍窄。GC不能直接得到體系中難揮發(fā)的大多數(shù)代謝組分的信息,對于揮發(fā)性較低的代謝產物需要衍生化處理,預處理過程繁瑣。相比較而言,MS具有較高的靈敏度和專屬性,可以實現(xiàn)對多個化合物的同時快速分析與鑒定[12-14]。因此,隨著質譜及其聯(lián)用技術的發(fā)展,越來越多的研究者將多種LC-MS技術用于代謝組學的研究,實現(xiàn)復雜生物背景代謝產物的充分表征。在近幾十年以來,質譜檢測、分析技術的發(fā)展逐漸實現(xiàn)復雜生物背景的生物樣本的充分表征,使得LC-MS逐漸成為了代謝組學研究的重點[15-16]。
2.4質量保證和質量控制質量保證(quality assurance,QA)和質量控制(quality control,QC)是代謝組學成功的2個不可或缺的質量管理過程,包括在任何高通量分析化學實驗室中獲取高質量數(shù)據(jù)的應用。QA定義了在采集樣品前實施的所有計劃和系統(tǒng)活動,以確保隨后的分析過程能夠滿足預定的質量要求;QC可定義為在數(shù)據(jù)采集后用于測量和報告這些質量要求的操作技術和活動[17]。對QA而言,樣本采集的分析前階段,包括生物樣本的收集、處理、運輸、儲存等變量均可能造成實驗誤差,已被認為是造成多數(shù)臨床檢測結果出現(xiàn)錯誤的變量,應該在實驗進行中予以規(guī)范[18-19];QC主要參照FDA生物樣本分析方法學驗證指導原則(2018版)和新版中國藥典(2015版)9012生物樣品定量分析方法驗證指導原則的要求進行方法學驗證[20-21]。由于生物標志物屬于內源性物質,不同于藥物這樣的外源性物質,有研究者認為目前以藥物代謝動力學研究為中心的指南無法充分描述生物標志物方法驗證[22]。但任何分析方法開發(fā)中的關鍵點都是驗證每個步驟以獲得可靠和可重復的結果,非靶向、靶向代謝組學并不超出此標準,生物樣本分析的方法值得借鑒和學習,包括準確度、精密度、特異度、最低檢測限、最低定量限等,已經成為目前正廣泛使用的有效的驗證策略[23]。除此以外,質控樣本的制備、數(shù)據(jù)處理方法的應用都是分析方法開發(fā)過程中需要考慮的一些環(huán)節(jié)。
在本課題組開展的靶向代謝組學研究方案中,我們嚴格參照FDA和中國藥典的相關指導原則完成完整的方法學論證;并嚴格規(guī)范分析前階段中樣本采集、運輸?shù)牟僮鳎瑢Σ裳艿氖褂?、樣本的保存條件這兩種主觀因素進行了考察與規(guī)范,從檢測結果穩(wěn)定性和一致性入手,規(guī)范樣本分析前階段的采血管類型和樣本在采血管中的保存時間,為血漿中氨基酸靶向代謝組學分析提供質量保證,從而對樣本中內源性物質的真實情況給予最大程度的還原[24-26]。
2.5數(shù)據(jù)分析與統(tǒng)計分析代謝組學的數(shù)據(jù)分析是指將海量的多維數(shù)據(jù)輪廓譜進行降維處理,將代謝組學的變化同環(huán)境、病理、生理的變化聯(lián)系起來,用可視化的數(shù)學模型將不同狀態(tài)下代謝產物譜表征出來。許多統(tǒng)計技術可用于代謝組學數(shù)據(jù)的分析,包括單變量和多變量分析[27]。通常分析的起點是代謝物數(shù)據(jù)的QC,即數(shù)據(jù)的預處理。處理包括如下步驟:即數(shù)據(jù)歸一化,以消除或減少原始數(shù)據(jù)中不必要的總體變化;數(shù)據(jù)標準化,以消除不同代謝物濃度數(shù)量級的差別,必要時需對濃度使用數(shù)據(jù)轉換,或者消除異方差性的影響,使得數(shù)據(jù)滿足一些線性分析技術的要求。接下來,進行單變量或多變量統(tǒng)計分析,以確定候選生物標志物。在線性回歸模型、廣義線性模型、t檢驗或方差分析等單變量分析方法中,對每個變量分別進行檢驗。多變量分析在尋找生物標志物分類和預測疾病的許多方面優(yōu)勢明顯,主要包括主成分分析、偏最小二乘判別分析、懲罰回歸模型、隨機森林模型和支持向量機等[28]。
2.6候選生物標志物及其生物學意義闡明變量分析獲得的差異化合物稱為候選生物標志物,需要對其生物學意義進行挖掘,找出在病理和生理變化下體內代謝通路及其相關基因、酶等的變化,以便后期開展標志物驗證,確定候選生物標志物的應用價值。常用的有DAVID(The Database for Annotation,Visualisation and Integrated Discovery)和IPA(Ingenuity Pathway Analysis)軟件,用于識別代謝物特征和疾病之間關聯(lián)的生物學途徑[29-30]。由于上述軟件需要付費,本課題組主要采用建立在網絡基礎上的代謝通路分析軟件Metaboanalyst分析。通過網絡富集分析和拓撲分析得出代謝網絡得分(-log P)和影響因子,指出機體變化下的代謝通路[31]。由此獲得的候選生物標志物需要經過進一步的確認,包括代謝通路和臨床試驗驗證,用以獲得更為準確的標志物信息,由此預測藥物療效的生物標志物對于提高精確醫(yī)學的發(fā)展至關重要。目前有關肺癌分析生物標志物的驗證是值得參考的案例,可以在Ⅱ期藥物臨床試驗伴隨進行,其研究結果可以有4種可能的方法來指導Ⅲ期試驗設計:使用生物標志物驅動的富集設計、生物標志物分層設計、執(zhí)行常規(guī)隨機設計,或在當前結果下放棄/終止[32-33]。
另外,在生物標志物檢測開發(fā)的質量保證和質量控制的條件下,由于檢測方法系統(tǒng)化、自動化和標準化的要求,尤其基于質譜分析方法的不斷提升使得生物標志物檢測試劑盒自動化、小型化和普適性的開發(fā)勢在必行。
從2016年腫瘤細胞具有“重構能量代謝體系”的基本特征被揭示后,20世紀30年代生物學家Otto Warbug發(fā)現(xiàn)的“瓦爾堡效應”(Warburg effect)又開始登上腫瘤研究舞臺,即糖酵解和三羧酸循環(huán)為主的葡萄糖代謝紊亂是腫瘤細胞生長增殖過程中的一個特有代謝特征[34]。因此,基于癌癥代謝的轉化性研究是當前精準藥物治療中最有代表性也最具引領性的方向。
陳賽娟院士和賈偉教授合作開展的772份急性髓細胞白血病(acute myeloid leukemia,AML)患者血清代謝組學研究發(fā)現(xiàn)AML患者的糖酵解代謝水平非?;钴S,患者的糖酵解代謝活性越高,其生存越差,并且確定了血清2-HG水平是一個較為有效的預后因子。在此基礎上開展的細胞和動物實驗發(fā)現(xiàn)活躍的糖酵解代謝可顯著降低AML細胞對化療藥阿糖胞苷的敏感性,且AML細胞異?;钴S的糖酵解代謝可導致骨髓微環(huán)境中葡萄糖水平嚴重不足。進一步的代謝流分析研究發(fā)現(xiàn)AML細胞啟動一個替代機制轉而利用果糖保持足量的碳源攝取以維持細胞的惡性增殖,使用RNA沉默技術干擾AML細胞的SLC2A5基因表達,可顯著降低細胞對果糖的攝取以及果糖誘導的細胞增殖,證實了果糖在腫瘤增殖中的地位。而后,他們在AML動物模型中發(fā)現(xiàn)果糖類似物2,5-脫水-D-甘露醇(2,5-AM)對該果糖轉運的蛋白轉運子GLUT5有高度親和性,與阿糖胞苷聯(lián)合使用后的療效強于兩者中任何一個單用藥物的效果。這表明,針對GLUT5的小分子化學藥物或者抗體藥物有望與目前的常用腫瘤化療藥物聯(lián)合使用,可能極大地改善癌癥患者的治療效果[35-36]。由此不難看出,代謝組學對于疾病機理的闡明、精準治療離不開個體遺傳特征的緊密聯(lián)系;同時,個體代謝和遺傳特征之間的緊密聯(lián)系使得研究代謝水平變化的途徑成為可能。為使代謝組學領域充分發(fā)揮其潛力,研究人員需要考慮代謝物產生的遺傳因素以及這些代謝物在疾病過程中的潛在作用,而不僅僅是揭示代謝物水平的改變。
代謝組學從發(fā)現(xiàn)至今已經有了20多年的歷程,有諸多關于精準藥物治療的候選生物標志物被發(fā)現(xiàn);但是真正被運用于臨床的比例卻很低。美國梅奧診所提供的測試目錄僅提供了臨床實踐中使用的幾十種標志物。大多數(shù)文獻中基本上是小規(guī)模的初步類型研究,其中許多研究在實驗設計上存在一些問題,如樣本量大小、樣本前處理技術、疾病組和對照組的選擇、樣本檢測和分析技術等,甚至可能導致錯誤的發(fā)現(xiàn)或遺漏有效的標志物信息。其次,基于代謝組學技術對生物標志物的發(fā)現(xiàn)階段是最重要、最基礎的階段,但驗證和確認則是決定生物標志物能否應用于臨床的關鍵,而這個驗證過程往往需要若干年代,需要對每種可能的對照組情況,也就是不同的數(shù)據(jù)子集來支持生物標志物的應用[37]。Henry Nix曾表達:數(shù)據(jù)的組合不等于信息,信息的組合不等于知識,知識的組合不等于智慧,智慧的組合不等于事實[38]。因此,代謝組標準倡議(metabolomics standards initiative,MSI)發(fā)起并隨后發(fā)表了一系列關于最低報告標準的論文,肯定了獨立驗證的必要和價值。
代謝組學研究為對疾病發(fā)生機制、藥物治療作用提出了各種假設,為深入了解目標人群的治療過程開辟了新的研究領域。作為系統(tǒng)生物學的組成部分,代謝組的變化與基因組、轉錄組和蛋白組變化密切相關[39]。系統(tǒng)生物學方法的發(fā)展和各組學生物標志物整合模式將為聯(lián)系復雜的代謝調節(jié)與多因素疾病的病因以及為疾病的精準治療提供新的機會,并促進系統(tǒng)生物學在醫(yī)學領域的進步。精準化藥物治療及其管理的目的是通過驗證新的“組學”技術整合不同類型數(shù)據(jù)的新方法,最終到達提高患者群體診斷精度、廣度的目的。精準化藥物治療的基石和最終驗證將是大型的國家隊列研究,對來自各種來源(如組織學、DNA、蛋白質和RNA、代謝物)的大量數(shù)據(jù)進行分析,以確定疾病風險、治療反應和/或預后的最佳預測因子。面對如此龐大的數(shù)據(jù),可以肯定的是,機器學習可以用來挖掘和不斷改進算法,以計算患者的診斷,藥物治療反應和預后等,形成標志物組。隨著研究的深入,所建立的算法可以應用于普通人群,開展疾病篩查,以確保臨床表征隱性或者亞臨床癥狀患者得到適當?shù)淖o理,真正邁向精準化藥物治療的路徑。