陳瑩 徐俊南 王志翊 翁杰 周小明 王賢川*
代謝組學(xué)是對(duì)生物體體液(如血液、唾液、尿液等)內(nèi)的一切代謝物進(jìn)行定性和定量分析的學(xué)科[1]。代謝組學(xué)利用核磁共振(NMR)、氣相色譜-質(zhì)譜聯(lián)用法(GC-MS)和液相色譜-質(zhì)譜聯(lián)用法(LC-MS)等主要技術(shù),通過(guò)測(cè)量生物樣品中的小分子物質(zhì),發(fā)現(xiàn)疾病標(biāo)志以及提示疾病發(fā)病機(jī)制[2-4]。近年來(lái)對(duì)膿毒血癥的研究不斷進(jìn)展,代謝組學(xué)作為一門新興學(xué)科,為膿毒血癥的研究提供了新的思路和方法[5]。由于機(jī)體中毒后代謝組學(xué)改變信息量龐大,用智能的算法挖掘多變量的相互作用至關(guān)重要。當(dāng)前在大數(shù)據(jù)挖掘處理中,有多種機(jī)器學(xué)習(xí)算法,其中支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)理論的方法[6]。本文首先通過(guò)GC-MS代謝組學(xué)檢測(cè)膿毒血癥組、健康對(duì)照組血液成分的變化,形成代謝數(shù)據(jù)集,然后通過(guò)reliefF特征評(píng)估方法篩選出膿毒血癥患者血液中的特異度差異代謝物,再利用機(jī)器學(xué)習(xí)中的SVM分類算法構(gòu)建分類識(shí)別模型,并使用測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)性能評(píng)估,根據(jù)評(píng)估結(jié)果優(yōu)化算法參數(shù),最后形成最優(yōu)識(shí)別模型。
1.1 基于機(jī)器學(xué)習(xí)的膿毒血癥診斷流程 見圖1。
1.2 膿毒血癥樣品收集 收集2014年1月至2015年1月溫州醫(yī)科大學(xué)附屬第二醫(yī)院急診科膿毒血癥患者16例。其中男9例,女7例,平均年齡(50.6±7.7)歲。健康組在溫州醫(yī)科大學(xué)附屬第二醫(yī)院體檢中心隨機(jī)抽取。其中男8例,女8例,平均年齡(48.1±8.3)歲。該研究經(jīng)溫州醫(yī)科大學(xué)附屬第二醫(yī)院倫理委員會(huì)批準(zhǔn),所有患者均簽署知情同意書。兩組患者在性別、年齡等一般資料上比較,差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。分別從健康對(duì)照組和膿毒血癥組收集血液,然后4℃以4000g離心10min,取上層血清儲(chǔ)存在-80℃直至測(cè)量。1.3 GC-MS數(shù)據(jù)采集 Agilent 6890N-5975B GC/MS,HP-5MS(0.25mm×30m×0.25μm)來(lái)自安捷倫公司(Santa Clara,California,USA)。GC柱溫箱最初設(shè)定在80℃,并保持在該溫度5min。然后以10℃/min的速度逐漸升溫至260℃,然后在260℃保溫10min。電子能量為70eV,EI模式下進(jìn)行檢測(cè),全掃描模式掃描,范圍為m/z 50-550。GC-MS采集的數(shù)據(jù)導(dǎo)出至Microsoft Excel中。本實(shí)驗(yàn)數(shù)據(jù)集包含了32個(gè)實(shí)例(健康組16個(gè),膿毒血癥組16個(gè)),其中前177例為檢測(cè)到的峰值,屬性名為檢測(cè)時(shí)間,最后1例為分類屬性,屬性名為class,其中D和M分別代表健康組和膿毒血癥組。
圖1 基于機(jī)器學(xué)習(xí)的膿毒血癥診斷流程
1.4 機(jī)器學(xué)習(xí)環(huán)境 Weka[7]是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下發(fā)布。其可以運(yùn)行于幾乎所有操作平臺(tái),是一款免費(fèi)、非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka提供了一個(gè)統(tǒng)一界面,可結(jié)合預(yù)處理以及后處理方法,將許多不同的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評(píng)估由不同的學(xué)習(xí)方案所得出的結(jié)果。本實(shí)驗(yàn)SVM算法采用LIBSVM軟件包[8]實(shí)現(xiàn),LIBSVM是臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授等開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包。
1.5 數(shù)據(jù)預(yù)處理 原始數(shù)據(jù)中部分?jǐn)?shù)據(jù)為空,采用0補(bǔ)充。另外,原始數(shù)據(jù)數(shù)值差異較大,需要進(jìn)行歸一化處理。采用weka平臺(tái)規(guī)范化(Nomalize)方法,對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,將峰值數(shù)據(jù)歸一化到[0,1]。
2.1 屬性評(píng)估 本實(shí)驗(yàn)數(shù)據(jù)具有維度大的特點(diǎn),共計(jì)160個(gè)屬性,為了對(duì)檢測(cè)點(diǎn)以及檢測(cè)到的物質(zhì)進(jìn)行預(yù)測(cè)價(jià)值分析,需要對(duì)這160個(gè)屬性的重要性進(jìn)行評(píng)估,本實(shí)驗(yàn)采用WEKA中的reliefF算法[9],該算法根據(jù)特征對(duì)近距離樣本的區(qū)分能力來(lái)評(píng)估特征,即相關(guān)特征應(yīng)該使同類的樣本接近,而使異類的樣本之間遠(yuǎn)離。使用該算法評(píng)估得到排名靠前的13個(gè)屬性如表1所示。
表1 屬性評(píng)估結(jié)果
2.2 SVM算法分類實(shí)驗(yàn)結(jié)果及參數(shù)優(yōu)化分析 WEKA提供了一些參數(shù)優(yōu)化工具可以優(yōu)化基分類器參數(shù),本實(shí)驗(yàn)中采用CVParameterSelection,該方法采用交叉驗(yàn)證的方法,可以優(yōu)化任意多個(gè)參數(shù)的基分類器。實(shí)驗(yàn)中選擇CVParameterSelection為分類器,LibSVM為CVParameterSelection的基分類器,并設(shè)置CVParameterSelection的交叉驗(yàn)證參數(shù)為G 0.01 0.1 10即設(shè)置參數(shù)G從0.01至0.1迭代(10步),經(jīng)過(guò)實(shí)驗(yàn)得到最佳G參數(shù)值為0.08,分類結(jié)果如下表所示。從表2可以看出,敏感度即真陽(yáng)性率TP =12/(4+12)=75%,特異度即真陰性率TN=11/(11+5)=68.75%,識(shí)別率=(11+12)/(16+16)=71.875%。從表3中可以看出,經(jīng)過(guò)reliefF評(píng)估方法進(jìn)行特征選擇后,敏感度、特異度和識(shí)別率分別提高至75%、100%和87.5%。
表2 預(yù)測(cè)結(jié)果混淆矩陣
表3 reliefF特征選擇對(duì)分類結(jié)果產(chǎn)生的影響(%)
2.3 兩組患者血液主要標(biāo)志物峰面積比較 見表4。
表4 兩組患者血液主要標(biāo)志物峰面積比較(x±s)
代謝組學(xué)數(shù)據(jù)常存在維度高的特點(diǎn),本實(shí)驗(yàn)數(shù)據(jù)屬性個(gè)數(shù)達(dá)160個(gè),采用reliefF評(píng)估方法進(jìn)行特征降維使診斷模型敏感度、特異度和識(shí)別率分別提高至75%、100%和87.5%,另外本研究對(duì)如何尋找分類器最優(yōu)參數(shù)進(jìn)行了探討,本文提供了一種快速有效的參數(shù)尋找方法,即采用交叉驗(yàn)證參數(shù)選擇法,實(shí)驗(yàn)利用CVParameterSelection方法快速確定SVM最優(yōu)參數(shù)。
本研究中健康組和膿毒血癥組共有13個(gè)生物標(biāo)志物被篩選出,分別是丙三醇、十六酸、十四酸、β-D-呋喃半乳糖苷、丙氨酸、β-D-吡喃葡萄糖苷糖醛酸、十二酸、油酸、d-半乳糖、甘氨酸、d-葡萄糖、d-甘露糖、β-DL-阿拉伯呱喃糖,其中丙三醇、十四酸、β-D-吡喃葡萄糖苷糖醛酸和甘氨酸在兩組間有顯著差異。丙三醇和β-D-吡喃葡萄糖苷糖醛酸在膿毒血癥組患者中顯著升高,而十四酸和甘氨酸在膿毒血癥組患者中顯著下降。這些基于基于代謝組學(xué)結(jié)合reliefF評(píng)估方法篩選出來(lái)的代謝標(biāo)志物有助于對(duì)膿毒血癥患者進(jìn)行診斷及鑒別診斷。
Goossens等[10]研究表明,膿毒血癥大鼠體內(nèi)丙三醇含量降低,可能與膿毒血癥大鼠體內(nèi)促進(jìn)甘油轉(zhuǎn)化為葡萄糖途徑的限速酶活性升高有關(guān)。而本研究中膿毒血癥患者體內(nèi)甘油含量呈增加趨勢(shì),可能因?yàn)槟摱狙Y患者體內(nèi)脂肪酸分解代謝增加,而脂肪酸分解過(guò)程中將會(huì)產(chǎn)生大量甘油,從而導(dǎo)致膿毒血癥患者體內(nèi)甘油總體呈升高趨勢(shì)。β-D-吡喃葡萄糖苷糖醛酸在本研究中同樣呈升高趨勢(shì),有望成為膿毒血癥新型代謝標(biāo)志物,但目前尚無(wú)該代謝標(biāo)志物在膿毒血癥方面的研究報(bào)道,其對(duì)膿毒血癥的診斷意義需進(jìn)一步研究。
十四酸又稱肉豆蔻酸,是一種飽和脂肪酸,可以通過(guò)脂肪酸β-氧化途徑進(jìn)行分解代謝。最近關(guān)于膿毒血癥患者體內(nèi)脂肪酸代謝變化的研究不斷增加。Kauppi AM等[11]采用代謝組學(xué)的方法研究膿毒血癥患者體內(nèi)代謝物的變化,共發(fā)現(xiàn)包括十四酸在內(nèi)的6種代謝物顯著變化,其中十四酸是最具預(yù)測(cè)性的代謝物,對(duì)診斷膿毒血癥的敏感度高達(dá)91%,特異度達(dá)70%,準(zhǔn)確性顯著優(yōu)于當(dāng)前的C-反應(yīng)蛋白、白細(xì)胞等指標(biāo)。甘氨酸又名氨基乙酸,小分子量氨基酸,屬于人體非必需氨基酸,能夠合成DNA,磷脂以及膠原蛋白等。在本研究中膿毒血癥患者甘氨酸含量較正常對(duì)照組顯著下降,提示甘氨酸水平對(duì)膿毒血癥患者具有診斷意義。外源性補(bǔ)充甘氨酸降低膿毒血癥患者病死率,但需要更多臨床研究證實(shí)。
綜上所述,本研究篩選出膿毒血癥患者血液中的四種特異度差異代謝物,為膿毒血癥機(jī)制研究進(jìn)一步提供理論依據(jù),所建立的識(shí)別模型,能夠有效預(yù)測(cè)膿毒血癥。