国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)算法的深靜脈血栓代謝標(biāo)志物的分析策略

2024-09-11 00:00:00劉明鋒吳妍娟周世棟黨麗虹李健杜艷孫俊紅曹潔
分析化學(xué) 2024年7期
關(guān)鍵詞:深靜脈血栓形成質(zhì)譜聯(lián)用代謝組學(xué)

關(guān)鍵詞深靜脈血栓形成;機(jī)器學(xué)習(xí);代謝組學(xué);氣相色譜-質(zhì)譜聯(lián)用;特征選擇

深靜脈血栓形成(Deep venous thrombosis, DVT)是一種血液在深靜脈內(nèi)異常凝結(jié)引起的靜脈回流障礙性疾病,與血管內(nèi)皮功能障礙、血流停滯以及血液高凝狀態(tài)等因素有關(guān)[1-2]。DVT 作為一種臨床常見(jiàn)的周圍血管病,近年來(lái)發(fā)病率有所增加[3]。DVT 可導(dǎo)致靜脈炎后綜合征,容易復(fù)發(fā),嚴(yán)重影響患者的生活質(zhì)量;若血栓脫落還可導(dǎo)致肺動(dòng)脈栓塞,引起呼吸困難和循環(huán)衰竭,甚至死亡[4-5]。由于DVT 發(fā)病機(jī)制復(fù)雜,部分患者在早期無(wú)典型癥狀,容易出現(xiàn)誤診和漏診,引發(fā)醫(yī)療糾紛。據(jù)統(tǒng)計(jì), DVT 和肺動(dòng)脈栓塞的臨床診斷敏感性約為10%~30%;而從尸體解剖結(jié)果來(lái)看,僅有15%~45%的致命性肺動(dòng)脈栓塞的病例在生前被確診[6]。現(xiàn)階段的DVT 臨床診斷策略主要有評(píng)分量表評(píng)估、血漿D-二聚體水平檢測(cè)和超聲檢查。然而,評(píng)分量表評(píng)估無(wú)法用于獨(dú)立測(cè)試;D-二聚體靈敏度高,但特異性差;超聲檢查雖然可靠,但對(duì)小腿和髂靜脈血栓檢出率較低[7-9]。因此,尋找穩(wěn)定可靠的DVT 診斷生物標(biāo)志物是近年來(lái)的研究熱點(diǎn)。已有研究發(fā)現(xiàn)了與DVT 發(fā)生相關(guān)的P-選擇素、E-選擇素和IL-10 等[10-11]新型標(biāo)志物,但均處于實(shí)驗(yàn)研究階段,目前尚無(wú)法應(yīng)用于DVT 的臨床診斷。

代謝組學(xué)作為一種新興的組學(xué)技術(shù),可對(duì)生物體內(nèi)的小分子代謝物進(jìn)行高通量全局分析,較其它組學(xué)更接近表型,有助于深入了解疾病發(fā)展的全貌,篩選和評(píng)價(jià)疾病相關(guān)生物標(biāo)志物[12-14]?,F(xiàn)有的研究結(jié)果表明, DVT 可導(dǎo)致機(jī)體內(nèi)代謝紊亂[15-17],采用代謝組學(xué)研究有助于深入了解DVT 導(dǎo)致的生理過(guò)程,尋找診斷標(biāo)志物。氣相色譜-質(zhì)譜聯(lián)用(Gas chromatography-mass spectrometry, GC-MS)方法具有分離能力強(qiáng)、靈敏度高、可提供化合物結(jié)構(gòu)信息和同時(shí)分析多個(gè)組分等優(yōu)點(diǎn),是一種廣泛應(yīng)用于代謝組學(xué)分析的強(qiáng)大工具[18]。利用GC-MS 技術(shù)可同時(shí)分析生物體液或組織樣品中數(shù)百至數(shù)千種代謝物,從中精準(zhǔn)捕捉可能與特定疾病相關(guān)的代謝物和通路變化[19-20]。

將生物信息學(xué)分析和機(jī)器學(xué)習(xí)數(shù)學(xué)模型相結(jié)合,在代謝組學(xué)檢測(cè)產(chǎn)生的高通量數(shù)據(jù)中挖掘潛在的關(guān)鍵信息,同時(shí)聯(lián)合多指標(biāo)的變化規(guī)律進(jìn)行疾病的診斷和預(yù)測(cè),已成為目前的研究趨勢(shì)[21]。特征選擇是機(jī)器學(xué)習(xí)中一種重要的預(yù)處理方法,從數(shù)據(jù)中選擇最具代表性和相關(guān)性的特征,減少特征維度,提高模型的性能和泛化能力,是優(yōu)化機(jī)器學(xué)習(xí)模型的關(guān)鍵步驟。Lee 等[22]利用套索回歸算法對(duì)兒童慢性腎病血漿代謝數(shù)據(jù)進(jìn)行特征選擇,結(jié)果表明,經(jīng)篩選后的特征構(gòu)建的機(jī)器學(xué)習(xí)模型性能優(yōu)于未經(jīng)特征選擇的模型。Lisitsyna 等[23]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)統(tǒng)計(jì)方法和遺傳算法相結(jié)合,從非靶向代謝組學(xué)數(shù)據(jù)中選擇與疾病最相關(guān)的特征,構(gòu)建了一種新的預(yù)測(cè)模型,其精確率和召回率均超過(guò)90%。本研究采用代謝組學(xué)技術(shù)獲取DVT 大鼠尿液代謝譜,進(jìn)行多元統(tǒng)計(jì)分析后,采用3 種特征選擇算法篩選DVT 相關(guān)潛在標(biāo)志物,用于構(gòu)建DVT 機(jī)器學(xué)習(xí)診斷模型,為DVT 的早期自動(dòng)化診斷提供了新的思路。

1 實(shí)驗(yàn)部分

1.1 儀器和試劑

7890B-7000C 氣相色譜-三重四極桿串聯(lián)質(zhì)譜儀(美國(guó)Agilent 公司);SC-3610 低速離心機(jī)(安徽中科中佳科學(xué)儀器有限公司);2-16PK 臺(tái)式低溫離心機(jī)(美國(guó)Sigma 公司);SCIENTZ-1LS 型凍干機(jī)(寧波新芝生物科技股份有限公司);Milli-QIntegral 超純水系統(tǒng)(美國(guó)Millipore 公司)。

二氯甲烷、甲醇和正庚烷(分析級(jí),天津光復(fù)化學(xué)試劑有限公司);N-甲基-N-三甲基硅基三氟乙酰胺(MSTFA,美國(guó)Sigma 公司),含1%三甲基氯硅烷(Trimethylsily chloride, TMCS);二十四烷(美國(guó)Sigma公司);甲基羥胺鹽酸鹽(上海阿拉丁生化科技股份有限公司);吡啶(上海阿拉丁生化科技股份有限公司)。實(shí)驗(yàn)用水為超純水(電阻率≥18.2 MΩ·cm)。

1.2 動(dòng)物實(shí)驗(yàn)

使用健康成年Sprague-Dawley 大鼠20 只(180~200 g),由山西醫(yī)科大學(xué)實(shí)驗(yàn)動(dòng)物中心提供,于室溫(24℃±2℃)下飼養(yǎng)1 周后進(jìn)行實(shí)驗(yàn)。將大鼠隨機(jī)分為DVT 組和假手術(shù)(Sham)組,每組10 只。DVT 組大鼠使用10%戊巴比妥鈉進(jìn)行麻醉,開(kāi)腹找到下腔靜脈后,結(jié)扎所有側(cè)支。將微血管鉗夾在髂靜脈匯合處15 min,隨后縫合皮膚,涂抹青霉素粉。Sham 組大鼠接受所有外科手術(shù)操作,但不進(jìn)行下腔靜脈結(jié)扎。大鼠結(jié)扎后放入代謝籠,再置于冰上取48~72 h 內(nèi)的尿液;尿液離心后轉(zhuǎn)移到冷凍管中,于–80 ℃保存。

1.3 代謝組學(xué)檢測(cè)

1.3.1 樣本預(yù)處理

尿液樣本置于冰水混合物中解凍后,取200 μL 至1.5 mL 離心管,加入600 μL 甲醇-乙醇(1∶1, V/V)混合物,渦旋混勻,于4 ℃下以12000 r/min 離心10 min,吸取600 μL 上清液于新EP 管中,凍干,加入50 μL 甲氧胺鹽試劑(溶于15 mg/mL 吡啶),混勻,于70 ℃孵育1 h。迅速向每個(gè)樣品中加入100 μLMSTFA(含有1% TCMS),于40 ℃孵育1.5 h, 加入200 μL 含二十四烷的正庚烷內(nèi)標(biāo)溶液,待測(cè)。

1.3.2 GC-MS檢測(cè)條件

GC 條件 DB-5MS 毛細(xì)管色譜柱(30 m × 0.25 mm × 0.25 μm, 美國(guó)Agilent 公司),載氣He(99.99%),流速1.0 mL/min。柱溫:初始溫度為60 ℃,保持3 min;以7 ℃/min 升溫至140 ℃,保持4 min;以5 ℃/min 升溫至180 ℃,保持6 min;以5 ℃/min 升溫至280 ℃,保持2 min。分流進(jìn)樣,分流比為1∶10,進(jìn)樣量為1 μL。

MS 條件 EI 離子源,電離能量為70 eV,離子源溫度230 ℃,溶劑延遲時(shí)間為3.5 min;全掃描模式,掃描范圍m/z 50~650。

1.4 數(shù)據(jù)分析

1.4.1 數(shù)據(jù)預(yù)處理

利用ABF 轉(zhuǎn)換器(https://www.reifycs.com/AbfConverter/index.html)將原始圖譜轉(zhuǎn)換為.abf 格式,導(dǎo)入MS-Dial 軟件中進(jìn)行峰提取、基線過(guò)濾、校正、峰對(duì)齊和解卷積等處理。利用FiehnLib 氣相色譜-質(zhì)譜數(shù)據(jù)庫(kù)對(duì)圖譜中的代謝物質(zhì)進(jìn)行鑒定,導(dǎo)出內(nèi)源性化合物信息用于后續(xù)分析。

1.4.2 多元統(tǒng)計(jì)學(xué)分析

將得到的代謝物數(shù)據(jù)歸一化后,導(dǎo)入SIMCA14.0 軟件(瑞典Umetrics 公司)進(jìn)行主成分分析(Principalcomponents analysis, PCA)和正交偏最小二乘-判別分析(Orthogonal partial least squares-discriminant analysis,OPLS-DA),并采用200 次置換檢驗(yàn)驗(yàn)證,得到所有代謝物的變量重要性投影(Variable importance in theprojection, VIP)值。通過(guò)IBM SPSS Statistics 26.0 軟件進(jìn)行Mann-Whitney U 檢驗(yàn)得到p 值(p value),為減小誤差,對(duì)p 值進(jìn)行錯(cuò)誤發(fā)現(xiàn)率(False discovery rate, FDR)校正,獲得q 值(q value)。根據(jù)分析結(jié)果,篩選出VIP gt;1 且q lt; 0.05 的差異代謝物。

此外,為了尋找差異代謝物所在代謝通路的改變,將篩選后的差異代謝物導(dǎo)入到MetaboAnalyst 5.0(https://www.metaboanalyst.ca/)在線軟件中進(jìn)行京都基因和基因組百科全書(KEGG)通路富集分析。

1.4.3 特征選擇算法篩選關(guān)鍵代謝物

在Python 3.9(Intel Corporation, Santa Clara, CA, USA)環(huán)境下,分別使用3 種特征選擇算法,包括遞歸特征消除交叉驗(yàn)證(Recursive feature elimination cross validation, RFECV)、Boruta 和Shapley 加性解釋(Shapley additive explanation, SHAP),對(duì)多元統(tǒng)計(jì)分析篩選的差異代謝物進(jìn)行二次篩選。隨后對(duì)3 種算法篩選的特征代謝物取交集,作為關(guān)鍵的特征代謝物,用于構(gòu)建DVT 診斷模型。

1.5 DVT 診斷模型的構(gòu)建和評(píng)估

分別使用所有內(nèi)源性代謝物、經(jīng)多元統(tǒng)計(jì)分析篩選得到的差異代謝物和機(jī)器學(xué)習(xí)算法篩選得到的特征代謝物數(shù)據(jù),構(gòu)建高斯樸素貝葉斯(Gaussian naive bayes, GNB)、支持向量機(jī)(Support vector classifier,SVM)、邏輯回歸(Logistic regression, LR)和線性判別分析(Linear discriminant analysis, LDA)4 種機(jī)器學(xué)習(xí)模型。選用精確率、準(zhǔn)確率、召回率、F1 分?jǐn)?shù)和受試者工作曲線下面積(Area under receiver operatingcharacteristic curve, AUROC)作為評(píng)估指標(biāo),比較基于不同數(shù)據(jù)集構(gòu)建的模型表現(xiàn)。

2 結(jié)果和討論

2.1 大鼠DVT 模型評(píng)估

采用下腔靜脈結(jié)扎模型模擬血運(yùn)完全停滯的環(huán)境,可在短時(shí)間內(nèi)形成血栓,是一種十分穩(wěn)定的嚙齒動(dòng)物血栓模型[24]。再次打開(kāi)腹腔后,肉眼可見(jiàn)結(jié)扎處下腔靜脈明顯擴(kuò)張,管壁變薄,顏色加深(圖1A)。DVT 組大鼠的下腔靜脈縱向切開(kāi)后均發(fā)現(xiàn)血栓。病理形態(tài)學(xué)檢查結(jié)果顯示,血栓主要由纖維蛋白、血小板、紅細(xì)胞以及少量白細(xì)胞組成(圖1B),符合急性血栓形成的特點(diǎn),證明建模成功。

2.2 DVT 相關(guān)特征代謝物的篩選

2.2.1 GC-MS 圖譜分析

本研究組在前期工作中使用核磁共振氫譜技術(shù)對(duì)DVT 大鼠和患者的血液以及尿液進(jìn)行了代謝組學(xué)研究[25-26],發(fā)現(xiàn)大鼠與人之間存在較多相同的內(nèi)源性代謝物和相似的代謝途徑改變;DVT 相關(guān)差異代謝物有望成為DVT 診斷的候選生物標(biāo)志物。為了挖掘更多與DVT 相關(guān)的代謝物信息,探索代謝物在DVT 早期診斷中的價(jià)值,本研究使用GC-MS 檢測(cè)DVT 大鼠尿液中的小分子代謝物。將預(yù)處理過(guò)的原始數(shù)據(jù)與FiehnLib 氣相色譜-質(zhì)譜數(shù)據(jù)庫(kù)中的信息比對(duì),根據(jù)保留時(shí)間和內(nèi)標(biāo)二十四烷的保留指數(shù),最終鑒定出176 種內(nèi)源性小分子化合物。

2.2.2 多元統(tǒng)計(jì)學(xué)分析

為了進(jìn)一步探索DVT 組和Sham 組大鼠之間的代謝差異,將兩組數(shù)據(jù)歸一化后,導(dǎo)入SIMCA 14.0 軟件進(jìn)行主成分分析。如圖2A 所示,圖中每個(gè)點(diǎn)代表1 個(gè)樣本,數(shù)據(jù)點(diǎn)之間的距離反映了其代謝差異的程度,兩組樣本重疊較少,具有明顯分離趨勢(shì)。質(zhì)量控制(Quality control, QC)樣本分布較集中,說(shuō)明系統(tǒng)誤差小,結(jié)果可靠。對(duì)數(shù)據(jù)進(jìn)行OPLS-DA 分析以及200 次置換檢驗(yàn),獲得OPLS-DA 模型的評(píng)價(jià)參數(shù)。如圖2B 所示,模型概括解釋率(R2)為0.725、模型預(yù)測(cè)性(Q2)為–0.38,左側(cè)所有的R2 和Q2 均低于右側(cè)的點(diǎn),并且Q2 的回歸線具有負(fù)截距,說(shuō)明OPLS-DA 模型構(gòu)建成功,不存在過(guò)擬合。以上結(jié)果表明, DVT 和Sham 組大鼠尿液之間存在代謝差異。

為篩選與DVT 相關(guān)的顯著差異代謝物,通過(guò)建立OPLS-DA 模型計(jì)算代謝物的VIP 值。同時(shí),對(duì)數(shù)據(jù)進(jìn)行Mann-Whitney U 檢驗(yàn),計(jì)算所有代謝物的p 值,進(jìn)行FDR 校正,得到q 值。以VIP gt;1、q lt; 0.05 作為篩選條件,從176 種內(nèi)源性代謝物中篩選出26 種差異代謝物(表1)。與Sham 組比較, 25 種代謝物表達(dá)量上調(diào), 1 種代謝物表達(dá)量下調(diào),這些代謝物表達(dá)差異主要與能量、氨基酸和嘌呤代謝有關(guān)。

2.2.3 差異代謝物的生物功能富集分析

小分子代謝物作為生化反應(yīng)網(wǎng)絡(luò)的下游產(chǎn)物,可直接反映疾病對(duì)機(jī)體生理功能的影響。為進(jìn)一步研究26 種特征代謝物涉及的代謝通路及其生物學(xué)功能,對(duì)其進(jìn)行KEGG 通路富集分析。如圖3A 所示,富集3 種以上代謝物的通路有4 條:乙醛酸和二羧酸代謝(甘氨酸、L-谷氨酸和異檸檬酸,電子版文后支持信息圖S1);丙氨酸、天冬氨酸和谷氨酸代謝(L-天冬氨酸、L-谷氨酸和脲基琥珀酸,電子版文后支持信息圖S2);氨?;?tRNA 生物合成(甘氨酸、L-天冬氨酸、L-脯氨酸和L-谷氨酸,電子版文后支持信息圖S3);精氨酸生物合成(L-谷氨酸和L-天冬氨酸、尿素,圖3B)。

氨?;?tRNA 生物合成參與遺傳信息從mRNA 到蛋白質(zhì)的翻譯過(guò)程,可保證翻譯的準(zhǔn)確性和正常的細(xì)胞功能[27-28]。其中,關(guān)鍵的氨酰tRNA 合成酶(Aminoacyl-tRNA synthetases, ARSs)與多種疾病的發(fā)生高度相關(guān),此前已有研究者發(fā)現(xiàn)抗合成酶綜合征會(huì)引起DVT[29],本研究組前期的研究也發(fā)現(xiàn)氨酰-tRNA生物合成途徑在DVT 患者中受到影響[24]。因此,本研究推斷此通路及相關(guān)代謝物與DVT 發(fā)生密切相關(guān),為關(guān)鍵通路。此外,乙醛酸和二羧酸作為代謝產(chǎn)物,可以進(jìn)入三羧酸循環(huán)中的不同環(huán)節(jié),影響三羧酸循環(huán)的速率,進(jìn)而影響生物體內(nèi)的能量產(chǎn)生和新陳代謝[30]。丙氨酸、天冬氨酸和谷氨酸代謝以及精氨酸生物合成均為氨基酸代謝的重要環(huán)節(jié),同時(shí)在檸檬酸鹽循環(huán)過(guò)程中也發(fā)揮著重要作用[31-33]。

圖4 為差異代謝物在各個(gè)通路中的富集表現(xiàn)。其中, L-谷氨酸、L-天冬氨酸和甘氨酸在多條代謝通路中發(fā)揮著重要作用。值得注意的是, 3 種代謝物均為氨基酸,在26 種差異代謝物中氨基酸也是占比最高的種類。氨基酸作為許多生物活性分子的前體,可直接參與生物體內(nèi)蛋白質(zhì)的合成和能量供應(yīng),調(diào)節(jié)細(xì)胞代謝、增殖和分化[34-35]。此外,有研究表明,支鏈氨基酸及其代謝產(chǎn)物參與調(diào)節(jié)血小板的活化,會(huì)增加動(dòng)脈血栓形成的風(fēng)險(xiǎn)[36]。谷氨酸作為一種信號(hào)分子,可與谷氨酸受體結(jié)合,在中樞神經(jīng)系統(tǒng)和外周組織中發(fā)揮了重要的信號(hào)傳導(dǎo)作用,從而影響血小板活化和血栓形成[37-38]。同時(shí),由甘氨酸和天冬氨酸組成的多肽序列是纖維蛋白原中的最小序列,可與血小板表面受體結(jié)合,對(duì)血小板的聚集起著至關(guān)重要的作用[39]。

以上代謝改變說(shuō)明在血栓形成過(guò)程中引起了機(jī)體的能量代謝紊亂,可能的原因是血栓形成在靜脈內(nèi)阻礙了血液回流,導(dǎo)致局部組織缺氧和代謝產(chǎn)物積聚,進(jìn)而引起細(xì)胞功能異?;驌p害,這與Sung 等[33]的研究結(jié)論一致。

2.2.4 基于特征選擇算法的DVT 關(guān)鍵代謝物篩選

為去除冗余特征,降低數(shù)據(jù)維度,提高差異代謝物的應(yīng)用價(jià)值,使用特征選擇算法對(duì)26 種差異代謝物再次進(jìn)行重要性排序和篩選。考慮到僅使用單一的特征選擇算法可能陷入局部最優(yōu),導(dǎo)致所選特征的泛化性能差,本研究采用3 種不同原理的特征選擇算法(RFECV、Boruta 和SHAP)篩選關(guān)鍵DVT 特征代謝物, 3 種算法的主要信息見(jiàn)表2。

RFECV 算法對(duì)數(shù)據(jù)集中每個(gè)特征進(jìn)行重要性評(píng)級(jí),根據(jù)評(píng)級(jí)排序依次選擇不同數(shù)量的特征構(gòu)建模型并確定診斷效率最高的特征組合。如圖5 所示,根據(jù)RFECV 算法選出診斷效率最高的特征子集,包含21 種代謝物。

Boruta 算法是在數(shù)據(jù)集中創(chuàng)建陰影特征,計(jì)算并比較真實(shí)特征和陰影特征的重要性,大于陰影特征重要性的真實(shí)特征會(huì)被保留,整個(gè)過(guò)程可多次迭代。在本研究中,模型經(jīng)過(guò)10 次迭代,其中被選中4 次及以上的差異代謝物被認(rèn)定為有價(jià)值的特征,共15 種(電子版文后支持信息圖S4)。

SHAP 算法的核心思想是基于Shapley 值計(jì)算每個(gè)特征對(duì)于模型輸出的貢獻(xiàn),并結(jié)合樣本的特征取值情況計(jì)算出每個(gè)特征值對(duì)預(yù)測(cè)結(jié)果的影響。根據(jù)Shapley 值大小對(duì)特征排序,結(jié)果顯示, SHAP 值gt; 0的差異代謝物有19 種(電子版文后支持信息圖S5)。

將3 種特征選擇算法篩選的特征代謝物取交集,共有13 種關(guān)鍵差異代謝物(圖6),其中12 種在DVT組中的相對(duì)表達(dá)量升高。這可能是因?yàn)樵贒VT 發(fā)生后,機(jī)體為應(yīng)對(duì)血栓形成產(chǎn)生了一系列代謝變化,主要涉及炎癥反應(yīng)、凝血活性增加以及細(xì)胞損傷等生物學(xué)過(guò)程,導(dǎo)致部分代謝物的相對(duì)表達(dá)量升高。值得注意的是,阿洛糖在DVT 組中的相對(duì)表達(dá)量降低。相關(guān)研究[40]表明,阿洛糖可通過(guò)抑制氧自由基生成,減輕氧化應(yīng)激損傷,保護(hù)細(xì)胞免受再灌注損傷。因此,推測(cè)DVT 發(fā)生后,為對(duì)抗細(xì)胞損傷,阿洛糖被消耗,其代謝和表達(dá)也受到影響。

2.3 DVT 診斷模型的構(gòu)建與性能評(píng)估

為構(gòu)建性能優(yōu)異的DVT 診斷模型和進(jìn)一步評(píng)價(jià)特征代謝物的重要性,將上述各級(jí)數(shù)據(jù)分析中獲得的代謝物數(shù)據(jù)集基于GNB、SVM、LR 和LDA 算法構(gòu)建DVT 診斷模型,從準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和AUROC 這5 個(gè)方面對(duì)模型性能進(jìn)行評(píng)估,結(jié)果見(jiàn)表3。未經(jīng)篩選的176 種原始代謝物數(shù)據(jù)集(data 1)所構(gòu)建的模型診斷性能最低,準(zhǔn)確率僅為0.5~0.6,表明未經(jīng)任何統(tǒng)計(jì)分析的數(shù)據(jù)存在較多的干擾因素,難以直接用于疾病預(yù)測(cè)。經(jīng)多元統(tǒng)計(jì)學(xué)篩選后的26 種差異代謝物(data 2)構(gòu)建的模型表現(xiàn)有所提升,經(jīng)特征選擇后的數(shù)據(jù)模型性能(data 3, 4, 5)進(jìn)一步提升,而3 種特征選擇算法集成后獲得的關(guān)鍵代謝物構(gòu)建的模型(data 6)性能達(dá)到最佳,表明組成此數(shù)據(jù)集的13 種代謝物在DVT 的診斷過(guò)程中具有十分重要的作用。特征選擇算法可以最大程度地挖掘特征之間的相關(guān)性,從而更全面地選擇有效特征,在縮小特征數(shù)量的同時(shí)保持較高的診斷準(zhǔn)確率。

比較單一特征選擇(data 3, 4, 5)和集成特征選擇(data 6)的模型可發(fā)現(xiàn),單一特征選擇可不同程度地提升模型的表現(xiàn),但不同模型之間的表現(xiàn)卻存在較大差異,例如, RFECV 的SVM 模型準(zhǔn)確率可以達(dá)到1.0,但GNB 模型的準(zhǔn)確率只有0.6;基于集成特征選擇的模型更加穩(wěn)定, 4 種模型的準(zhǔn)確率均大于0.9。以上結(jié)果表明,集成方法能獲得比單一方法更好的特征子集,在有效提升模型性能的同時(shí)確保得到更可靠的診斷結(jié)果。從理論上講,單一特征選擇方法可能會(huì)受到某些特定數(shù)據(jù)分布或噪聲以及基礎(chǔ)分類模型的影響,導(dǎo)致選擇的特征局限于某一種算法的偏好;通過(guò)集成多種特征選擇方法可以結(jié)合不同方法的優(yōu)勢(shì),去除潛在的噪聲特征,減少單一算法的偏差,提高特征選擇算法的魯棒性,進(jìn)而提高模型性能。

本研究在獲得有生物學(xué)意義的差異代謝物基礎(chǔ)上,進(jìn)一步使用多種特征選擇算法篩選更適合用于構(gòu)建機(jī)器學(xué)習(xí)模型的代謝物集合。已有研究者通過(guò)集成多個(gè)模型的預(yù)測(cè)結(jié)果提高診斷模型的準(zhǔn)確性和可靠性[41-42]。本研究通過(guò)集成多種特征選擇方法,不僅提高了模型的準(zhǔn)確性,還在一定程度上解決了模型結(jié)果可信度的問(wèn)題,增加了使用者對(duì)DVT 診斷模型的信心。此外,本方法減少了特征代謝物數(shù)量,降低了模型的復(fù)雜度,有助于將本研究結(jié)果向臨床應(yīng)用方面轉(zhuǎn)化。

3 結(jié)論

采用GC-MS 技術(shù)測(cè)定了DVT 大鼠尿液中代謝物的表達(dá)變化情況,使用多元統(tǒng)計(jì)學(xué)分析篩選DVT 相關(guān)的差異代謝物,基于多種特征選擇方法去除冗余特征,優(yōu)化了DVT 特征代謝物集合,最終獲得了13 種與DVT 相關(guān)的關(guān)鍵特征代謝物,提高了DVT 診斷模型的性能和應(yīng)用價(jià)值。但是,動(dòng)物實(shí)驗(yàn)篩選的特征代謝物能否用于臨床研究,還需要大規(guī)模的人體樣本驗(yàn)證,今后將進(jìn)一步優(yōu)化分析策略和模型參數(shù),為臨床DVT 診斷和相關(guān)研究提供參考。

猜你喜歡
深靜脈血栓形成質(zhì)譜聯(lián)用代謝組學(xué)
經(jīng)頸靜脈放置臨時(shí)濾器聯(lián)合健側(cè)股靜脈穿刺置管治療急性下肢深靜脈血栓探討
基于UPLC—Q—TOF—MS技術(shù)的牛血清白蛋白誘導(dǎo)過(guò)敏反應(yīng)的代謝組學(xué)研究
基于UPLC—Q—TOF—MS技術(shù)的牛血清白蛋白誘導(dǎo)過(guò)敏反應(yīng)的代謝組學(xué)研究
藥用植物代謝組學(xué)研究
超高壓液相色譜—質(zhì)譜聯(lián)用儀快速測(cè)定紡織品中7種煙堿類農(nóng)藥殘留
HPLC-MS-MS法測(cè)定克拉霉素血藥濃度的含量
低分子肝素鈣預(yù)防老年髖部骨折術(shù)后深靜脈血栓形成的臨床效果
常規(guī)護(hù)理及臨床護(hù)理路徑預(yù)防股骨骨折術(shù)后深靜脈血栓形成的臨床對(duì)比研究
外科術(shù)后深靜脈血栓形成的綜合防治分析
基于液相色譜—質(zhì)譜聯(lián)用技術(shù)的多囊卵巢綜合征患者血清脂質(zhì)組學(xué)分析
巴马| 府谷县| 巴彦淖尔市| 恭城| 南木林县| 横山县| 邵阳县| 白山市| 灵川县| 长沙市| 乌兰察布市| 文山县| 通榆县| 日喀则市| 宣化县| 普兰店市| 十堰市| 白玉县| 普安县| 浠水县| 东山县| 栖霞市| 柳江县| 孟津县| 诸暨市| 河西区| 堆龙德庆县| 阳江市| 科技| 台前县| 上虞市| 宝坻区| 来宾市| 新民市| 赤壁市| 平安县| 偃师市| 南投市| 浮山县| 新巴尔虎左旗| 墨脱县|