歐陽永中 曾玉庭 郭偉清 鄧金連 魏益平
摘 要 隨機森林(Random forest, RF)算法是一種基于決策樹的機器學習算法,具有良好的分類與變量篩選性能, 因而在生物醫(yī)學高維數據分析中應用廣泛。本研究開發(fā)了一種基于RF算法的原位質譜快速鑒別肺癌的模型和方法,通過構建液體輔助表面解吸常壓化學電離質譜技術平臺(DAPCI-MS),結合RF算法,在常溫常壓條件下,直接實現對未處理人體肺鱗癌組織切片的準確鑒別與區(qū)分,并獲取肺癌區(qū)別于正常組織的生物特征標記物。研究表明,當決策樹數目ntree=100時,對人體肺鱗癌組織與鄰近正常組織的區(qū)分準確率可達到100%。與其它分類方法相比,本模型具有穩(wěn)健性高、分類效果好、泛化能力強等特點,為實現復雜基質的人體肺癌組織與相鄰正常組織的區(qū)分提供了一種快速、準確和可靠的分類模型。
關鍵詞 隨機森林算法; 表面解吸常壓化學電離質譜技術; 肺癌組織切片; 特征生物標記物
1 引 言
肺癌是目前我國癌癥發(fā)病率和死亡率最高的腫瘤[1], 其中, 非小細胞肺癌(Non-small cell lung cancer, NSCLC)約占所有肺癌的80%,75%的患者發(fā)現患病時已處于中晚期,導致5年肺癌生存率非常低。目前,外科切除手術仍是大多數早期非小細胞肺癌的最佳治療方法[2]。但是,在惡性腫瘤臨床手術過程中,實現最佳手術效果的最大障礙之一是難以在短時間內確定區(qū)分腫瘤組織和鄰近正常組織的清晰邊界,不完全切除惡性腫瘤會導致局部術后復發(fā)癥等系列問題[3]。因此,建立一種快速、準確區(qū)分腫瘤組織與鄰近正常組織區(qū)域的診斷方法,對于輔助臨床手術中惡性腫瘤的診斷和徹底根治性切除具有重要的應用價值。
目前,臨床診療主要借助CT篩查[4]、胸片(CXR)[5]、正電子發(fā)射斷層成像(PET)[6]、核磁共振成像(MRI)[7]等醫(yī)學影像技術進行肺癌篩查與癌癥邊界的鑒定。盡管基于冰凍切片的組織病理學實驗目前仍是臨床區(qū)分癌癥與正常組織的金標準,但易受到樣品處理過程復雜、干擾嚴重、處理時間長(>1 h)等因素的制約[8,9]。自2004年以來,以電噴霧解吸電離(Desorption electrospray ionization, DESI)[10]為代表的原位電離源質譜技術(Ambient mass spectrometry, AIMS)相繼出現[11~20],由于其在無需樣品預處理和大氣壓操作條件下,可直接實現復雜生物組織樣本分析,拓展了現代質譜技術在生物醫(yī)學[11~14]、臨床診斷[15~20]等領域的應用范圍。近年來,空氣輔助電噴霧解吸電離(Air flow-assisted desorption electrospray ionization, AFA-DESI)[21]、組織噴霧電離質譜(Tissue spray ionization-mass spectrometry, TSI-MS)[22]、表面解吸常壓化學電離(Surface desorption atmospheric pressure chemical ionization, DAPCI)[23,24]等原位電離質譜技術,結合偏最小二乘-線性判別分析(PLS-LDA)或主成分分析方法(PCA),在人體肺癌組織切片的快速分析和鑒別方面的應用研究取得了進展。由于電離質譜信號的穩(wěn)定性不佳、質譜數據復雜等因素,癌癥與癌旁組織的區(qū)分準確度有待提升。
隨機森林(Random forest, RF)算法[25]是一種基于決策樹的集成學習(Ensemble learning)算法,主要用于處理分類和回歸問題[26,27]。RF算法可處理海量數據和高維問題,提供變量重要性度量和相似度矩陣等有用信息[28],具有訓練速度快、分類效果好、不易過擬合、對包含奇異值和噪聲的數據預測結果穩(wěn)健性較好等特點[29,30],并且能夠借助多維標度分析技術(Multidimensional scaling,MDS)將樣本的相似度矩陣可視化[31]。本研究旨在構建一種基于RF算法的原位質譜快速鑒別肺癌的分類模型。通過改進表面解吸常壓化學電離質譜技術(DAPCI-MS)[32],結合RF算法,在常溫常壓操作環(huán)境下,直接實現對未處理人體肺鱗癌組織切片的準確區(qū)分與生物特征標記物的提取。
2 實驗部分
2.1 儀器與試劑
自制的液體輔助DAPCI離子源(圖1)與商業(yè)購置的LTQ線性離子阱質譜儀(美國Thermo Fisher公司)耦合,DAPCI離子源的內部構造與儀器參數詳見文獻[25];? CM1950冰凍切片機(德國徠卡公司)。
甲醇(色譜純,美國天地有限公司); 去離子水利用純水儀(美國Thermo Fisher公司)制備。樣本組織源于南昌大學第二附屬醫(yī)院,-80℃超低溫儲存。
2.2 實驗方法
2.2.1 樣本 本研究已得到南昌大學第二附屬醫(yī)院的院內審查委員會醫(yī)學倫理委員會的批準,得到了患者簽署的知情同意書,并且所有臨床研究均根據赫爾辛基宣言的原則進行。本研究共招募15位男性和5位女性患者,其中,16例中分化患者,4例低分化患者(見電子版文后支持信息表S1)?;颊叩臉藴适墙洸±碓\斷的非小細胞肺鱗癌,并且沒有伴隨的惡性腫瘤,無其它肺部疾病和術前化學療法或放療史。每個患者都有兩個匹配的肺鱗癌組織和相鄰的正常肺組織樣本對。
2.2.2 樣本制備 將切片機設置在-20℃的條件下,預先運行2 h以上,進行肺癌組織樣品切片的制作。實驗前需將樣本由超低溫冰箱內取出,解凍至4℃后,在真空干燥器內干燥約15 min后進行實驗。將樣品組織切成10 μm的厚度,處理好的切片固定在玻璃載玻片上, 用于質譜分析。利用CM1950冰凍切片機將肺癌組織樣本切成厚度為10和6 μm的薄片,分別置于玻璃載玻片上,直接用于質譜分析和標準染色法對比實驗(組織病理學中通過蘇木精/伊紅(H&E)染色分析,并記錄光學影像圖, 用于區(qū)分惡性腫瘤和正常組織)。在載玻片上做好標記,其中,癌癥標記為CA,正常組織標記為CAB, 并編號。
2.2.3 質譜參數 正離子模式,掃描范圍m/z 50~1000,離子源電壓為4 kV,離子傳輸管溫度為250℃。以甲醇-水(55∶45,V/V)混合溶液為離子源萃取劑,以3 μL/min流速通過石英毛細傳輸管,并使用鞘氣流(N2)以1.2 MPa壓力霧化生成微滴。高壓放電針尖距待測樣品表面1.2 mm,與待測樣品表面夾角為50°, 放電針針尖與質譜進樣口之間的距離為5.5 mm。
2.2.4 RF算法 RF算法是Breiman[25]于2001年提出的一種基于決策樹(Classification and regression tree, CART)的組合分類器。通過自助法(Bootstrap)[33]重采樣技術,由原始樣本集中重復隨機抽取同原始數據樣本集個數相同的多個樣本構成樣本子集,利用每個樣本子集構建決策樹,然后融合多棵決策樹的預測結果。在自助采樣過程中,每棵決策樹建立時只使用了初始訓練集63.2%的樣本,剩余的36.8%的樣本可作為驗證集對泛化性能進行“包外估計”,此數據稱為袋外數據(Out-of-bag),可用于取代測試集進行誤差估計。因此,RF無需再進行交叉驗證或者單獨的測試集獲取測試集誤差,可用袋外數據誤差(Out-of-bag classification error,OOB error)取代。還可用OOB error作為評價指標優(yōu)化參數。RF算法的隨機性主要體現在數據采樣和特征選擇的隨機性,通過優(yōu)化決策樹數量(ntree)和分裂變量數目(mtry)進行模型優(yōu)選。
2.2.5 數據處理 所有實驗均使用由XCalibur 2.0軟件(Thermo Fisher Scientific,San Jose,CA,USA)控制的LTQ線性離子阱質譜儀進行。待實驗完成后,將全掃描質譜數據導入至Excel文件,利用Matlab(7.8.0,Mathworks,Inc.,Natick,MA)中的Tree Bagger函數進行RF分析,建立的模型將樣本的分類結果以相似度矩陣的形式輸出,并將RF算法得到的相似度矩陣通過多尺度分析(MDS)進行可視化。
3 結果與討論
3.1 DAPCI-MS一級掃描質譜分析
前期研究表明,在人體正常組織中, 脂類(尤其是磷脂類化合物)的成分和含量發(fā)生顯著變化是腫瘤性病變的一個重要信號[24,34]。圖2為正離子模式下DAPCI-MS直接分析未處理人體肺鱗癌組織和相鄰正常組織(A6患者)的全掃描質譜圖。圖2A、2B和2C分別為空白背景、癌癥組織和鄰近正常組織在質譜掃描范圍內(m/z 50~1000)的質譜分析結果。圖2B和2C均為扣掉背景信號后的掃描平均結果。
由圖2B和2C可知,DAPCI-MS檢測的離子信號主要集中在質量掃描范圍(m/z 700~900)內,癌癥和正常組織的磷脂酰膽堿(PC)和鞘磷脂(SM)類化合物的相對豐度或強度存在顯著差異(其余9個組織樣品中也觀察到類似情況)。肺癌組織中磷脂酰膽堿化合物離子峰豐度,如m/z 798.6 ([PC(34∶1) + K]+)、m/z 782.6 ([PC (34∶1) + Na]+)、m/z 808.6 ([PC (36∶2) + Na]+)、m/z 824.6 ([PC(36∶2) + K]+)、m/z 834.6 ([PC(38∶3)+Na]+)和m/z 850.6[PC(38∶3)+K]+等明顯比鄰近正常組織高,而鄰近正常組織中磷脂酰膽堿類化合物(PC)(m/z 756.6[PC (32∶0) + Na]+、m/z 772.6[PC (32∶0) + K]+和m/z 184.1(C5H15NO4P+))和鞘磷脂化合物(m/z 725.6[SM (16∶0) + Na]+)的離子相對豐度比癌癥組織中高。正常組織中大量磷脂酰膽堿的產生和部分鞘磷脂的減少可能與腫瘤性病變有關,但是否為癌癥的生物標記物還需進一步驗證。這些化合物的結構已通過碰撞誘導裂解實驗(CID)確認(電子版文后支持信息圖S1),與文獻[24]報道結果一致。這些磷脂類化合物可視為區(qū)分癌癥與正常組織的潛在生物標記物,表明DAPCI-MS是一種可直接檢測肺癌組織異質性基質復雜化合物的有效手段。
3.2 RF算法區(qū)分肺癌與鄰近正常組織
為處理肺癌組織在DAPCI-MS直接分析中產生的大量高維質譜數據,采用RF算法實現癌癥邊界的界定和特征生物標記物的提取。采取每隔0.2 mm等間距采集數據的方法,分別對每個患者的癌癥組織和正常組織區(qū)域采集40個質譜數據點,共20名肺癌確診患者,共計采集1600個質譜數據點。將被標記的原始質譜數據集隨機分成訓練集和檢驗集, 50%作為訓練集用于訓練分類模型,50%作為檢驗集評估分類模型性能。RF算法最重要的兩個參數是決策樹的棵數ntree 和分裂屬性集中屬性個數mtry。 mtry采用了Breiman[25]建議的默認值,而RF算法中決策樹的構建是模型建立的核心,決策樹的數量直接影響隨機森林分類算法的運算速度和分類效果。
由圖3A可知, ntree在100~500之間, OOB趨于穩(wěn)定,故ntree=100時,分類誤差低于0.005,為最優(yōu)模型。通過MDS對得到的相似度矩陣進行降維,得到腫瘤與臨近正常組織的可視化結果(圖3B)。由圖3B可見,肺癌組織與相鄰正常組織能夠完全分開,區(qū)分準確率達到100%。
為進一步驗證所建模型的準確性,利用外部驗證集進行驗證。表1給出了RF算法模型混淆矩陣的分類結果,分類準確率達到100%。預測類別和真實類別完全一致,這表明對于不同患者的癌癥組織混合樣本,RF算法模型能夠有效鑒別肺癌與相鄰正常組織,且優(yōu)于PLS-LDA預測的結果(錯誤率為2.16%)[24]。此結果表明RF算法具有很好的分類效果,同時也展示了DAPCI對復雜基質樣本良好的電離解吸和對復雜基質的耐受能力。RF算法所有預測結果都經過病理組織冰凍切片的H&E染色圖對比分析,預測與實際完全一致。
3.3 RF算法的特征變量重要性評估
RF算法可通過調整變量順序得到的OOB預測錯誤率衡量特征變量的重要性。如圖4所示,采用節(jié)點不純度的平均減少值作為度量變量重要性的指標,該值越高, 表示該變量對分類的影響越大。由圖4可知,根據橫坐標節(jié)點不純度Gini的平均減少值,對區(qū)分癌癥與正常組織影響較大的前15個重要變量依次排序為:(m/z 782.6)[PC(34∶1)+Na+]、(m/z 810.6)[PC(36∶1)+Na]+、(m/z 808.6)[PC(36∶2)+Na]+、(m/z 806.6)[PC(36∶3)+Na]+、(m/z 834.6)[PC(38∶3)+Na]+、 (m/z 725.6)[SM (16∶0)+ Na]+、(m/z 798.6)[PC(34∶1) +K]+、(m/z 756.6)[PC(32∶0) +Na]+、(m/z 772.6)[PC(32∶0) +K]+、(m/z 824.6)[PC(36∶2) +K]+、(m/z 8096)[SM(22∶0)+Na]+、(m/z 826.6)[PC(36∶1)+K]+、(m/z 780.6)[PC(34∶2)+Na]+、(m/z 850.6)[PC(38∶3) +K]+、(m/z 784.6)[PC(36∶3) +H]+。上述磷脂酰膽堿(PC)和鞘磷脂(SM)類化合物對分類的貢獻為99.95%。因此,特征化合物可視為區(qū)分癌癥與正常組織的潛在生物標記物,并進行了串聯(lián)質譜實驗驗證(電子版文后支持信息圖S1)。
除部分特征離子化合物可直接由對比癌癥與健康組織的一級質譜圖獲得外,如m/z 782.6、808.6、834.6、725.6、798.6、756.6、772.6、824.6和850.6等,其它特征生物標記物(如m/z 810.6、806.6、8096、826.6、780.6和784.6)都是通過RF獲得。RF具有良好的分類效果和變量篩選性能,具備處理大量高維數據的能力,尤其是通過分類效果評估解釋變量的重要性,這對從復雜基質樣本質譜分析中產生的海量大數據中獲取特征生物標記物非常重要。此外,RF能準確獲取特征生物標記化合物對癌癥的早期篩查或臨床手術輔助界定癌癥區(qū)域邊界,對提高癌癥治愈率具有重要的臨床應用價值。
4 結 論
基于RF算法構建了一種原位質譜快速鑒別肺癌分類模型,在常溫常壓條件下,成功實現了對未處理人體肺鱗癌組織切片和相鄰正常組織的準確診斷與區(qū)分。結果表明,RF算法具有分類效率好、準確度高和不易過擬合等優(yōu)點,解決了直接質譜分析肺癌組織中產生的大量高維質譜數據的難題,尤其是通過分類效果評估解釋變量的重要性,克服了基于質譜峰強度對比的傳統(tǒng)方法難以由高維大數據中獲得特征化合物的弊端,以及PCA、PLS-LSA等其它機器學習算法在處理高維大數據中的局限性, 為準確挖掘特征生物標記物提供了一種可靠和高效的方法,也為肺癌等基質復雜的惡性腫瘤組織的深入研究提供了一種新的分析手段。
References
1 ZHENG Rong-Shou, SUN Ke-Xin, ZHANG Si-Wei, ZENG Hong-Mei, ZOU Xiao-Nong, CHEN Ru, GU Xiu-Ying, WEI Wen-Qiang, HE Jie. Chinese Clinical Oncology, 2019, 41(1): 19-28
鄭榮壽, 孫可欣, 張思維, 曾紅梅, 鄒小農, 陳 茹, 顧秀瑛, 魏文強, 赫 捷. 中華腫瘤雜志, 2019,? 41(1): 19-28
2 Molina J R, Yang P, Cassivi S D, Schild S E, Adjei A A. Mayo Clin. Proc.,? 2008,? 83(5): 584-594
3 Reck M, Heigener D F, Mok T, Soria J C, Rabe K F. Lancet,? 2013,? 382(9893): 709-719
4 Field J K, Hansell D M, Duffy S W, Baldwin D R. Lancet Oncol.,? 2013,? 14: e591-e600
5 Beek E J R, Mirsadraee S, Murchison J T. World J. Radiol.,? 2015,? 7: 189-193
6 Toloza E M, Harpole L, McCrory D C. Chest,? 2003,? 1: S137-S146
7 Edelman R R, Hatabu H, Tadamura E, Li W, Prasad P V. Nat. Med.,? 1996,? 2: 1236-1239
8 Winther C, Graem N.? Apmis,? 2011,? 119: 259-262
9 Nakhleh R E.? Arch. Pathol. Lab. Med.,? 2011,? 135: 1394-1397
10 Takts Z, Wiseman J M, Gologan B, Cooks R G. Science,? 2004,? 306(5695): 471-473
11 Monge M E,? Harris G A, Dwivedi P, Fernández F M. Chem. Rev.,? 2013,? 113: 2269-2308
12 Feider C L, Krieger A, DeHoog R J, Eberlin L S. Anal. Chem.,? 2019,? 91(7): 4266-4290
13 Swiner D J, Jackson S, Burris B J, Badu-Tawiah A K. Anal. Chem.,? 2020,? 92 (1): 183-202
14 Chingin K, Liang J, Liu Y, Chen L, Wu X, Hu L, Ouyang Y Z.? RSC Adv.,? 2016,? 6(64): 59749-59752
15 Jia B, Ouyang Y Z, Hu B, Zhang T T, Li J Q, Chen H W.? J. Mass Spectrom., 2011, 46(3): 311-319
16 Banerjee S, Zare R N, Tibshirani R J, Kunder C A, Nolley R, Fan R, Brooks J D, Sonn G A. Proc. Natl. Acad. Sci. USA,? 2017,? 114(13): 3334-3339
17 Jarmusch A K, Pirro V, Baird Z, Hattab E M, Cohen-Gadol A A, Cooks R G. Proc. Natl. Acad. Sci. USA,? 2016,? 113(6): 1486-1491
18 Margulis K, Chiou A S, Aasi S Z, Tibshirani R J, Tang J Y, Zare R N. Proc. Natl. Acad. Sci. USA,? 2018,? 115(25): 6347-6352
19 Sans M, Gharpure K, Tibshirani R, Zhang J L, Liang L, Liu J S, Young J H, Dood R L, Sood A K, Eberlin L S. Cancer Res.,? 2017,? 77(11): 2903-2913
20 Porcari A M, Zhang J, Garza K Y, Rodrigues-Peres R M, Lin J Q, Young J H, Tibshirani R, Nagi C, Paiva G R, Carter S A, Sarian L O, Eberlin M N, Eberlin L S. Anal. Chem.,? 2018,? 90(19): 11324-11332
21 Li T G, He J M, Mao X X, Bi Y, Luo Z G, Guo C G, Tang F, Xu X, Wang X, H, Wang M R, Chen J, Abliz Z.? Sci. Rep.,? 2015,? 5: 14089
22 Wei Y, Chen L, Zhou W, Chingin K, Ouyang Y Z, Zhu T G, Wen H, Ding J, Xu J J, Chen H W. Sci. Rep.,? 2015,? 5: 10077
23 ZHOU Zhi-Quan, ZHANG Ting-Ting, JIA Bin, OUYANG Yong-Zhong, FANG Xiao-Wei, CHEN Huan-Wen. Chinese J. Anal. Chem.,? 2011,? 39(11): 1665-1669
周志權, 張婷婷, 賈 濱, 歐陽永中, 方小偉, 陳煥文.? 分析化學, 2011,? 39(11): 1665-1669
24 Ouyang Y Z, Liu J W, Nie B H, Dong N P, Chen X, Chen L F, Wei Y P.? RSC Adv.,? 2017,? 7(88): 56044-56053
25 Breiman L. Mach. Learn.,? 2001,? 45(1): 5-32
26 Shi T, Horvath S. J. Comput. Graph. Stat.,? 2006,? 15(1): 118-138
27 Janitza S, Strobl C, Boulesteix A L. BMC Bioinformatics,? 2013,? 14: 119
28 Gislason P O, Benediktsson J A, Sveinsson J R. Pattern Recognit. Lett.,? 2006,? 27: 294-300
29 Svetnik V, Liaw A, Tong C, Culberson J C, Sheridan R P, Feuston B P. J. Chem. Inf. Comput. Sci.,? 2003,? 43(6): 1947-1958
30 Rodriguez-Galiano V F, Ghimire B, Rogan J, Chica-Olmo M, Rigol-Sanchez J P. ISPRS J. Photogramm. Remote Sens.,? 2012,? 67: 93-104
31 Hout M C, Papesh M H, Goldinger S D. Wiley Interdiscip Rev. Cogn. Sci.,? 2013,? 4(1): 93-103
32 LI Xin-Xin, CHEN Lin-Fei, OUYANG Yong-Zhong, FENG Fang, CHEN Huan-Wen. Chinese J. Anal. Chem.,? 2016,? 44(1): 25-31
李欣欣, 陳林飛, 歐陽永中, 馮 芳, 陳煥文. 分析化學, 2016,? 44(1): 25-31
33 Schapire R E. Mach. Learn.,? 1990,? 5(2): 197-227
34 Glunde K, Jie C, Bhujwalla Z M. Cancer Res.,? 2004,? 64(12): 4270-4275
Mass Spectrometric Discrimination of Human Lung Tumors under
Ambient Conditions Based on Random Forest Algorithm
OUYANG Yong-Zhong*1, ZENG Yu-Ting2, GUO Wei-Qing1, DENG Jin-Lian1, WEI Yi-Ping3
1(School of Environmental and Chemical Engineering, Foshan University, Foshan 528000, China)
2(School of Food Science and Engineering, Foshan University, Foshan 528000, China)
3(Department of Cardiothoracic Surgery, Second Affiliated Hospital of Nanchang University, Nanchang 330006, China)
Abstract Random forest algorithm (RF) is a machine learning algorithm based on decision trees. Due to the good performance of classification and variables selection, it has been widely used in biomedical high-dimensional data analysis. In order to fast and accurately distinguish human lung cancer from adjacent normal tissues, a model for direct ambient mass spectrometric analysis of lung cancer tissue sections based on random forest algorithm was developed. The purpose of this study was to establish a liquid assisted surface desorption atmospheric pressure chemical ionization mass spectrometry (DAPCI-MS) platform, combined with the random forest algorithm, to directly identify and differentiate the untreated human lung squamous cell carcinoma tissue sections under normal temperature and pressure, as well as obtaining the biomarkers of lung cancer for differentiation from normal tissue. The results showed that when the number of decision trees ntree=100, the accuracy of distinguishing human lung squamous cell carcinoma from adjacent normal tissues reached 100%. Compared with other methods, this model had higher robustness, better classification effect and stronger generalization ability. This study provided a more accurate and reliable classification model for rapid differentiation of human lung cancer tissues from adjacent normal tissues in complex matrix.
Keywords Random forest algorithm; Surface desorption atmospheric pressure chemical ionization; Lung cancer tissue section; Characteristic biomarkers
(Received 18 February 2020; accepted 6 May 2020)
This work was supported by the National Natural Science Foundation of China (No. 21405013).
2020-02-18收稿; 2020-05-06接受
本文系國家自然科學基金項目(No. 21405013)資助
* E-mail: ouyang7492@163.com