孔忠順 劉京銘 高孟秋 黃麥玲
?
臨床診斷決策樹方法用于結(jié)核性胸膜炎診斷的初探
孔忠順 劉京銘 高孟秋 黃麥玲
目的 利用臨床診斷決策樹的方法建立結(jié)核性胸膜炎(tuberculous pleurisy, TBP)綜合診斷策略,并探討其對TBP的診斷價(jià)值。方法 采用回顧性研究方法,根據(jù)自行制定的結(jié)核性胸膜炎及惡性胸腔積液的入組標(biāo)準(zhǔn),收集首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院2014年1月至2015 年12月符合入組標(biāo)準(zhǔn)的住院患者病歷資料,共314例,分為TBP組(205例)和惡性胸腔積液組(109例)。采用隨機(jī)數(shù)的生成方法將綜合數(shù)據(jù)按照3∶1比例,分為訓(xùn)練樣本數(shù)據(jù)集及驗(yàn)證樣本數(shù)據(jù)集,然后進(jìn)行決策樹算法(CART)分析,生成結(jié)核性胸膜炎的臨床診斷決策樹,最后將生成的決策樹模型對驗(yàn)證樣本數(shù)據(jù)集進(jìn)行驗(yàn)證并計(jì)算出檢測效應(yīng)值,以完成對TBP綜合診斷策略的驗(yàn)證。結(jié)果 對25項(xiàng)用于構(gòu)建臨床診斷決策樹的指標(biāo)進(jìn)了單因素統(tǒng)計(jì)分析顯示,其中有16項(xiàng)指標(biāo)在TBP組和惡性胸腔積液組差異有統(tǒng)計(jì)學(xué)意義。以獨(dú)立構(gòu)建的臨床診斷決策樹工作流程為基礎(chǔ),進(jìn)行1000次模擬實(shí)驗(yàn),全部循環(huán)構(gòu)建的1000棵決策樹平均利用的評判因素為(8.57±1.63)個(gè)。對實(shí)驗(yàn)結(jié)果進(jìn)行相關(guān)評價(jià)指標(biāo)的計(jì)算,結(jié)果顯示臨床診斷決策樹用于TBP診斷的敏感度為98.14%,特異度為93.64%,符合率為95.01%。對決策樹中各項(xiàng)指標(biāo)的貢獻(xiàn)得分排序顯示,排名前9項(xiàng)指標(biāo)依次是胸腔積液腺苷脫氨酶、血紅細(xì)胞沉降率、發(fā)熱、胸腔積液C反應(yīng)蛋白、年齡、血結(jié)核抗體、血T細(xì)胞斑點(diǎn)試驗(yàn)B、性別、乏力等。結(jié)論 臨床診斷決策樹方法是TBP與惡性胸腔積液有效鑒別診斷策略之一。
結(jié)核,胸膜; 診斷; 決策樹
結(jié)核性胸膜炎(tuberculous pleurisy, TBP)是臨床上常見的肺外結(jié)核之一,同時(shí)在某些國家也是造成胸腔積液的首要病因[1]。在結(jié)核病高流行地區(qū),約有50%患者胸腔積液由TBP引起[2]。然而,TBP的發(fā)病原因并非都是由結(jié)核分枝桿菌(Mtb)直接感染造成的局部炎癥,大多是由Mtb引起的遲發(fā)變態(tài)反應(yīng)所導(dǎo)致,很難直接在TBP患者的胸腔積液中直接找到Mtb的細(xì)菌學(xué)證據(jù)[3]。因此,TBP的診斷目前仍是亟待解決的臨床問題。筆者收集首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院TBP及惡性胸腔積液病例資料,采用回顧性研究的方式,利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法建立TBP與惡性胸腔積液臨床診斷決策樹,探討決策樹方法用于TBP診斷的可行性。
圖1 臨床診斷決策樹分析工作流程
1.患者選擇:采用回顧性研究方法,根據(jù)自行制定的結(jié)核性胸膜炎及惡性胸腔積液的入組標(biāo)準(zhǔn),收集首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院2014年1月至2015年12月符合入組標(biāo)準(zhǔn)的住院患者病歷資料,共314例,分為TBP組(205例)和惡性胸腔積液組(109例)。
2.納入及排除標(biāo)準(zhǔn):參考文獻(xiàn)[4]及有關(guān)文獻(xiàn)進(jìn)行制定。(1)TBP組納入標(biāo)準(zhǔn):臨床診斷為TBP,同時(shí)胸腔積液有直接細(xì)菌學(xué)證據(jù)(涂片抗酸染色或培養(yǎng))或胸膜活檢病理有典型的特征性結(jié)核病理表現(xiàn)者;或臨床診斷為TBP,同時(shí)有痰細(xì)菌學(xué)證據(jù)(涂片抗酸染色或培養(yǎng)),或肺部有明確結(jié)核病灶,且抗結(jié)核并抽胸腔積液治療后胸腔積液得以吸收者。(2)惡性胸腔積液組納入標(biāo)準(zhǔn):胸腔積液患者,于胸腔積液細(xì)胞學(xué)或胸膜組織病理學(xué)找到惡性細(xì)胞者。(3)排除標(biāo)準(zhǔn)(兩組患者均需排除):①結(jié)核病同時(shí)并發(fā)惡性腫瘤;②診斷為TBP或惡性胸腔積液同時(shí)并發(fā)嚴(yán)重肝病、腎病、心功能不全、嚴(yán)重低蛋白血癥、結(jié)締組織疾病、自身免疫性疾病、HIV感染或艾滋病、長期應(yīng)用免疫抑制劑等。
3.?dāng)?shù)據(jù)處理:在數(shù)據(jù)錄入之前制定收集數(shù)據(jù)項(xiàng)目及數(shù)據(jù)類型的標(biāo)準(zhǔn)。根據(jù)數(shù)據(jù)分析預(yù)實(shí)驗(yàn)從患者一般情況、癥狀及實(shí)驗(yàn)室檢查等3方面共25項(xiàng)指標(biāo)納入后期診斷模型的構(gòu)建。數(shù)據(jù)錄入采取獨(dú)立雙錄入的原則,保證數(shù)據(jù)的可靠性。數(shù)據(jù)分析之前進(jìn)行異常值的篩選,缺失項(xiàng)的復(fù)合等數(shù)據(jù)清理工作。對清洗后的數(shù)據(jù)根據(jù)分組標(biāo)準(zhǔn)分為TBP組及惡性胸腔積液組,并將數(shù)據(jù)總和作為綜合樣本數(shù)據(jù)。之后,編寫相關(guān)的計(jì)算機(jī)程序,并構(gòu)建分析程序工作流程。應(yīng)用專門的生物信息分析平臺BioKepler[5]及R3.1[6]構(gòu)建臨床診斷決策樹分析工作流程(work flow),見圖1。該流程首先進(jìn)行數(shù)據(jù)讀取,之后進(jìn)行數(shù)據(jù)清理,并采用隨機(jī)數(shù)的生成方法將綜合數(shù)據(jù)按照3∶1比例,隨機(jī)分為訓(xùn)練樣本數(shù)據(jù)集及驗(yàn)證樣本數(shù)據(jù)集,然后進(jìn)行決策樹算法(CART),生成TBP的臨床診斷決策樹,最后將生成的決策樹模型對驗(yàn)證樣本數(shù)據(jù)集進(jìn)行驗(yàn)證并計(jì)算出檢測效應(yīng)值,該程序?qū)⑸鲜隽鞒踢M(jìn)行了模塊化,并且根據(jù)研究工作流程進(jìn)行串聯(lián),完成標(biāo)準(zhǔn)化的目的,同時(shí)可以實(shí)際運(yùn)行并直接輸出相應(yīng)的結(jié)果。
采用R3.1[6]軟件完成全部決策樹及統(tǒng)計(jì)分析。對清洗后的相關(guān)數(shù)據(jù)進(jìn)行兩組間各影響因素差異的統(tǒng)計(jì)學(xué)分析。計(jì)量資料采用M(Q1~Q3)表示,應(yīng)用秩和檢驗(yàn)進(jìn)行比較;計(jì)數(shù)資料的比較采用χ2檢驗(yàn),不滿足χ2檢驗(yàn)條件者采用Fisher 精確概率法進(jìn)行檢驗(yàn);以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.基本情況:TBP組205例,包括男164例(80.0%),女41例(20.0%),平均年齡(46.73±19.47)歲。惡性胸腔積液組109例,包括男65例(59.6%),女44例(40.4%),平均年齡(60.92±11.10)歲。兩組比較顯示,TBP組男性患者構(gòu)成比明顯高于惡性胸腔積液組(χ2=14.95,P<0.01);TBP組的平均年齡明顯低于惡性胸腔積液組(t=7.02,P<0.01)。在臨床癥狀方面,共納入7項(xiàng)指標(biāo),其中5項(xiàng)指標(biāo)TBP組與惡性胸腔積液組比較存在差異,見表1。
表1 研究對象臨床特征在結(jié)核性胸膜炎組和惡性胸腔積液組間的比較
續(xù)表1
注 表中計(jì)數(shù)資料括號外數(shù)值為“患者例數(shù)”,括號內(nèi)數(shù)值為“構(gòu)成比(%)”;計(jì)量資料括號外數(shù)值為中位數(shù)(M),括號內(nèi)數(shù)值為第25百分位數(shù)~第75百分位數(shù)(Q1~Q3)
2.TBP臨床診斷決策樹的生成與檢驗(yàn):因本次納入研究的患者信息相對較少,會(huì)出現(xiàn)決策樹生成不穩(wěn)定的情況。為客觀的評價(jià)決策樹策略用于TBP診斷的可行性,對已構(gòu)建的臨床診斷決策樹分析工作流程進(jìn)行1000 次循環(huán)模擬,全部循環(huán)構(gòu)建的1000棵決策樹平均利用的評判因素為(8.57±1.63)個(gè)。以約登指數(shù)(Youden index)進(jìn)行從大到小排列,將約登指數(shù)為1的前5棵決策樹以圖的形式顯示于圖2。
3.決策樹的檢驗(yàn):應(yīng)用經(jīng)1000次循環(huán)構(gòu)建的決策樹對驗(yàn)證組進(jìn)行預(yù)測,對預(yù)測結(jié)果進(jìn)行了10 項(xiàng)臨床試驗(yàn)檢測指標(biāo)的驗(yàn)證,10項(xiàng)臨床試驗(yàn)檢測指標(biāo)的分布情況見表2。
表2 結(jié)核性胸膜炎決策樹檢測指標(biāo)
4.決策樹中各指標(biāo)的貢獻(xiàn)得分:決策樹中各項(xiàng)指標(biāo)的貢獻(xiàn)得分是指各項(xiàng)指標(biāo)在進(jìn)行決策樹診斷時(shí)所起的作用,即位于決策樹頂端的指標(biāo),對診斷的作用較大。為探索對TBP診斷更為重要的因素,利用決策樹分析將各指標(biāo)的貢獻(xiàn)得分進(jìn)行加和與排序(圖3)。由此可以看出排序前9位的指標(biāo)對診斷的貢獻(xiàn)最大。
TBP是最常見的肺外結(jié)核,其診斷金標(biāo)準(zhǔn)是從病灶或胸腔積液中找到直接的細(xì)菌學(xué)證據(jù)。然而,目前臨床能夠拿到直接細(xì)菌學(xué)證據(jù)的診斷病例很少。目前,臨床診斷主要依靠癥狀、體征及臨床實(shí)驗(yàn)室檢查,并憑借醫(yī)生的經(jīng)驗(yàn)綜合判定,而關(guān)于綜合性診斷研究尚少。張義宏等[7]利用年齡<37歲、體溫>37.8 ℃、胸腔積液腺苷脫氨酶>45 U/L或>30 U/L、胸腔積液C反應(yīng)蛋白>26 mg/L為截點(diǎn),建立積分模型,利用積分模型作為判斷結(jié)核性胸腔積液的依據(jù)。結(jié)果以積分模型分值≥7分作為預(yù)測結(jié)核性胸腔積液的截點(diǎn),其敏感度為95.4%、特異度為96.6%、準(zhǔn)確性為96.0%,取得了理想的結(jié)果。此外,采用構(gòu)建臨床診斷決策樹的方法對難以獲得直接證據(jù)的疾病進(jìn)行診斷也是一種嘗試。Porcel等[8]采用決策樹方法進(jìn)行的TBP綜合性診斷策略研究中也證實(shí),由他們制定的TBP診斷決策樹對TBP與惡性胸腔積液鑒別診斷的敏感度為92.2%、特異度為98.3%、受試者工作特征曲線(ROC曲線)下面積為97.6%。臨床診斷決策樹與醫(yī)生在進(jìn)行臨床診斷時(shí)的思維模式非常類似,因此可以作為一種診斷經(jīng)驗(yàn)的實(shí)體形式,同時(shí)決策樹又可以基于“大數(shù)據(jù)”而產(chǎn)生,從而提高了對疾病診斷的準(zhǔn)確性。本研究以此為切入點(diǎn),主要探討這種研究方式的可能性及需要解決的問題。
“1”:代表“結(jié)核性胸膜炎”;“2”:代表“惡性胸腔積液”
圖2 約登指數(shù)為1的前5棵決策樹型圖
圖3 結(jié)核性胸膜炎各診斷因素貢獻(xiàn)得分
本研究首先解決的問題是,利用臨床的一些常規(guī)數(shù)據(jù)來生成可以用于TBP診斷的臨床診斷決策樹。決策樹的創(chuàng)建采用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法,因?yàn)闄C(jī)器學(xué)習(xí)的方法與臨床思維有類似之處,容易為臨床醫(yī)生所接受。具體方法是以R語言中標(biāo)準(zhǔn)的CART決策樹算法為核心,同時(shí)構(gòu)建了包括數(shù)據(jù)的讀取、數(shù)據(jù)清理、數(shù)據(jù)隨機(jī)化分組、CART決策樹構(gòu)建、檢測指標(biāo)的構(gòu)建及相應(yīng)結(jié)果輸出的標(biāo)準(zhǔn)化流程,并在此基礎(chǔ)上以BioKepler生物信息學(xué)分析平臺為基礎(chǔ),構(gòu)建TBP診斷決策樹的工作流程。經(jīng)對該工作流程進(jìn)行千余次演算沒有發(fā)現(xiàn)漏洞,且應(yīng)用普通電腦可以在30 s左右計(jì)算出結(jié)果,因此初步解決了決策樹在TBP診斷中的技術(shù)層面問題,為之后的研究奠定了基礎(chǔ)。
第二個(gè)問題即所構(gòu)建的臨床診斷決策樹能否達(dá)到一定程度的臨床準(zhǔn)確性。由于本次研究收集的患者例數(shù)較少,為提高所構(gòu)建決策樹診斷準(zhǔn)確性,筆者應(yīng)用已建立的工作流程,進(jìn)行了1000次的模擬實(shí)驗(yàn),并且對這1000次模擬實(shí)驗(yàn)的相應(yīng)診斷實(shí)驗(yàn)檢測指標(biāo)進(jìn)行了均值及標(biāo)準(zhǔn)差的計(jì)算。通過1000次循環(huán)模擬生成的決策樹,對TBP與惡性胸腔積液鑒別診斷的敏感度均值為98.14%,特異度均值為93.64%。因此,初步顯示應(yīng)用臨床診斷決策樹的方法是可以達(dá)到一定的臨床診斷準(zhǔn)確性。
臨床信息來源于多個(gè)渠道,如病史、查體和各種臨床檢測項(xiàng)目,本研究納入了25項(xiàng)指標(biāo)。哪些指標(biāo)對診斷最有意義,直接關(guān)乎臨床診斷結(jié)果。筆者首先對納入的25項(xiàng)指標(biāo)進(jìn)行了組間比較,其中16項(xiàng)指標(biāo)在兩組之間差異具有統(tǒng)計(jì)學(xué)意義。而這16項(xiàng)指標(biāo)在兩種疾病鑒別時(shí)均有一定意義,是臨床醫(yī)師對兩種疾病進(jìn)行鑒別診斷時(shí)需要考慮到的指標(biāo)。而哪些指標(biāo)對疾病鑒別診斷的意義更大,利用單因素分析不能明確,而利用決策樹分析,通過指標(biāo)的貢獻(xiàn)得分則可以給出答案。筆者對模擬1000次生成的臨床診斷決策樹所包含的各項(xiàng)指標(biāo)的貢獻(xiàn)得分進(jìn)行了排序。由于平均每個(gè)決策樹需要9個(gè)指標(biāo)作為決策因素,因此,筆者對貢獻(xiàn)得分排名前9個(gè)指標(biāo)進(jìn)行了比較,發(fā)現(xiàn)其差異均存在統(tǒng)計(jì)學(xué)意義,因此,筆者從這兩個(gè)方面驗(yàn)證了這9個(gè)指標(biāo)對TBP的診斷價(jià)值更大。
通過決策樹示意圖可以看到,對TBP做出診斷的過程與臨床醫(yī)生的診斷過程非常相似,是綜合了臨床的各項(xiàng)指標(biāo)給出的診斷,而不是某一項(xiàng)指標(biāo)就能決定的。同時(shí),決策樹的生成可以并且應(yīng)該基于大數(shù)據(jù)產(chǎn)生,這樣生成的決策樹會(huì)更加符合實(shí)際情況,對疾病診斷的準(zhǔn)確性更高。陳藹祥和陳智鋒[9]利用機(jī)器學(xué)習(xí)方法構(gòu)建的決策樹用于結(jié)節(jié)病和肺結(jié)核的鑒別,準(zhǔn)確性達(dá)到96.15%。另外,利用決策樹方法進(jìn)行疾病診斷時(shí)簡便直觀,只需要根據(jù)取得的臨床數(shù)據(jù)來對照決策樹,按照決策樹分支一步步做出診斷。以圖1為例簡單說明診斷過程。首先看胸腔積液腺苷脫氨酶是否大于44 U/L,根據(jù)是與否分別沿左右兩個(gè)分支繼續(xù)前進(jìn),直到符合某個(gè)診斷為止。同時(shí),決策樹所用到的指標(biāo)為臨床上容易獲得的指標(biāo),即使是最基層醫(yī)院也可以做到。因此,臨床診斷決策樹方法對于基層醫(yī)院或經(jīng)驗(yàn)不足的醫(yī)生更有幫助。
由于本研究只是將決策樹方法應(yīng)用于TBP與惡性胸腔積液鑒別診斷的一次初步探索,目的是探討利用決策樹方法診斷TBP的可行性,還存在眾多不足。(1)入選病歷的局限性。本研究病歷均為住院患者,這部分患者多年齡偏大,病情較重,以鑒別診斷病歷較多。因此,患者的代表性較差。(2)本研究為回顧性研究,所收集的部分患者資料存在缺失問題,因此在統(tǒng)計(jì)學(xué)分析時(shí)會(huì)造成分析結(jié)果的不準(zhǔn)確性。(3)樣本量有限,因此不能形成較為穩(wěn)定的臨床決策樹,盡管應(yīng)用重復(fù)模擬的策略彌補(bǔ)了對決策樹評價(jià)方面的缺陷,但仍不能解決篩選穩(wěn)定決策樹進(jìn)一步在臨床進(jìn)行前瞻性研究的問題。(4)患者僅來源于同一家醫(yī)療機(jī)構(gòu),致使所形成的決策樹外推性不能得到有效的驗(yàn)證。(5)對照組選擇單一。僅選擇了惡性胸腔積液作為對照組,盡管該病為TBP最重要的鑒別診斷疾病之一,但是只有對多種相關(guān)的疾病進(jìn)行比較,才能形成真正有效的臨床診斷決策樹。(6)沒有設(shè)立其他用于TBP診斷試驗(yàn)作為對照,因此對于臨床診斷決策樹診斷TBP的實(shí)際效力還不能最終明確。盡管如此,根據(jù)本研究得到的相應(yīng)的研究結(jié)果,我們認(rèn)為已經(jīng)達(dá)到了研究之初設(shè)定的研究目標(biāo),并且為今后的臨床研究提供了相關(guān)的研究線索及依據(jù)。
綜上所述,臨床診斷決策樹方法是診斷TBP的有效臨床策略之一,如進(jìn)一步進(jìn)行相關(guān)的循證醫(yī)學(xué)研究,有望解決目前TBP診斷手段缺乏和主觀偏移性等問題。
[1] Light RW. Update on tuberculous pleural effusion. Respirology, 2010, 15(3):451-458.
[2] Thomas R, Lee YC. Causes and management of common benign pleural effusions. Thorac Surg Clin, 2013, 23(1): 25-42.
[3] 陳紅兵, 周志紅, 賀潤年, 等. 熒光定量PCR 技術(shù)在結(jié)核桿菌檢測中的應(yīng)用. 實(shí)用醫(yī)學(xué)雜志, 2008, 24(21):3765-3767.
[4] 貝政平, 蔡映云. 內(nèi)科疾病診斷標(biāo)準(zhǔn).2版. 北京:科學(xué)出版社, 2006.
[5] Wang J, Crawl D, Altintas I. A framework for distributed data-parallel execution in the kepler scientific workflow system. Procedia Computer Science,2012,9(11):1620-1629.
[6] 明鶴, 張應(yīng)應(yīng). 基于R軟件分析兩組專家對五個(gè)葡萄酒樣品的評分?jǐn)?shù)據(jù). 統(tǒng)計(jì)學(xué)與應(yīng)用, 2014, 3(4): 133-140.
[7] 張義宏, 張紅梅, 沈景昊, 等. 用積分模型診斷結(jié)核性胸膜炎的價(jià)值研究. 中華醫(yī)院感染學(xué)雜志,2014,24(18):4512-4514.
[8] Porcel JM, Alemán C, Bielsa S, et al. A decision tree for differentiating tuberculous from malignant pleural effusions. Respir Med, 2008, 102(8):1159-1164.
[9] 陳藹祥, 陳智鋒. ADST: 用機(jī)器學(xué)習(xí)方法鑒別結(jié)節(jié)病和肺結(jié)核. 計(jì)算機(jī)科學(xué), 2014, 41(S1): 103-109,138.
(本文編輯:李敬文)
A preliminary study of decision tree in clinical diagnosis of tuberculous pleurisy
KONGZhong-shun,LIUJing-ming,GAOMeng-qiu,HUANGMai-ling.
TheSecondWardofTBDepartment,BeijingChestHospital,CapitalMedicalUniversity,Beijing101149,China
HUANGMai-ling,Email:huangmailing@163.com
Objective To form comprehensive diagnosis strategy of tuberculous pleurisy (TBP) using the decision tree in the clinical, and to evaluate the value of decision tree in diagnosis of TBP. Methods Based on inclusion criteria of TBP and malignant pleural effusion, 314 patients from Beijing Chest Hospital affiliated to Capital Medical University between January 2014 to December 2015 were retrospectively studied. These patients were divi-ded in to TBP group (205 cases) and malignant pleural effusion group (109 cases). And the comprehensive data were randomly divided into the training sample data set and validation sample data set according with the ratio of 3∶1 using random number statistics, and then a diagnosis tree for clinical diagnosis of TBP were builded, which was used to verify validation sample data and calculate detection effect value, in order to verify the comprehensive diagnosis strategy. Results A single factor statistical analysis was made on 25 indexes of constructing decision tree in the clinical and it was found that, 16 indexes were statistically significant between TBP group and malignant pleural effusion group. A total of 1000 simulated experiments were carried out based on the clinical decision tree, the avera-ge utilization of the 1000 decision trees constructed by the whole cycle is 8.57±1.63. According to the algorithm of relevant evaluation indexes of the experimental results, the sensitivity for diagnosis of TBP by the constructed clinical decision tree was 98.14% and the specificity was 93.64%, the accuracy was 95.01%. According to the contribution of the indexes in the decision tree, the front 9 indexes were the pleural effusion, erythrocyte sedimentation rate, fever, pleural effusion C-reactive protein, age, blood tuberculous antibody, blood T lymphocyte spot test B, sex and fatigue,etc. Conclusion The clinical decision tree is one of the effective methods for differentiating TBP from malignant pleural effusion.
Tuberculosis, pleural; Diagnosis; Decision trees
10.3969/j.issn.1000-6621.2016.06.005
101149 首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院內(nèi)二科
黃麥玲,Email:huangmailing@163.com
2016-02-22)