許飛飛,應 俊2,宋亞男2,齊 菲3,謝惠敏4,陳廣飛
慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease,COPD)和哮喘類阻塞性氣道疾病(Obliterative Airway Disease,OAD)是造成嚴重疾病負擔和影響生活質(zhì)量的常見慢性肺病。盡管COPD和哮喘在炎癥模式、免疫機制和氣流阻塞的可逆性程度不同,但仍有大量COPD和哮喘患者表現(xiàn)出相似的臨床癥狀。哮喘通常表現(xiàn)為間歇性和可逆性的氣道阻塞,而COPD則是進行性和不可逆轉(zhuǎn)的。COPD和哮喘合并癥稱為哮喘-慢性阻塞性肺疾病重疊(asthma-COPD overlap,ACO),其發(fā)病率隨著年齡增長而升高[1]。因此,ACO的診斷和治療變得尤其重要[2]。與單純患有慢性阻塞性肺炎或哮喘的患者相比,哮喘-慢性阻塞性肺疾病重疊患者急性發(fā)作更頻繁,生活質(zhì)量更差,肺功能下降更快,死亡率更高,醫(yī)療成本更高[3]。慢阻肺、哮喘及ACO均為異質(zhì)性疾病,在病因、病理改變及臨床表現(xiàn)存在較多相似之處。Soriano認為[4],COPD和哮喘之所以難以區(qū)分,是因為某些癥狀只是疾病發(fā)展過程中的一部分,存在較多相似特征,而且沒有判定相應治療措施與預后是否一致的標準,因此如何辨別ACO與單純患有COPD是呼吸科研究的熱點。雖然研究表明,COPD與哮喘-慢性阻塞性肺疾病重疊在肺功能、臨床特征、肺活量測定、胸部CT掃描、6MWD、SGRQ等特征上存在統(tǒng)計學差異,但是以上特征不能單獨作為哮喘-慢性阻塞性肺疾病重疊與COPD患者分類的依據(jù)。
本文假設在原有的臨床特征中存在與疾病診斷相關的潛在關聯(lián),這種潛在關聯(lián)可以建立一個穩(wěn)健的模型來提供計算機化的臨床決策支持。深度學習方法可以發(fā)現(xiàn)高維數(shù)據(jù)潛在的相關性,深度信念網(wǎng)絡(Deep Belief Networks,DBNs)是深度學習方法中最成功的一種結構,其良好的特征提取能力在影像和語音識別中均得到很好的體現(xiàn)[5-6]。DBNs是一種高度復雜的非線性特征提取器,其隱藏單元的每一層都能從原始輸入數(shù)據(jù)中學習并捕獲更高級的特征[7]。因此,本文利用大量的臨床數(shù)據(jù)樣本,使用DBNs算法和支持向量機算法構建COPD和ACO的鑒別診斷模型,為臨床診斷提供參考。
本文研究數(shù)據(jù)來自美國國家心臟、肺與血液研究機構(NHLBI)建設的COPDGene數(shù)據(jù)庫。根據(jù)給定的數(shù)據(jù)將研究對象分為單純COPD組(2 919例)和哮喘-慢性阻塞性肺疾病重疊組(1 116例)。參與研究受試者的數(shù)據(jù)項總計為361項,包括人口信息學、病史、臨床評估量表、檢驗、體格檢查等[8]。
本研究使用的COPDGene數(shù)據(jù)集包含361項特征,除去數(shù)據(jù)缺失較大的特征后剩余320項特征。使用10折交叉驗證(10FCV)的方法將數(shù)據(jù)集隨機分成10份,其中90%作為訓練樣本,10%作為預測樣本。為提高模型對疾病分類的準確性,使用Fisher評分法對特征進行選擇,即計算特征的Fisher評分值來表示特征對分類結果敏感程度[9]。根據(jù)評分值由高到低選擇4個特征子集,分別是評分值前320、240、120、80個的特征子集,根據(jù)模型的準確率來選擇合適的特征子集。研究方法主要有以下2個數(shù)學模型。
一個是支持向量機模型(SVM)。支持向量機是基于不同核的一種機器學習算法。本研究使用了線性核(SVM-linear)、多項式核(SVM-polynomial)、徑向基函數(shù)核(SVM-radial basis function)和sigmoid核(SVM-sigmoid)4種核,根據(jù)模型分類準確率和ROC曲線2個評價指標選擇適合的核構建支持向量機模型。
另一個是深度信念網(wǎng)絡模型(DBNs)。深度信念網(wǎng)絡是深度學習中最常見的一種架構。對于一個實際問題,為找到合適結構的DBNs,需要確定隱藏層層數(shù)和每一隱藏層節(jié)點的數(shù)量,可見層節(jié)點數(shù)量等同于輸入特征數(shù)量。本文構建了3個結構不同的3層DBNs,隱藏層節(jié)點數(shù)分別為50-50、100-50及100-100,根據(jù)模型分類準確率選擇合適的結構構建DBNs模型。
特征選擇后,DBNs模型分類準確率結果如表1所示。使用Fisher評分值的前160個特征作為DBNs模型的輸入所得的準確率最高,因此選用這160個特征作為SVM模型和DBNs模型的輸入特征。圖1是3種隱藏單元結構的DBNs模型在不同迭代次數(shù)下2種疾病的分類準確率,顯示不同結構的DBNs模型的分類準確率,50-50隱藏單元結構的DBNs模型準確率高于100-50和100-100,因此選擇50-50隱藏單元結構構建最終的DBNs模型。
表1 特征選擇后DBNs模型的準確率
圖1 不同結構隱藏單元的DBNs模型在不同迭代次數(shù)下COPD和ACO分類準確率
使用訓練樣本構建支持向量機模型和深度信念網(wǎng)絡模型,通過預測樣本計算模型的準確率、靈敏度(表示預測樣本中COPD被劃分對的比例)和特異度(表示預測樣本中ACO被劃分對的比例),見表2,得到ROC曲線(圖2)。從表2看出,DNBs準確率最高(為93.56%),4種不同核的支持向量機算法準確率均未達到90%。在預測樣本中,COPD識別率(Sensitive)最高為DBNs模型(95.21%),而SVM模型最高為89.73%,ACO識別率(Specificity)最高仍為DBNs模型(89.29%),對應SVM模型最高為74.11%。圖2顯示了5個模型受試者工作特征曲線(ROC),DBNs模型的ROC曲線最靠近左上角并且完全處于4種不同核的支持向量機模型ROC曲線之上,說明DBNs模型分類性能要高于支持向量機模型。
表2 DBNs和4種不同核的SVM的分類準確率、靈敏度和特異度
圖2 DBNs和4種核的SVM的ROC曲線
COPDGene數(shù)據(jù)庫包含了研究受試者在臨床、生理學、影像學、生物學等多方面的數(shù)據(jù)。從DBNs模型中計算出敏感度前10的特征,它們來自COPDGene數(shù)據(jù)庫5個不同的量表,分別是吸煙狀態(tài)量表、CT影響結果量表、臨床診斷量表、健康狀態(tài)量表和肺功能量表。10個特征包括5類指標,其中1個屬于吸煙狀態(tài)(Duration_Smoking),3個屬于CT影像結果(TLC_CT,Slicer_IntensityMean_Ex,Vida_15perc_Exp),2個屬于臨床診斷(BronchDxByDr,SleepApStillHav),2個屬于健康狀態(tài)(distwalked,SF36_PF_t_score),還有2個屬于肺功能(pre_FEV1,pre_FVC)。應用統(tǒng)計分析的方法,分類變量用Pearson x2檢驗,數(shù)值型變量用t檢驗,10個特征在COPD和ACO中有明顯的統(tǒng)計學差異,p值小于0.05。通過假設檢驗,發(fā)現(xiàn)這10個敏感特征存在不同的分布。
表3 COPD與ACO分類前10個相對重要特征的分布
本文首次使用DBNs提出了一種ACO與COPD鑒別診斷的新方法,并且與支持向量機模型在準確率、靈敏度、特異度和ROC曲線上進行了比較。結果顯示,DBNs模型的分類性要好于支持向量機模型,證明DBNs模型能從數(shù)據(jù)集中學習到本質(zhì)特征。與傳統(tǒng)的危險因素分析臨床意義不同,DBNs模型預測變量的重要性大小反映的是對應指標在區(qū)分這2種疾病時對模型的貢獻程度,即排序越靠前的預測變量就越有助于使用模型來區(qū)分這2種疾病。
在機器學習和數(shù)據(jù)挖掘的眾多應用中會遇到高維數(shù)據(jù)的問題,常見的方法是用降維來選擇最敏感的特征[10-11]。高維增加了數(shù)據(jù)處理的時間和空間要求,基于存在不相關或冗余的特征,學習方法往往會過度擬合,模型變得難以解釋。選擇本文中的320個特征中Fisher評分較高的特征作為DBNs模型的輸入向量,結果表明,使用Fisher評分篩選特征后建立的DBNs模型能獲得更高的準確率。
高水平的多元特征可能與疾病的某些特點有關,并且可以使用這些特征建立一個復雜的數(shù)據(jù)驅(qū)動模型對疾病進行分類。本文構建的參數(shù)最優(yōu)化的DBNs模型找到的敏感因素與臨床先驗知識保持了一定的一致性。在評價本文的優(yōu)缺點時,將DBNs與SVM進行了比較。對于這個二分類問題,DBNs的準確率高達93.56%,靈敏度高達95.21%,特異度為89.29%;而4種典型支持向量機模型的最高準確率為85.40%,靈敏度最高為89.73%,特異度為74.11%,說明相比于支持向量機這個傳統(tǒng)機器學習模型,DBNs具有更好的分類能力。
本文利用DBNs模型確定與COPD疾病有關的敏感特征。DBNs模型輸出的預測重要性前10的變量包括受試者的CT影像結果、臨床診斷、健康狀態(tài)、吸煙情況以及肺功能,這些特征與COPD和ACO的病因密切相關[12-15],說明DBNs模型發(fā)現(xiàn)的敏感特征與目前ACO臨床診斷的主要因素是一致的。此外,描述性分析結果表明,COPD與ACO在前10個敏感特征上存在統(tǒng)計學差異。通過DBNs模型提取的特征可以有效區(qū)分這2種癥狀相似的疾病。本文確定的前10個敏感特征指出內(nèi)科醫(yī)生在對COPD或ACO患者進行診斷時,不僅要考慮生化檢查、實驗室檢查和影像數(shù)據(jù),還要考慮流行病學因素、健康狀況甚至個人習慣。
研究結果表明,使用肺功能、疾病狀況、人口統(tǒng)計學數(shù)據(jù)和健康狀況數(shù)據(jù)多種類型的特征建立的深度信念網(wǎng)絡模型可以有效區(qū)分COPD和ACO。與COPD和ACO分類相關的敏感特征與臨床診斷策略具有較好的一致性,有助于更好地了解成人慢性阻塞性肺病和哮喘-慢性阻塞性肺疾病重疊的病因和癥狀。由于COPD和ACO在治療方法和發(fā)病率及死亡率方面都不同,所以這2種疾病的鑒別診斷十分重要。借助深度學習方法,COPD和ACO的預防及個體化治療可以提高患者的生活質(zhì)量和潛在生存率。本文建立的DBNs模型能夠?qū)崿F(xiàn)較高的判斷準確率,表明深度學習模型有望成為診斷決策的輔助工具。