何怡雯, 陳 陽, 吳文浩, 侯學文, 李浩東, 聶生東
(上海理工大學 健康科學與工程學院, 上海 200093)
肺癌是世界上最常見的惡性腫瘤之一,發(fā)病率和死亡率常年居高不下。由于肺癌的并發(fā)癥狀不易被識別、易轉移等特性[1-3],絕大部分的肺癌患者直到中晚期才被確診,導致錯過了最佳的治療時機,因而肺癌患者的5 年生存率低下。研究證明,在肺癌早期及時確診并得到有效的治療,可以有效地提高患者的5 年生存率[4]。因此,構建一種可靠、準確的早期肺癌風險評估模型具有重要的應用價值。多項研究表明,肺癌是環(huán)境和自身各種因素綜合作用所引起的,常見的危險因素有年齡、性別、吸煙、肺部疾病史及家族惡性腫瘤史等。年齡作為肺癌的危險因素之一也已得到確認[5],相關研究顯示[6]40 歲以下人群肺結節(jié)的檢出率小于3 %,60 歲以上人群的肺結節(jié)檢出率超過50 %。此外,研究表明,女性的肺癌患病風險比男性要高,同時長時間處于壓抑狀態(tài)的人群也更容易產生肺結節(jié)。吸煙作為環(huán)境中最主要的危險因素已經得到了大家的公認[7]。而自身的內在主要危險因素有患病本人的肺部疾病史和家族惡性腫瘤史。
近年來,血清腫瘤標志物在肺癌診斷方面的價值也逐漸被重視起來[8]。相關研究顯示,隨著肺癌患者的病情不斷惡化,對應患者體內的癌胚抗原(carcinoembryonic antigen, CEA)、鱗狀上皮細胞癌抗原(squamous cell carcinoma antigen, SCCA)和細胞角質蛋白19 片段(cytokeratin-19-fragment,CYFRA21-1)在血清中的表達也隨之上升。因此,通過聯(lián)合這3 種血清腫瘤標志物在血清中的含量情況進行分析,可以作為早期肺癌診斷的一種有效手段。CEA 與SCCA 的正常值為5.0 mg/mL,CYFRA21-1 的正常值為3.3 mg/mL。當檢測值大于正常值時,可以認為該患者的肺癌患病風險較高。
計算機斷層掃描(computed tomography, CT)是目前篩查肺癌最主要的技術手段。相對于支氣管鏡與X 線胸片檢查等其他檢查方式,CT 可以顯示橫斷面的三維結構圖像,能夠很好地幫助醫(yī)生區(qū)分病灶區(qū)域和正常組織,對于早期肺癌的篩查有著更好的檢查效果。低劑量CT 技術不僅能降低患者的放射暴露時間,而且能獲取足夠清晰的胸部影像,從而成為早期肺癌篩查的主要方式。
由于數(shù)據(jù)的規(guī)范性、普適性等原因,國內外大部分對于肺癌的風險評估研究還屬于前瞻性研究。目前國外已經有一些個人或機構建立了一些較為有效且穩(wěn)定的早期肺癌風險評估模型。例如,美國德克薩斯大學安德森癌癥研究中心研究的肺癌風險評估模型[9];哈佛大學公共衛(wèi)生學院開發(fā)的哈佛癌癥風險評估工具可以對多種惡性腫瘤進行風險評估[10];Bach 等[11]建立的肺癌預警模型主要適用于目前或既往存在吸煙史的人群;Liverpool Lung Project(LLP)模型[12]是通過研究肺炎史、肺癌家族史、石棉暴露史、年齡、性別和吸煙史來建立的肺癌風險預測模型;Spitz 等[9]建立的早期肺癌風險評估模型針對不吸煙、既往吸煙和目前正在吸煙的人群其交叉驗證統(tǒng)計值分別為0.59,0.63 和0.65;Cassidy 等[13]建立的肺癌風險預測模型最終驗證的AUC 值為0.70;王旭等[14]將與肺癌相關的有效分子生物標志物與環(huán)境因素及機體內因素結合在一起進行聯(lián)合分析,研發(fā)出了相對客觀的適用于東北地區(qū)的肺癌預警評估模型;同樣地,張亞琛等[15]使用肺結節(jié)分布特征與其他危險因素建立了適合河北地區(qū)的肺癌早期預警模型;浙江大學團隊研制出一種可以檢測并分析患者呼出氣標志物的儀器[16],可以對患者呼出的氣體中的揮發(fā)性有機物進行定性分析,再結合其他肺癌危險因素建立肺癌的早期診斷模型,為肺癌的早期預防和診斷提供了比較成熟的技術支持。劉龍飛[17]的研究內容主要集中在對于已存在的各種模型的優(yōu)化。
綜上所述,現(xiàn)有的方法都是將重點放在對不同特征數(shù)據(jù)的處理上面,將各組學的特征數(shù)據(jù)進行融合,再選擇合適的統(tǒng)計學方法,最后建立肺癌風險評估模型。
本文則針對于橫斷面數(shù)據(jù),提出一種基于合成分析的早期肺癌風險預測模型,以克服橫斷面數(shù)據(jù)的不完整性。橫斷面數(shù)據(jù)是呈現(xiàn)出“倒金字塔”型的一類數(shù)據(jù),不同病例有不同的數(shù)據(jù)缺失,從而導致具有不同因素的樣本數(shù)存在區(qū)別。因此,傳統(tǒng)的多因素回歸方法無法應用到所有數(shù)據(jù)上面,而合成分析法是一種能夠很好地適應于橫斷面型數(shù)據(jù)的統(tǒng)計學分析方法。
本文使用的數(shù)據(jù)來自上海市肺科醫(yī)院,一共247 組病例。其中,200 組作為訓練數(shù)據(jù),剩余作為測試數(shù)據(jù)。每組數(shù)據(jù)包括完整的患者術前最后一套CT 影像和其他信息,并且臨床醫(yī)生根據(jù)每例患者的病理診斷報告給每組病例劃分了危險等級,共分為5 個等級,第5 級代表危險程度最高,第1 級表示無患癌風險,以此作為建模中的結果變量。具體信息如表1 所示。從表1 可以看出,本文所使用的數(shù)據(jù)屬于典型的橫斷面型數(shù)據(jù),合成分析法可以在缺乏縱向隊列數(shù)據(jù)時,基于橫斷面數(shù)據(jù)構建有效的疾病預測模型[18]。將單個因素回歸模型和單個因素之間的相關性整合到一起形成一個多因素回歸模型,從而克服橫斷面數(shù)據(jù)的不完整性。因此,本文使用合成分析法來建立最終的早期肺癌風險評估模型。
表1 肺科醫(yī)院數(shù)據(jù)信息Tab.1 Data information of pulmonary hospitals
將基于CT 影像的判斷結果結合其他肺癌危險因素來進行建模。首先,使用基于三維條件隨機場優(yōu)化的3D U-Net 分割算法[19]對所使用數(shù)據(jù)進行肺結節(jié)分割,提取完整的肺結節(jié)區(qū)域;然后,使用基于聚類輔助的隨機森林分類算法[20]進行良惡性分類;最后,再使用合成分析法結合良惡性分類結果和吸煙史、家族病史等肺癌危險因素建立最終的早期肺癌風險評估模型。模型以第1~5 級的危險等級為結果變量,等級越高表示危險程度越高,模型中其他變量的類型和賦值情況如表2所示。
表2 肺癌風險因素及賦值Tab.2 Risk factors and assignment for lung cancer
回歸是一種從連續(xù)型統(tǒng)計數(shù)據(jù)中得到數(shù)學模型的方法,其中,線性回歸模型的實現(xiàn)較為簡單且快速,特別適合線性數(shù)據(jù)及較小的數(shù)據(jù)量,但對于高度復雜的非線性數(shù)據(jù)不能很好地進行擬合。另外,回歸模型具有很好的可解釋性,可以直接看出每個特征對結果的影響程度,有利于建模時決策分析。多因素線性回歸體現(xiàn)了多個獨立輸入變量與輸出因變量之間的關系,合成分析法通常有兩種形式去構建多因素回歸模型:一是逐步地納入多個單因素變量,先構建第一個危險因素與結果變量直接的基礎方程,再逐次將其他危險因素添加到方程里面,形成最終的多因素回歸方程;二是基于現(xiàn)有的基礎方程,直接構建多因素回歸模型。本文主要研究以第一種形式來建立早期肺癌的風險評估模型。在實際肺癌風險評估模型建立過程中,單個因素(如性別、年齡、吸煙史、肺部疾病史和家族病史等)與結果變量之間的回歸分析等數(shù)據(jù)主要是通過其他資料文獻獲得,影像學判斷結果和3 種腫瘤標志物與結果變量之間的回歸系數(shù)通過單因素分析獲得。
現(xiàn)介紹使用合成分析法構建早期肺癌風險評估模型的具體步驟。
步驟1 基礎方程構建。
設第一個危險因素為自變量F1,肺癌危險等級為因變量I1, 構建單因素回歸模型I1=a+b1F1,b1為F1的回歸系數(shù)。
步驟2 納入第二個危險因素。
納入第二個危險因素F2,并根據(jù)基礎方程計算所對應的回歸系數(shù)f2,b2為先前統(tǒng)計分析得到的回歸系數(shù),將b2與f2進行比較,如果差值較小,則令b2=f2; 否則,令b2=(b2-f2)。
步驟3 構建包含前2 個危險因素的回歸方程。
構建新方程I2=a+b1F1+b2F2,此時,包含2 個危險因素的方程I2則反映了危險因素F1和危險因素F2與疾病之間的關系。
步驟4 重復步驟2-3,逐次納入所有危險因素,得到最終的回歸方程In=a+b1F1+···+bnFn,n為危險因素數(shù)目。
本研究使用Windows 平臺的SPSS24.0 軟件實現(xiàn)。
本文將基于CT 影像的良惡性判斷結果和其他危險因素相結合,建立了一個多因素回歸模型,對肺癌進行風險評估。年齡、性別、吸煙等肺癌危險因素在肺癌診斷模型中的效果已經被確認,但良惡性的判斷結果對于模型的影響尚未明確。因此,在建模之前,首先要分析基于CT 影像的肺結節(jié)良惡性判斷結果是否適合作為肺癌危險因素之一來進行建模。由于數(shù)據(jù)類型的限制,使得本文無法使用常用的變量篩選方法來進行分析,所以,通過單因素方差分析良惡性判斷結果與結果變量之間的相關性來進行確認,分析結果如表3所示。
表3 不同分類器良惡性分類結果的單因素分析結果Tab.3 Univariate analysis results of benign and malignant classification results of different classifiers
整個分析在SPSS24.0 軟件中進行,分別將4 組不同分類器的良惡性分類結果與風險評估的結果變量作了單因素方差分析,分別計算了各組的P值。由4 組的P<0.05 可以看出,良惡性分類結果因素對于肺癌風險評估結果變量的影響是顯著的,因此,可以初步證明肺結節(jié)良惡性判斷結果可以作為危險因素之一建立肺癌風險評估模型。在之后的實際建模結果評估的時候,可以進一步對此結論進行驗證。
首先統(tǒng)計分析了具體的肺癌單個因素和對應的回歸系數(shù),如表4 所示。將良惡性判斷結果作為第一個變量來進行建模,3 種腫瘤標志物的回歸系數(shù)則通過單次的單因素Logistic 回歸分析得到。
表4 肺癌危險因素和對應回歸系數(shù)Tab.4 Risk factors and corresponding regression coefficients of lung cancer
a. 基礎方程。
以肺癌危險等級為因變量,基于CT 影像的肺結節(jié)良惡性判斷結果A為第1 個危險因素作自變量,構建基礎方程為
b. 加入第2 個變量:年齡B。
c. 加入第3 個變量:性別C。
基于方程I2,根據(jù)肺科醫(yī)院整理的數(shù)據(jù),計算每個具有年齡因素的樣本的I2值,以I2為因變量、性別為自變量進行單因素線性回歸分析,得到回歸系數(shù)為0.005,因此,b3=(-1.36-0.005)=-1.365,構建新的方程為
d. 加入第4 個變量:吸煙D。
基于第3 個方程I3,根據(jù)同一數(shù)據(jù)集計算每個具有吸煙因素的樣本的I3值 ,再以I3為因變量、吸煙因素為自變量進行單因素線性回歸分析,得到回歸系數(shù)f3為 1.213,與b3相差較小,因此,包含3 個變量的方程為
e. 加入第5 個變量:肺部疾病史E。
根據(jù)數(shù)據(jù)集基于第4 個方程I4計算每一個具有肺部疾病史因素的樣本的I4值,并以I4為因變量、肺部疾病史為自變量進行分析,得到回歸系數(shù)f5=0.034 ,則b5=(1.269-0.034)=1.235,新的方程為
f. 加入第6 個變量:家族病史F。
根據(jù)方程I5和數(shù)據(jù)集計算每個包含家族病史的樣本的I5值 ,并以I5作為因變量、以家族病史因素為自變量作回歸分析,得到回歸系數(shù)f6=0.107,因此b6=(1.134-0.107)=1.027,得到新的方程
g. 隨后,依次分別加入第7,8,9 個變量G,H,J:腫瘤標志物CEA,SCCA 和CYFRA21-1。
重復前面的步驟加入腫瘤標志物因素,計算得出b7=1.387,b8=1.890 ,b9=1.542,構建 新 方程為
h. 構建最終模型。
為了保證最終方程對于整體數(shù)據(jù)的平均肺癌危險等級保持不變,需要在方程I9的基礎上減去一個平均值2.832,得到最終的風險評估方程IF。
使用組內相關系數(shù)( intraclass correlation coefficient, ICC)對醫(yī)生劃分的危險等級與合成分析模型得到的等級進行檢驗,得到的ICC 值大于0.75,表示這兩組變量對同一個樣本的一致性高,說明了本文得到的結果與醫(yī)生給出的標準相比重復性高且可信度良好。
為進一步驗證基于CT 影像的肺結節(jié)良惡性判斷結果對于肺癌風險評估模型的積極影響,按照同樣的方法構建了不包含影像學良惡性分類結果的合成分析模型,得到了風險評估方程IC。
分別計算了合成分析模型IF和IC在相同測試數(shù)據(jù)上表現(xiàn)的性能,主要指標包括準確性、敏感性、特異性。對比結果如表5 所示,圖1 顯示了2 個模型的ROC 曲線(接收者操作特征曲線)對比結果。
表5 模型性能對比結果Tab.5 Comparison results of model performance
圖1 模型ROC 曲線Fig. 1 ROC curve of the model
由表5 的結果可以看出,模型IF相較于模型IC具有更好的評價結果,本文提出的合成分析模型的準確率達到87.40%。同時從圖1 中的ROC 曲線對比也可以證明,加入良惡性判斷結果之后的肺癌風險評估模型具有更好的評估性能。
研究了使用合成分析方法建立基于橫斷面數(shù)據(jù)的早期肺癌風險評估模型?;诓∪薈T 影像的肺結節(jié)良惡性判斷結果、年齡、性別、吸煙、家族病史、肺部疾病史和3 種腫瘤標志物為研究變量,分別構建了包含和不包含肺結節(jié)良惡性分類結果因素的模型,并在相同數(shù)據(jù)集上對比2 個模型。結果顯示,包含肺結節(jié)良惡性判斷結果的模型具有更好的預測性能,也進一步驗證了通過單因素回歸分析得出的結論,基于CT 影像的肺結節(jié)良惡性判斷結果變量對于肺癌風險評估模型的構建是有益的。但本方法也存在一些不足之處。首先,對于不同因素回歸系數(shù)的確定和納入模型順序的確定具有主觀性,在整體上對模型的性能評估造成一定的影響;此外,在模型對比的過程中,由于不同模型使用的數(shù)據(jù),涉及到的自變因素和結果變量的設定具有一定的差別,很難客觀地去分析不同模型之間的差異性。希望在未來的研究中,隨著研究數(shù)據(jù)的增多,更多肺癌的危險因素被確定和加入到風險評估模型當中。能夠建立一個穩(wěn)定、準確的早期肺癌風險評估模型。