張艷萍 高皓楠 曹云珍
目的:探索影響邯鄲市居民食管癌發(fā)病的主要因素,并建立其食管癌風(fēng)險(xiǎn)預(yù)測(cè)模型。
方法:首先收集了邯鄲市食管癌患者100個(gè)和非食管癌患者114個(gè)。然后,運(yùn)用Spearman相關(guān)系數(shù)對(duì)8個(gè)自變量之間的相關(guān)性進(jìn)行分析后找到影響是否患食管癌的主要因素,基于Logistic回歸模型建立了最優(yōu)食管癌的風(fēng)險(xiǎn)預(yù)測(cè)模型。
結(jié)果:影響邯鄲市居民食管癌發(fā)病的主要因素為年齡、居住地、飲酒情況、從事工作。并通過逐步回歸方法得到最優(yōu)的Logistic回歸預(yù)測(cè)模型,同時(shí)應(yīng)用5折交叉驗(yàn)證方法驗(yàn)證了模型基本不存在過擬合現(xiàn)象,預(yù)測(cè)準(zhǔn)確度達(dá)到92.99%。
結(jié)論:食管癌風(fēng)險(xiǎn)預(yù)測(cè)模型的建立為邯鄲市食管癌高危人群預(yù)警、早期診斷、個(gè)體化防治可提供更有力的理論依據(jù)。
背景及目的
通過預(yù)測(cè)模型可以確定患者未來(lái)發(fā)病風(fēng)險(xiǎn)。疾病風(fēng)險(xiǎn)預(yù)測(cè)模型不僅在發(fā)病率較高的高血壓等應(yīng)用廣泛,在腫瘤發(fā)病率相對(duì)較低的食管癌等也有應(yīng)用。食管癌的病理類型在不同國(guó)家地區(qū)有所差異。在西方國(guó)家,食管癌的病理類型以食管腺癌為主,且與Barrett食管癌的發(fā)病密切相關(guān)。而在亞洲國(guó)家,食管癌以食管鱗狀細(xì)胞癌(ESCC)為主,占到了全部食管癌的90%以上,我國(guó)河北涉縣、磁縣等地是食管癌高發(fā)地區(qū)。近年來(lái)國(guó)內(nèi)外研究者對(duì)食管癌進(jìn)行了大量的流行病學(xué)研究和病因?qū)W研究,從不良生活方式和飲食習(xí)慣等多方面進(jìn)行了探索,取得了有意義的進(jìn)展,為食管癌的防治提供了一定的科學(xué)依據(jù)。為了更好的為邯鄲市食管癌高危人群預(yù)警、早期診斷、個(gè)體化防治提供更有力的理論依據(jù),本文探索影響邯鄲市居民食管癌發(fā)病的主要因素,并建立其食管癌風(fēng)險(xiǎn)預(yù)測(cè)模型。
資料和方法
研究對(duì)象
通過收集邯鄲市某醫(yī)院2017年食管癌住院患者信息和居民健康人群調(diào)查問卷信息,最后分別得到100個(gè)樣本和114個(gè)樣本。我們定義抽煙者、飲酒者的標(biāo)準(zhǔn)如下:平均每周至少兩次并達(dá)一年的人定義為飲酒者,否則為非飲酒者;一生種吸煙總量大于100支或吸煙斗大于100次的人定義為吸煙者,否則為非吸煙者。因變量為是否患有食管癌,自變量為性別(X1)、年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、個(gè)人健康情況( X6)、從事工作(X7)。
數(shù)據(jù)處理和統(tǒng)計(jì)分析
通過自變量與因變量的列聯(lián)表分析以及Spearman相關(guān)系數(shù)矩陣得到年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、從事工作類型(X7)與患有食道癌具有顯著的相關(guān)性。而性別(X1)、個(gè)人健康情況(X6)與患有食管癌沒有顯著的相關(guān)性。
食管癌風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建
Logistic回歸模型建立
從相關(guān)分析可以看出,性別(X1)、個(gè)人健康情況(X6)與因變量沒有統(tǒng)計(jì)學(xué)相關(guān)性。因此Logistic回歸模型中,納入以下自變量:年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、從事工作(X7)。從而建立logit(p)關(guān)于自變量X2,X3,x5,X1的Logistic回歸方程為:
logit(P)=βo+β1X2+β2X3+β3X5+β4X7
利用SPSS17.0進(jìn)行數(shù)據(jù)處理和分析,各回歸系數(shù)中吸煙情況(X4)的P>0.05,從而得到此變量對(duì)Logistic回歸模型沒有顯著的統(tǒng)計(jì)學(xué)意義。進(jìn)一步,利用逐步回歸方法對(duì)模型進(jìn)行優(yōu)化,發(fā)現(xiàn)去除吸煙情況(X4)變量后,所有的回歸系數(shù)P<0.05,說明各變量對(duì)Logistic回歸優(yōu)化模型具有顯著的統(tǒng)計(jì)學(xué)意義。
為了驗(yàn)證優(yōu)化模型的有效程度,對(duì)原模型和優(yōu)化模型的卡方檢驗(yàn)進(jìn)行了比較,如表1所示:
從表中得到,卡方值P=0.1946>0.05,得到吸煙情況(X4)這個(gè)變量不會(huì)顯著影響模型的預(yù)測(cè)精度,從而驗(yàn)證了優(yōu)化模型的有效程度。
最終得到是否患有食管癌的Logistic回歸優(yōu)化模型為:
模型驗(yàn)證及指標(biāo)分析
為了避免引入過多變量導(dǎo)致模型的過度擬合,以至于預(yù)測(cè)的嚴(yán)重失真,通過5折交叉驗(yàn)證方法進(jìn)行檢驗(yàn),得到平均誤差為7.01%,說明模型基本不存在過擬合現(xiàn)象。模型預(yù)測(cè)準(zhǔn)確度為92.99%,并通過最優(yōu)模型Logistic回歸中的受試者工作特征曲線(receiver operating characteristic curve,ROC曲線),計(jì)算了相應(yīng)的曲線下面積(areasunder the curve,AUC)為0.985(如圖1所示),從而說明建立的Logistic回歸優(yōu)化模型是高度有效的。
進(jìn)一步,對(duì)回歸系數(shù)的風(fēng)險(xiǎn)比值比(oddsratio,OR)進(jìn)行了分析,隨著年齡的變化,每增大一個(gè)單位,患有食管癌的概率就會(huì)增加1.139倍;隨著居住地的變化,每變化一個(gè)單位,患有食道癌的概率就增加1.136倍;隨著飲酒情況的變化,飲酒者是非飲酒者患有食道癌概率的0.894倍;工作人群患有食道癌的概率是退休人群的1.658倍。
綜上所述,邯鄲市居民食管癌的患病率主要跟其生活習(xí)慣以及居住環(huán)境的工作人群相關(guān),但是食管癌相關(guān)危險(xiǎn)因素的影響仍需進(jìn)一步研究和探討,從而建立準(zhǔn)確性更高的食管癌風(fēng)險(xiǎn)預(yù)測(cè)模型,為食管癌高危人群預(yù)警、早期診斷、個(gè)體化防治提供更有力的理論依據(jù)。