彭博 劉麗敏 張浩苒 牛文迪 薛會(huì)海 中國(guó)石油大學(xué)勝利學(xué)院 向修棟 中國(guó)石油大學(xué)(華東)
胃癌是威脅人類生命健康的最重大疾病之一。各個(gè)國(guó)家和地區(qū)之間不同的胃癌特征表明,地理多樣性仍然顯著,地區(qū)性的風(fēng)險(xiǎn)因素仍然存在。2004年和2005年原衛(wèi)生部及中國(guó)胃癌基金會(huì)及部分省衛(wèi)生廳共同建立胃癌早診早治示范基地,并實(shí)施推廣,胃癌早診早治作為胃癌控制的主要策略之一。至今10余年來(lái),專家模式轉(zhuǎn)變政府模式,技術(shù)模式得到了廣泛推廣,涌現(xiàn)出一大批優(yōu)秀示范現(xiàn)場(chǎng),尤其在農(nóng)村胃癌早診早治項(xiàng)目得到最大模式化,截止2018年包括上消化道癌、結(jié)直腸癌、肝癌、鼻咽癌和肺癌,共計(jì)259個(gè)項(xiàng)目點(diǎn),覆蓋全國(guó)31個(gè)省,上消化道癌早診早治的農(nóng)村模式逐步推廣及應(yīng)用,覆蓋的人群逐步增大,并取得良好的社會(huì)效益。
本研究對(duì)486394人,包括40217名名胃癌患者和446177名健康體檢者進(jìn)行了血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的分析預(yù)測(cè)。胃癌患者中,男性平均占68%,女性為32%,男性平均年齡為61歲,女性為64歲;健康體檢者中,男性平均占63%,女性為37%,男性平均年齡為42歲,女性為40歲。
目前,惡性腫瘤的治療仍以傳統(tǒng)治療方法為主,在對(duì)大量的惡性腫瘤患者進(jìn)行規(guī)范化治療的基礎(chǔ)上,利用大數(shù)據(jù)對(duì)惡性腫瘤患者的臨床數(shù)據(jù)進(jìn)行高通量分析,可以為個(gè)體化治療方案的制訂提供重要的信息。這些新方法的提出為不同階段惡性腫瘤的治療提供了新的思路。研究發(fā)現(xiàn),早期惡性腫瘤治療的關(guān)鍵在于患者的個(gè)體因素,作為一種慢性疾病,從變異的腫瘤細(xì)胞發(fā)展至惡性腫瘤晚期一般需要幾年的時(shí)間。
本研究采用的是常規(guī)健康體檢中涵蓋的基本數(shù)據(jù),包括年齡,性別,身高,體重,血常規(guī),血生化和尿常規(guī),共計(jì)48項(xiàng),部分指標(biāo)見表1。
表1 預(yù)測(cè)胃癌風(fēng)險(xiǎn)的部分指標(biāo)
本研究采用的預(yù)測(cè)技術(shù)為邏輯回歸分析(Logistic Regression Analysis),邏輯回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險(xiǎn)因素的篩選,但它同時(shí)具有良好的判別和預(yù)測(cè)功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時(shí),更顯示出Logistic回歸判別的優(yōu)勢(shì)和效能。
其中y為因變量,X為自變量,p為概率,α為截距(常數(shù)),β為回歸系數(shù),Exp為指數(shù)函數(shù)。
本研究采用的風(fēng)險(xiǎn)評(píng)估技術(shù)為,凈提升效益算式(NetLiftAlgorithm)。
其中Pt為測(cè)試組癌癥患者的百分率,Pc為對(duì)照組癌癥患者的百分率。
本研究中統(tǒng)計(jì)分析和預(yù)測(cè)的顯著性檢驗(yàn)標(biāo)準(zhǔn)為p<0.05。統(tǒng)計(jì)分析預(yù)測(cè)使用的統(tǒng)計(jì)軟件為Python。
本研究的預(yù)測(cè)模型是基于2010年到2013年共4年的數(shù)據(jù)上搭建完成的,建成的預(yù)測(cè)系統(tǒng)中的7個(gè)預(yù)測(cè)模型將逐一經(jīng)過(guò)2014年1到7月,9931名癌癥患者和110077名健康體檢者的獨(dú)立的數(shù)據(jù)驗(yàn)證。
本研究經(jīng)過(guò)對(duì)2010-2013年30286名癌癥患者和336100健康體檢者48項(xiàng)指標(biāo)的相關(guān)分析和顯著性檢驗(yàn)后,采用具有顯著性,能夠區(qū)分癌癥患者和健康者的常規(guī)血尿指標(biāo)建立了7種單一的癌癥風(fēng)險(xiǎn)預(yù)測(cè)模型(肺癌,肝癌,胃癌,直腸癌,食管癌,乳腺癌和宮頸癌,見圖1),7種癌癥預(yù)測(cè)模型的準(zhǔn)確率都超過(guò)了95%,平均為95.8%。預(yù)測(cè)模型可為用戶預(yù)測(cè)出7個(gè)數(shù)值在1-100之間的標(biāo)準(zhǔn)分值,通過(guò)與癌癥患者的已有血尿指標(biāo)進(jìn)行對(duì)比,動(dòng)態(tài)分析預(yù)測(cè)結(jié)果,評(píng)估用戶的癌癥風(fēng)險(xiǎn)。
圖1 血常規(guī)、血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險(xiǎn)預(yù)測(cè)報(bào)告
由于各種癌癥自身的特點(diǎn),不同癌癥在常規(guī)血尿指標(biāo)中的體現(xiàn)也不同,所以不同的常規(guī)血尿指標(biāo)在預(yù)測(cè)不同癌癥中的作用也不同。
癌癥的發(fā)生和發(fā)展是一個(gè)從量變到質(zhì)變的過(guò)程(如圖2所示),癌細(xì)胞的變化其實(shí)都會(huì)在人體的血尿指標(biāo)上反映出來(lái)。由于90%的早期癌癥是沒(méi)有明顯癥狀的,癌癥患者在早期不會(huì)出現(xiàn)明顯癥狀或根本無(wú)任何癥狀,只有當(dāng)癌細(xì)胞發(fā)展到一定程度,人體才會(huì)出現(xiàn)一系列癥狀,所以80%的人一旦發(fā)現(xiàn)癌癥時(shí)已經(jīng)是中期或晚期。
圖2 癌細(xì)胞的生長(zhǎng)過(guò)程
本研究的結(jié)果,癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)具有3大特點(diǎn),第一,可以精準(zhǔn)鎖定高風(fēng)險(xiǎn)人群,預(yù)測(cè)準(zhǔn)確率超過(guò)95%;第二,預(yù)測(cè)方法簡(jiǎn)便,基于已有血尿數(shù)據(jù),無(wú)需進(jìn)一步取樣;第三,預(yù)測(cè)費(fèi)用低,不到市場(chǎng)價(jià)格的10%。
通過(guò)大數(shù)據(jù)分析建立的癌癥風(fēng)險(xiǎn)評(píng)估模型可以有效的利用正常健康體檢中的血常規(guī),血生化和尿常規(guī)的數(shù)據(jù),用于多種癌癥的風(fēng)險(xiǎn)預(yù)測(cè),而且預(yù)測(cè)和驗(yàn)證的準(zhǔn)確率均超過(guò)95%,這將為癌癥的防治提供一種便捷的、經(jīng)濟(jì)的、有效的新手段,將在癌癥的早防早治方面發(fā)揮積極的作用。