劉怡文,楊 洪,張 灝,周福有,楊海軍,孔金玉,孫 蔚,原 翔,高社干
食管癌的發(fā)病率及死亡率極高,全世界每年新發(fā)的食管癌患者數(shù)量約50萬例[1],一半以上發(fā)生在我國。鱗狀細(xì)胞癌(esophageal squamous cell carcinoma,ESCC)是食管癌中最常見的組織學(xué)類型,約占食管癌總數(shù)的95%以上。ESCC預(yù)后較差,雖然傳統(tǒng)的手術(shù)、放化療以及靶向治療、免疫治療等手段在ESCC綜合治療中不斷更新應(yīng)用,但中晚期患者5 a生存率仍低于20%[2]。半個(gè)世紀(jì)以來,眾多從事ESCC防治的工作者銳意創(chuàng)新,在ESCC的流行病學(xué)、早期診斷、綜合治療及預(yù)防等方面取得了舉世矚目的成績[3-5],但是ESCC的防治工作異常艱難,總體還未達(dá)到令人滿意的程度。本研究針對ESCC患者的臨床信息,采用BP(Back-Propagation)神經(jīng)網(wǎng)絡(luò)建立了患者的預(yù)后預(yù)測模型,為ESCC的臨床治療提供一種輔助手段?,F(xiàn)報(bào)道如下。
1.1 一般資料
選擇2011年1月至2014年12月安陽市腫瘤醫(yī)院1 091例ESCC患者的臨床病理資料及預(yù)后隨訪信息為研究對象。納入標(biāo)準(zhǔn):①術(shù)后病理診斷明確為ESCC;②患者術(shù)前均未接受放射治療、化學(xué)治療和免疫治療;③治療性ESCC切除術(shù)后;④病例資料信息全面;⑤術(shù)后隨訪時(shí)間為60個(gè)月(5 a),生存時(shí)間為入院時(shí)間至最后一次隨訪日期或死亡,刪失數(shù)據(jù)為隨訪至60個(gè)月仍存活的患者,未刪失數(shù)據(jù)為由ESCC導(dǎo)致的死亡患者。排除標(biāo)準(zhǔn):①術(shù)后病理診斷非ESCC;②患者術(shù)前接受過放射治療、化學(xué)治療或免疫治療;③病例資料不完整。本研究經(jīng)安陽市腫瘤醫(yī)院倫理委員會(huì)審核批準(zhǔn),并獲得患者書面知情同意入組參與研究。
1.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)也叫反向傳播神經(jīng)網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)的一種典型形式,在實(shí)際應(yīng)用中非常廣泛,并且能夠達(dá)到較好的應(yīng)用效果。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)是從輸入信息到輸出信息具有前向多層網(wǎng)絡(luò),其中輸入信息聯(lián)接的是輸入層,輸出信息聯(lián)接的是輸出層,中間的網(wǎng)絡(luò)層叫隱含層。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中包含輸入信息的前向傳播以及輸出與輸入信息之間誤差的反向傳播兩個(gè)過程。前向傳播時(shí),輸入信息通過輸入層進(jìn)入網(wǎng)絡(luò),經(jīng)過隱含層的處理后到達(dá)輸出層,輸出層傳遞了輸出信息。當(dāng)輸出信息與輸入信息進(jìn)行比較時(shí),會(huì)發(fā)現(xiàn)存在一定的誤差,為了消除該誤差,使輸出信息與輸入信息保持一致,則需要轉(zhuǎn)向誤差反向傳播階段。誤差反向傳播時(shí)是將誤差信息通過隱含層從輸出一側(cè)逐層傳遞到輸入一側(cè),在這一過程中不斷修改隱含層各個(gè)單元的權(quán)值屬性,從而減小誤差。這一學(xué)習(xí)過程不斷在網(wǎng)絡(luò)中發(fā)生,最終達(dá)到誤差信息在允許閾值之內(nèi),輸出信息與輸入信息接近,或者學(xué)習(xí)過程的次數(shù)達(dá)到設(shè)定的上限。
1.2.1 神經(jīng)元模型
從生物學(xué)角度出發(fā),神經(jīng)元細(xì)胞的結(jié)構(gòu)包括樹突、突觸、細(xì)胞體和軸突。樹突是一個(gè)神經(jīng)元細(xì)胞的輸入通道,通過各個(gè)樹突的分支與其他神經(jīng)元細(xì)胞的相連,能夠接收其他神經(jīng)元細(xì)胞傳遞的電信號,在接收到電信號之后傳導(dǎo)給細(xì)胞體。細(xì)胞體是處理電信號的關(guān)鍵,能夠通過其他神經(jīng)元傳遞的信號量大小以及突觸的抑制或者加強(qiáng)來判斷是否激活。當(dāng)神經(jīng)細(xì)胞判定為激活時(shí)則會(huì)產(chǎn)生電信號,沿著軸突通道到達(dá)突觸,從而傳遞給其他神經(jīng)元。神經(jīng)元模型就是為了模擬上述過程,典型的神經(jīng)元模型見圖1。
圖1 神經(jīng)元拓?fù)浣Y(jié)構(gòu)
對于第i個(gè)神經(jīng)元,x1,x2,…,xj是神經(jīng)元的輸入信息,輸入信息一般是系統(tǒng)的狀態(tài)量,能夠描述系統(tǒng)的具體情況,w1,w2,…,wj是各輸入信息到神經(jīng)元控制器通道的權(quán)重,權(quán)重能夠隨著系統(tǒng)狀態(tài)的改變而進(jìn)行調(diào)節(jié)。各輸入信號到神經(jīng)元控制器的組合方式有多種,一般神經(jīng)網(wǎng)絡(luò)算法中選取線性疊加的方式,即取各輸入信號的加權(quán)求和,可得Netin神經(jīng)元凈輸入:
(1)
θi是神經(jīng)元控制器能否產(chǎn)生輸出信號的閾值,表示只有當(dāng)神經(jīng)元的凈輸入Netin大于θi時(shí),神經(jīng)元的輸出信號才會(huì)激活。除了比較Netin與θi,還需要通過激活函數(shù)最終產(chǎn)生輸出信號。
1.2.2 激活函數(shù)
常用的激活函數(shù)有:
(1)線性函數(shù)
f(x)=k·x+c
(2)
(2)斜坡函數(shù)
(3)
(3)閾值函數(shù)
(4)
(4)S型函數(shù),即Sigmoid函數(shù)
(5)
(6)
(5)雙極S型函數(shù)
(7)
(8)
S型函數(shù)和雙極S型函數(shù)示意圖見圖2。
圖2 S型函數(shù)和雙極S型函數(shù)示意圖
神經(jīng)網(wǎng)絡(luò)算法中一般采用S型函數(shù),從圖2中可以發(fā)現(xiàn),S型函數(shù)的自變量范圍是正負(fù)無窮大,函數(shù)值的范圍是0到1。對于S型函數(shù),可以得到輸出信號的表達(dá)式為:
yi=f(Netin-θi)
(9)
1.2.3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文采用簡單的三層神經(jīng)網(wǎng)絡(luò),如圖3所示。其中,最下面的是輸入層,中間包含一層的隱藏層,最上面是輸出層。輸入層的輸入信息用x1,x2,...,xd表示,代表輸入層有d個(gè)神經(jīng)元,隱含層的信息用b1,b2,...,bq表示,代表隱藏層包含q個(gè)神經(jīng)元,輸出層信息用y1,y2,...,yl,代表輸出層有l(wèi)個(gè)神經(jīng)元。從輸入層到輸出層之間的連接用vih表示,從隱藏層到輸出層之間的連接用whj表示。隱藏層神經(jīng)元閾值用γh表示,輸出層神經(jīng)元閾值用θj表示。
圖3 BP神經(jīng)網(wǎng)絡(luò)模型
其中,βj中的bh=f(αh-θh)。隱藏層和輸出層的激活函數(shù)都采用S型函數(shù)。
那么這次預(yù)測結(jié)果的誤差可以用最小二乘法表示為:
(10)
(11)
權(quán)值修正步驟如下:
首先輸出層到隱藏層:
(12)
經(jīng)過隱藏層的激活函數(shù):
bh=f(αh-θh)
(13)
隱藏層到輸出層:
(14)
經(jīng)過輸出層的激活函數(shù):
(15)
誤差:
(16)
形體訓(xùn)練課以壓腿、踢腿、開肩等基本的身體訓(xùn)練為基礎(chǔ),培養(yǎng)良好的站姿、走姿、坐姿及蹲姿,以提高學(xué)生形體外在表現(xiàn)力,長期堅(jiān)持,有利于學(xué)生養(yǎng)成正確的身體姿勢,塑造健美的形態(tài),使學(xué)生獲得服務(wù)旅游業(yè)的身體素質(zhì)。人際交往禮儀知識可以讓學(xué)生了解與客人相處之道,同時(shí),形體訓(xùn)練課創(chuàng)造自由的主客情景,讓學(xué)生角色扮演,學(xué)會(huì)與客人交流溝通,培養(yǎng)其主動(dòng)積極、善解人意的待客意識。理論與實(shí)踐的結(jié)合,能有效地提高學(xué)生的服務(wù)心理素質(zhì)。
(17)
(18)
由于Sigmod函數(shù)的性質(zhì)如下:
(19)
f′(x)=f(x)(1-f(x))
(20)
所以可以得到:
f′(βj-θj)=f(βj-θj)(1-f(βj-θj))
(21)
綜上所述:
(22)
同理,可得:
(23)
對于Δvih:
Δvih=-ηehxi
(24)
Δγh=ηeh
(25)
其中:
(26)
之后設(shè)定一個(gè)迭代終止條件,可以是誤差小于一定值或者達(dá)到設(shè)定的迭代次數(shù)。通過上述設(shè)計(jì)流程,可以得到性能較好的BP神經(jīng)網(wǎng)絡(luò)模型。
2.1 食管鱗癌患者臨床病理資料一般特征
共納入ESCC患者1 091例,詳細(xì)信息見表1。
表1 ESCC患者臨床病理資料一般特征 例(%)
2.2 ESCC患者預(yù)后預(yù)測模型
將BP神經(jīng)網(wǎng)絡(luò)的理論應(yīng)用到數(shù)據(jù)分析上,將ESCC患者生存期樣本信息進(jìn)行分析,將ESCC患者的各類指標(biāo)當(dāng)作輸入變量,生存期作為輸出變量。采用神經(jīng)網(wǎng)絡(luò)的方法獲取生存期的預(yù)測模型,為臨床治療提供一定的參考依據(jù)。
由于ESCC患者的生存樣本信息中各類指標(biāo)的單位不一樣,例如年齡信息,吸煙、飲酒的時(shí)間信息,浸潤范圍信息,臨床分期以及各類檢查信息等。這樣的指標(biāo)信息范圍變化太大,給BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來嚴(yán)重的挑戰(zhàn),降低了BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率。大范圍的指標(biāo)信息相比于小范圍的指標(biāo)信息會(huì)對BP神經(jīng)網(wǎng)絡(luò)產(chǎn)生更大的影響,但是指標(biāo)信息范圍的大小不代表對ESCC患者生存期影響的大小,直接采用原始指標(biāo)信息會(huì)導(dǎo)致BP神經(jīng)網(wǎng)絡(luò)與實(shí)際生存期不符。由于S型激活函數(shù)自身的特點(diǎn),函數(shù)值限制在(0,1),即輸出層的信息也在(0,1)。因此,在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前需要對指標(biāo)信息進(jìn)行歸一化處理。
歸一化的算法:
(27)
一般在BP神經(jīng)網(wǎng)絡(luò)算法中,將學(xué)習(xí)的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。通過訓(xùn)練集來獲取性能較好的BP神經(jīng)網(wǎng)絡(luò),然后用驗(yàn)證集對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)和復(fù)雜程度的檢驗(yàn),最后通過測試集來驗(yàn)證BP神經(jīng)網(wǎng)絡(luò)的性能是否滿足要求。此次訓(xùn)練過程選取ESCC患者信息完善的樣本數(shù)1 000例,隨機(jī)選取出訓(xùn)練集、驗(yàn)證集和測試集。通過訓(xùn)練,獲得了預(yù)測結(jié)果較好的BP神經(jīng)網(wǎng)絡(luò),結(jié)果見圖4。
圖4 生存期預(yù)測結(jié)果對比(R2=0.96632)
ESCC發(fā)病率和死亡率高,早期診斷困難,預(yù)后極差。因此,建立合理的預(yù)后預(yù)測模型,尋找有效的預(yù)防措施,尤為重要。
人工智能概念誕生于上世紀(jì)50年代,由美國學(xué)者在達(dá)特茅斯會(huì)議上形成[6]。之后,人工智能擴(kuò)展到了更加廣泛的學(xué)術(shù)領(lǐng)域中[7-8],包括規(guī)劃和決策、專家系統(tǒng)、多智能體系統(tǒng)、模糊邏輯和粗糙集、機(jī)器學(xué)習(xí)、知識表達(dá)、推薦系統(tǒng)、機(jī)器人和感知等方面[9-13]。在過去的10 a中,隨著數(shù)據(jù)集的不斷豐富、計(jì)算機(jī)能力的飛速提升,以及云計(jì)算、軟件功能的拓展,人工智能取得了重大的突破,基于人工智能的應(yīng)用也越來越廣泛,作為人工智能其中一個(gè)方向的神經(jīng)網(wǎng)絡(luò)也有著重大的進(jìn)展[14-16]。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一種形式,能夠?qū)⒋罅康臄?shù)據(jù)信息作為訓(xùn)練樣本,由神經(jīng)網(wǎng)絡(luò)使用數(shù)據(jù)信息自動(dòng)地推斷出其中的規(guī)則,以此來形成人工智能模型。
隨著基礎(chǔ)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)的性能和實(shí)用價(jià)值不斷提高,在醫(yī)學(xué)領(lǐng)域的應(yīng)用不斷地豐富[17-21]。從30 a前最初在心臟疾病治療中應(yīng)用[22-23],到過去10 a里基于神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像識別技術(shù)的飛速發(fā)展[24-25],神經(jīng)網(wǎng)絡(luò)正在更加精確地輔助醫(yī)生的治療。神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于流行疾病的預(yù)測,通過收集和分析流行疾病中的大數(shù)據(jù),形成人群之間流行疾病的發(fā)展趨勢模型,有助于衛(wèi)生系統(tǒng)盡早地預(yù)測出流行疾病的感染峰值時(shí)間和流行趨勢,為衛(wèi)生系統(tǒng)政策的制訂提供更好的幫助[26]。神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于疾病的診斷,中山大學(xué)與西安電子科技大學(xué)的研究小組合作,開發(fā)了一種能診斷先天性白內(nèi)障的人工智能程序CC-Cruiser,利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,預(yù)測疾病的嚴(yán)重程度,并提出治療決策建議[27]。
基于ESCC患者結(jié)構(gòu)化病歷的數(shù)據(jù),采用BP神經(jīng)網(wǎng)絡(luò)建立了患者預(yù)后的預(yù)測模型。通過測試集驗(yàn)證了該BP神經(jīng)網(wǎng)絡(luò)具有較高的準(zhǔn)確度。未來通過進(jìn)一步完善,可以輔助ESCC的臨床治療。通過BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型可以對患者的預(yù)后進(jìn)行評估,可以在臨床治療時(shí)進(jìn)行提前干預(yù),進(jìn)一步提高患者的生存期。
在研究過程中,遇到的實(shí)際問題有3個(gè):①BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)需要較為明確的數(shù)據(jù)輸入,但是ESCC患者的病理信息存在著模糊的情況,例如患者的臨床分期或者浸潤深度,不同的醫(yī)生按照自身的經(jīng)驗(yàn)會(huì)有不同的判斷,尤其是在病理信息兩個(gè)相鄰階段之間的判斷會(huì)存在較大的差異,這樣會(huì)對模型的結(jié)果帶來很大的影響。②用于學(xué)習(xí)的樣本數(shù)據(jù)較少,且病理信息的統(tǒng)計(jì)存在結(jié)構(gòu)上的差異,需要花費(fèi)大量的時(shí)間對病理信息進(jìn)行整理和標(biāo)準(zhǔn)化處理,以滿足BP神經(jīng)網(wǎng)絡(luò)批量學(xué)習(xí)的要求。③建立的BP神經(jīng)網(wǎng)絡(luò)僅僅是從數(shù)據(jù)的角度對ESCC患者的預(yù)后進(jìn)行了預(yù)測,但是其中的因果性難以很好地解釋,這就限制了BP神經(jīng)網(wǎng)絡(luò)的在醫(yī)學(xué)領(lǐng)域的應(yīng)用。
之后的研究可以從上述3個(gè)問題出發(fā):①在現(xiàn)有電子病歷的基礎(chǔ)上,建立一個(gè)標(biāo)準(zhǔn)化的數(shù)據(jù)庫,按照標(biāo)準(zhǔn)化的結(jié)構(gòu)錄入患者的臨床信息;②與臨床醫(yī)生進(jìn)行深入的溝通交流,在臨床醫(yī)生使用該預(yù)測模型后,通過搜集反饋信息來不斷修正預(yù)測模型;③通過采集與ESCC發(fā)生、發(fā)展密切相關(guān)的腫瘤標(biāo)志物的信息,加入到預(yù)測模型的輸入信息中,以此來提高預(yù)測模型的臨床應(yīng)用價(jià)值。