桑祎瑩,黃仕鑫,易靜,曾慶,羅亞玲
糖尿病性周圍神經(jīng)病變(diabetic peripheral neuropathy,DPN)是臨床常見的糖尿病并發(fā)癥之一,患病率達(dá)50%~80%,嚴(yán)重影響患者的生活質(zhì)量[1-3]。其發(fā)病機(jī)制目前尚未完全明了,主要認(rèn)為與代謝機(jī)制異常、微血管病變、神經(jīng)生長因子缺乏、免疫缺陷等有關(guān)[1]。如何早期、準(zhǔn)確地診斷DPN仍是該領(lǐng)域中的熱點(diǎn)難點(diǎn)之一[4-6]。近些年數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域,在疾病診斷、預(yù)后判斷、風(fēng)險(xiǎn)評估等方面具有良好的應(yīng)用價(jià)值[7-9]。與適合處理小樣本數(shù)據(jù)的決策樹和貝葉斯網(wǎng)絡(luò)及對數(shù)據(jù)樣本有各種假設(shè)條件的傳統(tǒng)統(tǒng)計(jì)方法相比,隨機(jī)森林(RF)和誤差反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)可以高效地處理大規(guī)模復(fù)雜無規(guī)律的醫(yī)學(xué)數(shù)據(jù)。隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)是分類領(lǐng)域中的兩種重要方法,本研究旨在通過建立隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)在DPN中的個(gè)體風(fēng)險(xiǎn)分類模型,為診斷DPN提供一種有價(jià)值的計(jì)算機(jī)輔助方法。
1.1 一般資料
1.1.1 資料來源 選擇2016年1-12月重慶醫(yī)科大學(xué)附屬第二醫(yī)院內(nèi)分泌科確診為DPN的全部患者(n=2199)以及采用簡單隨機(jī)抽樣抽取的非DPN的體檢對象(n=2610)。資料不包括所有對象的個(gè)人基本信息,只分析了所有對象的臨床檢驗(yàn)指標(biāo)。
1.1.2 入選標(biāo)準(zhǔn)及排除標(biāo)準(zhǔn) 病例組入選標(biāo)準(zhǔn):①2型糖尿病患者;②診斷糖尿病時(shí)或診斷后出現(xiàn)神經(jīng)病變;③符合糖尿病性周圍神經(jīng)病診斷標(biāo)準(zhǔn);④有臨床癥狀(疼痛、麻木、感覺異常等)者,5項(xiàng)檢查(踝反射、針刺痛覺、振動(dòng)覺、壓力覺、溫度覺)中任一項(xiàng)異常;無臨床癥狀者,5項(xiàng)檢查中任2項(xiàng)異常[10]。對照組入選標(biāo)準(zhǔn):①無糖尿病病史;②無神經(jīng)疾病病史;③神經(jīng)系統(tǒng)檢查無陽性體征;④本次體檢中未發(fā)現(xiàn)有高血糖、高血壓、高血脂。采用簡單隨機(jī)抽樣抽取符合以上4個(gè)入選標(biāo)準(zhǔn)的體檢對象作為對照組,它與DPN組有良好的區(qū)分。排除標(biāo)準(zhǔn):其他病因引起的神經(jīng)病變,如頸腰椎病變;藥物引起的神經(jīng)毒性作用;腎功能不全產(chǎn)生的代謝毒物對神經(jīng)的損傷[10]。
1.2 研究方法
1.2.1 數(shù)據(jù)預(yù)處理 本研究涉及的86個(gè)指標(biāo)均來自4809例觀察對象的臨床檢驗(yàn)指標(biāo),包括血糖指標(biāo)、血脂指標(biāo)、肝功能指標(biāo)、腎功能指標(biāo)、凝血功能指標(biāo)、炎癥指標(biāo)、酸堿平衡度等。因在當(dāng)前環(huán)境下已失去可利用價(jià)值[11],缺失率>40%的臨床檢驗(yàn)指標(biāo)未納入本研究。這些指標(biāo)包括:天冬氨酸轉(zhuǎn)氨酶/丙氨酸轉(zhuǎn)氨酶(AST/ALT)、肌酸激酶同工酶(CKMB)、谷氨酸脫羧酶抗體、胰島素自身抗體、內(nèi)生肌酐清除率、胰島素、C-肽、尿微量白蛋白/尿肌酐、C反應(yīng)蛋白、前白蛋白、血清游離T3、血清游離T4、血清促甲狀腺激素、游離脂肪酸、細(xì)菌、脂蛋白a、白細(xì)胞、管型計(jì)數(shù)、尿結(jié)晶檢查、上皮細(xì)胞計(jì)數(shù)、小圓上皮細(xì)胞、黏液絲、總膽汁酸、淀粉酶、膽堿酯酶、5'-核苷酸酶、大血小板比率、乳酸、陰離子間隙、梅毒螺旋體抗體測定、淋球菌涂片檢查、幽門螺桿菌、HIV抗體篩查試驗(yàn)、丙肝病毒抗體共計(jì)34個(gè)。對于缺失率<40%的52個(gè)檢驗(yàn)指標(biāo)全部納入模型,并采用k-Means的方法進(jìn)行缺失值填補(bǔ)。對于個(gè)別檢驗(yàn)指標(biāo)的測量值出現(xiàn)與其平均值的偏差超過兩倍標(biāo)準(zhǔn)差的異常情況,則刪除該異常值。本研究刪除了樣本中6例異常值,其中總樣本為4809例,占總樣本的0.12%,因此并不影響整體數(shù)據(jù)的分布。預(yù)處理后的數(shù)據(jù)不僅可以保持原始數(shù)據(jù)的完整性,而且可以提高數(shù)據(jù)挖掘的質(zhì)量,降低數(shù)據(jù)挖掘所需要的時(shí)間。
1.2.2 觀察指標(biāo) 兩組對象的觀察指標(biāo)包括超敏C反應(yīng)蛋白、糖化血紅蛋白、白細(xì)胞計(jì)數(shù)、尿比重、紅細(xì)胞計(jì)數(shù)、pH、低密度脂蛋白、甘油三酯、高密度脂蛋白、總膽固醇、葡萄糖、部分凝血活酶時(shí)間、凝血酶時(shí)間、凝血酶原時(shí)間、間接膽紅素、直接膽紅素、總膽紅素、γ谷氨酰轉(zhuǎn)肽酶、白蛋白、丙氨酸氨基轉(zhuǎn)移酶、堿性磷酸酶、總蛋白、天門冬氨酸、尿素、尿酸、單核細(xì)胞百分比、單核細(xì)胞計(jì)數(shù)、血細(xì)胞比容、紅細(xì)胞分布寬度、紅細(xì)胞分布寬度標(biāo)準(zhǔn)差、淋巴細(xì)胞百分比、淋巴細(xì)胞計(jì)數(shù)、平均紅細(xì)胞體積、平均血紅蛋白含量、平均血紅蛋白濃度、嗜堿粒細(xì)胞百分比、嗜堿粒細(xì)胞計(jì)數(shù)、嗜酸粒細(xì)胞百分比、嗜酸粒細(xì)胞計(jì)數(shù)、血紅蛋白測定、血小板壓積、血小板分布寬度、平均血小板體積、血小板計(jì)數(shù)、中性粒細(xì)胞百分比、中性粒細(xì)胞計(jì)數(shù)、二氧化碳結(jié)合率、鈣、鉀、氯、鈉、肌酐等共計(jì)52項(xiàng)。
1.2.3 隨機(jī)森林與BP神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建 采用R軟件來實(shí)現(xiàn),分別采用約登指數(shù)和ROC曲線下面積來評價(jià)模型的真實(shí)性和判別分析效果。通過比較兩種診斷模型的評價(jià)指標(biāo),選擇最優(yōu)分類模型。
1.2.4 隨機(jī)森林 隨機(jī)森林是一種包含多個(gè)決策樹的分類器,它通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本N中有放回地重復(fù)隨機(jī)抽取k(k<N)個(gè)樣本生成新的訓(xùn)練集樣本集合,然后根據(jù)自助樣本集生成k個(gè)決策樹組成的隨機(jī)森林[12],采用多數(shù)投票法對測試樣本進(jìn)行決策分類。這些隨機(jī)決策樹相互間獨(dú)立,且在樹的生長過程中和訓(xùn)練樣本的選擇上均引用隨機(jī)的方法以降低樹結(jié)構(gòu)分類器較高的方差[13]。
1.2.5 BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)模型是多層前饋神經(jīng)網(wǎng)絡(luò),該模型由輸入層、輸出層、隱含層組成。BP網(wǎng)絡(luò)的學(xué)習(xí)過程包括正向傳播過程(the forward phase)和反向傳播過程(the backward phase)兩部分。當(dāng)給定網(wǎng)絡(luò)一個(gè)輸入模式X時(shí),它在相應(yīng)的權(quán)值、閾值和激活函數(shù)的作用下傳遞到輸出層,產(chǎn)生一個(gè)輸出模式O,稱為正向傳播,如果輸出響應(yīng)與期望輸出模式有誤差,不滿足要求,則將誤差反向傳播。在誤差返回過程中,網(wǎng)絡(luò)修正各層的權(quán)值和閾值,直到誤差信號(hào)最小,稱為反向傳播。即當(dāng)傳遞信號(hào)的誤差達(dá)到允許精度時(shí)規(guī)定網(wǎng)絡(luò)訓(xùn)練完成[14-15]。
1.2.6 模型的參數(shù)評價(jià) 選用約登指數(shù)和曲線下面積來評價(jià)模型的真實(shí)性和判別分析效果。約登指數(shù)表示模型發(fā)現(xiàn)真正患者與非患者的總能力,取值范圍為(–1,+1)之間,其值越接近于+1,其真實(shí)性越高,計(jì)算公式=靈敏度+特異度–1;ROC曲線下面積用于二分類判別模型的分析與評價(jià),取值范圍為(0.5,1),曲線下面積越接近于1,其診斷價(jià)值越高。
2.1 隨機(jī)森林模型 有放回地重復(fù)隨機(jī)抽取全部樣本的70%作為訓(xùn)練樣本,并利用訓(xùn)練樣本生成對應(yīng)的隨機(jī)森林模型。隨機(jī)森林分類器需要設(shè)置兩個(gè)重要參數(shù):樹節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù)(mtry)、隨機(jī)森林中樹的個(gè)數(shù)(ntree)。對于樹節(jié)點(diǎn)預(yù)選的最優(yōu)變量個(gè)數(shù),采用逐一增加變量的方法從52個(gè)臨床觀察指標(biāo)變量中挑選出模型誤判率最低的決策樹節(jié)點(diǎn)變量個(gè)數(shù)。對于隨機(jī)森林中決策樹的個(gè)數(shù),當(dāng)決策樹數(shù)量>400后,模型誤差趨于穩(wěn)定。因此,本研究構(gòu)建了決策樹節(jié)點(diǎn)處變量個(gè)數(shù)為9,決策樹數(shù)量為400的隨機(jī)森林模型。測試判別:利用訓(xùn)練樣本生成的隨機(jī)森林模型對測試樣本采用投票的方式,得到?jīng)Q策樹中輸出最多的類別作為測試樣本所屬類別,即判定了是否患有DPN。
2.2 隨機(jī)森林模型結(jié)果 使用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練模型,測試樣本數(shù)據(jù)評估模型的預(yù)測分類能力。其中,訓(xùn)練樣本3368例,測試樣本1441例,對數(shù)據(jù)分類的正確率分別達(dá)到100.00%、99.93%,模型的診斷參數(shù)約登指數(shù)分別為100.00%、99.85%,ROC曲線下面積分別為1.0000、0.9994。說明所構(gòu)建的隨機(jī)森林模型效果很好(表1)。
表1 隨機(jī)森林模型分析結(jié)果及參數(shù)評價(jià)Tab.1 Random forest analysis and parameter evaluation
2.3 BP神經(jīng)網(wǎng)絡(luò)模型
2.3.1 數(shù)據(jù)歸一化 將樣本值歸一到[–1,1]之間,目的是提高網(wǎng)絡(luò)訓(xùn)練速度,本文使用標(biāo)準(zhǔn)化方法如下:Xk=(Xk-Xmean)/Xvar,Xmean為數(shù)據(jù)序列的均值,Xvar為數(shù)據(jù)的方差。
2.3.2 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的確定 該網(wǎng)絡(luò)包括輸入層、2個(gè)隱含層和輸出層,其中輸入層包含52個(gè)節(jié)點(diǎn),2個(gè)隱含層各包含26個(gè)節(jié)點(diǎn),輸出層節(jié)點(diǎn)數(shù)為1。BP神經(jīng)網(wǎng)絡(luò)采用Sigmoid函數(shù)作為激活函數(shù),并且采用梯度下降法調(diào)整網(wǎng)絡(luò)權(quán)值。對于分類問題,輸出節(jié)點(diǎn)給出的是預(yù)測類別的概率值。
2.3.3 測試判別 有放回地重復(fù)隨機(jī)抽取全部樣本的70%作為訓(xùn)練樣本,利用訓(xùn)練樣本生成BP神經(jīng)網(wǎng)絡(luò)模型,如果輸出概率值≤0.5,為未患DPN,輸出概率值>0.5,為患有DPN。
2.4 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)果 訓(xùn)練樣本3368例,測試樣本1441例,對數(shù)據(jù)分類的正確率分別達(dá)到100.00%、99.58%,模型的診斷參數(shù)約登指數(shù)分別為100.00%、99.14%,ROC曲線下面積分別為1.0000、0.9959。說明所構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型效果很好(表2)。
表2 BP神經(jīng)網(wǎng)絡(luò)模型分析結(jié)果及參數(shù)評價(jià)Tab.2 BP neural network analysis and parameter evaluation
為揭示各種錯(cuò)綜復(fù)雜的生命現(xiàn)象發(fā)生發(fā)展的規(guī)律,當(dāng)前的臨床醫(yī)學(xué)與預(yù)防醫(yī)學(xué)開展了大量研究并取得了豐富的數(shù)據(jù)[8]。如何應(yīng)用這些數(shù)據(jù)建立合理的數(shù)學(xué)模型并對疾病進(jìn)行準(zhǔn)確地判別分類,為臨床診斷提供一定幫助,成為目前醫(yī)學(xué)工作者的重要工作之一。
與傳統(tǒng)的統(tǒng)計(jì)方法對數(shù)據(jù)分布和類型的要求相比,BP神經(jīng)網(wǎng)絡(luò)不需要考慮自變量是否滿足正態(tài)性及變量間獨(dú)立等條件,同時(shí)BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力,能應(yīng)對復(fù)雜的大規(guī)模數(shù)據(jù)及無先驗(yàn)知識(shí)的資料[15],因此解決了本研究中DPN早期各項(xiàng)實(shí)驗(yàn)室指標(biāo)與診斷結(jié)果之間的非線性關(guān)系。其中訓(xùn)練樣本的正確率為100%,測試樣本的正確率為99.58%,ROC曲線下面積分別為1.0000和0.9959,判別分類效果很好。但BP神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中存在一些局限性和不足:①構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型時(shí),拓?fù)浣Y(jié)構(gòu)的確定,如果隱含層神經(jīng)元數(shù)目過少,建立的模型過于簡單,對于數(shù)據(jù)的內(nèi)在規(guī)律提取不足;如果神經(jīng)元數(shù)目過多,則建立的網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,導(dǎo)致過度擬合[8];②關(guān)于模型具體危險(xiǎn)因素的權(quán)重值,如權(quán)重系數(shù)的假設(shè)檢驗(yàn),計(jì)算權(quán)重系數(shù)的可信區(qū)間,單層神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù)具有一定的醫(yī)學(xué)可解釋性,但對于多層神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù),很難給出其具體意義[14,16];③設(shè)計(jì)多層BP神經(jīng)網(wǎng)絡(luò),由于BP算法本質(zhì)上為梯度下降法,而它所要優(yōu)化的目標(biāo)函數(shù)又非常復(fù)雜,這使得BP算法的學(xué)習(xí)速度很慢;④通過單一方法構(gòu)建的分類器,在準(zhǔn)確率上存在缺陷,精度無法保證正常使用,并且容易出現(xiàn)過度擬合的現(xiàn)象[17]。
隨機(jī)森林作為一種以決策樹為基分類器的集成分類器,不僅訓(xùn)練速度快而且容易實(shí)現(xiàn),模型的穩(wěn)健性較高,可以高效地處理大數(shù)據(jù)集[18-19]。隨機(jī)森林的一個(gè)重要應(yīng)用就是對數(shù)據(jù)進(jìn)行判別分類研究[12]。與BP神經(jīng)網(wǎng)絡(luò)模型相比,其優(yōu)點(diǎn)為:①由于隨機(jī)森林的抽樣特性,各個(gè)決策樹之間相互獨(dú)立,因此隨機(jī)森林不會(huì)受到異常值和噪聲的影響而出現(xiàn)過度擬合的情況[20];②許多研究表明,組合分類器比單一分類器的分類效果要好;③與BP神經(jīng)網(wǎng)絡(luò)設(shè)置多層隱含層時(shí)的權(quán)重系數(shù)是否有真實(shí)意義相比,隨機(jī)森林不僅可以自動(dòng)辨識(shí)最重要的輸入變量,而且還能同時(shí)處理連續(xù)型變量和分類變量。本研究對納入的DPN早期各項(xiàng)實(shí)驗(yàn)室指標(biāo)進(jìn)行分析,在隨機(jī)森林模型自動(dòng)辨識(shí)相關(guān)變量的情況下,避免了單獨(dú)觀察某一個(gè)指標(biāo)的片面性和主觀性。其中訓(xùn)練樣本的正確率為100.00%,測試樣本的正確率為99.93%,ROC曲線下面積分別為1.0000和0.9994,判別分類效果很好。但隨機(jī)森林在實(shí)際應(yīng)用中還存在一些局限性和不足:①隨機(jī)森林模型沒有剪枝過程,對某些數(shù)據(jù)集可能會(huì)形成過度擬合的現(xiàn)象[17];②當(dāng)無差異變量數(shù)量增加時(shí),隨機(jī)森林的判別能力在一定程度上會(huì)減弱[21]。
DPN具有起病緩慢、隱匿性強(qiáng)、癥狀逐漸加重、不易逆轉(zhuǎn)的特點(diǎn),已經(jīng)成為目前尚無法治愈的一種高發(fā)病,其早期診斷具有重要意義[22-23]。因此,本文采用隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)對是否患有DPN進(jìn)行數(shù)據(jù)分類建模,其中,隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)模型測試樣本對數(shù)據(jù)分類的正確率分別為99.93%、99.58%,約登指數(shù)分別為99.85%、99.14%,ROC曲線下面積分別為0.9994、0.9959,95%CI分別為0.9961~1.0000、0.9910~0.9985,兩種分類器在分類效果上差異無統(tǒng)計(jì)學(xué)意義(P=0.08),隨機(jī)森林與BP神經(jīng)網(wǎng)絡(luò)在DPN患病的判別分類中準(zhǔn)確性均很高,說明這兩種模型在DPN個(gè)體風(fēng)險(xiǎn)研究的分類結(jié)果上都有很好的適用性。但是基于BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林方法學(xué)上的特點(diǎn),隨機(jī)森林模型在實(shí)際應(yīng)用中操作更簡便,結(jié)果更容易實(shí)現(xiàn),實(shí)現(xiàn)的分類結(jié)果更能體現(xiàn)出問題的真實(shí)意義。因此隨機(jī)森林模型在判別DPN患病風(fēng)險(xiǎn)研究中具有更高的實(shí)用性。但當(dāng)前研究并未對DPN進(jìn)行細(xì)分,如感覺神經(jīng)病變、運(yùn)動(dòng)神經(jīng)病變等,無法探究DPN各個(gè)類型的特異性。同時(shí)DPN的影響因素繁多,利用智能方法進(jìn)行決策仍存在很大的挑戰(zhàn),因此,下一步將使用更大、更全面的樣本集對本文中的模型進(jìn)行驗(yàn)證和改進(jìn),從而建立更加完善的分類模型。