李金城,劉秀峰
基于神經(jīng)網(wǎng)絡(luò)的大腸癌證型分類器研究
李金城,劉秀峰
(廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣州 510006)
目前中醫(yī)學(xué)上對(duì)大腸癌辨證分型并沒有一個(gè)統(tǒng)一的、客觀的標(biāo)準(zhǔn),隨著大腸癌發(fā)病率的提升,大腸癌證型分類研究愈發(fā)顯得重要。參考《中醫(yī)癥狀鑒別診斷學(xué)》等書以及咨詢專家,對(duì)搜集的文獻(xiàn)數(shù)據(jù)與臨床數(shù)據(jù)進(jìn)行辯證歸類和賦值量化,建立基于神經(jīng)網(wǎng)絡(luò)的大腸癌分類模型,將機(jī)器學(xué)習(xí)與中醫(yī)結(jié)合起來,實(shí)現(xiàn)中醫(yī)信息化、規(guī)范化。
神經(jīng)網(wǎng)絡(luò);大腸癌;分類器
大腸癌是臨床上常見的消化道惡性腫瘤之一,包括結(jié)腸癌、直腸癌和肛管癌[1]。世界衛(wèi)生組織World Cancer Report(2015)公布的資料提出2015年全球結(jié)直腸癌有77.4萬例死亡[2],大腸癌成為嚴(yán)重威脅生命的惡性腫瘤之一。大腸癌治療的主要手段是手術(shù)切除以及輔助放化療,但其毒副作用卻遠(yuǎn)遠(yuǎn)影響患者治療效果及生活質(zhì)量。因此需求一種新的治療途徑就顯得格外迫切。研究顯示,中醫(yī)藥在大腸癌治療各方面顯示出了一定的優(yōu)勢(shì)[3]。中醫(yī)治療的核心是辨證論治,但目前中醫(yī)學(xué)上對(duì)大腸癌辨證分型并沒有一個(gè)統(tǒng)一的、客觀的標(biāo)準(zhǔn)[4],隨著大腸癌發(fā)病率的提升,大腸癌證型分類研究愈發(fā)顯得重要。
1.1 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及隱層設(shè)置
由于任意函數(shù)都可以被一個(gè)有三層單元的前饋網(wǎng)絡(luò)逼近[5],所以本課題選用的BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層及輸出層三層單元組成。輸入層由主成分分析得出的22個(gè)主成分所決定;輸出層由四個(gè)證型指標(biāo)決定。隱層結(jié)點(diǎn)在設(shè)置時(shí)并無統(tǒng)一規(guī)定,孫文恒等[6]在研究胰腺癌診斷中采用一層隱層,為的是減少計(jì)算量和防止過度擬合,通過誤差對(duì)比,綜合考慮后選擇隱含節(jié)點(diǎn)(神經(jīng)元數(shù))為7。故隱層結(jié)點(diǎn)的個(gè)數(shù)先由m=√(n*l)+c(c∈(1,10))確定,然后調(diào)整參數(shù) c,最后通過測試正確率確定隱層結(jié)點(diǎn)的個(gè)數(shù)為15。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1.2 BP神經(jīng)網(wǎng)絡(luò)的輸出方式
將四個(gè)證型的樣本期望輸出值設(shè)為(1,0,0,0),(0,1,0,0),…,(0,0,0,1),隱層與輸出層之間的激活函數(shù)采用的是正切S型傳遞函數(shù)tanh。白云靜等采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行糖尿病腎病中醫(yī)證型研究時(shí),將預(yù)測結(jié)果≥0.6視為診斷成立[7]。對(duì)此我們?cè)谟^察測試集數(shù)據(jù)的輸出值后,通過觀察正確率進(jìn)而不斷調(diào)試區(qū)間,最終確定將預(yù)測結(jié)果≥0.65設(shè)為診斷成立。
將主成分分析后的數(shù)據(jù)導(dǎo)入Python的數(shù)據(jù)框中,將數(shù)據(jù)集分成三部分,進(jìn)行三倍交叉驗(yàn)證,通過不斷調(diào)試步長與迭代次數(shù),使得網(wǎng)絡(luò)的系統(tǒng)誤差達(dá)到最小并且該神經(jīng)網(wǎng)絡(luò)趨于收斂。在步長為0.05,迭代次數(shù)為10000時(shí)網(wǎng)絡(luò)性能達(dá)標(biāo),訓(xùn)練自動(dòng)停止。
測試時(shí)規(guī)定輸出的值與原有的值相等時(shí),(即表示測試的證型與原先的證型相同)計(jì)數(shù)參數(shù)c自增1。最后可計(jì)算出該神經(jīng)網(wǎng)絡(luò)模型的測試正確率為多少。最后得出的結(jié)果如表1所示。
通過表1可知,單證的測試正確率最高可達(dá)86.96%,三次交叉驗(yàn)證的平均測試正確率達(dá)到74.37%。正確率大幅度地提高從一定程度上表明,其他樣本量少且特征值不集中的證型會(huì)對(duì)這些證型的判斷造成一定的干擾。在構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型的過程中,訓(xùn)練樣本集的樣本量盡量達(dá)到10%以上可以保證一定的測試正確率。當(dāng)所占百分比達(dá)到30%左右,該證型的測試正確率可達(dá)85%以上。
基于黑箱結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)能利用其自主學(xué)習(xí)能力[8-9]。用BP神經(jīng)網(wǎng)絡(luò)建模,可將過程或?qū)ο罂醋魇且粋€(gè)“黑箱”,我們只要確定輸入輸出,就可以建立相應(yīng)的模型,不必像傳統(tǒng)的系統(tǒng)辨識(shí)那樣把過程辨為線性還是非線性,這有利于我們對(duì)未知過程的系統(tǒng)進(jìn)行建模。
由于中醫(yī)辨證學(xué)所研究的癥狀和證型之間的關(guān)系是十分復(fù)雜的非線性關(guān)系,癥狀之間存在大量的多重共線性關(guān)系和協(xié)同關(guān)系,即某一個(gè)癥狀可以在多個(gè)證型中共同出現(xiàn),而且可能對(duì)多種證型都具有重要的辨證價(jià)值[10]。而BP神經(jīng)網(wǎng)絡(luò)充分辨識(shí)在充分表現(xiàn)于外的“候”的表征信息的基礎(chǔ)上,從樣本中進(jìn)行證候特征的規(guī)則提取,并將其分布在網(wǎng)絡(luò)的聯(lián)接權(quán)舉中,從而建立“候”與“證”的非線性映射函數(shù)[11]。因此,可以將其用于中醫(yī)證型的非線性建模研究。
表1 BP神經(jīng)網(wǎng)絡(luò)模型交叉驗(yàn)證結(jié)果表
[1]司富春,岳靜宇.近30年大腸癌中醫(yī)證型和用藥規(guī)律分析[J].中華中醫(yī)藥雜志,2012(7):1929-1931.
[2]World Health Organization.Cancer:Fact Sheet,2015[Updated February 2017].Available from:URL:http://www.who.int/mediacentre/factsheets/fs297/en/.
[3]陳葉,劉金濤,朱源,等.大腸癌中醫(yī)辨證及治療概況[J].中國腫瘤,2015,24(4):319-324.
[4]許云,楊宇飛.結(jié)直腸癌中醫(yī)藥研究進(jìn)展與思考[J].世界中醫(yī)藥,2014,(7):828-832.
[5]王穎純,白麗娜.基于BP神經(jīng)網(wǎng)絡(luò)的中醫(yī)脈診體質(zhì)類型判定[J].中醫(yī)雜志,2014(15):1288-1291.
[6]孫文恒,王煒,周文策.人工神經(jīng)網(wǎng)絡(luò)技術(shù)在胰腺癌診斷中的應(yīng)用[J].蘭州大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,(Z1):224-227.
[7]白云靜,孟慶剛,申洪波,等.基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)的糖尿病腎病中醫(yī)證候非線性建模研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(5):308-311.
[8]Dayhof JE,Deleo JM.Artificial Neural Networks[J].Cancer,2001,91(8):1615-1634.
[9]Cross SS,Harrison RF,Kennedy RL.Introduction to Neural Networks[J].Lancet,1995,346(8982):1075-1079.
[10]李建生,王至婉,余學(xué)慶,等.基于慢性阻塞性肺?。–OPD)急性加重期文獻(xiàn)的多元統(tǒng)計(jì)方法在證候研究的應(yīng)用探討[J].河南中醫(yī)學(xué)院學(xué)報(bào),2007(6):8-10.
[11]孫貴香,袁肇凱.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)證候研究中的應(yīng)用[J].中華中醫(yī)藥學(xué)刊,2007,25(7):1450-1452.
Research on Classification of Pattern of Syndrome of Colorectal Cancer Based on Neural Network
LI Jin-cheng,LIU Xiu-feng
(College of Medical Information Engineering,Guangzhou University of Chinese Medicine,Guangzhou 510006)
At present,there is no uniform and objective standard of classification of colorectal cancer.With the improvement of colorectal cancer inci?dence,colorectal cancer syndrome classification research becomes more and more important.The data collected from the literature and clinical data are dialectically classified and quantified by referring to differential diagnosis of syndromes and consulting for experts.Estab?lishes the classification model of colorectal cancer based on neural network.The machine learning and traditional Chinese medicine are combined with traditional Chinese medicine to achieve Chinese medicine information and standardization.
Neural Network;Colorectal Cancer;Classifier
廣州中醫(yī)藥大學(xué)薪火計(jì)劃資助項(xiàng)目(No.XH20160105)
1007-1423(2017)24-0016-04
10.3969/j.issn.1007-1423.2017.24.004
李金城(1996-),男,廣東汕尾人,在讀本科,研究方向?yàn)闄C(jī)器學(xué)習(xí)、深度學(xué)習(xí)
劉秀峰(1973-),女,江西樟樹人,碩士,教授,研究方向?yàn)獒t(yī)藥數(shù)據(jù)處理與分析、腫瘤信息學(xué)和移動(dòng)醫(yī)療,Email:liu_xf@gzucm.edu.cn
2017-08-14
2017-08-20