陳國旺 蔣進 李帆 王大龍
摘 要: 在現(xiàn)代醫(yī)療衛(wèi)生系統(tǒng)中,主要從預防、診斷、治療三個方面對疾病進行處理。尤其對于癌癥這類疾病,早期預防的效果遠大于治療。隨著算法研究的深入與技術(shù)領(lǐng)域的拓展,機器學習在預測領(lǐng)域卓有成效。文章旨在以一種科學的方法,實現(xiàn)對肺癌患病風險的預測。以肺癌為例,利用已有的醫(yī)療數(shù)據(jù),設計合適的預測算法并用實驗加以驗證。最終的結(jié)果顯示了基于神經(jīng)網(wǎng)絡算法預測患癌風險的可行性。
關(guān)鍵詞: 癌癥預測; 機器學習; 人工神經(jīng)網(wǎng)絡; 標準化處理
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2018)11-56-04
Abstract: In the modern medical and health system, the disease is treated mainly from three aspects of prevention, diagnosis and treatment. Early prevention is more effective than treatment especially for diseases such as cancer. With the deepening of algorithm research and the expansion of technology, machine learning has been effective in the field of prediction. This article is aimed at succeeding in predicting the risk of lung cancer by means of a scientific method. It takes lung cancer as an example, uses existing medical data, designs appropriate prediction algorithms and demonstrate it with experiments. The final result reflects the feasibility of predicting cancer risk based on neural network algorithms.
Key words: cancer prediction; machine learning; artificial neural networks; standardized processing
0 引言
肺癌是發(fā)病率最高,死亡率增速最快的惡性腫瘤之一,對人類身體健康構(gòu)成了極大的威脅。醫(yī)學類研究表明:肺癌的發(fā)病與種族、家屬史、吸煙情況等因素有很大關(guān)聯(lián)。再者,肺癌患者痊愈的幾率很低,這表明人們對于肺癌這一惡性疾病,應該持有預防大于救治的態(tài)度。提及預防,人們亟需一種簡單方便、科學精準的工具來預測患癌風險,進一步自身調(diào)整,達到預防的效果。近年來APP的普及,加上機器學習在輔助預測中的顯著效果,使筆者聯(lián)想到將機器學習應用于肺癌的風險預測中,通過建模并制作成相應的軟件,投入民用。
經(jīng)過研究,筆者采用人工神經(jīng)網(wǎng)絡。人工神經(jīng)網(wǎng)絡本質(zhì)就是模擬人類的思維[1],具有自學習、自操作、自應用的表現(xiàn)形式[2]。信息的分布式存儲和并行處理是它最主要的特點[3]。其中,按照科學正確的原則進行學習是核心關(guān)鍵點,也是人工神經(jīng)網(wǎng)絡的工作前提。
1 人工神經(jīng)網(wǎng)絡算法數(shù)據(jù)模型簡介
人工神經(jīng)網(wǎng)絡是一種模仿動物神經(jīng)網(wǎng)絡行為特征,分布式信息處理的一種數(shù)學模型。這種算法憑借復雜的系統(tǒng)結(jié)構(gòu)對內(nèi)部節(jié)點之間的權(quán)重進行修正,從而達到處理信息的目的[4]。人工神經(jīng)網(wǎng)絡可以通過預先提供的一批正確的數(shù)據(jù),分析其潛在規(guī)律。此過程稱為“訓練”[5]。反向傳播(Back Propagation,簡稱BP)算法提出后,其非線性映射和泛化能力解決了許多非線性問題,比如在臨床輔助決策和波形分析等方向都取得了較好的成效[6]。
BP神經(jīng)網(wǎng)絡共分為三層:輸入層、隱藏層、輸出層。下圖1展示具有兩層隱藏層的神經(jīng)網(wǎng)絡。感知器是神經(jīng)網(wǎng)絡的基本組成單位。它是由權(quán)值w,偏置b以及傳遞函數(shù)g(x)組成。其中b為偏置,bi為上一個感知器“釋放”的輸入信號,x為經(jīng)過線性處理獲得值,f(x)為經(jīng)過傳遞函數(shù)處理后的最終值。即:
其中傳遞函數(shù)是對所求出來的值進行一個非線性變換。例如、等。通俗來講,傳遞函數(shù)就是將上一層傳入的信號進行選擇性的通過。若不添加傳遞函數(shù),對于多隱藏層的學習跟只有一層的隱藏函數(shù)效果是一樣的。例如:
因此每次處理都必須要經(jīng)過傳遞函數(shù)。
一個感知器的值是由前一層所有感知器加權(quán)求和后,經(jīng)過傳遞函數(shù)的處理而得出的[7]。通過層層處理后,從而獲得輸出值。緊接著進行反向傳播,修正權(quán)值。多次迭代后,當訓練集訓練完畢后,算法會更新學習次數(shù),當學習次數(shù)在閾值內(nèi),訓練過程便全部完成[8]。此時從輸入層輸入信號,經(jīng)過層層計算,便可得出最終的預測結(jié)果。
2 神經(jīng)網(wǎng)絡在肺癌風險預測中的應用與研究
2.1 標準化處理
搜集到的數(shù)據(jù)由于量綱不同,所以需要將數(shù)據(jù)做標準化處理。
屬性類型可分為效益型、成本型、區(qū)間型等。其中,效益型為屬性值越大越好的屬性,區(qū)間型屬性為在某一區(qū)間內(nèi)越好的屬性[13]。每種屬性標準化處理的方式不同。
將數(shù)據(jù)代入到公式中,即可完成。
2.2 算法推導
設輸入層為a1,隱藏層為b2、b3…bn-1,輸出層為cn。設輸入層每個感知器的值為a1n(n=1,2,3…),其余各層類似。設權(quán)重為第k層第a個感知單元與第k+1層第b個感知單元間的權(quán)重。偏置為b',由感知器原理可知,偏置可作為上一層的一個權(quán)重為1,信號為b'的感知器,故以下推導不額外考慮偏置b'。
BP神經(jīng)網(wǎng)絡有前置輸出、反向傳播、更新權(quán)值以及其他參數(shù)[9],簡要步驟如下。
步驟1 設輸入層的各個單元接收的輸入信號為x1、x2、x3…xn,并對w進行隨機賦值。按上述過程計算,最后在輸出層可得出一組計算結(jié)果。
步驟2 求出預測值以及真實值之間的誤差并反向進行計算,求出最終誤差與初始權(quán)值之間的關(guān)系。
步驟3 使用隨機梯度下降算法(Stochastic gradient descent,SGD)求誤差E最小值。
步驟4 通過迭代并更新w,訓練完成[10],獲得預測結(jié)果。
針對步驟1,輸入值經(jīng)過權(quán)值計算到達隱藏層b2的第一個神經(jīng)單元b21的值為,經(jīng)過傳遞函數(shù)g(x)可得b21的輸入信號值為。
針對步驟2,設標簽為,可以求單個輸出層誤差Ei為,總誤差為。將隱藏層的單元代入:,可得總誤差E為:
2.3 實驗過程以及結(jié)果
肺癌高危人群為長期吸煙的中老年人群、慢性肺部疾病患者以及家族遺傳者等[11]。筆者進一步研究得出導致肺癌的因素主要包括出生年月、BMI、呼吸系統(tǒng)狀況、是否患有其他癌癥、近親患癌、慢性肺部疾病、是否吸煙、日均吸煙量、吸煙年數(shù)、二手煙狀況、油煙狀況等[12]。由于篇幅所限,我們僅列出部分數(shù)據(jù)。
設出生年份為Y1,BMI為Y2,慢性肺部疾病為Y3,日均吸煙數(shù)量為Y4,吸煙年數(shù)為Y5,患癌真實值為P1,預測值為P2。其中BMI是用于衡量人體胖瘦程度以及健康狀況的國際標準。設身高為h,體重為w,則BMI指數(shù)a為:
由于量綱不同,需對所有搜索數(shù)據(jù)進行標準化處理。根據(jù)查詢相關(guān)資料可得,BMI在[18.5,23.9]處于正常狀態(tài)。年齡越小,即出生年份數(shù)值越大,患有癌癥的可能性越小,因此出生年份屬于效益型,其余屬性同理分析。將各屬性做如上標準化處理,現(xiàn)展示部分數(shù)據(jù)。
將數(shù)據(jù)代入算法中,得出最終預測結(jié)果。將數(shù)據(jù)源部分用于訓練,部分用于預測。通過部分數(shù)據(jù)集的訓練之后,可得預測結(jié)果。
由表中數(shù)據(jù)可得,大多數(shù)預測值與真實值相差較小,說明該算法具有較大潛力。但少數(shù)預測數(shù)據(jù)與真實值相差較大,說明在該算法中,如何選擇傳遞函數(shù),選擇有效的訓練數(shù)據(jù)及次數(shù)等還有待研究。
2.4 實驗在APP中的應用
將神經(jīng)網(wǎng)絡算法與APP進行結(jié)合,便成為可以為用戶服務的一個工具。用戶安裝后,回復有大量科學研究作為基礎的問題,通過輸入個人數(shù)據(jù),便可得出預測結(jié)果。APP接受用戶提交的數(shù)據(jù)后,通過計算,可得最終的預測結(jié)果。
圖4、圖5為制作完成的APP界面。
3 結(jié)束語
本文將機器學習領(lǐng)域中的經(jīng)典算法應用于肺癌發(fā)病風險的預測。在提取各種特征的基礎上,搜集了大量數(shù)據(jù)并將數(shù)據(jù)進行標準化處理,選取部分數(shù)據(jù)作為訓練集,其余數(shù)據(jù)用于預測。通過對預測結(jié)果的分析,可以得出兩個重要結(jié)論:一推導出高幾率患病人群,比如長期吸煙的中老年人群、慢性肺部疾病患者等,確定的影響因素包括吸煙情況、身高體重指數(shù)、慢性疾病與肺病史、油煙暴露狀況等。二是該算法的預測準確率大致符合真實情況,可以作為神經(jīng)網(wǎng)絡在肺癌預測中的成功應用。但是該算法預測中,也存在部分記錄預測值與真實值有一定誤差的問題,可見該算法在數(shù)據(jù)集、傳遞函數(shù)選取等細節(jié)方面還有待進一步研究,準確性仍有提升的空間。
現(xiàn)實使用中,用戶只需下載APP應用,輸入個人數(shù)據(jù),即可得知自身患肺癌風險,發(fā)病誘因等,非常方便,實用性強,免去實體醫(yī)院的檢查流程,省時省力,還節(jié)省可觀的財產(chǎn)支出。正因為其簡便易用,平民大眾,迎合“互聯(lián)網(wǎng)+”浪潮,可以預見其會在市場、社會中的廣泛應用,可以說前景十分廣闊。
雖然當前的算法仍存在一些問題,應用系統(tǒng)還不夠完善,但是筆者相信經(jīng)過算法的再研究、再改進,以及日后神經(jīng)網(wǎng)絡算法的必然優(yōu)化與發(fā)展,利用神經(jīng)網(wǎng)絡精準預測肺癌風險將會有很大的概率實現(xiàn)和普及,并且在其他領(lǐng)域,神經(jīng)網(wǎng)絡也將“大放光彩”。
參考文獻(References):
[1] Mitchell T. Machine learning[M]. Beijing: China MachinePress,2003.
[2] Ganesan K, Acharya U R,Chua C K,et al.Computer-aided breast cancer detection using mammograms:A review[J].IEEE Reviews in Biomdical Engineering,2013.6(77):98
[3] Orozco H M,Villegas O V,Maynez L O,et al. Lung noduleclassification in frequency domain using support vector machines[C]//Proc of 2012 llth International Conference on Information Science,Signal Processing and their Applications (ISSPA),2012:870-875
[4] Pinheiro F M R,kuo M H.Poster:Applying data miningalgorithms to early detection of liver cancer[C]//Proc of 2012 IEEE 2nd International Conference on Computational Advances in Bio and Medical Sciences (ICCABS),2012:1
[5] Cruz JA, Wishart DS. Applications of Machine Learning in Cancer Prediction and Prognosis[J]. Cancer Informatics,2007.2(1):59-77
[6] Fakoor R, Ladhak F, Nazi A, et al. Using Deep Learning to Enhance Cancer Diagnosis and Classification[C].Atlanta:The International Conference on Machine Learning,2013.
[7] Mitchell T M. Machine learning [M]. Burr Ridge, IL:MC Graw Hill,1977.
[8] Graves A, Mohamed A, Hinton CE. Speech recognition with deep recurrent neural networks [C]. IEEE International Conference on Acoustics, Speech and Signal Processing,2013:6645-6649
[9] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems,2012:1097-1105
[10] 倪然.人工神經(jīng)網(wǎng)絡聯(lián)合腫瘤標志對肺癌和大腸癌的預警 [D].鄭州大學,2009.
[11]馬莉,高曉虹,王猛,李曉楓.肺癌影響因素病例對照研究[J].中國公共衛(wèi)生,2012.28(1):90-91
[12] Crippa A, Salvatore C, Perego P, et al.Use of machine learning to identity children with autism and their motor abnormalities [J]. J Autism Dev Disord,2015.45:2146-2156