海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍事衛(wèi)生統(tǒng)計學(xué)教研室(200433) 武勝勇 何 倩 郭軼斌 吳 騁
世界衛(wèi)生組織統(tǒng)計表明,目前腦卒中已在全球死亡原因中躍升至第二位[1]。據(jù)美國心臟協(xié)會(American Heart Association,AHA)統(tǒng)計,在美國,腦卒中是死亡的第五大原因,每年有79.5萬美國人經(jīng)歷一次新的或復(fù)發(fā)性腦卒中[2]。而在中國,腦血管疾病已成為排名第三的死亡原因,對腦卒中防治的重要性已成為業(yè)內(nèi)共識[3]。腦卒中發(fā)病的原因涉及先天遺傳因素、后天影響因素[4]等,同時也受諸多不可控事件的影響,故其發(fā)病過程具有較大的異質(zhì)性[5]。因此,迫切需要在腦卒中的預(yù)防和治療過程中,通過簡化醫(yī)療操作過程和改進(jìn)診療技術(shù)來解決其治療過程中產(chǎn)生的諸多復(fù)雜問題,降低不斷上升的醫(yī)療成本[6-7]。
近年來隨著生物醫(yī)學(xué)研究的發(fā)展,對于腦卒中的研究日益深入,在基于“組學(xué)”數(shù)據(jù)[8-9]、實時風(fēng)險預(yù)測等方面的研究對統(tǒng)計學(xué)工具的要求不斷提高。傳統(tǒng)統(tǒng)計學(xué)方法對這些高維、海量、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)集分析效果并不理想,同時面對真實世界中取樣異質(zhì)性低、缺失值多、復(fù)雜程度高等問題,也難以找到合適的處理方式[10]。機(jī)器學(xué)習(xí)(machine learning,ML)主要研究如何使計算機(jī)通過實驗從數(shù)據(jù)中學(xué)習(xí),是預(yù)測分析的一項主要內(nèi)容[11],作為傳統(tǒng)統(tǒng)計學(xué)方法的補(bǔ)充,目前醫(yī)學(xué)研究中采用機(jī)器學(xué)習(xí)的趨勢日益明顯。
圍繞機(jī)器學(xué)習(xí)在腦卒中研究方面的應(yīng)用,本文綜述了支持向量機(jī)、隨機(jī)森林及深度學(xué)習(xí)方法,描述了其主要思想,分析了其優(yōu)點和不足,以期對機(jī)器學(xué)習(xí)未來在腦卒中患者診療中的應(yīng)用起到一定助力作用。
由于腦卒中發(fā)病位置的特殊性,導(dǎo)致其對身體各個部位的影響范圍、程度都遠(yuǎn)超其他疾病,故即使是具有豐富經(jīng)驗的臨床醫(yī)師也很難對其各方面預(yù)后做出準(zhǔn)確評估。一般認(rèn)為初始運動障礙和皮質(zhì)運動系統(tǒng)缺陷較少的患者治療結(jié)束后可能有更好的運動能力,在實際預(yù)后評估中,這些普遍被接受的相關(guān)性并不總是正確[12]。因為在腦卒中患者病情進(jìn)展中,其影響因素包括各類臨床特征、后續(xù)治療甚至患者發(fā)病前后的生活習(xí)慣等[13],但由于這類特征數(shù)據(jù)類型多、數(shù)據(jù)量大,使得這些復(fù)雜的相互作用很難使用傳統(tǒng)模型進(jìn)行評估。機(jī)器學(xué)習(xí)模型能夠模擬復(fù)雜系統(tǒng)的結(jié)果,具有傳統(tǒng)統(tǒng)計學(xué)模型不具有的優(yōu)勢,對比見表1。
表1 傳統(tǒng)和機(jī)器學(xué)習(xí)模型比較
鑒于機(jī)器學(xué)習(xí)方法相較傳統(tǒng)預(yù)測模型的諸多優(yōu)點,目前研究已證實了使用機(jī)器學(xué)習(xí)方法預(yù)測卒中結(jié)局的預(yù)后模型能夠取得較準(zhǔn)確的結(jié)果[14-15]。機(jī)器學(xué)習(xí)算法能夠幫助醫(yī)生做出更好的臨床決策,為患者贏得更好的生活質(zhì)量和預(yù)期壽命[16]。
支持向量機(jī)(support vector machine,SVM)是通過將數(shù)據(jù)升維,映射到一個更高維的特征空間里,在高維空間里建立最大間隔的超平面,通過對支持向量的訓(xùn)練,對特征空間進(jìn)行劃分得到最優(yōu)超平面,從而將非線性的分類問題,轉(zhuǎn)變?yōu)榫€性分類的機(jī)器學(xué)習(xí)方法。其對多變且具有較強(qiáng)時間性的分類問題具有較大優(yōu)勢[17],目前已在醫(yī)學(xué)領(lǐng)域取得較廣泛的應(yīng)用[18]。SVM的主要優(yōu)勢在于其利用核函數(shù)向高維空間進(jìn)行非線性映射,理論基礎(chǔ)較為明確。同時,SVM對數(shù)據(jù)的預(yù)測主要基于少數(shù)支持向量,從而對樣本進(jìn)行篩選,不僅簡化了算法,避免了算法過度復(fù)雜可能帶來的過擬合風(fēng)險;同時也可以對訓(xùn)練集中的樣本進(jìn)行篩選,抓住關(guān)鍵樣本,即研究對象的關(guān)鍵特征。
國內(nèi)張麗娜等,分別通過使用SVM和logistic回歸方法對急性出血性腦卒中早期預(yù)后進(jìn)行預(yù)測,并對所建立的模型進(jìn)行比較,證實了SVM在靈敏度、特異度、準(zhǔn)確率及Youden指數(shù)等方面均優(yōu)于傳統(tǒng)的logistic回歸[19]。SVM在小樣本中的表現(xiàn)也明顯優(yōu)于傳統(tǒng)方法。Asadi等開發(fā)了一個基于二分法的Rankin修訂量表評分(mRS)模型,采用SVM基于一個107例的數(shù)據(jù)集,使預(yù)測精確度達(dá)到了70%[20]。Bentley等利用116例急性缺血性腦卒中患者的CT腦圖像建立了SVM模型,用以識別具有癥狀性顱內(nèi)出血風(fēng)險的急性缺血性腦卒中患者,預(yù)測模型的AUC達(dá)到了0.744[21]。
但SVM也存在較明顯的不足,首先就是對大樣本數(shù)據(jù)的訓(xùn)練難以進(jìn)行,當(dāng)樣本量較大時,將耗費大量的機(jī)器內(nèi)存和運算時間,且無法達(dá)到所期望的效果。Heo等以2923名急性缺血性中風(fēng)患者為研究對象,建立了基于機(jī)器學(xué)習(xí)的模型,發(fā)現(xiàn)基于SVM的模型AUC為0.836,基于logistic回歸模型AUC為0.842[22],SVM并不具有優(yōu)勢。
此外,SVM的經(jīng)典算法只能解決二分類問題,然而實際問題中純粹的二分類問題較少。對于多分類問題,SVM主要使用一對多組合模式、一對一組合模式及SVM決策樹進(jìn)行解決,或通過構(gòu)造多個分類器的組合來將多分類問題進(jìn)行轉(zhuǎn)換,對于分類較少的問題效果較好,但對于分類較多的問題易出現(xiàn)分類重疊現(xiàn)象、不可分類現(xiàn)象等,同時運算量也將大幅度增加,隨著目前硬件水平的不斷提高,相關(guān)研究目前也在不斷深入。
隨機(jī)森林(random forests,RF)是以決策樹(decision tree)為基礎(chǔ)發(fā)展而來的一類高級集成學(xué)習(xí)方法。決策樹是指通過數(shù)據(jù)之間的相似性對數(shù)據(jù)進(jìn)行分類,并將分類的依據(jù)設(shè)定為節(jié)點。決策樹最大的優(yōu)勢就是將一個復(fù)雜的決定,轉(zhuǎn)化為一系列簡單的決定,將一個復(fù)雜的問題轉(zhuǎn)化為一系列簡單的問題,從而使這一復(fù)雜問題得到解決[23-24]。隨機(jī)森林就是用隨機(jī)的方式構(gòu)建多個決策樹,并對所有決策樹的結(jié)果進(jìn)行集成,將眾數(shù)確定為最終的輸出值。
區(qū)別于SVM等二進(jìn)制分類器算法,隨機(jī)森林本質(zhì)上是一個多標(biāo)簽分類器,使研究者可以直接通過算法對不同組進(jìn)行分類,而不需要首先尋找方法將不同類的分組合并在一起(如前文所述的建立多個SVM解決多分類問題)再進(jìn)行分類[25]。因此,在多分類問題上,隨機(jī)森林的表現(xiàn)優(yōu)于SVM等二進(jìn)制分類器[26]。其次,隨機(jī)森林可以有效地處理數(shù)據(jù)量大且維度高的數(shù)據(jù)集,并能夠在訓(xùn)練結(jié)束后將重要特征自動進(jìn)行總結(jié),不需要在訓(xùn)練前對特征進(jìn)行篩選。
Jung-Gyu Yoon等一項針對韓國腦卒中患者一般情況與卒中后性功能變化的研究使用隨機(jī)森林算法,取得了較好的結(jié)果[27]。文天才等根據(jù)卒中相關(guān)因素、腦卒中患者所處醫(yī)療環(huán)境及患者家庭情況等方面,采用隨機(jī)森林模型對患者31天內(nèi)非計劃再入院的危險因素進(jìn)行了分析,利用隨機(jī)森林方法綜合考慮各因素對結(jié)局變量的影響并進(jìn)行重要性評分,取得了較好的效果[28]。
隨機(jī)森林也存在一些不足,如最大葉節(jié)點數(shù)(max leaf nodes)的設(shè)定,如果節(jié)點過少,會導(dǎo)致擬合不足;如果過多,甚至不對最大葉結(jié)點數(shù)進(jìn)行限定,則容易導(dǎo)致過擬合,使模型難以泛化。目前主要采用每棵樹都使用一個訓(xùn)練樣本子集和一個隨機(jī)選擇的特征子集進(jìn)行訓(xùn)練,之后將這些單獨訓(xùn)練的子集組合在一起,從而提高模型的泛化能力[29]。另外就是采用剪枝處理,主要分為預(yù)剪枝和后剪枝[30]。預(yù)剪枝主要是指在訓(xùn)練中對節(jié)點劃分前后的泛化性進(jìn)行評估,如果此節(jié)點不能提升泛化性,則將此節(jié)點標(biāo)記為葉節(jié)點,通過這種方法對節(jié)點進(jìn)行篩選,降低過擬合的風(fēng)險,也在一定程度上降低了訓(xùn)練所需的計算量,但可能會導(dǎo)致欠擬合;后剪枝則是在決策樹訓(xùn)練結(jié)束后,對訓(xùn)練出的非葉節(jié)點泛化性進(jìn)行驗證,從而選擇是否將子樹替換成葉節(jié)點,后剪枝訓(xùn)練出的模型一般會保留更多的節(jié)點,同時其擬合程度也會更高,但其需要的算力也遠(yuǎn)高于預(yù)剪枝[31]。
如前文所述,Heo等的研究中,其隨機(jī)森林模型就出現(xiàn)了過擬合以至于泛化水平下降的現(xiàn)象,在測試集中,隨機(jī)森林模型的AUC為0.810,而logistic回歸模型達(dá)到了0.842[22]。此外,隨機(jī)森林還存在運算量較大等問題,但隨著計算能力和相關(guān)研究的不斷進(jìn)展,問題正在逐步解決。
深度學(xué)習(xí)(deep learning),是目前應(yīng)用最廣泛的一類機(jī)器學(xué)習(xí)算法,其主要原理是通過構(gòu)造多層(通常大于3層)人工神經(jīng)網(wǎng)絡(luò)來模擬大腦運行的方式,實現(xiàn)識別、分類、預(yù)測等功能[32]。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),簡稱神經(jīng)網(wǎng)絡(luò)(neural network,NN),可以被認(rèn)為是機(jī)器學(xué)習(xí)的一個擴(kuò)展,其善于捕獲輸入變量和輸出變量之間復(fù)雜的非線性關(guān)系,可以解決傳統(tǒng)統(tǒng)計分析的一些限制。在神經(jīng)網(wǎng)絡(luò)中,結(jié)果和輸入變量的關(guān)聯(lián)是使用一個或多個隱含層進(jìn)行計算的,每個隱含層包含一系列的算法(節(jié)點),其從前一節(jié)點獲取信息并輸出新的數(shù)據(jù)為下一節(jié)點提供數(shù)據(jù),這一過程類似于大腦的學(xué)習(xí)過程,因此稱為神經(jīng)網(wǎng)絡(luò)。其可以運用大型標(biāo)注數(shù)據(jù)集,對節(jié)點和隱含層進(jìn)行迭代訓(xùn)練(數(shù)千到數(shù)百萬次迭代)以對算法特征進(jìn)行調(diào)整(如超參數(shù)等),從而得到最佳的預(yù)測模型[33]。
前文所述Heo等人進(jìn)行的研究,采用ANN模型所得出的算法,其AUC為0.888,優(yōu)于基于SVM、隨機(jī)森林及傳統(tǒng)logistic分析所得出的模型[22]。譚英等分別利用ANN模型和logistic回歸,通過對474 患者基本情況、實驗室檢查結(jié)果及就診醫(yī)院等其他相關(guān)因素進(jìn)行分析,建立了預(yù)測模型;代入115例測試樣本后,其中隱層節(jié)點定義為9的ANN算法在準(zhǔn)確率、靈敏度、約登指數(shù)上均優(yōu)于logistic回歸模型,其AUC為0.787,高于logistic回歸模型的0.729[34]。
但深度學(xué)習(xí)對數(shù)據(jù)的分析一般采用非線性處理,且其過程中會經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理,運算過程作為一個“黑箱”,其運算量大,同時很難對結(jié)果進(jìn)行解釋。在樣本量不足的情況下,深度學(xué)習(xí)的過擬合現(xiàn)象嚴(yán)重,這也導(dǎo)致了自上個世紀(jì)八十年代神經(jīng)網(wǎng)絡(luò)算法出現(xiàn)后,一直未受到廣泛的應(yīng)用,直到近幾年才開始頻繁出現(xiàn)在人們視野中[5]。隨著當(dāng)前大數(shù)據(jù)技術(shù)的興起,數(shù)據(jù)量在不斷擴(kuò)大;同時算法的革新,使得神經(jīng)網(wǎng)絡(luò)過擬合的問題正在逐步被解決;硬件的發(fā)展,也使得算力有了大幅度的提升,解決了以上問題后,以神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)的深度學(xué)習(xí)迅速發(fā)展起來,目前在科研中廣泛應(yīng)用。
機(jī)器學(xué)習(xí)為解決當(dāng)前腦卒中診療過程中存在的問題提供了新的思路,但其并非是一個完美的解決方案,仍存在以下問題和局限性。
1.結(jié)果缺乏可理解性:傳統(tǒng)統(tǒng)計學(xué)方法中,對于輸入值的每一步處理都具有相對明確而簡單的關(guān)系。而絕大多數(shù)機(jī)器學(xué)習(xí)算法被認(rèn)為是“黑箱”,尤其是深度學(xué)習(xí),復(fù)雜的網(wǎng)狀結(jié)構(gòu)和龐大的參數(shù)及超參數(shù)數(shù)量保證了運算的準(zhǔn)確性,也使得輸入值和輸出值之間的關(guān)系難以解釋。
2.對數(shù)據(jù)量要求較大:正如前文所述深度學(xué)習(xí)在創(chuàng)造之初不能被廣泛應(yīng)用的情況相同,機(jī)器學(xué)習(xí)做出的預(yù)測模型需要不斷使用大量醫(yī)療數(shù)據(jù)進(jìn)行訓(xùn)練以保證其持續(xù)有效。但當(dāng)前的醫(yī)療環(huán)境并不利于醫(yī)療數(shù)據(jù)的高效共享,目前正在對其進(jìn)行改革以促進(jìn)醫(yī)療信息交換的可行性并加強(qiáng)對此類交換的監(jiān)管[35-36],希望在今后的發(fā)展中逐步解決這一問題。
3.臨床效果有待驗證:對算法最終的評價標(biāo)準(zhǔn)并不應(yīng)該是這些理論上的準(zhǔn)確性,而應(yīng)是這些工具能夠多大程度上輔助臨床實踐。臨床效果的大小不僅取決于這些預(yù)測模型的準(zhǔn)確程度,同時也取決于在這些臨床實踐中,怎樣安全有效地使用這些工具,以使其最終為患者發(fā)揮有益作用。目前這類工具在臨床上的研究和應(yīng)用仍處于起步階段,未來幾十年的應(yīng)用將證實機(jī)器學(xué)習(xí)能否為臨床實踐提供有益的幫助。
4.相關(guān)知識普及不夠:目前機(jī)器學(xué)習(xí)正在飛速發(fā)展,但多數(shù)醫(yī)療人員對其了解并不深入,在臨床應(yīng)用中也不夠?qū)I(yè)。隨著機(jī)器學(xué)習(xí)融入日常醫(yī)學(xué)實踐的進(jìn)程不斷推進(jìn),我們應(yīng)該推薦醫(yī)療人員接受相關(guān)訓(xùn)練,從而更好地分析、整合信息并在相關(guān)算法的輔助下做出臨床決策。因此,在可預(yù)見的未來,醫(yī)學(xué)的發(fā)展需要對相關(guān)從業(yè)者進(jìn)行技術(shù)、方法、數(shù)據(jù)科學(xué)背景知識和預(yù)測分析倫理學(xué)問題等方面的培訓(xùn)。
5.倫理問題逐漸凸顯:隨著機(jī)器學(xué)習(xí)的廣泛應(yīng)用,其為傳統(tǒng)臨床科研帶來的變化也逐步涉及倫理問題,并帶來一系列難以解決且復(fù)雜的倫理困境。關(guān)于患者隱私、數(shù)據(jù)歧視等倫理問題已經(jīng)顯而易見。同時,算法應(yīng)用中出現(xiàn)誤判帶來的損失由誰承擔(dān)等一系列問題,在將來的研究和臨床實踐中會逐漸凸顯出來[37]。在機(jī)器學(xué)習(xí)應(yīng)用的其他領(lǐng)域,倫理學(xué)的挑戰(zhàn)已經(jīng)較為明顯,故我們需要在生物倫理學(xué)上做進(jìn)一步研究以促進(jìn)機(jī)器學(xué)習(xí)可持續(xù)發(fā)展和應(yīng)用[35],臉書和劍橋分析的失敗就是對臨床相關(guān)機(jī)器學(xué)習(xí)以及預(yù)測分析的一個重要提醒。如今的醫(yī)療設(shè)備和可穿戴設(shè)備幾乎可以收集人類行為的所有數(shù)據(jù),因此這些數(shù)據(jù)可以創(chuàng)建每個個體獨特的“數(shù)據(jù)指紋”,并對其之后的行為進(jìn)行預(yù)測,這就難免會對患者的隱私有一定的侵犯。更重要的是,它可以不斷地將個體“推到”預(yù)設(shè)的行為路徑上去,使人做出規(guī)定的行為,這一問題顯然已經(jīng)超出了當(dāng)前倫理問題的范疇[33]。因此,一些倡導(dǎo)者呼吁研究人員和機(jī)構(gòu)盡快探討和采用新的人工智能和機(jī)器學(xué)習(xí)道德準(zhǔn)則,避免因為倫理學(xué)問題損害患者利益。
在應(yīng)用中最大的障礙之一,是當(dāng)前機(jī)器學(xué)習(xí)算法的復(fù)雜性,使得不具備Python或其他編程語言技能等相關(guān)計算機(jī)科學(xué)知識的醫(yī)療人員,很難理解并加以應(yīng)用。近幾年,隨著相關(guān)研究的深入,不少醫(yī)療工作者開始學(xué)習(xí)相關(guān)知識,同時,機(jī)器學(xué)習(xí)社區(qū)也正在努力設(shè)計更簡易的機(jī)器學(xué)習(xí)工具(如Keras或Lasagne等簡單接口),使其對研究者的編程能力要求更低,而基于用戶界面的圖形工具(如英偉達(dá)公司的DIGITS深度學(xué)習(xí)工具),可以使不具備編程語言基礎(chǔ)的用戶實現(xiàn)深度學(xué)習(xí)的基本功能,更加降低了機(jī)器學(xué)習(xí)的入門門檻。
由于篇幅原因,還有一些已有應(yīng)用的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯分類器[38]、算法梯度提升樹[39]等,未能做詳細(xì)描述,有興趣的讀者可參閱相關(guān)文獻(xiàn)。目前機(jī)器學(xué)習(xí)已廣泛應(yīng)用于腦卒中的診療過程中,并在疾病診斷、趨勢預(yù)測等方面取得了較好的成績。未來的醫(yī)學(xué)研究,將會更加注重多種來源數(shù)據(jù)的整合分析,其數(shù)據(jù)量更大、數(shù)據(jù)結(jié)構(gòu)更復(fù)雜,從而導(dǎo)致對分析方法的要求也更高。機(jī)器學(xué)習(xí)在處理這些類型數(shù)據(jù)中具備傳統(tǒng)統(tǒng)計學(xué)方法不具備的優(yōu)勢,正逐步成為醫(yī)療科研中不可或缺的一部分,未來也將在腦卒中防治領(lǐng)域發(fā)揮更大的作用。