秦常程,喻洪流,李素姣,倪 偉,鄭金鈺,李 平,楊宇輝
(1上海理工大學(xué) 康復(fù)工程與技術(shù)研究所,上海 200093;2上??祻?fù)器械工程技術(shù)研究中心,上海 200093;3民政部 神經(jīng)功能信息與康復(fù)工程重點(diǎn)實(shí)驗(yàn)室,上海 200093)
脊髓損傷是由車(chē)禍、墜落、暴力和體育運(yùn)動(dòng)等原因?qū)е碌募棺到Y(jié)構(gòu)和功能上的損傷。根據(jù)相關(guān)調(diào)查,中國(guó)每100萬(wàn)人中就有20~60例脊椎損傷病例。在脊髓損傷患者的全面康復(fù)中,合理的康復(fù)治療方案可以幫助脊髓損傷患者促進(jìn)身體功能恢復(fù),提高生活自理能力。
康復(fù)治療方案的決策是建立在對(duì)患者充分的康復(fù)評(píng)估基礎(chǔ)上,由多種康復(fù)治療技術(shù)組成。目前,中國(guó)還沒(méi)有獨(dú)立的康復(fù)治療方案決策服務(wù)體系,而線(xiàn)下康復(fù)治療方案的決策存在效率低下且標(biāo)準(zhǔn)不一等問(wèn)題。
在線(xiàn)的醫(yī)療智能處方?jīng)Q策可以彌補(bǔ)線(xiàn)下的不足。如:Douglas D等人設(shè)計(jì)了一套可以在線(xiàn)量表評(píng)估,并給腦卒中患者提供康復(fù)建議的專(zhuān)家系統(tǒng)REPS。Danial-Saad A等人提出了一種使用計(jì)算機(jī)輔助技術(shù)實(shí)現(xiàn)的康復(fù)輔具處方推薦算法。雖然在線(xiàn)醫(yī)療智能處方?jīng)Q策理論可以彌補(bǔ)線(xiàn)下的不足,但是在實(shí)際操作中仍然存在如下問(wèn)題:
(1)在線(xiàn)的醫(yī)療智能處方?jīng)Q策應(yīng)依賴(lài)推理模型和大樣本醫(yī)療數(shù)據(jù)集,但是鑒于脊椎損傷的發(fā)病率和醫(yī)院對(duì)患者的隱私保護(hù),往往不會(huì)形成大樣本醫(yī)療數(shù)據(jù)集;
(2)醫(yī)療數(shù)據(jù)集通常存在樣本類(lèi)別不平衡問(wèn)題,各類(lèi)別之間存在嚴(yán)重的數(shù)量?jī)A斜。
綜上所述,本文在醫(yī)療智能處方?jīng)Q策算法設(shè)計(jì)的基礎(chǔ)上,針對(duì)脊髓損傷患者的智能康復(fù)治療方案決策及其病例數(shù)據(jù)集樣本類(lèi)別不平衡等問(wèn)題,提出一種用于脊髓損傷智能康復(fù)治療處方的UPE-SVM推理模型。該模型有效克服了數(shù)據(jù)集的樣本類(lèi)別不平衡問(wèn)題,提高了智能康復(fù)治療處方的決策準(zhǔn)確率。
康復(fù)治療方案決策算法的主要流程包括患者信息輸入、基于UPE-SVM模型預(yù)測(cè)、治療方案生成和模型在線(xiàn)學(xué)習(xí)。決策算法流程如圖1所示。
圖1 康復(fù)治療方案決策算法流程Fig.1 Flow chart of rehabilitation program decision algorithm
患者信息特征包括:AISA殘損指數(shù)、損傷性質(zhì)、神經(jīng)節(jié)段分類(lèi)、損傷平面、最低感覺(jué)平面、左上肢肌力、右上肢肌力、左下肢肌力、右下肢肌力,這9個(gè)特征是由治療師確定的顯著表現(xiàn)病人病情的特征。
基于UPE-SVM模型預(yù)測(cè)將患者的9個(gè)特征進(jìn)行數(shù)值映射和特征歸一化處理。特征歸一化的目的是避免特征的不同量綱對(duì)決策結(jié)果產(chǎn)生負(fù)面影響,然后輸入到UPE-SVM模型,進(jìn)行前向推理預(yù)測(cè),得到初始治療方案。特征歸一化的計(jì)算公式為:
治療方案的生成是由治療師進(jìn)行判斷初始治療方案是否適合當(dāng)前患者,如果適配病例,直接用于患者,并保存到病例數(shù)據(jù)庫(kù);如果不適配,則修正治療方案后用于患者,并將最終治療方案保存到病例數(shù)據(jù)庫(kù)。
模型在線(xiàn)學(xué)習(xí)使用更新后的病例數(shù)據(jù)庫(kù),對(duì)UPE-SVM模型進(jìn)行在線(xiàn)訓(xùn)練,保持模型對(duì)陌生病例的敏感性,提高模型的學(xué)習(xí)能力和泛化能力。
在此給出1個(gè)示例,說(shuō)明上述智能康復(fù)治療方案決策算法的決策過(guò)程。假設(shè)一患者具有如表1所示的9個(gè)輸入特征。
表1 示例患者的9個(gè)輸入特征Tab.1 Nine input characteristics of the sample patient
這9個(gè)特征值經(jīng)過(guò)數(shù)據(jù)處理后,輸入到UPESVM模型進(jìn)行預(yù)測(cè),程序以列表的形式給出初始治療方案:[“針灸”,“康復(fù)踏車(chē)”,“站立訓(xùn)練”,“脈沖磁療”,“氣壓式血液循環(huán)驅(qū)動(dòng)”],供治療師參考和修正,并將最終治療方案保存到數(shù)據(jù)庫(kù),用于更新模型。
本文使用的脊椎損傷病例數(shù)據(jù)集包含124條樣本,劃分為包含100條樣本的訓(xùn)練集和包含24條樣本的測(cè)試集,每條樣本由輸入特征和康復(fù)治療方案組成??祻?fù)治療方案作為目標(biāo)值,包含6類(lèi)康復(fù)治療技術(shù),每條樣本的康復(fù)治療方案為6類(lèi)康復(fù)治療技術(shù)的部分組合,因此該分類(lèi)屬于多標(biāo)簽分類(lèi)任務(wù)。針對(duì)該數(shù)據(jù)集,本文提出一種用于脊髓損傷康復(fù)治療方案決策的新型推理模型——UPE-SVM(Undersampling Parallel Ensemble Support Vector Machines)。
在模型預(yù)測(cè)方面,UPE -SVM模型基于集成學(xué)習(xí),采用SVM(Support Vector Machines)作為子分類(lèi)器。針對(duì)本文數(shù)據(jù)集,UPE-SVM模型設(shè)置6簇分類(lèi)器,分別對(duì)應(yīng)數(shù)據(jù)集的6類(lèi)康復(fù)治療技術(shù),每簇分類(lèi)器單獨(dú)預(yù)測(cè)1類(lèi)目標(biāo)值,把復(fù)雜的多標(biāo)簽分類(lèi)轉(zhuǎn)化為簡(jiǎn)單的二分類(lèi)。每簇分類(lèi)器設(shè)置多個(gè)子分類(lèi)器,子分類(lèi)器之間平權(quán)投票,決定該簇分類(lèi)器的預(yù)測(cè)結(jié)果。子分類(lèi)器的數(shù)量為模型超參數(shù),與多數(shù)樣本和少數(shù)樣本的數(shù)量比值相關(guān)。集合6簇分類(lèi)器的預(yù)測(cè)結(jié)果,得到康復(fù)治療方案。
給定脊髓損傷病例數(shù)據(jù)集{,,,…,x},第簇分類(lèi)器包括個(gè)子分類(lèi)器,分別是(),(),(),…,f(),則對(duì)于樣本x的第簇分類(lèi)器的預(yù)測(cè)結(jié)果為:
對(duì)于全部樣本的康復(fù)治療方案預(yù)測(cè)結(jié)果為:
對(duì)于每個(gè)子分類(lèi)器,通過(guò)調(diào)節(jié)核函數(shù)和懲罰系數(shù),選擇效果好的SVM作為子分類(lèi)器。SVM超參數(shù)值域見(jiàn)表2。
表2 SVM超參數(shù)值域Tab.2 SVM hyper parameters and range
核函數(shù)是一種將非線(xiàn)性任務(wù)轉(zhuǎn)變?yōu)榫€(xiàn)性任務(wù)的方法。其中,linear為線(xiàn)性核函數(shù);poly為多項(xiàng)式核函數(shù);rbf為高斯核函數(shù);sigmoid為雙曲正切核函數(shù)。
懲罰系數(shù)用來(lái)控制損失函數(shù)懲罰力度,懲罰系數(shù)越大,對(duì)錯(cuò)誤分類(lèi)的懲罰越大。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文核函數(shù)選擇poly,懲罰系數(shù)為155。
脊髓損傷病例數(shù)據(jù)集來(lái)自中國(guó)康復(fù)研究中心,篩選自2019年入院的124個(gè)病例作為數(shù)據(jù)集,劃分為包含100條樣本的訓(xùn)練集和包含24條樣本的測(cè)試集,每條樣本由癥狀和康復(fù)治療方案組成,癥狀為UPE-SVM模型的輸入特征,康復(fù)治療方案為目標(biāo)值。
癥狀是由治療師基于臨床經(jīng)驗(yàn)選取的患者特征,其中包括:AISA殘損指數(shù)、損傷性質(zhì)、神經(jīng)節(jié)段分類(lèi)、損傷平面、最低感覺(jué)平面、四肢肌力等,見(jiàn)表3。
表3 脊椎損傷癥狀及值域Tab.3 Symptoms and range of spinal injury
表3中,根據(jù)鞍區(qū)功能的保留程度,將損傷性質(zhì)分為完全性損傷和不完全性損傷;根據(jù)脊髓損傷神經(jīng)學(xué)分類(lèi)國(guó)際標(biāo)準(zhǔn),AISA殘損指數(shù)分為A~E共5個(gè)等級(jí);根據(jù)解剖學(xué),損傷神經(jīng)節(jié)段分為頸椎損傷、胸椎損傷、腰椎損傷、骶椎損傷和尾椎損傷;根據(jù)損傷節(jié)段和功能,損傷平面和最低感覺(jué)平面分為31類(lèi),分別對(duì)應(yīng)31對(duì)脊神經(jīng);根據(jù)改良Asworth分級(jí),四肢肌力分為0~5共6個(gè)級(jí)別。
康復(fù)治療方案是由治療師根據(jù)患者具體癥狀給出,包含30種康復(fù)治療技術(shù),每種康復(fù)治療技術(shù)的出現(xiàn)頻率不同,其中19種康復(fù)治療技術(shù)出現(xiàn)頻率少于10次,3種康復(fù)治療技術(shù)出現(xiàn)頻率超過(guò)80次。由于數(shù)據(jù)集存在嚴(yán)重的類(lèi)別不平衡問(wèn)題,導(dǎo)致訓(xùn)練得到的模型效果不佳,模型容易過(guò)擬合。因此對(duì)康復(fù)治療方案進(jìn)行種類(lèi)選定,選擇出現(xiàn)頻率超過(guò)20次的康復(fù)治療技術(shù),作為模型的目標(biāo)值,見(jiàn)表4。
表4 選定的康復(fù)治療技術(shù)及其出現(xiàn)頻率Tab.4 Selected rehabilitation techniques and their frequency
本文以值和作為主要評(píng)價(jià)指標(biāo),以精確率和召回率作為次要評(píng)價(jià)指標(biāo),來(lái)評(píng)估模型性能及衡量模型克服類(lèi)別不平衡的能力。值為曲線(xiàn)下方的面積,取值范圍在01,取值越大,表示模型性能越好。
現(xiàn)有解決數(shù)據(jù)集樣本類(lèi)別不平衡的常用方法,包括兩個(gè)層面:算法層面和數(shù)據(jù)層面。算法層面主要采用損失函數(shù)Focal Loss,數(shù)據(jù)層面主要采用SMOTE重采樣。
為了驗(yàn)證UPE-SVM模型在脊椎損傷病例數(shù)據(jù)集上的性能,本文將解決樣本類(lèi)別不平衡的常用方法進(jìn)行對(duì)比,設(shè)計(jì)了5組對(duì)照實(shí)驗(yàn),分別是:采用交叉墑?chuàng)p失的多層感知機(jī)、采用Focal Loss的多層感知機(jī)、采用SMOTE重采樣的SVM、采用無(wú)放回采樣的UPE-SVM和采用隨機(jī)有放回采樣的UPE-SVM。
除給出5組對(duì)照實(shí)驗(yàn)的結(jié)果外,本文還統(tǒng)計(jì)了分別采用無(wú)放回采樣和隨機(jī)有放回采樣的UPESVM模型在每一類(lèi)康復(fù)治療技術(shù)上的具體表現(xiàn)。
3.4.1 5組對(duì)照實(shí)驗(yàn)結(jié)果分析
從表5中可以得出,采用交叉熵?fù)p失的多層感知機(jī)分類(lèi)效果最差,采用Focal Loss的多層感知機(jī)效果略好于前者,F(xiàn)ocal Loss對(duì)本文數(shù)據(jù)集的樣本類(lèi)別不平衡有一定的效果;采用SMOTE重采樣的SVM效果略好于前兩者;第四、五組實(shí)驗(yàn)表明,UPE-SVM模型克服樣本類(lèi)別不平衡的性能遠(yuǎn)遠(yuǎn)超過(guò)采用Focal Loss的多層感知機(jī)和采用SMOTE重采樣的SVM,且隨機(jī)有放回采樣策略?xún)?yōu)于無(wú)放回采樣。
表5 對(duì)照實(shí)驗(yàn)的結(jié)果Tab.5 Results of the control experiment
3.4.2 無(wú)放回采樣/隨機(jī)有放回采樣的UPE-SVM對(duì)6類(lèi)目標(biāo)值分類(lèi)性能結(jié)果分析
從表6和表7的對(duì)比中可以得出,與無(wú)放回采樣相比,隨機(jī)有放回采樣的UPE-SVM模型在“康復(fù)踏車(chē)”、“站立訓(xùn)練”、“脈沖磁療”、“氣壓式血液循環(huán)驅(qū)動(dòng)”上的分類(lèi)效果更優(yōu),在“作業(yè)康復(fù)”上的效果持平,在“針灸”上的效果略低。從總體的分類(lèi)性能上看,隨機(jī)有放回采樣的策略?xún)?yōu)于無(wú)放回采樣。
表6 無(wú)放回采樣的UPE-SVM分類(lèi)性能結(jié)果Tab.6 Classification performance results of UPE-SVM without sampling back
表7 隨機(jī)有放回采樣的UPE-SVM分類(lèi)性能結(jié)果Tab.7 UPE-SVM classification performance results with random sampling back
相比其它克服類(lèi)別不平衡的常用技術(shù),UPESVM模型使用所有的少數(shù)樣本,采樣與少數(shù)樣本數(shù)量相同的多數(shù)樣本,組成訓(xùn)練子集,保證了每個(gè)訓(xùn)練子集是樣本均衡的,因此訓(xùn)練得到的子分類(lèi)器能夠有效避免樣本類(lèi)別不平衡影響。
相比無(wú)放回采樣策略,隨機(jī)有放回采樣的UPESVM模型表現(xiàn)更加優(yōu)異。當(dāng)采用無(wú)放回采樣訓(xùn)練子分類(lèi)器時(shí),即劃分多數(shù)樣本為固定的若干份,每份樣本之間不存在交集,訓(xùn)練得到的子分類(lèi)器是有缺陷的,不利于集成學(xué)習(xí)平權(quán)投票。通過(guò)理論分析和測(cè)試集驗(yàn)證,隨機(jī)有放回采樣的訓(xùn)練策略更能提高UPE-SVM模型的性能表現(xiàn)。
本文設(shè)計(jì)的脊髓損傷康復(fù)治療方案決策的UPE-SVM推理模型,有效解決了采用醫(yī)療數(shù)據(jù)集訓(xùn)練模型時(shí),經(jīng)常出現(xiàn)的樣本類(lèi)別不平衡問(wèn)題,并在測(cè)試集上取得較好的效果,提高了康復(fù)治療方案的決策準(zhǔn)確率。這種技術(shù)的應(yīng)用有望幫助解決脊髓損傷患者的康復(fù)治療方案決策的不足,同時(shí)對(duì)其它中小型復(fù)雜數(shù)據(jù)集的多標(biāo)簽分類(lèi)任務(wù)有一定的參考意義。