曹鴻亮,張 瑩*,武 斌,李繁菀,那緒博
(1.華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,北京 102206;2.交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室(北京交通大學(xué)),北京 100044)
(?通信作者電子郵箱dearzppzpp@163.com)
原發(fā)性肝癌是我國常見的惡性腫瘤之一,發(fā)病率和死亡率居我國惡性腫瘤第二位。近十余年來,肝移植在我國得到蓬勃發(fā)展,成為治療肝移植的重要手段之一,肝癌也成為肝移植的主要適應(yīng)癥之一。越來越多的人由于進(jìn)行了肝移植手術(shù)而重獲生命,肝移植已逐步成為臨床常規(guī)手術(shù),在臨床診療領(lǐng)域具有重要地位。原位肝移植因其移植過程復(fù)雜,易產(chǎn)生各種并發(fā)癥,制約著肝移植手術(shù)的成功率[1]。肝移植受者術(shù)后并發(fā)癥一共有六種(包括死亡),本文以下部分簡稱為術(shù)后并發(fā)癥Ⅰ、術(shù)后并發(fā)癥Ⅱ、術(shù)后并發(fā)癥Ⅲa、術(shù)后并發(fā)癥Ⅲb、術(shù)后并發(fā)癥Ⅳ、Ⅴ級(死亡)[2-3]。目前對肝移植受者術(shù)后并發(fā)癥的檢測依然是靠人工排查以及定時復(fù)檢[4],這主要是由于肝移植的樣本數(shù)據(jù)集很小而特征空間很大,導(dǎo)致現(xiàn)有的機(jī)器學(xué)習(xí)算法很難準(zhǔn)確、有效、可靠地預(yù)測肝移植術(shù)后并發(fā)癥[5-6]。準(zhǔn)確、高效地預(yù)測分類肝移植術(shù)后受者的并發(fā)癥對提高肝移植成功率起到重要作用。
傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測模型將肝移植并發(fā)癥的診斷過程看作以肝移植過程的臨床表現(xiàn)為特征的統(tǒng)計(jì)分類預(yù)測問題,根據(jù)臨床表現(xiàn)建立樣本特征空間,將已有的病歷樣本特征和對應(yīng)的標(biāo)記作為訓(xùn)練集合,采用統(tǒng)計(jì)分析模型訓(xùn)練分類預(yù)測函數(shù),從而可以對新病例進(jìn)行預(yù)測分析[7]。然而由于已有的肝移植術(shù)后并發(fā)癥病例樣本數(shù)量少,主流的機(jī)器學(xué)習(xí)算法對小樣本無法學(xué)習(xí)到足夠的特征,難以訓(xùn)練出高效可靠的并發(fā)癥預(yù)測模型。目前解決小樣本模型訓(xùn)練問題的主要方法有遷移學(xué)習(xí)技術(shù)和采樣技術(shù)[8]。采樣技術(shù)利用一定的策略在原始樣本集上生成樣本均衡的訓(xùn)練集,在均衡訓(xùn)練集上訓(xùn)練并發(fā)癥預(yù)測模型,可以提高召回率,但會導(dǎo)致模型的準(zhǔn)確率下降,限制了模型的效果。遷移學(xué)習(xí)是利用已有的知識對不同但相關(guān)的領(lǐng)域進(jìn)行求解的一種機(jī)器學(xué)習(xí)方法。基于特征的遷移學(xué)習(xí),關(guān)注的是如何將源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)映射到新的特征空間,使得在新的特征空間中,源領(lǐng)域數(shù)據(jù)與目標(biāo)領(lǐng)域數(shù)據(jù)分布相同,并且最大限度地保留源領(lǐng)域和目標(biāo)領(lǐng)域的內(nèi)部屬性[9],從而可以在新的特征空間中利用源領(lǐng)域已有的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,對目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行分類測試[10]。
本文提出了基于遷移成分分析(Transfer Component Analysis,TCA)的并發(fā)癥預(yù)測方法,首先對混亂的原始數(shù)據(jù)進(jìn)行預(yù)處理,篩選出有效信息。由于樣本量小而特征空間很大,因此在模型訓(xùn)練過程中引入基于特征的遷移學(xué)習(xí),對特征空間進(jìn)行降維,自適應(yīng)地選取最優(yōu)特征組合,大幅減少了模型訓(xùn)練的時間,同時通過支持向量機(jī)(Support Vector Machine,SVM)在源領(lǐng)域上進(jìn)行訓(xùn)練,對目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行分類測試。由于肝移植病歷數(shù)據(jù)較少,并且正負(fù)樣本不均衡,本文綜合采用準(zhǔn)確率和F1值作為度量標(biāo)準(zhǔn)[11]。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)機(jī)器學(xué)習(xí)模型,本文提出的采用基于TCA 和SVM 相結(jié)合的新型肝移植并發(fā)癥預(yù)測方法在預(yù)測準(zhǔn)確率和F1 值上均有較大提升。
本文的主要工作如下:
1)提出了一種基于TCA 和SVM 的肝移植并發(fā)癥預(yù)測方法,解決了傳統(tǒng)機(jī)器學(xué)習(xí)應(yīng)用在小樣本、大特征空間的肝移植醫(yī)療數(shù)據(jù)集預(yù)測上的不足,能提升并發(fā)癥分類預(yù)測的準(zhǔn)確率和F1值。
2)在劃分源領(lǐng)域和目標(biāo)領(lǐng)域的問題上,根據(jù)術(shù)前、術(shù)中、術(shù)后的不同時間節(jié)點(diǎn)采樣醫(yī)療數(shù)據(jù)構(gòu)成源領(lǐng)域和目標(biāo)領(lǐng)域,提供了一種劃分源領(lǐng)域和目標(biāo)領(lǐng)域的思路。
3)自適應(yīng)地實(shí)現(xiàn)最優(yōu)特征的選取,能有效提高模型訓(xùn)練的速度和效率。
本文提出了基于TCA 和SVM 的肝移植并發(fā)癥分類預(yù)測方法,對患者的臨床數(shù)據(jù)進(jìn)行分時采樣構(gòu)成源領(lǐng)域和目標(biāo)領(lǐng)域,利用TCA 將源領(lǐng)域和目標(biāo)領(lǐng)域映射到再生核希爾伯特空間同時進(jìn)行降維[12],提取有效臨床數(shù)據(jù)。源領(lǐng)域是指已經(jīng)進(jìn)行標(biāo)記的一批數(shù)據(jù),和目標(biāo)任務(wù)要預(yù)測的問題在一些知識層面上有著相關(guān)性;目標(biāo)領(lǐng)域是指沒有標(biāo)記的一批數(shù)據(jù),需要通過尋找與源領(lǐng)域的可遷移成分來獲得標(biāo)簽。利用SVM 在源領(lǐng)域上進(jìn)行訓(xùn)練,在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測分類,解決了樣本小、特征空間大的肝移植數(shù)據(jù)集給并發(fā)癥預(yù)測模型的訓(xùn)練和預(yù)測性能帶來的影響,提高了并發(fā)癥預(yù)測模型的預(yù)測性能。
1.1.1 TCA
同構(gòu)遷移學(xué)習(xí)應(yīng)用于源領(lǐng)域和目標(biāo)領(lǐng)域特征空間相似的場景。通過將源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)特征變換到統(tǒng)一的再生核希爾伯特空間來減小源領(lǐng)域和目標(biāo)領(lǐng)域之間的差距,然后再利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類預(yù)測[13]。按照不同的時間節(jié)點(diǎn)對肝移植患者的臨床數(shù)據(jù)進(jìn)行采樣,分成源領(lǐng)域和目標(biāo)領(lǐng)域,這樣劃分使得源領(lǐng)域和目標(biāo)領(lǐng)域間有一些交叉的特征,特征空間相似的同時,也有一些不同。通過遷移學(xué)習(xí)提取出共同特征實(shí)現(xiàn)降維。本文所采用的方法是TCA,以最大均值差異(Maximize Mean Discrepancy,MMD)作為度量準(zhǔn)則[14],將源領(lǐng)域和目標(biāo)領(lǐng)域映射到同一再生核希爾伯特空間,在該空間上實(shí)現(xiàn)邊緣分布自適應(yīng),根據(jù)TCA 的假設(shè),當(dāng)實(shí)現(xiàn)邊緣分布自適應(yīng)時,源領(lǐng)域和目標(biāo)領(lǐng)域同時滿足條件分布自適應(yīng)[15]。式(1)給出了最大均值差異的數(shù)學(xué)表達(dá)式:
其中:Xs、Xt分別表示源領(lǐng)域和目標(biāo)領(lǐng)域,n1、n2分別表示源領(lǐng)域和目標(biāo)領(lǐng)域的樣本個數(shù)。式(1)給出了映射后的源領(lǐng)域和目標(biāo)領(lǐng)域的均值之差,衡量了源領(lǐng)域和目標(biāo)領(lǐng)域的分布差異,MMD 的值越小,源領(lǐng)域和目標(biāo)領(lǐng)域的分布差異越小。目標(biāo)是求出映射函數(shù)φ使源領(lǐng)域和目標(biāo)領(lǐng)域映射后的數(shù)據(jù)分布盡可能相似。
映射函數(shù)φ是高度非線性的,直接對MMD 進(jìn)行優(yōu)化往往會陷入比較差的局部最小值,因此引入TCA的思想將MMD距離平方展開產(chǎn)生二次項(xiàng)乘積的部分,引入核函數(shù)將最大均值差異變換為下面的形式:
其中K為引入的核矩陣:
Ks,s、Ks,t、Kt,t分別表示在映射后的空間上的源領(lǐng)域、跨領(lǐng)域、目標(biāo)領(lǐng)域數(shù)據(jù)的核函數(shù)。
L為引入的一個分段函數(shù),其中Xs表示源領(lǐng)域,Xt表示目標(biāo)領(lǐng)域:
目標(biāo)函數(shù)的第一項(xiàng)最小化兩個分布之間的距離,第二項(xiàng)最大化特征空間的方差,其中λ≥0是一個權(quán)衡參數(shù)。
為了優(yōu)化求解這個問題,引入降維的思想直接構(gòu)造結(jié)果,用一個比K維度更低的矩陣W構(gòu)造結(jié)果[12]如下,其中為臨時變量:
代入到目標(biāo)函數(shù)中整理得到最終TCA的優(yōu)化目標(biāo)為:
這里的H是一個中心矩陣:
其中:I∈R(n1+n2)×(n1+n2);W即為最終要求的矩陣結(jié)果,優(yōu)化的目標(biāo)是最小化源領(lǐng)域和目標(biāo)領(lǐng)域的距離,約束則要求維持各自的數(shù)據(jù)特征,即維持?jǐn)?shù)據(jù)的散度。
算法的流程如下:
算法1 TCA。
輸入 源領(lǐng)域數(shù)據(jù)Xs,目標(biāo)領(lǐng)域數(shù)據(jù)Xt;
輸出 源領(lǐng)域經(jīng)過TCA 降維后的結(jié)果Ts,目標(biāo)領(lǐng)域經(jīng)過TCA降維后的結(jié)果Tt。
1)計(jì)算L和H矩陣;
2)選擇核函數(shù)計(jì)算K;
3)求解(KLK+μI)-1KHK的前m個特征值。
1.1.2 異構(gòu)域適應(yīng)
異構(gòu)遷移學(xué)習(xí)應(yīng)用于源領(lǐng)域和目標(biāo)領(lǐng)域特征空間不同的場景。Li等[16]提出了一種漸進(jìn)式對齊的方式來改善源領(lǐng)域和目標(biāo)領(lǐng)域的特征差異和分布發(fā)散問題。通過引入共享字典的思想,在源領(lǐng)域和目標(biāo)領(lǐng)域上學(xué)習(xí)一個新的可遷移的特征空間,然后在新空間上對齊分布差異[16]。此外,利用局部一致性,通過保持來自同一樣本的距離更近達(dá)到保留內(nèi)部屬性的目的。
以下公式所用符號的含義如表1所示。
表1 公式符號說明Tab.1 Formula symbol description
1)共享字典編碼。
由于源領(lǐng)域和目標(biāo)領(lǐng)域應(yīng)用的任務(wù)場景有相似之處,因此在源領(lǐng)域和目標(biāo)領(lǐng)域之間共享一個字典是可行的。通過共享字典編碼,源領(lǐng)域和目標(biāo)領(lǐng)域可以學(xué)習(xí)到新的可遷移的特征空間,如式(8)所示:
2)漸進(jìn)式對齊。
通過共享字典編碼學(xué)習(xí)到新的特征空間,然后在新的空間上對齊分布差異,利用最大均值差異作為衡量標(biāo)準(zhǔn):
3)局部一致性。
利用局部一致性原理,保持來自同一類的樣本距離較近,最小化如下目標(biāo):
最小化式(10)可以在新特征空間上保持樣本的近鄰關(guān)系,緩解負(fù)遷移。式(10)可以進(jìn)一步改寫為:
其中:L=D-W為拉普拉斯矩陣,是一個對角矩陣。
結(jié)合式(8)、(9)、(11),最終的目標(biāo)函數(shù)如下:
由于最終優(yōu)化的參數(shù)有3 個,可以通過固定其中兩個,迭代求解第三個,完整算法流程見算法2。
算法2 漸進(jìn)式對齊異構(gòu)域適應(yīng)(Heterogeneous Domain Adaptation,HDA)。
輸入Xs,Xt,參數(shù)α1,α2,β,γ,c;
輸出Xt的標(biāo)簽。
1)利用PCA初始化P,初始化B,計(jì)算MMD矩陣M;
2)迭代求解式(3)~(5)直到收斂或者到達(dá)最大迭代次數(shù);
3)固定B、P優(yōu)化S;
4)固定S、P優(yōu)化B;
5)固定S、B優(yōu)化P;
6)通過Ss分類St。
SVM 是由Vapnik 提出的基于統(tǒng)計(jì)學(xué)習(xí)理論并采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的一種機(jī)器學(xué)習(xí)方法[17],具有較強(qiáng)的泛化能力,采用數(shù)量有限的訓(xùn)練集就可以得到一個針對獨(dú)立測試集的分類錯誤率相對較小的分類模型,對于小樣本預(yù)測分類效果很好[18]。本文在對原始數(shù)據(jù)集進(jìn)行TCA 降維后,采用SVM在源領(lǐng)域進(jìn)行訓(xùn)練,在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測分類。
對肝移植術(shù)前、術(shù)中、術(shù)后三個階段的不同時間節(jié)點(diǎn)進(jìn)行采樣分成源領(lǐng)域和目標(biāo)領(lǐng)域,對源領(lǐng)域和目標(biāo)領(lǐng)域進(jìn)行TCA,將源領(lǐng)域和目標(biāo)領(lǐng)域映射到同一特征空間并進(jìn)行降維,在降維后的源領(lǐng)域訓(xùn)練SVM 模型,訓(xùn)練好的模型在目標(biāo)領(lǐng)域上進(jìn)行分類預(yù)測,輸出結(jié)果即為在目標(biāo)領(lǐng)域上的預(yù)測分類值,完整算法見算法3。
算法3 基于TCA和SVM的分類預(yù)測方法。
輸入Xs,Xt;
輸出 在目標(biāo)領(lǐng)域上的預(yù)測分類值Rt。
1)計(jì)算L和H矩陣;
2)選擇核函數(shù)計(jì)算K;
3)求解(KLK+μI)-1KHK的前m個特征值;
4)求解經(jīng)過TCA降維后的源領(lǐng)域和目標(biāo)領(lǐng)域;
5)采用SVM在源領(lǐng)域上進(jìn)行訓(xùn)練;
6)訓(xùn)練好的模型在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測分類。
圖1是本文提出的基于TCA和SVM的肝移植術(shù)后并發(fā)癥預(yù)測方法的完整流程。輸入數(shù)據(jù)是一批進(jìn)行過預(yù)處理的病歷數(shù)據(jù),在輸入層通過對數(shù)據(jù)在術(shù)前、術(shù)中和術(shù)后以相同時間間隔不同時間節(jié)點(diǎn)進(jìn)行采樣獲得源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù),源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行過TCA 映射到同一再生核希爾伯特空間,通過在遷移后的源領(lǐng)域數(shù)據(jù)上訓(xùn)練SVM 模型,并在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測獲得目標(biāo)領(lǐng)域的預(yù)測值,為預(yù)測的并發(fā)癥結(jié)果。
圖1 TCA結(jié)合SVM方法流程Fig.1 Flowchart of TCA combined with SVM
圖2是異構(gòu)域適應(yīng)結(jié)合SVM的預(yù)測方法示意圖,本文在后面實(shí)驗(yàn)部分對HDA 結(jié)合不同傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行比較,此處以SVM 為例說明。與算法3的不同之處在于源領(lǐng)域和目標(biāo)領(lǐng)域的遷移是通過異構(gòu)域適應(yīng)實(shí)現(xiàn),算法其余部分沒有差別。
圖2 HDA結(jié)合SVM方法流程Fig.2 Flowchart of HDA combined with SVM
本文采用的數(shù)據(jù)集是論文合作醫(yī)院的425 個肝移植患者的術(shù)前、術(shù)中、術(shù)后的診治記錄(脫敏后)。從肝移植患者病歷中抽取出重癥監(jiān)護(hù)室(Intensive Care Unit,ICU)護(hù)理記錄數(shù)據(jù)、病歷系統(tǒng)數(shù)據(jù)以及麻醉單監(jiān)護(hù)系統(tǒng)數(shù)據(jù)作為樣本輸入,五種并發(fā)癥以及是否死亡作為樣本標(biāo)簽結(jié)果,對每一種并發(fā)癥建立一個預(yù)測二分類數(shù)據(jù)集,具體信息見表2。數(shù)據(jù)集中包括425 條病歷記錄,每條病歷記錄有456 個臨床數(shù)據(jù)點(diǎn),由于部分病歷記錄和部分臨床數(shù)據(jù)點(diǎn)數(shù)據(jù)缺失,將完整無缺失的臨床數(shù)據(jù)點(diǎn)對應(yīng)的特征作為樣本輸入,缺失值對應(yīng)的特征作為標(biāo)簽建立決策樹預(yù)測并填補(bǔ)缺失值。對于部分醫(yī)療數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理減少它對其他特征的影響。
表2 實(shí)驗(yàn)數(shù)據(jù)集基本情況Tab.2 Basic situation of experimental dataset
肝移植數(shù)據(jù)點(diǎn)具體信息見表3。
表3 實(shí)驗(yàn)數(shù)據(jù)集中的肝移植特征Tab.3 Liver transplantation features in experimental dataset
對于已有的數(shù)據(jù)集,根據(jù)醫(yī)生專家指導(dǎo)將血常規(guī)指標(biāo)的術(shù)前2 d、4 d、6d、14 d、術(shù)后2 d、4 d、6d、14 d 的數(shù)據(jù)劃分為源領(lǐng)域,將術(shù)前1 d、3 d、5 d、7d、術(shù)后1 d、3 d、5 d、7d的數(shù)據(jù)劃分為目標(biāo)領(lǐng)域;將生化指標(biāo)術(shù)前2 d、4 d、6d、14 d、術(shù)后2 d、4 d、6d、14 d 的數(shù)據(jù)劃分為源領(lǐng)域,將術(shù)前1 d、3 d、5 d、7d、術(shù)后1 d、3 d、5 d、7d 的數(shù)據(jù)劃分為目標(biāo)領(lǐng)域;將血?dú)庵笜?biāo)的術(shù)前30 min、門脈開放時、門脈開放后30 min、門脈開放后150 min、進(jìn)入ICU 時、門脈開放后120 min 的數(shù)據(jù)劃分為源領(lǐng)域,將術(shù)前60 min、門脈開放時、門脈開放后60 min、手術(shù)結(jié)束時、門脈開放后60 min的數(shù)據(jù)作為目標(biāo)領(lǐng)域;將凝血指標(biāo)的術(shù)前2 h、4 h、6 h 手術(shù)結(jié)束后2 h、4 h、6 h、距手術(shù)結(jié)束2 h、4 h、6 h 的數(shù)據(jù)劃分為源領(lǐng)域,將術(shù)前1 h、3 h、5 h、7 h、術(shù)后1 h、3 h、5 h、7 h、距手術(shù)結(jié)束時1 h、3 h、5 h、7 h 的數(shù)據(jù)劃分為目標(biāo)領(lǐng)域;將術(shù)后輸血情況的紅細(xì)胞POD0、紅細(xì)胞POD2、紅細(xì)胞POD4、紅細(xì)胞POD6、紅細(xì)胞POD8、紅細(xì)胞POD10、紅細(xì)胞POD12、紅細(xì)胞POD14,血漿POD0、血漿POD2、血漿POD4、血漿POD6、血漿POD8、血漿POD10、血漿POD12、血漿POD14、血小板POD0、血小板POD2、血小板POD4、血小板POD6、血小板POD8、血小板POD10、血小板POD12、血小板POD14 劃分為源領(lǐng)域,將紅細(xì)胞POD1、紅細(xì)胞POD3、紅細(xì)胞POD5、紅細(xì)胞POD7、紅細(xì)胞POD9、紅細(xì)胞POD11、紅細(xì)胞POD13、紅細(xì)胞POD14+、血漿POD1、血漿POD3、血漿POD5、血漿POD7、血漿POD9、血漿POD11、血漿POD13、血漿POD14+、血小板POD1、血小板POD3、血小板POD5、血小板POD7、血小板POD9、血小板POD11、血小板POD13、血小板POD14+劃分為目標(biāo)領(lǐng)域。經(jīng)過以上處理,將病歷數(shù)據(jù)劃分為兩個數(shù)據(jù)集,兩個數(shù)據(jù)集數(shù)據(jù)數(shù)量相同、特征數(shù)相同,一個作為源領(lǐng)域數(shù)據(jù),另一個作為目標(biāo)領(lǐng)域數(shù)據(jù)。鑒于不同時間節(jié)點(diǎn)的醫(yī)療數(shù)據(jù)差異性明顯,因此這種對于源領(lǐng)域和目標(biāo)領(lǐng)域的劃分具有實(shí)際意義。下面對于源領(lǐng)域和目標(biāo)領(lǐng)域分別進(jìn)行TCA 降維,特征空間維度從456 維降到30 維,源領(lǐng)域和目標(biāo)領(lǐng)域的特征空間映射到特征分布一致的再生核希爾伯特空間,可由源領(lǐng)域進(jìn)行傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練預(yù)測分類目標(biāo)領(lǐng)域的標(biāo)簽。
由于并發(fā)癥樣本正負(fù)樣本數(shù)不均衡,準(zhǔn)確率無法全面評價實(shí)驗(yàn)結(jié)果,因此需要考慮更多評價指標(biāo)。F1 分?jǐn)?shù)同時兼顧了精確率和召回率,可以全面地評價正負(fù)樣本不均衡數(shù)據(jù)的預(yù)測結(jié)果,因此本文綜合采用準(zhǔn)確率和F1值作為實(shí)驗(yàn)結(jié)果評判標(biāo)準(zhǔn)。準(zhǔn)確率(acc)和F1值(f1)的計(jì)算公式如下:
本文同時比較了漸進(jìn)式對齊異構(gòu)域適應(yīng)(HDA)和主成分分析(Principal Components Analysis,PCA)分別結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法的預(yù)測分類結(jié)果。縱向比較了PCA、HDA 和TCA 分別結(jié)合SVM、K 最鄰近(K-NearestNeighbor,KNN)和極致梯度提升(eXtreme Gradient Boosting,XGBoost)的準(zhǔn)確率和F1 值,準(zhǔn)確率結(jié)果見圖3,F(xiàn)1 值結(jié)果見表4~6;同時還比較了SVM、KNN 和XGBoost 分別結(jié)合PCA、HDA 和TCA 的準(zhǔn)確率和F1值,準(zhǔn)確率結(jié)果見圖4,F(xiàn)1值結(jié)果見表7~9。
表4 SVM在PCA、TCA、HDA上的F1值結(jié)果Tab.4 F1 scores of SVM on PCA,TCA,HDA
表5 XGBoost在PCA、TCA、HDA上的F1值Tab.5 F1 scores of XGBoost on PCA,TCA,HDA
表6 KNN在PCA、TCA、HDA上的F1值Tab.6 F1 scores of KNN on PCA,TCA,HDA
表7 SVM、XGBoost、KNN在PCA上的F1值Tab.7 F1 scores of SVM,XGBoost,KNN on PCA
表8 SVM、XGBoost、KNN在TCA上的F1值Tab.8 F1 scores of SVM,XGBoost,KNN on TCA
表9 SVM、XGBoost、KNN在HDA上的F1值Tab.9 F1 scores of SVM,XGBoost,KNN on HDA
圖3 傳統(tǒng)機(jī)器學(xué)習(xí)在PCA、TCA、HDA上的準(zhǔn)確率對比Fig.3 Comparison of accuracy of traditional machine learning on PCA,TCA,HDA
圖4 SVM、KNN、XGBoost的準(zhǔn)確率對比Fig.4 Comparison of accuracy of SVM,KNN,XGBoost
從圖3 中可以看出,對于SVM、KNN 和XGBoost 三個傳統(tǒng)機(jī)器學(xué)習(xí)模型,分別結(jié)合TCA 在預(yù)測準(zhǔn)確率上比結(jié)合HDA 要略高一些,比PCA 降維要高出7.6%到47.7%;而在F1 值方面,TCA 結(jié)合SVM 在五個術(shù)后并發(fā)癥上表現(xiàn)很好,遠(yuǎn)遠(yuǎn)高于另外兩個方法結(jié)合SVM。圖3 中HDA 和PCA 降維在術(shù)后并發(fā)癥Ⅱ、術(shù)后并發(fā)癥Ⅲa、術(shù)后并發(fā)癥Ⅲb 上預(yù)測的F1 值為0,表示兩種方法在測試集上的預(yù)測結(jié)果都為負(fù),即預(yù)測都沒有并發(fā)癥,因此雖然兩種方法的準(zhǔn)確率比較高但F1 值表現(xiàn)很差,這是由肝移植并發(fā)癥樣本數(shù)很少,并且在不同術(shù)后并發(fā)癥上的正負(fù)樣本不均衡導(dǎo)致的,但是本文提出的基于TCA 和SVM的方法在預(yù)測準(zhǔn)確率和F1值上表現(xiàn)仍然很好。
從圖4 中可以看出,同樣使用PCA 降維的情況下,SVM、XGBoost 和KNN 的預(yù)測準(zhǔn)確率相差不大,XGBoost 的預(yù)測F1值在術(shù)后并發(fā)癥Ⅱ、術(shù)后并發(fā)癥Ⅲa、術(shù)后并發(fā)癥Ⅲb上要高于SVM 和KNN。SVM 和KNN 的預(yù)測F1 值都為0,表示SVM 和KNN 的預(yù)測結(jié)果都為負(fù),即預(yù)測測試樣例都沒有并發(fā)癥。同樣使用TCA 的情況下,SVM 的預(yù)測準(zhǔn)確率比KNN 和XGBoost平均高出7.8%~42.8%,在預(yù)測F1 值上要遠(yuǎn)遠(yuǎn)高于KNN 和XGBoost,SVM 的 預(yù) 測 準(zhǔn) 確 率 和F1 值 都 要 優(yōu) 于KNN 和XGBoost。同樣使用HDA 的情況下,SVM、KNN 和XGBoost 的預(yù)測準(zhǔn)確率相差不大,而預(yù)測F1 值三個模型表現(xiàn)都不是很好。
綜上可知:本文提出的基于TCA 和SVM 的肝移植術(shù)后并發(fā)癥預(yù)測方法在預(yù)測準(zhǔn)確率和F1值上都取得較好的結(jié)果。
本文給出了基于TCA 結(jié)合SVM 的肝移植并發(fā)癥預(yù)測方法。理論分析和實(shí)驗(yàn)檢驗(yàn)表明:1)采用基于特征的遷移學(xué)習(xí)可以有效地對特征空間很大的樣本數(shù)據(jù)進(jìn)行降維,避免了樣本不足情況下無法獲取足夠信息的缺點(diǎn),實(shí)現(xiàn)邊緣分布自適應(yīng);2)運(yùn)用SVM 可以可靠地應(yīng)對并發(fā)癥這樣的小樣本數(shù)據(jù)集,結(jié)合遷移學(xué)習(xí)能有效提升模型預(yù)測的準(zhǔn)確率和F1 值;3)對于源領(lǐng)域和目標(biāo)領(lǐng)域的劃分提供了一種思路。此外,從實(shí)驗(yàn)結(jié)果可以看出,并發(fā)癥的預(yù)測準(zhǔn)確率和F1 值很高,但是缺乏一定的可解釋性,后續(xù)工作也將進(jìn)一步研究基于專業(yè)醫(yī)學(xué)知識的特征自適應(yīng)選取,以獲得具有可解釋性的并發(fā)癥預(yù)測模型。