国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)的屬性約簡算法及其在肝癌微血管侵犯預(yù)測中的應(yīng)用

2019-12-23 07:19譚永奇樊建聰任延德周曉明
計算機(jī)應(yīng)用 2019年11期

譚永奇 樊建聰 任延德 周曉明

摘 要:基于鄰域粗糙集的屬性約簡算法在進(jìn)行屬性約簡時只考慮單一屬性對決策屬性的影響,未能考慮各屬性間的相關(guān)性,針對這個問題,提出了一種基于卡方檢驗的鄰域粗糙集屬性約簡算法(ChiSNRS)。首先,利用卡方檢驗計算相關(guān)性,在篩選重要屬性時考慮相關(guān)屬性之間的影響,在降低時間復(fù)雜度的同時提高了分類準(zhǔn)確率; 然后,將改進(jìn)的算法與梯度提升決策樹(GBDT)算法組合以建立分類模型,并在UCI數(shù)據(jù)集上對模型進(jìn)行驗證; 最后,將該模型應(yīng)用于預(yù)測肝癌微血管侵犯的發(fā)生。實驗結(jié)果表明,與未約簡、鄰域粗糙集約簡等幾種約簡算法相比,改進(jìn)算法在一些UCI數(shù)據(jù)集上的分類準(zhǔn)確率最高;在肝癌微血管侵犯預(yù)測中,與卷積神經(jīng)網(wǎng)絡(luò)(CNN)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)等預(yù)測模型相比,提出的模型在測試集上的預(yù)測準(zhǔn)確率達(dá)到了88.13%,其靈敏度、特異度和受試者操作曲線(ROC)的曲線下面積(AUC)分別為87.10%、89.29%和0.90,各指標(biāo)都達(dá)到了最好。因此,所提模型能更好地預(yù)測肝癌微血管侵犯的發(fā)生,能輔助醫(yī)生進(jìn)行更精確的診斷。

關(guān)鍵詞:屬性約簡;卡方檢驗;梯度提升樹;微血管侵犯;鄰域粗糙集

中圖分類號:TP181

文獻(xiàn)標(biāo)志碼:A

Improved attribute reduction algorithm and its application to

prediction of microvascular invasion in hepatocellular carcinoma

TAN Yongqi1, FAN Jiancong1,2*, REN Yande3, ZHOU Xiaoming3

1.College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao Shandong 266590, China;

2.Provincial Key Laboratory for Information Technology of Wisdom Mining of Shandong Province, Qingdao Shandong 266590, China;

3.The Affiliated Hospital of Qingdao University, Qingdao Shandong 266555, China

Abstract:

Focused on the issue that the attribute reduction algorithm based on neighborhood rough set only considers the influence of a single attribute on the decision attribute, and fails to consider the correlation among different attributes, a Neighborhood Rough Set attribute reduction algorithm based on Chisquare test (ChiSNRS) was proposed. Firstly, the Chisquare test was used to calculate the correlation, and the influence between the related attributes was considered when selecting the important attributes, making the time complexity reduced and the classification accuracy improved. Then, the improved algorithm and the Gradient Boosting Decision Tree (GBDT) algorithm were combined to establish a classification model and the model was verified on UCI datasets. Finally, the proposed model was applied to predict the occurrence of microvascular invasion in hepatocellular carcinoma. The experimental results show that the proposed algorithm has the highest classification accuracy on some UCI datasets compared with the reduction algorithm without reduction and neighborhood rough set reduction algorithm. In the prediction of microvascular invasion in hepatocellular carcinoma, compared with Convolution Neural Network (CNN), Support Vector Machine (SVM) and Random Forest (RF) prediction models, the proposed model has the prediction accuracy of 88.13% in test set, the sensitivity, specificity and the Area Under Curve (AUC) of Receiver Operating Curve (ROC) of 88.89%, 87.5% and 0.90 respectively are the best. Therefore, the prediction model proposed can better predict the occurrence of microvascular invasion in hepatocellular carcinoma and assist doctors to make more accurate diagnosis.

Key words:

attribute reduction; Chisquare test; gradient boosting tree; microvascular invasion; neighborhood rough set

0?引言

原發(fā)性肝細(xì)胞癌(HepatoCellular Carcinoma, HCC)是最常見的惡性腫瘤之一,在我國HCC惡性腫瘤致死率排名第二位[1]。HCC術(shù)后復(fù)發(fā)率高、無瘤生存率低的特點一直是研究者們關(guān)注的重點[2]。有研究發(fā)現(xiàn)影響HCC術(shù)后復(fù)發(fā)和無瘤生存的因素有很多,其中,微血管侵犯(MicroVascular Invasion, MVI)一直被認(rèn)為是重要影響因素[3-4]。

近年來,國內(nèi)外引入一些模型和方法來預(yù)測微血管侵犯的發(fā)生,用來輔助臨床醫(yī)生進(jìn)行診斷決策[5-6]:文獻(xiàn)[7]采用單因素分析和Logistic多因素回歸分析方法,研究證明腫瘤病理學(xué)分級是無微血管侵犯的肝細(xì)胞癌術(shù)后復(fù)發(fā)和無瘤存活的關(guān)鍵預(yù)測因子;文獻(xiàn)[8]從影像組學(xué)出發(fā)探討MVI發(fā)生與影像組學(xué)特征之間的關(guān)系,經(jīng)圖像分割、特征提取、特征篩選和分類判別,使用支持向量機(jī)(Support Vector Machine, SVM)模型進(jìn)行預(yù)測,受試者操作曲線下的面積達(dá)到了0.76;文獻(xiàn)[9]從肝臟磁共振T2加權(quán)成像圖像紋理特征出發(fā),對紋理特征進(jìn)行統(tǒng)計學(xué)分析,其受試者操作曲線下的面積達(dá)到了0.78。上述方法集中在研究與MVI發(fā)生的相關(guān)性因素以及利用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行建模分析,在特征提取方面,沒有充分考慮特征之間的冗余性和相關(guān)性,導(dǎo)致效果不理想。

粗糙集理論(Rough Sets)是一種進(jìn)行數(shù)據(jù)分析的理論工具,用于處理模糊的、不完全和海量的數(shù)據(jù),可對數(shù)據(jù)進(jìn)行降維和特征提取,在各個領(lǐng)域都有廣泛的應(yīng)用[10-11]。文獻(xiàn)[12]將粗糙集理論與模糊C均值(Fuzzy CMeans, FCM)算法結(jié)合,提出一種改進(jìn)的主分量啟發(fā)式屬性約簡算法進(jìn)行降維,用來對軌道電路故障進(jìn)行診斷。粗糙集理論限制數(shù)據(jù)為離散類型,在處理連續(xù)型數(shù)據(jù)時需要進(jìn)行離散化,這會導(dǎo)致數(shù)據(jù)信息的丟失。鄰域粗糙集是在粗糙集理論的基礎(chǔ)上提出的一種可以直接處理連續(xù)性數(shù)據(jù)的理論,避免了信息的丟失,能夠更好地對數(shù)據(jù)進(jìn)行特征的提取,在醫(yī)學(xué)決策[13]、農(nóng)業(yè)治理[14]、故障檢測[15]等方面都有廣泛應(yīng)用。文獻(xiàn)[16]將鄰域粗糙集和粒子群優(yōu)化算法進(jìn)行結(jié)合,用來提取腫瘤分類的特征基因。文獻(xiàn)[17]提出了在鄰域粗糙集框架下的熵測度,設(shè)計了一種基于鄰域顆粒和熵測度的基因選擇算法。從上述文獻(xiàn)中可以看出,大多數(shù)文獻(xiàn)沒有考慮屬性間的相關(guān)性,可能會導(dǎo)致屬性約簡效果不理想,因此,本文引入卡方檢驗計算相關(guān)性的方法,提出了一種基于卡方檢驗的鄰域粗糙集屬性約簡算法(Neighborhood Rough Set attribute reduction algorithm based on ChiSquare test, ChiSNRS),充分考慮屬性間的相關(guān)性,篩選出最主要的屬性,并與梯度提升樹模型結(jié)合來建立肝癌微血管侵犯預(yù)測模型,旨在為術(shù)前MVI的診斷提供有效的幫助。

1?相關(guān)理論

1.1?鄰域粗糙集

粗糙集理論是由波蘭數(shù)學(xué)家Pawlak在1982年提出來的,是一種處理分析不確定的知識和有模糊數(shù)據(jù)的數(shù)學(xué)工具,其主要思想是將那些不精確的或者不確定的知識用已經(jīng)存在于知識庫中的知識來近似地表達(dá)。粗糙集理論的核心內(nèi)容是屬性約簡,屬性約簡是一個剔除冗余屬性的過程。

關(guān)于鄰域粗糙集的相關(guān)定義如下:

定義1?在給定的一個M維實數(shù)空間Ω中,有Δ=RN×RN→R,則稱Δ為RN上的一個度量(距離),若Δ滿足以下的3個條件:

1)Δ(x1,x2)≥0,當(dāng)且僅當(dāng)x1=x2時等號成立,x1,x2∈RN;

2)Δ(x1,x2)=Δ(x2,x1),x1,x2∈RN;

3)Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3),x1,x2,x3∈RN。

則稱(Ω,Δ)為度量空間。Δ(xi,xj)為距離函數(shù),用來表示元素xi和元素xj之間的距離。

定義2?存在于給定的實數(shù)空間Ω上的一個非空有限集合U={x1,x2,…,xn},對xi的δ鄰域定義為:

δ(xi)={x|x∈U,Δ(x,xi)≤δ}(1)

其中δ≥0。

定義3?在給定實數(shù)空間Ω上的非空有限集合U={x1,x2,…,xn}及其上的鄰域關(guān)系N,即二元組NS=(U,N),XU,則X在鄰域近似空間NS=(U,N)中的上近似和下近似分別為:

NX={xi|δ(xi)∩X≠,xi∈U}(2)

NX={xi|δ(xi)X,xi∈U}(3)

則可以得出X的近似邊界為:

BN(X)=NX-NX(4)

其中X的下近似NX為正域,與X完全無關(guān)的區(qū)域為負(fù)域,即:

Pos(X)=NX(5)

Neg(X)=U-NX(6)

定義4?給定一個鄰域決策系統(tǒng)NDS=(U,C∪D),決策屬性D將論域U劃分為N個等價類(X1,X2,…,XN),BC則決策屬性D關(guān)于子集B的上、下近似分別為:

NBD=∪Ni=1NBXi(7)

NBD=∪Ni=1NBXi(8)

其中,

NBX={xi|δB(xi)∩X≠,xi∈U}(9)

NBX={xi|δB(xi)X,xi∈U}(10)

同樣可得決策系統(tǒng)的邊界為:

BN(D)=NBD-NBD(11)

鄰域決策系統(tǒng)的正域和負(fù)域分別為:

PosB(D)=NBD(12)

NegB(D)=U-NBD (13)

決策屬性D對條件屬性B的依賴度為:

kD=γB(D)=|PosB(D)||U| (14)

由式(14)可得依賴度kD是單調(diào)的,若B1B2…A,則γB1(D)≤γB2(D)≤…≤γA(D),則條件屬性B相對于決策屬性D的重要度為:

sigγ(B,C,D)=γC(D)-γC-B(D) (15)

1.2?基于列聯(lián)表的獨立性卡方檢驗

卡方檢驗是一種常用的計算兩個變量之間相關(guān)性大小的數(shù)學(xué)工具,它主要包括適合性檢驗和獨立性檢驗。在獨立性檢驗中,最常用的是統(tǒng)計量,對于二分類問題常用的方法是利用2×2列聯(lián)表進(jìn)行相關(guān)性的計算,在肝癌微血管侵犯的預(yù)測中,肝癌病人只有有微血管侵犯和無微血管侵犯兩種,因此選擇使用2×2列聯(lián)表進(jìn)行相關(guān)性的計算。2×2列聯(lián)表的形式如表1所示。

一般地,對于兩個研究變量X和Y,X有兩個取值X1和X2,Y有兩個取值Y1和Y2,于是得到表1所示的統(tǒng)計數(shù)據(jù)。要推斷兩個變量X和Y是否具有相關(guān)性以及相關(guān)性的大小,可按照下列步驟進(jìn)行:

1)提出假設(shè)H0: X和Y沒有關(guān)系,則假設(shè)H1:X和Y有關(guān)系。

2)根據(jù)2×2列聯(lián)表和式(16)計算卡方值:

χ2=n(ad-bc)2(a+b)+(c+d)+(a+c)+(b+d)(16)

其中n=a+b+c+d。

3)查對臨界值,根據(jù)臨界值檢驗卡方檢驗是否具有統(tǒng)計學(xué)意義。若結(jié)果表明有統(tǒng)計學(xué)意義,則統(tǒng)計量的值越大,兩個變量的相關(guān)性越強(qiáng), 即拒絕假設(shè)H0,接受假設(shè)H1,得出結(jié)論,X和Y有關(guān)系。

1.3?梯度提升決策樹

梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)是基于一種梯度提升框架的決策樹分類算法,“梯度提升”指的是在每一次迭代的過程中,都需要減少上一次迭代中的殘差,而在殘差減少的梯度方向上建立一個新的模型。決策樹是依據(jù)特定的分裂原則將特征空間劃分為多個區(qū)域,每個區(qū)域返回一個值作為決策樹的決策值。

將梯度提升的思想與決策樹分類算法相結(jié)合,即在每一次迭代中,在上一次迭代產(chǎn)生的模型的殘差減少的梯度方向上建立一棵新的決策樹模型,若迭代次數(shù)為N次,則會得到N個決策樹模型,這N個模型又稱為弱分類器,通過對N個弱分類器的加權(quán)處理或者投票選擇而構(gòu)成一個最終的GBDT分類器模型。其訓(xùn)練過程如下所示。

1)初始化弱分類器

2)對于迭代輪數(shù)m=1,2,…,M,執(zhí)行:

①對每個訓(xùn)練樣本i=1,2,…,N,計算負(fù)梯度,即殘差:

rim=-L(yi, f(xi))f(xi)f(x)=fm-1(x)(17)

②將①中得到的殘差作為樣本新的真實值,并將數(shù)據(jù)(xi,rim)(i=1,2,…,N)作為下一棵決策樹訓(xùn)練數(shù)據(jù),得到一棵新的回歸樹fm(x),其對應(yīng)的葉子節(jié)點區(qū)域為Rjm(j=1,2,…,J),其中J為回歸樹t的葉子節(jié)點的個數(shù)。

③對葉子節(jié)點所在的區(qū)域j=1,2,…,J計算最佳的擬合值:

γjm=argminγ∑xi∈RjmL(yi, fm-1(xi)+γ)(18)

④更新強(qiáng)分類器:

fm(x)=fm-1(x)+∑Jj=1γjmI; x∈Rjm(19)

3)得到強(qiáng)分類器:

f(x)=fM(x)+∑Mm=1∑Jj=1γjmI; x∈Rjm(20)

2?基于卡方檢驗的鄰域粗糙集屬性約簡算法

2.1?算法主要思想描述

從式(15)中可以看到屬性重要度的計算公式為sigγ(B,C,D)=γc(D)-γC-B(D),這意味著某個屬性B的重要度等于從條件屬性C中剔除屬性B后對分類決策屬性的影響程度。當(dāng)某個屬性的重要度數(shù)值為0時,表明該屬性對分類決策屬性沒有任何影響,可以進(jìn)行約簡刪除。

從上述描述中可以看出鄰域粗糙集屬性約簡算法在利用依賴度計算重要度時,僅僅考慮了某個單一屬性對決策屬性的直接影響,沒有考慮到多個屬性之間的相互作用,這可能會使某些重要的屬性被誤刪除,導(dǎo)致約簡效果的不理想,影響最終的分類效果。

文獻(xiàn)[18]提出了一種改進(jìn)的鄰域粗糙集屬性約簡算法,該算法在計算某一屬性重要度時考慮了除該屬性外的所有其他的屬性,實驗效果較為理想,但該算法沒有考慮到某一屬性與其他屬性之間的相關(guān)性的大小,因此本文提出了一種基于卡方檢驗的鄰域粗糙集屬性約簡算法(ChiSNRS)。卡方檢驗是一種計算屬性之間相關(guān)性的假設(shè)檢驗方法,通過與鄰域粗糙集屬性約簡算法相結(jié)合,既考慮單一條件屬性的重要度,又考慮與該屬性相關(guān)性大的屬性的影響,從而對冗余屬性進(jìn)行約簡。

定義5?給定一個鄰域決策系統(tǒng)NDS=(U,C∪D),決策屬性D將論域U劃分為N個等價類(X1,X2,…,XN),BC,若biB,由卡方檢驗計算出與屬性bi最為相關(guān)的m個屬性k1,k2,…,km組成相關(guān)屬性集合Km,即k1,k2,…,kmKm,則對任意單個屬性bi在條件屬性集C相對于決策屬性D的重要度為:

sigγ(bi,C,D)=sigγ(bi,C,D)+

1m∑mj=1[sigγ(kj,C-bi,D)-sigγ(kj,C,D)]=

γC(D)-γC-bi(D)+

1m∑mj=1[γC-bi(D)-γC-bi-kj(D)-

(γC(D)-γC-kj(D))](21)

其中:sigγ(bi,C,D)為原始的bi對決策屬性D的重要度,即條件屬性集C對決策屬性D的依賴度與去除bi后的條件屬性集對決策屬性D的依賴度之差。

sigγ(kj,C-bi,D)可看作條件屬性bi的相關(guān)屬性集合Km中的某個相關(guān)屬性kj在條件屬性集C除bi后的集合對決策屬性D的重要度,其計算公式等同于:sigγ(kj,C-bi,D)=γC-bi(D)-γC-bi-kj(D),可以解釋為除bi后的條件屬性集對決策屬性D的依賴度與除bi和bi的相關(guān)屬性kj后的條件屬性集對決策屬性D的依賴度之差。

sigγ(kj,C,D)指的是bi的相關(guān)屬性kj在條件屬性集C相對于決策屬性D的重要度。

sigγ(kj,C-bi,D)-sigγ(kj,C,D)指bi的相關(guān)屬性kj在條件屬性集C除bi后的集合相對于決策屬性D的重要度與bi的相關(guān)屬性kj在條件屬性集C相對于決策屬性D的重要度之差,即為屬性bi在其相關(guān)屬性kj影響下對決策屬性的影響所起到的作用。

1m∑mj=1[sigγ(kj,C-bi,D)-sigγ(kj,C,D)]指bi的相關(guān)屬性集中每一個屬性在除bi后的條件屬性集相對于決策屬性的重要度與bi的相關(guān)屬性集中每一個屬性在條件屬性集相對于決策屬性的重要度的差值的和然后取其平均,即bi在其相關(guān)屬性對決策屬性的影響所起到的平均作用。

以上理論均可以解釋得通,因此定義的鄰域粗糙集屬性重要度的計算公式是可行的,即屬性bi對于決策屬性的D的重要度由兩部分組成:一部分是刪除屬性bi后,決策屬性D直接依賴于條件屬性bi降低的幅度;另一部分是刪除屬性bi和其相關(guān)屬性kj后,其他條件屬性對決策屬性的影響所起到的作用。

2.2?UCI數(shù)據(jù)集驗證

為了驗證本文提出的基于卡方檢驗的鄰域粗糙集屬性約簡算法的有效性,運用基于鄰域粗糙集的屬性約簡算法和本文改進(jìn)的算法分別對UCI上的數(shù)據(jù)集進(jìn)行屬性約簡實驗,并運用梯度提升決策樹分類器模型計算兩種算法屬性約簡前后的分類準(zhǔn)確率,最后根據(jù)分類準(zhǔn)確率評估兩種屬性約簡算法的效果。本文選擇的UCI數(shù)據(jù)集的屬性信息如表2所示。

本文將改進(jìn)的算法與基于鄰域粗糙集的屬性約簡算法應(yīng)用于4個UCI數(shù)據(jù)集中,對數(shù)據(jù)集進(jìn)行屬性約簡后,獲得了對應(yīng)的約簡后的屬性個數(shù)如表3所示。

運用GBDT分類器模型對約簡前后的屬性進(jìn)行分類識別,得到兩種算法屬性約簡后的識別準(zhǔn)確率如表4所示。從表4中可以得出,基于鄰域粗糙集的屬性約簡算法在進(jìn)行約簡時,會導(dǎo)致一些重要屬性被剔除,影響分類的識別準(zhǔn)確率。然而,本文改進(jìn)的基于卡方檢驗的鄰域粗糙集屬性約簡算法,在計算屬性重要度時考慮了多個相關(guān)屬性間的影響,保留了一些重要屬性,在適當(dāng)降低特征維數(shù)的同時,提高了最終的分類識別準(zhǔn)確率。

3?肝癌微血管侵犯預(yù)測實驗

3.1?屬性約簡效果評估

本文選取的數(shù)據(jù)集來源于放射科醫(yī)師收集的已進(jìn)行肝癌手術(shù)的206例病人的醫(yī)學(xué)影像,經(jīng)圖像分割和特征提取之后,共得到了64個影像組學(xué)特征用于微血管侵犯的預(yù)測研究,而且每個肝癌病人微血管侵犯的有無已準(zhǔn)確診斷。

屬性約簡的算法多種多樣,本文選擇未屬性約簡(unreduction)、基于鄰域粗糙集的屬性約簡(NRS reduction)和基于卡方檢驗的屬性約簡(ChiS reduction)與本文改進(jìn)的鄰域粗糙集屬性約簡(ChisNRS reduction)算法進(jìn)行對比,將約簡后的屬性放到梯度提升樹分類模型中建立肝癌微血管侵犯預(yù)測模型,并將肝癌數(shù)據(jù)中的75%作為訓(xùn)練集用來訓(xùn)練預(yù)測模型,剩余25%作為測試集用來測試模型效果。從約簡后的屬性和約簡后分類準(zhǔn)確率兩方面評估,結(jié)果如圖1所示。

圖片

通過實驗發(fā)現(xiàn),鄰域粗糙集屬性約簡后的個數(shù)最少,但最終的分類準(zhǔn)確率卻高于基于卡方檢驗的屬性約簡算法,這是因為基于卡方檢驗的屬性約簡算法在采用列聯(lián)表計算屬性相關(guān)性時,需要對數(shù)據(jù)進(jìn)行離散化處理,可能會影響分類準(zhǔn)確率,而基于鄰域粗糙集的屬性約簡可以直接對連續(xù)數(shù)據(jù)進(jìn)行處理,知識約簡更準(zhǔn)確。本文改進(jìn)的基于卡方檢驗的鄰域粗糙集屬性約簡算法約簡后的屬性相對多了幾個,但準(zhǔn)確率卻高于其他幾種算法,這是因為本文算法考慮到了屬性間互相影響的作用,提取了更多的重要屬性,在最終的對比實驗上也取得了最優(yōu)的效果。

3.2?分類器模型效果評估

本文將改進(jìn)的屬性約簡算法分別與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest, RF)等常用分類模型結(jié)合建立肝癌微血管侵犯預(yù)測模型,與基于GBDT的肝癌微血管侵犯預(yù)測模型進(jìn)行比較,使用混淆矩陣來評估每個模型分類準(zhǔn)確率、靈敏度和特異度,并使用受試者操作曲線(Receiver Operating Curve, ROC)及曲線下的面積(Area Under Curve, AUC)評估模型的好壞。

在本文提出的基于卡方檢驗的屬性約簡算法和梯度提升樹結(jié)合的肝癌微血管侵犯預(yù)測模型中,在實驗參數(shù)設(shè)計上,選擇的相關(guān)性變量個數(shù)m的值是5。

肝癌微血管侵犯預(yù)測屬于二分類問題,而混淆矩陣是一個基于二分類的二維矩陣。對于預(yù)測微血管侵犯的有無,可以產(chǎn)生實際有MVI預(yù)測為有MVI(TP(True Positive))、實際有MVI預(yù)測為無MVI(FP(False Positive))、實際無MVI預(yù)測為有MVI(FN(False Negative))、實際無MVI預(yù)測為無MVI(TN(True Negative))四種情況構(gòu)成混淆矩陣。如表5所示的肝癌微血管侵犯預(yù)測的混淆矩陣。根據(jù)混淆矩陣,使用式(22)~(24)計算每個模型的準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)和特異度(Specificity)。分類準(zhǔn)確率是指模型對有無MVI預(yù)測正確的比例,靈敏度指的是所有患MVI的病人中模型預(yù)測正確的比例,特異度指的是所有未患MVI的健康人中模型預(yù)測正確的比例。

受試者操作曲線(ROC)是評價醫(yī)學(xué)分類模型的通用指標(biāo),ROC曲線表示了模型的真正例率和假正例率之間的關(guān)系,主要與模型評價中的靈敏度和特異度指標(biāo)有關(guān)。

Accuracy=TP+TNTP+FP+FN+TN(22)

Sensitivity=TPTP+FN (23)

Specificity=TNTN+FP(24)

將本文模型和其余模型的二維混淆矩陣中的值代入公式計算每個模型在測試集上的靈敏度和特異度,如表6所示。

將靈敏度作為坐標(biāo)軸的縱軸,1-特異度作為橫軸,得到各個肝癌微血管侵犯預(yù)測模型在測試集上的ROC曲線及曲線下的面積(AUC)如圖2所示。

從表6可知,在處理醫(yī)學(xué)數(shù)據(jù)中較新的模型CNN和RNN的效果不好,分析原因得出深度學(xué)習(xí)模型要求的數(shù)據(jù)量是巨大的,而對于本文的肝癌微血管侵犯的數(shù)據(jù)量只有200多個,深度模型無法從較少的數(shù)據(jù)中學(xué)到更多的知識。而在處理醫(yī)學(xué)數(shù)據(jù)中常用的SVM和RF兩種模型較深度模型效果有所提高。本文改進(jìn)的肝癌微血管侵犯預(yù)測模型在測試集上的準(zhǔn)確率、靈敏度和特異度分別達(dá)到了88.13%、87.10%和89.29%,相較于其他模型效果提升明顯。圖2表示各個預(yù)測模型的ROC曲線以及曲線下的面積AUC的值,可以看出,本文模型與其他分類器模型相比較,ROC曲線下的面積AUC值達(dá)到了0.90,表明本文模型在肝癌微血管侵犯預(yù)測上準(zhǔn)確率最高,效果最好,能為術(shù)前肝癌病人的微血管侵犯的有無提供有效的預(yù)測和精確的診斷。

4?結(jié)語

在當(dāng)今人工智能迅猛發(fā)展的時代,智能醫(yī)療診斷已經(jīng)成為醫(yī)學(xué)發(fā)展的重要趨勢,機(jī)器學(xué)習(xí)算法以及疾病預(yù)測模型的研究已經(jīng)成為醫(yī)學(xué)數(shù)據(jù)挖掘的值得深入探討的課題。本文提出的算法在對肝癌微血管侵犯預(yù)測上進(jìn)行了相關(guān)的研究,為了驗證本文算法的有效性,分別從屬性約簡效果和分類器模型效果進(jìn)行比較,驗證了本文改進(jìn)的基于卡方檢驗的鄰域粗糙集屬性約簡算法在對肝癌病人特征約簡上的有效性,并從該算法與梯度提升決策樹分類模型結(jié)合的分類準(zhǔn)確率、敏感度和特異度上來看,該預(yù)測模型在術(shù)前預(yù)測肝癌病人有無微血管侵犯上都有很好的效果,能夠在醫(yī)學(xué)肝癌微血管侵犯診斷上發(fā)揮積極作用。

但本文只針對于屬性約簡算法作了改進(jìn),在將該算法與分類算法融合時未能對分類算法提出改進(jìn),而且本文的應(yīng)用范圍只局限在肝癌微血管侵犯數(shù)據(jù),未來在其他數(shù)據(jù)上驗證效果。因此在下一步工作中,可以從分類模型和應(yīng)用范圍兩個方面作一些改進(jìn),可能會有更好的結(jié)果。

參考文獻(xiàn) (References)

[1]FERLAY J, SOERJOMATARAM I, DIKSHIT R, et al. Cancer incidence and mortality worldwide: sources, methods and major patterns in GLOBOCAN 2012[J]. International Journal of Cancer, 2015, 136(5): E359-E386.

[2]BRUIX J, GORES G J, MAZZAFERRO V. Hepatocellular carcinoma: clinical frontiers and perspectives[J]. Gut, 2014, 63(5): 844-855.

[3]CHENG Z, YANG P, QU S, et al. Risk factors and management for early and late intrahepatic recurrence of solitary hepatocellular carcinoma after curative resection[J]. HPB, 2015, 17(5): 422-427.

[4]ZHAO H, HUA Y, DAI T, et al. Development and validation of a novel predictive scoring model for microvascular invasion in patients with hepatocellular carcinoma[J]. European Journal of Radiology, 2017, 88: 32-40.

[5]YANG P, SI A, YANG J, et al. A widemargin liver resection improves longterm outcomes for patients with HBVrelated hepatocellular carcinoma with microvascular invasion[J]. Surgery, 2019, 165(4): 721-730.

[6]馬海, 王宇, 楊紅春,等. 預(yù)測肝癌微血管侵犯及早期復(fù)發(fā)的臨床研究[J]. 中華臨床醫(yī)師雜志(電子版), 2012, 6(20): 58-60.(MA H, WANG Y, YANG H C, et al. Clinical study on predicting microvascular invasion and early recurrence of hepatocellular carcinoma[J]. Chinese Journal of Clinical Physicians (Electronic Edition), 2012, 6(20): 58-60.)

[7]ZHOU L, RUI J, ZHOU W, et al. EdmondsonSteiner grade: a crucial predictor of recurrence and survival in hepatocellular carcinoma without microvascular invasion[J]. Pathology Research and Practice, 2017, 213(7): 824-830.

[8]劉桐桐, 董怡, 韓紅,等. 基于影像組學(xué)方法的原發(fā)性肝細(xì)胞癌微血管侵犯和腫瘤分化等級預(yù)測[J]. 中國醫(yī)學(xué)計算機(jī)成像雜志, 2018, 24(1): 83-87.(LIU T T, DONG Y, HAN H, et al. Prediction of microvascular invasion and tumor differentiation grade in hepatocellular carcinoma based on radiomics[J]. Chinese Journal of Medical Computer Imaging, 2018, 24(1): 83-87.)

[9]武明輝, 譚紅娜, 吳青霞,等. 肝臟磁共振T2WI圖像紋理特征預(yù)測肝細(xì)胞癌患者微血管侵犯的價值[J]. 中國癌癥雜志, 2018, 28(3): 191-196.(WU M H, TAN H N, WU Q X, et al. Value of MRI T2weighted image texture analysis in evaluating the microvascular invasion for hepatocellular carcinoma[J]. Chinese Journal of Cancer, 2018, 28(3): 191-196.)

[10]VELAYUTHAM C, THANGAVEL K. Detection and elimination of pectoral muscle in mammogram images using rough set theory[C]// Proceedings of the 2012 IEEE International Conference on Advances in Engineering, Science and Management. Piscataway: IEEE, 2012: 48-54.

[11]XIE Q, ZENG H, RUAN L, et al. Transformer fault diagnosis based on Bayesian network and rough set reduction theory[C]// Proceedings of the 2013 IEEE TENCON Spring Conference. Piscataway: IEEE, 2013: 262-266.

[12]李林霄, 董昱. 基于粗糙集理論和FCM的軌道電路故障診斷模型[J]. 鐵道標(biāo)準(zhǔn)設(shè)計,2018(12): 169-173.(LI L X, DONG Y. Track circuit fault diagnosis model based on principal component heuristic algorithm[J]. Railway Standard Design, 2018(12): 169-173.)

[13]WANG S, LI X, ZHANG S, et al. Tumor classification by combining PNN classifier ensemble with neighborhood rough set based gene reduction[J]. Computers in Biology and Medicine, 2010, 40(2):179-189.

[14]LIU Y, XIE H, CHEN Y, et al. Neighborhood mutual information and its application on hyperspectral band selection for classification[J]. Chemometrics and Intelligent Laboratory Systems, 2016, 157: 140-151.

[15]LI N, ZHOU R, HU Q, et al. Mechanical fault diagnosis based on redundant second generation wavelet packet transform, neighborhood rough set and support vector machine[J]. Mechanical Systems and Signal Processing, 2012,28: 608-621.

[16]徐久成, 徐天賀, 孫林,等. 基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類特征基因選取[J]. 小型微型計算機(jī)系統(tǒng), 2014, 35(11): 2528-2532.(XU J C, XU T H, SUN L, et al. Feature selection for cancer classification based on neighborhood rough set and particle swarm optimization[J]. Journal of Chinese Computer Systems, 2014, 35(11): 2528-2532.)

[17]CHEN Y, ZHANG Z, ZHENG J, et al. Gene selection for tumor classification using neighborhood rough sets and entropy measures[J]. Journal of Biomedical Informatics, 2017, 67: 59-68.

[18]胡瑋. 基于改進(jìn)鄰域粗糙集和隨機(jī)森林算法的糖尿病預(yù)測研究[D].北京: 首都經(jīng)濟(jì)貿(mào)易大學(xué), 2018: 14-16.(HU W. Research on prediction of diabetes based on improved neighborhood rough set and random forest algorithm[D]. Beijing: Capital University of Business and Economics, 2018: 14-16.)

This work is partially supported by the National Key Research and Development Program of China (2017YFC0804406), the Shandong Natural Science Foundation (ZR2018MF009), the “Taishan Scholar” Climbing Plan in Shandong Province.

TAN Yongqi, born in 1994, M. S. candidate. His research interests include data mining, machine learning.

FAN Jiancong, born in 1977, Ph. D., professor. His research interests include data mining, machine learning.

REN Yande, born in 1973, Ph. D., deputy chief physician. His research interests include neuroimaging study.

ZHOU Xiaoming, born in 1977, M. S., deputy chief physician. His research interests include abdominal imaging diagnosis.

资源县| 建湖县| 绥江县| 太仆寺旗| 潜山县| 敦化市| 柏乡县| 阳东县| 宁武县| 固始县| 斗六市| 灌南县| 贵州省| 白沙| 通州区| 长治市| 当涂县| 甘南县| 富裕县| 衡水市| 久治县| 施秉县| 乐陵市| 德惠市| 临潭县| 博罗县| 新蔡县| 台中县| 固阳县| 桓台县| 嘉义县| 柳林县| 屏南县| 张掖市| 靖安县| 伊宁县| 图们市| 馆陶县| 临泽县| 堆龙德庆县| 峨眉山市|