孫 靜,孫興旺
粗糙集方法在醫(yī)學(xué)影像診斷分析中的應(yīng)用
孫 靜1,孫興旺2
(1.西安醫(yī)學(xué)院醫(yī)學(xué)技術(shù)系,陜西西安710021;2.西安交通大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院,陜西西安710061)
醫(yī)學(xué)診斷常面對(duì)越來(lái)越多的醫(yī)學(xué)影像數(shù)據(jù)信息,比較不同分析方法對(duì)于疾病診斷十分必要。對(duì)183例腦膠質(zhì)瘤的MR資料分別使用粗糙集理論和logistic回歸分析方法導(dǎo)出影像診斷規(guī)則。與病理結(jié)果對(duì)比后發(fā)現(xiàn),使用粗糙集理論的診斷規(guī)則準(zhǔn)確性高于其他統(tǒng)計(jì)方法。粗糙集理論對(duì)提高醫(yī)學(xué)影像學(xué)診斷水平有更好的臨床應(yīng)用價(jià)值。
粗糙集;醫(yī)學(xué)影像;診斷規(guī)則
隨著醫(yī)學(xué)科技的發(fā)展,醫(yī)院信息管理系統(tǒng)中的信息飛速增加,數(shù)據(jù)庫(kù)逐年增長(zhǎng),信息包括電子病歷、數(shù)字化醫(yī)學(xué)影像圖像、實(shí)驗(yàn)室檢驗(yàn)結(jié)果、病理參數(shù)等等。醫(yī)學(xué)診斷是基于信息的推理過(guò)程,對(duì)有效信息的獲取最為關(guān)鍵,醫(yī)師通過(guò)獲取的信息形成推理網(wǎng)絡(luò),才可能做出正確診斷?,F(xiàn)代醫(yī)學(xué)影像學(xué)已步入數(shù)字化的時(shí)代,積累的影像學(xué)數(shù)據(jù)信息越來(lái)越多。在激增的數(shù)據(jù)背后隱藏著許多重要的信息,單憑醫(yī)師主觀判斷已不適合高維和海量的數(shù)據(jù)信息分析,在實(shí)踐中利用粗糙集理論等工具進(jìn)行分析和統(tǒng)計(jì),可以幫助醫(yī)師得出確定的診斷規(guī)則[1-2]。
隨著影像儀器設(shè)備的發(fā)展,醫(yī)學(xué)影像診斷學(xué)中能夠采集到的數(shù)據(jù)資料越來(lái)越多,針對(duì)各類醫(yī)學(xué)數(shù)據(jù)采用的統(tǒng)計(jì)學(xué)分析方法也有很多。
1.多元線性回歸分析
在醫(yī)學(xué)影像診斷學(xué)中,診斷結(jié)論與多個(gè)影像的征象相聯(lián)系,使用多元線性回歸中多個(gè)自變量的最優(yōu)組合共同來(lái)預(yù)測(cè)或估計(jì)因變量,更符合實(shí)際。由于影像征象的分類特征不一致,例如強(qiáng)化掃描,就存在無(wú)強(qiáng)化、輕度強(qiáng)化、明顯強(qiáng)化等不同水平,而病變形態(tài)也分為圓形、類圓形、不規(guī)則形等不同分類,自變量的級(jí)別單位明顯不同,無(wú)法使用系數(shù)大小來(lái)說(shuō)明該因素的重要程度,必須先將所有變量先轉(zhuǎn)化為標(biāo)準(zhǔn)分,再進(jìn)行線性回歸,得到的回歸系數(shù)才有意義。由于臨床影像學(xué)研究中數(shù)據(jù)資料的同質(zhì)性不高,這種分析效果不盡理想。
2.logistic回歸分析
logistic回歸常用于根據(jù)危險(xiǎn)因素預(yù)測(cè)某疾病發(fā)生的概率,其與多元線性回歸有很多相似之處,但應(yīng)變量不同。logistic回歸應(yīng)變量多為兩分類變量,即“是”或“否”,自變量可以包括很多。在醫(yī)學(xué)影像診斷學(xué)中,對(duì)于圖像的判斷結(jié)果多為“存在某種疾病”和“無(wú)異常表現(xiàn)”這樣的兩分類變量,而影響診斷結(jié)果的因素是多種多樣的,因此,使用logistic回歸分析方法處理醫(yī)學(xué)影像診斷學(xué)中的數(shù)據(jù)化圖像資料比較適合。本文中影像資料數(shù)據(jù)就采用了logistic回歸分析。
3.分類與回歸樹(shù)分析
分類與回歸樹(shù)的分析方法由分類樹(shù)和回歸樹(shù)兩部分構(gòu)成,分類樹(shù)用于結(jié)果變量是分類變量的數(shù)據(jù),回歸樹(shù)則用于結(jié)果變量是連續(xù)變量的數(shù)據(jù)分析。在疾病的診斷中,依據(jù)臨床表現(xiàn)和影像特征進(jìn)行分類的患者,其內(nèi)部的同質(zhì)性有待明確,分類與回歸樹(shù)可將病例分配到樹(shù)的局部進(jìn)行處理,改善數(shù)據(jù)的內(nèi)部同質(zhì)性;另一方面,分類與回歸樹(shù)使用替代變量來(lái)解決臨床實(shí)踐研究中出現(xiàn)的數(shù)據(jù)缺失,分析模型不要求預(yù)報(bào)變量和結(jié)果變量必須具有某種分布,能充分利用醫(yī)療實(shí)踐中的各類數(shù)據(jù)。在應(yīng)用中分類和回歸樹(shù)的數(shù)據(jù)統(tǒng)計(jì)計(jì)算量非常大,穩(wěn)定性也較差,尤其在樣本量較小時(shí),模型并不穩(wěn)定。
4.?dāng)?shù)據(jù)挖掘技術(shù)
20世紀(jì)80年代初,計(jì)算機(jī)輔助診斷系統(tǒng)開(kāi)始在中國(guó)醫(yī)學(xué)診斷領(lǐng)域應(yīng)用,其中核心的技術(shù)就是建立正確的數(shù)學(xué)模型。當(dāng)時(shí),較為流行的數(shù)學(xué)模型有Bayes模型[3]、最大似然法模型和序貫?zāi)P停?]。這些模型多使用專家診斷疾病時(shí)的邏輯思維和辨證方法,建立起“專家系統(tǒng)”,期望使用該系統(tǒng)的其他人能夠達(dá)到專家的診斷水平,但是在臨床的醫(yī)療實(shí)踐過(guò)程中,病人接受“專家系統(tǒng)”的診斷存在明顯的干擾心理因素,加之影像資料、病情發(fā)展的復(fù)雜性,造成模型系統(tǒng)對(duì)于疾病判斷往往出現(xiàn)偏差。
同時(shí)期,國(guó)外有學(xué)者提出了粗糙集理論方法進(jìn)行數(shù)據(jù)分析,該理論當(dāng)時(shí)僅在部分領(lǐng)域應(yīng)用。隨著粗糙集理論相關(guān)專著、論文在國(guó)際專題研討會(huì)上的推廣,粗糙集作為智能計(jì)算的科學(xué)研究,無(wú)論是在理論方面還是在應(yīng)用方面都取得了很大的進(jìn)展,已成為國(guó)內(nèi)外人工智能領(lǐng)域中一個(gè)較新的學(xué)術(shù)熱點(diǎn),引起了越來(lái)越多科研人員的關(guān)注。
1982年,波蘭學(xué)者Z.Pawlak提出粗糙集理論。它是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效分析不精確、不一致、不完整的各種不完備信息,發(fā)現(xiàn)隱含、潛在的規(guī)律,其基本思想是在保持分類能力不變的前提下,通過(guò)知識(shí)約簡(jiǎn)導(dǎo)出概念的分類規(guī)則。
粗糙集理論將對(duì)象進(jìn)行論域劃分,然后確定劃分后的各部分對(duì)某一概念的支持程度,對(duì)象的知識(shí)是通過(guò)指定基本特征(屬性)和它們的特征值(屬性值)來(lái)描述的。給定一個(gè)有限的非空集合U稱為論域,R為U上的一族等效關(guān)系,R將U劃分為互不相交的基本等效類,K=(U,R)構(gòu)成一個(gè)近似空間,設(shè)X為U的一個(gè)子集,a為U中的一個(gè)對(duì)象,[a]R表示所有與a不可分辨的對(duì)象組成的集合,即由a決定的等效類。當(dāng)集合X能表示成基本等效類組成的并集時(shí),稱集合X是可以精確定義的;否則集合X只能通過(guò)逼近的方式來(lái)刻畫。集合X關(guān)于R的下逼近定義為:R.(X)={a∈U:[a]RX},R.(X)實(shí)際上是由那些根據(jù)已有知識(shí)判斷肯定屬于X的對(duì)象所組成的最大的集合,也稱為X的正區(qū)。根據(jù)已有知識(shí)判斷,肯定不屬于X的對(duì)象組成的集合稱為X的負(fù)區(qū)。集合X關(guān)于R的上逼近定義為:R′(X)={a∈U:[a]R∩X≠Φ}。R′(X)是所有與X相交非空的等效類[a]R的并集,是那些可能屬于X的對(duì)象組成的最小集合。
用粗糙集應(yīng)用決策表來(lái)描述論域中的對(duì)象,二維表格中每一行描述一個(gè)對(duì)象,每一列描述對(duì)象的一種屬性。屬性分為條件屬性和決策屬性。根據(jù)條件屬性的不同,論域中的對(duì)象被劃分到具有不同決策屬性的決策類。并非所有的條件屬性都是必要的,去除多余的條件屬性并不會(huì)影響分類效果,可以約簡(jiǎn)。在決策表中,各個(gè)條件屬性之間往往存在某種程度的依賴和關(guān)聯(lián),約簡(jiǎn)定義為不含多余屬性并保證分類正確的最小條件屬性集。決策表中可以同時(shí)存在幾個(gè)約簡(jiǎn),所有約簡(jiǎn)的交集即為核,核中的屬性是影響分類的重要屬性,少了它們,分類的質(zhì)量就會(huì)明顯下降[5]241-250。
屬性約簡(jiǎn)是根據(jù)屬性的重要程度進(jìn)行約簡(jiǎn),其重要性的度量可以采用不同方法,現(xiàn)將常用的基于信息量的屬性約簡(jiǎn)算法描述如下:
輸入 決策表S=<U,R,V,F(xiàn)>,R=C∪D,C為條件屬性集,D為決策屬性集。
輸出 該決策表的一個(gè)相對(duì)約簡(jiǎn)B。
(1)條件屬性C應(yīng)用粗糙集離散化
(2)計(jì)算I(D|C)
(3)令Core(C,D)=Φ
{for(every a∈C)計(jì)算Sig(a,C,D);
if(Sig(a,C,D)>0)Core(C,D):=Core(C,D)∪{a})
(4)if(I(D│Core(C,D))=I(D│C)),則輸出(Core(C,D)為C的最小約簡(jiǎn),終止;否則將非核條件屬性記入集合Att中,即Att=C|Core(C,D),令B=Core(C,D)
While(I(D│B)!=I(D│C))do
{for(every ai∈Att)計(jì)算I(D│B∪{ai})
aj=min{aj│I(D│B∪{ai})}
如果有幾個(gè)屬性ai∈Att具有相同的最小信息量,則選擇屬性重要性最大的屬性。
Att=Att|{aj};B=B∪{aj};計(jì)算新的I(D│B)。
信息量概念在信息系統(tǒng)的定義為:
其中|X|表示集合X的基數(shù),|Xi|/|U|表示等價(jià)類Xi在U中的概率。
其中U/IND(P)是根據(jù)屬性P劃分的等價(jià)類集合。
定義2 設(shè)S=<U,R,V,F(xiàn)>是一個(gè)決策表,R=C∪D,PR,知識(shí)Q(U|IND(Q)={Y1,Y2,Y3,…,Ym})(屬性集合)相對(duì)于知識(shí)P(U|IND(P)={X1,X2,X3,…,Xn})(屬性集合)的條件信息量I(Q│P)定義為:
定義3 設(shè)S=<Un}vf>是一個(gè)決策表,R=C∪D,C為條件屬性,D={d}為決策屬性集,AC,a∈A在A中的重要性Sig(a,A,D)定義為Sig(a,A,D)=I(D|A|{a})-I(D\A);當(dāng)A={a}時(shí),Sig(a,A,D)=I(D)-I(D|{a})。其中U│IND(Φ)={U},I(D|Φ)=I(D)。
1.?dāng)?shù)據(jù)樣本特征
選擇西安交通大學(xué)醫(yī)學(xué)院第一附屬醫(yī)院2004—2009年經(jīng)病理證實(shí)的腦膠質(zhì)瘤病例共183例,患者中性別比例為男/女=106/77,年齡從4歲~85歲,平均年齡為42.2±13.45歲。根據(jù)WHO分級(jí)的數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表1;根據(jù)病理類型的數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表2;根據(jù)病灶位置的數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表3。
表1 病例WHO分級(jí)統(tǒng)計(jì)表
183例腦膠質(zhì)瘤均在荷蘭飛利浦公司1.5T超導(dǎo)型MR掃描系統(tǒng)完成普通MRI平掃和增強(qiáng)掃描,由二位工作經(jīng)驗(yàn)5年以上的醫(yī)學(xué)影像專業(yè)醫(yī)師,采用盲法對(duì)腦膠質(zhì)瘤的MRI影像征象進(jìn)行提取,如遇分歧討論確定。MRI征象屬性見(jiàn)表4。
表2 病例病理類型統(tǒng)計(jì)表
表3 病灶位置統(tǒng)計(jì)表
表4 腦膠質(zhì)瘤MRI征象屬性表
2.利用粗糙集理論的分析結(jié)果
腦膠質(zhì)瘤決策表導(dǎo)入粗糙集工具軟件Rosetta軟件,其中WHO級(jí)別分類為決策屬性,MRI征象為條件屬性,對(duì)病例進(jìn)行屬性約簡(jiǎn)和規(guī)則約簡(jiǎn),屬性約簡(jiǎn)使用遺傳算法得到條件屬性核。通過(guò)條件屬性核產(chǎn)生決策規(guī)則庫(kù),規(guī)則約簡(jiǎn)時(shí)以不減低規(guī)則覆蓋率、精確度為原則,并采取交叉驗(yàn)證方式對(duì)決策表數(shù)據(jù)進(jìn)行測(cè)試,了解規(guī)則診斷的靈敏度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值,以評(píng)價(jià)規(guī)則的診斷性能。
腦膠質(zhì)瘤數(shù)據(jù)經(jīng)過(guò)屬性約簡(jiǎn)后,產(chǎn)生的典型診斷規(guī)則有9條,包括MRI征象中壞死、水腫、占位效應(yīng)、強(qiáng)化特征和信號(hào)均勻性等為分級(jí)診斷重要征象,經(jīng)過(guò)屬性約簡(jiǎn)及規(guī)則約簡(jiǎn)的典型診斷規(guī)則,預(yù)測(cè)腦膠質(zhì)瘤的準(zhǔn)確性為84.4%(詳見(jiàn)表5)。
表5 典型腦膠質(zhì)瘤診斷規(guī)則表
3.利用二元logistic回歸的分析結(jié)果
腦膠質(zhì)瘤診斷屬于離散選擇,回歸分析也是臨床常用的統(tǒng)計(jì)學(xué)分析方法[6]。使用二元logistic回歸法建立腦膠質(zhì)瘤的診斷模型,MR的征象作為因變量,其中多等級(jí)的因變量如形態(tài)、占位、水腫等,以最低等級(jí)為基線,其他等級(jí)與之相比進(jìn)行啞變量設(shè)置。模型中因變量的進(jìn)入標(biāo)準(zhǔn)為P<0.05,剔除標(biāo)準(zhǔn)為P>0.1,二元logistic回歸的最大迭代次數(shù)為20次。模型預(yù)測(cè)腦膠質(zhì)瘤的概率分界點(diǎn)為0.5,即當(dāng)預(yù)測(cè)概率>0.5時(shí)為高級(jí)別膠質(zhì)瘤,預(yù)測(cè)概率<0.5時(shí)為低級(jí)別膠質(zhì)瘤。
二元logistic回歸分析產(chǎn)生的MR診斷腦膠質(zhì)瘤模型公式包括占位、出血、水腫、強(qiáng)化四個(gè)征象,預(yù)測(cè)模型的回歸方程為:
依據(jù)此模型腦膠質(zhì)瘤分級(jí)診斷的準(zhǔn)確性為83.6%。其中占位、水腫、強(qiáng)化為多等級(jí)因變量,B值詳見(jiàn)表6。
表6 二元logistic回歸方程B值表
4.粗糙集理論與二元logistic回歸分析比較
針對(duì)腦膠質(zhì)瘤樣本數(shù)據(jù),分別采用粗糙集理論和二元logistic回歸分析相比,兩種分析方法的診斷性能相比較見(jiàn)表7,粗糙集理論的準(zhǔn)確性較高。
表7 粗糙集理論和二元logistic回歸統(tǒng)計(jì)方法診斷性能比較表
腦膠質(zhì)瘤作為顱內(nèi)最常見(jiàn)的腫瘤,其預(yù)后與分級(jí)密切相關(guān),低級(jí)別腦膠質(zhì)瘤生存期為5~10年,而高級(jí)別腦膠質(zhì)瘤的生存時(shí)間約為1年[7]。正確診斷腦膠質(zhì)瘤和評(píng)判級(jí)別對(duì)治療方案的選擇和預(yù)后的評(píng)價(jià)具有重要意義。
應(yīng)用粗糙集理論和二元logistic回歸分析方法分級(jí)診斷腦膠質(zhì)瘤準(zhǔn)確性分別達(dá)到84.4%和81.6%,與臨床醫(yī)師診斷準(zhǔn)確性較為接近,也與Ye等人的研究結(jié)果相符[8-9]。兩種方法提取的診斷規(guī)則均符合臨床現(xiàn)有知識(shí),相比而言,粗糙集理論的準(zhǔn)確性更高。通過(guò)對(duì)腦膠質(zhì)瘤診斷實(shí)例應(yīng)用分析可以發(fā)現(xiàn),粗糙集理論提取的規(guī)則庫(kù)包括的MR征象最多,二元logistic回歸模型僅包括水腫、占位等四個(gè)MR征象;粗糙集理論的診斷規(guī)則確定性高,二元logistic回歸分析無(wú)法提取確定的診斷規(guī)則。因此,盡管兩種方法均具有良好的診斷性能,但粗糙集理論提取的診斷規(guī)則更加容易理解,也便于臨床應(yīng)用,其包括較多的MR征象,準(zhǔn)確性也更好。
醫(yī)學(xué)影像診斷屬于分類及決策問(wèn)題,經(jīng)常會(huì)遇見(jiàn)由不精確或不一致的數(shù)據(jù)導(dǎo)致的不確定問(wèn)題,使得分類或識(shí)別目標(biāo)變得困難。粗糙集理論正是強(qiáng)調(diào)在不確定的數(shù)據(jù)中尋找信息,計(jì)算時(shí)應(yīng)用粗糙集理論和基于統(tǒng)計(jì)的算法來(lái)進(jìn)行分類決策,既發(fā)揮了粗糙集理論處理不確定數(shù)據(jù)關(guān)系的長(zhǎng)處,又能夠凸現(xiàn)統(tǒng)計(jì)算法應(yīng)用簡(jiǎn)單且決策高效的優(yōu)點(diǎn)。
粗糙集理論適用于處理離散化數(shù)據(jù),與其他應(yīng)用于醫(yī)學(xué)影像診斷的統(tǒng)計(jì)分析方法比較,具有以下優(yōu)點(diǎn):一是不需要建立因變量函數(shù)或預(yù)先設(shè)置概率,主要通過(guò)直接對(duì)集合中的對(duì)象進(jìn)行運(yùn)算得到不可分辨矩陣從而產(chǎn)生規(guī)則;二是粗糙集理論是基于集合的數(shù)據(jù)挖掘方法,因此有利于發(fā)現(xiàn)隱藏知識(shí),其屬性約簡(jiǎn)和規(guī)則提取過(guò)程基本不受人為因素影響,產(chǎn)生的診斷規(guī)則明確、清晰、易于理解,在醫(yī)學(xué)影像的實(shí)例應(yīng)用就可以充分體現(xiàn)這些優(yōu)點(diǎn)[10-11]。
使用粗糙集理論的方法對(duì)龐雜的影像數(shù)據(jù)信息進(jìn)行分析,得出確切的診斷規(guī)則,不僅有利于影像專業(yè)醫(yī)生減少主觀判斷的偏差和遺漏,又便于臨床醫(yī)生理解,而且在臨床實(shí)踐中具有很好的操作性。隨著基于粗糙集理論的軟件系統(tǒng)的不斷開(kāi)發(fā),粗糙集理論有了越來(lái)越廣泛的發(fā)展空間,發(fā)揮這些優(yōu)點(diǎn),進(jìn)而可以推廣到其他醫(yī)學(xué)領(lǐng)域應(yīng)用中,對(duì)于現(xiàn)代醫(yī)學(xué)有著重要的意義。
[1] Katapka H,Sugiura T.The Ideal form of Laboratory Information Management[J].Rinsho Byori,2005,53(1).
[2] Lamma E,Mello P,Nanetti A,et al.Artificial Intelligence Techniques for Monitoring Dangerous Infections[J].IEEE Trans Inf Technol Bramed,2006,10(1).
[3] 羅來(lái)鵬.完備決策表中的Bayes公式[J].統(tǒng)計(jì)與信息論壇,2005,20(5).
[4] 林燕,高培毅,孫楠.鞍內(nèi)和鞍上腫瘤計(jì)算機(jī)輔助MR影像診斷[J].中華放射學(xué)雜志,1999,33(12).
[5] Paulak Z.Rough Sets,Theoretical Aspects of Reasoning about Data[M].Boston:Dordrecht Kluwer Acadecmic Publishers,1991.
[6] Mihara F,Numaguchi Y,Rothman M,et al.MR Imaging of Adult Supratentorial Astrocytomas an Attempt of Semiautomatic Grading[J].Radiat Med,1995,13(1).
[7] 楊勁松,陸雪官.高分級(jí)腦膠質(zhì)瘤綜合治療的循證醫(yī)學(xué)研究進(jìn)展[J].中華腫瘤防治雜志,2007,14(13).
[8] Ye C Z,Yang J,Geng D Y,et al.Fuzzy Rules to Predict Degree of Malignancy in Brain Glioma[J].Med Biol Eng Comput,2002,40(2).
[9] Wang X,Yang J,Jenson R,et al.Rough Set Feature Selection and Rule Induction for Prediction of Malignancy Degree in Brain Glioma[J].Comput Methods Programs Biomed,2006,83(2).
[10]范德成,王韶華,張偉.基于粗糙集理論的能源結(jié)構(gòu)合理度分析[J].統(tǒng)計(jì)與信息論壇,2012,27(2).
[11]Filipovych R,Resnick S M,Davatzikos C.Semi-supervised Cluster Analysis of Imaging Data[J].Neuroimage,2011(3).
The Application of Rough Set Method in Medical Imaging Diagnostic Analysis
SUN Jing1,SUN Xing-wang2
(1.Medical Technology Department,Xi'an Medical University,Xi'an 710021,China;2.First Hospital,Xi'an Jiaotong University,Xi'an 710061,China)
Facing more and more medical image data information,it is necessary to compare different analysis method for disease diagnosis.This article analysis 183cases of glioma MR details using rough sets theory and logistic regression analysis separately and work out the diagnosis rules.Comparing with pathological results,it can be found that rough set theory has higher diagnosis accuracy than the other statistical method.The rough set theory has better clinical application value to improve medical imaging diagnostic level.
rough set;medical imaging;diagnosis
book=83,ebook=71
O213
A
1007-3116(2012)06-0083-05
(責(zé)任編輯:李 勤)
2012-03-16
孫 靜,女,陜西西安人,講師,碩士,研究方向:醫(yī)學(xué)影像診斷學(xué)。