王李冬
(杭州師范大學(xué)錢江學(xué)院,浙江杭州 310012)
基于圖理論學(xué)習(xí)模型的胃窺鏡圖像自動(dòng)標(biāo)注
王李冬
(杭州師范大學(xué)錢江學(xué)院,浙江杭州 310012)
為了解決目前醫(yī)學(xué)圖像檢索領(lǐng)域不能有效緩解“語(yǔ)義鴻溝”的問(wèn)題,提出基于圖理論學(xué)習(xí)模型的圖像自動(dòng)標(biāo)注方法.首先討論了醫(yī)學(xué)圖像的標(biāo)注問(wèn)題,總結(jié)了現(xiàn)有關(guān)醫(yī)學(xué)圖像標(biāo)注的研究工作.以胃窺鏡圖像為具體研究對(duì)象,針對(duì)圖學(xué)習(xí)模型中的圖像-標(biāo)注詞間的關(guān)系提取以及圖像相似度計(jì)算進(jìn)行了詳細(xì)分析,并有效地融合進(jìn)醫(yī)生的診斷信息作為圖像的高級(jí)語(yǔ)義特征,更有效地計(jì)算出圖像間相似度.最后,在Toy data數(shù)據(jù)集和臨床胃窺鏡圖像集上進(jìn)行了一系列的實(shí)驗(yàn),結(jié)果表明本文方法優(yōu)越于傳統(tǒng)圖像標(biāo)注方法.
自動(dòng)醫(yī)學(xué)圖像標(biāo)注;圖理論學(xué)習(xí);胃窺鏡圖像;高級(jí)語(yǔ)義
有效的醫(yī)學(xué)圖像檢索系統(tǒng)對(duì)診斷和治療起到有效的輔助作用.隨著數(shù)字成像技術(shù)的發(fā)展,近幾年醫(yī)學(xué)圖像的存儲(chǔ)量也在大規(guī)模增長(zhǎng).醫(yī)學(xué)圖像檢索技術(shù)應(yīng)運(yùn)而生,并且受到了廣泛關(guān)注.
醫(yī)學(xué)圖像檢索的目標(biāo)即從圖像庫(kù)中檢索到具有相同病灶的病理圖像,因此于不同種類、不同部位之間的醫(yī)學(xué)圖像間進(jìn)行檢索,實(shí)用意義不大.由于相同部位醫(yī)學(xué)圖像存在過(guò)度相似、分辨率高等特性,單純依靠底層特征進(jìn)行檢索往往達(dá)不到用戶需求,所以目前醫(yī)學(xué)圖像檢索領(lǐng)域的一個(gè)瓶頸問(wèn)題即底層視覺(jué)特征和高層語(yǔ)義之間的語(yǔ)義鴻溝(semantic gap).因此,如何實(shí)現(xiàn)醫(yī)學(xué)圖像的自動(dòng)語(yǔ)義標(biāo)注,將是MIR(medical image retrieval)技術(shù)中極具挑戰(zhàn)的一項(xiàng)工作.
目前,普通圖像的自動(dòng)標(biāo)注已經(jīng)得到廣泛研究并取得了較好的效果[1-5].而醫(yī)學(xué)圖像標(biāo)注問(wèn)題在國(guó)內(nèi)外研究較少.醫(yī)學(xué)圖像自動(dòng)標(biāo)注屬于醫(yī)學(xué)圖像的自動(dòng)分類問(wèn)題[6-7],分類的主要標(biāo)準(zhǔn)在于視覺(jué)和解剖部位的區(qū)別.而針對(duì)同一解剖部位的醫(yī)學(xué)圖像檢索而言,自動(dòng)標(biāo)注問(wèn)題就演化為同一種類醫(yī)學(xué)圖像中病理特征的分類,即將患有相同病理特征的病患者圖片歸為同類.要實(shí)現(xiàn)該目標(biāo)需要借助專業(yè)醫(yī)生的診斷信息作為訓(xùn)練數(shù)據(jù).文獻(xiàn)[8]針對(duì)灰度醫(yī)學(xué)圖像和彩色醫(yī)學(xué)圖像基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行分類,提取了底層紋理和顏色特征進(jìn)行網(wǎng)絡(luò)的訓(xùn)練.文獻(xiàn)[9]針對(duì)X光圖像進(jìn)行基于區(qū)域的內(nèi)容層次語(yǔ)義架構(gòu),實(shí)現(xiàn)多層次圖像標(biāo)注.另外,ImageCLEF[6]中加入了醫(yī)學(xué)圖像標(biāo)注任務(wù).該任務(wù)的主要目標(biāo)是針對(duì)116幅類別中的10 000幅訓(xùn)練圖像庫(kù)進(jìn)行訓(xùn)練,并對(duì)1 000幅測(cè)試圖像庫(kù)進(jìn)行標(biāo)注.
上述所有方法解決的主要問(wèn)題即針對(duì)不同的解剖部位和形態(tài)(modality)的醫(yī)學(xué)圖像進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對(duì)測(cè)試圖像的正確解剖部位和形態(tài)的標(biāo)注.但這些方法主要存在兩個(gè)缺點(diǎn):1)分類方法還是源于圖像的底層特征間的差異,沒(méi)有從根本上建立底層特征和高級(jí)語(yǔ)義的關(guān)系.2)針對(duì)解剖部位和形態(tài)的標(biāo)注并不能解決同類醫(yī)學(xué)圖像檢索的問(wèn)題,因?yàn)槟壳暗尼t(yī)學(xué)圖像檢索研究對(duì)象為同種部位圖像.因此,本文提出的方法跟以往的醫(yī)學(xué)圖像標(biāo)注有所區(qū)別.為了進(jìn)一步提高醫(yī)學(xué)圖像檢索的效率,針對(duì)同一解剖部位圖像,本文標(biāo)注的內(nèi)容為該圖像中體現(xiàn)出的病理特征,這往往需要醫(yī)生的專業(yè)診斷信息,再在其基礎(chǔ)上進(jìn)行訓(xùn)練得到未標(biāo)注醫(yī)學(xué)圖像的病理特征.
基于上述分析,為了保證圖像標(biāo)注的準(zhǔn)確性,本文提出基于圖理論學(xué)習(xí)模型的醫(yī)學(xué)圖像自動(dòng)標(biāo)注方法.研究對(duì)象采取胃窺鏡(內(nèi)鏡)圖像.為了有效結(jié)合醫(yī)生的診斷語(yǔ)義信息,圖理論方法中的測(cè)試圖像集利用醫(yī)生的診斷信息,并從診斷信息中提取出關(guān)鍵診斷詞作為標(biāo)注詞,再利用圖理論學(xué)習(xí)模型設(shè)計(jì)出胃窺鏡圖像標(biāo)注框架.
圖理論學(xué)習(xí)模型屬于半監(jiān)督學(xué)習(xí)算法(semi-supervised learning)[10],是近年來(lái)模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題.它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問(wèn)題.也就是說(shuō),已知類標(biāo)的訓(xùn)練數(shù)據(jù)和未知類標(biāo)的測(cè)試數(shù)據(jù)都參與到訓(xùn)練過(guò)程中來(lái).半監(jiān)督學(xué)習(xí)和傳統(tǒng)的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相比,更適合于數(shù)據(jù)總量較大,但訓(xùn)練數(shù)據(jù)相對(duì)缺乏的情況.
圖理論模型最初于文獻(xiàn)[11]中被提出,通過(guò)圖理論來(lái)學(xué)習(xí)流形空間中數(shù)據(jù)集合的分類情況.接下來(lái)簡(jiǎn)要介紹圖理論學(xué)習(xí)模型的原理.
給定一系列的點(diǎn)集合χ={x1,...,xl,xl+1,...,xn}?Rm和類標(biāo)集合Γ={1,...,c},前l(fā)個(gè)點(diǎn)xi標(biāo)記為yi∈Γ,其余的點(diǎn)的類標(biāo)未知.圖理論模型的目標(biāo)即獲得未知類標(biāo)的點(diǎn)的類別信息.矩陣F=[F1T,…,F(xiàn)nT]T對(duì)應(yīng)于數(shù)據(jù)集χ上的分類信息,其中每個(gè)點(diǎn)xi對(duì)應(yīng)的類別信息yi滿足yi=argmaxj≤cFij,可以理解,F(xiàn)主要實(shí)現(xiàn)數(shù)據(jù)集χ到Rc上的映射.定義n×c大小的矩陣Y,若xi的類標(biāo)yi=j(luò),則Yij=1,否則Yij=0.那么,圖理論學(xué)習(xí)算法如下:
1)計(jì)算鄰接矩陣W,W定義為
2)構(gòu)造相似性矩陣S,滿足S=D-1/2WD-1/2.其中,D為對(duì)角矩陣,Dii為W中第i行各元素之和.
3)迭代計(jì)算式(2)直至收斂
其中,α為(0,1)間的參數(shù).
4)按照最終狀態(tài)F*,對(duì)各點(diǎn)進(jìn)行分類.
假設(shè)給定圖G=(V,E),點(diǎn)集合V等價(jià)為為上述提到的數(shù)據(jù)集χ,邊集合E則通過(guò)鄰接矩陣W體現(xiàn).算法第2步中,鄰接矩陣經(jīng)過(guò)了正則化處理,而該步驟對(duì)接下來(lái)的迭代過(guò)程是必不可少的,可見(jiàn),第1、2步的過(guò)程和譜聚類算法相似.由第3步的迭代過(guò)程可以發(fā)現(xiàn),每個(gè)點(diǎn)從鄰近點(diǎn)獲得信息,同時(shí)保留了初始信息.參數(shù)α代表了鄰近點(diǎn)信息和初始信息的比例.
為了減少迭代過(guò)程,可以直接計(jì)算出學(xué)習(xí)過(guò)程的收斂解,具體計(jì)算過(guò)程見(jiàn)文獻(xiàn)[11],其最終的收斂解F*為
由上述分析可得,為了避免復(fù)雜的迭代計(jì)算,可以直接計(jì)算式(3),從而避免龐大數(shù)據(jù)量帶來(lái)的計(jì)算開(kāi)銷.
基于以上討論,本文將每幅圖像作為圖節(jié)點(diǎn)V,以圖像間的相似度作為邊E,通過(guò)圖理論模型的建立就可以實(shí)現(xiàn)將類標(biāo)信息從已標(biāo)注圖像到未標(biāo)注圖像的傳播,從而完成所有圖像的標(biāo)注任務(wù).由此,筆者提出了基于圖理論的胃鏡圖像標(biāo)注框架,如圖1所示.
圖1 基于圖理論學(xué)習(xí)的胃窺鏡圖像標(biāo)注Fig.1 Endoscopic image annotation based on graph learning model
由圖1可得,本模型框架主要步驟包括圖像特征提取得到圖像間相似度S,以及圖像標(biāo)注信息提取得到圖像和標(biāo)注詞間的關(guān)系Y,接下來(lái)介紹這兩部分的具體實(shí)現(xiàn)過(guò)程.
胃鏡圖像的訓(xùn)練數(shù)據(jù)集需要病理特征相關(guān)的信息.由于研究對(duì)象統(tǒng)一為胃窺鏡圖像,所以針對(duì)解剖部位的標(biāo)注信息并無(wú)意義.本文的訓(xùn)練圖像集中的標(biāo)注信息來(lái)源于醫(yī)生的診斷信息,具體如表1所示.
由上表可得,醫(yī)生的診斷信息包括“內(nèi)鏡表現(xiàn)“和“內(nèi)鏡診斷”兩部分.而本文使用的訓(xùn)練集數(shù)據(jù)的標(biāo)注信息由醫(yī)生的“內(nèi)鏡診斷”詞構(gòu)成,如胃竇炎、潰瘍、胃Ca等關(guān)鍵病理特征詞匯.由于某位病者所拍的胃窺鏡圖像可能含有多種病理特征,那么一幅圖像可以含多個(gè)標(biāo)注詞,這正符合了圖像標(biāo)注是一種多標(biāo)記問(wèn)題(multi-label)而非多分類(multi-class)問(wèn)題.筆者將每個(gè)標(biāo)注視為一類,若庫(kù)中所有圖像數(shù)為M,標(biāo)注的類別數(shù)為c,則初始狀態(tài)矩陣Y的大小為M×c,即當(dāng)某胃鏡圖像被標(biāo)注為某詞匯wj時(shí),Yij=1,否則Yij=0.描述標(biāo)注狀態(tài)的矩陣FM×c,F(xiàn)ij表示為第i幅圖像被標(biāo)注為第j個(gè)關(guān)鍵詞的可能性.
以往的圖像相似度主要建立在視覺(jué)特征的基礎(chǔ)上,即通過(guò)提取圖像的底層視覺(jué)信息計(jì)算圖像間的相似度.本文除了采用底層特征建立內(nèi)鏡圖像間的相似度SV之外,利用訓(xùn)練圖像的診斷文本信息建立圖像間的文本語(yǔ)義相似度ST,有效地融合進(jìn)圖像的高層語(yǔ)義特征,減小高層語(yǔ)義特征和低層視覺(jué)特征間的“語(yǔ)義”鴻溝.
由表1的信息可得,訓(xùn)練圖像包含了醫(yī)生診斷文本信息.為了自動(dòng)提取語(yǔ)義信息,首先利用中文分詞系統(tǒng)ICTCLAS(http://ictclas.org/)進(jìn)行分詞,并過(guò)濾掉停用詞.由于醫(yī)學(xué)用詞主要集中于名字和形容詞,所以再次過(guò)濾掉其他詞性的詞匯,保留名詞和形容詞詞匯.將圖像i所對(duì)應(yīng)的文本信息表示為表示每個(gè)詞匯的權(quán)重值,權(quán)重值的計(jì)算采用TFIDF方法[12]實(shí)現(xiàn).最后,兩幅圖像的文本語(yǔ)義相似度可以通過(guò)余弦距離計(jì)算得到:
由于內(nèi)鏡圖像屬于彩色圖像,并含有豐富的紋理信息,于是,本文采用顏色直方圖和紋理譜方法[13]分別提取出圖像的顏色和紋理特征向量.將2個(gè)向量合為一維特征,則圖像間的視覺(jué)相似度轉(zhuǎn)換為向量間的距離計(jì)算,同樣采用余弦距離進(jìn)行測(cè)量,得到SV.因此,最終圖像間的相似度融合進(jìn)視覺(jué)特征差異和文本語(yǔ)義特征差異,由下式得到:
其中,α表示文本語(yǔ)義特征所占的比重.若該值為0,則最終的圖像間的相似度完全由視覺(jué)特征來(lái)決定.
為了有效驗(yàn)證圖理論學(xué)習(xí)算法的效果,通過(guò)兩部分實(shí)驗(yàn)來(lái)證明:第一部分,采用Toy Data數(shù)據(jù)集驗(yàn)證該算法的半監(jiān)督分類性能;第二部分,采用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自于醫(yī)院的專業(yè)臨床內(nèi)鏡圖像.共采集500幅圖像進(jìn)行試驗(yàn),其中隨機(jī)抽取300幅作為訓(xùn)練數(shù)據(jù),200幅作為測(cè)試數(shù)據(jù),圖像大小統(tǒng)一為360×357.
Toy Data數(shù)據(jù)集由呈半月型分布的數(shù)據(jù)集構(gòu)成,如圖2a所示(每個(gè)小圓圈表示一個(gè)數(shù)據(jù)點(diǎn)).指定每個(gè)半月型中的某個(gè)點(diǎn)為已標(biāo)識(shí)點(diǎn),其余都為未標(biāo)識(shí)點(diǎn).那么由該圖可得到,較理想的分類標(biāo)準(zhǔn)為:每個(gè)點(diǎn)和鄰近點(diǎn)存在一定的相似性,而且在同一個(gè)半月中的點(diǎn)間相似度應(yīng)該大于不同半月中的點(diǎn)間相似度.本文將圖理論方法的分類效果和基于RBF核函數(shù)的SVM算法以及KNN算法進(jìn)行比較,效果分別見(jiàn)圖2b和圖2c.由圖2可以得到,基于圖理論的分類算法取得了理想的分類效果.
圖2 Toy data數(shù)據(jù)集分類性能比較Fig.2 Comparison of classification performance on Toy dataset
表2給出了個(gè)別內(nèi)鏡圖像的標(biāo)注實(shí)例,并展示了本文方法對(duì)部分測(cè)試內(nèi)鏡圖像的標(biāo)注結(jié)果.表中的第3列代表本文方法的標(biāo)注結(jié)果.判斷標(biāo)注結(jié)果是否正確,主要判斷標(biāo)注詞是否來(lái)源于“內(nèi)鏡診斷”信息.由表2的數(shù)據(jù)可以得到圖像1959_5取得的標(biāo)注信息和“內(nèi)鏡診斷”信息保持一致,圖像2129_1和2127_4取得的標(biāo)注信息少了病理特征詞“十二指腸炎”.但總體來(lái)說(shuō),圖像標(biāo)注結(jié)果和內(nèi)鏡診斷信息大致保持一致,能較準(zhǔn)確地描述出一幅圖像的主要病理特征.
?
為了證明本文提出方法的有效性,該部分實(shí)驗(yàn)采用跨媒體相關(guān)模型(CMRM)[2]與本文方法進(jìn)行比較.CMRM屬于傳統(tǒng)的圖像標(biāo)注方法之一,在該方法中,圖像被表示為經(jīng)過(guò)量化后分割區(qū)域的組合,每個(gè)量化區(qū)域叫做“blob”,利用每個(gè)“blob”之間的差異計(jì)算圖像間的相似度.該方法實(shí)現(xiàn)的是基于圖像視覺(jué)相似性的類標(biāo)信息的傳播.為了評(píng)價(jià)圖像標(biāo)注方法的整體性能,采用查準(zhǔn)率作為判定指標(biāo).首先以某一關(guān)鍵詞wi作為查詢,在標(biāo)注好的測(cè)試圖像集中進(jìn)行查找,實(shí)驗(yàn)設(shè)計(jì)共返回Nr幅圖像,返回的圖像中和關(guān)鍵詞wi相關(guān)的,即標(biāo)注正確的圖像數(shù)為Nc幅,則查準(zhǔn)率precision的計(jì)算方式為
在測(cè)試集中的每個(gè)關(guān)鍵詞都需執(zhí)行上式計(jì)算,最后針對(duì)每次計(jì)算取平均值作為最終結(jié)果,以此作為評(píng)價(jià)指標(biāo).CMRM方法和圖理論方法的標(biāo)注性能比較見(jiàn)圖3.
由圖3可得,基于圖理論模型的標(biāo)注方法比CMRM表現(xiàn)出更好的標(biāo)注性能.不論檢索返回的圖像數(shù)為多少,都能保持較穩(wěn)定的優(yōu)越性.這是因?yàn)椋珻MRM方法同樣需要計(jì)算圖像間的視覺(jué)相似性來(lái)傳播類標(biāo)信息,而該視覺(jué)相似性的計(jì)算方法是通過(guò)“blob”的量化,該方法存在兩個(gè)缺點(diǎn):1)量化過(guò)程中存在一定的信息丟失;2)單純依靠底層視覺(jué)特征還是無(wú)法緩解和高層語(yǔ)義之間的“語(yǔ)義”鴻溝.本文提出的圖理論模型標(biāo)注方法計(jì)算圖像相似度時(shí),有效地融合進(jìn)了圖像的文本相似度,能更好地估計(jì)圖像間的相似性.
圖3 內(nèi)鏡圖像集上的標(biāo)注性能比較Fig.3 Comparison of annotation performance on endoscopic image dataset
提出一種基于圖理論學(xué)習(xí)模型的內(nèi)鏡圖像標(biāo)注方法,并將該方法的主要2個(gè)步驟進(jìn)行詳細(xì)解析.主要包括圖像-標(biāo)注詞間的關(guān)系提取以及圖像相似度的計(jì)算.其中,圖像-標(biāo)注詞間的關(guān)系提取利用醫(yī)生的專業(yè)診斷信息得到,圖像相似度的計(jì)算融入了每幅內(nèi)鏡圖像的診斷信息,并在計(jì)算底層視覺(jué)信息的基礎(chǔ)上融入了圖像間的文本相似度計(jì)算,即融合了底層特征和高層語(yǔ)義特征.最后,通過(guò)在Toy data數(shù)據(jù)集和臨床內(nèi)鏡圖像集上對(duì)本文方法分別在分類和標(biāo)注功能上進(jìn)行了比較,驗(yàn)證了該方法的有效性.
在今后的工作中,將針對(duì)內(nèi)鏡圖像同種病理特征的進(jìn)一步標(biāo)注,如淺表性胃竇炎和萎縮性胃竇炎的進(jìn)一步分類,以實(shí)現(xiàn)醫(yī)學(xué)圖像的有效病理特征自動(dòng)標(biāo)注,從而有效提高醫(yī)學(xué)圖像檢索的效果.
[1]Agrawal R,Changhua W,Grosky W,etal.Bayesian framework for automatic image annotation using visual keywords[J].Communications in Computer and Information Science,2010,75:142-157.
[2]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C]//Proc.of the ACM SIGIR.Toronto:ACM Press,2003:119-126.
[3]Kang F,Jin R,Sukthankar R.Correlated label propagation with application to multi-label learning[C]//Proceedings of CVPR.New York,2006:1719-1726.
[4]Xiang Yu,Zhou Xiangdong,Liu Zuotao.Semantic context modeling with maximal margin Conditional Random Fields for automatic image annotation[C]//Proceedings of CVPR,San Francisco,CA,USA,2010:3368-3375.
[5]Wang Yong,Mei Tao,Gong Shaogang,etal.Combining global,regional and contextual features for automatic image annotation[J].Pattern Recognition,2009,42(2):259-266.
[6]Deselaers T,Deserno T M,Muller H.Automatic medical image annotation in ImageCLEF2007:Overview,results,and discussion[J].Pattern Recognition Letters,2008,29:1988-1995.
[7]Yao Jian,Zhang Zhongfei,Antani S,etal.Automatic medical image annotation and retrieval[J].Neurocomputing,2008,71(10):2012-2022.
[8]Kalpathy-Cramer J,Hersh W.Automatic image modality based classification and annotation to improve medical image retrieval[J].Study Health Technology Information,2007,129(2):1334-1338.
[9]Mueen A,Zainuddin R,Sapiyan M.Automatic multilevel medical image annotation and retrieval[J].Journal of Digital Imaging,2010,21(3):208-295.
[10]盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629-1639.
[11]Zhou Dengyong,Bousquet O,Lal T N,etal.Learning with local and global consistency[C]//Proceedings of NIPS,Cambridge,MA:MIT Press,2003:237-244.
[12]Martineau J,F(xiàn)inin T.Delta TFIDF:an improved feature space for sentiment analysis[C]//Proccedings of ICWSM,San Jose,CA:AAAI Press,2009:258-261.
[13]He Dongchen,Wang Li.Texture features based on texture spectrum[J].Pattern Recognition,1991,24(5):391-399.
Automatic Endoscopic Image Annotation Based on Graph Learning Model
WANG Li-dong
(Qianjiang College,Hangzhou Normal University,Hangzhou 310012,China)
To solve the“semantic gap”problem in medical image retrieval,the paper proposed the automatic image annotation based on graph learning.It discussed the process of medical image annotation,and summarized related researchworks.Choosing endoscopic images as the object,the thesis analyzed the ectraction of the relationships between images and annotation words as well as the image similarity computation,compromised doctors'diagnostic information as the high-level semantic features of the images,which effectively calculated the image similarity.A series of experiments were conducted on Toy data and endoscopic images,the results show the method in this paper is better than the traditional image annotation methods.
automatic medical image annotation(AMIA);graph-based learning;endoscopic image;high-level semantic feature
TP391
A
1674-232X(2012)01-0071-06
11.3969/j.issn.1674-232X.2012.01.016
2011-02-10
浙江省教育廳科研計(jì)劃項(xiàng)目(Y201016245).
王李冬(1982—),女,講師,博士,主要從事數(shù)字圖像處理、圖像檢索、文本語(yǔ)義挖掘等研究.E-mail:violet_wld@163.com