崔少?lài)?guó),熊舒羽,劉 暢,陳默語(yǔ)
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
基于內(nèi)容的視覺(jué)信息檢索(CBVIR)或基于內(nèi)容的圖像檢索(CBIR)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域較熱門(mén)的研究方向之一。在醫(yī)療領(lǐng)域,用于診斷和治療的多模態(tài)數(shù)字圖像在不斷增加,其中包括核磁共振成像(MRI)、計(jì)算機(jī)斷層掃描(CT)、光子發(fā)射斷層成像(PET)、超聲波等。這些醫(yī)學(xué)圖像在幫助醫(yī)生診斷和病情分析中扮演著至關(guān)重要的角色。醫(yī)學(xué)圖像不同于自然圖像,一是因?yàn)獒t(yī)學(xué)圖像的分辨率高;二是因?yàn)榇蠖鄶?shù)是灰度圖像,其重要信息都集中在小區(qū)域,并且在醫(yī)學(xué)圖像領(lǐng)域,視覺(jué)相似的圖像之間語(yǔ)義內(nèi)容相差很大,所以對(duì)于醫(yī)學(xué)圖像的處理方法不同于自然圖像。西門(mén)子2014年發(fā)布報(bào)告稱(chēng),醫(yī)療成像系統(tǒng)市場(chǎng)將從2014年的32.3億增長(zhǎng)到2020年的49億[1]。因此,如何高效地管理和存儲(chǔ)這些海量的醫(yī)學(xué)圖像(醫(yī)學(xué)圖像檢索系統(tǒng))成為當(dāng)前的研究熱點(diǎn)之一。
近20 年來(lái),人們主要研究基于內(nèi)容的醫(yī)學(xué)圖像檢索方法(content-based medical image retrieval,CBMIR),這種方法不需要文本方式的標(biāo)注。一般CBMIR系統(tǒng)利用算法(SIFT、LBP、HOG等)提取圖像的特征(顏色、形狀、紋理等),并從大型特征庫(kù)中檢索圖像[5]。CBMIR系統(tǒng)通常有2個(gè)階段,第一個(gè)是離線階段,另一個(gè)是在線階段。在離線階段,從大量圖像集中提取特征并建立本地特征數(shù)據(jù)庫(kù)。離線階段通常比較耗時(shí),取決于特征提取的方法和圖像的數(shù)量。在在線階段,用相同的特征提取方法提取查詢(xún)圖像的特征,并計(jì)算查詢(xún)圖像的特征和數(shù)據(jù)庫(kù)圖像的特征之間的相似性度量,然后將具有高度相似性的圖像作為檢索結(jié)果呈現(xiàn)給用戶(hù)。在這2個(gè)階段中,預(yù)處理和特征提取的過(guò)程和方法相同,因此圖像檢索方法的研究點(diǎn)主要集中在特征提取和特征匹配2個(gè)階段,然而CBMIR方法在圖像的高級(jí)語(yǔ)義與低層特征之間一直存在著語(yǔ)義鴻溝的問(wèn)題。
隨著大數(shù)據(jù)時(shí)代的到來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中取得了一系列成功的應(yīng)用[2],已有一些學(xué)者將機(jī)器學(xué)習(xí)算法應(yīng)用到醫(yī)學(xué)圖像檢索中[3-5]。本文主要結(jié)合深度學(xué)習(xí)從特征表達(dá)和特征匹配兩方面,概述了深度學(xué)習(xí)方法在醫(yī)學(xué)圖像檢索領(lǐng)域方面的應(yīng)用,講述了深度學(xué)習(xí)在醫(yī)學(xué)圖像檢索領(lǐng)域中的發(fā)展歷史,并預(yù)測(cè)了深度學(xué)習(xí)在醫(yī)學(xué)圖像檢索中的發(fā)展前景和挑戰(zhàn)。
在醫(yī)學(xué)圖像檢索過(guò)程中,最重要的一步是視覺(jué)特征提取,即使用特征向量來(lái)表示每個(gè)數(shù)字圖像。良好的特征提取方法是在醫(yī)學(xué)圖像檢索中取得良好性能的先決條件。具體而言,特征表示被分為2類(lèi),即傳統(tǒng)特征和高級(jí)語(yǔ)義特征(通過(guò)學(xué)習(xí)所獲得的)。傳統(tǒng)特征可直接從圖像內(nèi)容獲得,包括圖像的顏色、紋理、形狀等特征,而高級(jí)語(yǔ)義特征主要通過(guò)機(jī)器學(xué)習(xí)方法所獲得。近年來(lái),出現(xiàn)了許多基于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的特征表示方法。本節(jié)回顧了醫(yī)學(xué)圖像中特征提取方法的最新進(jìn)展。
傳統(tǒng)特征在參考文獻(xiàn)[8]中被歸類(lèi)為原始特征,如顏色或形狀、邏輯特征和抽象特征。目前所有的手工特征都屬于原始特征。通常,傳統(tǒng)特征是專(zhuān)家根據(jù)圖像特征所設(shè)計(jì)的算法,然后利用算法從每個(gè)圖像中獲取模擬特定信息的特征[6],例如,顏色、紋理、形狀特征。在大量使用深度學(xué)習(xí)之前,傳統(tǒng)特征提取方法在特征提取領(lǐng)域中發(fā)展了數(shù)10年。目前,大多數(shù)的醫(yī)學(xué)檢索系統(tǒng)仍然使用傳統(tǒng)特征方法,本小節(jié)主要回顧在醫(yī)學(xué)圖像檢索中,使用的比較典型的傳統(tǒng)特征提取方法。
用于圖像檢索的最廣泛的傳統(tǒng)特征是基于尺度不變特征變換特征(scale-invariant feature transform,SIFT)[7]。SIFT通過(guò)在高斯差分(difference-of-Gaussian,DoG)空間中找到局部極值來(lái)檢測(cè)比例不變的關(guān)鍵點(diǎn)。它用128維梯度方向圖來(lái)描述每個(gè)關(guān)鍵點(diǎn)。隨后,所有的SIFT描述符都使用詞袋(bag-of-words,BoW)進(jìn)行建模/量化。每個(gè)圖像的特征向量通過(guò)計(jì)算圖像中生成的視覺(jué)詞的頻率來(lái)計(jì)算。SIFT是一種在醫(yī)學(xué)圖像檢索中取得成功的局部特征。除了SIFT描述符之外,許多局部描述符可以使用BoW來(lái)生成用于醫(yī)學(xué)圖像的局部特征,諸如SURF(speeded up robust features)[9]、LBP(local binary patterns)[10]等。與局部特征相比,全局特征也廣泛應(yīng)用于醫(yī)學(xué)圖像檢索,全局特征可以直接表示整個(gè)圖像的全局信息。例如,GIST[11]是一個(gè)全局特征,是基于場(chǎng)景的低維表示,不需要任何形式的分割,通過(guò)感知維度(自然度、開(kāi)放度、粗糙度、膨脹度、險(xiǎn)峻度)來(lái)表示圖像中場(chǎng)景的主要空間結(jié)構(gòu)[12]。GIST已經(jīng)應(yīng)用于許多醫(yī)學(xué)圖像檢索問(wèn)題中[13-15]。其他全局特征如HOG(高斯直方圖)[16]、顏色直方圖[17]也常用于醫(yī)學(xué)圖像檢索[18-19]。
除去這些常見(jiàn)的特征提取方法之外,一些學(xué)者專(zhuān)門(mén)針對(duì)特定醫(yī)學(xué)圖像數(shù)據(jù)設(shè)計(jì)了特征表示方法。在組織病理學(xué)圖像分析中,形狀和紋理信息在細(xì)胞/細(xì)胞核的表達(dá)中起著重要的作用。Basavanhally等[20]設(shè)計(jì)了3個(gè)基于圖的特征來(lái)描述淋巴細(xì)胞。 Filipczuk等[21]采用25種特征來(lái)模擬細(xì)胞學(xué)圖像的特征,包括核的大小,以及圖像中核的分布。一般來(lái)說(shuō),這些特定的特征算法比一般的特征更具有區(qū)別性。在細(xì)胞和細(xì)胞核的檢測(cè)、檢索和分析方面取得了很好的效果[22]。這類(lèi)特定特征還廣泛用于3D醫(yī)學(xué)圖像數(shù)據(jù)中,諸如3D腦腫瘤、神經(jīng)元形態(tài)學(xué)。Cai等[23]為3D神經(jīng)圖像檢索開(kāi)發(fā)了基于PCM的體積紋理特征;Wan等[24]采用定量測(cè)量和幾何矩作為三維神經(jīng)元形態(tài)數(shù)據(jù)的特征,并在檢索任務(wù)中都取得了不錯(cuò)的成果。
為了得到更好的檢索性能,許多學(xué)者將多種傳統(tǒng)特征通過(guò)一定的算法進(jìn)行特征融合,例如,宋等[25]采用HOG和LBP特征來(lái)檢索和識(shí)別肺部病變。與單一特征系統(tǒng)相比,結(jié)合多個(gè)特征可以獲得更好的性能[26],在ImageCLEF醫(yī)學(xué)檢索任務(wù)中的許多小組都采用了這種方法。然而,融合特征方法對(duì)于大規(guī)模圖像檢索來(lái)說(shuō),計(jì)算量太大,并且對(duì)檢索效率也會(huì)產(chǎn)生不利影響。盡管已經(jīng)討論了各種特征,但對(duì)于醫(yī)學(xué)圖像檢索問(wèn)題,沒(méi)有適用于各種醫(yī)學(xué)圖像的通用特征。因?yàn)獒t(yī)學(xué)圖像是由不同的成像技術(shù)生成的,組織/器官通常具有特定的顏色、紋理和形狀。即使是相同的組織/器官,特征也可能在多個(gè)維度和形式上有所不同[27]。因此,在給定類(lèi)型的圖像數(shù)據(jù)中使用合適的特征是醫(yī)療檢索過(guò)程中的一個(gè)具有挑戰(zhàn)性的問(wèn)題。
盡管傳統(tǒng)特征在醫(yī)學(xué)圖像檢索中取得了許多良好的效果,但在醫(yī)學(xué)數(shù)據(jù)規(guī)模比較大時(shí)仍然存在缺陷。首先,當(dāng)數(shù)據(jù)集很大時(shí),傳統(tǒng)特征通常不能很好地解決問(wèn)題,因?yàn)榭赡艽嬖诋惓V岛臀幢粯?biāo)準(zhǔn)化的情況;其次,使用傳統(tǒng)方法進(jìn)行特征提取非常耗時(shí)且計(jì)算上耗費(fèi)大,特別是當(dāng)處理大量的圖像時(shí);最后,許多傳統(tǒng)特征提取方法只針對(duì)特定的醫(yī)學(xué)圖像數(shù)據(jù),不能擴(kuò)展到其他領(lǐng)域。因此,大規(guī)模醫(yī)學(xué)圖像檢索需要更多自動(dòng)化、高效和可擴(kuò)展的特征表示方法。
近年來(lái),深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)話題,在特征表示、圖像分類(lèi)、檢索、檢測(cè)等相關(guān)領(lǐng)域取得了很好的成果。與傳統(tǒng)方法相比,深度學(xué)習(xí)只需要一套訓(xùn)練數(shù)據(jù),以自學(xué)方式發(fā)現(xiàn)特征,耗費(fèi)時(shí)間低且高效[28-29]。各種深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是非線性的,也就是說(shuō),通過(guò)神經(jīng)網(wǎng)絡(luò)的多層網(wǎng)絡(luò)結(jié)構(gòu)(例如數(shù)十到數(shù)百)和大量的參數(shù)(例如數(shù)千至數(shù)百萬(wàn))來(lái)學(xué)習(xí)圖像特征。一般來(lái)說(shuō),深度學(xué)習(xí)的發(fā)展主要受益于可以?xún)?yōu)化參數(shù)的大型訓(xùn)練數(shù)據(jù)集。因此,由于目前大規(guī)模的醫(yī)學(xué)圖像數(shù)據(jù)庫(kù)的出現(xiàn),深度學(xué)習(xí)也可以用來(lái)解決醫(yī)學(xué)圖像的分析任務(wù)。具體而言,在醫(yī)學(xué)圖像的特征表示方法中,主要分為有監(jiān)督和無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)。
LeCun等在文獻(xiàn)[30]中提出了一個(gè)有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)框架,即卷積神經(jīng)網(wǎng)絡(luò)(CNN)。固定大小的輸入圖像與使用共享權(quán)重的多個(gè)卷積核相關(guān)聯(lián)。然后,池化層對(duì)輸入特征進(jìn)行下采樣,并保留每個(gè)子區(qū)域中的特征信息。之后,將提取的特征加權(quán)并組合到全連接的層中,接著將這些特征送到分類(lèi)器用于預(yù)測(cè)。最后,將輸出類(lèi)與圖像標(biāo)簽進(jìn)行比較,在每次迭代中更新CNN參數(shù)(例如權(quán)重、偏差)。近年來(lái),大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)(ILSVRC)已經(jīng)出現(xiàn)了非常深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[31],并且性能優(yōu)異,一方面使用了比以前更深的卷積層,另一方面創(chuàng)造了更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),例如AlexNet、 GoogLeNet、 VGGNet和ResNet等。
有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)需要大量的標(biāo)簽圖像來(lái)訓(xùn)練每一層的參數(shù)。但是,在醫(yī)療領(lǐng)域,標(biāo)簽圖像的數(shù)量是有限的。僅用小型標(biāo)簽數(shù)據(jù)從頭開(kāi)始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)容易導(dǎo)致過(guò)擬合[32]。因此,研究人員為適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分析,提出了幾種方法。例如,Bar等[33]使用預(yù)先訓(xùn)練的CNN模型學(xué)習(xí)了胸部病理學(xué)檢測(cè)的特征,并且參數(shù)是從諸如ImageNet的非醫(yī)學(xué)數(shù)據(jù)集遷移過(guò)來(lái)的。在2016年ImageCLEFmed上,NovaSearch[34]僅使用醫(yī)療圖像數(shù)據(jù)從頭開(kāi)始訓(xùn)練CNN模型,采用了多種技術(shù)(如Dropout、數(shù)據(jù)擴(kuò)充)來(lái)處理小數(shù)據(jù)集。Shin等[35]提出了CNN學(xué)習(xí)醫(yī)學(xué)圖像特征的3種主要技術(shù):第一,采用遷移學(xué)習(xí)思想,用醫(yī)學(xué)圖像在自然圖像上預(yù)先訓(xùn)練的CNN模型進(jìn)行微調(diào);第二,僅使用醫(yī)學(xué)圖像從頭開(kāi)始訓(xùn)練CNN模型,采取多種措施避免過(guò)度擬合;第三,使用預(yù)先訓(xùn)練好的CNN模型提取特征,將這些特征用作補(bǔ)充信息與傳統(tǒng)特征相融合。
盡管有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)在特征表示中性能優(yōu)異,但是需要大量的人力手動(dòng)給訓(xùn)練數(shù)據(jù)作標(biāo)簽。然而,與自然圖像的標(biāo)注不同,許多醫(yī)學(xué)圖像的標(biāo)注只能由醫(yī)生或領(lǐng)域?qū)<覙?biāo)注。很多情況下,這些標(biāo)注存在不確定因素和主觀因素。為了克服有監(jiān)督特征學(xué)習(xí)的局限性,于是出現(xiàn)了無(wú)監(jiān)督深度神經(jīng)網(wǎng)絡(luò)。Bengio等在文獻(xiàn)[36]中給出了典型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),即自動(dòng)編碼器[37]。盡管單層自動(dòng)編碼器對(duì)于學(xué)習(xí)特征來(lái)說(shuō)太淺,但是當(dāng)幾個(gè)自動(dòng)編碼器堆疊在一起形成深度自動(dòng)編碼器(SAE)時(shí),其表達(dá)能力顯著提高。例如,文獻(xiàn) [38-39]開(kāi)發(fā)了一種無(wú)監(jiān)督的特征選擇方法,使用卷積堆疊自動(dòng)編碼器來(lái)識(shí)別圖像塊中的語(yǔ)義特征。該方法在腦部MR圖像上得到證實(shí),說(shuō)明無(wú)監(jiān)督特征學(xué)習(xí)對(duì)于腦部MR配準(zhǔn)是有效的。除了自動(dòng)編碼器之外,受限玻爾茲曼機(jī)(restricted boltzmann machines,RBM)也可以構(gòu)造無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò),例如,文獻(xiàn)[41]通過(guò)減少大腦圖像的維度,利用一個(gè)深度信念網(wǎng)絡(luò),發(fā)現(xiàn)圖像組中相似的模式,從而進(jìn)行多方面的學(xué)習(xí)。曹等[42]開(kāi)發(fā)了一種基于深度玻爾茲曼機(jī)的醫(yī)學(xué)圖像檢索的多模態(tài)方法。實(shí)驗(yàn)結(jié)果表明,基于深度玻耳茲曼機(jī)的多模態(tài)學(xué)習(xí)模型是下一代醫(yī)學(xué)圖像索引和檢索系統(tǒng)的一種有效的解決方案。
對(duì)于大規(guī)模的醫(yī)學(xué)圖像分析,語(yǔ)義學(xué)習(xí)特征具有明顯的趨勢(shì),因?yàn)橛性絹?lái)越多的圖像可以用來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。然而,深度學(xué)習(xí)在醫(yī)學(xué)圖像檢索中的使用并不常見(jiàn)。一個(gè)原因是,以前大多數(shù)的醫(yī)學(xué)圖像檢索任務(wù)只需要處理小規(guī)模的數(shù)據(jù)集,這種條件不滿(mǎn)足深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。另一個(gè)原因是,對(duì)于一些特定的醫(yī)學(xué)圖像,傳統(tǒng)特征在數(shù)據(jù)集不太大的情況下可以獲得很好的性能(例如,組織病理學(xué)圖像的全局特征[20])。由于多種形式的醫(yī)學(xué)成像技術(shù),以及快速變換的圖像采集設(shè)備,傳統(tǒng)特征在許多醫(yī)學(xué)圖像檢索場(chǎng)景中仍然有用。此外,與傳統(tǒng)特征提取方法相比,基于深度學(xué)習(xí)的方法能夠?qū)W習(xí)不同類(lèi)型的特征。因此學(xué)習(xí)的特征在醫(yī)學(xué)圖像的特征表示中也起著關(guān)鍵性作用,特別是當(dāng)數(shù)據(jù)集很大時(shí)。在ImageCLEF挑戰(zhàn)賽中[43],許多小組不僅使用了傳統(tǒng)的特征提取方法,還使用了基于深度學(xué)習(xí)的特征提取方法。然后,融合這些特征以獲得更精確的檢索和分類(lèi)結(jié)果。
每個(gè)圖像通過(guò)特征提取之后,由特征向量表示。醫(yī)學(xué)圖像檢索問(wèn)題就可以視為這些特征向量中的最近鄰搜索,即計(jì)算和排列出查詢(xún)圖像與數(shù)據(jù)庫(kù)中的所有圖像之間的距離。但是,在處理大規(guī)模圖像數(shù)據(jù)庫(kù)時(shí),依次計(jì)算數(shù)百萬(wàn)個(gè)高維特征向量的距離,不但計(jì)算量很大,還非常耗時(shí)。在本章節(jié)中,我們將概括大規(guī)模醫(yī)學(xué)檢索中的特征索引方法。
詞匯樹(shù)最初由Nistér和Stewénius[44]提出。詞匯樹(shù)已經(jīng)廣泛應(yīng)用于大規(guī)模醫(yī)學(xué)圖像檢索。它們不僅提高了計(jì)算效率,而且與傳統(tǒng)的檢索方法相比更精確。例如,Jiang等[45-46]在基于詞匯樹(shù)的框架下,提出了一種自適應(yīng)加權(quán)策略來(lái)處理乳房X線照片的圖像檢索。由于乳房X線照片中的高頻特征低于低頻特征,將乳房X線照片特定的節(jié)點(diǎn)頻率納入IDF方案,以降低高頻特征。自適應(yīng)加權(quán)技術(shù)對(duì)于檢索這些特定的圖像(如:乳房投影腫塊)非常有效。Wang等[47]為手指靜脈圖像的認(rèn)證和識(shí)別設(shè)計(jì)了一個(gè)區(qū)分性和生成性的詞匯樹(shù)。該方法既考慮到局部圖像塊的判別性,又考慮到其生成的空間布局。訓(xùn)練過(guò)程與構(gòu)建常規(guī)詞匯樹(shù)相同,而預(yù)測(cè)過(guò)程使用點(diǎn)集匹配方法來(lái)支持非參數(shù)圖像塊布局匹配。這種聯(lián)合辨識(shí)和生成模型可以在手指靜脈圖像中取得良好的效果,因?yàn)樗捎玫脑~匯樹(shù)模型可以保證整個(gè)系統(tǒng)的效率。更重要的是,點(diǎn)集匹配策略考慮了局部圖像塊的幾何布局,比之前僅考慮局部關(guān)鍵點(diǎn)描述的詞匯樹(shù)方法更準(zhǔn)確。
通過(guò)改變特征匹配策略,基于詞匯樹(shù)的方法在大型數(shù)據(jù)庫(kù)中實(shí)現(xiàn)了高效的檢索。由于這些方法直接采用局部特征描述符,因此可以應(yīng)用于大多數(shù)醫(yī)學(xué)圖像,包括可以檢測(cè)和描述局部關(guān)鍵點(diǎn)的二維和三維圖像。但是,基于樹(shù)的詞匯方法也有一些限制。例如,僅僅使用局部特征不足以表示和區(qū)分一些特定的醫(yī)療圖像;對(duì)于一些肺部圖像,在檢索期間應(yīng)該考慮全局形狀。另外,建立分層詞匯樹(shù)的訓(xùn)練階段通常是耗時(shí)的,特別是在處理非常大的圖像數(shù)據(jù)庫(kù)時(shí)。在實(shí)際應(yīng)用中,為了取得良好的效果,基于詞匯樹(shù)的方法在很大程度上依賴(lài)于參數(shù)調(diào)整,即調(diào)整每個(gè)聚類(lèi)中心k的數(shù)量、分層樹(shù)L的總層次等。因此,需要為大規(guī)模醫(yī)學(xué)圖像檢索開(kāi)發(fā)更高效、更準(zhǔn)確的方法。
近年來(lái),展開(kāi)了大量的哈希算法在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域的研究[48]。哈希算法不是從原始數(shù)據(jù)集中直接搜索最近的距離,而是先通過(guò)定義好的哈希函數(shù)將原始數(shù)據(jù)壓縮成短的二進(jìn)制編碼。然后,通過(guò)計(jì)算二進(jìn)制編碼的漢明距離,來(lái)表示數(shù)據(jù)之間的相似程度,因此這種方法的檢索效率更好。
2.2.1 哈??蚣?/p>
假設(shè)數(shù)據(jù)庫(kù)中有n張醫(yī)學(xué)圖像,在特征表示后,這些圖像用d維特征向量表示,X={x1,x2,…,xn}?Rd×n。對(duì)于圖像xi?Rd×1,其特征空間可以用一組哈希函數(shù)H={h1,h2,…,hK}表示,并且每個(gè)哈希函數(shù)將xi編碼成一個(gè)二進(jìn)制碼hK(xi)。因此,xi的K位編碼可以表示為:
yi=H(xi)={h1(xi),h2(xi),…,hK(xi)}
(1)
實(shí)際應(yīng)用中,為了便于計(jì)算,上述哈希函數(shù)通常投影為矩陣w?Rd×K和截距向量b?RK×1:
yi=sgn(f(WTxi+b))
(2)
其中f(·)是預(yù)先指定的函數(shù),可以是線性或非線性的。然后,數(shù)據(jù)庫(kù)中的所有圖像都由二進(jìn)制編碼表示。查詢(xún)圖像xq也可以通過(guò)公式(2)映射成二進(jìn)制編碼。隨后,查詢(xún)圖像與數(shù)據(jù)庫(kù)中每個(gè)圖像之間的相似性搜索轉(zhuǎn)換為相應(yīng)二進(jìn)制代碼的漢明距離排序,其速度非???。哈希算法的關(guān)鍵是如何獲得好的哈希函數(shù),它不僅能夠?qū)⒃嫉奶卣骺臻g映射到二進(jìn)制漢明空間內(nèi),而且能夠保持原始數(shù)據(jù)之間的相似性和多樣性。
2.2.2 哈希算法分類(lèi)
計(jì)算哈希函數(shù)的方法大致可以分為2類(lèi),即數(shù)據(jù)獨(dú)立的和數(shù)據(jù)依賴(lài)的。數(shù)據(jù)獨(dú)立的方法是指能夠?qū)⒔o定的任意數(shù)據(jù)集壓縮成二進(jìn)制代碼的廣義哈希函數(shù)。局部敏感哈希(LSH)是最流行的數(shù)據(jù)獨(dú)立的方法[49-51]?;贚SH的方法通過(guò)最大化相似項(xiàng)的概率來(lái)計(jì)算哈希函數(shù),這可以將原來(lái)接近的數(shù)據(jù)點(diǎn)映射為高概率的相同位。然而,這種方法通常需要很長(zhǎng)的二進(jìn)制代碼和許多哈希函數(shù)來(lái)確保所需的檢索精度,大大增加了存儲(chǔ)成本和查詢(xún)時(shí)間。更重要的是,由于這些哈希函數(shù)是獨(dú)立于訓(xùn)練數(shù)據(jù)集而設(shè)計(jì)的,因此很難確保任何給定數(shù)據(jù)集的檢索性能。
另一類(lèi)是依賴(lài)數(shù)據(jù)的方法,其從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)哈希函數(shù)。一般來(lái)說(shuō),與數(shù)據(jù)無(wú)關(guān)的方法相比,數(shù)據(jù)相關(guān)的方法可以用較短的二進(jìn)制碼實(shí)現(xiàn)更好的檢索精度。目前,許多基于學(xué)習(xí)的哈希方法已應(yīng)用于大規(guī)模醫(yī)學(xué)圖像檢索,包括迭代量化(ITQ)、基于核的監(jiān)督哈希(KSH)、Anchor Graph Hashing(AGH)、不對(duì)稱(chēng)內(nèi)積二值編碼(AIBC)等。因此,依賴(lài)于數(shù)據(jù)的哈希方法的分類(lèi)可以從多個(gè)維度來(lái)定義。例如,根據(jù)訓(xùn)練數(shù)據(jù)集是否有標(biāo)簽,哈希方法可以分為有監(jiān)督方法、無(wú)監(jiān)督方法和半監(jiān)督方法。監(jiān)督方法采用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),如核學(xué)習(xí)、度量學(xué)習(xí)和深度學(xué)習(xí),從標(biāo)記的訓(xùn)練數(shù)據(jù)中計(jì)算哈希函數(shù)。許多監(jiān)督哈希方法已經(jīng)取得了良好的性能,因?yàn)樗鼈兛梢钥s短二進(jìn)制代碼和圖像標(biāo)簽之間的語(yǔ)義鴻溝[52-54]。無(wú)監(jiān)督方法探索訓(xùn)練數(shù)據(jù)集的性質(zhì),如根據(jù)分布和流形結(jié)構(gòu)來(lái)設(shè)計(jì)有效的哈希函數(shù)。具有代表性的方法包括譜哈希法、圖哈希法、偏向哈希法等。此外,半監(jiān)督方法設(shè)計(jì)哈希函數(shù)同時(shí)使用標(biāo)簽和非標(biāo)簽數(shù)據(jù)。這些類(lèi)型的方法可以通過(guò)利用有限的圖像標(biāo)簽的語(yǔ)義相似性來(lái)提高二進(jìn)制編碼性能,同時(shí)保證過(guò)擬合的穩(wěn)健性。數(shù)據(jù)依賴(lài)方法也可以根據(jù)哈希函數(shù)的形式分為線性和非線性。線性哈希函數(shù)用簡(jiǎn)單的投影來(lái)分離和映射原始特征空間。它們計(jì)算效率高,易于優(yōu)化。然而,當(dāng)圖像數(shù)據(jù)之間的差異細(xì)微且線性不可分時(shí),線性哈希函數(shù)不適應(yīng)這種情況。因此,非線性哈希就用來(lái)解決這種情況。這種方法通過(guò)學(xué)習(xí)基于核矩陣或流形結(jié)構(gòu)的哈希函數(shù),可以將內(nèi)在結(jié)構(gòu)嵌入到高維空間中,并將特征向量非線性映射為二進(jìn)制編碼[55-57]。
通過(guò)相似度匹配后,可以有效地度量計(jì)算出排名靠前的醫(yī)學(xué)圖像。然而,這些檢索結(jié)果可能并不是人們想要的,由于使用不同的特征,檢索精度的變化較大。因此,對(duì)粗略結(jié)果的重新排序有望進(jìn)一步提高檢索性能,從而進(jìn)行更精確的檢索。二級(jí)檢索方法可以對(duì)初始檢索的圖像進(jìn)行重新排序,將最相關(guān)的圖像移動(dòng)到最前面或優(yōu)化檢索結(jié)果。
近年來(lái),在不同的圖像檢索應(yīng)用中提出了多種方法用于二級(jí)檢索。在醫(yī)學(xué)圖像領(lǐng)域,二級(jí)檢索方法大致可以分為基于文本視覺(jué)、基于多特征和基于用戶(hù)反饋3個(gè)類(lèi)別。下面我們簡(jiǎn)要概述這3類(lèi)方法:
1) 基于文本視覺(jué):這種方法首先通過(guò)文本索引檢索相關(guān)醫(yī)學(xué)圖像,然后通過(guò)考慮視覺(jué)相似性對(duì)初始結(jié)果進(jìn)行重新排序[58-60]。
2) 基于多特征:這種方法首先計(jì)算多種特征的檢索結(jié)果,然后通過(guò)對(duì)上述檢索到圖像進(jìn)行融合并重新排序得到最終結(jié)果。文獻(xiàn)[61]在從多種特征中獲得一些排名靠前的相關(guān)圖像之后,采用基于圖的查詢(xún)?nèi)诤戏椒?,得到重新排列出的多個(gè)檢索結(jié)果。一般而言,這種重新排序方法可以顯著提高檢索性能,因?yàn)樗鼈兪褂枚鄠€(gè)特征(如局部和整體特征)考慮圖像的相似性和區(qū)分性。
3) 基于用戶(hù)反饋:在接收到初始結(jié)果后,這種方法根據(jù)用戶(hù)的相關(guān)反饋對(duì)檢索到的圖像進(jìn)行重新排序。相關(guān)性反饋可以指定哪個(gè)圖像是相關(guān)/不相關(guān)的。文獻(xiàn)[62]將視覺(jué)和文本特征組合起來(lái)用于初始索引。然后,檢索系統(tǒng)采用用戶(hù)提供的反饋來(lái)執(zhí)行重新排序。這個(gè)重新排序的過(guò)程將系統(tǒng)精度從0.8提高到了0.89。
在大多數(shù)情況下,重排序方法只需要考慮排名靠前的初始檢索結(jié)果,例如,大多數(shù)真正相關(guān)的圖像包含在前K個(gè)結(jié)果中,而K遠(yuǎn)小于整體圖像的數(shù)量數(shù)據(jù)庫(kù)。因此,對(duì)初始檢索結(jié)果重新排序是非常有效的,因?yàn)樗恍枰幚硪徊糠謭D像。更重要的是,通過(guò)考慮和比較使用多種信息源的相似性,可以改進(jìn)檢索的精度。
在回顧了大規(guī)模醫(yī)學(xué)圖像檢索的上述方法之后,我們將在本節(jié)中展望未來(lái)發(fā)展趨勢(shì)。盡管采用了各種先進(jìn)的大規(guī)模計(jì)算技術(shù)進(jìn)行檢索,但仍然需要許多技術(shù)來(lái)提高檢索性能。首先,在特征方面,需要一種算法適合多模態(tài)、不同器官的語(yǔ)義特征表達(dá),雖然有一部分學(xué)者試著用深度學(xué)習(xí)來(lái)解決這類(lèi)問(wèn)題,但是深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)和標(biāo)簽數(shù)據(jù),所以這是一個(gè)很大的挑戰(zhàn);而另一部分學(xué)者融合多種特征作為檢索依據(jù),但是目前卻沒(méi)有一種特征融合方法適合所有的醫(yī)學(xué)圖像。其次,在特征匹配方面,特征匹配是影響圖像檢索效率的關(guān)鍵步驟,高效的特征匹配方法可以有效解決醫(yī)學(xué)圖像檢索的實(shí)時(shí)性問(wèn)題。最后,實(shí)時(shí)更新,由于醫(yī)學(xué)圖像在不斷地產(chǎn)生,目前的檢索方案中并沒(méi)有提及實(shí)時(shí)更新圖像數(shù)據(jù)庫(kù)。所以一個(gè)好的醫(yī)學(xué)圖像檢索系統(tǒng),在提高圖像檢索精度的同時(shí),也能提高圖像檢索的效率,并且能夠隨時(shí)更新數(shù)據(jù)庫(kù),把最新的、最好的檢索結(jié)果呈現(xiàn)給醫(yī)務(wù)工作者。因此,基于深度學(xué)習(xí)和大數(shù)據(jù)并行計(jì)算技術(shù)的醫(yī)學(xué)圖像特征高效表示和圖像檢索效率將成為醫(yī)學(xué)圖像檢索領(lǐng)域未來(lái)研究的主要趨勢(shì)。