国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于內(nèi)容的圖像檢索技術(shù)研究綜述

2023-05-11 08:59:04施水才
軟件導(dǎo)刊 2023年4期
關(guān)鍵詞:檢索卷積模態(tài)

楊 慧,施水才

(北京信息科技大學(xué) 計算機學(xué)院,北京 100101)

0 引言

隨著現(xiàn)代互聯(lián)網(wǎng)技術(shù)快速發(fā)展,大量圖像數(shù)據(jù)信息(圖片與圖片文本描述)迅速增長,可收集圖像構(gòu)建圖像庫應(yīng)用于各領(lǐng)域。目前,圖像數(shù)據(jù)信息的表現(xiàn)方式呈現(xiàn)多樣化,不同形式的數(shù)據(jù)可描述同一主題圖片?;诙喾N數(shù)據(jù)信息,研究者們在進行圖像檢索研究中,從何種角度選取特征表征圖像的方法眾多,涌現(xiàn)了許多新模型與算法。圖像檢索技術(shù)在搜索引擎、公共安全、醫(yī)療診斷、商品服飾搜索等眾多領(lǐng)域應(yīng)用廣泛,包括時尚圖像檢索、專利產(chǎn)品檢索、醫(yī)學(xué)圖像檢索、淘寶物品搜索、圖文檢索等,并已取得了較大成績。

本文對圖像檢索的經(jīng)典與最新方法進行概述性總結(jié),從全局與局部特征提取、無監(jiān)督與有監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)等方面概括傳統(tǒng)方法與機器學(xué)習(xí)方法在圖像檢索方面存在的區(qū)別。總結(jié)目前圖像檢索任務(wù)中面臨的挑戰(zhàn)及亟需解決的問題,并在此基礎(chǔ)上分析該技術(shù)未來的研究方向。

1 圖像檢索任務(wù)與評價方法

1.1 圖像檢索任務(wù)

圖像檢索是計算機視覺領(lǐng)域的一個重要研究方向,目的在圖像數(shù)據(jù)庫中查詢與輸入圖像相似的內(nèi)容。圖像檢索按描述圖像內(nèi)容方式可分基于文本的圖像檢索(Text Based Image Retrieval,TBIR)與基于內(nèi)容的圖像檢索(Content Based Image Retrieval,CBIR)。

TBIR 利用人工標(biāo)注或通過圖像識別技術(shù)的半自動標(biāo)注方式描述圖像內(nèi)容,為每幅圖像形成描述圖像內(nèi)容的關(guān)鍵詞。在檢索階段,用戶通過關(guān)鍵字從圖像庫中檢索標(biāo)注相關(guān)的圖片。此外,該方法易于實現(xiàn),由于存在人工或圖像識別技術(shù)標(biāo)注,算法的查準率相對較高,在面對中小規(guī)模圖像搜索問題時具有較好的應(yīng)用前景。

由于TBIR 技術(shù)人工標(biāo)注費時費力,過程中易受到標(biāo)注者知識水平、言語使用及主觀判斷等因素影響,發(fā)生文字描述圖片差異等問題。為解決檢索圖像的高級語義與低級視覺特征間的“語義鴻溝”,學(xué)術(shù)界、工業(yè)界均做出了努力逐步建立CBIR 技術(shù)。隨著深度學(xué)習(xí)理論不斷完善,CBIR 取得了巨大進步,其圖像檢索一般框架如圖1 所示。在大規(guī)模圖像檢索中,CBIR 任務(wù)是在一個大型圖像集合中搜索與給定查詢數(shù)據(jù)最相關(guān)的內(nèi)容,主要包含特征提取和相似性度量兩個階段,借助計算機優(yōu)勢克服TBIR 技術(shù)存在的缺陷,提高模型檢索效率,在電子商務(wù)、醫(yī)療診斷、版權(quán)保護、公共安全等領(lǐng)域具有廣闊的應(yīng)用前景。

Fig.1 General framework for content-based image retrieval圖1 CBIR一般框架

現(xiàn)階段,圖像檢索任務(wù)最需要注意的問題是“語義鴻溝”,即描述圖像的低級特征與圖像包含的高級感知概念間存在鴻溝,導(dǎo)致無法檢索不相關(guān)的圖像,在過去30 年一直是眾多學(xué)者研究的焦點[1]。不少學(xué)者提出各種方法將圖像高級概念轉(zhuǎn)換為特征,根據(jù)不同特征提取方法將傳統(tǒng)特征劃分為全局、局部特征。例如顏色、紋理、形狀和空間信息等全局特征展現(xiàn)了整副圖像的表示,適用于對象分類與檢測[2]。相較于全局特征,局部特征更適用應(yīng)用于圖像檢索、匹配任務(wù)和識別[3]?;谏疃葘W(xué)習(xí)的特征提取則主要利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),所提取的特征一般為圖像的全局特征表示。

1.2 圖像檢索評價方法

在圖像檢索任務(wù)中選擇合適的評估公式取決于所用方法、算法自身、問題領(lǐng)域這3 個因素。目前,CBIR 技術(shù)常用評價指標(biāo)包括召回率(R)、精確率(P)、綜合評價(Fscore)和均值平均精度(mAP)。

召回率(R)指檢索系統(tǒng)正確檢索圖像占數(shù)據(jù)集中相關(guān)圖像總數(shù)百分比[4],計算公式如式(1)所示。

其中,T表示檢索返回正確檢索的樣本數(shù)量,V表示數(shù)據(jù)集中未返回與檢索圖像相關(guān)的樣本數(shù)量。

精確率(P)指檢索系統(tǒng)正確檢索圖像占檢索到的圖像總數(shù)百分比[5],計算公式如式(2)所示。

其中,U表示檢索返回與查詢樣本不相關(guān)的樣本數(shù)量。一般情況下,R、P相互矛盾,針對特定領(lǐng)域圖像檢索任務(wù)可根據(jù)需求對召回率和精確率進行判斷。

綜合評價指標(biāo)(F-score)指召回率與精確率的加權(quán)調(diào)和平均值[6],計算公式如式(3)所示。

其中,β為調(diào)整召回率與精確率權(quán)重的參數(shù),若需要更高的精確率則減小β,若需要更高的召回率則增大β。當(dāng)β=1 時,R、P同樣重要,即為F1-score[7],F(xiàn)1 值越高說明系統(tǒng)檢索性能越好。

均值平均精度(mAP)是目前圖像檢索任務(wù)中最流行的評價指標(biāo),當(dāng)給定一個查詢q和top-K 檢索到數(shù)據(jù)的情況下,平均精度(AP)的計算公式如式(4)所示[8]。

其中,k表示檢索返回的第k個數(shù)據(jù),P(k)表示返回前k個檢索數(shù)據(jù)時的精確率,N表示數(shù)據(jù)庫中當(dāng)前查詢圖像q的相關(guān)圖像數(shù)量。若第k個檢索返回的數(shù)據(jù)與查詢q相關(guān),則α(k)=1,否則α(k)=0。

mAP 是所有查詢數(shù)據(jù)的AP 的平均值[9],計算如式(5)所示。

其中,Q表示查詢樣本總數(shù)。相較于上述各種評價指標(biāo),mAP 在衡量算法的檢索能力時能反映全局性能。

2 經(jīng)典數(shù)據(jù)集

在圖像檢索技術(shù)各項研究中,數(shù)據(jù)是重要的驅(qū)動力,表1 展示了常用圖像檢索任務(wù)數(shù)據(jù)集。Google Landmarks Dataset v2 數(shù)據(jù)集包含超過5×106張圖像和2×105張不同的實例標(biāo)簽[10],其中訓(xùn)練集圖片4 132 914 張,索引集圖片 761 757 張,測試集圖片117 577 張。GLDv2 是最大的地標(biāo)性數(shù)據(jù)集,包含標(biāo)注的人造地標(biāo)與自然地標(biāo)圖像。NUSWIDE 是多標(biāo)簽定義關(guān)于圖像文本匹配的數(shù)據(jù)集,包含269 648 張圖片,每張圖片平均含有2~5 個標(biāo)簽[11]。MS COCO 數(shù)據(jù)集包含123 287 幅圖像,每張圖片至少含有5 個語句標(biāo)注[12]。Flickr30k 包含31 783 張圖片,每張圖片含有5 個語句標(biāo)注[13]。Oxford-5k 由11 座牛津建筑的5 062 幅圖像組成,每幅圖像由5 個手繪邊界框表示,總計55 個查詢感興趣區(qū)域[14]。Sketchy 包含125 個不同類別的草圖圖像對,每個類別包含100 張圖像,還收集了與12 500 張圖像對相對應(yīng)的手繪草圖75 471張[15]。

Table 1 Common image retrieval datasets表1 常見圖像檢索數(shù)據(jù)集

3 傳統(tǒng)低層特征

表示圖像語義內(nèi)容的特征提取與選擇在CBIR 中發(fā)揮重要作用,可分為全局特征與局部特征。其中,全局特征描述整幅圖像;局部特征通常將圖像分割為塊或通過計算某些關(guān)鍵點進行獲取。以下將對傳統(tǒng)圖像全局、局部特征提取進行回顧與總結(jié),闡述它們對圖像檢索系統(tǒng)性能的影響。

3.1 全局特征

傳統(tǒng)視覺特征在發(fā)展早期主要利用顏色、紋理、形狀、空間信息等全局特征,這些特征計算簡單、表示直觀。在圖像檢索任務(wù)中廣泛使用的圖像全局特征包括顏色、紋理、形狀和空間信息特征,如圖2所示。

Fig.2 Classification and extraction methods of global features圖2 全局特征的分類及提取方法

3.1.1 顏色特征

人們可直觀根據(jù)顏色特征區(qū)分圖像,是圖像檢索系統(tǒng)中廣泛應(yīng)用的重要特征之一。研究者們根據(jù)顏色空間計算顏色特征,在CBIR 領(lǐng)域中最常用的顏色空間包括RGB、HSV、YCbCr、LAB 和YUV。這些顏色空間可使用顏色直方圖(CH)、顏色集、顏色矩、顏色聚合向量、顏色相關(guān)圖等描述符進行表示。并且,顏色特征不受圖像旋轉(zhuǎn)與平移變化的影響,歸一化后對圖像尺度變化具有較高的魯棒性,結(jié)合顏色空間信息可更好地表征圖像。為了得到紋理與顏色間的對應(yīng)關(guān)系,Kanaparthi 等[25]采用通道間投票方法,在色調(diào)、飽和度和亮度上使用一致性,提出一種綜合顏色與亮度直方圖的全局相關(guān)性與局部紋理特性的圖像檢索方法。

3.1.2 紋理特征

紋理存在于許多真實的圖像中,且被認為是計算機視覺的關(guān)鍵特征,因此紋理特征被廣泛應(yīng)用于圖像檢索與模式識別中。紋理是用來識別圖像中感興趣的物體或區(qū)域的重要特征之一,Haralick 等[26]描述基于灰度空間相關(guān)性的易計算紋理特征,說明其在顯微照片、航空照片和衛(wèi)星圖像這3 種不同類型圖像數(shù)據(jù)分類識別任務(wù)中的應(yīng)用。實驗表明,易計算的紋理特征對各圖像分類應(yīng)用具有普遍適用性。然而,基于紋理的圖像檢索的主要缺點是計算復(fù)雜度與噪聲敏感性較高[9]。

Haralick 等[26]提出最著名的圖像統(tǒng)計特征提取方法灰度共生矩陣(Gray-Level Co-Occurrence Matrix,GLCM)。對紋理進行分析的方法還包括Gabor 濾波器、Voronio 棋盤格特征法、結(jié)構(gòu)法、馬爾可夫隨機場(Markov random field,MRF)模型法、邊緣直方圖描述符(EHD)、離散小波變換(DWT)等。Alaei 等[27]研究來自于統(tǒng)計、變換、模型和結(jié)構(gòu)四大類紋理特征提取方法的26 種紋理特征提取方法。Banerjee 等[28]提出基于局部領(lǐng)域亮度模式(Local Neighborhood Intensity Pattern,LNIP)的紋理描述符。Yu 等[29]提出一種用于圖像檢索多趨勢二進制碼描述符(Multi-Trend Binary Code Descriptor,MTBCD)特征提取方法。Lan 等[30]提出一種利用醫(yī)學(xué)圖像紋理特征進行檢索的簡單方法。Dhingra 等[31]提出一種基于紋理的圖像智能高效處理方法。Singh 等[32]提出一種新的彩色圖像局部二值模式(Local Binary Pattern For Color Image,LBPC)描述符。

3.1.3 形狀特征

形狀是標(biāo)識圖像的低層特征之一,基于形狀特征的檢索方法可有效利用圖像感興趣的目標(biāo)進行檢索。一般情況下形狀描述符會隨圖像比例與平移發(fā)生變化,因此通常與其他描述符合并使用來提高圖像檢索準確性。其中,典型的形狀特征描述方法包括邊界特征法、傅里葉形狀描述符法、幾何參數(shù)法和形狀不變矩法等。

3.1.4 空間信息特征

以前研究提取的低層特征大多缺乏空間信息,由于空間特征主要與圖像分割的多個目標(biāo)間的相互空間位置相關(guān)??臻g關(guān)系的使用可加強對圖像內(nèi)容的描述區(qū)分能力,但對圖像旋轉(zhuǎn)、尺度變化等較為敏感。在實際檢索應(yīng)用中,空間信息常與其他低層特征相配合以獲得更精確的檢索結(jié)果。Lazebnik 等[33]提出空間金字塔匹配(Spatial Pyramid Matching,SPM)是一種利用空間金字塔進行圖像匹配、識別、分類的算法,實驗證明該方法是捕捉圖像空間屬性的最佳方法之一。Mehmood 等[34]將局部視覺直方圖表示圖像中心區(qū)域的空間信息與全局視覺直方圖相連接,將組成的視覺單詞添入BoVW 表示的倒排索引中,該方法在Corel-A、Caltech-256 和Ground Truth 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于傳統(tǒng)方法。表2 展示了部分基于傳統(tǒng)全局特征的圖像檢索方法的效果及特點。

在早期CBIR 研究中,使用全局特征能帶來良好的準確性,但該特征容易受到光照、旋轉(zhuǎn)、噪聲、遮擋等環(huán)境干擾,影響全局特征提取準確率,并且各特征計算量較大。

3.2 局部特征

相較于全局特征,圖像局部特征在比例與旋轉(zhuǎn)不變性方面更優(yōu)。為了對圖像特征進行更細致表示,局部特征描述逐步出現(xiàn)。例如,斑點檢測SIFT、SURF 等算法;角點檢測Harris、FAST 等算法;二進制字符串特征描述BRISK、ORB、FREAK 等算法。這類算法僅需簡單計算與統(tǒng)計,無需大規(guī)模學(xué)習(xí)與訓(xùn)練。圖3 展示了局部特征的分類及提取方法。

3.2.1 斑點檢測

Lowe 等[48]提出尺度不變特征變換(Scale-invariant Feature Transform,SIFT)是一種可在圖像中檢測關(guān)鍵點的局部特征描述子。為了解決SIFT 算法在處理CBIR 問題時內(nèi)存占用與匹配時間較大的缺點,Montazer 等[49]利用SIFT提取圖像特征并對其進行K-means 聚類,在保持圖像特征鑒別能力同時將SIFT 提取的特征降低了一個維度數(shù),該降維方法使SIFT 特征更真實、有效地應(yīng)用于圖像檢索。

雖然,通過SIFT 提取的特征具有旋轉(zhuǎn)、縮放、平移、光照不變性,但高度依賴局部區(qū)域像素梯度,若區(qū)域選取不合適將導(dǎo)致檢索結(jié)果發(fā)生錯誤。Bay 等[50]引入一種尺度與旋轉(zhuǎn)不變性檢測器和描述符——加速魯棒特征(Speeded-Up Robust Features,SURF),克服了SIFT 的高維限制,計算、比較速度相較于SIFT 更快,并在興趣點提取及特征向量描述方面進行了改進。

3.2.2 角點檢測

Harris 等[51]首次提出一種魯棒的角點檢測器——Harris 檢測器,通過分析自相關(guān)矩陣特征值定位亮度變化較大的點。Mikolajczyk 等[52]提出一種檢測對尺度和仿射變換不變的興趣點方法,使用Harris 檢測器提取的興趣點可適應(yīng)仿射變換,是一種視頻穩(wěn)定、圖像匹配、攝像機校準和定位的參考技術(shù)手段[53]。

Fig.3 Classification and extraction methods of local features圖3 局部特征的分類及提取方法

Table 2 Effects and characteristics of image retrieval methods based on traditional global features(part)表2 基于傳統(tǒng)全局特征圖像檢索方法的效果及特點(部分)

雖然,Harris 檢測器對噪聲、尺度和旋轉(zhuǎn)具有較強的魯棒性,但計算成本較高。Xu等[54]發(fā)現(xiàn)Harris檢測器對大型圖像數(shù)據(jù)集的處理效率并不理想,而FAST(Features from Accelerated Segment Test)能突破Harris 在計算成本方面的限制[55]。同時,本文研究發(fā)現(xiàn)FAST 具有極強重復(fù)性,能在不同變化下檢測興趣點,實驗表明該方法的角點檢測優(yōu)于邊緣檢測。

3.2.3 二進制字符串特征描述子

SIFT、SURF 特征描述子會占用大量內(nèi)存空間,實際上其并非所有維度均在匹配中具有實質(zhì)性作用。因此,可使用PCA 等特征降維方法壓縮特征描述子維度。例如,LSH算法可將SIFT 特征描述子轉(zhuǎn)換為一個二值碼串,使用漢明距離匹配特征點。BRIEF 提供一種計算二值串的捷徑,無需計算一個類似于SIFT 的特征描述子[56],大幅度加快了特征描述子的建立速度,便于在硬件上實施。但該方法的缺點是描述子旋轉(zhuǎn)與尺度不變性較差,對噪聲較為敏感。Leutenegger 等[57]提出一種關(guān)鍵點檢測、描述和匹配方法二進制魯棒不變可伸縮關(guān)鍵點(Binary Robust Invariant Scalable Keypoints,BRISK),該方法具有較好的旋轉(zhuǎn)不變性、尺度不變性及魯棒性等,在對較大模糊的圖像進行匹配搜索時表現(xiàn)最出色。Rublee 等[58]在FAST 中添加快速、準確的方向組件,提出一種非??焖俚幕诿嫦騀AST 旋轉(zhuǎn)BRIEF(Oriented FAST Rotated and BRIEF,ORB)的二進制描述符ORB,實驗證明ORB 相較于SIFT 快兩個數(shù)量級,且ORB 具有旋轉(zhuǎn)不變性和抗噪聲性。為了使描述符在保持對縮放、旋轉(zhuǎn)和噪聲的魯棒性情況下,計算速度更快、更緊湊,Alahi 等[59]提出快速視網(wǎng)膜關(guān)鍵點(Fast Retina Key-Point,F(xiàn)REAK)的關(guān)鍵點描述符。表3 展示了部分基于傳統(tǒng)局部特征圖像檢索方法的效果及特點。

Table 3 Effects and characteristics of image retrieval methods based on traditional local features(part)表3 基于傳統(tǒng)局部特征圖像檢索方法效果及其特點(部分)

由表3 可見,局部特征具有較好的穩(wěn)定性,對旋轉(zhuǎn)、尺度縮放、亮度變化等方面穩(wěn)定性較好,不易受視角變化、仿射變換、噪聲干擾[73]。綜上,圖像的局部特征點能反映圖像的局部特殊性,適用于進行圖像匹配、檢索等應(yīng)用。

4 機器學(xué)習(xí)

近年來CBIR 系統(tǒng)逐漸使用機器學(xué)習(xí),獲得能處理新輸入數(shù)據(jù)并給出正確預(yù)測結(jié)果的模型,以提高圖像檢索效率。以下將從無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)方面,對現(xiàn)階段在圖像檢索技術(shù)中應(yīng)用的算法進行闡述。

4.1 無監(jiān)督學(xué)習(xí)

在CBIR 中使用最廣泛的兩類無監(jiān)督學(xué)習(xí)算法為聚類和降維。在特征選擇、提取時對圖像進行降維能在保留數(shù)據(jù)結(jié)構(gòu)、有用性的同時壓縮數(shù)據(jù)。聚類則是將圖像特征描述符按相似度聚集成不同分組。其中,K 均值聚類算法和主成分分析(Principal Component Analysis,PCA)降維算法在CBIR 系統(tǒng)使用廣泛。

當(dāng)CBIR 系統(tǒng)使用局部特征提取方法時,通常會進行聚類處理來確定圖像所屬語義組。其中,K-means 與Kmeans++方法是CBIR 系統(tǒng)中使用最廣泛的兩種聚類算法[74-75]。Yousuf 等[76]將K-means 應(yīng)用于SIFT 與LIOP 視覺詞匯融合后構(gòu)建的視覺詞上,提高檢索性能。

然而,K-means 算法的局限性在于需要指定初始聚類數(shù)量,并且初始質(zhì)心選擇也會影響聚類算法性能。此外,K-means 無法處理離群點和噪聲數(shù)據(jù)。Azarakhsh 等[77]采用自動聚類方法,利用進化與元啟發(fā)式算法分類與識別各種數(shù)字圖像,實驗表明優(yōu)化后的K-means 聚類具有更高的平均檢索精度。Ghodratnama 等[78]將聚類與分類思想相結(jié)合,提出一種在多標(biāo)簽框架下進行圖像檢索的方法,有效解決了“語義鴻溝”問題。Anju 等[79]提出基于內(nèi)容的安全圖像檢索方案,提取圖像的MPEG-7 視覺描述符并將其進行聚類以便于索引,相較于最快、最先進的方案,該方案具有高度可擴展性,搜索、索引速度分別提升7 倍和23 倍,且檢索精度更高。Mehmood 等[80]將K-means++應(yīng)用于由HOG 與SURF 視覺詞典融合而成的視覺詞典,通過賦予初始質(zhì)心權(quán)值克服K-means 的局限性,雖然K-means++選擇初始質(zhì)心的過程相較于K-means 更復(fù)雜、耗時更長,但聚類迭代次數(shù)更少,結(jié)果更精確,計算成本有所降低。

通常,圖像特征提取伴隨著高維特征向量表示,PCA是一種用于高維數(shù)據(jù)降維的方法,該方法能提取數(shù)據(jù)的主要特征分量。Adegbola 等[81]提出一種基于PCA 特征降維技術(shù)的CBIR 系統(tǒng),以計算成本換取檢索精度,實驗表明在允許平均精度值減少5%的情況下可實現(xiàn)特征向量維數(shù)減少80%,但繼續(xù)增加特征向量維數(shù)減少百分比會導(dǎo)致檢索結(jié)果變差。Kumar 等[82]將PCA 與其他技術(shù)相結(jié)合對醫(yī)學(xué)圖像進行混合特征提取,在醫(yī)學(xué)圖像數(shù)據(jù)集中取得了較好的檢索精度。

4.2 監(jiān)督學(xué)習(xí)

相較于無監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)算法具有圖像分組和標(biāo)簽的先驗知識。監(jiān)督學(xué)習(xí)就是最常見的分類問題,通過已有訓(xùn)練樣本訓(xùn)練得到一個在某一評價準則下的最優(yōu)模型,利用模型將所有輸入映射為相應(yīng)的輸出,對輸出進行簡單判別從而實現(xiàn)分類。監(jiān)督學(xué)習(xí)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)與決策樹的常見技術(shù),常見的有監(jiān)督學(xué)習(xí)算法包括回歸分析、統(tǒng)計分類。其中,應(yīng)用于圖像檢索領(lǐng)域最典型的算法為支持向量機(Support Vector Machine,SVM)與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。

Cortes 等[83]提出模式識別與圖像分類中最常用的監(jiān)督分類器——SVM。研究者們可利用SVM 為輸入圖片數(shù)據(jù)分配類別,解決高維問題,有效避免“維數(shù)災(zāi)難”,缺點是無法適用于超大型數(shù)據(jù)集,對缺失數(shù)據(jù)敏感。ANN 的吸引力來自于顯著的信息處理特性,例如非線性、高并行性、容錯性、抗噪性及學(xué)習(xí)和泛化能力[84],可應(yīng)用于計算機視覺、醫(yī)學(xué)診斷、語音識別和機器翻譯等特定任務(wù)。

4.3 深度學(xué)習(xí)

傳統(tǒng)視覺特征極大程度依賴人為設(shè)計,無法準確表征圖像特征進而對檢索性能造成一定的影響。目前,深度學(xué)習(xí)在計算機視覺任務(wù)中取得了巨大成功。深度學(xué)習(xí)是一種實現(xiàn)機器學(xué)習(xí)的技術(shù),包含監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)算法,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)是監(jiān)督學(xué)習(xí)方法,生成對抗網(wǎng)絡(luò)(GAN)是無監(jiān)督學(xué)習(xí)方法[85]。相較于傳統(tǒng)機器學(xué)習(xí)方法,深度學(xué)習(xí)的性能使圖像識別、計算機視覺、機器翻譯、語音識別等領(lǐng)域的新應(yīng)用成為可能。

4.3.1 深度網(wǎng)絡(luò)架構(gòu)類型

深度神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)與廣泛的參數(shù)化使其在計算機視覺任務(wù)中取得了顯著成功。目前在圖像檢索領(lǐng)域存 在AlexNet[86]、VGG[87]、GoogLeNet[88]、ResNet[89]、MobileNet[90]和EfficientNet[91]共6 種網(wǎng)絡(luò)模型作為特征提取的基礎(chǔ)。

(1)AlexNet。該模型在2012ILSVRC 中顯著提高了ImageNet 分類精度,使CNN 成為圖像分類上的核心算法模型。模型結(jié)構(gòu)由5 個卷積層和3 個全連接層組成,數(shù)據(jù)增強時在前兩個全連接層引入Dropout 防止模型發(fā)生過擬合現(xiàn)象,將ReLU 代替?zhèn)鹘y(tǒng)sigmod 或Tanh 激活函數(shù),采用雙GPU 設(shè)計模式提升模型訓(xùn)練速度。同時,模型的重疊池化既減少了系統(tǒng)發(fā)生過擬合現(xiàn)象,又提高了預(yù)測精度。此外,AlexNet 借鑒側(cè)抑制的思想提出局部響應(yīng)歸一化(Local Response Normalization,LRN),使響應(yīng)比較大的值相對更大,以進一步提高模型泛化能力。

(2)VGG。該模型具有多層標(biāo)準深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),其中VGG-16 與VGG-19 被廣泛使用,分別由13 和16 個卷積層組成[87]。VGG 網(wǎng)絡(luò)使用逐層訓(xùn)練方法,由非常小的卷積濾波器構(gòu)成,實驗表明不斷加深網(wǎng)絡(luò)結(jié)構(gòu)能提升模型性能。

(3)GoogLeNet。該模型設(shè)計了inception 模塊,可構(gòu)造更稀疏的CNN 結(jié)構(gòu)[88],通過使用不同大小卷積核抓取不同大小的感受野,最后一層采用全局均值池化層替換全連接層,減少了模型參數(shù)。相較于AlxeNet、VGGNet、GoogLeNet 模型更深更寬,模型參數(shù)更少,學(xué)習(xí)效率更高。更深層次的體系結(jié)構(gòu)有利于學(xué)習(xí)更高層次的抽象特征,從而減少語義差距。

(4)ResNet(Deep Residual Learning for Image Recognition)。該模型使用插入快捷連接將普通網(wǎng)絡(luò)轉(zhuǎn)換為殘差網(wǎng) 絡(luò)[89],相較于VGGNets 而 言ResNets 過濾器更少。ResNet 使用跳躍連接或跳過某些層避免發(fā)生梯度消失的問題,跳躍連接充當(dāng)梯度高速公路,使梯度不受干擾地流動。

(5)MobileNet。相較于AlexNet、ResNet 等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在某些性能、速度、設(shè)備資源受限的情況下,MobileNet輕量級網(wǎng)絡(luò)結(jié)構(gòu)的準確度尚可接受且效率較高。該模型的基本單元深度可分離卷積是一種可分解卷積操作,不僅降低了模型計算復(fù)雜度,還大幅度縮減了模型大小,為手機或嵌入式等移動端提供了便利。

(6)EfficientNet。相較于傳統(tǒng)模型隨機縮放技術(shù),EfficientNet 使用復(fù)合系數(shù)技術(shù),即平衡寬度、深度和圖像分辨率3 個維度的比例,簡單、有效的放大模型[91]。此外還開發(fā)了7 個不同維度的模型,實驗表明該模型均超過了大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)的精度,且效率更高。

4.3.2 深度特征提取

基于深度學(xué)習(xí)的特征提取主要是從各深度網(wǎng)絡(luò)模型的全連接層或卷積層中進行,既可提取全連接層的全局特征,也可提取卷積層的局部特征,還可兩種方式相互結(jié)合。具體的,特征的融合方式包括層級別和模型級別。

(1)深度特征選擇。卷積提取的是局部特征,全連接將以前的局部特征重新通過權(quán)值矩陣組裝成完整圖,因此代表了圖像的全局特征。將全連接層提取到的特征使用PCA 降維及標(biāo)準化后,即可進行圖像間的相似性度量。

然而,單獨使用全連接層特征可能會限制圖像檢索精度。Song 等[92]指出在第一個全連接層和最后一個全連接層間建立直接連接可實現(xiàn)由粗到細的提升。此外,由于全連接層表示圖像級特征,包含圖像的不相關(guān)信息及缺乏局部幾何不變性。為此,Song等[92]還在更精細的尺度上提取區(qū)域級特征,解決背景雜波問題。由于缺乏幾何不變性會影響對圖像變換的魯棒性,例如圖像發(fā)生裁剪、遮擋等情況。為此,研究者們提出使用中間卷積層解決該問題[93-95]。

卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層均由若干卷積單元組成,靠前的卷積層提取圖像角點、紋理等低級特征,靠后的卷積層提取高維度、抽象特征。對于圖像檢索而言,卷積神經(jīng)網(wǎng)絡(luò)的效果優(yōu)于全連接神經(jīng)網(wǎng)絡(luò)。卷積層中包含更多圖像的局部結(jié)構(gòu)信息特征,對圖像變換具有較強魯棒性[93]。Li 等[96]使用卷積層作為特征提取器,從CNN 不同層提取多尺度區(qū)域最大激活卷積特征,在3 個基準數(shù)據(jù)集上的實驗表明該算法在準確性、魯棒性方面均優(yōu)于現(xiàn)有算法。

在標(biāo)準神經(jīng)網(wǎng)絡(luò)中通常使用池化操作聚合特征,其中和/平均池化和最大池化是兩種最簡單的池化方法。將卷積層提取的特征進行池化操作可有效減小參數(shù)數(shù)量,增強特征表示的魯棒性。此外,R-MAC[97]、SPoC[93]、CroW[98]、SCDA[99]和GeM 池化[100]等特征聚合方法也能有效提升提取的圖像特征檢索性能。

(2)深度特征融合。特征融合是想結(jié)合不同特征長處,達到優(yōu)勢互補。Liu 等[101]合并來自不同全連接層的多個深度全局特征。Li 等[96]將R-MAC 編碼方案應(yīng)用于VGG16 的5 個卷積層,將其連接為多尺度特征向量。Wang等[102]選擇VGG-16 所有卷積層提取圖像特征表示實現(xiàn)多特征融合,該方法相較于僅使用單層特征具有更強的穩(wěn)健性。

在細粒度圖像檢索中為重視局部特征在細微特征差異方面的決定性作用,Yu 等[103]利用不同層次CNN 特征的更多互補優(yōu)勢,低層特征用于細化高層特征的排序結(jié)果而非僅將多層直接連接。通過映射函數(shù),利用低層特征度量查詢與圖像具有相同語義的最近鄰圖像間的細粒度相似性。Gong 等[104]提出一種多尺度無序池化CNN,將CNN 特征分別從不同層中進行提取與編碼,然后將不同層的聚合特征相連接測量圖像。Li 等[105]在多層無序池的基礎(chǔ)上提出多層無序融合(Multi-layer Orderless Fusion,MOF)算法,在Holiday、UKBench 數(shù)據(jù)集的實驗證明,融合卷積層與全連接層性能更優(yōu)。Zhang 等[106]融合從同一CNN 中提取的兩種特征類型生成的索引矩陣,該方法計算復(fù)雜度較低。Yang 等[107]放棄兩段式的檢索,提出一種深度正交局部和全局(DOLG)特征融合框架用于檢索端到端圖像,在重新修改的Oxford、Paris 數(shù)據(jù)集上驗證了該方法的圖像檢索性能。

將不同模型特征進行融合需要注重模型間的互補性。Simonyan 等[87]引入ConvNet 模型內(nèi)融合策略,融合VGG-16 與VGG-19 提高VGG 的特征學(xué)習(xí)能力。Yang 等[108]引入一個雙流注意力CNNs 實現(xiàn)圖像檢索,該方法可像人類一樣通過保留顯著內(nèi)容和抑制不相關(guān)區(qū)域計算圖像相似性,取得了較強的圖像檢索性能。Zheng 等[109]認為模型間融合可彌合中級和高級特征之間的差距,結(jié)合VGG-19 與AlexNet 學(xué)習(xí)組合特征。Qzaki 等[110]將來自6 個不同模型的描述符連接。Ge等[111]提出一種多級特征融合方法改進高分辨率遙感圖像檢索的特征表示。Jiang 等[112]提出一種基于圖像特征融合和離散余弦變換的圖像檢索方法,分別從基于淺層特征融合方法和基于深度特征融合方法進行比較。在Corel、Oxford 建筑數(shù)據(jù)集上的實驗表明,兩種方法均能提升檢索系統(tǒng)性能。

研究者們通過融合多層提升圖像檢索性能,按照融合與預(yù)測先后順序可分為早融合和晚融合。其中,早融合先融合候選特征,然后在融合后的唯一特征表示上進行圖像檢索[101,107-108]。晚融合則通過結(jié)合不同特征檢索結(jié)果改進檢索性能[105]。在CBIR 中使用深度學(xué)習(xí)算法雖能提高檢索準確率,但在訓(xùn)練與測試階段需要花費較長時間。

4.3.3 基于深度學(xué)習(xí)的圖像檢索

依據(jù)不同數(shù)據(jù)集圖像的應(yīng)用領(lǐng)域,在基于深度學(xué)習(xí)的圖像檢索應(yīng)用中,從不同檢索類型進行以下總結(jié),具體內(nèi)容如表4所示。

(1)跨模態(tài)檢索。隨著深度神經(jīng)網(wǎng)絡(luò)在圖像檢索研究領(lǐng)域的應(yīng)用,跨模態(tài)檢索受到廣泛關(guān)注。圖像與文本兩個模態(tài)在檢索領(lǐng)域中非常常見,當(dāng)給定一個模態(tài)數(shù)據(jù)時,跨模態(tài)檢索任務(wù)在另一個空間中找到與給定模態(tài)對應(yīng)或最接近的若干數(shù)據(jù)??缒B(tài)匹配可理解為判斷給定的兩種不同模態(tài)的數(shù)據(jù)是否相關(guān)。例如,Wei 等[135]基于CNN 視覺特征進行跨模態(tài)檢索。

多模態(tài)檢索方法包括深度視覺語義哈希[136]、自監(jiān)督對抗性哈希[137]、深度級聯(lián)跨模態(tài)排序模型[138]、深度互信息最大化算法[139]、深度聯(lián)合語義跨模態(tài)哈希算法[140]。Dey 等[141]提出一種跨模態(tài)深度網(wǎng)絡(luò)結(jié)構(gòu),允許文本、草圖作為查詢輸入,利用注意力模型使用查詢中的多個對象進行檢索。Lee 等[142]研究圖文匹配問題,提出堆疊交叉注意力機制,使用圖像區(qū)域和句子中的單詞作為上下文發(fā)現(xiàn)完整的潛在對齊,推斷圖像—文本相似性。Wang 等[143]提出由跨模態(tài)消息聚合和跨模態(tài)門控融合組成的跨模態(tài)自適應(yīng)消息傳遞模型,自適應(yīng)探索文本圖像匹配中圖像與語句間的交互。Chaudhuri 等[144]提出基于深度神經(jīng)網(wǎng)絡(luò)的遙感跨模態(tài)檢索框架。Sumbul 等[145]提出一種新的自監(jiān)督跨模態(tài)圖像檢索方法,該方法在無需任何注釋的訓(xùn)練圖像情況下,仍能有效保持模態(tài)內(nèi)與模態(tài)間的相似性,且消除模態(tài)間差異。此外,劉穎等[146-147]也提出基于深度學(xué)習(xí)的跨模態(tài)檢索的方法。

Table 4 Some methods of different retrieval types based on deep learning and their characteristics表4 基于深度學(xué)習(xí)的不同檢索類型的部分方法及其特點

(2)類別級檢索。類別級圖像檢索(Category level Image Retrieval,CIR)的主要任務(wù)是查詢圖像與相同類別的任意圖像,例如狗、汽車[148-150]。Sharma 等[151]提出有監(jiān)督判別式遠距離學(xué)習(xí)方法和基于水機梯度的學(xué)習(xí)方法,在基于語義類別的圖像檢索任務(wù)中優(yōu)于標(biāo)準基線。Meng等[152]在類別級上進行特征提取和匹配,提出一種新的基于合并區(qū)域的圖像檢索方法。Xu 等[153]提出跨域表示學(xué)習(xí)框架,在類別級SBIR 中取得了很強的性能。

(3)實例級檢索。實例級圖像檢索(Instance level Image Retrieval,IIR)的目標(biāo)是尋到包含查詢圖像中特定實例的圖像,這些圖像可能是在不同背景條件所捕獲。為了在大規(guī)模圖像數(shù)據(jù)庫中實現(xiàn)準確、高效的檢索,IIR 的核心任務(wù)是獲取圖像緊湊且判別的特征表示。Razavian 等[95]使用基于ConvNet 表示的局部特征提取,開發(fā)基于深度CNN 的視覺實例檢索基線。

圖像實例檢索的其他方法包括局部卷積特征包[154]、多標(biāo)簽圖像數(shù)據(jù)的實例感知圖像表示方法[155]和深度多實例排序的哈希模型[156]等。Amato 等[157]引入一種基于標(biāo)量量化的深度特征表示方法,在實例級檢索基準測試中證明了該方法的有效性。Bai 等[158]提出一種關(guān)注圖像中實例對象的無監(jiān)督框架,被稱為對抗性實例級圖像檢索,是第一次在實例級圖像檢索任務(wù)的檢索過程中采用對抗性訓(xùn)練,可顯著提高檢索精度且不增加時間成本。Krishna等[159]在圖像檢索任務(wù)中評估對比模型,發(fā)現(xiàn)在檢索任務(wù)中使用對比方法訓(xùn)練的模型相較于在ImageNet 標(biāo)簽上訓(xùn)練的預(yù)訓(xùn)練的監(jiān)督基線,實驗結(jié)果相當(dāng)甚至更優(yōu)?;趯Ρ葘W(xué)習(xí)方法,即在無監(jiān)督方式下使用對比損失進行訓(xùn)練,能超越有監(jiān)督的方式。Zhang 等[160]構(gòu)建一個查詢自適應(yīng)相似性度量框架,由外部標(biāo)記數(shù)據(jù)集訓(xùn)練的CNN 模型提取特征,利用深度特征表示與弱監(jiān)督目標(biāo)檢測的數(shù)據(jù)集驅(qū)動的框架,對數(shù)據(jù)集進行目標(biāo)發(fā)現(xiàn)實現(xiàn)檢索,從上述3 方面利用數(shù)據(jù)集驅(qū)動方法提高實例圖像檢索性能。此外,Chen等[161]也提出有關(guān)基于深度學(xué)習(xí)的實例檢索的方法。

(4)基于草圖的圖像檢索。基于草圖的圖像檢索(Sketch Based Image Retrieval,SBIR)實質(zhì)上是跨模態(tài)信息檢索,研究者們從深度多模態(tài)特征的生成、跨模態(tài)相關(guān)性建模、相似度函數(shù)優(yōu)化3 方面建立有效的SBIR 模型。Eitz等[162]對SBIR 進行基準測試。Qi 等[163]提出基于孿生CNN體系結(jié)構(gòu)的SBIR。Song 等[164]通過引入注意力模塊、快捷連接融合塊與高階可學(xué)習(xí)能量函數(shù)構(gòu)建一種新的細粒度SBIR(FG-SBIR)模型。Pang 等[165]首次發(fā)現(xiàn)并解決跨類別FG-SBIR 泛化問題,將FG-SBIR 跨類別泛化定義為一個域泛化問題,提出一種無監(jiān)督學(xué)習(xí)方法建模一個通用的視覺草圖特征流形,自動適應(yīng)新類別。Yelamarthi 等[166]提出一個零樣本SBIR(ZS-SBIR)的基準測試,用于未被訓(xùn)練的類進行檢索。Dey 等[167]向社區(qū)貢獻了一個用于大規(guī)模ZSSBIR 的數(shù)據(jù)集QuickDrawerExtended。

SBIR 的其他方法包括跨域表示學(xué)習(xí)框架[153]、基于CNN 的語義重排序系統(tǒng)[168]、語義對齊的成對循環(huán)一致生成網(wǎng)絡(luò)[169]。Bhunia 等[170]為解決繪制草圖耗時較長的問題,設(shè)計一個基于強化學(xué)習(xí)的跨模態(tài)檢索框架FG-SBIR。Torres 等[171]利用一致的流形近似和投影(UMAP)進行降維,提出在SBIR 環(huán)境中使用緊湊的特征表示。Sain 等[172]針對不同用戶在繪制草圖時風(fēng)格多樣性問題,提出能適應(yīng)繪制風(fēng)格不可知的SBIR 模型。Yu 等[173]首次定義并解決使用徒手草圖進行細粒度實例級圖像檢索問題,提供了一個大規(guī)模的細粒度草圖數(shù)據(jù)庫QMUL FG-SBIR 數(shù)據(jù)集。在該數(shù)據(jù)集上的大量實驗表明,F(xiàn)G-SBIR 跨域注意力模型明顯優(yōu)于當(dāng)前方案。此外,Li 等[174]也提出有關(guān)SBIR 的方法。

(5)細粒度圖像檢索。Xie 等[175]提出細粒度圖像搜索概念。在深度學(xué)習(xí)技術(shù)的推動下,越來越多基于深度學(xué)習(xí)的細粒度圖像檢索方法被提出[176-178]。Wang 等[149]提出一種直接從圖像中學(xué)習(xí)細粒度圖像相似性模型的深度排序模型。Ahmad 等[179]提出一種面向?qū)ο蟮奶卣鬟x擇機制,用于預(yù)訓(xùn)練CNN 的深度卷積特征。該模型使用局部敏感哈希方法使其在大規(guī)模監(jiān)控數(shù)據(jù)集中也能進行細粒度檢索。

細粒度圖像檢索的其他方法包括基于卷積神經(jīng)網(wǎng)絡(luò)模型、基于分段交叉熵損失模型[180-181]。茍光磊等[182]提出一種選擇性加權(quán)聚合卷積特征和K-RNN 重排的細粒度圖像檢索方法。針對細粒度服飾圖像檢索問題,周前前等[183]提出一種全局—局部特征提取模型進行民族服飾圖像的細粒度檢索。此外,Wei等[184]也提出基于深度學(xué)習(xí)細粒度檢索的方法。

(6)語義檢索?;谡Z義的圖像檢索一般指基于目標(biāo)與高級語義的圖像檢索技術(shù)。Gordo 等[185]考慮到在復(fù)雜場景中語義圖像檢索任務(wù),建立模型利用人工生成的文字注釋間的相似性來學(xué)習(xí)如何在語義空間中嵌入圖像,其中嵌入圖像間的相似性與語義相似性相關(guān)。通過利用圖像標(biāo)題學(xué)習(xí)視覺與文本表示聯(lián)合嵌入,允許向查詢中添加文本修飾符,進一步提高檢索準確性。Bouchakwa 等[186]提出基于TQSR 與MLID 兩級處理的語義圖像檢索技術(shù),在兩個層次上進行基于語義的聚類算法,提高了檢索準確度。

基于深度學(xué)習(xí)的語義信息建模工作包括無監(jiān)督圖像檢索[187]、監(jiān)督檢索[188]、SBIR[164][168]、跨模態(tài)檢索[189]?;谡Z義的圖像檢索其他方法包括結(jié)合CNN 和哈希學(xué)習(xí)方法[190]、深度視覺語義量化方法[191]、結(jié)合深度神經(jīng)網(wǎng)絡(luò)分類器和圖像信號小波分解方法[192]。Nhi 等[193]提出結(jié)合聚類樹和鄰域圖的基于語義的圖像檢索系統(tǒng)。

(7)安全圖像檢索。在多媒體和云計算時代下,在圖像數(shù)據(jù)庫中如何進行安全的圖像檢索是一項重要問題。Qin 等[65]提出一種用于加密圖像檢索的新特征提取方法。首先,采用改進的Harris 算法提取圖像特征,利用加速魯棒特征算法和詞袋模型生成每幅圖像的特征向量。然后,應(yīng)用局部敏感哈希算法構(gòu)造特征向量的可搜索索引,采用混合加密方案保護圖像與索引的安全性。Xu 等[54]提出一種云環(huán)境下的大規(guī)模安全圖像檢索方法,利用漢明嵌入算法生成圖像描述符的二值特征,結(jié)合頻率直方圖與二值特征精確表示圖像特征,提高模型檢索準確性。通過隨機抽樣方法從直方圖中選取視覺詞,然后對所選視覺詞的二值特征使用min-Hash 算法生成安全索引,既保證了搜索索引的安全性,又提高了圖像檢索效率。Wang 等[194]針對用戶圖像隱私保護不足的問題,提出一種具有正確檢索身份的安全可搜索圖像檢索方案,使用橢圓曲線密碼學(xué)實現(xiàn)實體身份識別,通過局部敏感哈希函數(shù)構(gòu)建預(yù)過濾表優(yōu)化檢索效率。Iida 等[195]提出一種由原始圖像數(shù)據(jù)集生成碼本的隱私保護圖像檢索方案,研究了一種針對加密壓縮(Encryption-then-Compression,EtC)系統(tǒng)提出的基于塊加擾(block scrambling-based)的圖像加密方法。

(8)會話式圖像檢索。會話式圖像檢索能根據(jù)交互式用戶反應(yīng)逐步明確用戶檢索意圖,實現(xiàn)更精確的檢索結(jié)果。Liao 等[196]提出一種知識感知的多模態(tài)對話模型,該模型考慮視覺內(nèi)容中所包含的語義與領(lǐng)域知識。Guo等[197]引入一種基于深度學(xué)習(xí)的交互式圖像搜索方法,使用戶通過自然語言提供反饋。在此基礎(chǔ)上,Zhang 等[198]提出一種約束增強強化學(xué)習(xí)框架有效結(jié)合用戶隨時間的偏好。Zhang 等[199]針對基于文本的交互式推薦,提出一種獎勵約束推薦框架,以對抗性方式定義約束條件具有更好的泛化性。Yuan 等[200]提出一種可有效處理會話式時尚圖像檢索的多回合自然語言反饋文本框架,該框架可利用編碼后的參考圖像、反饋文本信息及會話歷史,通過一種新的神經(jīng)框架搜索候選圖像。Kim 等[133]結(jié)合合成網(wǎng)絡(luò)與校正網(wǎng)絡(luò),提出一種雙合成網(wǎng)絡(luò)(DCNet)的交互式圖像檢索方法,該方法相較于僅基于合成網(wǎng)絡(luò)的TIRG[201]、VAL[202]方法,學(xué)習(xí)多模態(tài)表示魯棒性更強。Kaushik 等[203]引入一個多視圖會話式圖像搜索系統(tǒng)[134],基于初始運行狀態(tài)、激勵和會話開發(fā)了一個強化學(xué)習(xí)模型,通過定制的搜索算法預(yù)測在一組有限的固定響應(yīng)中向用戶提供哪些回復(fù)與圖像。

5 結(jié)語

本文回顧了基于傳統(tǒng)低層特征與基于機器學(xué)習(xí)的深層特征提取方法的CBIR 技術(shù)研究進展,闡述了各方法間的聯(lián)系并對具有代表性的方法進行了概括總結(jié),分析算法間的優(yōu)點與不足。其中,基于深度學(xué)習(xí)的CBIR 技術(shù)現(xiàn)階段已成為熱點研究方向,研究者們對基于深度學(xué)習(xí)的CBIR 方法進行了大量創(chuàng)新性工作,在檢索精度、檢索效率等方面取得了巨大進步,但也隨之產(chǎn)生了許多新問題。

首先,無論是采用傳統(tǒng)低層特征還是深層特征進行檢索,特征選擇與提取是CBIR 技術(shù)的基礎(chǔ),如何選擇適當(dāng)?shù)奶卣鞣从硤D像中包含的語義和視覺感知仍然尚未解決。此外,面對特征融合帶來的特征向量維數(shù)增加問題,降維技術(shù)值得進一步深入研究,目前只有維度低、判別性好的特征才能保證檢索性能與效率,如何使用低到中等的特征向量維數(shù)進行圖像表示仍是一大難題。

其次,數(shù)據(jù)是生產(chǎn)力的根本,針對特定檢索任務(wù)需要特定領(lǐng)域數(shù)據(jù)集進行訓(xùn)練,對于各類型數(shù)據(jù)集的引入便成為研究者們的迫切需求?,F(xiàn)階段CBIR 方法側(cè)重于靜態(tài)數(shù)據(jù)集,無法適用于增量場景。隨著新數(shù)據(jù)增加,如何對訓(xùn)練好的系統(tǒng)進行改動以學(xué)習(xí)新數(shù)據(jù)中蘊含的知識是一個值得考慮的問題。

最后,圖像檢索的最終目的是以人為本,如何利用反饋技術(shù)實現(xiàn)最小迭代的用戶滿意度需仍需要深入研究。

猜你喜歡
檢索卷積模態(tài)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
2019年第4-6期便捷檢索目錄
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
國際標(biāo)準檢索
兖州市| 城市| 安阳市| 新和县| 繁峙县| 龙江县| 安康市| 瑞昌市| 永登县| 思南县| 镇江市| 邓州市| 九寨沟县| 滨海县| 莱阳市| 泾源县| 阳城县| 蛟河市| 富顺县| 扎囊县| 鹤庆县| 新和县| 乳源| 哈密市| 工布江达县| 房产| 毕节市| 百色市| 利津县| 台北县| 枝江市| 屏边| 岳西县| 昆山市| 元谋县| 宁波市| 刚察县| 南昌县| 遂平县| 海宁市| 抚州市|