關(guān)鍵詞:圖像檢索;圖像描述符;近似最近鄰向量;殘差向量;碼書訓(xùn)練
中圖分類號:TP18 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)25-0036-04
0 引言
基于內(nèi)容的圖像檢索(Content-Based Image Re?trieval,CBIR) 在計算機視覺領(lǐng)域引起了廣泛關(guān)注,這是由于人們對網(wǎng)絡(luò)上多媒體數(shù)據(jù)的興趣日益濃厚。此外,由于每天上傳的圖像和視頻數(shù)量龐大,因此存在許多相似或接近重復(fù)的圖像,視覺搜索、電子商務(wù)、版權(quán)保護和圖像標(biāo)注等應(yīng)用都對基于內(nèi)容的圖像檢索提出了更高的需求。
在視覺特征工程時期的圖像檢索一般采用單一描述圖像特征的描述符,如紋理特征、顏色直方圖等。這一時期提出的描述符為早期的圖像表示作出了很大貢獻,為圖像描述符研究提供了方向和思路。如統(tǒng)計圖像局部區(qū)域的梯度方向直方圖描述符[1]、描述局部紋理的描述符[2],以及面向稠密特征提取的描述符[3]等。在此基礎(chǔ)上,研究者將方向梯度直方圖和局部二值模式結(jié)合,形成新的描述符[4],大幅提升了描述符用于圖像檢索的準(zhǔn)確度。按照描述符提取方式,可以將描述符劃分為局部特征描述符和全局特征描述符。局部特征描述符關(guān)注的是圖像細粒度更高的局部特征,判別不同圖像往往根據(jù)其局部細微差別。因此,研究者們沿著這一方向不斷突破,提出了一系列局部特征描述符以執(zhí)行計算機視覺方面的任務(wù)。其中,一種尺度不變性局部特征描述符(Scale Invariant FeatureTransform,SIFT) [5]具有生成速度快、表征能力強的優(yōu)點。該描述符的維度適中,可大大減輕存儲壓力;能快速檢索匹配,且可提取圖像局部特征點的位置、尺度、旋轉(zhuǎn)角度等關(guān)鍵信息,在視角變化、光線強度和噪聲干擾的影響下仍能保持較高的穩(wěn)定性,在大規(guī)模圖像數(shù)據(jù)集的檢索與識別任務(wù)中被廣泛使用。在此描述符的基礎(chǔ)上繼續(xù)研究,Bay等[6]使用Haar小波來近似SIFT方法中的梯度操作,提出了一種性能與SIFT 相當(dāng)?shù)俣雀斓腟URF特征。
隨著圖像規(guī)模的增大,局部特征描述符的弊端也逐漸顯現(xiàn)。局部特征生成的圖像描述符在進行圖像檢索時會因圖像規(guī)模龐大而導(dǎo)致維度爆炸災(zāi)難,給計算機的存儲和查詢帶來很大的負(fù)擔(dān)。研究者通過對局部描述符進行加工,生成了一種維度小、表示能力強的圖像全局描述符(Vector of Locally Aggregated De?scriptor, VLAD) [7],利用局部特征在訓(xùn)練類心的殘差和近似表示局部特征,基于聚類中心串聯(lián)所有殘差和形成圖像的全局表示向量。生成的全局描述符僅使用隸屬于聚類中心的殘差向量進行圖像檢索,就能獲得較高的檢索精度,較大程度減小了運算和存儲的開銷。
隨著機器學(xué)習(xí)與深度學(xué)習(xí)的研究興起,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的深度特征所形成的局部和全局描述符在計算機視覺領(lǐng)域被廣泛應(yīng)用。針對圖像檢索任務(wù),經(jīng)過改進的基于YOLO的神經(jīng)網(wǎng)絡(luò)被用于船舶圖像的檢索識別[8],結(jié)合深度哈希算法與注意力機制的花卉圖像檢索在公開數(shù)據(jù)集Oxford 17 Flowers上表現(xiàn)突出[9]。王彪等[10]微調(diào)VGG16網(wǎng)絡(luò),優(yōu)化損失函數(shù)后采用遷移學(xué)習(xí)的方式生成面料特征,所開發(fā)的面料檢索系統(tǒng)性能優(yōu)秀。大量研究文獻證明,深度卷積神經(jīng)網(wǎng)絡(luò)能夠有效學(xué)習(xí)圖像特征,為計算機視覺的發(fā)展提供了方向,并在人工智能領(lǐng)域被廣泛應(yīng)用。相比于深度學(xué)習(xí)的特征描述符,傳統(tǒng)手工特征的生成速度快,構(gòu)造方式簡單,且在一定場景的檢索識別任務(wù)中仍能滿足檢索精度要求,進而被深入研究。
基于聚合局部殘差的描述符(Vector of Locally Ag?gregated Descriptor, VLAD) [7]能夠全局表示圖像,有效區(qū)別圖像的差異特征,且訓(xùn)練速度快,計算開銷不高,在檢索和識別任務(wù)中不斷被改進和使用。本文結(jié)合該描述符的研究基礎(chǔ),分析聚類中心的空間分布位置,改進聚類中心的選擇方式,引入均值等分向量以近似最近鄰的聚類中心累積殘差向量。生成的描述符被命名為近似最近鄰類心圖像描述符(ApproximateNearest Neighbor Centroid,ANNC-VLAD) 。改進的描述符重新定義了每個局部特征的最近鄰類心,從空間距離上說明近似的最近鄰類心擁有更接近的特征表示,證明了描述符性能提升的可靠性。
1 聚合局部殘差和的特征描述符VLAD
VLAD(Vector of Locally Aggregated Descriptors) 算法由Jégou等[7]提出,是一種通過聚合局部特征與聚類中心的殘差來表示圖像全局特征的描述符算法。該算法可以分為三個階段:訓(xùn)練碼書、計算殘差向量和累積殘差。
2 近似最近鄰類心圖像描述符ANNC-VLAD
研究聚合局部殘差的描述符VLAD時發(fā)現(xiàn),描述符的性能與碼書的大小相關(guān)。聚類中心數(shù)量越多,描述符的維度越大,檢索精度越高。然而,聚類中心的訓(xùn)練需要時間,數(shù)量越多訓(xùn)練時間越長,且描述符的維度越高,歐式距離運算的匹配速度越慢,也會增加存儲壓力。因此,在保證維度一定的情況下,提高描述符的精度是研究的目標(biāo)。本文提出了一種利用近似最近鄰聚類中心生成的圖像描述符方法,在空間中找到每個局部特征歐式距離比最近鄰類心更近的一個向量。此向量并不是通過訓(xùn)練得到的,即圖像描述符ANNC-VLAD選擇的是空間中比聚類中心歐氏距離更近的向量來計算殘差,該向量被命名為近似最近鄰向量。同時,為了不增加累積殘差的計算量,將殘差向量累積在隸屬于最近鄰的聚類中心。因此,該描述符不需要訓(xùn)練更多的聚類中心,碼書生成速度快,計算的描述符維度緊湊,且在平均檢索精度上具有一定的優(yōu)勢。
3 實驗
在INRIA Holidays [7]、UKBench [11] 和Holidays_Flickr1M [7]三個國際公開的圖像檢索數(shù)據(jù)集上測試ANNC-VLAD描述符的性能,并與VLAD描述符進行比較。
3.1 數(shù)據(jù)集的介紹
INRIA Holidays 數(shù)據(jù)集包含1 491 張圖片,其中500張用于查詢,其余991張作為查詢圖片的關(guān)聯(lián)圖片。利用平均檢索精度(mean average precision, mAP) 作為該數(shù)據(jù)集的評價指標(biāo)。UKBench數(shù)據(jù)集由2 550 個物品分別從4個不同角度拍攝的10 200張圖片組成,分辨率為640×480,采用查全率Recall@4作為該數(shù)據(jù)集的評價指標(biāo)。每個物體抽取一張圖像作為查詢圖像,數(shù)據(jù)集所有圖片作為圖像庫,從中找尋關(guān)聯(lián)圖片。
3.2 聚類中心數(shù)目對檢索結(jié)果的影響
本節(jié)實驗對比了VLAD描述符與近似最近鄰類心圖像描述符ANNC-VLAD在不同數(shù)目的聚類中心時,在兩個數(shù)據(jù)集上的平均檢索結(jié)果。實驗顯示,訓(xùn)練更多的聚類中心,可以將特征的聚類空間劃分得更為細致,保留的局部特征的類別數(shù)目越多,兩種描述符的性能越好。然而,從描述符的形成過程和聚類中心的訓(xùn)練方法來看,類心數(shù)目的增加會帶來更大的開銷,形成的描述符維度越大。存儲類心向量與近似最近鄰向量的殘差向量所需的空間越大,同時描述符維度越高,相似性計算也更耗時。
為更好地比較分析描述符的性能,本節(jié)實驗在訓(xùn)練相同數(shù)據(jù)集時,使用相同的聚類中心數(shù)目對兩種描述符進行檢索驗證,即K=16、32、64、128、256。繼續(xù)增大聚類中心數(shù)目后,描述符性能提升效果并不明顯,且訓(xùn)練時間成本和檢索成本會大幅提升,不滿足圖像數(shù)據(jù)集即時檢索的需求。圖3展示了兩種描述符在Holidays數(shù)據(jù)集上的平均檢索精度的比較,圖4展示了兩種描述符在UKBench數(shù)據(jù)集的平均查全率的比較。
結(jié)果顯示,兩種描述符在訓(xùn)練相同的聚類中心時,描述符向量維度一致。本文提出的聚合近似最近鄰殘差向量的圖像描述符ANNC-VLAD在Holidays數(shù)據(jù)集上的平均檢索精度和UKBench數(shù)據(jù)集的查全率均優(yōu)于聚合局部特征殘差的描述符VLAD,且隨著訓(xùn)練聚類中心數(shù)目的增大,ANNC-VLAD與VLAD描述符的性能都有一定的提升。
3.3 ANNC-VLAD 和VLAD 的開銷比較
訓(xùn)練碼書階段,兩種描述符訓(xùn)練相同大小的碼書,且訓(xùn)練方法相同,因此碼書的生成時間一致。在計算描述符向量時,由于ANNC-VLAD描述符需要使用K近鄰算法找到最近鄰和次近鄰碼字,并通過這兩個碼字計算四分之一點作為候選近似最近鄰向量,此過程略微增加了計算量。因此,在兩個數(shù)據(jù)集上的計算開銷略微增大,但在合適維度下仍能較快給出響應(yīng)結(jié)果,并提升描述符的性能。在保證碼書大小均為64 且描述符的維度均為8192維時,對兩種描述符的生成時間進行測試,表1與表2分別列出了在兩個數(shù)據(jù)集下描述符的檢索結(jié)果和生成時間。由于數(shù)據(jù)集圖像的分辨率大小不同,Holidays數(shù)據(jù)集是高清圖像,平均整體生成時間比UKBench數(shù)據(jù)集圖片生成時間略長,但總體上,兩種描述符都能滿足大規(guī)模圖像檢索的快速召回要求。
4 結(jié)論
本文基于聚合局部殘差描述符VLAD算法,在進行K近鄰量化特征時,通過計算局部特征的最近鄰碼字和次近鄰碼字的四分之一等分向量來獲得近似最近鄰向量。然后,將近似最近鄰向量與最近鄰碼字比較歐式距離,以決定量化局部特征的選擇。通過使用近似最近鄰向量來累積殘差,這一方法減小了最近鄰碼字在量化特征時產(chǎn)生的誤差損失。通過國際公開的檢索數(shù)據(jù)集驗證了描述符性能的提升效果。當(dāng)碼書大小均為64 時,近似最近鄰向量殘差描述符在Holidays數(shù)據(jù)集上的平均檢索精度相比VLAD描述符提升了4.18%,在UKBench數(shù)據(jù)集上的查全率提升了4.10%,證明了該改進描述符的可行性。