范馨予
摘 要 對(duì)于圖像的自動(dòng)標(biāo)注,探索合適的方法能提高系統(tǒng)標(biāo)注結(jié)果在語(yǔ)義范疇的正確性。該文探討了基于稀疏編碼的圖像自動(dòng)標(biāo)注。結(jié)合近鄰及統(tǒng)計(jì)的思想,以corel-5k原有人工標(biāo)注為基礎(chǔ),在matlab平臺(tái)上對(duì)其測(cè)試圖集進(jìn)行自動(dòng)標(biāo)注。從結(jié)果上看,稀疏編碼方法準(zhǔn)確率相比常用方法偏低,但對(duì)于圖像特征的學(xué)習(xí)明顯優(yōu)于其他方法。因此,稀疏編碼在圖像的自動(dòng)標(biāo)注領(lǐng)域有可行之處。
【關(guān)鍵詞】稀疏編碼 圖像自動(dòng)標(biāo)注 近鄰求解
1 引言
圖像自動(dòng)標(biāo)注是通過(guò)獲得已經(jīng)標(biāo)注好的圖像集,對(duì)未標(biāo)注過(guò)的圖像進(jìn)行標(biāo)注。近年來(lái),對(duì)圖像自動(dòng)標(biāo)注的研究增多,使準(zhǔn)確率逐漸提高。圖像自動(dòng)標(biāo)注使用最廣泛的是基于學(xué)習(xí)方法的分類(lèi)模型,例如判別式模型、生成模型等。此外,還有一種基于最近鄰的分類(lèi)模型。因?yàn)樽罱彽臉?biāo)注方法使用的視覺(jué)特征不能很好的反映語(yǔ)義信息,所以應(yīng)用并不普遍。但在視覺(jué)特征的提取和近鄰圖像求解方法進(jìn)行改進(jìn),就可以提高近鄰模型的標(biāo)注性能。基于稀疏編碼的圖像自動(dòng)標(biāo)注就是一種基于最近鄰的分類(lèi)模型。
2 最近鄰方法論證
2.1 圖像特征提取
最常用的圖像特征是顏色特征,除此之外還有紋理特征、形狀特征、空間特征等特征。一般特征的提取有很多方式。顏色特征、sift特征、freak特征、brisk特征等等。因?yàn)轭伾臻g的HSV特征結(jié)果便于后續(xù)的視覺(jué)分析且計(jì)算量小,本文只考慮圖像顏色特征的提取。
2.2 最近鄰求解
最近鄰圖像求解是圖像自動(dòng)標(biāo)注最重要的部分,其核心是通過(guò)對(duì)提取的圖像特征運(yùn)算得到與其最相似的圖像。最近鄰圖像求解算法很多,本文只在最常用的歐式距離和最終使用的稀疏編碼之間展開(kāi)討論。
2.2.1 歐式距離算法
歐式距離算法很早就在圖像邊緣檢測(cè)、人臉識(shí)別、數(shù)據(jù)審計(jì)等不同方向有著廣泛的應(yīng)用。對(duì)于相似性度量,歐式距離是一個(gè)簡(jiǎn)單實(shí)用的算法。在尋找相似的圖像中,為了提高準(zhǔn)確性,提取的圖像特征不一定只有顏色特征一種。但考慮到不同特征的影響不同,這里引進(jìn)一種加權(quán)的歐式距離算法:
2.2.2 稀疏編碼算法
稀疏編碼源自于神經(jīng)網(wǎng)絡(luò),是近年來(lái)圖像信號(hào)處理領(lǐng)域的一個(gè)研究熱點(diǎn)。其最大的優(yōu)勢(shì)是壓縮數(shù)據(jù)量,給在高緯度數(shù)據(jù)的計(jì)算帶來(lái)極大便利。例如兩個(gè)上萬(wàn)緯的向量空間,一個(gè)作為訓(xùn)練空間一個(gè)作為測(cè)試空間。兩個(gè)空間做一個(gè)簡(jiǎn)單的內(nèi)積可能達(dá)上萬(wàn)次。但如果這兩個(gè)向量空間里有n個(gè)和m個(gè)非零元素,那么只用做min(n,m)次乘法。并且當(dāng)m,n遠(yuǎn)大于零元素的個(gè)數(shù)時(shí),計(jì)算量就會(huì)大大減少。但并不是min(n,m)越小越好,對(duì)于訓(xùn)練空間,若n的值遠(yuǎn)遠(yuǎn)小于空間緯度值,即數(shù)據(jù)點(diǎn)個(gè)數(shù)遠(yuǎn)小于特征數(shù)量,并且這時(shí)候還沒(méi)有任何約束,便會(huì)出現(xiàn)過(guò)擬合的情況。過(guò)擬合不是沒(méi)能擬合好訓(xùn)練數(shù)據(jù),相反,過(guò)擬合的代價(jià)反而與零非常相近,這樣則會(huì)導(dǎo)致訓(xùn)練結(jié)果沒(méi)法泛化到測(cè)試樣本空間中去。要是因?yàn)樘卣鬟^(guò)多發(fā)生了過(guò)擬合,減少不必要的特征量便能減少過(guò)擬合。但很多時(shí)候,其特征不僅龐大還沒(méi)有冗余,所以一般都用正則化在保留所有特征變量的情況下減少其數(shù)量級(jí)。正則化可以通過(guò)坐標(biāo)下降法和范數(shù)求解等方法實(shí)現(xiàn)。這些方法,最常用的l1范數(shù)正則化。l1范數(shù)是從凸優(yōu)化角度計(jì)算訓(xùn)練空間的稀疏系數(shù),是l0范數(shù)的最優(yōu)凸近似,又比l2更具有稀疏性。因此,本文采用l1正則最小二乘法求解測(cè)試目標(biāo)與訓(xùn)練空間對(duì)應(yīng)的稀疏系數(shù)。
式中y為測(cè)試圖像特征,A是所有訓(xùn)練圖像特征構(gòu)成的矩陣,x為稀疏的基向量。λ∑xi是正則化項(xiàng),λ是正則化參數(shù)。正則化項(xiàng)能對(duì)高階項(xiàng)進(jìn)行收縮,通過(guò)在很好的擬合數(shù)據(jù)和保持參數(shù)值較小之間找到平衡。λ越大擬合的結(jié)果越簡(jiǎn)潔,若過(guò)大,則擬合的結(jié)果將會(huì)趨近一條水平線,此時(shí)為欠擬合。
綜上所述,歐式距離算法雖然相對(duì)簡(jiǎn)單,但其圖像所有特征點(diǎn)同等對(duì)待,這大大減少了圖像之間的關(guān)聯(lián)性同時(shí)也失去部分圖像信息。而稀疏編碼算法不僅能考慮圖像的關(guān)聯(lián)性和差異性,同時(shí)也是一種魯棒性很強(qiáng)的算法。因此,本文最終使用稀疏編碼方法在圖像的hsv顏色特征上對(duì)圖像進(jìn)行自動(dòng)標(biāo)注。
3 實(shí)驗(yàn)思路
Corel-5k數(shù)據(jù)集圖像集共包含大小相等的5000張圖片。Corel-5k分為50個(gè)大類(lèi),每一類(lèi)都是100張圖,且每一類(lèi)都有相應(yīng)主題。其中每張圖片已被人工標(biāo)注了1~5個(gè)單詞。
本實(shí)驗(yàn)先提取數(shù)據(jù)集里所有圖片合適的圖像特征和人工標(biāo)注的關(guān)鍵詞作為訓(xùn)練圖集數(shù)據(jù),然后采用相應(yīng)的算法求解測(cè)試圖集各幅圖對(duì)訓(xùn)練圖集最近鄰的k幅圖片,最后統(tǒng)計(jì)這些圖片中出現(xiàn)次數(shù)前n個(gè)的標(biāo)注作為訓(xùn)練圖片的自動(dòng)標(biāo)注結(jié)果。
程序首先對(duì)corel-5k數(shù)據(jù)集所有圖像進(jìn)行HSV顏色特征的提取,將訓(xùn)練圖像組成一個(gè)矩陣,測(cè)試圖像組成另一個(gè)矩陣。一次對(duì)測(cè)試圖像求解相對(duì)訓(xùn)練圖像的稀疏系數(shù)。求解l1范數(shù)引用了[8]M. Figueiredo, R. Nowak, and S. Wright的梯度投影法。取出前五個(gè)稀疏系數(shù)最小的圖像,再統(tǒng)計(jì)前五個(gè)出現(xiàn)次數(shù)最多的人工標(biāo)注的詞作為自動(dòng)標(biāo)注的結(jié)果。最后將結(jié)果和測(cè)試圖像人工標(biāo)注的結(jié)果比較分析,并求解查全率查準(zhǔn)率。
4 實(shí)驗(yàn)數(shù)據(jù)分析
Corel5K 數(shù)據(jù)集部分測(cè)試圖像與部分近鄰圖如下.由圖可以看出,在視覺(jué)顏色的分布上,稀疏編碼求得的近鄰圖像十分相似。雖然有個(gè)別看上去有些區(qū)別,但大體上保持了一致。
測(cè)試圖像a的自動(dòng)標(biāo)注有Coral、Ocean、Reefs、Fish、Sea,人工標(biāo)注有Coral、Fan、Ocean、Farms、sea。圖像b的自動(dòng)標(biāo)注有Field、Horse、Mare、Grass、Tree,人工標(biāo)注有Field、Foals、Mare、horses。從結(jié)果看來(lái),本文自動(dòng)標(biāo)注的結(jié)果和人工標(biāo)注結(jié)果大體一致,大部分人工標(biāo)注的關(guān)鍵詞在自動(dòng)標(biāo)注的結(jié)果中都有出現(xiàn)。此外,自動(dòng)標(biāo)注還添加或修改了個(gè)別關(guān)鍵詞。
最后計(jì)算的查準(zhǔn)率和查全率為25.115%和24.519%。雖然相比歐氏距離的29.968%和29.487%偏低。這跟取值有關(guān),本系統(tǒng)中=1,這個(gè)值的參數(shù)不一定對(duì)每幅圖像都合適。有些圖像可能迭代次數(shù)不夠,有些圖像可能迭代次數(shù)過(guò)多,從而影響了稀疏編碼之后的標(biāo)注。
從自動(dòng)標(biāo)注結(jié)果的整體來(lái)看,自動(dòng)標(biāo)注的個(gè)別詞會(huì)有語(yǔ)義鴻溝的出現(xiàn)。因?yàn)橛?jì)算機(jī)只能對(duì)圖像低層特征進(jìn)行計(jì)算,無(wú)法自下而上推知高層語(yǔ)義,所語(yǔ)義鴻溝在結(jié)果中必然存在??梢钥吹?,用稀疏編碼計(jì)算出的近鄰圖像視覺(jué)上顏色的相似度很高。但是某些相似的圖片中的語(yǔ)義和源測(cè)試圖像并不一致。如測(cè)試圖像a語(yǔ)義中最主要的是珊瑚,但其近鄰的圖像有一幅語(yǔ)義主題是魚(yú)。這些標(biāo)注混入近鄰圖像人工標(biāo)注的統(tǒng)計(jì)中來(lái),使測(cè)試圖像的自動(dòng)標(biāo)注結(jié)果有誤。但語(yǔ)義鴻溝不一定都會(huì)產(chǎn)生偏差。從測(cè)試圖像b的標(biāo)注結(jié)果中可以看到,其近鄰的圖語(yǔ)義主題有熊和房子。但自動(dòng)標(biāo)注結(jié)果在人工標(biāo)注里的田野、馬、母馬單詞基礎(chǔ)上增添的草坪和樹(shù)對(duì)于測(cè)試圖像是一種正確的學(xué)習(xí),反而使自動(dòng)標(biāo)注結(jié)果更加具體豐富。所以,若是在數(shù)量更加龐大且分類(lèi)標(biāo)注更加細(xì)致的訓(xùn)練圖像集,語(yǔ)義鴻溝會(huì)得到一定程度的抑制,自動(dòng)標(biāo)注的準(zhǔn)確率可能也會(huì)得到一定程度的提高。
5 結(jié)語(yǔ)
本文用稀疏編碼的方法實(shí)現(xiàn)了對(duì)Corel5K 數(shù)據(jù)集的測(cè)試集進(jìn)行自動(dòng)標(biāo)注。但基于稀疏編碼的方法的效率仍需要提高??梢酝ㄟ^(guò)改進(jìn)優(yōu)化l1范數(shù)求解問(wèn)題優(yōu)化,例如調(diào)整的取值;可以在系統(tǒng)求解稀疏系數(shù)前對(duì)每一幅測(cè)試圖像計(jì)算其最合適的;在人臉的圖像識(shí)別上,有一類(lèi)新穎高效的建立在l2范數(shù)求解基礎(chǔ)上的稀疏描述方法,計(jì)算復(fù)雜程度相對(duì)較低。但人臉識(shí)別算法移植到圖像識(shí)別,中間也會(huì)有問(wèn)題需要注意。對(duì)于標(biāo)注的改進(jìn)方法,可以把關(guān)聯(lián)詞與詞之間的語(yǔ)義聯(lián)系,而不是每個(gè)標(biāo)注詞都是互相獨(dú)立的。例如草(grass)和樹(shù)(tree)語(yǔ)義聯(lián)系比較緊密,當(dāng)一幅圖被標(biāo)注了草(grass),那么它被標(biāo)注上的樹(shù)(tree)的概率也更高。這種關(guān)聯(lián),也是改善圖像標(biāo)注性能手段之一。因此,尋找滿(mǎn)足應(yīng)用的快速稀疏編碼和提高圖像標(biāo)注在語(yǔ)義上的準(zhǔn)確率是下一步重點(diǎn)研究的方向。
參考文獻(xiàn)
[1]吳偉,高光來(lái),聶建云.一種融合語(yǔ)義距離的最近鄰圖像標(biāo)注方法[J].計(jì)算機(jī)科學(xué)2015,42(01):297-302.
[2]劉瑞元.加權(quán)歐氏距離及其應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2002,21(05):17-19.
[3]劉建偉,崔立鵬,劉澤宇,羅雄麟.正化稀疏模型[J].計(jì)算機(jī)學(xué)報(bào),2015,38(07):1307-1325.
[4]臧淼,徐惠民,張永梅.基于距離約束稀疏/組稀疏編碼的圖像自動(dòng)標(biāo)注[J].四川大學(xué)學(xué)報(bào),2016,48(05):78-83.
[5]溫超,耿國(guó)華.基于內(nèi)容圖像檢索中的“語(yǔ)義鴻溝”問(wèn)題[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,35(05):536-540.
[6]徐勇,范自柱,張大鵬.基于稀疏算法的人臉識(shí)別[M].北京:國(guó)防工業(yè)出版社,2014.
[7]鮑泓,徐光美,馮松鶴,須德.圖像自動(dòng)標(biāo)注技術(shù)研究進(jìn)展[J].2011,38(07):35-40.
[8]M.Figueiredo,R.Nowak,andS.Wright.“Gradientprojection for sparsereconstruction:Application to compressedsensing and other inverse problems,”IEEE J.Sel.Topics Signal Process.,vol.1,no.4,p.586-597,Dec. 2007.
作者單位
北方工業(yè)大學(xué)電子信息工程學(xué)院 北京市 100144