国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于區(qū)域空間與詞匯加權(quán)的圖像自動標注

2011-05-10 06:27:28李紹滋
關(guān)鍵詞:分塊權(quán)值語義

柯 逍,李紹滋

(1. 廈門大學(xué)智能科學(xué)與技術(shù)系,廈門 361005;2. 福建省仿腦智能系統(tǒng)重點實驗室,廈門 361005)

基于區(qū)域空間與詞匯加權(quán)的圖像自動標注

柯 逍1,2,李紹滋1,2

(1. 廈門大學(xué)智能科學(xué)與技術(shù)系,廈門 361005;2. 福建省仿腦智能系統(tǒng)重點實驗室,廈門 361005)

圖像自動標注是圖像檢索與圖像理解中重要而又極具挑戰(zhàn)性的問題.針對現(xiàn)有模型忽略了圖像不同區(qū)域?qū)D像整體貢獻程度的差異性,提出了基于區(qū)域空間加權(quán)的標注方法,改善了圖像的區(qū)域特征生成概率估計.此外,針對現(xiàn)有模型未考慮詞匯本身重要性以及詞匯分布對標注性能的影響,提出了基于詞匯固定權(quán)值的標注方法、基于平滑詞匯頻率的標注方法以及基于詞匯 TF-IDF加權(quán)的標注方法,對詞匯的生成概率估計部分進行了改進.綜合以上區(qū)域空間改進與詞匯改進,提出了 WDVRM 圖像標注模型.通過在 Corel數(shù)據(jù)庫進行的實驗,驗證了 WDVRM 模型的有效性.

圖像自動標注;區(qū)域加權(quán);詞匯加權(quán);相關(guān)模型

圖像自動標注是指根據(jù)圖像的視覺內(nèi)容,由計算機自動產(chǎn)生圖像所對應(yīng)的文本標注信息.圖像自動標注對于圖像檢索很有意義.經(jīng)過圖像自動標注后,用戶只需要提交文本關(guān)鍵詞進行檢索,檢索方式相比基于內(nèi)容的圖像檢索更加便捷,也更符合大多數(shù)用戶的搜索習(xí)慣.目前商業(yè)化的圖像搜索引擎,如Google、Yahoo、Baidu等,對圖像標注所采用的技術(shù)還屬于自然語言處理領(lǐng)域,即主要利用網(wǎng)頁中圖像的上下文信息作為圖像的標注,如圖像的文件名及URL、ALT標簽、錨文本以及圖像周圍的環(huán)繞文本等信息.但這類方法并沒有使用圖像內(nèi)部特征,效果也不理想.文中所研究的圖像自動標注不同于這些商業(yè)化搜索引擎的標注方法,研究主要針對圖像的視覺內(nèi)容產(chǎn)生相應(yīng)圖像的標注,可稱為基于內(nèi)容的圖像自動標注.基于內(nèi)容的圖像自動標注對于構(gòu)建新一代圖像搜索引擎具有非常重要的意義.

此外,圖像自動標注還屬于圖像理解的范疇,與人對圖像的理解層次相對應(yīng),Eakins[1]將圖像語義分為3個級別,從低到高依次是視覺特征層、表達層、情感層.其中,視覺特征層包含特征語義,表達層包含對象語義與空間關(guān)系語義,情感層包含場景語義、行為語義與情感語義.高的層次通常包含了比低層次更高級更抽象的語義,此外,更高層的語義往往需要通過較低層的語義推理獲得.圖像自動標注就對應(yīng)于圖像理解中的表達層,主要研究對象語義與空間關(guān)系語義.

近年來,圖像自動標注領(lǐng)域十分活躍,人們利用統(tǒng)計模型與機器學(xué)習(xí)方法提出了各種學(xué)習(xí)模型,建立圖像視覺特征與標注關(guān)鍵詞之間的關(guān)系.2002年,Duygulu等[2]提出了機器翻譯模型,將圖像自動標注看成是兩種語言之間的翻譯問題:一種語言由描述圖像內(nèi)容的視覺詞匯構(gòu)成,另一種語言由文本詞匯構(gòu)成.通過Normalized Cut將每幅圖像分割為互不重疊的若干區(qū)域[3],并對圖像中所有區(qū)域利用K-Means算法進行聚類,得到視覺詞匯類別 blob,圖像的標注問題就可以看作是從視覺詞匯類別 blob到語義關(guān)鍵詞的翻譯過程.Monay等[4]提出了LSA模型,通過引入隱變量建立圖像特征與關(guān)鍵詞的關(guān)系.Jeon等[5]提出了跨媒體相關(guān)模型 CMRM,利用語義關(guān)鍵字與視覺關(guān)鍵字的聯(lián)合概率進行標注,采用與機器翻譯模型一樣的離散特征進行表征區(qū)域特征,blob是通過聚類得到,而聚類過程不可避免地帶來一定的信息損失.Lavrenko等[6]提出了連續(xù)相關(guān)模型CRM,它直接利用了圖像區(qū)域的連續(xù)特征值,利用非參數(shù)高斯核進行視覺特征生成概率的連續(xù)估計.Feng等[7]提出了多伯努利相關(guān)模型 MBRM,將圖像分割為規(guī)則的矩形區(qū)域來取代復(fù)雜的區(qū)域分割算法,同時引入多伯努利分布取代多項式分布來刻畫詞匯的概率分布.Zhao等[8]提出了TSVM-HMM模型,將判別分類模型(SVM)與生成式模型(HMM)相結(jié)合,并選取5%的圖像對每個區(qū)域進行人工標注,進而提高最終的標注結(jié)果.Gustavo等[9]提出了 SML模型,將半監(jiān)督學(xué)習(xí)引入圖像自動標注中,從而避免了圖像的分割過程.Yong等[10]將全局特征、區(qū)域特征與上下文特征相結(jié)合并應(yīng)用于擴展的CMRM模型中. Stefanie等[11]利用視覺分眾分類(visual folksonomy)思想,對Flickr圖像庫的部分水果與蔬菜圖像進行標注.

各種模型假設(shè)各個關(guān)鍵詞之間相互獨立,并沒有考慮詞與詞之間的關(guān)系.而利用詞與詞之間的相關(guān)性可以起到改進標注性能的作用.Jin等[12]提出了CLM 模型,利用 EM 算法計算詞與詞之間的隱含相關(guān)性;TMHD 模型[13]利用 WordNet進行詞關(guān)系的度量.Liu等[14]提出了 AGAnn模型,對自適應(yīng)圖(adaptive graph)標注的結(jié)果應(yīng)用詞與詞的相關(guān)性進行改善.Kang等[15]提出了互相關(guān)標記傳播模型CLP,考慮了在相鄰的圖像之間,利用標記的相關(guān)性,同時傳播多個標記(每個標記對應(yīng)一個詞匯).

筆者主要針對圖像標注模型中的相關(guān)模型進行研究,主要包括:針對現(xiàn)有標注模型忽略了圖像不同區(qū)域?qū)D像整體貢獻程度的差異性,提出了基于區(qū)域空間加權(quán)的標注方法,對圖像的區(qū)域特征生成概率估計進行了改進.針對現(xiàn)有模型忽略詞匯本身重要性以及詞匯分布對標注性能的影響,提出了基于詞匯固定權(quán)值的標注方法、基于平滑詞匯頻率的標注方法以及基于詞匯 TF-IDF (term frequency-inverse document frequency)加權(quán)的標注方法,改進了詞匯的生成概率估計.綜合以上區(qū)域空間改進與詞匯改進,提出了WDVRM圖像標注模型.

1 基于區(qū)域空間加權(quán)的圖像標注

目前的模型都沒有考慮圖像各個區(qū)域在生成概率估計中所起的作用.本節(jié)主要針對圖像自動標注中的圖像區(qū)域特征生成概率估計部分進行了研究.

將圖像分割成若干個區(qū)域有兩種方法:①使用圖像分割算法,如較新的 Normalized Cut等;②采用固定分塊的方法,如將圖像分割成若干個固定大小的矩形塊.用Normalized Cut分割現(xiàn)在Corel圖像庫中的圖像,會出現(xiàn)大量同一語義對象被分割成不同區(qū)域的情況,使得標注性能很難提高.通過實驗發(fā)現(xiàn)[7],采用固定分塊的標注結(jié)果比使用分割算法要好得多,固定分塊還可以節(jié)省分割圖像所花費的大量時間,將重點放在如何構(gòu)造更合理的詞匯與圖像區(qū)域特征生成概率以及更好地刻畫詞匯與圖像之間的關(guān)系上.所以采用固定分塊的策略,而分塊的數(shù)目,以及每個塊的大小如何選取,上述文章都沒有給出解釋.

通過對 Corel圖像庫的研究發(fā)現(xiàn),塊大小選取的原則應(yīng)該是盡可能使得每個塊只包含單一目標或物體(即每個塊只包含一個語義對象),而又不產(chǎn)生過多相似的塊.這就使得分塊不能太大,太大的分塊會使一個塊內(nèi)可能包含兩個甚至兩個以上的語義對象,而如果分塊取的過小,會出現(xiàn)一幅圖像中的相似塊太多,使得計算時間大量增加.通過實驗發(fā)現(xiàn),對 Corel圖像庫采用 4×6的固定分塊,可以取得很好的效果.通過這種分塊策略,每個塊剛好都由正方形構(gòu)成.圖 1是采用固定 4×6分塊后的結(jié)果圖,可以發(fā)現(xiàn),絕大多數(shù)塊的視覺內(nèi)容都符合上面提出的分塊原則,即每個塊盡可能地只包含一個語義對象.

圖1 固定分塊結(jié)果Fig.1 Results of fixed blocks

傳統(tǒng)的圖像標注模型將區(qū)域與圖像的相似性定義為某個區(qū)域與圖像中各個區(qū)域相似度的平均值.然而,現(xiàn)實情況并非如此,如圖像中前景對象區(qū)域相比背景區(qū)域應(yīng)該更重要.通過觀察大量圖像發(fā)現(xiàn),前景目標出現(xiàn)在中間的概率要大于出現(xiàn)在四周的概率,中間區(qū)域出現(xiàn)的目標在圖像中應(yīng)該更重要,即中間區(qū)域應(yīng)該賦予更高的權(quán)值.也就是說,圖像中的每個區(qū)域所占的權(quán)重不應(yīng)該都簡單地認為相等,而應(yīng)該對每個區(qū)域賦予不同的權(quán)重.同時,前景目標區(qū)域所占面積一般比背景區(qū)域要小不少,如果背景區(qū)域與目標區(qū)域采用相同的權(quán)值,將會使得圖像區(qū)域特征生成概率偏向背景區(qū)域.針對以上結(jié)論,提出了基于區(qū)域空間加權(quán)的圖像標注方法.通過實驗,選取最佳的24個塊權(quán)值分配方案,如圖2所示.

圖2 區(qū)域空間權(quán)值分配方案Fig.2 Assignment of weighted district space

具體的分配方案為:①中間4個灰色塊分配最高的權(quán)重 wrs1;②中間塊周圍的 8個塊分配次高的權(quán)重;③周圍的 8個次黑塊分配較低的權(quán)重wrs3;④4個角上的黑色塊分配最低的權(quán)重 wrs4.如何確定各個塊的具體加權(quán)值將在后面的實驗部分給出.

2 基于詞匯加權(quán)的圖像標注

CLM、TMHD、AGAnn等模型取消了估計詞匯生成概率時各個關(guān)鍵詞之間相互獨立的假設(shè),利用詞與詞之間的相關(guān)性起到改進標注結(jié)果的作用.然而,這些模型主要考慮詞與詞之間的關(guān)系,并沒有考慮不同關(guān)鍵詞的重要程度不同,以及詞頻與詞匯分布給圖像標注性能帶來的影響.本節(jié)針對圖像自動標注中的詞匯生成概率估計部分進行了較為深入的研究.

2.1 基于詞匯固定權(quán)值的標注方法

通過觀察目前普遍使用的用于評測圖像標注性能的Corel,5000圖像庫可以發(fā)現(xiàn),圖像的標注詞存在著諸多問題:①詞匯的語義層次問題,如既有“tiger”、“bear”、“l(fā)ion”等具體的動物,也有 “animal”這樣的動物總稱,而且 “tiger”、“bear”、“l(fā)ion” 等與“animal” 往往不會同時出現(xiàn)在一幅圖像中;②復(fù)合名字問題,如獅子魚 “l(fā)ionfish”,在標注時寫成了 “l(fā)ion”與 “fish”兩個詞,這給圖像標注帶來了極大的困難;③詞匯的抽象性問題,如標注詞匯大量出現(xiàn)諸如“city”、“school”、“autumn” 等無法與圖像區(qū)域相對應(yīng)的詞匯,即對于標注無具體意義的抽象性詞匯.這些問題產(chǎn)生的可能原因是 Corel,5000圖像庫是由不同人所標注的.

除了上述問題,圖像中不同區(qū)域?qū)D像的貢獻程度不同,而通過觀察圖像所對應(yīng)的標注詞集合也可以發(fā)現(xiàn)類似的情況.不同詞匯對于標注的貢獻程度是不同的,圖像所對應(yīng)標注的前景目標如 “tiger”、“plane” 等較一些背景目標如 “sky”、“l(fā)ake” 等更為重要,同時一些無法與圖像區(qū)域相對應(yīng)的標注詞對標注是沒有任何貢獻的,反而還會影響到整體的詞匯生成概率分布.此外,圖像中的背景區(qū)域一般比較大,會占用較多的圖像塊,而前景目標往往只占用較少的塊,所以如果不對前景與背景詞匯進行區(qū)分,會造成圖像的標注結(jié)果中背景詞匯的生成概率大大超過前景詞匯的生產(chǎn)概率,使得標注結(jié)果都偏向于背景詞匯,對標注結(jié)果產(chǎn)生影響.據(jù)了解,目前的各種模型都沒有針對以上角度進行研究.從自然語言處理領(lǐng)域的命名實體研究得到啟發(fā),提出了基于詞匯固定權(quán)值的標注方法.將所有標注詞分為 5類:① 無歧義的前景詞,如 “tiger”、“plane”、“cars”等;②有歧義的前景詞,如 “plant”、“animals”、“paintings”等;③無歧義的背景詞,如 “mountain”、“sky”、“desert”等;④歧義的背景詞,如 “water”、“ground”、“night”等;⑤抽象詞匯,如 “city”、“outside”、“school”等.這 5 類詞匯在計算詞匯生成概率時將賦予不同的權(quán)重,權(quán)重從無歧義的前景詞到抽象詞匯按從高到低賦予具體的權(quán)值,分別記作fw+、fw-、bw+、bw-、aaw ,具體的權(quán)值分配方案將在后面的實驗部分給出.

2.2 基于平滑詞匯頻率的標注方法

通過觀察 Corel 5000圖像庫的標注結(jié)果可以發(fā)現(xiàn),不同詞匯出現(xiàn)的次數(shù)差異很大.圖 3為 Corel 5000圖像庫中對所有374個標注詞出現(xiàn)次數(shù)進行的統(tǒng)計.可以發(fā)現(xiàn),它們符合 Zipf分布的特點[16].其中,出現(xiàn)次數(shù)超過100次的詞僅有44個,超過50次的詞只有81個,超過20次的詞有149個,超過10次的詞有217個,也就是說大約42%的詞出現(xiàn)次數(shù)不超過10次,約24%的詞出現(xiàn)次數(shù)不超過5次.

圖3 Corel 5000圖像庫中標注詞出現(xiàn)的次數(shù)統(tǒng)計Fig.3 Annotation words’ frequencies in Corel 5000 library

通過分析可知,有 40%以上的標注詞對應(yīng)相當少的圖像,訓(xùn)練這些標注詞是相當困難的.此外,出現(xiàn)次數(shù)較多的那些詞大部分是背景詞,而出現(xiàn)次數(shù)較少的那些詞往往是更需要的前景詞.圖像自動標注的任務(wù)是同時對圖像中的前景與背景進行標注,并沒有評估是否標注出更多的前景詞,但是當用戶主觀地評價標注結(jié)果好壞時,總是更關(guān)心是否有更多的前景詞匯被標注出來.目前的各類模型都沒有考慮詞頻以及詞匯分布對詞匯生成概率產(chǎn)生的影響,如果可以提高那些大量出現(xiàn)的次數(shù)較少詞的標注結(jié)果,將會對系統(tǒng)的整體性能產(chǎn)生很大的影響.針對這種情況,提出了基于平滑詞匯頻率的標注方法,其基本思想是:對于那些出現(xiàn)次數(shù)較多的背景詞賦予較低的權(quán)重,而出現(xiàn)次數(shù)較少的前景詞賦予較高的權(quán)重,通過對詞匯進行加權(quán)起到平滑詞頻對詞匯生成概率產(chǎn)生的影響,提升那些大量的出現(xiàn)次數(shù)較少詞的標注結(jié)果,進而提升整體標注性能.

由于所有標注詞的出現(xiàn)次數(shù)大致符合 Zipf分布,即每個標注詞出現(xiàn)次數(shù)ivN 與這個標注詞出現(xiàn)次數(shù)排名iR存在反比關(guān)系,即

式中μ和θ均為反比例函數(shù)的參數(shù),具體參數(shù)值可通過最小二乘法來確定.經(jīng)過對數(shù)變換,式(1)可以轉(zhuǎn)換成

vi在圖像庫中出現(xiàn)的總次數(shù)排名.

2.3 基于詞匯TF-IDF的標注方法

針對如何確定某幅圖像中最重要的詞,即從如何確定對某幅圖像最富有“信息量”的詞出發(fā),提出基于詞匯TF-IDF的標注方法.TF-IDF[17]是自然語言處理領(lǐng)域中常用的方法,在文本分類與文本聚類中使用相當廣泛.其基本思想是:如果某個詞或短語在某一篇文章中出現(xiàn)的頻率很高,同時在其他文章中出現(xiàn)的次數(shù)較少,則認為該詞或者短語具有很好的類別區(qū)分能力,適合用來分類.

把 TF-IDF用于圖像自動標注中,將詞匯的生成概率與TF-IDF相結(jié)合.其中,這里的詞條頻率fTF為某個詞在某幅圖像中出現(xiàn)的頻率,逆文檔頻率 fIDF則反映該詞匯在所有圖像中普遍重要性的度量,即如果某個詞在某幅圖像中出現(xiàn),且這個詞在其他圖像中出現(xiàn)的次數(shù)較少,則認為該詞對于那幅圖像具有很好的語義區(qū)分能力,也就是上面提到的該詞對于某幅圖像富有“信息量”;相反地,如果該詞在其他圖像中出現(xiàn)的次數(shù)較多,則這個詞很可能是背景或普遍性詞匯,也就是不具備良好的語義區(qū)分性.

基于詞匯TF-IDF的權(quán)值計算公式為

3 WDVRM圖像標注模型

本節(jié)將介紹提出的結(jié)合區(qū)域空間加權(quán)與詞匯加權(quán)的圖像自動標注模型(weighted district and vocabulary relevance model,WDVRM).該模型基于多伯努利相關(guān)模型(multiple Bernoulli relevance models,MBRM),MBRM 模型在圖像自動標注領(lǐng)域已經(jīng)被證明為一個非常成功的模型.對其進行改進,加入了基于區(qū)域空間加權(quán)的圖像區(qū)域特征生成概率改進,以及基于詞匯加權(quán)的詞匯生成概率改進.

MBRM 模型屬于圖像自動標注模型中的相關(guān)模型.特征表示采用了圖像區(qū)域的連續(xù)特征值,MBRM模型相比以往模型有兩個重大改進:①將圖像分割為規(guī)則的矩形區(qū)域來取代復(fù)雜的圖像分割算法,在提高標注準確率的同時降低了模型的時間復(fù)雜度;②引入多伯努利分布取代了以往模型中使用的多項式分布,通過多伯努利分布來對詞匯的概率分布進行建模.

3.1 WDVRM模型

每幅圖像I表示為一系列互不重疊的區(qū)域集合,DI={d1,… ,dΘ||},這里采用固定分塊方法,|Θ|為區(qū)域的個數(shù).對每個圖像區(qū)域 di提取 m維的特征向量Fi,定義圖像區(qū)域的視覺生成概率為 P (~|I ).詞匯F生成概率采用了多伯努利分布,多伯努利分布相比多項式分布式是一個更合理的詞匯描述方式,其具體優(yōu)點可以參見文獻[7].假設(shè)標注詞集合 WI是從|V|個多伯努利分布 PV(~|I)獨立采樣的結(jié)果,其中|V|為標注詞個數(shù).一幅圖像I的產(chǎn)生就可以由區(qū)域特征生成概率與詞匯生成概率這兩個獨立的條件分布構(gòu)成.

假設(shè)圖像 G為訓(xùn)練圖像庫以外的一幅圖像,G的特征向量可以表示為 FG={FG1, … ,FG|Θ|},其中FiG為圖像G中第i個區(qū)域的特征向量.WT為所有標注詞匯 |V| 的一個子集.對圖像 G的視覺表示與詞匯表示的聯(lián)合概率進行建模,記為 P ( FG, WT).假設(shè)聯(lián)合概率 P ( FG, WT)中,F(xiàn)G與 WT的隱含關(guān)系與訓(xùn)練圖像集中某幅圖像的視覺特征與詞匯的隱含關(guān)系相似,而這個具體的隱含關(guān)系無法得知,所以針對訓(xùn)練集中的每一幅圖像都計算其視覺特征與詞匯聯(lián)合概率的期望.聯(lián)合產(chǎn)生 FG與 WT概率的過程有4個步驟.

(1) 按照概率 PΩ(I)從訓(xùn)練集Ω選取一幅訓(xùn)練圖像I.

(2) 對 i = 1,… ,n ′(n′為圖像區(qū)域個數(shù)):①按照條件概率密度函數(shù) PFI(~|I)生成第 i個區(qū)域的視覺特征Fi;②利用第 1節(jié)提出的算法對 FiI進行區(qū)域空間加權(quán).

(3) 按照多伯努利分布 PV(~|I)生成詞匯集合WI.

(4) 利用第2節(jié)提出的3種算法對 WI進行詞匯加權(quán).

這里每幅圖像的標注詞個數(shù)與圖像區(qū)域的個數(shù)不存在一對一的關(guān)系,只是尋找對于整幅圖像最適合的若干個標注詞.根據(jù)上面的概率生成過程,WDVRM 模型中圖像視覺表示與詞匯標注的聯(lián)合概率為

式中?I為對詞匯加權(quán)的權(quán)值.WDVRM 模型利用WT式(5)進行圖像標注,具體流程為:給定一個未標注圖像G,利用固定分塊方法將它分為|Θ|個區(qū)域,提取每個區(qū)域特征 FGi,利用式(5)確定最可能與這些特征向量集合同時出現(xiàn)的詞匯子集,作為該圖像的標注.

與其他模型類似,在實現(xiàn)的時候,將詞匯子集的長度固定為 5.然而在一個較大的詞匯集合內(nèi),即便對每幅圖像只取5個標注詞,所出現(xiàn)的組合數(shù)仍然很多,幾乎是不可計算的.幸運的是每個詞在每幅圖像中或者不出現(xiàn),或者只出現(xiàn) 1次,這樣就可以假設(shè)詞匯間是相互獨立的,進而對式(5)進行簡化,即

式中 wj為標注詞集合內(nèi)的某一個詞,對每個詞分別計算它與測試圖像出現(xiàn)的聯(lián)合概率,取聯(lián)合概率最大的若干個詞作為該圖像的標注.

3.2 參數(shù)估計

主要討論對式(6)的參數(shù)估計問題.PΩ(I)是圖像I在訓(xùn)練圖像庫中出現(xiàn)的概率,由于沒有任何的先驗知識,所以假設(shè) PΩ(I)服從均勻分布,即 PΩ(I)=1/|Ω|,其中|Ω|為訓(xùn)練圖像的數(shù)目.

條件概率密度函數(shù) PF( ~|I)是用來生成區(qū)域的視覺特征向量 F1,… ,F|Θ|,對PF( ~|I)的分布使用非參數(shù)核密度函數(shù)進行估計,PF( ~|I)的估計為

式中:m為特征的維數(shù);|Θ|為圖像區(qū)域的個數(shù);ξi是測試圖像G對第i個位置的區(qū)域空間加權(quán);ψj是訓(xùn)練圖像 I對第 j個位置的區(qū)域空間加權(quán).式(7)對圖像 I的每個區(qū)域特征 Fj都采用高斯核函數(shù)進行估計.高斯核的參數(shù)由特征協(xié)方差矩陣Σ來確定,Σ = αΛ,其中α為高斯核的寬度,確定P在 FiI附近的平滑程度,Λ為單位矩陣.

PV(v|I)是多伯努利分布的第v個元素,為訓(xùn)練圖像庫中某幅圖像 I產(chǎn)生標注 WI的概率.對每個詞采用貝葉斯估計

式中λ1、λ2、λ3分別為基于詞匯固定權(quán)值、基于平滑詞匯頻率與基于詞匯 TF-IDF 3種方法的加權(quán)值.對3種方法加權(quán)可以綜合這 3種方法的優(yōu)勢:詞匯固定權(quán)值的改進主要針對詞匯本身的重要程度,平滑詞匯頻率的改進主要針對詞匯出現(xiàn)次數(shù),避免詞匯生成概率偏向出現(xiàn)次數(shù)多的詞,詞匯 TF-IDF的改進重點是針對詞匯的重要性與區(qū)分度.

4 實驗結(jié)果與分析

4.1 實驗建立

為了驗證提出方法與模型的有效性,并同其他模型進行公平比較,實驗采用了圖像自動標注中普遍使用的 Corel 數(shù)據(jù)集.這個圖像庫是由 50個 Corel Stock Photo文件夾組成的5,000張圖片.每個文件夾包含 100張相同主題的圖片,其涵蓋了豐富的內(nèi)容,包括風(fēng)景、動物、植物、國家、城市、建筑、歷史文物、人物、交通工具等.每幅圖像有 1~5個詞作為其標注,詞匯總數(shù)量為 374.將數(shù)據(jù)集分為 3個部分:①訓(xùn)練集 4,000幅圖像;②驗證集 500幅圖像;③測試集500幅圖像.其中,驗證集包括每個文件夾下的10幅圖像,主要用于模型參數(shù)的確定,待參數(shù)確定以后,將驗證集全部加到訓(xùn)練集中形成新的訓(xùn)練集.這樣就與其他模型采用的 4,500幅訓(xùn)練圖像、500幅測試圖像相一致,每幅圖像固定返回5個標注詞.

每幅圖像按照這種提出的分塊方法,分為 6×4=24個塊,需要對每個塊都計算其底層特征.本文的主要工作在于新模型的建立,所以并沒有使用一些較新的特征,為了便于比較,采用了與 MBRM 相同的 30維特征,具體包括:9維的 RGB空間顏色矩;9維的Lab空間顏色矩;12維的Gabor紋理特征,包括3個尺度與4個方向.

與其他的模型一樣,采用單個詞的查準率、查全率與 F度量來評估標注結(jié)果.假設(shè)某一個關(guān)鍵詞為w,cN為標注正確的圖像數(shù),sN為檢索返回的圖像數(shù),tN為測試圖像庫中包含標注詞w的圖像數(shù),則

對所有出現(xiàn)在測試集中的關(guān)鍵詞都計算以上 3個指標,最后把得到每個詞的查準率、查全率以及 F度量取平均作為最終的評價指標.此外,與很多模型類似,實驗還統(tǒng)計了至少被正確標注一次的關(guān)鍵詞數(shù)量,記作 “NZR”.它反映了模型對標注詞匯的覆蓋程度,是一個很重要的標注性能評價指標.

4.2 性能比較

4.2.1 參數(shù)設(shè)置

通過在驗證集與測試集上進行大量實驗,實驗部分采用的具體參數(shù)值為:

4.2.2 實驗結(jié)果與分析

首先分別驗證只使用基于區(qū)域空間加權(quán)的方法(記作 WDRM)與只使用基于詞匯加權(quán)的方法,其中WVRM(Fix)表示只使用詞匯固定權(quán)值的方法,WVRM(Freq)表示只使用平滑詞匯頻率的方法,WVRM(TF-IDF)表示只使用詞匯 TF-IDF的方法,WVRM(Combined)表示將 3種詞匯加權(quán)方法進行組合.與MBRM模型進行對比,結(jié)果如表1所示.

從表1可以看出,基于區(qū)域空間加權(quán)的方法有效地改善了圖像視覺生成概率,除了查準率比 MBRM稍低,其余3項指標都比MBRM模型要高,但是提升的幅度還不明顯.3種基于詞匯加權(quán)的方法也都是有效的,尤其體現(xiàn)在查全率和NZR這兩個指標上,除了基于詞匯固定權(quán)值的方法以外,另外兩種詞匯加權(quán)方法以及結(jié)合3種詞匯加權(quán)的方法在查全率和NZR指標上相比MBRM均有明顯提高.

表1 使用區(qū)域空間加權(quán)與使用詞匯加權(quán)的對比Tab.1 Comparison between methods of weighted district and weighted vocabulary

下面的實驗主要用于驗證結(jié)合區(qū)域空間加權(quán)與3種詞匯加權(quán)方法的模型,實驗都加入了基于區(qū)域空間加權(quán)的方法,分別計算每一種詞匯加權(quán)方法的標注結(jié)果以及 3種方法組合的結(jié)果,將提出的 WDVRM模型與現(xiàn)在常見的模型進行對比,包括 TM、CRM、MBRM、CLM、GLM[18]、CLP.實驗結(jié)果如表 2 所示,在表2中WDVRM(Fix)表示采用詞匯固定權(quán)值的方法,WDVRM(Freq)表示采用平滑詞匯頻率的方法,WDVRM(TF-IDF)表示采用詞匯 TF-IDF的方法,WDVRM(Combined)表示將上面 3種方法進行組合.

表2 各模型性能比較Tab.2 Comparison of different models’ performances

從表 2可以看出,3種詞匯加權(quán)方法以及將這 3種方法進行組合都是有效的,各項評價指標基本上都比進行現(xiàn)在流行的幾種模型要好.查準率最高的是采用基于詞匯平滑的方法,達到了 0.235.最后一組實驗綜合了3種詞匯加權(quán)方法,除了查準率以外的另3個指標都是最高的:查全率高達 0.296,比前面模型中查全率最高的 CLP模型要高出 20%;F度量達到0.260,比前面模型中 F度量最高的 MBRM 與 GLM要高出 13%.此外,在至少被正確標注出一次的關(guān)鍵詞數(shù) “NZR”這個評價指標上,WDVRM 模型達到了133,比前面模型也提高了不少.

表 2中最后兩個方法的查全率以及至少被正確標注一次的關(guān)鍵詞數(shù)目相比前面各模型有了較大的提高,即通過對詞匯進行 TF-IDF加權(quán)可以大大優(yōu)化詞匯的生成概率,提高標注詞的覆蓋程度.采用固定分塊的模型效果要好于采用圖像分割的模型,比如MBRM與 WDVRM的總體效果要好于 TM、CMRM、CLM 等模型.一個原因是分割算法產(chǎn)生的分割錯誤會隨著計算圖像的視覺生成概率而一直傳播,而固定分塊則不會;此外,采用連續(xù)特征的模型(如 WDVRM 與 MBRM 模型)效果要好于離散特征模型(如 TM、CMRM、CLM、GLM 等模型),即連續(xù)特征可以更好地估計圖像區(qū)域特征間的關(guān)系,避免聚類blob過程時帶來有用信息的損失.

WDVRM 標注模型性能的提升不僅僅表現(xiàn)在各項評價指標的提高,模型的標注結(jié)果相比其他模型包含了更多的前景詞以及對圖像貢獻較大、人們更關(guān)心的詞匯.這方面的改進并不能在現(xiàn)有的評價體系中體現(xiàn),所以選取了幾幅比較有代表性的圖像與MBRM 標注結(jié)果進行了對比,每個標注詞的順序是按照概率從大到小排列,如表3所示.

通過表3可以發(fā)現(xiàn),相比MBRM模型,前兩幅圖WDVRM 模型分別多正確標注出了 “bengal”與“windmills”.而如果將這幾幅圖一起對比,可以很明顯地發(fā)現(xiàn),MBRM 方法的背景詞大多排在前景詞之前,而 WDVRM 模型則很好地突出了圖像的目標與重點,模型賦予更高的概率給這些重點詞.通過對比,再次驗證了 WDVRM 模型對圖像區(qū)域特征生成概率估計與詞匯生成概率估計的改進是有效的.

5 結(jié) 語

傳統(tǒng)的相關(guān)模型中區(qū)域與圖像的相似性定義為區(qū)域與圖像中所有區(qū)域相似性的平均,并沒有考慮到圖像中的不同區(qū)域?qū)φw相似性的貢獻程度不同,為此提出了基于區(qū)域空間加權(quán)的標注策略,改善了圖像區(qū)域的視覺生成概率;另一方面,現(xiàn)有的模型都沒有考慮詞匯本身重要性以及詞匯分布對標注性能的影響.因此,提出了基于詞匯固定權(quán)值的標注策略、基于平滑詞匯頻率的標注策略以及基于詞匯TF-IDF加權(quán)的標注策略對詞匯生成概率估計部分進行了改進.通過在 Corel數(shù)據(jù)庫上進行的實驗表明,WDVRM 模型使得標注性能有了明顯提高.下一步的研究工作可通過引入 WordNet,將詞匯間的關(guān)系與現(xiàn)有的模型相結(jié)合.將圖像自動標注應(yīng)用到圖像檢索中,構(gòu)建新一代的圖像檢索系統(tǒng).此外,還可以考慮對視頻進行標注.

[1]Eakins J P. Automatic image content retrieval-are we getting anywhere[C]//Proceedings of Third International Conference on Electronic Library and Visual Information Research.Cambridge,UK,1996:123-135.

[2]Duygulu P,Barnard K,F(xiàn)reitas J,et al. Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary[C]//Proceedings of the 7th European Conference on Computer Vision. Copenhagen,Denmark,2002:97-112.

[3]Shi J,Malik J. Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.

[4]Monay F,Gatica-Perez D. On image auto-annotation with latent space models[C]//Proceedings of the ACM International Conference on Multimedia.Berkeley,USA,2003:275-278.

[5]Jeon J,Lavrenko V,Manmatha R. Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the 26th Annual InternationalACM SIGIR. Toronto,Canada,2003:119-126.

[6]Lavrenko V,Manmatha R,Jeon J. A model for learning the semantics of pictures[C]//Proceedings of Advance in Neutral Information Processing.Vancouver/Whistler,Canada,2003.

[7]Feng S L,Manmatha R,Lavrenko V. Multiple Bernoulli relevance models for image and video annotation[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington,USA,2004:1002-1009.

[8]Zhao Yufeng,Zhao Yao,Zhu Zhenfeng. TSVM-HMM:Transductive SVM based hidden Markov model for automatic image annotation[J].Expert Systems with Applications,2009,36(6):9813-9818.

[9]Gustavo C,Antoni B C,Pedro J M, et al. Supervised learning of semantic classes for image annotation and retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):394-410.

[10]Wang Yong,Mei Tao,Gong Shaogang,et al.Combining global,regional and contextual features for automatic image annotation[J].Pattern Recognition,2009,42:259-266.

[11]Stefanie L,Roland M,Robert S,et al. Automatic image annotation using visual content and folksonomies[J].Multimedia Tools and Applications,2009,42:97-113.

[12]Jin Rong,Chai Joyce Y,Si Luo. Effective automatic image annotation via a coherent language model and active learning[C]//Proceedings of the 12th Annual ACM International Conference on Multimedia. New York,USA,2004:892-899.

[13]Jin Y,Khan L,Wang L,et al. Image annotation by combining multiple evidence and WordNet[C]//Proceedings of the 13th Annual ACM International Conference on Multimedia. Hilton,Singapore,2005:706-715.

[14]Liu Jing,Li Mingjing,Ma Weiying,et al. An adaptive graph model for automatic image annotation[C]// Proceedings of the ACM SIGMM Workshop on Multimedia Information Retrieval.Santa Barbara,USA,2006:61-69.[15]Kang Feng,Jin Rong,Sukthankar R. Correlated label propagation with application to multi-label learning[C]//Proceedings of the 2006IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York,USA,2006:1719-1726.

[16]Alex S,Yannick M,Didier S. Theory of Zipf's Law and Beyond[M]. Berlin:Springer-Verlag,2009.

[17]Wu Ho Chang,Luk Robert Wing Pong,Wong Kui Lam,et al. Interpreting TF-IDF term weights as making relevance decisions[J].ACM Transactions on Information Systems,2008,26(3):1-37.

[18]Tong Hanghang,He Jingrui,Li Mingjing,et al. Graph based multi-modality learning[C]//Proceedings of the 13th Annual ACM International Conference on Multimedia. Hilton,Singapore,2005:862-871.

Image Automatic Annotation Based on Weighted District Space and Vocabulary

KE Xiao1,2, LI Shao-zi1,2
(1. Department of Cognitive Science,Xiamen University,Xiamen 361005,China;2. Fujian Key Laboratory of the Brain-Like Intelligent System,Xiamen 361005,China)

Image automatic annotation is a significant and challenging problem in image retrieval and image understanding. Existing models ignored that different regions of images had different contributions to the overall images. So an annotation method based on weighted district space to improve the generation probability estimation of regional features of the images was proposed. On the other hand, existing model did not take into account the importance of vocabulary as well as vocabulary distribution which impacted the annotation performance. Three methods to overcome the above problems were proposed, including: fixed vocabulary weight method, smooth vocabulary frequency method and weighted vocabulary’s TF-IDF method. These methods can improve the generation probability estimation of vocabulary. By integrating all above improved methods of weighted district space and weighted vocabulary, WDVRM image annotation model were proposed. Experiments conducted on Corel datasets have verified that the WDVRM model is quite effective.

image automatic annotation;weighted district;weighted vocabulary;relevance model

TP391

A

0493-2137(2011)03-0248-09

2009-11-27;

2010-06-03.

國家自然科學(xué)基金資助項目(60873179,60803078);高等學(xué)校博士學(xué)科點專項科研基金資助項目(20090121110032);深圳市科技計劃基礎(chǔ)研究基金資助項目(JC200903180630A).

柯 逍(1983— ),男,博士研究生,kevinkexiao@163.com.

李紹滋,szli@xmu.edu.cn.

猜你喜歡
分塊權(quán)值語義
一種融合時間權(quán)值和用戶行為序列的電影推薦模型
CONTENTS
CONTENTS
語言與語義
分塊矩陣在線性代數(shù)中的應(yīng)用
基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
反三角分塊矩陣Drazin逆新的表示
“上”與“下”語義的不對稱性及其認知闡釋
基于自適應(yīng)中值濾波的分塊壓縮感知人臉識別
基于多分辨率半邊的分塊LOD模型無縫表達
石楼县| 常熟市| 太白县| 镶黄旗| 应用必备| 乌拉特后旗| 阿拉善盟| 内江市| 克什克腾旗| 同心县| 江永县| 桃园县| 梓潼县| 四平市| 磐石市| 岑溪市| 龙陵县| 横山县| 深州市| 宁蒗| 磐石市| 齐齐哈尔市| 梧州市| 张家界市| 仪陇县| 咸丰县| 葫芦岛市| 高平市| 平罗县| 团风县| 都昌县| 星座| 长泰县| 彰武县| 吉木萨尔县| 太原市| 南溪县| 盐津县| 山丹县| 二手房| 固阳县|