趙 瑩, 遲冬祥, 胡 靜, 李菁輝
(1.上海電機(jī)學(xué)院 電子信息學(xué)院,上海 200240;2.中國(guó)科學(xué)院 上海光學(xué)精密機(jī)械研究所,上海 201100)
視覺是靈長(zhǎng)目類動(dòng)物具有的功能,對(duì)其仿生形成了機(jī)器視覺的研究[1-3]。機(jī)器視覺(machine vision,簡(jiǎn)稱MV)是讓機(jī)器會(huì)看,“通過任何辦法對(duì)2D數(shù)據(jù)進(jìn)行理解”,去獲知“什么東西在哪里?”的信息,從而指導(dǎo)行動(dòng),完成視覺任務(wù),又稱計(jì)算機(jī)視覺(computer vision,簡(jiǎn)稱CV)或圖像分析和理解(image analysis and understanding),它是任何智能系統(tǒng)必不可少的一個(gè)信息獲取通道[4-5]。根據(jù) Marr的三層視覺計(jì)算模型,從原始2D圖像到主基元圖(primal sketch)是視覺計(jì)算的第1層[6]。
在早期視覺理論中,圖像表示可分為結(jié)構(gòu)部分(如圖像中物體的輪廓)和紋理部分(如圖像中物體的草地等[7-9])。從成像過程來看,由于物體離相機(jī)的距離遠(yuǎn)近不同,在近處的物體,形成了圖像中的結(jié)構(gòu)部分,在遠(yuǎn)處的物體,其客觀上的結(jié)構(gòu)已經(jīng)在圖像中不再可分辨,就形成了紋理的感覺。主基元圖是早期視覺中一種十分重要的圖像表示模型,其目的在于統(tǒng)一圖像中結(jié)構(gòu)和紋理的表示。在數(shù)學(xué)上,結(jié)構(gòu)部分屬于維度較低的低熵空間,如物體的輪廓可以通過一組邊緣(edges)或條(bars)來按照格式塔規(guī)則組合表示,它們可以通過顯式的構(gòu)成函數(shù)來建模,如稀疏編碼模型[10]。而紋理部分,則屬于維度較高的高熵空間,沒有顯式的構(gòu)成表達(dá)式,而是通過隱式的表達(dá),圖像的統(tǒng)計(jì)特性符合一定的統(tǒng)計(jì)規(guī)律,通常通過馬爾可夫隨機(jī)場(chǎng)來建模[11]。
為此,主基元圖表示要能統(tǒng)一這2種不同的數(shù)學(xué)模型。文獻(xiàn)[6]在其視覺計(jì)算模型中提出了主基元表示理論,但是并沒有給出一個(gè)完備的數(shù)學(xué)模型和提取算法。文獻(xiàn)[12]提出一種灰度圖像的主基元圖模型和提取算法。但是從視覺感知理論[9]可知,顏色是圖像感知中一個(gè)十分重要的信息源,特別是對(duì)物體輪廓的感知有很重要的影響,從而影響了主基元圖的表示。
本文根據(jù)灰度主基元圖已有的研究,通過改進(jìn)提出了彩色圖像的主基元圖,實(shí)驗(yàn)結(jié)果表明,彩色圖像主基元圖更加符合感知,能提取被灰度主基元圖“漏檢”的主基元。主基元圖在基于圖像內(nèi)容的圖像壓縮方面有十分廣泛的應(yīng)用,同時(shí)也是對(duì)高層物體識(shí)別和圖像理解的支撐。
主基元圖是早期視覺中一種十分重要的圖像表達(dá),也是Marr視覺計(jì)算模型第1層中的一個(gè)核心概念。在表示上,一幅圖像可以分為結(jié)構(gòu)部分和紋理部分;在數(shù)學(xué)上,它們屬于不同維度的表示模型空間。結(jié)構(gòu)部分屬于低熵空間,由一組過完備視覺表示基元(如邊緣和條),通過產(chǎn)生式模型來進(jìn)行稀疏表達(dá);紋理部分屬于高熵空間,由一組統(tǒng)計(jì)特性通過描述式模型進(jìn)行表達(dá)。本文介紹灰度圖像主基元圖的模型和提取算法[12]作為背景知識(shí)。
一組圖像基元示例圖[12]如圖1所示,該圖對(duì)圖像中的結(jié)構(gòu)部分進(jìn)行構(gòu)建。圖1a為圖像基元的抽象符號(hào)表達(dá),圖1b為對(duì)應(yīng)圖像基元在圖像的示意圖。
圖像點(diǎn)陣記為Λ,定義在Λ上的圖像記為IΛ,可以為灰度圖像或彩色圖像。在主基元圖表示中,Λ被分為結(jié)構(gòu)部分和紋理部分,分別記為Λsk和Λnsk,并滿足:
進(jìn)一步,結(jié)構(gòu)部分Λsk可分為一組K個(gè)不相交的圖像塊。其中每一圖像塊IΛsk,k通過一種圖像基元表達(dá)(如邊緣段)如下:
其中,k作為圖像基元的索引,是一個(gè)隱含變量,需要通過提取算法從給定的輸入圖像中進(jìn)行推理,k的計(jì)算公式為:
其中,θtop為圖像基元的類型;θgeo為圖像基元的幾何位置信息;θpho為圖像基元的灰度強(qiáng)度或彩色強(qiáng)度信息。
圖像中的結(jié)構(gòu)部分通過(2)式所示的基元形成一個(gè)結(jié)構(gòu)圖表示,即
其中,Bk為圖像基元k對(duì)應(yīng)的圖像塊;ak為其地址變量,用來表示Bk在結(jié)構(gòu)圖Ssk中和其他圖像塊的連接。
通過類似于稀疏編碼的產(chǎn)生式模型的表示,則有:
其中,n為隨機(jī)高斯噪聲。
圖1 一組圖像基元示例圖
類似地,對(duì)圖像中的紋理部分Λnsk,通常首先通過對(duì)一組選定的濾波器響應(yīng)進(jìn)行聚類,分為一組M=3~7不相交的同質(zhì)紋理區(qū)域,即
每個(gè)同質(zhì)紋理區(qū)域被一組直方圖hmi(m=1,…,M;i=1,…,n)隱式表達(dá),則有:
對(duì)圖像中的紋理區(qū)域進(jìn)行標(biāo)注,則有:
其中,βmi為紋理區(qū)域模型的參數(shù),通過最小最大熵方法求解[11]。
由此可以得出灰度圖像主基元圖表示的概率數(shù)學(xué)模型[11],其中,E(Ssk)和E(Snsk)表示結(jié)構(gòu)圖和紋理部分的先驗(yàn)?zāi)芰?。該概率模型有效統(tǒng)一了結(jié)構(gòu)和紋理2個(gè)部分的表示。
本文的主基元圖提取算法通過一種類似匹配追蹤(matching pursuit)[13]的算法實(shí)現(xiàn)。首先選定一組濾波器,包括不同尺度和不同方向的Gabor濾波器、DoG(difference of Gaussian)、LoG(Laplace of Gaussian)等,對(duì)原始輸入圖像,產(chǎn)生一組“提議圖”,作為選取結(jié)構(gòu)圖中圖像基元的基礎(chǔ),同時(shí)對(duì)紋理部分先作一個(gè)簡(jiǎn)化處理,使用高斯模型來代替。簡(jiǎn)化模型為:
根據(jù)最大化信息量或最小化描述長(zhǎng)度的原則,從“提議圖”中逐個(gè)選擇圖像基元(對(duì)結(jié)構(gòu)部分)和直方圖(對(duì)紋理部分)描述,直至收斂。匹配追蹤算法每次在待選基元中選擇圖像編碼信息增量最大的基元,添加到結(jié)構(gòu)圖Ssk中,Ssk′=Ssk∪Ssk,k+1,Λnsk′=Λnsk-Λsk,k+1,通 過 更 新 模 型 (10)式,并比較,即得當(dāng)前待選取基元可能帶來的信息增量:
經(jīng)過第1步的匹配跟蹤算法后,按照一組預(yù)先定義的格式塔規(guī)則,使用一組圖操作符(graph operators)對(duì)所得結(jié)構(gòu)圖Ssk進(jìn)行修整[12]。
從(9)式可知,灰度圖像主基元圖模型只對(duì)灰度強(qiáng)度進(jìn)行了圖像基元擬合建模。而自然圖像中,很多物體的邊緣需要在彩色空間才能很好地體現(xiàn)出來[14]。
具體例子如圖2所示,圖2中傘的外輪廓邊緣在灰度圖像中非常不明顯,從而使得在匹配追蹤算法中無法進(jìn)行提?。ㄓ捎谄鋱D像編碼信息增量通常小于給定的閾值)。但實(shí)際上,在對(duì)應(yīng)的彩色圖像中,該輪廓邊緣被很好地感知,從而說明要在彩色空間對(duì)主基元進(jìn)行建模。
圖2 雨傘圖像彩色和灰度主基元圖比較
本文提出通過修改灰度主基元圖模型來適應(yīng)彩色圖像。首先,將原始RGB圖像通過顏色空間變換到Lab顏色空間,這是由于Lab顏色空間的距離度量更加符合人類對(duì)顏色的感知[3,7]。然后,改進(jìn)(9)式可得:
其中,將灰度圖像主基元圖中對(duì)結(jié)構(gòu)部分的建模由(I(u,v)-Bk(u,v))2擴(kuò)展到Lab彩色空間,并對(duì)3個(gè)通道最大化操作,即 maxLab(Lab(u,v)-Bk(u,v))2,從而能提取原本在灰度圖像中不能體現(xiàn)的基元。而對(duì)紋理部分,由于對(duì)紋理感知的并過多地依賴于顏色空間的選擇,本文采用強(qiáng)度空間,即L通道。
根據(jù) (12)式,本文在主基元圖提取算法中,更新基元選取圖像編碼信息增量計(jì)算公式(11)式,從而能提取彩色圖像的主基元圖。
本文實(shí)現(xiàn)了基于(12)式的彩色圖像主基元圖的提取算法,并和基于(10)式的灰度圖像主基元圖進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。一個(gè)典型的實(shí)驗(yàn)結(jié)果如圖2所示。從圖2可看出,彩色圖像主基元圖能提取灰度主基元圖中“漏檢”的一些基元,如圖2中傘的外輪廓。
室內(nèi)場(chǎng)景的彩色和灰度主基元的對(duì)比實(shí)驗(yàn)結(jié)果如圖3所示。圖3左邊立柱和房頂交接處的輪廓在灰度主基元圖中被“漏檢”,而彩色主基元圖能很好地提取出來。
圖3 室內(nèi)場(chǎng)景彩色和灰度主基元圖比較
本文分析了一種灰度主基元圖對(duì)圖像中結(jié)構(gòu)部分表達(dá)的不足并進(jìn)行了改進(jìn),提出了彩色圖像主基元圖模型和提取算法。實(shí)驗(yàn)結(jié)果表明,彩色圖像主基元圖能更好地提取出圖像中的結(jié)構(gòu)主基元,使得主基元圖更加完整和符合感知。
[1]鄭南寧.計(jì)算機(jī)視覺與模式識(shí)別[M].北京:國(guó)防工業(yè)出版社,1998:22.
[2]馬頌德,張正友.計(jì)算機(jī)視覺:計(jì)算理論與算法基礎(chǔ)[M].北京:科學(xué)出版社,1998:15.
[3]章毓晉.圖像工程:圖像理解與計(jì)算機(jī)視覺[M].北京:清華大學(xué)出版社,2000:157-158.
[4]高 文,陳熙霖.計(jì)算機(jī)視覺:算法與系統(tǒng)原理[M].北京:科學(xué)出版社,1998:226.
[5]賈云得.機(jī)器視覺[M].北京:科學(xué)出版社,2000:77.
[6]Marr D.視覺計(jì)算理論[M].姚正國(guó),謝 磊,汪云九,等,譯.北京:科學(xué)出版社,1988:155-157.
[7]Sonka M,Hlavac V,Boyle R,et al.圖像處理、分析與機(jī)器視覺[M].艾海舟,蘇延超,譯.北京:人民郵電出版社,2003:222.
[8]Forsyth D A,Ponce J.Computer vision:a modern approach[M].New Jersey:Pearson Education,2002:345-350.
[9]壽天德.視覺信息處理的腦機(jī)制[M].上海:上海科技教育出版社,1997:63-65.
[10]Olshausen B A,F(xiàn)ield D J.Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J].Nature,1996,381:607-609.
[11]Zhu S C,Wu Y N,Mumford D.Minimax entropy principle and its applications in texture modeling[J].Neural Computation,1997,9(8):1627-1660.
[12]Guo C E,Zhu S C,Wu Y N.Primal sketch:integrating texture and structure[J].Computer Vision and Image Understanding,2007,106(1):5-19.
[13]Mallat S,Zhang Z.Matching pursuit with a time-frequency dictionary[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[14]蘇 菱,吳克偉,黃 帥.一種基于DTSVM的遙感圖像分割方法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(3):383-386.