劉文兆 , 湛永松, 石民勇
(1. 天津師范大學(xué)新聞傳播學(xué)院,天津 300387;2. 中國傳媒大學(xué)數(shù)字技術(shù)與藝術(shù)研發(fā)中心,北京 100024;3. 桂林電子科技大學(xué)計(jì)算機(jī)與控制學(xué)院,廣西 桂林 541004)
近年來,合成具有多重含義的圖像在計(jì)算機(jī)圖像研究領(lǐng)域越來越受到關(guān)注[1-5]。多義圖像是指以具有不同含義的兩幅圖像為目標(biāo),對(duì)其采取頻域變換處理后融合成一幅圖像,其在不同視角下可呈現(xiàn)出對(duì)應(yīng)于目標(biāo)圖像的兩種不同含義。產(chǎn)生不同的認(rèn)知含義是基于人眼在固定視角下對(duì)不同頻率具有不同敏感度的視覺特性[6]。通過改變圖像不同頻率下的內(nèi)容,能使同一幅圖像在不同視角下呈現(xiàn)不同視覺形象[2-4]。目前,多義圖像在各種視覺廣告、媒體、藝術(shù)、醫(yī)療、信息技術(shù)等領(lǐng)域具有廣闊的應(yīng)用前景。
Majaj[3]發(fā)現(xiàn)人眼對(duì)各類文字識(shí)別時(shí)在多個(gè)頻率通道信息的選擇上具有單一性,并由此將多個(gè)簡(jiǎn)單字母合成具有多重字母含義的圖像,但其合成結(jié)果中多個(gè)字母干擾比較明顯。Setlur[4]提出了合成不同頻率下相互沖突的情感狀態(tài)的面部圖像算法,方法是先隔離不同面部表情的兩幅圖像中粗糙的低頻成分和精細(xì)的高頻成分,然后根據(jù)邊緣檢測(cè)進(jìn)行圖像分割和變形圖像,合成具有多義情感的圖像。雖然該方法可以保留較多的面部細(xì)節(jié),但是由于對(duì)不同表情人臉進(jìn)行區(qū)域分割后使用了變形算法,會(huì)產(chǎn)生介于不同表情之間的不自然的面部形態(tài),導(dǎo)致其多義性不夠明確和強(qiáng)烈。Schyns[2]使用混合圖像的方法構(gòu)造多義圖像,Oliva[5]發(fā)展了該算法并取得了比較好的效果。其方法是將兩幅圖像分別進(jìn)行高斯低、高通濾波,然后將兩個(gè)濾波結(jié)果加權(quán)求和獲得混合圖像,其中的濾波操作在 Fourier變換下進(jìn)行。該方法取得了視覺上較以往更好的多義效果,但由于在Fourier變換下無法確定相位信息,不能在合成過程中對(duì)結(jié)果圖像進(jìn)行局部調(diào)整。為獲得理想的混合效果,需加大高通和低通截止頻率之間的距離,使得合成圖像丟失頻帶信息過多,導(dǎo)致結(jié)果圖像變得模糊且色飽和度下降。
本文提出了一種基于小波變換的多義圖像合成算法。小波變換具有精確表征圖像的局部特征能力,通過對(duì)圖像高頻和低頻成分分別制定融合規(guī)則以保留高、低頻目標(biāo)圖像的特定信息,可實(shí)現(xiàn)局部特殊融合處理以及圖像局部調(diào)整。用本文算法合成的圖像能保留完整的頻帶信息,從而具有很高的色飽和度和清晰度,其視覺效果上的多義性也更為明確清晰。由于合成過程中不需變形處理,有效減少了人機(jī)交互操作,因此算法具有較高的合成效率。
小波變換具有多尺度多分辨率特點(diǎn),能夠在時(shí)域、頻域同時(shí)表征信號(hào)特征。因此,二維小波變換已在目前成為圖像處理的重要手段[7-9]。
STEPHANE G. MALLAT提出了二維信號(hào)多分辨率分解的小波快速算法,方法是:
若設(shè)H(低通)和G(高通)為2 個(gè)一維鏡像濾波算子,其下標(biāo)r和c分別對(duì)應(yīng)于圖像的行和列,則在尺度 j-1上有如下的Mallat分解公式
若對(duì)二維圖像進(jìn)行M級(jí)的小波分解,最終將有(3M+1)個(gè)不同頻帶,其中有3M個(gè)高頻帶(細(xì)節(jié)成分)和一個(gè)低頻帶(近似圖像)。
本文所提出的小波合成算法流程如圖1所示。算法主要包括5個(gè)過程:小波分解、系數(shù)調(diào)整、高低頻融合、圖像重構(gòu)、均值降噪。其中,高低頻融合原則可采取預(yù)先提供的默認(rèn)規(guī)則,此時(shí)可在人機(jī)交互的過程中加入局部濾波函數(shù),從而對(duì)圖像高低頻系數(shù)進(jìn)行局部調(diào)整之后融合。
融合前需要對(duì)兩幅圖像A、B進(jìn)行預(yù)處理。根據(jù)素材具體條件及合成目的,將圖像A、B的低頻輪廓調(diào)整為一致(如圖4,構(gòu)造兩幅低頻主要輪廓接近的待合成圖像)、沖突(如圖8,構(gòu)造強(qiáng)烈干擾高頻的低頻內(nèi)容)或搭配(如圖5、圖7使低頻與高頻局部搭配一致,以加強(qiáng)高頻效果)。對(duì)圖像進(jìn)行N階M級(jí)的小波分解,分解深度M由圖像尺寸和所需的多義觀看視角決定,根據(jù)合成目的要求,制定融合規(guī)則。將圖像A、B的小波低頻分量融合為新的低頻分量,此分量決定合成圖像小視角觀看時(shí)得到的形象;將A、B的高頻系數(shù)融合為新高頻系數(shù),此分量決定合成圖像大視角觀看時(shí)得到的形象;之后用新系數(shù)重構(gòu)圖像。由于分解重構(gòu)存在量化誤差,可改變階數(shù)N重復(fù)合成過程,對(duì)結(jié)果進(jìn)行k次優(yōu)選后均值降噪,得到最終的多義圖像。
圖1 多義圖像合成算法流程圖
合成的目的是使結(jié)果圖像在α視角(對(duì)應(yīng)近距離觀看或以大尺度顯示)呈現(xiàn)圖像A,β視角(對(duì)應(yīng)遠(yuǎn)距離觀看或以小尺度顯示)呈現(xiàn)圖像B,其中2>α>β>0(單位:弧度)。首先根據(jù)用戶給定的兩個(gè)視距L1、L2(L2>L1)或視角α、β由式(3)計(jì)算合適的分解級(jí)數(shù)M,函數(shù)Ceil定義為取大于等于變量的最小整數(shù)
對(duì)圖像A、B分別進(jìn)行M級(jí)小波分解,并對(duì)第M級(jí)的低頻和高頻分別選定融合規(guī)則F,此時(shí)可在不同分解級(jí)上對(duì)低頻和高頻分量進(jìn)行局部調(diào)整,融合后各分量如下
需要根據(jù)特定的素材圖像及效果要求制定不同的融合規(guī)則,因此融合規(guī)則是合成的關(guān)鍵。為強(qiáng)化圖像A或B的效果,給出可選的通用融合規(guī)則如下
如需強(qiáng)調(diào)圖像A的高頻效果,F(xiàn)Aj選擇為兩低頻分量加權(quán)求和,KA、KB為用戶輸入的權(quán)值,F(xiàn)Dj選擇為取DAj;值得注意的是圖像A的低頻AAj權(quán)值越大,結(jié)果將越趨于重構(gòu)圖像A。若要強(qiáng)調(diào)圖像B的低頻,F(xiàn)Aj選為取ABj,F(xiàn)Dj選為兩高頻分量加權(quán)求和,通過改變B的高頻權(quán)重,控制是否在重構(gòu)過程中保留更多圖像B的細(xì)節(jié)。
利用融合后的系數(shù)重構(gòu)圖象并保存結(jié)果。若需要對(duì)合成圖像做局部調(diào)整,則在融合前對(duì)各分解系數(shù)進(jìn)行局部濾波,然后重新融合重構(gòu)。
通過變換小波階數(shù) N自動(dòng)重復(fù) k次合成過程,對(duì)k個(gè)結(jié)果圖象均值降噪后輸出并保存。若不進(jìn)行降噪,結(jié)果圖像將看到輕微的噪波。噪波是由于DWT統(tǒng)一量化誤差在對(duì)圖像進(jìn)行分解和重構(gòu)的積分運(yùn)算中被逐級(jí)放大造成的[9-10,14],量化誤差隨小波階數(shù)N增大而減小,噪波亦隨之減小。若輸入較大N值可一次就合成噪波較小的結(jié)果。圖2(a)是合成圖3(c)時(shí),N=4的重構(gòu)圖像與均值圖像3(c)的差值圖像,由噪波的幅度可知降噪的必要性。圖2(b)是做對(duì)齊預(yù)處理后與圖4(e)的差值圖像,其噪波幅度較圖2(a)明顯減小,圖2(c)是經(jīng)預(yù)處理后N=30時(shí)的差值圖像,此時(shí)噪波已降到很小。
圖2 不同N值的差值圖像
下面分別通過合成多義人臉圖像、貓臉紋理圖像、沖突表情圖像來比較不同算法的合成效果。為了客觀比較本文算法與以往算法的效能,使用與文獻(xiàn)[4-5]相同的素材進(jìn)行合成比較。合成實(shí)驗(yàn)4給出了本文算法的其它2個(gè)效果。
人臉圖例素材源于文獻(xiàn)[5]。最終合成圖像效果為大視角觀看為端莊的女人(高頻部分),小視角觀看是憤怒的男人(低頻部分)。
如圖3(c)為A=I2和B=I1小波合成算法的結(jié)果。此處的融合原則取式(5)的強(qiáng)化B(權(quán)值KA=KB=0.5,M=4)。圖4(e)為經(jīng)過輪廓調(diào)整預(yù)處理后(A=I4,B=I3)在相同融合原則下得到的結(jié)果,算法以Daubechies小波變換進(jìn)行M=4級(jí)分解,N選取4-30進(jìn)行(k=27)均值降噪。圖4的預(yù)處理只是為了比較處理效果,并非從藝術(shù)的角度對(duì)圖像進(jìn)行調(diào)整。圖4(d)是在相同預(yù)處理下,融合原則選強(qiáng)化A(權(quán)值KA=0.3,KB=0.7)得到的結(jié)果??梢钥闯鲇捎诘皖l混合了I3、I4,使最終重構(gòu)圖像顏色發(fā)生變化,圖4(d)的顏色介于I4和圖4(e)之間。通過控制I4低頻的權(quán)值可決定最終合成的顏色,但若融合I4的低頻成分過高,將趨于完全重構(gòu)I4。所以理想的方法是參照文獻(xiàn)[11-13]在預(yù)處理階段或合成之后重新映射圖像的顏色以保證合成出希望的色彩。圖4(f)是對(duì)融合系數(shù)進(jìn)行局部調(diào)整后合成的結(jié)果,融合原則同圖4(e),目的是加強(qiáng)形象B的效果并消除B眉毛區(qū)域的低頻對(duì)A形象的干擾(權(quán)值KA=0.3,KB=0.7)。
圖3 I1、I2是目標(biāo)圖像,(a)、(b)文獻(xiàn)[5]算法的結(jié)果,(c)小波合成算法的結(jié)果
圖4 低頻輪廓調(diào)整后的目標(biāo)及合成圖像
傳統(tǒng)的客觀評(píng)價(jià)融合圖像方法多是對(duì)隨機(jī)誤差進(jìn)行統(tǒng)計(jì)平均,雖計(jì)算簡(jiǎn)單易實(shí)現(xiàn),但沒有考慮人的視覺心里因素[6,15-16],許多情況下并未反映人眼的視覺特性,不能和主觀評(píng)價(jià)相一致。人對(duì)形象的認(rèn)知經(jīng)常建立在抽象的概念之上,很難用數(shù)學(xué)統(tǒng)計(jì)量標(biāo)定。多義圖像就是基于人眼的視覺特性對(duì)同一圖像產(chǎn)生不同認(rèn)知,因此主觀評(píng)價(jià)比較直觀和準(zhǔn)確,容易操作。例如,通過視覺上比較圖3(c)、圖3(b),可知圖3(c)在兩個(gè)視覺尺度上都更加清晰,色彩也更鮮明。視覺上比較圖5(a)和圖5(b)也可得到相同的結(jié)論。
文獻(xiàn)[5]的算法給出的結(jié)果圖3(a)低頻圖像突出,但是干擾高頻,大視角時(shí)成為明顯噪聲。結(jié)果圖3(b)效果稍好,它是加大濾波器高低頻截止頻率的差距后得到的,結(jié)果低頻不夠突出,小視角觀看過于模糊。圖3(a)和(b)的高頻都不夠突出,清晰度較差,對(duì)比度降低,合成圖像損失原有高頻圖像的大量細(xì)節(jié),圖像看起來整體模糊,色彩飽和度低。
圖4(e)利用本文算法很好的還原了圖像的色彩飽和度和對(duì)比度,無論大視角還是小視角觀看都很清晰,變換視角能夠準(zhǔn)確的識(shí)別出不同的人臉圖像,多義特性非常突出和鮮明。圖4(f)是素材經(jīng)過輪廓對(duì)齊預(yù)處理并進(jìn)行眼部調(diào)整得到的結(jié)果。由于素材A、B低頻輪廓(對(duì)應(yīng)低頻近似圖像中的高頻)一致,即使低頻進(jìn)行了融合或替換,高頻細(xì)節(jié)經(jīng)小波重構(gòu)仍可恢復(fù),可看到十分清晰的面部細(xì)節(jié),基本還原了素材圖像的對(duì)比度。比較圖4(e)和圖3(c)可知:兩個(gè)原始圖像混合處理之前進(jìn)行區(qū)域配準(zhǔn)的預(yù)處理能有效解決低頻干擾高頻細(xì)節(jié)的問題。
圖5(a)利用本文算法合成大視角觀看具有貓臉紋理的女人像,觀看時(shí)隨視角變小,貓臉效果逐漸消失。由圖5(a) 和圖5(c)對(duì)比圖5(b)和圖5(d)可以明顯看出,本文算法對(duì)比文獻(xiàn)[5]合成的圖像具有更高的色彩飽和度和對(duì)比度,無論大視角還是小視角觀看都較文獻(xiàn)[5]的結(jié)果清晰明亮,變換貓臉紋理的多義特性非常突出和鮮明。這里合成的目標(biāo)圖像A用遮蔽貓臉的女人像,B選原始女人像。參數(shù)為 Daubechies小波,權(quán)值KA=KB=0.5,M=3,N=4-30,K=27。
圖5 貓臉紋理效果比較
表情圖例素材源于文獻(xiàn)[4]。合成圖像目的為大視角近看是憤怒的表情(高頻部分),遠(yuǎn)看是高興的表情(低頻部分)。文獻(xiàn)[4]的算法給出的結(jié)果如圖6(c),圖像低頻高興的表情過于突出,干擾高頻憤怒的表情成分難以識(shí)別,變形運(yùn)算使結(jié)果圖像更趨近于動(dòng)作幅度大的高興表情,面部動(dòng)作幅度較小的憤怒表情因變形幾乎完全破壞。圖6(b)顯示了本文算法突出憤怒表情的合成結(jié)果,如在大視角下觀看憤怒表情的效果將更好。小視角下圖6(a)和圖6(b)高興的表情都很清晰。參數(shù)為Daubechies小波,權(quán)值KA=0.25,KB=0.75,M=2,N=4-30,K=27。
圖7(a)給出一個(gè)高清晰的籃球紋理圖片(1600×1200),這里是縮小后的效果,以小尺度顯示圖7(b)可看到兩個(gè)橘子。無論大小尺度都保持很高的色飽和度。融合規(guī)則選強(qiáng)化橘子,參數(shù)為Daubechies小波,權(quán)值KA=0.6,KB=0.4,M=6,N=4-30,K=27。
圖8借助人類視覺思維一旦對(duì)容易組織起來的視覺內(nèi)容形成概念,就很難打破再識(shí)別其它信息的特點(diǎn)[1],當(dāng)在低頻部分構(gòu)造容易識(shí)別的文字形象與高頻沖突時(shí),小視角低頻內(nèi)容誘導(dǎo)識(shí)別為其他文字,可以更好的屏蔽其它文字信息,實(shí)現(xiàn)信息遮蔽和隱藏?!安恍枰畔ⅰ痹诖笮∫暯嵌己芮逦?,“…隱私…”只有在大視角才可辨認(rèn)。小視角只能識(shí)別“低頻…內(nèi)容”。參數(shù)為Daubechies小波,權(quán)值KA=0.7,KB=0.3,M=3。
圖6 憤怒表情效果比較
圖7 籃球與小尺度顯示的橘子
圖8 低頻屏蔽高頻文字內(nèi)容
本文提出了一種基于小波變換的多義圖像合成算法。與以往算法相比,該算法能夠生成在色飽和度、對(duì)比度、低頻清晰度、高頻細(xì)節(jié)等多方面更理想的結(jié)果。合成可以對(duì)局部細(xì)節(jié)進(jìn)行調(diào)整,主觀視覺效果十分明顯直觀,適用于影視特效、視覺藝術(shù)、廣告等商業(yè)領(lǐng)域。在未來的工作中,需要對(duì)提高算法效率進(jìn)行研究。建立科學(xué)的多義圖像合成效果的客觀評(píng)定標(biāo)準(zhǔn),對(duì)不同效果需求分類并給出相應(yīng)高低頻融合原則。此外,可將本文研究成果應(yīng)用于連續(xù)的多義視頻融合,并對(duì)更多層多義圖像融合算法進(jìn)行研究。
[1]OLIVA A, SCHYNS P. Coarse blobs or fine edges?evidence that information diagnosticity changes the perception of complex visual stimuli [J]. Cognitive Psychology, 1997, 34(1): 72-107.
[2]SCHYNS P, OLIVA A. Dr. Angry and Mr. Smile: when categorization flexibly modifies the perception of faces in rapid visual presentations [J]. Cognition, 1999,69: 243-265.
[3]MAJAJ N, PELLI D, KURSHAN P, et al. The role of spatial frequency channels in letter identification [J].Vision Research, 2002, 42: 1165-1184.
[4]SETLUR V, GOOCH B. Is that a smile?: gaze dependent facial expressions. In NPAR ’04:Proceedings of the 3rd International Symposium on Non-Photorealistic Animation and Rendering, ACM Press, New York, NY, USA, 2004: 79-151.
[5]OLIVA A, TOORALBA A, SCHYNS P G. Hybrid images ACM Transaction on graphics [J]. ACM Siggraph, 2006, 25(3): 527-530.
[6]BLAKEMORE C., CAMPBELL F W. On the existence of neurons in the human visual system selectively sensitive to the orientation and size of retinal images [J].Journal of Physiology (London), 1969, 203: 237-260.
[7]MALLAT S G. Multifrequency channel decompositions of images and wavelet models [J]. IEEE Trans.Acoust., Speech, Signal Processing, 1989, 37:2091-2110.
[8]Li H, MANJUNATH B S, MITRA S. Multisensor image fusion using the wavelet transform [J].Graphical Models and Image Processing, 1995, 57(5):235-245.
[9]DAVID A Y. Image merging and data fusion by means of the discrete two dimensional wavelet transform [J].J. Opt. Soc. A, 1995, 12(9): 1834-1841.
[10]MALLAT S G. A theory for multiresolution signal decomposition: the wavelet representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1989, 11 (7): 674-693.
[11]REINHARD E, ASHIKHMIN M, GOOCH B, et al.Color transfer between images [J]. IEEE Computer Graphics and Applications, 2001, 21(5): 34-41.
[12]YU-WING TAI, JIAYA JIA, CHI-KEUNG TANG.Local color transfer via irobabilistic segmentation by expectation maximization [C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005: 747-754.
[13]NEUMANN L, NEUMANN A. Color style transfer techniques using hue, lightness and saturation histogram matching [C]. Computational Aestheticsin Graphics, Visualization and Imaging, 2005: 111-122.
[14]WATSON A B, YANGG Y, SOLOMON J A, et al.Visibility of wavelet quantization noise [J]. IEEE Trans.on Image Processing, 1997, 6: 1164-1175.
[15]HUGHES H C, NOZAWA G, KITTERLE F. Global precedence, spatial frequency channels, and the statistics of natural images [J]. Journal of Cognitive Neuroscience, 1996, 8(3): 197-230.
[16]CAMPBELL F W. The human eye as an optical filter [J].Proceedings of the IEEE, 1968, 56(6): 1009-1015.