陳凱
人們很容易知道,圖1中四張圖片其實(shí)來(lái)自同一張愛(ài)因斯坦的肖像畫(huà),第二張圖片在尺寸上有變化(為后續(xù)行文方便,稱(chēng)其為苗條愛(ài)因斯坦),第三張圖片加了個(gè)小點(diǎn)綴(稱(chēng)為靈感愛(ài)因斯坦),第四張布滿(mǎn)了白色噪點(diǎn)(稱(chēng)為混沌愛(ài)因斯坦)。人的視覺(jué)和頭腦很容易就能在一大堆無(wú)關(guān)的圖片中,挑選出這幾張圖像,并把不完全相同的愛(ài)因斯坦歸于一組,計(jì)算機(jī)能做到嗎?本文設(shè)計(jì)了一個(gè)活動(dòng),以計(jì)算圖像相似程度為主線,通過(guò)“應(yīng)用—操作—討論”這三步,探索計(jì)算機(jī)“辨圖”的奧妙。
● 應(yīng)用——專(zhuān)業(yè)找圖
TinEye是一個(gè)在線的反向圖片查找工具,地址是www.tineye.com,用戶(hù)上傳圖片,該工具負(fù)責(zé)找出圖片的原始出處。將以上四張愛(ài)因斯坦的肖像畫(huà)上傳后,這款工具就能找到相近的愛(ài)因斯坦肖像(如圖2)。
TinEye能認(rèn)出圖1中這四張圖都是“愛(ài)因斯坦”嗎?其實(shí)不能。但計(jì)算機(jī)能借助算法,判斷不同圖像之間的差異。或許大家頭腦中會(huì)冒出諸如“深度學(xué)習(xí)”“神經(jīng)網(wǎng)絡(luò)”這樣的名詞來(lái),其實(shí)要實(shí)現(xiàn)上述判斷,并不需要用到那些“高端”功能,用感知哈希算法就可以實(shí)現(xiàn)了,為了解釋感知哈希算法最基本的原理,下面筆者就利用圖像編輯工具,一步一步手工進(jìn)行圖像識(shí)別,看看計(jì)算機(jī)是如何判斷圖像相似程度的。
● 操作——手工辨圖
先找到某個(gè)圖像編輯工具,本文用小巧簡(jiǎn)單的“易筆易畫(huà)”軟件來(lái)舉例,大家也可以使用自己熟悉的圖像編輯工具來(lái)做這個(gè)實(shí)驗(yàn)。打開(kāi)愛(ài)因斯坦圖像,然后縮小到8×8像素,注意這里不要按比例縮小,不管什么形狀的圖片,都縮小成正方形,雖然縮小圖片后許多像素被拋棄,但卻仍然保留了一些特征,并且可以發(fā)現(xiàn),即便不同的愛(ài)因斯坦圖片尺寸比例不同,縮小成正方形后,這些圖片看上去就非常相似了(如圖3),這正是不同比例圖像之間能進(jìn)行相似程度比較的關(guān)鍵,沒(méi)想到其實(shí)那么簡(jiǎn)單吧。
接著,是將彩色位圖轉(zhuǎn)化為灰階圖像。不同的模型有不同的轉(zhuǎn)化算法,這里就不展開(kāi)具體討論了,只用軟件默認(rèn)的轉(zhuǎn)化功能來(lái)進(jìn)行轉(zhuǎn)化。以“易筆易畫(huà)”軟件為例,點(diǎn)擊“圖像—黑白照”菜單項(xiàng)即可。這么一來(lái),在比較圖片時(shí)就不必糾結(jié)細(xì)小的色彩區(qū)別了。以“原始愛(ài)因斯坦”圖像為例,做成8×8像素的灰階圖像后(如圖4),雖然已經(jīng)完全看不出是人臉,但仍然保留了原始圖片的一些特征。
最后,是獲得灰階圖像的圖像指紋。圖像指紋其實(shí)是一個(gè)符號(hào)串,其生成方法大致為:首先計(jì)算所有像素灰度值的平均值,然后觀察每個(gè)像素,如其灰度大于等于平均值則記為1,小于平均值則記為0,將這些二進(jìn)制數(shù)字連起來(lái),就成了圖像指紋。
完成上面這步工作需要編寫(xiě)程序?qū)崿F(xiàn),但為了更便捷地體驗(yàn)效果,筆者使用了一種偷懶的計(jì)算方法:
首先,獲得近似的平均灰度:將圖片轉(zhuǎn)為半影調(diào)圖片,在“易筆易畫(huà)”中,點(diǎn)擊菜單“效果—色彩變換—半影調(diào)”即可,數(shù)一下空白格子,將空白格子數(shù)除以64。以“原始愛(ài)因斯坦”圖像為例,半影調(diào)化后(如圖5),數(shù)一下就知道,其中有32個(gè)白色格子,除以64后值為0.5(0.5表示圖像總體亮度的程度)。
其次,回到“原始愛(ài)因斯坦”灰階圖像,將該圖進(jìn)行閾值處理。閾值閥門(mén)的位置設(shè)在0.5比例處,在“易筆易畫(huà)”中,就是設(shè)置為256×0.5=128(如圖6)。
最后,設(shè)黑色格子為0,白色格子為1,于是就可知圖像指紋為:0000000000011100001111110010111100000111000111101010100000000100。
用這種方法生成圖像指紋,雖然精確度不高,但足以說(shuō)明問(wèn)題。實(shí)際應(yīng)用中的算法考慮了多方面的問(wèn)題,其具體實(shí)施過(guò)程要復(fù)雜得多。有興趣的朋友可以進(jìn)一步深入學(xué)習(xí)。其他圖片也可以照此操作得到圖像指紋(如圖7)。
苗條愛(ài)因斯坦:0000001000011100001111110011111100000111100110110010110000000100;靈感愛(ài)因斯坦:0000000001111100011111100010111100000111000110100010100000000100;混沌愛(ài)因斯坦:0000000010011100101101110010011110010111101110110010000001000101。
一般情況下,圖像指紋越相似,則圖像也越相似。觀察上面的圖像指紋,苗條愛(ài)因斯坦和靈感愛(ài)因斯坦這兩張圖片,與原始圖片的相似度都有百分之九十以上,而混沌愛(ài)因斯坦與原始圖片的相似度只有百分之八十以上。若是換成一張牛頓的圖像進(jìn)行同樣操作(如上頁(yè)圖8,牛頓肖像畫(huà)的圖像指紋為0000000000110110000111100001111010011110001110000011111000111110),相似度就只有百分之六十五。
● 討論和嘗試——智能識(shí)圖
上述算法很簡(jiǎn)單,但局限性也很大,下面一些問(wèn)題值得討論,也可以實(shí)際設(shè)計(jì)一些實(shí)驗(yàn)來(lái)驗(yàn)證一下自己的想法是否正確:
①怎樣在愛(ài)因斯坦原圖上做一些變動(dòng),讓感知哈希算法變得無(wú)能為力呢?例如,在圖像邊緣勾上一條和背景顏色反差很大的邊框。
②能否找到或親手繪制一些和愛(ài)因斯坦完全無(wú)關(guān)的圖片,讓感知哈希算法認(rèn)為這些圖片和愛(ài)因斯坦肖像相似程度很高?
③感知哈希算法只能判別圖形的相似程度,無(wú)法判斷圖像內(nèi)容的相似程度,它無(wú)法知道那個(gè)站在寫(xiě)滿(mǎn)物理學(xué)公式的黑板前的愛(ài)因斯坦,和那個(gè)拉著小提琴或者頑皮吐著舌頭的愛(ài)因斯坦是同一個(gè)人。那么,當(dāng)前還有哪些工具可以幫助人們判斷圖像內(nèi)容的相似程度呢?