陳婧
如果你閱讀過丹·布朗的暢銷小說《達(dá)·芬奇密碼》,一定會(huì)對(duì)這一幕記憶猶新:盧浮宮聲譽(yù)卓著的館長(zhǎng)雅克·索尼埃被發(fā)現(xiàn)神秘死亡,他的裸尸以一幅意大利名畫《維特魯威人》的姿勢(shì)在盧浮宮地板上被發(fā)現(xiàn),他用自己的血在肚子上畫上了“六芒星”的符號(hào),并且在身邊寫下了一段隱秘的信息,成為亟待破解的難題。“維特魯威人”的姿態(tài)背后隱藏著什么含義?“六芒星”的符號(hào)又代表了什么?正在巴黎旅行的哈佛大學(xué)宗教符號(hào)學(xué)教授羅伯特·蘭登來到現(xiàn)場(chǎng),試圖破譯這些達(dá)·芬奇著名作品中隱含的信息……
但現(xiàn)在一個(gè)名叫“按圖搜索”的谷歌工具,采用基于圖片的搜索技術(shù),正成為幫助我們破解“圖像密碼”的專家。當(dāng)你把維特魯威人姿勢(shì)的圖片直接拖拽到“按圖搜索”的搜索框,或者直接把圖像的鏈接地址復(fù)制進(jìn)搜索框中,便可以得到相關(guān)的信息。通過這一功能,谷歌搜索結(jié)果提供的“最佳猜測(cè)”顯示,這幅畫的原作者是意大利文藝復(fù)興時(shí)期的畫家達(dá)·芬奇,這幅畫的核心內(nèi)容是關(guān)于“斐波那契數(shù)列”和人體的“黃金分割比例”。
而當(dāng)你把“六芒星”的圖像進(jìn)行“按圖搜索”時(shí),谷歌不僅提供了包含匹配圖片的頁面,提示“六芒星”又稱“大衛(wèi)星”,代表了“冥界中的子宮和萬物中陰性的那一面”,它還提供了“外觀類似”的搜索結(jié)果,幫助用戶很快搜索到與之想接近的元素,比如“猶太教”和傳說中的“共濟(jì)會(huì)”的標(biāo)志?;蛟S不再需要羅伯特·蘭登,借助“按圖搜索”,我們都能成為達(dá)·芬奇密碼的破解者。
按圖搜索正越來越成為生活中必不可少的輔助工具。在海邊撿拾到不知名的海螺,想知道它叫什么,現(xiàn)在可以拍照下來,拖拽進(jìn)搜索框里,找到相關(guān)圖片、知道答案,這種舉動(dòng)更像是玩游戲。當(dāng)你無意中發(fā)現(xiàn)希臘某地一張美麗的風(fēng)景圖,可以用這張圖進(jìn)行搜索,查找到所在的確切位置,然后將它添加到你的行程里。更巧妙的是,當(dāng)你“按圖搜索”2012夏季奧運(yùn)會(huì)舉辦地倫敦的地標(biāo)“大笨鐘”的時(shí)候,它會(huì)給你更多的觀光建議,只要點(diǎn)擊“按主題分類”,它便能顯示更多值得花上半天逛一逛或者親身體驗(yàn)一番的地方,比如登上“倫敦塔橋”、“倫敦眼”,或是坐一次“倫敦地鐵”和“倫敦出租車”。在“按圖搜索”的搜索方式中,圖片正發(fā)揮與文字同等重要的作用,甚至跨越關(guān)鍵詞某些無法實(shí)現(xiàn)的局限,成為新的搜索關(guān)鍵要素。
在谷歌公司中國區(qū)辦公室,記者與谷歌搜索高級(jí)產(chǎn)品經(jīng)理皮特·林斯利(Peter Linsley)一起探秘“按圖搜索”,開展了一場(chǎng)面對(duì)面的對(duì)話。從離開Ask.com加盟谷歌的4年多的時(shí)間里,他成功地實(shí)現(xiàn)了谷歌圖像搜索業(yè)務(wù)的兩大關(guān)鍵性突破——即“按圖搜索”(Search by Image)與“視覺搜索”(Google Goggles)功能的開發(fā)。從2011年6月上線至今,“按圖搜索”成為了谷歌用戶增長(zhǎng)速度最快的搜索產(chǎn)品之一。
記者:“按圖搜索”這個(gè)非常有意義的搜索工具是如何誕生的?
林斯利:谷歌在2009年底發(fā)布了一款手機(jī)圖像搜索應(yīng)用——“視覺搜索”(Google Goggles),它是“按圖搜索”的前身。很多時(shí)候,手機(jī)用戶在博物館看到了某一幅畫,或者在路邊看到了一座橋,希望對(duì)這個(gè)畫或者對(duì)這座橋有更多的了解。這時(shí),只要通過手機(jī)把照片拍下來,然后通過應(yīng)用軟件把這張照片和圖片庫里的照片進(jìn)行配對(duì),尤其是線條、紋理、色彩等各個(gè)方面,就可以優(yōu)化搜索的結(jié)果,提供更精準(zhǔn)的信息?!耙曈X搜索”技術(shù)推出之后獲得了很大的成功,在這之后我們想,其實(shí)這個(gè)技術(shù)也完全可以適用于網(wǎng)絡(luò)。也就是說,一方面我們可能對(duì)自己所處的環(huán)境會(huì)有很多想要了解的問題,另一方面我們?cè)跒g覽網(wǎng)頁的時(shí)候可能也會(huì)對(duì)某些內(nèi)容有深入了解的興趣,就可以通過網(wǎng)絡(luò)去進(jìn)行搜索。有了這樣一個(gè)理念和想法后,我們開始著手把這個(gè)技術(shù)搬到桌面電腦上?,F(xiàn)在當(dāng)你打開“按圖搜索”頁面,搜索框的右側(cè)有一個(gè)照相機(jī)圖標(biāo),通過它我們可以把網(wǎng)絡(luò)上搜索到、看到的各種不同的圖片輸入進(jìn)去,進(jìn)行新的探索。
記者: 繼谷歌之后,谷歌的競(jìng)爭(zhēng)對(duì)手也開始競(jìng)相推出類似的圖像搜索產(chǎn)品。你們的獨(dú)特優(yōu)勢(shì)在哪里?
林斯利:谷歌從事圖像搜索服務(wù)已經(jīng)有整整10年的時(shí)間。谷歌搜索產(chǎn)品最基本的理念就是當(dāng)用戶輸入搜索請(qǐng)求,即可在最快時(shí)間內(nèi)獲得最精準(zhǔn)的答案,谷歌圖像搜索的理念與此是一致的,當(dāng)你輸入搜索內(nèi)容,就可以看到很多的圖片。但作為“按圖搜索”的項(xiàng)目團(tuán)隊(duì),我們更關(guān)注的是如何通過圖像進(jìn)一步提升搜索的體驗(yàn),例如如何通過圖片找到一種花的名字。在這方面我們主要側(cè)重于兩點(diǎn),首先是怎么通過這些圖片來豐富搜索結(jié)果,第二是用圖像識(shí)別的技術(shù),讓輸入和結(jié)果都變得更便捷。
記者:你們團(tuán)隊(duì)是如何做到你所提到“提升搜索的體驗(yàn)”,尤其是豐富搜索的結(jié)果,給用戶提供更多的信息?
林斯利:谷歌通過提取圖片特征進(jìn)行圖片匹配,每張圖片有成千上萬個(gè)特征,包括顏色、紋理、光線等。谷歌圖像搜索背后有一個(gè)很大的圖片庫,幾百億張圖片,每張圖片有成千上萬個(gè)特征,將這幾十萬億個(gè)特征與上傳到搜索框的一張圖片的幾千個(gè)特征做近似匹配,需要在100毫秒級(jí)的時(shí)間內(nèi)完成。因此,谷歌內(nèi)部設(shè)計(jì)用的計(jì)算機(jī)資源非常大,每一次用戶上傳圖片,有很多機(jī)器在同時(shí)運(yùn)轉(zhuǎn)。為了給用戶呈現(xiàn)最具相關(guān)性的圖片搜索結(jié)果,谷歌圖像搜索會(huì)涉及很多種復(fù)雜的算法,涉及到幾百種指標(biāo),比如準(zhǔn)確度、網(wǎng)頁信息的相關(guān)性、權(quán)威性、圖片的質(zhì)量等來得出搜索結(jié)果,并對(duì)其進(jìn)行排序。谷歌每做一次算法的調(diào)整基本上都要實(shí)驗(yàn)幾百個(gè)搜索請(qǐng)求,就算是對(duì)原有圖片做了旋轉(zhuǎn)、變形、扭曲、拷貝,仍能搜的出來?!鞍磮D搜索”功能得以實(shí)現(xiàn),最關(guān)鍵是谷歌采用了超大規(guī)模實(shí)時(shí)并行計(jì)算,可以對(duì)來自互聯(lián)網(wǎng)的幾百億張圖片進(jìn)行實(shí)時(shí)的圖像特征匹配,從而在數(shù)百毫秒內(nèi)反饋給用戶最豐富的相關(guān)搜索結(jié)果。
記者: 在信息量增大的同時(shí),有人疑問“按圖搜索”究竟能不能給出用戶“最想要的”結(jié)果?
林斯利:我們所用的技術(shù)可以對(duì)圖像進(jìn)行更加深入的分析和識(shí)別,包括圖像的紋理、顏色、形狀等,從而呈現(xiàn)出更好的、更加精準(zhǔn)的搜索結(jié)果。尤其是搜索結(jié)果頁左邊面板上“過濾器”的使用,過濾、篩選了大量不符合要求的信息,可以大大幫助用戶縮小搜索的范圍。比如你可以限定圖片的顏色,限定圖像的最大、最小或者理想尺寸,限制文件的特定類型。訪問高級(jí)搜索菜單中,你還可以找到更多方法,比如通過長(zhǎng)寬比例菜單,指定是否查找長(zhǎng)形、寬形或者方形的圖案。我們的中國工程師還發(fā)明了一種對(duì)攝影愛好者特別有幫助的過濾器,即根據(jù)相機(jī)參數(shù)進(jìn)行搜索。當(dāng)用戶在Chrome 網(wǎng)上應(yīng)用商店中下載并安裝名為“Photo Finder”的擴(kuò)展程序,就可以按照相機(jī)的型號(hào)、焦距、亮度、拍攝時(shí)間搜索,挑選最符合你審美眼光和創(chuàng)作要求的圖片。
記者: 按圖搜索抓取的結(jié)果,是不是可能會(huì)抓取到博客、微博空間中的一些照片,這個(gè)會(huì)不會(huì)涉及到個(gè)人隱私的問題?
林斯利:對(duì)相對(duì)專業(yè)的用戶來說,如果你自己有博客,你不希望博客上的照片出現(xiàn)在谷歌的搜索結(jié)果當(dāng)中,非常簡(jiǎn)單——你只要寫一句話在Robot.txt協(xié)議當(dāng)中,告訴谷歌,你的圖片不希望出現(xiàn)在谷歌搜索引擎的結(jié)果里就可以。很多的社交網(wǎng)絡(luò),可能對(duì)于圖片本身是沒有辦法控制的,但是很多圖片托管的網(wǎng)站是可以來進(jìn)行控制的,而且也確實(shí)提供這種協(xié)議方面的服務(wù),這樣用戶就可以提出相應(yīng)的請(qǐng)求,不被谷歌搜索到。像Twitter這樣的社交網(wǎng)站就可以提供這方面的服務(wù)。另一方面,我們?cè)诟呒?jí)搜索菜單中,也會(huì)對(duì)圖片進(jìn)行分級(jí),提示用戶圖像可能有版權(quán)限制,如用于報(bào)道或商業(yè)推廣演示就需要版權(quán)許可。
記者: 搜索結(jié)果排序的優(yōu)先依據(jù)是什么?是圖片的相似度,還是圖片來源網(wǎng)頁的權(quán)重?
林斯利:這兩點(diǎn)都有可能,可能還會(huì)有一些其他因素。假設(shè)用戶先上傳了一張圖片,谷歌的技術(shù)要先搞明白這是什么。假如通過識(shí)別技術(shù)知道了這是埃菲爾鐵塔,接下來出現(xiàn)的搜索結(jié)果就和網(wǎng)絡(luò)搜索的內(nèi)容差不多,一般優(yōu)先考慮圖片來源網(wǎng)頁的權(quán)重,例如有相關(guān)的維基百科相應(yīng)介紹的網(wǎng)頁,還有其他的網(wǎng)頁等。還有另外一種情況,用戶上傳了圖片,但是“按圖搜索”不能判斷這到底是什么,在這種情況下,就會(huì)考慮首先考慮圖片的相似度,同時(shí)還會(huì)考慮一些其他的指標(biāo),比如圖片到底有多大,它是來自于哪些比較受歡迎的網(wǎng)站或者哪些官方的網(wǎng)站,或者哪些網(wǎng)站中出現(xiàn)這張圖片的可能性和概率比較高等等,所以會(huì)有各種不同的優(yōu)先依據(jù)。
記者: 圖像搜索和社交信息是如何結(jié)合在一起的?
林斯利:比如通過與Google+結(jié)合,有個(gè)功能叫Search Plus Your World,就可以將那些對(duì)你最相關(guān)的內(nèi)容加進(jìn)去,如果你的朋友在上面,也會(huì)看到最相關(guān)的新內(nèi)容。有很多網(wǎng)頁搜索使用到的指標(biāo),在圖像搜索的過程中也會(huì)使用,比如追蹤用戶的點(diǎn)擊率,或判斷與用戶相關(guān)的信息。因?yàn)槟銜?huì)發(fā)現(xiàn),圖片周圍其實(shí)也有很多關(guān)于這個(gè)圖片的信息。比如在某社交網(wǎng)站上,有人把自己的貓的圖片放上去,一般在圖片周圍會(huì)有一段文字,或者會(huì)有一個(gè)主題,谷歌的技術(shù)就是判斷這個(gè)圖片中的文字哪些是相關(guān)的,當(dāng)然也會(huì)看有哪些人是和這個(gè)網(wǎng)站具有聯(lián)系,或者有指向鏈接。