Ali Eslami
在電影《她》(Her)中,男主角帶著安裝了“薩曼莎”AI操作系統(tǒng)的手機(jī),穿梭在擁擠的游樂場(chǎng)里。一時(shí)興起,他決定閉上眼睛,讓AI薩曼莎來指引他的路線。男主角舉著手機(jī),薩曼莎繞過廣場(chǎng)上的柱子,完美地指引他避開迎面而來的人群,最終到達(dá)目的地?,F(xiàn)在,這一夢(mèng)想有望成為現(xiàn)實(shí)。
最近,谷歌旗下的人工智能公司Deepmind在《科學(xué)》雜志上發(fā)表研究成果,宣布建立一種“Generative Query Network”——生成查詢網(wǎng)絡(luò),簡稱GQN。它改變了現(xiàn)有的機(jī)器視覺方式。目前的機(jī)器視覺在訓(xùn)練時(shí),更多是依賴人類注釋的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,大部分屬于監(jiān)督式學(xué)習(xí),而GQN的方法則是讓機(jī)器進(jìn)行自我訓(xùn)練,屬于無監(jiān)督機(jī)器學(xué)習(xí)。
在實(shí)際生活中,當(dāng)我們理解一個(gè)場(chǎng)景時(shí),要比我們?nèi)庋鬯姷膬?nèi)容豐富得多:因?yàn)槲覀兊拇竽X會(huì)憑借原有的知識(shí),跨越進(jìn)入視網(wǎng)膜的光線圖像去推理和論斷隱藏的事物。比如,當(dāng)你第一次進(jìn)入一間房間,你會(huì)立刻認(rèn)識(shí)到其中放置了哪些物品,以及它們的位置。如果你看到了一個(gè)桌子的三個(gè)桌腿,一定能夠推斷出視線遮蔽處,有同樣形狀、同樣顏色的第四條桌腿。即使你無法看到整個(gè)房間,但是你仍然可以“腦補(bǔ)”出它整體的布局,或是想象出從另一個(gè)角度觀察房間的樣子。實(shí)現(xiàn)AI的實(shí)時(shí)指路,背后需要克服的正是這樣的兩個(gè)關(guān)鍵能力。首先,AI需要具備以最高效的方式識(shí)別周圍空間的能力;其次,它還要像人類一樣,依靠視線所及的圖像想象出整個(gè)空間的布局。
對(duì)于人類而言,這些視覺和認(rèn)知能力似乎輕而易舉,而對(duì)于人工智能來講意味一項(xiàng)巨大的挑戰(zhàn)。如今,人類運(yùn)用自己標(biāo)注的注釋圖大數(shù)據(jù)集建立了最先進(jìn)的視覺認(rèn)知系統(tǒng)。獲得這些數(shù)據(jù)是一個(gè)昂貴且耗時(shí)的過程,需要人們?cè)跀?shù)據(jù)庫中的每一個(gè)場(chǎng)景中的每一個(gè)物體的每一面貼上標(biāo)簽。事實(shí)上,在一個(gè)場(chǎng)景中的全部內(nèi)容只有其中一小部分能被捕捉到,這也限制了數(shù)據(jù)訓(xùn)練出的人工視覺體系。當(dāng)Deepmind研發(fā)出可應(yīng)用于現(xiàn)實(shí)的復(fù)雜機(jī)器時(shí),研究人員希望機(jī)器能夠全部理解周圍的環(huán)境:哪里是最近可以坐下來的地方?沙發(fā)是由什么材料制成的?造成陰影的光源從是哪兒來的?燈的開關(guān)可能在哪兒?
Generative Query Network 生成查詢網(wǎng)絡(luò)(GQN)這一重要研究成果,是通過訓(xùn)練人工智能,對(duì)在一個(gè)場(chǎng)景周圍活動(dòng)后獲取的信息,加以分析理解環(huán)境內(nèi)容的一個(gè)系統(tǒng)框架。這很像嬰兒和小動(dòng)物在初識(shí)世界時(shí)的行為活動(dòng)。GQN的學(xué)習(xí)過程是通過理解對(duì)周圍世界的觀察。此外,GQN還需要在沒有任何人類標(biāo)注的場(chǎng)景內(nèi)容下,學(xué)習(xí)認(rèn)知似是而非的場(chǎng)景和幾何特性。
DeepMind研究員、論文第一作者Ali Eslami表示:“此前我們不知道神經(jīng)網(wǎng)絡(luò)能否能學(xué)會(huì)以如此精確和可控的方式來創(chuàng)建圖像,但這次我們發(fā)現(xiàn)足夠深度的網(wǎng)絡(luò),可以在沒有任何人類工程干預(yù)的情況下,學(xué)習(xí)透視和光線,這是一個(gè)非常驚人的發(fā)現(xiàn)。”
具體而言,GQN模型包含兩部分:表征網(wǎng)絡(luò)(representation network)和生成網(wǎng)絡(luò)(generation network)。表征網(wǎng)絡(luò)是將智能體的觀察作為輸入信息,并生成一種表征(向量)描述潛在的場(chǎng)景。而生成網(wǎng)絡(luò)是預(yù)測(cè)從未觀察過的視角看到的場(chǎng)景。其實(shí),表征網(wǎng)絡(luò)并不知道生成網(wǎng)絡(luò)會(huì)被要求預(yù)測(cè)哪個(gè)視角,所以它必須找到最行之有效的方式,盡可能準(zhǔn)確地描述場(chǎng)景的真實(shí)布局。
表征網(wǎng)絡(luò)通過捕捉最重要的元素(比如對(duì)象位置、顏色和房間布局),并通過簡單的分布式表征得以實(shí)現(xiàn)。在訓(xùn)練過程中,生成網(wǎng)絡(luò)會(huì)學(xué)習(xí)環(huán)境中的典型物體、特征以及環(huán)境中的關(guān)系和規(guī)律。
這種共享的“概念”集合使得表征網(wǎng)絡(luò)能夠以高度壓縮和抽象的方式來描述場(chǎng)景,細(xì)節(jié)則由生成網(wǎng)絡(luò)在必要時(shí)補(bǔ)充。比如,表征網(wǎng)絡(luò)簡單地將“藍(lán)色立方體”表示為一組小的數(shù)字集合,而生成網(wǎng)絡(luò)會(huì)知道這些數(shù)字如何從特定的視角顯示為像素點(diǎn)。表征網(wǎng)絡(luò)可以看作是在模仿人類的眼睛,生成網(wǎng)絡(luò)則嘗試復(fù)制人類大腦對(duì)空間信息的處理方式。
在模擬的3D環(huán)境中,Deepmind對(duì)GQN進(jìn)行了控制實(shí)驗(yàn),其中包括了隨機(jī)光源和遮擋,任意角度、色彩、形狀和材質(zhì)的多種物體。經(jīng)過這樣復(fù)雜環(huán)境的訓(xùn)練,我們使GQN的表征網(wǎng)絡(luò)形成了新型的表征,這是從前未曾觀察過的場(chǎng)景。
目前,與較傳統(tǒng)的電腦視覺技術(shù)相比,GQN仍然面臨諸多的局限,而且現(xiàn)在的研究還只停留在人造場(chǎng)景的層面。不過,隨著新的數(shù)據(jù)源增加和硬件能力的進(jìn)步,Deepmind希望可以進(jìn)一步研究GQN在高分辨率的真實(shí)場(chǎng)景圖像中的應(yīng)用。而未來,更重要的是繼續(xù)探索GQN在更廣泛的場(chǎng)景中的應(yīng)用,比如跨越時(shí)間與空間的查詢,學(xué)習(xí)物理運(yùn)動(dòng)的常識(shí)概念,就像VR、AR中的應(yīng)用程序一樣。
雖然距離這項(xiàng)研究正式投入應(yīng)用,還需進(jìn)行大量的研究工作,但Deepmind堅(jiān)信這是人工智能向全面自主的場(chǎng)景認(rèn)知邁出了重大的一步。
編譯自Deepmind官網(wǎng) 《Science》雜志
(責(zé)任編輯 姜懿翀)