計算機視覺是人工智能研究的基礎(chǔ)領(lǐng)域之一,也為深度學(xué)習(xí)等方面的巨大進步做出了貢獻。
斯坦福大學(xué)計算機科學(xué)系教授李飛飛認為,這些進步幾乎都依賴于對“北極星”(指代科學(xué)研究的關(guān)鍵問題)的追求。
近日,她發(fā)表了一篇題為《尋找計算機視覺“北極星”》的文章,闡述了計算機視覺中對象識別的最新發(fā)展觀點、ImageNet 數(shù)據(jù)集的簡要歷史與相關(guān)工作進展。
李飛飛表示,關(guān)鍵問題的提出會推進計算機視覺,甚至整個人工智能領(lǐng)域的發(fā)展。
目前,人工智能領(lǐng)域正在快速發(fā)展,從垃圾郵件過濾器、個性化零售到自動駕駛等,人工智能的成功實施無處不在。就像阿爾伯特·愛因斯坦所說:“提出一個問題往往比解決一個問題更重要。”
李飛飛團隊(前排右二)
但這些實踐背后涉及的科學(xué)問題或者哪些問題最需要解決可能并不總是顯而易見的。一旦制定了某領(lǐng)域的一個基本問題——確定一顆“北極星”,就可以推動該領(lǐng)域跨越式發(fā)展。
李飛飛提到,她在計算機視覺上的研究,一直由自己的系列“北極星”所驅(qū)動。
視覺能力是智能的核心,正如眼睛的進化是造就包括人類在內(nèi)的許多不同物種的關(guān)鍵。人類可以使用視覺感知來理解世界,并與它互動。那么,怎么讓人工智能去看呢?這里面需要解決許多問題,而對基本問題的選擇是計算機視覺科學(xué)探索的重要組成部分。
“起初,怎么樣讓計算機正確識別給定圖像中的內(nèi)容是我們特別想要了解的問題。2000年代初,由于互聯(lián)網(wǎng)和數(shù)碼相機的快速發(fā)展,數(shù)字圖像的數(shù)量呈爆炸式增長,從而產(chǎn)生了自動對照片集進行編目,并使用戶能夠搜索這些圖像集等需求,而這就需要用到對象識別?!崩铒w飛在文章中說到。
識別物體需要理解數(shù)字圖像在視覺世界中意味著什么,計算機無法理解這些概念。對于計算機來說,數(shù)字圖像只不過是像素的集合,沒有任何意義。
教計算機識別物體需要以某種方式讓它將每個數(shù)字集合連接到一個有意義的概念。
計算機從接觸的例子中學(xué)習(xí),這是機器學(xué)習(xí)的本質(zhì)。具體而言,這意味著只有通過訪問大量、多樣化、高質(zhì)量的訓(xùn)練數(shù)據(jù),才能在對象識別方面取得重大進展。
因此,李飛飛等人在2009年創(chuàng)建了一個名為Image Net的數(shù)據(jù)集來實現(xiàn)以下3個設(shè)計目標(biāo):規(guī)模(大量數(shù)據(jù))、多樣性(豐富多樣的對象)和質(zhì)量(高分辨率、準(zhǔn)確標(biāo)記的對象)。
“專注于這3個目標(biāo)的過程中,我們已經(jīng)從一般的‘北極星’(圖像識別)轉(zhuǎn)向了更具體的問題表述?!崩铒w飛說。
據(jù)了解,ImageNet包括上千萬張標(biāo)記圖像,可供機器學(xué)習(xí)模型訓(xùn)練。如今,當(dāng)我們在互聯(lián)網(wǎng)上搜索圖像、根據(jù)智能手機里的人臉自動對照片進行分組時,都會使用與ImageNet相關(guān)的算法。
此外,研究人員還將ImageNet開源,并免費供人使用。同時,他們還設(shè)立了Image Net大規(guī)模視覺識別挑戰(zhàn)賽(簡稱ImageNet挑戰(zhàn)賽)。
值得一提的是,在2012年ImageNet挑戰(zhàn)賽上,一個團隊首次將卷積神經(jīng)網(wǎng)絡(luò)(一種受人腦工作方式啟發(fā)的算法)應(yīng)用于對象識別,識別圖像的準(zhǔn)確率比當(dāng)時第二名高出41%。在2015年,這些機器識別圖像的準(zhǔn)確率達到97.3%,超越了人類的識別能力(準(zhǔn)確率約為95%)。
盡管神經(jīng)網(wǎng)絡(luò)作為機器學(xué)習(xí)的方法已經(jīng)存在了幾十年,但它直到當(dāng)年的ImageNet挑戰(zhàn)賽才被廣泛使用,在某一年中,幾乎每篇人工智能論文都是關(guān)于神經(jīng)網(wǎng)絡(luò)的。像谷歌和Meta(原Facebook)這樣的大型科技公司都在部署基于神經(jīng)網(wǎng)絡(luò)的技術(shù)。
然后,對象識別與計算機視覺中的其他任務(wù),如對象檢測和活動識別等之間存在重要的相似之處。
這種相似性意味著計算機不需要從頭開始處理新任務(wù)。從理論上講,計算機應(yīng)該能夠利用這些相似性,應(yīng)用它從一項任務(wù)中學(xué)到的知識來執(zhí)行一項稍微不同的任務(wù)。對于計算機和人類來說,這種將知識從一個任務(wù)推廣到類似任務(wù)的過程被稱為遷移學(xué)習(xí)。例如,人學(xué)會了法語,再學(xué)習(xí)西班牙語就會相對容易一點。事實上,能夠發(fā)現(xiàn)任務(wù)之間的相似之處,并利用這種共享的知識來幫助我們學(xué)習(xí)新任務(wù),是人類智能的標(biāo)志之一。
計算機進行遷移學(xué)習(xí)的一種方法是通過預(yù)訓(xùn)練。即在給機器學(xué)習(xí)模型一個新的挑戰(zhàn)之前,首先使用已有的有效數(shù)據(jù)訓(xùn)練它做類似的事情。如今,幾乎每種計算機視覺方法都使用在ImageNet上預(yù)先訓(xùn)練的模型。對象檢測是將ImageNet數(shù)據(jù)應(yīng)用于對象識別以外用途的第一次嘗試。
計算機視覺(或視覺智能)還有著更為廣泛的應(yīng)用,例如,醫(yī)生可以用計算機視覺來幫他們診斷和治療患者;用機器學(xué)習(xí)通過分析大量衛(wèi)星圖像可評估作物產(chǎn)量、環(huán)境和氣候變化等;科學(xué)家在機器的幫助下,可以發(fā)現(xiàn)新的物種、更好的材料和未知的邊界。
最后,在計算機視覺領(lǐng)域,下一步的“北極星”還有哪些?
李飛飛表示,其中最大的一個是在具身人工智能領(lǐng)域(指具有身體的人工智能),包括用于導(dǎo)航、操作等任務(wù)的類人機器人和在太空中移動的有形和智能機器、機器人吸塵器、工廠里的機器人手臂、自動駕駛汽車等。
她還談到,“還有一個是視覺推理。比如,在2D場景下對3D關(guān)系的理解。要人工智能執(zhí)行將飯桌上的水杯移動到盤子右側(cè)這樣的簡單任務(wù)也需要視覺推理。除此之外,理解人類的社會關(guān)系和意圖更具復(fù)雜性,基本的社會智能是另一個關(guān)鍵問題。例如,如果一個女人抱著一個小女孩在她的腿上,人們很容易猜到這兩個人可能是母女,但計算機還很難判斷這類情況?!?/p>