視覺能力是人工智能進化、擁有智能的核心計算機視覺下一步關(guān)鍵問題或在具身人工智能、社會智能等領(lǐng)域

2022-09-22 09:45

海外星云 2022年17期

關(guān)鍵詞：北極星對象機器

計算機視覺是人工智能研究的基礎(chǔ)領(lǐng)域之一，也為深度學(xué)習(xí)等方面的巨大進步做出了貢獻。

斯坦福大學(xué)計算機科學(xué)系教授李飛飛認為，這些進步幾乎都依賴于對“北極星”（指代科學(xué)研究的關(guān)鍵問題）的追求。

近日，她發(fā)表了一篇題為《尋找計算機視覺“北極星”》的文章，闡述了計算機視覺中對象識別的最新發(fā)展觀點、ImageNet 數(shù)據(jù)集的簡要歷史與相關(guān)工作進展。

李飛飛表示，關(guān)鍵問題的提出會推進計算機視覺，甚至整個人工智能領(lǐng)域的發(fā)展。

目前，人工智能領(lǐng)域正在快速發(fā)展，從垃圾郵件過濾器、個性化零售到自動駕駛等，人工智能的成功實施無處不在。就像阿爾伯特·愛因斯坦所說：“提出一個問題往往比解決一個問題更重要。”

李飛飛團隊（前排右二）

但這些實踐背后涉及的科學(xué)問題或者哪些問題最需要解決可能并不總是顯而易見的。一旦制定了某領(lǐng)域的一個基本問題——確定一顆“北極星”，就可以推動該領(lǐng)域跨越式發(fā)展。

李飛飛提到，她在計算機視覺上的研究，一直由自己的系列“北極星”所驅(qū)動。

視覺能力是智能的核心，正如眼睛的進化是造就包括人類在內(nèi)的許多不同物種的關(guān)鍵。人類可以使用視覺感知來理解世界，并與它互動。那么，怎么讓人工智能去看呢？這里面需要解決許多問題，而對基本問題的選擇是計算機視覺科學(xué)探索的重要組成部分。

“起初，怎么樣讓計算機正確識別給定圖像中的內(nèi)容是我們特別想要了解的問題。2000年代初，由于互聯(lián)網(wǎng)和數(shù)碼相機的快速發(fā)展，數(shù)字圖像的數(shù)量呈爆炸式增長，從而產(chǎn)生了自動對照片集進行編目，并使用戶能夠搜索這些圖像集等需求，而這就需要用到對象識別?！崩铒w飛在文章中說到。

識別物體需要理解數(shù)字圖像在視覺世界中意味著什么，計算機無法理解這些概念。對于計算機來說，數(shù)字圖像只不過是像素的集合，沒有任何意義。

教計算機識別物體需要以某種方式讓它將每個數(shù)字集合連接到一個有意義的概念。

計算機從接觸的例子中學(xué)習(xí)，這是機器學(xué)習(xí)的本質(zhì)。具體而言，這意味著只有通過訪問大量、多樣化、高質(zhì)量的訓(xùn)練數(shù)據(jù)，才能在對象識別方面取得重大進展。

因此，李飛飛等人在2009年創(chuàng)建了一個名為Image Net的數(shù)據(jù)集來實現(xiàn)以下3個設(shè)計目標(biāo)：規(guī)模（大量數(shù)據(jù)）、多樣性（豐富多樣的對象）和質(zhì)量（高分辨率、準(zhǔn)確標(biāo)記的對象）。

“專注于這3個目標(biāo)的過程中，我們已經(jīng)從一般的‘北極星’（圖像識別）轉(zhuǎn)向了更具體的問題表述?！崩铒w飛說。

據(jù)了解，ImageNet包括上千萬張標(biāo)記圖像，可供機器學(xué)習(xí)模型訓(xùn)練。如今，當(dāng)我們在互聯(lián)網(wǎng)上搜索圖像、根據(jù)智能手機里的人臉自動對照片進行分組時，都會使用與ImageNet相關(guān)的算法。

此外，研究人員還將ImageNet開源，并免費供人使用。同時，他們還設(shè)立了Image Net大規(guī)模視覺識別挑戰(zhàn)賽（簡稱ImageNet挑戰(zhàn)賽）。

值得一提的是，在2012年ImageNet挑戰(zhàn)賽上，一個團隊首次將卷積神經(jīng)網(wǎng)絡(luò)（一種受人腦工作方式啟發(fā)的算法）應(yīng)用于對象識別，識別圖像的準(zhǔn)確率比當(dāng)時第二名高出41%。在2015年，這些機器識別圖像的準(zhǔn)確率達到97.3%，超越了人類的識別能力（準(zhǔn)確率約為95%）。

盡管神經(jīng)網(wǎng)絡(luò)作為機器學(xué)習(xí)的方法已經(jīng)存在了幾十年，但它直到當(dāng)年的ImageNet挑戰(zhàn)賽才被廣泛使用，在某一年中，幾乎每篇人工智能論文都是關(guān)于神經(jīng)網(wǎng)絡(luò)的。像谷歌和Meta（原Facebook）這樣的大型科技公司都在部署基于神經(jīng)網(wǎng)絡(luò)的技術(shù)。

然后，對象識別與計算機視覺中的其他任務(wù)，如對象檢測和活動識別等之間存在重要的相似之處。

這種相似性意味著計算機不需要從頭開始處理新任務(wù)。從理論上講，計算機應(yīng)該能夠利用這些相似性，應(yīng)用它從一項任務(wù)中學(xué)到的知識來執(zhí)行一項稍微不同的任務(wù)。對于計算機和人類來說，這種將知識從一個任務(wù)推廣到類似任務(wù)的過程被稱為遷移學(xué)習(xí)。例如，人學(xué)會了法語，再學(xué)習(xí)西班牙語就會相對容易一點。事實上，能夠發(fā)現(xiàn)任務(wù)之間的相似之處，并利用這種共享的知識來幫助我們學(xué)習(xí)新任務(wù)，是人類智能的標(biāo)志之一。

計算機進行遷移學(xué)習(xí)的一種方法是通過預(yù)訓(xùn)練。即在給機器學(xué)習(xí)模型一個新的挑戰(zhàn)之前，首先使用已有的有效數(shù)據(jù)訓(xùn)練它做類似的事情。如今，幾乎每種計算機視覺方法都使用在ImageNet上預(yù)先訓(xùn)練的模型。對象檢測是將ImageNet數(shù)據(jù)應(yīng)用于對象識別以外用途的第一次嘗試。

計算機視覺（或視覺智能）還有著更為廣泛的應(yīng)用，例如，醫(yī)生可以用計算機視覺來幫他們診斷和治療患者；用機器學(xué)習(xí)通過分析大量衛(wèi)星圖像可評估作物產(chǎn)量、環(huán)境和氣候變化等；科學(xué)家在機器的幫助下，可以發(fā)現(xiàn)新的物種、更好的材料和未知的邊界。

最后，在計算機視覺領(lǐng)域，下一步的“北極星”還有哪些？

李飛飛表示，其中最大的一個是在具身人工智能領(lǐng)域（指具有身體的人工智能），包括用于導(dǎo)航、操作等任務(wù)的類人機器人和在太空中移動的有形和智能機器、機器人吸塵器、工廠里的機器人手臂、自動駕駛汽車等。

她還談到，“還有一個是視覺推理。比如，在2D場景下對3D關(guān)系的理解。要人工智能執(zhí)行將飯桌上的水杯移動到盤子右側(cè)這樣的簡單任務(wù)也需要視覺推理。除此之外，理解人類的社會關(guān)系和意圖更具復(fù)雜性，基本的社會智能是另一個關(guān)鍵問題。例如，如果一個女人抱著一個小女孩在她的腿上，人們很容易猜到這兩個人可能是母女，但計算機還很難判斷這類情況?！?/p>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

視覺能力是人工智能進化、擁有智能的核心 計算機視覺下一步關(guān)鍵問題或在具身人工智能、社會智能等領(lǐng)域

視覺能力是人工智能進化、擁有智能的核心計算機視覺下一步關(guān)鍵問題或在具身人工智能、社會智能等領(lǐng)域