■文/劉宏建
2023 年5 月17 日,英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛在2023 年世界半導(dǎo)體大會上表示,人工智能的下一個浪潮是具身智能。這個觀點(diǎn)在極短的時間里引起了整個社會的關(guān)注。
什么是具身智能?用黃仁勛的話來講,具身智能即能理解、推理以及與物理世界互動的智能系統(tǒng)。美國斯坦福大學(xué)教授李飛飛說,具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。具身智能又叫具象智能,英文是Embodied AI,與之相對應(yīng)的非具身智能,英文叫作Internet AI 或者Disembodied AI。
無獨(dú)有偶,在2023 年5 月召開的特斯拉公司的股東大會上,首席執(zhí)行官馬斯克表示,“人形機(jī)器人將是今后特斯拉主要的長期價值來源?!苯Y(jié)果,很多人把具身智能誤解為人形機(jī)器人。其實(shí),具身智能不并等于人形機(jī)器人,因?yàn)榫呱聿⒉灰欢ㄊ侨诵危灿锌赡苁欠侨诵蔚闹悄芟到y(tǒng),如智能汽車。當(dāng)然,具身機(jī)器也不等于傳統(tǒng)的機(jī)器人,因?yàn)閭鹘y(tǒng)機(jī)器人盡管具備一定的智能化,但缺少理解、推理以及與物理世界互動的能力。具身智能更不等于生成式人工智能(AIGC)或者多模態(tài),因?yàn)榫呱碇悄艿那疤崾且幸粋€身體。
具身智能是第一人稱智能,而非具身智能是第三人稱智能。不妨舉一個例子,傳統(tǒng)機(jī)器人在面對一個盒子的時候,我們必須告訴它這是一個盒子,這個盒子有大有小,是可以打開的。確切地說,我們必須告訴它一大堆的標(biāo)簽才行。但是,具身智能不是這樣的,它自己可以主動地感知這個盒子,自己去嘗試打開盒子,這稱為第一人稱。這頗有點(diǎn)像人類教育,如果我們在教育孩子的過程中不斷告訴孩子應(yīng)該這樣做,應(yīng)該那樣做,不應(yīng)該這樣做,不應(yīng)該那樣做,甚至經(jīng)常在孩子面前說“你看別人家的孩子如何優(yōu)秀……”慢慢地,孩子就變成了活在別人世界里的人,也就是第三人稱的人??v觀人類發(fā)展史,創(chuàng)造性越強(qiáng)的人,往往自覺性、能動性就會越強(qiáng),這就是第一人稱的人。
具身智能確實(shí)與機(jī)器人領(lǐng)域有著較強(qiáng)的相關(guān)性。但是,僅僅這樣理解的話,就過于低估了具身智能的意義。2006 年,在工業(yè)互聯(lián)網(wǎng)領(lǐng)域有一個概念“CPS 系統(tǒng)”,中文名字叫賽博物理系統(tǒng),這是一個包含計(jì)算、網(wǎng)絡(luò)和物理實(shí)體的復(fù)雜系統(tǒng)。到了2011 年,出現(xiàn)了一個大家更為熟悉的概念“數(shù)字孿生”,即充分利用物理模型等仿真過程,在虛擬空間中反映相對應(yīng)的實(shí)體裝備的全生命周期過程。2021 年,又出現(xiàn)了一個概念“元宇宙”,在網(wǎng)絡(luò)上迅速躥紅,這是一個與現(xiàn)實(shí)世界映射與交互的虛擬世界。從以上概念我們可以清晰地感受到,自互聯(lián)網(wǎng)誕生后,人類社會其實(shí)已經(jīng)逐漸分成兩個世界:一個虛擬世界,一個現(xiàn)實(shí)世界。以前的世界我們可以稱為人類社會閉環(huán)進(jìn)化的1.0版本,也稱網(wǎng)絡(luò)智能階段。在這個階段,現(xiàn)實(shí)世界與虛擬世界通過互聯(lián)網(wǎng)連接起來,滿足人類的需求。舉個簡單的例子,我們?nèi)绻喭赓u,就會在虛擬世界中(如美團(tuán))下訂單、付款,然后現(xiàn)實(shí)世界中會有一個外賣小哥把外賣送貨上門,打出租車(如滴滴出行)同樣如此。
但是,1.0 版本存在一個嚴(yán)重的問題,虛擬世界進(jìn)化的速度非???,人工智能可以用幾天甚至幾個小時的時間完成人類社會幾千年的進(jìn)化。然而,在現(xiàn)實(shí)世界中,人類在幾千年中似乎沒有太多的進(jìn)化,我們并不見得比古人更有智慧。用一句話來描述這種矛盾,就是“洞中方一日,世上已千年”。因此,現(xiàn)實(shí)世界智能體缺失,使人工智能停留在虛擬世界,整個智能社會無法高效運(yùn)轉(zhuǎn)。具身智能的出現(xiàn)為我們解決這個矛盾提供了強(qiáng)有力的手段,這也意味著人類的社會閉環(huán)進(jìn)化開始向2.0 版本進(jìn)化。在2.0 版本中,我們同樣在虛擬世界中訂外賣,現(xiàn)實(shí)世界中可能會是一個機(jī)器人或機(jī)器車將外賣送到我們手中,這遠(yuǎn)比用人送外賣要高效得多。因此,我認(rèn)為,具身智能是打通人類虛實(shí)世界并實(shí)現(xiàn)人類進(jìn)化的重要關(guān)口,這或許才是具身智能的真正意義所在。
目前,具身智能的發(fā)展還在初期階段,在人工智能大模型發(fā)展的影響下正在快速推進(jìn)。2022年,谷歌Everyday Robot 實(shí)現(xiàn)將機(jī)器人與大模型結(jié)合,讓機(jī)器人充當(dāng)大語言模型的手和眼,將一個任務(wù)拆解成16 個動作。2023 年2 月,微軟公司使用ChatGPT 控制一架小型無人機(jī),讓無人機(jī)在房間里找到健康飲料、一罐可樂,以及一面供無人機(jī)自拍的鏡子。同年4 月,阿里巴巴展示了阿里通義千問大模型接入工業(yè)機(jī)器人的應(yīng)用場景。工程師通過釘釘對話框向機(jī)器人發(fā)出“我渴了,找點(diǎn)東西喝吧”的指令后,通義千問大模型在后臺自動編寫了一組代碼發(fā)給機(jī)器人,機(jī)器人開始識別周邊環(huán)境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,遞送給工程師。這些都是具身智能領(lǐng)域的一些很有意義的探索,但總的來講,具身智能的研發(fā)還處在比較初級的階段。
2023 年5 月21 日,北京市人民政府印發(fā)《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案(2023—2025 年)》明確提出,圍繞具身智能等方向開展研究布局,意在形成具有國際影響力的人工智能原創(chuàng)理論體系。2023 年10月20 日,工業(yè)和信息化部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》指出,人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù),有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品,將深刻變革人類生產(chǎn)生活方式,重塑全球產(chǎn)業(yè)發(fā)展格局。2023 年11 月2 日,北京人形機(jī)器人創(chuàng)新中心有限公司在經(jīng)開區(qū)機(jī)器人創(chuàng)新產(chǎn)業(yè)園正式注冊,標(biāo)志著國內(nèi)首家省級人形機(jī)器人創(chuàng)新中心成立。從國家政策的角度可以看出,具身智能的研發(fā)正在如火如荼地展開。
然而,具身智能仍然存在著很多重要的挑戰(zhàn)。首先,盡管AI 大模型對具身智能的發(fā)展起到了推動作用,但這種推動仍停留在任務(wù)級,距離對象級、運(yùn)作級還有不小的距離。其次,通用智能本體的研究仍在探索之中,目前在識別物體的時候仍然需要大量標(biāo)簽訓(xùn)練,使得在真實(shí)世界中處理大量未知物體變得不現(xiàn)實(shí)。再次,基于多模態(tài)大模型的具身智能是未來的趨勢,仍面臨諸多難題需要解決。最后,具身智能學(xué)習(xí)的能力至關(guān)重要。具身智能通過虛擬世界和真實(shí)世界的交互,以及持續(xù)學(xué)習(xí)和進(jìn)化來達(dá)到自我完善的能力,而不僅僅是通過人類喂養(yǎng)數(shù)據(jù)的方式來獲得對世界的認(rèn)知。這是具身智能演進(jìn)的重要技術(shù)途徑,但目前的技術(shù)尚有不小的差距。
總的來講,具身智能處于技術(shù)快速推進(jìn)、政策大力支持、產(chǎn)業(yè)開始探索的階段。具身智能前景非常廣闊,是打通人類虛實(shí)世界并實(shí)現(xiàn)人類進(jìn)化的重要關(guān)口,是構(gòu)建終極元宇宙世界不可缺少的版圖之一,也是通用人工智能時代未來發(fā)展的必經(jīng)之路。