具身智能：通用人工智能發(fā)展的必經(jīng)之路

2023-04-17 09:09:21劉宏建

張江科技評論 2023年6期

■文/劉宏建

2023 年5 月17 日，英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛在2023 年世界半導(dǎo)體大會上表示，人工智能的下一個浪潮是具身智能。這個觀點(diǎn)在極短的時間里引起了整個社會的關(guān)注。

人工智能新浪潮

什么是具身智能？用黃仁勛的話來講，具身智能即能理解、推理以及與物理世界互動的智能系統(tǒng)。美國斯坦福大學(xué)教授李飛飛說，具身的含義不是身體本身，而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。具身智能又叫具象智能，英文是Embodied AI，與之相對應(yīng)的非具身智能，英文叫作Internet AI 或者Disembodied AI。

無獨(dú)有偶，在2023 年5 月召開的特斯拉公司的股東大會上，首席執(zhí)行官馬斯克表示，“人形機(jī)器人將是今后特斯拉主要的長期價值來源?！苯Y(jié)果，很多人把具身智能誤解為人形機(jī)器人。其實(shí)，具身智能不并等于人形機(jī)器人，因?yàn)榫呱聿⒉灰欢ㄊ侨诵危灿锌赡苁欠侨诵蔚闹悄芟到y(tǒng)，如智能汽車。當(dāng)然，具身機(jī)器也不等于傳統(tǒng)的機(jī)器人，因?yàn)閭鹘y(tǒng)機(jī)器人盡管具備一定的智能化，但缺少理解、推理以及與物理世界互動的能力。具身智能更不等于生成式人工智能（AIGC）或者多模態(tài)，因?yàn)榫呱碇悄艿那疤崾且幸粋€身體。

具身智能是第一人稱智能，而非具身智能是第三人稱智能。不妨舉一個例子，傳統(tǒng)機(jī)器人在面對一個盒子的時候，我們必須告訴它這是一個盒子，這個盒子有大有小，是可以打開的。確切地說，我們必須告訴它一大堆的標(biāo)簽才行。但是，具身智能不是這樣的，它自己可以主動地感知這個盒子，自己去嘗試打開盒子，這稱為第一人稱。這頗有點(diǎn)像人類教育，如果我們在教育孩子的過程中不斷告訴孩子應(yīng)該這樣做，應(yīng)該那樣做，不應(yīng)該這樣做，不應(yīng)該那樣做，甚至經(jīng)常在孩子面前說“你看別人家的孩子如何優(yōu)秀……”慢慢地，孩子就變成了活在別人世界里的人，也就是第三人稱的人?？v觀人類發(fā)展史，創(chuàng)造性越強(qiáng)的人，往往自覺性、能動性就會越強(qiáng)，這就是第一人稱的人。

具身智能在人類社會進(jìn)化中的意義

具身智能確實(shí)與機(jī)器人領(lǐng)域有著較強(qiáng)的相關(guān)性。但是，僅僅這樣理解的話，就過于低估了具身智能的意義。2006 年，在工業(yè)互聯(lián)網(wǎng)領(lǐng)域有一個概念“CPS 系統(tǒng)”，中文名字叫賽博物理系統(tǒng)，這是一個包含計(jì)算、網(wǎng)絡(luò)和物理實(shí)體的復(fù)雜系統(tǒng)。到了2011 年，出現(xiàn)了一個大家更為熟悉的概念“數(shù)字孿生”，即充分利用物理模型等仿真過程，在虛擬空間中反映相對應(yīng)的實(shí)體裝備的全生命周期過程。2021 年，又出現(xiàn)了一個概念“元宇宙”，在網(wǎng)絡(luò)上迅速躥紅，這是一個與現(xiàn)實(shí)世界映射與交互的虛擬世界。從以上概念我們可以清晰地感受到，自互聯(lián)網(wǎng)誕生后，人類社會其實(shí)已經(jīng)逐漸分成兩個世界：一個虛擬世界，一個現(xiàn)實(shí)世界。以前的世界我們可以稱為人類社會閉環(huán)進(jìn)化的1.0版本，也稱網(wǎng)絡(luò)智能階段。在這個階段，現(xiàn)實(shí)世界與虛擬世界通過互聯(lián)網(wǎng)連接起來，滿足人類的需求。舉個簡單的例子，我們?nèi)绻喭赓u，就會在虛擬世界中（如美團(tuán)）下訂單、付款，然后現(xiàn)實(shí)世界中會有一個外賣小哥把外賣送貨上門，打出租車（如滴滴出行）同樣如此。

但是，1.0 版本存在一個嚴(yán)重的問題，虛擬世界進(jìn)化的速度非?？?，人工智能可以用幾天甚至幾個小時的時間完成人類社會幾千年的進(jìn)化。然而，在現(xiàn)實(shí)世界中，人類在幾千年中似乎沒有太多的進(jìn)化，我們并不見得比古人更有智慧。用一句話來描述這種矛盾，就是“洞中方一日，世上已千年”。因此，現(xiàn)實(shí)世界智能體缺失，使人工智能停留在虛擬世界，整個智能社會無法高效運(yùn)轉(zhuǎn)。具身智能的出現(xiàn)為我們解決這個矛盾提供了強(qiáng)有力的手段，這也意味著人類的社會閉環(huán)進(jìn)化開始向2.0 版本進(jìn)化。在2.0 版本中，我們同樣在虛擬世界中訂外賣，現(xiàn)實(shí)世界中可能會是一個機(jī)器人或機(jī)器車將外賣送到我們手中，這遠(yuǎn)比用人送外賣要高效得多。因此，我認(rèn)為，具身智能是打通人類虛實(shí)世界并實(shí)現(xiàn)人類進(jìn)化的重要關(guān)口，這或許才是具身智能的真正意義所在。

具身智能的發(fā)展現(xiàn)狀及前景展望

目前，具身智能的發(fā)展還在初期階段，在人工智能大模型發(fā)展的影響下正在快速推進(jìn)。2022年，谷歌Everyday Robot 實(shí)現(xiàn)將機(jī)器人與大模型結(jié)合，讓機(jī)器人充當(dāng)大語言模型的手和眼，將一個任務(wù)拆解成16 個動作。2023 年2 月，微軟公司使用ChatGPT 控制一架小型無人機(jī)，讓無人機(jī)在房間里找到健康飲料、一罐可樂，以及一面供無人機(jī)自拍的鏡子。同年4 月，阿里巴巴展示了阿里通義千問大模型接入工業(yè)機(jī)器人的應(yīng)用場景。工程師通過釘釘對話框向機(jī)器人發(fā)出“我渴了，找點(diǎn)東西喝吧”的指令后，通義千問大模型在后臺自動編寫了一組代碼發(fā)給機(jī)器人，機(jī)器人開始識別周邊環(huán)境，從附近的桌上找到一瓶水，并自動完成移動、抓取、配送等一系列動作，遞送給工程師。這些都是具身智能領(lǐng)域的一些很有意義的探索，但總的來講，具身智能的研發(fā)還處在比較初級的階段。

2023 年5 月21 日，北京市人民政府印發(fā)《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案（2023—2025 年）》明確提出，圍繞具身智能等方向開展研究布局，意在形成具有國際影響力的人工智能原創(chuàng)理論體系。2023 年10月20 日，工業(yè)和信息化部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》指出，人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù)，有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品，將深刻變革人類生產(chǎn)生活方式，重塑全球產(chǎn)業(yè)發(fā)展格局。2023 年11 月2 日，北京人形機(jī)器人創(chuàng)新中心有限公司在經(jīng)開區(qū)機(jī)器人創(chuàng)新產(chǎn)業(yè)園正式注冊，標(biāo)志著國內(nèi)首家省級人形機(jī)器人創(chuàng)新中心成立。從國家政策的角度可以看出，具身智能的研發(fā)正在如火如荼地展開。

然而，具身智能仍然存在著很多重要的挑戰(zhàn)。首先，盡管AI 大模型對具身智能的發(fā)展起到了推動作用，但這種推動仍停留在任務(wù)級，距離對象級、運(yùn)作級還有不小的距離。其次，通用智能本體的研究仍在探索之中，目前在識別物體的時候仍然需要大量標(biāo)簽訓(xùn)練，使得在真實(shí)世界中處理大量未知物體變得不現(xiàn)實(shí)。再次，基于多模態(tài)大模型的具身智能是未來的趨勢，仍面臨諸多難題需要解決。最后，具身智能學(xué)習(xí)的能力至關(guān)重要。具身智能通過虛擬世界和真實(shí)世界的交互，以及持續(xù)學(xué)習(xí)和進(jìn)化來達(dá)到自我完善的能力，而不僅僅是通過人類喂養(yǎng)數(shù)據(jù)的方式來獲得對世界的認(rèn)知。這是具身智能演進(jìn)的重要技術(shù)途徑，但目前的技術(shù)尚有不小的差距。

總的來講，具身智能處于技術(shù)快速推進(jìn)、政策大力支持、產(chǎn)業(yè)開始探索的階段。具身智能前景非常廣闊，是打通人類虛實(shí)世界并實(shí)現(xiàn)人類進(jìn)化的重要關(guān)口，是構(gòu)建終極元宇宙世界不可缺少的版圖之一，也是通用人工智能時代未來發(fā)展的必經(jīng)之路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

具身智能：通用人工智能發(fā)展的必經(jīng)之路

人工智能新浪潮

具身智能在人類社會進(jìn)化中的意義

具身智能的發(fā)展現(xiàn)狀及前景展望