□文/羅定生
使機器人具備智能,目前對人類來說還是一項巨大挑戰(zhàn),甚至“智能的本質(zhì)是什么?”這個問題都還沒有確切的答案。但是以人的智能行為能力為藍本,從機器人環(huán)境知覺組織、交互與協(xié)作、知識獲取與推理、自主認(rèn)知與高級決策等角度展開機器人的智能性研究,正成為現(xiàn)階段機器人領(lǐng)域研究的主題。
設(shè)計和制造機器人并使之具有類人的智能,是人類文明進步與科技發(fā)展的目標(biāo)之一。自上世紀(jì)中葉第一臺可編程機械手及工業(yè)機器人問世以來,機器人的研究取得了豐碩的成果,并在包括工業(yè)、醫(yī)學(xué)、農(nóng)業(yè)、建筑業(yè)、軍事等領(lǐng)域得以廣泛應(yīng)用。由于機器人技術(shù)綜合了多個學(xué)科的研究成果,代表了高科技發(fā)展的前沿,因此機器人成為體現(xiàn)各國科技實力的一項重要指標(biāo),引發(fā)了全球研究的熱潮。
綜觀機器人研發(fā)的歷程,從最早我國西周出現(xiàn)的“歌舞伶人”、古希臘人發(fā)明的“自動機(Automata)”,到當(dāng)下各國研發(fā)的各類先進的機器人,人類對機器人的研究經(jīng)歷了從探索概念原型、面向程控機械、注重自主功能到強調(diào)高智能水平等發(fā)展階段。
1954年,第一臺可編程機器人(機械手)和1959年第一臺工業(yè)機器人相繼問世,標(biāo)志著真正意義上的機器人誕生;1968年美國斯坦福研究所研制出名為Shakey的第一臺自主移動機器人,機器人以獨立可移動個體的身份出現(xiàn)在世人面前;1969年日本早稻田大學(xué)加藤一郎實驗室研制了第一臺以雙腳走路的人形機器人,與人們長期期待的真正像人一樣的機器人夢想實現(xiàn)了接軌。
機器人學(xué)涉及眾多學(xué)科的技術(shù)革新以及來自人們生產(chǎn)生活的大量實際需求,促使機器人技術(shù)飛速發(fā)展。然而,重中之重是機器人行業(yè)巨大潛在價值引發(fā)了各國政府的強大支持、各大公司及科研院所的產(chǎn)學(xué)研整合。正是這些力量的匯聚,架構(gòu)了一個前景廣闊的機器人產(chǎn)業(yè)。
隨著與機器人學(xué)緊密相關(guān)各學(xué)科的不斷突破和迅猛發(fā)展,機器人的研發(fā)有了堅實的基礎(chǔ)。20世紀(jì)末,一系列各種各樣各具特色的機器人井噴式地涌現(xiàn)。在2015年6月份由美國國防先進項目研究局(DARPA)舉辦的挑戰(zhàn)賽上,登臺亮相了一批來自世界各國的先進機器人。幾乎每一款先進機器人的研制都有其相對應(yīng)的強大力量作支撐——美國國防先進項目研究局(DARPA)支持下的波士頓動力研究所(Boston Dynamics)大狗(BigDog)機器人、Petman機器人、美國麻省理工學(xué)院(MIT)Atlas機器人與獵豹(Cheetah)機器人、歐盟框架計劃(EUFP6, EUFP7, Horizon 2020)支持下的iCub 、日本產(chǎn)業(yè)技術(shù)綜合研究所(AIST)HRP系列機器人、日本本田公司的ASIMO機器人,以及韓國高等科技研究院的HUBO機器人等。
盡管機器人的研發(fā)取得了長足的進展,然而,如何使機器人具備智能仍然是一項具有極大挑戰(zhàn)的課題。而首先要回答的問題便是:機器人能否具備智能?這是一個哲學(xué)性質(zhì)的命題,對這一命題的完美解答,是以另一個問題的回答為基礎(chǔ)的,那就是“智能的本質(zhì)是什么?”(該問題與物質(zhì)、宇宙、生命被學(xué)者并列為自然界的四大奧秘)。目前看來,在包括腦科學(xué)與認(rèn)知科學(xué)在內(nèi)的眾多相關(guān)學(xué)科取得更大的根本性突破進展之前,該問題是無法予以完美解答的。
與人工智能領(lǐng)域的研究及發(fā)展類似,如何使機器人具備智能這一課題的研究,并未因其根本問題未予完美解答而停滯。相反,研究機器人具備高智能性正成為現(xiàn)階段機器人領(lǐng)域研究的主題。研究者以人的智能行為能力為藍本,從強調(diào)機器人環(huán)境知覺組織、復(fù)雜場景適應(yīng)、交互與協(xié)作、概念形成與整合、知識獲取與推理、自主認(rèn)知與高級決策、類人智能行為等角度,展開機器人的智能性研究。
與輪式、履帶式和多足式機器人不同,雙足的仿人機器人(Humanoid Robot)作為結(jié)構(gòu)復(fù)雜、高度集成的機器人家族成員,由于外形與人相似,不僅更適合于在人的生活和工作環(huán)境中與人協(xié)同工作,而且更適宜借鑒來自人的智能行為能力的啟示,從而成為研究機器人智能性的最佳選擇。最典型的代表是在歐盟第6及第7框架計劃(EUFP6, EUFP7)以及Horizon 2020計劃支持下的iCub機器人。iCub由歐洲10所大學(xué)組成的歐洲創(chuàng)新大學(xué)協(xié)會聯(lián)合研制,他們認(rèn)為“仿人的操作是人類認(rèn)知能力至關(guān)重要的因素”?;谶@一“具身認(rèn)知(Embodied Cognition)”思想,研究人員盡最大可能地模仿人的各類傳感及結(jié)構(gòu),歷時6年(2004年至2010年)開發(fā)了一個外形像2歲兒童iCub。iCub強調(diào)“認(rèn)知能力的學(xué)習(xí)”,并將其作為開源平臺,通過與環(huán)境交互和與人交互來獲得各類行為能力和認(rèn)知能力。日本本田公司研發(fā)的ASIMO機器人以其移動能力和能實現(xiàn)復(fù)雜動作的特點而聲名大噪。隨后在其版本不斷更新的過程中,ASIMO對環(huán)境的認(rèn)知能力不斷加強,如復(fù)雜辦公室環(huán)境下靈活避障、與人交互的基本智能行為等。
由于雙足機器人是一個固有的非線性不穩(wěn)定系統(tǒng)。現(xiàn)階段,復(fù)雜多變路面環(huán)境下的穩(wěn)定、快速雙足行走,仍然是一個挑戰(zhàn)。韓國高等科技研究院HUBO仿人機器人,在2015年6月舉行的美國DARPA機器人挑戰(zhàn)賽上一舉奪魁,其主要技術(shù)策略正是對雙足行走的規(guī)避。HUBO機器人利用在其膝蓋和腳踝處裝置的滾輪,通過一個跪下行為很容易地實現(xiàn)了,由雙足行走到輪式行走的切換,極大地提升了移動速度。這為研究機器人智能行為借鑒其他優(yōu)勢模式的有益性,提供了例證。
學(xué)習(xí)能力是系統(tǒng)智能性的必要條件,一個不具備學(xué)習(xí)能力的系統(tǒng),當(dāng)然談不上“智能”二字。學(xué)習(xí)的本質(zhì)是指系統(tǒng)能根據(jù)過往經(jīng)驗提升自身性能。機器學(xué)習(xí)作為人工智能領(lǐng)域的核心內(nèi)容,是一個持續(xù)受到高度關(guān)注的熱點,特別在“深度學(xué)習(xí)(Deep Learning)”取得巨大成功之后。
在探索機器人智能性的過程中,強調(diào)學(xué)習(xí)的特性是自然而然的事情。然而,我們想要強調(diào)的是,這種學(xué)習(xí)更應(yīng)是機器人的自主學(xué)習(xí)。以機器人獲得識別人臉的能力為例,自主學(xué)習(xí)指的是這樣的情形:機器人自己通過自己的眼睛(安裝在機器人頭上的攝像頭),不斷觀察呈現(xiàn)在它面前的人臉圖像,最終形成能正確識別人臉的策略,而且這一過程是增量式的,亦即識別的性能可隨著觀察的增多而不斷地提升(Incremental Learning);這一過程也是終生性的,像人類一樣,在機器人生命期內(nèi)一直持續(xù)(Lifelong Learning),而并非僅僅將一個事先訓(xùn)練好的人臉識別模型,裝載在“機器人的大腦”(機器人的主機)中便萬事大吉了。盡管后一種處理方式可能省時省力,也可能暫時性地具備更好的識別性能,但忽略了機器人在“習(xí)得”這一能力過程中所擁有的豐富“副產(chǎn)品”——其他各種可能會在以后轉(zhuǎn)化為知識的有用圖像信息。
機器人智能的體現(xiàn)不應(yīng)是在代替人從事單一工作時的表現(xiàn),更應(yīng)是像人類那樣能智能地從事各類工作,并應(yīng)對多種情況。工業(yè)機器人引發(fā)了社會的“重要”變革,極大地提高了生產(chǎn)力。但那僅僅是“重要”,并不是“徹底的”、“顛覆性的”。真正能夠使人類的生產(chǎn)生活發(fā)生深刻變革的,只可能是具備“通用智能”(General Intelligence)的機器人。盡管這極具挑戰(zhàn),甚至可能無法實現(xiàn),但有關(guān)機器人智能性的研究正朝著這個目標(biāo)邁進,而強調(diào)機器人的自主學(xué)習(xí)方式,無疑是一個很好的出發(fā)點。
智能機器人自主學(xué)習(xí)的基本場景,體現(xiàn)在其各項技能的具體獲取過程中。前面提到的機器人自主學(xué)習(xí)識別人臉正是機器人獲得人臉識別這項技能的一個例子,另一個更直接的例子是機器人獲得各項運動行為能力的過程。根據(jù)機器人系統(tǒng)的構(gòu)造方式,理論上,在其工作空間內(nèi)的任意穩(wěn)定運動行為(不僅包括靜態(tài)穩(wěn)定,也包括動態(tài)穩(wěn)定),都可以通過設(shè)計一組多關(guān)節(jié)運動軌跡來實現(xiàn)。比如雙足仿人機器人的起立、行走,甚至跳舞、打太極拳等。如果這些行為是根據(jù)專家經(jīng)驗事先設(shè)計調(diào)整而成的,那么這些行為便毫無智能性可言,頂多是個耗時耗力極難維護的體力活。只有這些行為是在自主學(xué)習(xí)框架下獲得的,并且具備前述增量學(xué)習(xí)(Incremental Learning)和終生學(xué)習(xí)(Life-long Learning)的特點,才算是機器人具有智能性的一種體現(xiàn)。
智能機器人自主學(xué)習(xí)的另一個特點,是對過往經(jīng)驗或已有知識的再利用,正如人類那樣。這一思路與發(fā)展學(xué)習(xí)(或發(fā)育學(xué)習(xí),Developmental Learning)的思想是相吻合的。它是對人的學(xué)習(xí)成長過程的借鑒,因為利用已有經(jīng)驗或知識,學(xué)習(xí)新事物是人類提升認(rèn)知能力和行為能力的一個基本特征。
事實上,機器人基于自主學(xué)習(xí)思想獲得智能行為能力的過程,正是借鑒了兒童認(rèn)知發(fā)展的過程。早在1950年,以阿蘭·圖靈(Alan Turing)為代表的許多先驅(qū)學(xué)者已提出“機器人能否像小孩一樣學(xué)習(xí)?”等類似問題。然而針對這些問題的系統(tǒng)性研究,直到20世紀(jì)末才得以展開,以Weng等人于2001年在美國《科學(xué)》雜志上發(fā)表的“機器人或動物的自主心智發(fā)展”為代表。在機器人的已有研究中,有不少工作借鑒了人的行為方式并取得成功,如基于人體運動捕獲數(shù)據(jù)(Human Motion Capture Data,HMCD)的一系列研究、機器人穩(wěn)定行走研究中的膝蓋拉伸(Knee Stretched)及支撐腳橫滾策略(Rolling Foot)、抗推搡研究中的踝關(guān)節(jié)策略(Ankle Strategy)、臀部策略(Hip Strategy),以及邁步策略(Stepping Strategy)等。
在探索“機器人能否像小孩一樣學(xué)習(xí)?”這個問題之前,首先要弄清楚的問題是“小孩是如何學(xué)習(xí)的?”。
著名心理學(xué)家皮亞杰(J.Piaget)關(guān)于兒童認(rèn)知發(fā)展理論的重要思想,被公認(rèn)為20世紀(jì)發(fā)展心理學(xué)上最權(quán)威的理論,他將兒童的認(rèn)知發(fā)展分為四個階段:感知運動階段Sensorimotor Stage(0歲至2歲左右)、前運算階段Preoperational Stage(2歲至6或7歲)、具體運算階段Concrete Operations Stage(6或7歲至11或12歲)、形式運算階段Formal Operations Stage(11或12歲及以后)。該思想為機器人自主學(xué)習(xí)各項行為能力,特別是運動行為能力,提供了理論依據(jù)和實施借鑒。
從兒童認(rèn)知發(fā)展的過程,我們能夠得到一系列智能機器人構(gòu)建其自主學(xué)習(xí)框架的重要啟示。
第一,完全自主性。我們完全做不到像對待機器人那樣,對嬰兒各關(guān)節(jié)賦以角度序列,使其完成某些動作;
第二,家長示教。盡管不能直接干預(yù)嬰兒的運動行為,家長仍可通過間接輔教,協(xié)助嬰兒完成特定的運動行為;
第三,主觀模仿。無論是家長刻意重復(fù)特定運動行為過程,還是嬰兒自己的主觀觀察,都更有助于嬰兒獲得該運動的行為能力;
第四,環(huán)境交互學(xué)習(xí)。嬰兒獲得的每一項特定運動行為能力,都是在與實際環(huán)境不斷交互后才逐漸真正掌握的;
第五,試錯模式。在與環(huán)境的不斷交互過程中,嬰兒總能根據(jù)環(huán)境的反饋對自身行為能力不斷加以調(diào)節(jié)。
智能機器人自主學(xué)習(xí)還要面對的一個問題是,如何合理高效地利用已獲得的各項行為能力。智能機器人研究的根本目標(biāo)之一,歸根結(jié)底是在人類生產(chǎn)生活的實際環(huán)境中更好地服務(wù)于人類自身。這就需要機器人不僅擁有多項行為能力,而且在任務(wù)改變或環(huán)境變化時能實時做出恰當(dāng)響應(yīng),即在線改變其運動行為。
一個直觀的方法便是“記憶-回調(diào)”法。仿人機器人將其已獲得的各項特定行為能力,以某種方式記憶存儲,當(dāng)遇到特定任務(wù)或環(huán)境時,它會迅速地切換或回調(diào)出相應(yīng)的應(yīng)對行為與能力。然而,由于任務(wù)的多樣性以及環(huán)境的復(fù)雜多變性,對于機器人而言,意味著其面臨過多項不同的運動行為能力的選擇。比如,沿不同坡度的坡面行走可能對應(yīng)著不同的運動技能(要么是不同的控制模型,要么是同一模型的不同參數(shù)),那么,簡單的記憶回調(diào)便遠不能滿足要求了。因此,智能機器人如何自主學(xué)習(xí)獲得對已有經(jīng)驗的知識抽取和表示,也成為一個重要的研究課題。知識抽取表示的過程是對已有經(jīng)驗的分析提煉,不僅是智能機器人更好地管理和應(yīng)用包含這些經(jīng)驗的行為能力的重要途徑,同時,也為其進一步基于前文提及的發(fā)展學(xué)習(xí)思想,獲得復(fù)雜行為能力提供了有力支撐。
智能機器人通過自主學(xué)習(xí)獲得具有切實的類人的智能行為能力,是一個長久的目標(biāo),絕非一日之功。然而,前進道路上的每個階段性進展,在當(dāng)今機器人技術(shù)研發(fā)和應(yīng)用的大熱潮下,都可能引發(fā)巨大的市場效益,對推動我國乃至世界機器人科技的進步,都將發(fā)揮重要的作用。