仿人機器人的自主學(xué)習(xí)之路

2015-04-24 03:56羅定生

機器人產(chǎn)業(yè) 2015年3期

□文/羅定生

使機器人具備智能，目前對人類來說還是一項巨大挑戰(zhàn)，甚至“智能的本質(zhì)是什么？”這個問題都還沒有確切的答案。但是以人的智能行為能力為藍本，從機器人環(huán)境知覺組織、交互與協(xié)作、知識獲取與推理、自主認(rèn)知與高級決策等角度展開機器人的智能性研究，正成為現(xiàn)階段機器人領(lǐng)域研究的主題。

設(shè)計和制造機器人并使之具有類人的智能，是人類文明進步與科技發(fā)展的目標(biāo)之一。自上世紀(jì)中葉第一臺可編程機械手及工業(yè)機器人問世以來，機器人的研究取得了豐碩的成果，并在包括工業(yè)、醫(yī)學(xué)、農(nóng)業(yè)、建筑業(yè)、軍事等領(lǐng)域得以廣泛應(yīng)用。由于機器人技術(shù)綜合了多個學(xué)科的研究成果，代表了高科技發(fā)展的前沿，因此機器人成為體現(xiàn)各國科技實力的一項重要指標(biāo)，引發(fā)了全球研究的熱潮。

探索的步伐從未停歇

綜觀機器人研發(fā)的歷程，從最早我國西周出現(xiàn)的“歌舞伶人”、古希臘人發(fā)明的“自動機(Automata)”，到當(dāng)下各國研發(fā)的各類先進的機器人，人類對機器人的研究經(jīng)歷了從探索概念原型、面向程控機械、注重自主功能到強調(diào)高智能水平等發(fā)展階段。

1954年，第一臺可編程機器人(機械手)和1959年第一臺工業(yè)機器人相繼問世，標(biāo)志著真正意義上的機器人誕生；1968年美國斯坦福研究所研制出名為Shakey的第一臺自主移動機器人，機器人以獨立可移動個體的身份出現(xiàn)在世人面前；1969年日本早稻田大學(xué)加藤一郎實驗室研制了第一臺以雙腳走路的人形機器人，與人們長期期待的真正像人一樣的機器人夢想實現(xiàn)了接軌。

機器人學(xué)涉及眾多學(xué)科的技術(shù)革新以及來自人們生產(chǎn)生活的大量實際需求，促使機器人技術(shù)飛速發(fā)展。然而，重中之重是機器人行業(yè)巨大潛在價值引發(fā)了各國政府的強大支持、各大公司及科研院所的產(chǎn)學(xué)研整合。正是這些力量的匯聚，架構(gòu)了一個前景廣闊的機器人產(chǎn)業(yè)。

隨著與機器人學(xué)緊密相關(guān)各學(xué)科的不斷突破和迅猛發(fā)展，機器人的研發(fā)有了堅實的基礎(chǔ)。20世紀(jì)末，一系列各種各樣各具特色的機器人井噴式地涌現(xiàn)。在2015年6月份由美國國防先進項目研究局(DARPA)舉辦的挑戰(zhàn)賽上，登臺亮相了一批來自世界各國的先進機器人。幾乎每一款先進機器人的研制都有其相對應(yīng)的強大力量作支撐——美國國防先進項目研究局(DARPA)支持下的波士頓動力研究所(Boston Dynamics)大狗(BigDog)機器人、Petman機器人、美國麻省理工學(xué)院(MIT)Atlas機器人與獵豹(Cheetah)機器人、歐盟框架計劃(EUFP6, EUFP7, Horizon 2020)支持下的iCub 、日本產(chǎn)業(yè)技術(shù)綜合研究所(AIST)HRP系列機器人、日本本田公司的ASIMO機器人，以及韓國高等科技研究院的HUBO機器人等。

盡管機器人的研發(fā)取得了長足的進展，然而，如何使機器人具備智能仍然是一項具有極大挑戰(zhàn)的課題。而首先要回答的問題便是：機器人能否具備智能？這是一個哲學(xué)性質(zhì)的命題，對這一命題的完美解答，是以另一個問題的回答為基礎(chǔ)的，那就是“智能的本質(zhì)是什么？”(該問題與物質(zhì)、宇宙、生命被學(xué)者并列為自然界的四大奧秘)。目前看來，在包括腦科學(xué)與認(rèn)知科學(xué)在內(nèi)的眾多相關(guān)學(xué)科取得更大的根本性突破進展之前，該問題是無法予以完美解答的。

與人工智能領(lǐng)域的研究及發(fā)展類似，如何使機器人具備智能這一課題的研究，并未因其根本問題未予完美解答而停滯。相反，研究機器人具備高智能性正成為現(xiàn)階段機器人領(lǐng)域研究的主題。研究者以人的智能行為能力為藍本，從強調(diào)機器人環(huán)境知覺組織、復(fù)雜場景適應(yīng)、交互與協(xié)作、概念形成與整合、知識獲取與推理、自主認(rèn)知與高級決策、類人智能行為等角度，展開機器人的智能性研究。

雙足才是最優(yōu)選

與輪式、履帶式和多足式機器人不同，雙足的仿人機器人(Humanoid Robot)作為結(jié)構(gòu)復(fù)雜、高度集成的機器人家族成員，由于外形與人相似，不僅更適合于在人的生活和工作環(huán)境中與人協(xié)同工作，而且更適宜借鑒來自人的智能行為能力的啟示，從而成為研究機器人智能性的最佳選擇。最典型的代表是在歐盟第6及第7框架計劃(EUFP6, EUFP7)以及Horizon 2020計劃支持下的iCub機器人。iCub由歐洲10所大學(xué)組成的歐洲創(chuàng)新大學(xué)協(xié)會聯(lián)合研制，他們認(rèn)為“仿人的操作是人類認(rèn)知能力至關(guān)重要的因素”?；谶@一“具身認(rèn)知(Embodied Cognition)”思想，研究人員盡最大可能地模仿人的各類傳感及結(jié)構(gòu)，歷時6年(2004年至2010年)開發(fā)了一個外形像2歲兒童iCub。iCub強調(diào)“認(rèn)知能力的學(xué)習(xí)”，并將其作為開源平臺，通過與環(huán)境交互和與人交互來獲得各類行為能力和認(rèn)知能力。日本本田公司研發(fā)的ASIMO機器人以其移動能力和能實現(xiàn)復(fù)雜動作的特點而聲名大噪。隨后在其版本不斷更新的過程中，ASIMO對環(huán)境的認(rèn)知能力不斷加強，如復(fù)雜辦公室環(huán)境下靈活避障、與人交互的基本智能行為等。

由于雙足機器人是一個固有的非線性不穩(wěn)定系統(tǒng)。現(xiàn)階段，復(fù)雜多變路面環(huán)境下的穩(wěn)定、快速雙足行走，仍然是一個挑戰(zhàn)。韓國高等科技研究院HUBO仿人機器人，在2015年6月舉行的美國DARPA機器人挑戰(zhàn)賽上一舉奪魁，其主要技術(shù)策略正是對雙足行走的規(guī)避。HUBO機器人利用在其膝蓋和腳踝處裝置的滾輪，通過一個跪下行為很容易地實現(xiàn)了，由雙足行走到輪式行走的切換，極大地提升了移動速度。這為研究機器人智能行為借鑒其他優(yōu)勢模式的有益性，提供了例證。

自主學(xué)習(xí)不可或缺

學(xué)習(xí)能力是系統(tǒng)智能性的必要條件，一個不具備學(xué)習(xí)能力的系統(tǒng)，當(dāng)然談不上“智能”二字。學(xué)習(xí)的本質(zhì)是指系統(tǒng)能根據(jù)過往經(jīng)驗提升自身性能。機器學(xué)習(xí)作為人工智能領(lǐng)域的核心內(nèi)容，是一個持續(xù)受到高度關(guān)注的熱點，特別在“深度學(xué)習(xí)(Deep Learning)”取得巨大成功之后。

在探索機器人智能性的過程中，強調(diào)學(xué)習(xí)的特性是自然而然的事情。然而，我們想要強調(diào)的是，這種學(xué)習(xí)更應(yīng)是機器人的自主學(xué)習(xí)。以機器人獲得識別人臉的能力為例，自主學(xué)習(xí)指的是這樣的情形：機器人自己通過自己的眼睛(安裝在機器人頭上的攝像頭)，不斷觀察呈現(xiàn)在它面前的人臉圖像，最終形成能正確識別人臉的策略，而且這一過程是增量式的，亦即識別的性能可隨著觀察的增多而不斷地提升(Incremental Learning)；這一過程也是終生性的，像人類一樣，在機器人生命期內(nèi)一直持續(xù)(Lifelong Learning)，而并非僅僅將一個事先訓(xùn)練好的人臉識別模型，裝載在“機器人的大腦”(機器人的主機)中便萬事大吉了。盡管后一種處理方式可能省時省力，也可能暫時性地具備更好的識別性能，但忽略了機器人在“習(xí)得”這一能力過程中所擁有的豐富“副產(chǎn)品”——其他各種可能會在以后轉(zhuǎn)化為知識的有用圖像信息。

機器人智能的體現(xiàn)不應(yīng)是在代替人從事單一工作時的表現(xiàn)，更應(yīng)是像人類那樣能智能地從事各類工作，并應(yīng)對多種情況。工業(yè)機器人引發(fā)了社會的“重要”變革，極大地提高了生產(chǎn)力。但那僅僅是“重要”，并不是“徹底的”、“顛覆性的”。真正能夠使人類的生產(chǎn)生活發(fā)生深刻變革的，只可能是具備“通用智能”(General Intelligence)的機器人。盡管這極具挑戰(zhàn)，甚至可能無法實現(xiàn)，但有關(guān)機器人智能性的研究正朝著這個目標(biāo)邁進，而強調(diào)機器人的自主學(xué)習(xí)方式，無疑是一個很好的出發(fā)點。

智能機器人自主學(xué)習(xí)的基本場景，體現(xiàn)在其各項技能的具體獲取過程中。前面提到的機器人自主學(xué)習(xí)識別人臉正是機器人獲得人臉識別這項技能的一個例子，另一個更直接的例子是機器人獲得各項運動行為能力的過程。根據(jù)機器人系統(tǒng)的構(gòu)造方式，理論上，在其工作空間內(nèi)的任意穩(wěn)定運動行為(不僅包括靜態(tài)穩(wěn)定，也包括動態(tài)穩(wěn)定)，都可以通過設(shè)計一組多關(guān)節(jié)運動軌跡來實現(xiàn)。比如雙足仿人機器人的起立、行走，甚至跳舞、打太極拳等。如果這些行為是根據(jù)專家經(jīng)驗事先設(shè)計調(diào)整而成的，那么這些行為便毫無智能性可言，頂多是個耗時耗力極難維護的體力活。只有這些行為是在自主學(xué)習(xí)框架下獲得的，并且具備前述增量學(xué)習(xí)(Incremental Learning)和終生學(xué)習(xí)(Life-long Learning)的特點，才算是機器人具有智能性的一種體現(xiàn)。

智能機器人自主學(xué)習(xí)的另一個特點，是對過往經(jīng)驗或已有知識的再利用，正如人類那樣。這一思路與發(fā)展學(xué)習(xí)(或發(fā)育學(xué)習(xí)，Developmental Learning)的思想是相吻合的。它是對人的學(xué)習(xí)成長過程的借鑒，因為利用已有經(jīng)驗或知識，學(xué)習(xí)新事物是人類提升認(rèn)知能力和行為能力的一個基本特征。

“機器人能否像小孩一樣學(xué)習(xí)？”

事實上，機器人基于自主學(xué)習(xí)思想獲得智能行為能力的過程，正是借鑒了兒童認(rèn)知發(fā)展的過程。早在1950年，以阿蘭·圖靈(Alan Turing)為代表的許多先驅(qū)學(xué)者已提出“機器人能否像小孩一樣學(xué)習(xí)？”等類似問題。然而針對這些問題的系統(tǒng)性研究，直到20世紀(jì)末才得以展開，以Weng等人于2001年在美國《科學(xué)》雜志上發(fā)表的“機器人或動物的自主心智發(fā)展”為代表。在機器人的已有研究中，有不少工作借鑒了人的行為方式并取得成功，如基于人體運動捕獲數(shù)據(jù)(Human Motion Capture Data,HMCD)的一系列研究、機器人穩(wěn)定行走研究中的膝蓋拉伸(Knee Stretched)及支撐腳橫滾策略(Rolling Foot)、抗推搡研究中的踝關(guān)節(jié)策略(Ankle Strategy)、臀部策略(Hip Strategy)，以及邁步策略(Stepping Strategy)等。

在探索“機器人能否像小孩一樣學(xué)習(xí)？”這個問題之前，首先要弄清楚的問題是“小孩是如何學(xué)習(xí)的？”。

著名心理學(xué)家皮亞杰(J.Piaget)關(guān)于兒童認(rèn)知發(fā)展理論的重要思想，被公認(rèn)為20世紀(jì)發(fā)展心理學(xué)上最權(quán)威的理論，他將兒童的認(rèn)知發(fā)展分為四個階段：感知運動階段Sensorimotor Stage(0歲至2歲左右)、前運算階段Preoperational Stage(2歲至6或7歲)、具體運算階段Concrete Operations Stage(6或7歲至11或12歲)、形式運算階段Formal Operations Stage(11或12歲及以后)。該思想為機器人自主學(xué)習(xí)各項行為能力，特別是運動行為能力,提供了理論依據(jù)和實施借鑒。

從兒童認(rèn)知發(fā)展的過程，我們能夠得到一系列智能機器人構(gòu)建其自主學(xué)習(xí)框架的重要啟示。

第一，完全自主性。我們完全做不到像對待機器人那樣，對嬰兒各關(guān)節(jié)賦以角度序列，使其完成某些動作；

第二，家長示教。盡管不能直接干預(yù)嬰兒的運動行為，家長仍可通過間接輔教，協(xié)助嬰兒完成特定的運動行為；

第三，主觀模仿。無論是家長刻意重復(fù)特定運動行為過程，還是嬰兒自己的主觀觀察，都更有助于嬰兒獲得該運動的行為能力；

第四，環(huán)境交互學(xué)習(xí)。嬰兒獲得的每一項特定運動行為能力，都是在與實際環(huán)境不斷交互后才逐漸真正掌握的；

第五，試錯模式。在與環(huán)境的不斷交互過程中，嬰兒總能根據(jù)環(huán)境的反饋對自身行為能力不斷加以調(diào)節(jié)。

如何管理已獲得的行為能力

智能機器人自主學(xué)習(xí)還要面對的一個問題是，如何合理高效地利用已獲得的各項行為能力。智能機器人研究的根本目標(biāo)之一，歸根結(jié)底是在人類生產(chǎn)生活的實際環(huán)境中更好地服務(wù)于人類自身。這就需要機器人不僅擁有多項行為能力，而且在任務(wù)改變或環(huán)境變化時能實時做出恰當(dāng)響應(yīng)，即在線改變其運動行為。

一個直觀的方法便是“記憶-回調(diào)”法。仿人機器人將其已獲得的各項特定行為能力，以某種方式記憶存儲，當(dāng)遇到特定任務(wù)或環(huán)境時，它會迅速地切換或回調(diào)出相應(yīng)的應(yīng)對行為與能力。然而，由于任務(wù)的多樣性以及環(huán)境的復(fù)雜多變性，對于機器人而言，意味著其面臨過多項不同的運動行為能力的選擇。比如，沿不同坡度的坡面行走可能對應(yīng)著不同的運動技能(要么是不同的控制模型，要么是同一模型的不同參數(shù))，那么，簡單的記憶回調(diào)便遠不能滿足要求了。因此，智能機器人如何自主學(xué)習(xí)獲得對已有經(jīng)驗的知識抽取和表示，也成為一個重要的研究課題。知識抽取表示的過程是對已有經(jīng)驗的分析提煉，不僅是智能機器人更好地管理和應(yīng)用包含這些經(jīng)驗的行為能力的重要途徑，同時，也為其進一步基于前文提及的發(fā)展學(xué)習(xí)思想，獲得復(fù)雜行為能力提供了有力支撐。

智能機器人通過自主學(xué)習(xí)獲得具有切實的類人的智能行為能力，是一個長久的目標(biāo)，絕非一日之功。然而，前進道路上的每個階段性進展，在當(dāng)今機器人技術(shù)研發(fā)和應(yīng)用的大熱潮下，都可能引發(fā)巨大的市場效益，對推動我國乃至世界機器人科技的進步，都將發(fā)揮重要的作用。