聶艷明 林吳航 董佩杰 梁會 張志剛 鐘夢浩
摘要:NAO機器人是一款可編程人形機器人,集成攝像頭、麥克風、觸碰、超聲波、紅外等多種傳感器,具備對外部環(huán)境進行綜合感知和交互的能力。文章基于NAOqi API實現(xiàn)人臉圖像識別與簡單的觸覺感知,借助訊飛語音云和圖靈機器人進行語音識別與理解,結合NAO機器人視覺、聽覺、觸覺等開發(fā)多種通道人機交互案例,為基于NAO機器人的多通道交互應用研究奠定基礎。
關鍵詞:人機交互;NAO機器人;NAOqi API;多通道
中圖分類號:R749.94;TP242 文獻標識碼:A 文章編號:1007-9416(2018)04-0078-03
1 引言
人機交互是實現(xiàn)人與計算機對話的技術[1]。當前多通道的人機交互已成為一種新興的人機交互方式。人機交互通道指的是人機交互的途徑。所謂多通道人機交互就是在單一通道交互方式的基礎上,發(fā)展融合視覺、觸覺、聽覺、語音和肢體行為的多種通道交互,使人機雙方都能得到及時的反饋[2]。
作為一種可編程人形機器人,NAO機器人(如圖1所示)集成攝像頭、麥克風、觸碰、超聲波、紅外等多種傳感器,具備對外部環(huán)境進行綜合感知和交互的能力。在自閉癥醫(yī)治、全身運動、多智能系統(tǒng)、自動化、信號處理等領域具有廣泛的應用[1][2]。
2 NAO機器人的人機交互通道
2.1 視覺
在NAO機器人頭部有兩個攝像頭,其分辨率都為640×480,圖像的有效像素為920萬,系統(tǒng)可提供30幀/秒的圖像幀率[6]。在NAO機器人的人機交互過程中,通過攝像頭采集視頻信息流,完成相應處理[7]。
2.2 聽覺
NAO機器人內(nèi)安裝有四個麥克風,通過利用NAOqi中ALAudioRecorder模塊,實現(xiàn)NAO聽覺功能。NAO機器人自主生活時,自身也可以進行聲源的定位。
2.3 觸覺
NAO共提供了13個觸覺傳感器,其中頭頂三個,左右手各三個,左右腳各兩個。在與機器人交互過程中,通過傳感器捕捉觸覺刺激并進行反饋,實現(xiàn)人機交互[9]。
3 基于NAO機器人的多種通道人機交互
3.1 視覺通道原理
NAO機器人提供了基礎的可供開發(fā)的視覺系統(tǒng),開發(fā)者可利用NAOqi或者OpenCV實現(xiàn)視覺通道的開發(fā)[3]。ALFaceDetection[8]是NAOqi中的一個視覺API模塊。利用該模塊,機器人可檢測并選擇識別面前的人臉。
在進行人機交互時,NAO將對捕捉到的人臉分情況處理:
(1)如果8秒時間內(nèi)多次檢測,發(fā)現(xiàn)不認識該人臉,則發(fā)出newface事件來告知其他模塊有新面孔。接著打招呼并詢問人名。如果交互者回復姓名,將調(diào)用ALFaceDetection API記憶該人臉;(2)如果發(fā)現(xiàn)認識該人臉,則發(fā)出hasface事件,并實時獲取當前面孔;(3)如果發(fā)現(xiàn)認識該人臉,且該交互者12小時內(nèi)首次出現(xiàn),則發(fā)出firstface事件來告知其他模塊。
每當捕捉到人臉時,都會配合其他通道工作,協(xié)助實現(xiàn)多通道實時交互。
3.2 聽覺通道原理
基于NAO機器人的語音交互通道主要基于訊飛語音云、圖靈機器人和NAO機器人共三個模塊協(xié)同實現(xiàn)。
訊飛語音云[4]是科大訊飛提供的一個智能語音交互平臺。利用訊飛云的語音聽寫模塊,可以將人說話的聲音信息轉(zhuǎn)換成相應的字符串信息。訊飛云的語音識別的準確率超過95%,這也使得NAO機器人的語音交互的準確率得到了保證。
圖靈機器人是北京光年無限科技旗下的智能聊天機器人開放平臺。利用其功能接口,用戶可構建自己的聊天機器人。將交互者語義字符串通過http請求傳給圖靈機器人,進行語義處理,實現(xiàn)智能問答。圖靈機器人具有強大的語義與認知計算技術能力,保證了交互者與NAO交互過程的準確性、流暢性。
其中,F(xiàn)3、訊飛云將語音信息聽寫成文字信息,傳回NAO機器進行初步處理;F4、NAO對文字信息進行處理,過濾掉Python程序中定義的簡單關鍵字,并進行相應的簡單交互;其余部分傳給圖靈機器人;F5、圖靈機器人對文字進行理解,產(chǎn)生智能反饋信息;F6、NAO語音播放語音反饋信息并配和其他通道進行交互。
3.3 觸覺通道原理
NAO機器人擁有眾多觸覺傳感器,當NAO檢測到觸摸時,將在ALMemory[8]中讀取該值,產(chǎn)生相應事件。通過利用NAOqi的ALTouch模塊,實時訂閱TouchChanged事件,實現(xiàn)對觸覺的捕捉。
3.3.1 案例設計
基于NAO機器人的多種通道人機交互案例采用Python開發(fā),運行在NAO機器人內(nèi)部Linux系統(tǒng)上,具體交互流程如圖3所示。
NAO機器人的多通道交互體現(xiàn)在視覺、聽覺、觸覺、肢體運動、語音5個方面。
在視覺方面,當發(fā)現(xiàn)一個新的面孔需要識別時,如果此時處于空閑狀態(tài)則和人打招呼并詢問姓名;否則等到交互空閑時再進行詢問;當NAO發(fā)現(xiàn)此面孔已認識且近期未與之交互,如果此時處于交互空閑狀態(tài)則進行問候。
在聽覺方面,NAO本身的語音識別存在一定的缺陷,因此使用第三方訊飛云進行語音識別。人類說話的時間是不定的,這就要求采集數(shù)據(jù)的時間也是可變的。通過檢測人語音活動的開始與結束狀態(tài)來實現(xiàn)動態(tài)地采集語音數(shù)據(jù)并臨時保存在內(nèi)存中。在使用訊飛云時,需要預先加載訊飛云的庫文件。當語音中有程序中內(nèi)設的動作命令時,則過濾并根據(jù)命令執(zhí)行動作;當語音中有自我介紹時,如我是某某等,視覺系統(tǒng)會配合將此人的面孔記錄下來;當過濾后,仍有未處理的語音信息,將此信息通過HTTP請求發(fā)送至圖靈機器人生成語音反饋信息。在這些交互的過程中,NAO會配和做出相應肢體動作。
在觸覺方面,通過對觸覺信息的采集和處理,做出相應的反饋完成觸覺交互。
3.3.2 案例演示
為了更好地操縱NAO機器人,事先將Python程序移植到NAO內(nèi)部Linux操作系統(tǒng)中,并采用SSH命令遠程控制NAO內(nèi)部Linux系統(tǒng)。
建立控制連接:機器人需要實時和互聯(lián)網(wǎng)進行連接通信。一種最簡單的網(wǎng)絡連接方式是將NAO機器人和個人PC端同時連接到同一手機熱點上。
登錄Nao機器人的Linux操作系統(tǒng):使用軟件PieTTY(默認端口是22,登錄名NAO,密碼NAO)。輸入shell命令python NAO.py運行程序。
與NAO進行交互:將NAO機器人放在地上,交互者半蹲在機器人面前,并距離機器人30厘米。交互者臉應正對NAO機器人的攝像頭,使得NAO機器人能捕捉到交互者的人臉。
當交互者和NAO進行交互時,NAO能捕捉交互者面孔。識別出交互者的面孔后,NAO會向交互者問好,并輔助做出表示友好的動作。
交互者可以和NAO機器人隨機進行一系列對話。如,交互者問NAO你餓嗎?NAO機器人識別出語音后,反饋回答道:我不餓,我不吃飯,只要給我充電就好了呢。
當交互者用腳踢到了NAO機器人的腳部時候,NAO接收到刺激,進行語音反饋。
當嘗試讓NAO講個故事解悶時,NAO會馬上給交互者念一段故事。NAO邊講故事,邊手勢輔助表達。
交互者也可以告訴NAO機器人自己的內(nèi)心感受。如交互者說:我生氣了。NAO會邊安慰交互者,邊做手勢輔助反饋。
交互者也可以控制NAO機器人的行為動作。當發(fā)出動作指令后,并且NAO機器人識別語音成功后,便根據(jù)交互者指令完成相應動作。
4 結論語句
本文利用Python語言,進行了基于NAO機器人多種通道的人機交互案例的研究與開發(fā),采用NAOqi API實現(xiàn)人臉圖像識別和簡單的觸覺感知,借助訊飛語音云模塊和圖靈機器人模塊進行語音識別與語義理解,為課程《人機交互與可視化技術》提供案例,進而為基于NAO機器人的多通道交互應用研究奠定基礎。
實現(xiàn)基于NAO機器人的單個通道以及多種通道的交互相對簡單,而多通道交互中多個通道之間協(xié)作與數(shù)據(jù)融合、實時響應、異常處理等卻非常具有挑戰(zhàn)性。另外,本文開發(fā)的基于NAO機器人的多種通道人機交互案例還存在語音識別不準確、人臉識別不準確等諸多不足。以上都將是基于NAO機器人的人機交互研究的重點。
參考文獻
[1]張婷.NAO機器人在自閉癥干預中的應用[J].系統(tǒng)仿真技術,2013,9(04):327-331+338.
[2]肖義涵.以NAO機器人為平臺的人機互動技術研究[D].上海交通大學,2014.
[3]SoftBank Robotics NAOqi API(http://doc.aldebaran.com/)
[4]科大訊飛語音云打造語音聲紋識別[J].中國信息安全, 2010(11):82.
[5]劉寶亮.圖靈機器人召開創(chuàng)新大會宣布平臺開發(fā)者突破23萬[N].中國經(jīng)濟導報,2016-08-03.
[6]張生.NAO機器人的目標識別與定位研究[D].安徽大學,2013.
[7]類紅樂,魏忠恒,彭延軍.人臉識別機器人的設計與實現(xiàn)[J].電腦知識與技術,2011,7(31):7756-7758.
[8]吳志霞,陳平.圖靈智能機器人在基于Android招生咨詢平臺的研究與應用[J].通化師范學院學報,2016,37(02):1-3.
[9]謝將劍,宋振宇,崔瑋辰,劉卿君,宋佳. 基于圖靈網(wǎng)的智能語音交流機器人設計[J].電腦知識與技術,2017,13(09):182-184.