陳浩天
(徐州工程學(xué)院信息工程學(xué)院 江蘇 徐州 221000)
人工智能作為當(dāng)今最熱門的技術(shù),活躍在全球各個(gè)領(lǐng)域。在誕生之初,麥卡錫就提出人工智能的關(guān)鍵因素應(yīng)該是創(chuàng)造一個(gè)可以完全單獨(dú)解決復(fù)雜問(wèn)題的智能系統(tǒng)。機(jī)器人技術(shù)的發(fā)展在這一理念的指導(dǎo)下日趨成熟。如今,各種類型的機(jī)器人不僅可以模仿和還原人類的一些活動(dòng),幫助人類完成一些簡(jiǎn)單易做的枯燥工作,甚至可以在一些特定領(lǐng)域執(zhí)行一些危險(xiǎn)性高的精密工作??梢哉f(shuō),機(jī)器人的蓬勃發(fā)展代表著我們已經(jīng)走到了下一次工業(yè)革命的大門。
然而,隨著任務(wù)量的增加和應(yīng)用領(lǐng)域的迅速擴(kuò)展,對(duì)仿人機(jī)器人感知能力的要求也越來(lái)越高。與人獲取信息的途徑類似,視覺(jué)技術(shù)是機(jī)器人獲取信息至關(guān)重要的感官。對(duì)不同領(lǐng)域特定圖像識(shí)別任務(wù)的研究決定了機(jī)器人工作質(zhì)量的上限。在此背景下,本文以軟銀NAO機(jī)器人在中國(guó)機(jī)器人技能大賽高爾夫比賽中的任務(wù)為背景,分析了NAO圖像識(shí)別的相關(guān)技術(shù)。
NAO機(jī)器人是法國(guó)研制的一種人形機(jī)器人。NAO擁有25個(gè)自由度,動(dòng)作靈活。它還配有一個(gè)慣性導(dǎo)航儀裝置,在移動(dòng)時(shí)十分平穩(wěn),并可隨時(shí)確定自己的位置[1]。因?yàn)槠涑錾墓I(yè)設(shè)計(jì)水平和極高自由度的二次開發(fā)接口,是目前非常主流的高校教學(xué)科研類人機(jī)器人平臺(tái)。
NAO機(jī)器人通過(guò)頭部的兩個(gè)高清攝像頭檢測(cè)環(huán)境信息,920萬(wàn)像素,30幀/秒的圖像分辨率。在NAO視覺(jué)系統(tǒng)運(yùn)行過(guò)程中,兩個(gè)攝像頭各司其職,一般不會(huì)同時(shí)運(yùn)行。下方攝像頭用于更近距離的視覺(jué)識(shí)別,上方攝像頭用于更長(zhǎng)時(shí)間的掃描。NAO兩攝像頭視野夾角為四十度,系統(tǒng)可以根據(jù)兩個(gè)攝像機(jī)的視場(chǎng)和得到的視覺(jué)環(huán)境計(jì)算出目標(biāo)與NAO的相對(duì)坐標(biāo)。
用于圖像模式識(shí)別的特征大致可歸納為:(1)顏色或灰度的統(tǒng)計(jì)特征;(2)紋理、邊緣特征;(3)代數(shù)特征;(4)變換系數(shù)特征或?yàn)V波器系數(shù)特征[2]。針對(duì)NAO的實(shí)際算法設(shè)計(jì)和使用場(chǎng)景,本文主要討論前兩者。
在二十世紀(jì)八十年代,一些學(xué)者創(chuàng)造性地發(fā)明了用直方圖的形式來(lái)表示顏色模型。其原理是對(duì)于顏色特征,進(jìn)行對(duì)應(yīng)特征向量的變換,進(jìn)而表現(xiàn)為直方圖的形式,一直沿用至今。
形狀特征也是機(jī)器人視覺(jué)信息處理過(guò)程中不可缺少的特征,在機(jī)器人視覺(jué)信息處理中有著廣泛的應(yīng)用。在大多數(shù)圖像目標(biāo)識(shí)別的任務(wù)中,因?yàn)樾螤钚畔?duì)識(shí)別結(jié)果有著更至關(guān)重要的影響,所以和顏色特征相比,形狀特征層次更高。形狀特征可以分為兩部分進(jìn)行研究和討論。一種是輪廓特征,主流是傅里葉描述子方法。二是地域特征,常見的是不變矩法。
在圖像處理中,我們往往需要根據(jù)特征處理的具體情況對(duì)圖像進(jìn)行分割,這使得我們的視覺(jué)信息處理更加高效和準(zhǔn)確。這里我們主要討論兩種方法:基于像素的和基于邊緣的。
當(dāng)我們面對(duì)圖片中相鄰像素點(diǎn)灰度值差異較小,但整個(gè)圖片的像素值分布比較離散的情況時(shí),直方圖是一個(gè)很好的工具,這屬于基于像素的圖像分割范疇。當(dāng)我們要分割這類圖像時(shí),可以根據(jù)像素直方圖的極高值和極低值分別選擇和分割目標(biāo)。這種方法也叫按激素聚類法。常用的方法有K-MEANS和C-means。聚類分析方法有些簡(jiǎn)單易行,但缺點(diǎn)是聚類數(shù)的統(tǒng)計(jì)不容易準(zhǔn)確,在目標(biāo)平移和旋轉(zhuǎn)時(shí)干擾較大。這屬于基于像素的圖像分割。
而對(duì)于基于邊緣的方法,是從灰度圖片分析演化而來(lái)的,之后為了對(duì)只從灰度圖片分割做補(bǔ)充,出現(xiàn)了距量保持法分割子塊等技術(shù)。
3.3.1 OpenCV相關(guān)算法
OpenCV(open source computer vision library) 誕生于Intel研究中心,是一個(gè)開放源碼的計(jì)算機(jī)視覺(jué)庫(kù)[3]。于1999年出現(xiàn),在高校計(jì)算機(jī)視覺(jué)相關(guān)科研領(lǐng)域和工業(yè)應(yīng)用領(lǐng)域被廣泛應(yīng)用。不管是圖像、視頻還是信號(hào)的分析處理任務(wù),其都能很有效的應(yīng)用。
3.3.2 基于Hough變換的輪廓提取
Hough變換在圖像的邊緣檢測(cè)領(lǐng)域內(nèi)是應(yīng)用非常廣泛且高效的算法。這種算法的核心即把目標(biāo)空間中的坐標(biāo)變換到參數(shù)空間中,對(duì)應(yīng)參照的某一曲線或曲面。因此,擁有一樣的參數(shù)特征的點(diǎn),在這一交換過(guò)程后,會(huì)在對(duì)應(yīng)的參數(shù)空間中產(chǎn)生交集?;诖耍u(píng)估在交點(diǎn)處的累計(jì)程度以此來(lái)獲得所需的特征曲線的檢測(cè)數(shù)據(jù)。Hough可以隨著參量性質(zhì)的改變,變換成數(shù)種不同的圖形,包括基礎(chǔ)圖形——直線、橢圓以及進(jìn)階圖形——雙曲線、拋物線等[4]。在此過(guò)程中,為了優(yōu)化變換效率,提高變換的精度,我們可以采取計(jì)算概率的方法,采用分層迭代的思想,并將級(jí)聯(lián)的方法加入進(jìn)去,從而達(dá)到這一目的。
3.3.3 顏色空間之間的轉(zhuǎn)換
空間模型相對(duì)于一個(gè)物體來(lái)說(shuō),是指存在于三維空間中的一個(gè)子集,這個(gè)子集包含了顏色領(lǐng)域中所有的顏色,與此同時(shí),這個(gè)子集還有一個(gè)要求,那就是子集本身必須是可見光子集。由于顏色模型的用途主要是代指顏色域中的一個(gè)特定色彩,并且可見光子集包括了任何一個(gè)顏色域,因此通過(guò)推斷我們可以判定,所有的可見光不能同時(shí)被納入顏色模型之中。此外,雖然相當(dāng)一部分的顯示裝置都是基于三原色這一原理基礎(chǔ)的,連帶普通的圖形學(xué)說(shuō)都是采用RGB的模型,但是因?yàn)閺淖饔寐?lián)系上來(lái)說(shuō),三原色與色彩明度、色調(diào)等其他顏色參數(shù)并沒(méi)有本質(zhì)上的關(guān)聯(lián),所以并不采用RGB模型作為顏色模型。
在三原色當(dāng)中,綠色和藍(lán)色是十分接近的,通常情況下只能采取調(diào)整亮度的方法進(jìn)行兩者的相互轉(zhuǎn)化。當(dāng)三個(gè)自變量中的兩個(gè)具有十分高的相似度,這就意味著通過(guò)改變自變量的參數(shù)的方式獲取相對(duì)應(yīng)的應(yīng)變量數(shù)值的操作將會(huì)變得較為復(fù)雜。除此之外,在三原色模型學(xué)說(shuō)提出之初,每個(gè)顏色之間的設(shè)定本就不夠嚴(yán)密完善,顏色與顏色之間的每項(xiàng)數(shù)值都不能很明確地用距離來(lái)表現(xiàn)?;谝陨狭信e的兩個(gè)原因,我們將采用HSV模型代替RGB顏色模型的方式來(lái)進(jìn)行算法的執(zhí)行。
HSV是利用色調(diào)H、飽和度S和亮度V這三個(gè)色彩的基本屬性來(lái)確定顏色的。它對(duì)應(yīng)一個(gè)倒立的六棱錐,六棱錐的頂部V=1,它包含RGB顏色模型中R=1,G=1和B=1的三個(gè)面,顏色最亮[5]。
根據(jù)現(xiàn)有的視覺(jué)測(cè)距技術(shù),我們可以將信息感知的總體分為下述兩種,分別是以單目視覺(jué)為基礎(chǔ)和立體視覺(jué)為基礎(chǔ)的距離測(cè)量方式。常規(guī)來(lái)說(shuō),只有使用立體視覺(jué)的系統(tǒng)才可以獲得對(duì)象環(huán)境的三維空間環(huán)境。但由于立體視覺(jué)技術(shù)的系統(tǒng)計(jì)算量龐大,難以運(yùn)用到實(shí)際操作中去,相較之下,基于單目視覺(jué)的測(cè)量技術(shù)在結(jié)構(gòu)和成本等方面來(lái)講都優(yōu)于前者,并且它所對(duì)應(yīng)的攝像機(jī)標(biāo)定的計(jì)算方法也更易方便操作。不僅如此,后者還可以免去立體視覺(jué)的一些弊端,舉個(gè)例子,立體視覺(jué)在現(xiàn)實(shí)場(chǎng)景運(yùn)用中,其視覺(jué)范圍較小,三維立體的匹配也有較大的難度挑戰(zhàn)。在一系列對(duì)比下,單目視覺(jué)的測(cè)距技術(shù)顯得實(shí)用性很強(qiáng)。在此情況下,單目視覺(jué)應(yīng)用于現(xiàn)實(shí)生活中的智能車輛與可自行移動(dòng)的機(jī)器人的視覺(jué)系統(tǒng)中,以此來(lái)實(shí)現(xiàn)識(shí)別與追蹤所規(guī)定的目標(biāo)。
在我們談及視覺(jué)信息分析領(lǐng)域時(shí),對(duì)于單目視覺(jué)無(wú)疑有兩個(gè)最重要的處理方式,第一是幀內(nèi)的,第二則是幀與幀之間的。在計(jì)算機(jī)執(zhí)行具體任務(wù)的時(shí)候,兩種方法通常是混合使用的。
在NAO執(zhí)行高爾夫任務(wù)時(shí),主要基于單目比例縮放的幾何相似算法進(jìn)行定位。即當(dāng)目標(biāo)坐標(biāo)都在一個(gè)面上的時(shí)候,目標(biāo)與這個(gè)面平行,并且與攝像頭系統(tǒng)的光軸相垂直?;诨A(chǔ)光學(xué)理論,目標(biāo)此時(shí)與圖像信息中的圖像具有相似的屬性,根據(jù)計(jì)算得到的倍數(shù),即可得到目標(biāo)的實(shí)際坐標(biāo)位置。在實(shí)際的高爾夫球擊打任務(wù)中,因?yàn)橥队霸趫D片上顯示出來(lái)是圓形,即當(dāng)NAO在尋球任務(wù)階段中只要發(fā)現(xiàn)了高爾夫球,不管球在哪個(gè)相對(duì)位置上,都可以沿著球圓心向著視線中線作一個(gè)垂直面,高爾夫球被偵測(cè)到的輪廓可以理解為這個(gè)垂直面在現(xiàn)實(shí)中與高爾夫球的相切面。以此思路繼續(xù),我們可以算出偵測(cè)點(diǎn)與球的距離,進(jìn)而求得NAO需要前進(jìn)的方向與水平距離,相關(guān)信息可以用于后續(xù)運(yùn)動(dòng)控制的決策。
在實(shí)際任務(wù)執(zhí)行過(guò)程中,發(fā)現(xiàn)視覺(jué)處理的效果上依然存在三方面的明顯不足:一是在光線變化下顏色識(shí)別不準(zhǔn)確,在應(yīng)用中體現(xiàn)的即是識(shí)別不到紅色高爾夫球或是被別的紅色物體如紅色地標(biāo)桿干擾;二是靜態(tài)視覺(jué)識(shí)別與動(dòng)態(tài)活動(dòng)控制的矛盾,即當(dāng)NAO靜態(tài)識(shí)別出高爾夫球的相對(duì)位置并且規(guī)劃出路徑之后,有時(shí)會(huì)因?yàn)闄C(jī)器人電機(jī)過(guò)熱,行走姿態(tài)出現(xiàn)偏差引起單步步幅過(guò)大,停止位置太近導(dǎo)致下一次尋球工作無(wú)法進(jìn)行,球完全無(wú)法出現(xiàn)在NAO視野范圍內(nèi);還有的時(shí)候會(huì)因?yàn)镹AO行進(jìn)過(guò)程不夠筆直導(dǎo)致停止位置與預(yù)期到達(dá)位置偏差太大,球無(wú)法進(jìn)入預(yù)設(shè)好的視野范圍,最終無(wú)法進(jìn)入擊球環(huán)節(jié)。三是當(dāng)坐標(biāo)計(jì)算偏角太大時(shí),機(jī)器人的位置計(jì)算會(huì)出現(xiàn)較大誤差。這些誤差主要由于雙足機(jī)器人的先天缺陷導(dǎo)致,即預(yù)設(shè)的長(zhǎng)距離運(yùn)動(dòng)誤差較大。克服這個(gè)問(wèn)題主流的方法是將動(dòng)態(tài)實(shí)時(shí)視覺(jué)反饋機(jī)制與步幅控制結(jié)合來(lái)進(jìn)一步優(yōu)化,繞過(guò)對(duì)機(jī)器人進(jìn)行長(zhǎng)距離的運(yùn)動(dòng)規(guī)劃,實(shí)現(xiàn)精度提高。
綜上所述,本文在機(jī)器人NAO視覺(jué)系統(tǒng)的基礎(chǔ)上,基于NAO在執(zhí)行打高爾夫球任務(wù)時(shí)的技術(shù)特點(diǎn),從NAO的基礎(chǔ)硬件分析,到其涉及的相關(guān)計(jì)算機(jī)視覺(jué)技術(shù),最后介紹了目標(biāo)定位實(shí)現(xiàn)的思路與不足。