視覺(jué)感知啟發(fā)的面向出艙活動(dòng)的物體識(shí)別技術(shù)研究

2018-03-22 01:11張菊莉賀占莊周革強(qiáng)何雙亮

載人航天 2018年1期

張菊莉，馬鐘，賀占莊，周革強(qiáng)，何雙亮

（1.西安微電子技術(shù)研究所，西安710065；2.中國(guó)航天員科研訓(xùn)練中心，北京100094）

1 引言

出艙活動(dòng)（Extravehicular Activity，EVA）是一種由航天員著艙外服在遠(yuǎn)離地球大氣層的艙外完成的活動(dòng)［1］。它是載人航天三大關(guān)鍵技術(shù)之一，是載人航天工程在軌安裝設(shè)備、檢查和維修航天器的重要手段。

出艙活動(dòng)通常意味著更具挑戰(zhàn)、困難和危險(xiǎn)的任務(wù)。因此提高出艙活動(dòng)任務(wù)的工效，對(duì)出艙活動(dòng)的成功執(zhí)行，以及未來(lái)執(zhí)行更復(fù)雜的出艙任務(wù)有著重要的意義。而影響出艙活動(dòng)工效的一個(gè)重要因素是航天員出艙后能否快速地識(shí)別與定位要操作的物體。為提高出艙活動(dòng)的工效，將能夠自動(dòng)識(shí)別艙外物體的智能化視覺(jué)感知系統(tǒng)集成到航天員的艙外航天服中，是未來(lái)智能化、信息化載人航天技術(shù)的一個(gè)趨勢(shì)。而智能化、信息化的視覺(jué)感知系統(tǒng)如何進(jìn)行艙外物體的識(shí)別也是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

傳統(tǒng)的物體識(shí)別方法首先對(duì)圖像進(jìn)行疑似物體區(qū)域的一般對(duì)象估計(jì)，然后根據(jù)估計(jì)結(jié)果進(jìn)行相應(yīng)的類(lèi)別分類(lèi)與識(shí)別。通常一般對(duì)象估計(jì)多采用滑動(dòng)窗口等方法來(lái)提取相應(yīng)的魯棒性特征，該方法過(guò)程繁瑣，計(jì)算量大。程明明等［2］提出對(duì)象估計(jì)領(lǐng)域的一種高效的檢測(cè)方法，并被應(yīng)用在相關(guān)領(lǐng)域中［3?4］，且取得了較好的分類(lèi)結(jié)果。趙旦峰等［3］采用高斯差分方法對(duì)圖像邊緣特征進(jìn)行增強(qiáng)，并級(jí)聯(lián)Boost方法進(jìn)行得分策略?xún)?yōu)化，取得了較好的分類(lèi)結(jié)果，但其在一定程度上也增加了原方法的時(shí)間復(fù)雜度。當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)方法 R?CNN［5］、FastR?CNN［6］和 Faster R?CNN［7］使用選擇性搜索而非滑動(dòng)窗口來(lái)提取圖像特征。但即使在快速模式下，選擇性搜索大約需要2 s來(lái)提取特征區(qū)域，時(shí)間上難以容忍。針對(duì)宇航員艙外活動(dòng)的時(shí)間性要求，在對(duì)要識(shí)別區(qū)域的圖像進(jìn)行特征提取時(shí)，須選擇耗時(shí)小、效率高的方法。

眾所周知，人類(lèi)視覺(jué)感知系統(tǒng)可以從復(fù)雜的背景中快速而準(zhǔn)確地識(shí)別出物體種類(lèi)及位置。在出艙活動(dòng)時(shí)，復(fù)雜的太空環(huán)境，如強(qiáng)光照等都會(huì)增加物體識(shí)別的難度。因此，為排除復(fù)雜環(huán)境中的干擾，快速識(shí)別并定位物體，本文提出一種基于航天員視覺(jué)感知的物體識(shí)別方法。方法為加快識(shí)別速度，加入了航天員的視覺(jué)觀察，即直接以宇航員的視覺(jué)注視點(diǎn)一定范圍內(nèi)的圖像區(qū)域作為感興趣區(qū)域，采用耗時(shí)小、效率高的二值化賦范梯度方法對(duì)感興趣區(qū)域進(jìn)行特征提取，然后由具有強(qiáng)大分類(lèi)能力的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合提取到的特征進(jìn)行識(shí)別與精定位。

2 基于視覺(jué)感知啟發(fā)的物體識(shí)別總體方案設(shè)計(jì)

為提高航天員出艙活動(dòng)的工效及智能化、信息化水平，在航天員的頭盔中集成眼動(dòng)追蹤設(shè)備、圖像采集設(shè)備及綜合信息推送顯示設(shè)備等，算法的處理單元作為綜合信息處理單元的一部分集成在航天服的中央處理單元中。頭盔原型設(shè)計(jì)如圖1所示。

圖1 航天員頭盔原型Fig．1 Prototype of astronaut helmet

應(yīng)用時(shí)，首先由頭盔中的眼動(dòng)追蹤設(shè)備對(duì)航天員眼部活動(dòng)進(jìn)行掃描，獲取目光注視點(diǎn)，由綜合信息處理單元開(kāi)啟圖像采集設(shè)備對(duì)注視時(shí)間超過(guò)100 ms的一定范圍的區(qū)域進(jìn)行圖像采集，然后調(diào)用識(shí)別算法對(duì)采集到的圖像進(jìn)行識(shí)別。

識(shí)別算法首先對(duì)采集到的圖像進(jìn)行二值化賦范梯度特征提取，由于圖像采集的角度及距離等因素，通常對(duì)于一個(gè)較大的物體，采集的圖像往往不能完全覆蓋物體的全部或者絕大部分，從而對(duì)物體識(shí)別的準(zhǔn)確率存在一定的影響。因此在這里考慮選取比提取的特征區(qū)域大的圖像區(qū)域輸入到深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類(lèi)識(shí)別與精定位，最后將識(shí)別結(jié)果推送到航天員頭盔中的顯示設(shè)備上。總體的識(shí)別方案流程如圖2所示。

圖2 基于視覺(jué)感知的物體識(shí)別算法流程Fig．2 Flowchart of object detection inspired by visu?al perception

2.1 基于二值化賦范梯度的物體特征提取

人類(lèi)視覺(jué)感知系統(tǒng)只需對(duì)物體的整體輪廓進(jìn)行判斷，就可以分辨物體的類(lèi)別。程明明等［2］分析發(fā)現(xiàn)，在一幅圖像中，一般物體都會(huì)有定義完好的封閉輪廓，從而與背景區(qū)域相區(qū)別。受此啟發(fā)，將圖像縮小到一定大小，并計(jì)算圖像的二值化賦范梯度，對(duì)梯度進(jìn)行分析發(fā)現(xiàn)，圖像中物體的賦范梯度幅度變化很小，而背景的變化幅度比較大，從而通過(guò)對(duì)抽象圖的分析就可以判斷出哪是物體。在設(shè)計(jì)算法時(shí)，將采集到的圖像窗口重置為固定大小，并計(jì)算二值化賦范梯度，并將梯度幅值轉(zhuǎn)化為64維的特征向量，利用64位數(shù)據(jù)類(lèi)型存儲(chǔ)，在一定程度上壓縮了數(shù)據(jù)量，同時(shí)達(dá)到快速處理的目的。然后通過(guò)兩次支持向量機(jī)（Support Vector Machine，SVM）訓(xùn)練賦范梯度特征，得到目標(biāo)和背景的區(qū)分模型。第一次SVM訓(xùn)練獲得整體的物體模型后，用匹配算法及非極大值抑制算法預(yù)測(cè)所有可能包含真實(shí)物體的候選窗口，再針對(duì)這些候選窗口進(jìn)行第二次SVM訓(xùn)練，獲得候選特征窗口的得分，選擇得分最高的窗口作為物體特征窗口。每個(gè)窗口可通過(guò)一個(gè)訓(xùn)練好的線性模型w∈RR64獲得得分，如式（1）、（2）所示：

其中，sl代表窗口得分，gl代表賦范梯度特征，公式（1）表示窗口的得分可以通過(guò)訓(xùn)練好的線性模型w∈R R64與賦范梯度特征gl的向量?jī)?nèi)積獲得，得分越高，越接近目標(biāo)。公式（2）中l(wèi)表示窗口坐標(biāo)及其尺度，i表示尺度大小，（x，y）表示窗口位置。再運(yùn)用非極大抑制方法，為每個(gè)尺度提供一些建議特征，過(guò)濾掉包含物體可能性很小的特征窗口，選取得分最高的窗口作為物體特征窗口。算法流程圖如圖3所示。

2.2 基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別與精定位

近年來(lái)，深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力［5?8］使得物體識(shí)別似乎變得更簡(jiǎn)單了。但神經(jīng)網(wǎng)絡(luò)計(jì)算量大、參數(shù)多等問(wèn)題也導(dǎo)致要實(shí)現(xiàn)實(shí)時(shí)的物體識(shí)別并不容易。Redmon等［9］作者將物體識(shí)別問(wèn)題看作回歸問(wèn)題，采用卷積神經(jīng)網(wǎng)絡(luò)直接進(jìn)行特征提取、識(shí)別與定位，可實(shí)現(xiàn)快速的物體識(shí)別。

圖3 基于二值化賦范梯度的物體特征提取流程Fig．3 Flowchart of object feature extractionbased on binarized normed gradient

受此啟示，基于視覺(jué)感知的物體識(shí)別方法借鑒了其將識(shí)別問(wèn)題當(dāng)作回歸問(wèn)題的思想，直接將二值化賦范梯度提取的特征圖輸入到深度神經(jīng)網(wǎng)絡(luò)中，由其計(jì)算相應(yīng)類(lèi)別概率及位置的置信度。

識(shí)別時(shí)，卷積神經(jīng)網(wǎng)絡(luò)將輸入圖像縮放為418×418，并分割成3×3的網(wǎng)格，每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)2個(gè)矩形框，每一個(gè)預(yù)測(cè)的矩形框包括5個(gè)預(yù)測(cè)值：x、y、w、h、confidence。其中（x，y）表示框的中心坐標(biāo)，w和h分別代表矩形框的寬和高。卷積神經(jīng)網(wǎng)絡(luò)提取到的特征區(qū)域與二值化賦范梯度提取的特征區(qū)域進(jìn)行重疊率的比較，選擇重疊率最大的區(qū)域作為識(shí)別出的物體的最終位置。

同時(shí)，每個(gè)網(wǎng)格還預(yù)測(cè)物體相對(duì)于所有類(lèi)別的條件概率，即該網(wǎng)格包含某物體的可能性。算法選擇概率值最大的類(lèi)別作為物體的類(lèi)別。

圖4 基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別與精定位Fig．4 Object detection and accurate location by deep CNN

算法的識(shí)別與精定位過(guò)程如圖4所示。圖中第四幅圖中綠色有標(biāo)簽的矩形框?yàn)槲矬w的最終位置，標(biāo)簽為類(lèi)別名。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)采用的損失函數(shù)如式（3）：

式中：p1、p2是坐標(biāo)預(yù)測(cè)，p3預(yù)測(cè)含有物體的矩形框的置信度，p4預(yù)測(cè)不含物體的矩形框的置信度，p5是類(lèi)別預(yù)測(cè)，如式（4）～（8）：

上述公式中，S為網(wǎng)格數(shù)，B為每個(gè)網(wǎng)格要預(yù)測(cè)的矩形框數(shù)量，C為要預(yù)測(cè)的種類(lèi)數(shù)，λcoord為坐標(biāo)預(yù)測(cè)時(shí)的損失權(quán)值，λnoobj為沒(méi)有物體時(shí)的損失權(quán)值，為第i個(gè)網(wǎng)絡(luò)中的第j個(gè)矩形框不含物體的概率，用于判斷第i個(gè)網(wǎng)絡(luò)中的第j個(gè)矩形框是否負(fù)責(zé)預(yù)測(cè)這個(gè)物體，classes為全部可預(yù)測(cè)物體。

在損失函數(shù)中，當(dāng)網(wǎng)格中有物體時(shí)，但分類(lèi)預(yù)測(cè)錯(cuò)誤時(shí)，則加大分類(lèi)錯(cuò)誤的損失。而當(dāng)網(wǎng)格預(yù)測(cè)的矩形框與實(shí)際標(biāo)注的矩形框重疊率越小，損失越大。在訓(xùn)練過(guò)程中，通過(guò)損失函數(shù)不斷調(diào)整權(quán)重參數(shù)，最終學(xué)習(xí)到最適合本數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)模型，以供在物體識(shí)別時(shí)使用。

3 實(shí)驗(yàn)驗(yàn)證

3.1 數(shù)據(jù)集建立

提出的識(shí)別算法中的二值化賦范梯度特征提取及深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別都需要預(yù)先在數(shù)據(jù)集上進(jìn)行訓(xùn)練得到相應(yīng)的模型，以在航天員出艙時(shí)實(shí)時(shí)地進(jìn)行物體識(shí)別。為模擬航天員在艙外看到的部分物體，建立了包含7個(gè)類(lèi)別的數(shù)據(jù)集，包括天宮一號(hào)、神舟八號(hào)載人飛船、國(guó)際空間站、Apol?lo三維模型圖片等，原始圖像共517幅，通過(guò)標(biāo)注軟件進(jìn)行人工標(biāo)注，標(biāo)注信息包括物體類(lèi)別和物體位置等，最后生成“.xml”格式的標(biāo)注文件。由于有標(biāo)注的數(shù)據(jù)較少，為了增強(qiáng)現(xiàn)有方法對(duì)目標(biāo)旋轉(zhuǎn)的魯棒性，對(duì)數(shù)據(jù)進(jìn)行了增殖。具體方法為：首先對(duì)原圖水平鏡像，得到一幅新圖，然后對(duì)原圖及新圖分別進(jìn)行3次旋轉(zhuǎn)，每次旋轉(zhuǎn)90°，共計(jì)得到7幅新圖。整個(gè)處理方法的流程如圖5所示。

圖5 數(shù)據(jù)擴(kuò)增方法Fig．5 Data augment

經(jīng)數(shù)據(jù)擴(kuò)增之后，原始數(shù)據(jù)集由517幅圖像增加到4136幅，其中60%作為訓(xùn)練集，其余作為測(cè)試驗(yàn)證數(shù)據(jù)集。

3.2 模型訓(xùn)練

3.2.1 基于二值化賦范梯度算法的模型訓(xùn)練

訓(xùn)練時(shí)，利用一款針對(duì)SVM的開(kāi)源的集成開(kāi)發(fā)庫(kù)LIBLINEAR庫(kù)［10］來(lái)增強(qiáng)算法的處理速度。算法首先加載圖像標(biāo)注信息，然后再進(jìn)行兩個(gè)階段的SVM的訓(xùn)練，訓(xùn)練過(guò)程如下：

首先，對(duì)每張訓(xùn)練圖像進(jìn)行不同的尺度變換，在每個(gè)尺度下計(jì)算梯度，根據(jù)預(yù)測(cè)得分機(jī)制，計(jì)算每個(gè)尺度下的二值化賦范梯度特征及得分，排序后利用非極大抑制方法消除掉最高分附近的得分值；然后，在原始圖像上找到對(duì)應(yīng)得分點(diǎn)對(duì)應(yīng)的矩形框并保存；最后，將所有預(yù)測(cè)的矩形框與原始圖像中所有有效正樣本做重疊率比對(duì)，一旦有一個(gè)正樣本框與該預(yù)測(cè)矩形框重疊率大于50%，則將該可能矩形框作為正樣本，否則為負(fù)樣本。在第二級(jí)訓(xùn)練時(shí)，針對(duì)每個(gè)尺度訓(xùn)練一次，訓(xùn)練結(jié)束后，生成新的權(quán)值模型供測(cè)試使用。

3.2.2 基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練

基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練采用Im?ageNet模型作為預(yù)訓(xùn)練模型以加快模型的收斂速度。訓(xùn)練樣本同為上述樣本。訓(xùn)練采用基于反向傳播的隨機(jī)梯度下降算法進(jìn)行學(xué)習(xí)，訓(xùn)練迭代次數(shù)預(yù)設(shè)為100 000次，訓(xùn)練過(guò)程中可以隨時(shí)停止，每1000次保存一次模型參數(shù)，學(xué)習(xí)率為0.000 05，動(dòng)量為0.9。迭代次數(shù)大概為20 000次時(shí)，模型收斂，錯(cuò)誤率在0.09。

3.3 原理驗(yàn)證平臺(tái)搭建

為驗(yàn)證算法的識(shí)別效率，搭建硬件平臺(tái)及實(shí)現(xiàn)測(cè)試軟件對(duì)識(shí)別算法進(jìn)行模擬驗(yàn)證。

為模擬捕獲航天員眼動(dòng)信息的場(chǎng)景，將TO?BII眼動(dòng)儀連接在計(jì)算機(jī)USB端口采集人眼信息。首先由人眼注視計(jì)算機(jī)屏幕顯示的圖片，將目光停留時(shí)間大于100 ms時(shí)的區(qū)域視為感興趣區(qū)域，然后測(cè)試軟件以人眼注視點(diǎn)為中心選取一定范圍的圖像區(qū)域，由識(shí)別算法進(jìn)行處理，最后輸出識(shí)別結(jié)果。驗(yàn)證環(huán)境搭建如圖6所示。

圖6 驗(yàn)證平臺(tái)Fig．6 Verification platform

圖6 中，由眼動(dòng)儀獲取人眼信息，藍(lán)色圓型區(qū)域代表人眼的注視點(diǎn)，紅色和綠色有標(biāo)簽的矩形框分別表示注視點(diǎn)移動(dòng)到不同對(duì)象上時(shí)的物體識(shí)別結(jié)果，不同顏色的矩形框代表不同的物體類(lèi)別。

3.4 軟件實(shí)現(xiàn)與識(shí)別結(jié)果

算法為模擬航天員出艙活動(dòng)中視覺(jué)運(yùn)動(dòng)，采用眼動(dòng)儀追蹤人眼的眼動(dòng)軌跡。眼動(dòng)儀放置在計(jì)算機(jī)屏幕下方能夠采集到眼動(dòng)數(shù)據(jù)的位置，并進(jìn)行固定。實(shí)驗(yàn)時(shí)人眼注視計(jì)算機(jī)屏幕，眼動(dòng)儀進(jìn)行眼動(dòng)掃描，軟件選取目光停留時(shí)間100 ms以上的一定范圍的圖像輸入到識(shí)別算法中進(jìn)行識(shí)別。識(shí)別算法首先將采樣的人眼感興趣區(qū)域圖片進(jìn)行二值化賦范梯度的特征提取，以判斷人眼注視點(diǎn)為背景還是物體。有物體時(shí)，提取物體的矩形框，輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類(lèi)識(shí)別與精定位。驗(yàn)證軟件實(shí)現(xiàn)的流程如圖7所示。

在對(duì)眼睛注視點(diǎn)進(jìn)行選取及物體特征區(qū)域的預(yù)測(cè)之后，如果有物體則確定物體的矩形框，選取比物體框擴(kuò)大α（擴(kuò)大因子，0＜α＜1）的圖片作為深度卷積神經(jīng)網(wǎng)絡(luò)物體識(shí)別算法的輸入。算法將整幅圖像直接輸入到卷積神經(jīng)網(wǎng)絡(luò)中，進(jìn)行識(shí)別與精定位。圖8為基于視覺(jué)感知的物體識(shí)別算法輸出結(jié)果。

圖7 軟件流程Fig．7 Flowchart of software

圖8 物體識(shí)別輸出結(jié)果Fig．8 Output of the object detection

圖8 中的每一幅圖中不同顏色的矩形框代表不同的物體種類(lèi)，每一個(gè)矩形框左上角的字符代表物體所屬的類(lèi)別名稱(chēng)。

軟件在實(shí)現(xiàn)時(shí)，只顯示人眼的感興趣區(qū)域圖片，然后輸出最終的識(shí)別結(jié)果，如果未識(shí)別到感興趣區(qū)域的物體時(shí)，只顯示感興趣區(qū)域的圖片。圖8為識(shí)別到物體及精定位的最終結(jié)果。

3.5 實(shí)驗(yàn)結(jié)果評(píng)估與分析

3.5.1 評(píng)估準(zhǔn)則

評(píng)估識(shí)別算法的類(lèi)別準(zhǔn)確性有四個(gè)標(biāo)準(zhǔn)［11］：召回率（Recall）、準(zhǔn)確率（Precision）、平均準(zhǔn)確率（Average Precision，AP）和均值準(zhǔn)確率（Mean Av?erage Precision，mAP）。

而評(píng)估位置的準(zhǔn)確性，則通過(guò)矩形框A與標(biāo)注矩形框B之間的IoU（Intersection of Union）重疊率來(lái)計(jì)算。算法的實(shí)時(shí)性，則通過(guò)每秒處理幀數(shù)（FPS）來(lái)評(píng)估。

在面向出艙活動(dòng)的物體識(shí)別算法中，主要評(píng)估了算法的IOU、召回率和平均準(zhǔn)確率及時(shí)間。以下將自建數(shù)據(jù)集簡(jiǎn)稱(chēng)為EVA數(shù)據(jù)集。

3.5.2 實(shí)驗(yàn)結(jié)果與分析

表1是算法驗(yàn)證得到的IoU和召回率，表2為驗(yàn)證得到的mAP，表3是本文算法與目前主要卷積神經(jīng)網(wǎng)絡(luò)方法的mAP與處理時(shí)間的對(duì)比，驗(yàn)證樣本集有1655幅圖片。

表1 IoU和召回率Table 1 IoU and recall rate

表2 各類(lèi)別mAP和平均mAPTable 2 mAP of each class and average mAP

表3 算法與目前主要算法的比較Table 3 Comparison of the algorithm with other main algorithms

從表1和表2中可看出，算法的平均IoU值為87.1%，而召回率則為91.2%，mAP為88.2%。算法在每幅圖像平均耗時(shí)約0.047 s，可以達(dá)到實(shí)時(shí)識(shí)別的結(jié)果。表3中，算法的mAP在VOC2007及在EVA數(shù)據(jù)集上的測(cè)試結(jié)果表明，該算法比當(dāng)前主要的基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別算法的mAP還要高一些，分析主要原因在于：一方面算法中加入了人眼對(duì)感興趣區(qū)域的選?。涣硪环矫?，卷積神經(jīng)網(wǎng)絡(luò)直接對(duì)二值化賦范梯度算法提取的特征區(qū)域進(jìn)行識(shí)別與精定位，因此識(shí)別時(shí)，輸入的圖像中已經(jīng)確定有物體，且特征區(qū)域已經(jīng)被提取，卷積神經(jīng)網(wǎng)絡(luò)只需要在此基礎(chǔ)上進(jìn)行分類(lèi)和定位即可，置信度提高，從而最終的識(shí)別準(zhǔn)確率也有明顯的提高。

在對(duì)采集到的圖像進(jìn)行了二值化賦范梯度的特征提取之后，將特征區(qū)域回歸到原圖像中，并在原圖中選取比特征區(qū)域面積大α的區(qū)域，α分別選取5%、10%、15%、20%、25%、30%，觀察其對(duì)最終檢測(cè)準(zhǔn)確率的影響。影響曲線如圖9所示。

圖9 α對(duì)mAP的影響Fig．9 The influence of α on mAP

從圖中可以看出，擴(kuò)大因子α在一定范圍內(nèi)可以提高mAP。當(dāng)α取5%時(shí)，由于其擴(kuò)大非常小，對(duì)準(zhǔn)確率的影響也很有限，而當(dāng)擴(kuò)大至10%時(shí)，其有比較明顯的準(zhǔn)確率提升，但是隨著面積的擴(kuò)大，準(zhǔn)確率并不再明顯上升。分析原因在于提取特征時(shí)，已經(jīng)基本獲取了所采集圖像中物體區(qū)域，擴(kuò)大到一定程度時(shí)，物體的信息并不會(huì)被增強(qiáng)，因而也并不會(huì)因?yàn)閿U(kuò)大而提升準(zhǔn)確率，反而會(huì)因?yàn)閿U(kuò)大太多，提供了太多干擾信息，造成準(zhǔn)確率的下降。

表3展示了本文算法在EVA數(shù)據(jù)上的靜態(tài)圖片平均識(shí)別時(shí)間為0.047 s。應(yīng)用時(shí)，總耗時(shí)應(yīng)包括：眼動(dòng)信息采集時(shí)間、圖像采集時(shí)間、在線識(shí)別耗時(shí)等。在本模擬實(shí)驗(yàn)中，眼動(dòng)信息采集時(shí)間包括：眼動(dòng)儀獲取眼動(dòng)軌跡信息、選擇注視點(diǎn)信息。根據(jù)眼動(dòng)儀手冊(cè)，眼動(dòng)儀獲取眼動(dòng)信息的時(shí)間大約40 ms，注視時(shí)間為100 ms，選擇注視點(diǎn)時(shí)間約為50 ms，因此眼動(dòng)信息采集信息大約為190 ms。根據(jù)相機(jī)的性能，采集時(shí)間不等，普通相機(jī)大約一幀圖像30 ms，加上在線識(shí)別耗時(shí)大約為47 ms以上，因此總體理論時(shí)間大約為267 ms。而在模擬實(shí)驗(yàn)中，因采用靜態(tài)圖片，即獲取眼動(dòng)信息后，直接采集注視點(diǎn)圖片，測(cè)試的總體耗時(shí)為300 ms。在實(shí)用性和準(zhǔn)確率方面，基本可以滿(mǎn)足工程應(yīng)用需求。

4 結(jié)論

本文針對(duì)航天員出艙活動(dòng)所面對(duì)的特殊環(huán)境，提出了一種基于視覺(jué)感知啟發(fā)的物體識(shí)別方法。方法以人眼注視點(diǎn)區(qū)域作為感興趣區(qū)域輸入到識(shí)別算法中進(jìn)行處理，將人的視覺(jué)選擇性與主動(dòng)性特性引入算法，提高了算法的識(shí)別效率。實(shí)驗(yàn)結(jié)果證明該方法可以實(shí)時(shí)而準(zhǔn)確地進(jìn)行艙外物體的識(shí)別。但是方法仍然存在一些局限性，需要在后續(xù)工作中改進(jìn)。

在驗(yàn)證方法的準(zhǔn)確性時(shí)，僅使用眼動(dòng)儀和通用計(jì)算機(jī)來(lái)測(cè)試原理，測(cè)試圖像只是一些關(guān)于航天器和航天員的靜態(tài)自然圖片，實(shí)驗(yàn)條件與真實(shí)航天服及應(yīng)用環(huán)境差異較大。同時(shí)，由于該方法采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行最終的識(shí)別與定位，而卷積神經(jīng)網(wǎng)絡(luò)需要大量存儲(chǔ)空間且計(jì)算復(fù)雜度很高，因此在模擬驗(yàn)證時(shí)用到了GPU來(lái)加速神經(jīng)網(wǎng)絡(luò)的處理。在實(shí)際的航天服中，高存儲(chǔ)和復(fù)雜計(jì)算都較難實(shí)現(xiàn)。

針對(duì)神經(jīng)網(wǎng)絡(luò)模型大、參數(shù)多，可通過(guò)二值化方法實(shí)現(xiàn)CNN模型壓縮，降低存儲(chǔ)要求和計(jì)算復(fù)雜度，最終將其整合到航天員的艙外服中。同時(shí)，需要設(shè)計(jì)人機(jī)交互軟件來(lái)顯示識(shí)別信息及其他信息，并推送到綜合信息顯示系統(tǒng)中進(jìn)行顯示。更重要的是，針對(duì)真實(shí)太空環(huán)境中的強(qiáng)光照、顏色及紋理的巨大變化，為進(jìn)一步提高算法的魯棒性，考慮先對(duì)采集圖像進(jìn)行物體邊界增強(qiáng)，再采用二值化賦范梯度提取特征，以進(jìn)一步適應(yīng)EVA的真實(shí)環(huán)境。

（

）

［1］ Freni P，Botta E M，Randazzo L，et al.Innovative Hand Ex?oskeleton Design for Extravehicular Activities in Space［M］.Berlin： Springer International Publishing， 2014： 3?4.

［2］ Cheng M M，Zhang Z，Lin W Y，et al.BING：Binarized normed gradients for objectness estimation at 300fps［C］／／IEEE Conference on Computer Vision and Pattern Recogni?tion， Columbus， 2014：3286?3293.

［3］ Zhao D，Hu Y，Gan Z，et al.A novel improved binarized normed gradients based objectness measure through the multi?feature learning［C］／／International Conference on Image and Graphics， Tianjin， 2015：307?320.

［ 4 ］ Li X， Hao J， Qin H， et al.Real?time fish localization with binarized normed gradients［C］／／Oceans， IEEE， Shanghai，2016：1?5.

［5 ］ Girshick R，Donahue J，Darrell T，et al.Rich feature hierar?chies for accurate object detection and semantic segmentation［C］／／IEEE Conference on Computer Vision and Pattern Rec?ognition， Columbus，2014： 580?587.

［ 6 ］ Girshick， Ross B.Fast R?CNN［C］／／IEEE international con?ference on computer vision （ICCV）， Santiago， 2015：1440?1448.

［7］ Ren S， Girshick R， Girshick R， et al.Faster R?CNN： To?wards real?time object detection with region proposal networks［J］.IEEE Transactions on Pattern Analysis＆ Machine Intel?ligence， 2017， 39（6）： 1137?1149.

［8］ Matthew D，Zeiler，Rob Fergus.Visualizing and understand?ing convolutional networks［C］／／European Conference on Computer Vision， Zurich， 2014： 818?833.

［9 ］ Redmon J， Divvala S， Girshick R， et al.You only look once： Unified， real?time object detection［C］／／Proceedings of the IEEE Conference on Computer Vision and Pattern Rec?ognition， 2016： 779?788.

［10］ Fan R E， Chang K W， Hsieh C J， et al.LIBLINEAR： a li?brary for large linear classification［J］.Journal of Machine Learning Research， 2008， 9（8）： 1871?1874.

［11］ Mao H， Yao S， Tang T， et al.Towards real?time object de?tection on embedded systems［J］.IEEE Transactions on E?merging Topics in Computing， 2016， pp（99）： 1.

［12］ Yan J， Lei Z， Wen L， et al.The fastest deformable part mod?el for object detection［C］／／Computer Vision and Pattern Recognition， Columbus， 2014：2497?2504.

［13］ Liu W，Anguelov D，Erhan D，et al.Ssd：Single shot multi?box detector［C］／／European Conference on Computer Vision，Amsterdam， 2016： 21?37.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡