劉全偉 戴魏邦 梁正宇 王默涵 滿(mǎn)建濤
摘 ? 要:文章提出一種新型的盲人助行裝置,為盲人朋友的便利出行提供一種新方案。主要是通過(guò)深度學(xué)習(xí)與傳感器相結(jié)合的嵌入式開(kāi)發(fā),增加盲人朋友的道路信息獲取量,突破以往單一輔助設(shè)備的不足,具有一定的實(shí)用意義。
關(guān)鍵詞:深度學(xué)習(xí);盲人助行;嵌入式開(kāi)發(fā);傳感器應(yīng)用
據(jù)世界衛(wèi)生組織在2019年提供的數(shù)據(jù)顯示,中國(guó)大陸盲人約有1 700萬(wàn)。盲人群體在我國(guó)乃至世界都是不可忽視的弱勢(shì)群體,其生活質(zhì)量也影響著社會(huì)的和諧發(fā)展。
如今,盲人出行依靠的工具主要有:無(wú)障礙設(shè)施、導(dǎo)盲犬和盲人專(zhuān)用拐杖等,但是對(duì)盲人正常出行的幫助有限,體驗(yàn)性、實(shí)用性、交互性等無(wú)法充分滿(mǎn)足盲人的需求,目前盲人的個(gè)人出行依然很困難,影響其生活質(zhì)量[1]。
21世紀(jì)以來(lái),尤其是近年來(lái),深度學(xué)習(xí)和移動(dòng)便攜式終端設(shè)備的不斷發(fā)展使得可穿戴設(shè)備的研發(fā)備受矚目,能夠幫助盲人群體,切身享受到科技帶來(lái)的福音。
1 ? ?實(shí)現(xiàn)方法
該設(shè)計(jì)是基于深度學(xué)習(xí)的嵌入式開(kāi)發(fā),使用者通過(guò)YOLO3深度學(xué)習(xí)模型、Python-OpenCV、樹(shù)莓派以及傳感器的應(yīng)用,可以突破單一的信息獲取,實(shí)時(shí)獲取更多的外界路況信息,從而使使用者的出行更加容易。系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖1所示。
2 ? ?主要功能
(1)通過(guò)圖像識(shí)別技術(shù)識(shí)別到交通中的物體并給予使用者語(yǔ)音提示,例如車(chē)輛、紅綠燈、斑馬線(xiàn)等[2]。
(2)通過(guò)超聲波測(cè)距傳感器獲取障礙物的距離,并給予使用者提示。
(3)通過(guò)GPS給予使用者位置信息等。
3 ? ?深度學(xué)習(xí)模型
3.1 ?模型闡述
本設(shè)計(jì)主要采用YOLO3模型進(jìn)行目標(biāo)識(shí)別工作,如紅綠燈識(shí)別、車(chē)輛識(shí)別、行人識(shí)別等。近年來(lái),目標(biāo)檢測(cè)技術(shù)層出不窮,從基本的計(jì)算方式來(lái)看,可以分為基于候選區(qū)域和基于回歸兩類(lèi)。
所謂基于候選區(qū)域是指對(duì)圖像的基本特征做分析,選取一定的區(qū)域?qū)D像進(jìn)行特征提取,該類(lèi)目標(biāo)識(shí)別的特點(diǎn)是準(zhǔn)確度高、流程簡(jiǎn)單,但是因?yàn)橐鹨惶崛∶總€(gè)候選區(qū)域,所以速度較慢。Fast R-CNN是基于候選區(qū)域的目標(biāo)識(shí)別模型。而YOLO模型屬于基于回歸的目標(biāo)識(shí)別,相較于基于候選區(qū)域的目標(biāo)識(shí)別,YOLO模型的識(shí)別速度大大提高,可以滿(mǎn)足實(shí)時(shí)識(shí)別的需求,但是會(huì)存在識(shí)別準(zhǔn)確度較低的問(wèn)題。
考慮到Y(jié)OLO的輕量化,本文采用基于回歸的YOLO模型。YOLO模型的特征提取流程:首先,將輸入的圖像劃分成S×S的網(wǎng)格;其次,特征提取器對(duì)每個(gè)網(wǎng)格進(jìn)行卷積操作,得到每個(gè)特征矩陣;再次,輸出到全連接層,繼而在全連接層進(jìn)行預(yù)測(cè),輸出每個(gè)邊框在指定類(lèi)中匹配的概率以及邊框的坐標(biāo)信息、置信度;最后,通過(guò)設(shè)定的區(qū)間值來(lái)判定目標(biāo)窗口的最大可能,同時(shí)使用非極大值抑制除去其他不需要的冗余窗口。
3.2 ?模型訓(xùn)練過(guò)程
(1)下載YOLO源碼和預(yù)訓(xùn)練權(quán)重文件。使用YOLO的開(kāi)源模型代碼,其中包含模型文件和訓(xùn)練文件,可以通過(guò)開(kāi)源的訓(xùn)練代碼訓(xùn)練自己的模型,設(shè)置需要的標(biāo)簽,并且準(zhǔn)備好訓(xùn)練數(shù)據(jù)集[3]。
(2)模型訓(xùn)練。需要不斷調(diào)整模型參數(shù)和數(shù)據(jù)集進(jìn)行訓(xùn)練,增加模型的魯棒性。
(3)模型測(cè)試。將權(quán)重文件YOLOV3.CFG和YOLOV3-TINY.CFG轉(zhuǎn)換成.H5格式,方便使用,然后對(duì)訓(xùn)練得到的模型進(jìn)行準(zhǔn)確率和魯棒性的測(cè)試。
3.3 ?實(shí)現(xiàn)的功能
(1)調(diào)用攝像頭,使用不同顏色的框框出人臉、紅綠燈、公共汽車(chē)、轎車(chē)、卡車(chē)、自行車(chē)、摩托車(chē)等馬路上可以看到的物體,在識(shí)別成功后可以顯示識(shí)別出幾個(gè)物體,每個(gè)物體的標(biāo)簽名稱(chēng)和識(shí)別的準(zhǔn)確率,以及物體在攝像頭中的位置。
(2)在識(shí)別成功后可以調(diào)用麥克風(fēng),將識(shí)別的物體名稱(chēng)通過(guò)語(yǔ)音播報(bào)出來(lái)。
4 ? ?硬件實(shí)現(xiàn)
該便攜式盲人助行器的硬件系統(tǒng)主要是基于樹(shù)莓派(微型卡片電腦,其系統(tǒng)基于Linux),各個(gè)功能模塊依賴(lài)于攝像頭、超聲波測(cè)距以及GPS模塊等傳感器,具體功能則由Python程序?qū)崿F(xiàn),總體上具有輕量、便攜、處理能力強(qiáng)等特點(diǎn)。
4.1 ?攝像頭模塊
該攝像頭模塊主要用于采集視覺(jué)信息,并交由樹(shù)莓派處理,在本系統(tǒng)所使用的樹(shù)莓派中內(nèi)建了Opencv環(huán)境,可以通過(guò)特殊算法識(shí)別如紅綠燈、人行道、各種障礙物等特定物體,并給予用戶(hù)反饋。比如:當(dāng)前方有障礙物時(shí),助行器會(huì)提示用戶(hù)注意障礙;當(dāng)前方交通燈為紅燈時(shí),助行器會(huì)提示用戶(hù)停止穿越路口等。
4.2 ?超聲波測(cè)距模塊
該超聲波測(cè)距模塊使用的是市面上常用且技術(shù)成熟的HC-SR04。該模塊有4個(gè)引腳,分別為:VCC電源引腳、GND 接地引腳、觸發(fā)控制信號(hào)的輸入端TRIG和回響信號(hào)輸出端ECHO。該超聲波模塊性能穩(wěn)定,測(cè)量距離精準(zhǔn),可以提供 2~400 cm的非接觸式距離感測(cè)功能。
該模塊的工作原理:樹(shù)莓派向超聲波傳感TRIG端口提供一個(gè)脈沖觸發(fā)信號(hào),模塊內(nèi)部開(kāi)始自動(dòng)發(fā)送超聲波脈沖并檢測(cè)有無(wú)返回信號(hào)。一旦檢測(cè)到返回信號(hào),便通過(guò)ECHO端口輸出回響信號(hào)。樹(shù)莓派通過(guò)發(fā)射信號(hào)與收到回響信號(hào)的時(shí)間間隔計(jì)算出與障礙物之間的距離。超聲波測(cè)距功能中數(shù)據(jù)傳輸方式如圖2所示。
該模塊的實(shí)際功能如下:HC-SR04實(shí)時(shí)監(jiān)測(cè)與障礙物的距離并向樹(shù)莓派回傳數(shù)據(jù),當(dāng)用戶(hù)與障礙物的距離超過(guò)設(shè)定的閾值后,系統(tǒng)即向用戶(hù)發(fā)送語(yǔ)音警告,提醒用戶(hù)以避免碰撞障礙物。
4.3 ?GPS定位模塊
GPS定位模塊是集成了RF射頻芯片、基帶芯片和核心CPU,并加上相關(guān)外圍電路而組成的一個(gè)集成電路。該系統(tǒng)采用的是NEO-6M的GPS導(dǎo)航模塊,帶有Micro USB接口,可以進(jìn)行初始配置調(diào)節(jié),其誤差在2.5 m左右。GPS模塊通過(guò)TTL轉(zhuǎn)USB線(xiàn)與樹(shù)莓派USB口連接。樹(shù)莓派則通過(guò)Raspbian系統(tǒng)開(kāi)發(fā)與安裝minicom軟件,以獲取串口數(shù)據(jù)并進(jìn)行功能測(cè)試,從而使樹(shù)莓派獲得相應(yīng)地理定位信息。
GPS定位模塊的功能主要為獲取用戶(hù)的位置信息,可供用戶(hù)實(shí)時(shí)調(diào)用,以了解自己所處的位置,避免用戶(hù)因不了解自己的位置任意跑動(dòng)而迷路或置身危險(xiǎn)環(huán)境之中。如果樹(shù)莓派聯(lián)網(wǎng)的話(huà),用戶(hù)的家人亦可獲取用戶(hù)的位置信息,方便他們尋找用戶(hù)。
4.4 ?人機(jī)交互語(yǔ)音提示模塊
人機(jī)交互語(yǔ)音提示模塊主要與各傳感器模塊配合使用,主要功能是對(duì)信息采集與數(shù)據(jù)分析處理的結(jié)果進(jìn)行反饋,從而達(dá)到盲人避障與導(dǎo)航的功能。因此,需要實(shí)現(xiàn)將分析得到的文本信息轉(zhuǎn)換成可以聽(tīng)到的音頻信息輸出(Textto Speech,TTS)。
樹(shù)莓派支持多種文字轉(zhuǎn)語(yǔ)音服務(wù),有Festival Text to Speech,Espeak Text to Speech,Google Text to Speech,Ekho Text to Speech等??紤]到前期使用本系統(tǒng)的用戶(hù)大多為中國(guó)人,而以上多種文字轉(zhuǎn)語(yǔ)音服務(wù)大多不支持中文文本轉(zhuǎn)語(yǔ)音,因此,模塊采用百度的ilangbd語(yǔ)音庫(kù),并且使用Python調(diào)用shell庫(kù)來(lái)完成,最后合成的語(yǔ)音通過(guò)樹(shù)莓派的 3.5 mm立體聲音頻接口連接耳機(jī)輸出,便可以為盲人提供語(yǔ)音提示。其過(guò)程如圖3所示。
4 ? ?結(jié)語(yǔ)
本設(shè)計(jì)基本能夠?qū)崿F(xiàn)模型的輕量化,在一定程度上能夠滿(mǎn)足使用者的部分需求。但是在實(shí)際應(yīng)用中依然需要不斷改進(jìn),例如增加豐富的語(yǔ)音交互功能、硬件的輕量化和便攜化等。
[參考文獻(xiàn)]
[1]王建紅.一種模擬蝙蝠回聲定位法的盲人助行器[J].國(guó)際生物醫(yī)學(xué)工程雜志,1991(6):49.
[2]胡嘉浩.基于工業(yè)4.0下的盲用智能助行產(chǎn)品設(shè)計(jì)研究[D].武漢:湖北工業(yè)大學(xué),2017.
[3]徐行祥.美國(guó)盲人的出行[J].中國(guó)殘疾人,2002(7):31.
Realization of a blind walk aid device based on deep learning
Liu Quanwei, Dai Weibang, Liang Zhengyu, Wang Mohan, Man Jiantao
(Jiangnan University, Wuxi 214122, China)
Abstract:A new type of blind walking aid device is proposed to provide a new scheme for convenient travel of blind friends in this paper. Mainly through the embedded development of deep learning and sensor combination, it is of practical significance to increase the amount of road information acquisition of blind friends and break through the shortcomings of single auxiliary equipment in the past.
Key words:deep learning; blind walking aid; embedded development; sensor application