蔡玉樹,盧 仕,毛林聰,陶雨松
(湖北大學(xué)微電子學(xué)院,湖北 武漢 430061)
作為世界上盲人數(shù)量最多的國家,我國盲人的閱讀問題一直備受關(guān)注。盲用讀物出版受成本與價格的限制,每年僅有10種出版物,種類較為匱乏,且盲文圖書館數(shù)量稀少,館藏讀物十分有限,這些導(dǎo)致了盲人用戶的閱讀需求無法得到滿足[1]。
近年來,隨著計算機(jī)軟硬件技術(shù)快速發(fā)展,圖像識別與可攜帶式智能設(shè)備取得了較大進(jìn)步,繼而盲人閱讀輔助產(chǎn)品及相關(guān)技術(shù)不斷被提出。文獻(xiàn)[2]設(shè)計了基于卷積神經(jīng)網(wǎng)絡(luò)的盲人無障礙閱讀系統(tǒng),可通過手勢控制文本識別區(qū)域,將識別到的內(nèi)容進(jìn)行語音輸出,但圖像輸入的操作流程較為繁瑣,系統(tǒng)交互方式對盲人并不友好;文獻(xiàn)[3]運(yùn)用嵌入式平臺樹莓派4B,以YOLOv5 為目標(biāo)檢測算法設(shè)計了盲人語音助手,在文字識別前進(jìn)行灰度及縮放等操作,有效提高了印刷文本識別的準(zhǔn)確率,但是對于書本版面的捕獲存在不穩(wěn)定性,無法保障盲人用戶的閱讀體驗。其目標(biāo)檢測采用了較為先進(jìn)的單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOv5,該網(wǎng)絡(luò)基于前四個版本的持續(xù)改進(jìn),已經(jīng)具備了良好的目標(biāo)檢測性能[4]。YOLOv5s作為YOLOv5 五種基礎(chǔ)模型中最輕量化的模型,在COCO2017 數(shù)據(jù)集上mAP@0.5 為56.8%。該模型部署靈活、檢測準(zhǔn)確,在實時對象檢測中得到了廣泛應(yīng)用,因此本文采用YOLOv5s作為目標(biāo)檢測基礎(chǔ)網(wǎng)絡(luò)。
針對盲人用戶閱讀紙質(zhì)圖書時難以校準(zhǔn)書本位置的問題,本文采用樹莓派3B搭建了具備書本校準(zhǔn)功能的智能閱讀輔助系統(tǒng),通過YOLOv5s實現(xiàn)了書本定位與位置建議;考慮嵌入式平臺下檢測速度及可靠性等問題,在YOLOv5s 主干網(wǎng)絡(luò)中嵌入ECA 注意力模塊增強(qiáng)檢測網(wǎng)絡(luò)的特征融合能力,在頸部網(wǎng)絡(luò)采用GSconv實現(xiàn)輕量化設(shè)計,取得了檢測精度與速度顯著提升,保證了位置建議算法的可靠性,能夠幫助盲人用戶實現(xiàn)書本位置的有效校準(zhǔn)。
本文所設(shè)計的閱讀輔助系統(tǒng)以視力障礙群體為服務(wù)對象,以桌面閱讀為應(yīng)用場景,具備書本校準(zhǔn)、文字識別及語音交互等功能。系統(tǒng)整體設(shè)計框圖如圖1所示,主控平臺的控制核心為樹莓派3B,借助攝像頭捕獲桌面圖像,通過改進(jìn)的YOLOv5s目標(biāo)檢測網(wǎng)絡(luò)實現(xiàn)準(zhǔn)確快速的位置推理,有效反饋位置建議結(jié)果。語音模塊由麥克風(fēng)及揚(yáng)聲器組成,作為盲人用戶的人機(jī)交互終端;云平臺通過百度智能云的語音與視覺API構(gòu)建[5],用于實現(xiàn)語音識別、語音合成及文字識別三種基礎(chǔ)功能。
圖1 系統(tǒng)設(shè)計框圖
在物體定位系統(tǒng)中,深度學(xué)習(xí)方法采用大量數(shù)據(jù)訓(xùn)練模型,能提取更具魯棒性的特征,克服了傳統(tǒng)的計算機(jī)視覺易受視點變化及外界環(huán)境影響的缺點,在復(fù)雜環(huán)境下依舊表現(xiàn)出色,成為物體定位領(lǐng)域的熱門方法之一[6]。本文選用的YOLOv5s 網(wǎng)絡(luò)模型基于深度學(xué)習(xí)算法,對于輸入圖像該模型會框選出感興趣目標(biāo),給出物品類別及選框邊角的圖像坐標(biāo)。為實現(xiàn)桌面物體的精確定位,需要建立圖像坐標(biāo)與世界坐標(biāo)間的映射關(guān)系矩陣,即完成相機(jī)參數(shù)的標(biāo)定。本文采用DLT 算法[7]完成相機(jī)標(biāo)定,其坐標(biāo)變換圖如圖2 所示,OXYZ 為世界坐標(biāo)系,Ocxyz 為相機(jī)坐標(biāo)系,ouv 為圖像坐標(biāo)系,R為旋轉(zhuǎn)矩陣,T為平移向量。
圖2 坐標(biāo)變換關(guān)系圖
圖像坐標(biāo)系與世界坐標(biāo)系存在不同尺度,需要考慮兩者間的尺度變換,兩坐標(biāo)系的尺度系數(shù)λ 通過去質(zhì)心點集確定,其定義式如下:
其中,、分別為圖像坐標(biāo)與世界坐標(biāo)下已知的N個對應(yīng)點的集合,Pcp、Pcw為對應(yīng)點集的質(zhì)心。通過去質(zhì)心坐標(biāo)可構(gòu)造Hankle 矩陣H,對H 進(jìn)行奇異值分解[8]得到矩陣U、S、V,結(jié)合尺度系數(shù)λ可得旋轉(zhuǎn)矩陣R、平移向量T分別為:
物體定位結(jié)果顯然無法通過定量的方式反饋給盲人用戶,區(qū)域劃分法針對該問題提供了定性的解決方案[9]。本文位置建議算法以選區(qū)劃分法為基礎(chǔ),根據(jù)書本的形貌特征進(jìn)行了特定的區(qū)域劃分,通過目標(biāo)檢測網(wǎng)絡(luò)確定書本質(zhì)心位置,計算其到達(dá)畫面中心的位移量(Δx,Δy),根據(jù)位移量的正負(fù)與大小生成書本校準(zhǔn)的定性建議,指導(dǎo)盲人用戶校準(zhǔn)書本位置,選區(qū)劃分與檢測示例如圖3所示。書本校準(zhǔn)的目標(biāo)區(qū)域定義為有效區(qū),如圖3(a)中部的深色區(qū)域,當(dāng)書本質(zhì)心移入有效區(qū)后,校準(zhǔn)任務(wù)即為完成,有效區(qū)其寬與高分別為:
圖3 選區(qū)劃分與檢測示例
其中,W為桌面可視區(qū)域的實際寬度,Wp與Hp分別為書頁的實際寬度與高度;S為有效因子,描述了文字區(qū)域?qū)摰恼加星闆r,其定義式如下:
其中,Hs為版心高度,Hp為書頁高度。對于待閱讀書籍,其單張版面由版心與空白兩部分組成,通過測量版心高度與書頁高度可得到有效因子S。
在通過增加模型參數(shù)提升網(wǎng)絡(luò)非線性表達(dá)能力的同時[10],計算能耗會顯著增加。在網(wǎng)絡(luò)模型性能優(yōu)化中有必要采取輕量化設(shè)計以降低計算成本,這一點對于計算資源有限的嵌入式平臺尤為重要。深度可分離卷積(DSC)[11]通過減少模型參數(shù)與浮點運(yùn)算降低計算成本,但較標(biāo)準(zhǔn)卷積(SC)存在丟失大量通道信息的缺點,精度較低。GSConv[12]較DSC 提升了精度,同時降低了網(wǎng)絡(luò)計算量,其結(jié)構(gòu)如圖4 所示。該結(jié)構(gòu)將SC 與DSC 結(jié)合,利用concat 將SC 的輸出信息與DSC 的輸出信息進(jìn)行順序拼接,再借助均勻混合策略Shuffle 將拼接特征圖中順序拼接的兩種信息完全均勻地混合,實現(xiàn)不同通道上特征信息的均勻交換。
圖4 GSconv結(jié)構(gòu)
引入通道注意力機(jī)制常用于增強(qiáng)網(wǎng)絡(luò)模型的非線性表達(dá)能力[13],其即插即用的特點使得注意力機(jī)制在深度學(xué)習(xí)任務(wù)中得到了廣泛應(yīng)用。ECA 模塊是目前最先進(jìn)的注意力模塊之一,其結(jié)構(gòu)如圖5所示,該模塊首先對各個通道進(jìn)行全局平均池化,再通過一維卷積實現(xiàn)相鄰?fù)ǖ澜换バ畔⒌木植坎东@,最后用Sigmond 函數(shù)對各組特征通道生成不同的權(quán)重,實現(xiàn)注意力的按組分配,在增加少量模型復(fù)雜度的同時帶來顯著的性能提升。
圖5 ECA模塊
依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)確定模塊插入位置對于注意力機(jī)制的有效性極為重要[14]。改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,ECA 模塊被嵌入在了主干網(wǎng)絡(luò)向頸部傳遞特征圖的部位,即三個連接分支P1、P2、P3 的起點處,網(wǎng)絡(luò)頸部的標(biāo)準(zhǔn)卷積通過輕量化的GSConv 替換,以期降低模型復(fù)雜度。
圖6 改進(jìn)YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)圖
根據(jù)盲人桌面閱讀場景中的常用物品構(gòu)建訓(xùn)練數(shù)據(jù)集,以書本為主要檢測對象,同時加入手機(jī)、杯子、水瓶、墨鏡、蘋果等五類盲人生活場景中的常見物品;采集設(shè)備為USB攝像頭羅技c270i,固定于桌面正上方,圖像采集分辨率為1280×720,采集光線包括順光、逆光、背光等情況,六類物品每類200 張,一共1200 張圖像,按照8:2 隨機(jī)劃分為訓(xùn)練集與驗證集,如圖7 為不同光照條件下的訓(xùn)練圖樣。
圖7 盲人閱讀場景圖
網(wǎng)絡(luò)訓(xùn)練所用主機(jī)平臺處理器為32GB內(nèi)存AMD Ryzen 9 5950X,顯卡為NVIDIA GeForce RTX 4090,操作系統(tǒng)為Windows 11,采用Python 平臺的深度學(xué)習(xí)框架Pytorch1.13 構(gòu)建網(wǎng)絡(luò)模型。以640×640RGB圖像作為模型輸入,訓(xùn)練輪數(shù)設(shè)置為600,批處理大小設(shè)置為32,初始學(xué)習(xí)率為0.01,初始權(quán)值為COCO數(shù)據(jù)集上訓(xùn)練好的原始權(quán)重。在訓(xùn)練結(jié)束后取最優(yōu)權(quán)重部署至樹莓派3B中,進(jìn)行書本定位與位置校準(zhǔn)的測試評估,完整實驗流程如圖8所示。
圖8 實驗流程圖
通過平均精度均值(mean Average Precision,mAP),每秒檢測幀數(shù)(Frames Per Second,F(xiàn)PS)及平均建議精度(Presision suggestion,Ps)作為評價指標(biāo),PS用于評價書本位置校準(zhǔn)任務(wù),其定義如下:
其中,C為世界坐標(biāo)下書本實例的有效位移矢量,通過手動測量得到;Di(i=1,…,N)為N 種光照條件下校準(zhǔn)建議算法給出的校準(zhǔn)建議矢量。
4.3.1 注意力對比實驗
本文通過引入ECA 注意力機(jī)制實現(xiàn)了跨通道信息的高效交互,取得了檢測精度的提升,為了體現(xiàn)本文模型所添加的注意力模塊較其他注意力模塊的優(yōu)勢,設(shè)計了本次注意力機(jī)制對比實驗,在主干與頸部的連接處嵌入四種典型注意力模塊CA[15]、CBAM[16]、SE[17]及ECA,訓(xùn)練測試后得到的實驗數(shù)據(jù)如表1所示。
表1 注意力機(jī)制對比實驗
以YOLOv5s 為基線引入ECA 模塊后模型檢測精度及檢測速度為最優(yōu),mAP 提升了7.4%,幀率提升了8.47%;引入SE 模塊后mAP 提升了2.7%,而CA 與CBAM 注意力機(jī)制未能有效引入,表現(xiàn)為負(fù)面提升;4 種注意力機(jī)制的引入均會帶來參數(shù)量的提升,其中ECA模塊帶來的參數(shù)增量最少。
4.3.2 消融實驗
深度學(xué)習(xí)領(lǐng)域常用消融實驗來分析不同網(wǎng)絡(luò)分支對于網(wǎng)絡(luò)模型整體性能的影響。為了分析本文通過GSConv 替換標(biāo)準(zhǔn)卷積帶來的性能提升及引入ECA 注意力機(jī)制后對網(wǎng)絡(luò)整體性能的影響,設(shè)計了消融實驗,實驗結(jié)果如表2所示。
表2 網(wǎng)絡(luò)結(jié)構(gòu)消融實驗
第一組為YOLOv5s 原始模型的檢測結(jié)果,第二、三、四組改變Gsconv 的作用部位,第五、六、七組在前三組基礎(chǔ)上加入ECA 模塊。由于當(dāng)前實驗平臺性能優(yōu)越,六組實驗組別的幀率提升并不顯著,但與原始模型相較,均取得了浮點操作數(shù)的減少、權(quán)值體量的降低及mAP 的提升,其中第五組的提升最為顯著,mAP提升至79.1%;對比ECA模塊嵌入前后mAP的變化,第七組較第四組降低了0.66%,ECA 模塊的引入表現(xiàn)為負(fù)面提升??梢?,GSconv能初步提升檢測網(wǎng)絡(luò)的精度與速度;ECA 模塊可進(jìn)一步提升精度,但過度地使用GSconv會造成重要特征信息丟失,影響整體精度。
4.3.3 位置建議實驗
在樹莓派3B中部署最優(yōu)模型,搭建試驗平臺進(jìn)行測試,評估本文書本校準(zhǔn)方法中位置建議算法在實際應(yīng)用中的平均建議精度與光線魯棒性。相機(jī)到桌面的距離固定為538mm,通過DLT 算法完成相機(jī)標(biāo)定,得到的結(jié)果如表3。
表3 DLT算法標(biāo)定結(jié)果
以書本為主要對象設(shè)置了桌面場景的光線變化檢測試驗,每組試驗圖像場景樣本10 個,光線變化設(shè)置了順光與逆光二組,共計20 個樣本,不同場景的構(gòu)造主要通過改變書本的內(nèi)容與位置進(jìn)行,其他生活物品如杯子、水瓶、墨鏡等隨機(jī)置入,現(xiàn)場測試圖樣如圖9,位置建議結(jié)果如表4。
表4 兩種光照條件下位置建議實驗
圖9 現(xiàn)場測試圖樣及檢測結(jié)果
對于書本類別,所有實例在順光與逆光條件下均成功檢出。表4 中,書本校準(zhǔn)建議算法的平均誤差為3.28mm,平均建議精度為97.40%,算法精度較高,對于光線變化表現(xiàn)了較好的魯棒性。該模型在樹莓派3B 中的平均單幀處理時間為5.9s,在算力資源有限的情況下速度表現(xiàn)良好。
本文研究設(shè)計并搭建了具備物體定位與書本校準(zhǔn)功能的新型智能閱讀輔助系統(tǒng),以YOLOv5s 為基線,通過加入ECA 模塊增強(qiáng)主干網(wǎng)絡(luò)特征提取能力,在網(wǎng)絡(luò)頸部采用GSconv降低模型體量與浮點運(yùn)算量,保證在算力有限的嵌入式平臺中準(zhǔn)確快速的響應(yīng);在位置建議任務(wù)中通過DLT 算法結(jié)合區(qū)域劃分法,以較高的準(zhǔn)確率給出了書本實例的校準(zhǔn)建議。實驗表明本文模型的平均精度均值達(dá)到79.1%,對于書本實例的平均建議精度達(dá)到了97.4%,能夠滿足桌面閱讀場景中盲人閱讀前對于書本校準(zhǔn)的需求。