陳悅,郭宇,2,謝圓琰,米振強(qiáng)
研究與開(kāi)發(fā)
基于圖像描述算法的離線盲人視覺(jué)輔助系統(tǒng)
陳悅1,郭宇1,2,謝圓琰1,米振強(qiáng)1
(1. 北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083;2. 北京科技大學(xué)順德研究生院,廣東 佛山 528399)
針對(duì)現(xiàn)有盲人視覺(jué)輔助設(shè)備存在的不便,探討了基于模型剪枝的圖像描述模型在便攜式移動(dòng)設(shè)備上運(yùn)行的方法?;仡櫫藞D像描述模型和剪枝模型技術(shù),重點(diǎn)提出了一種針對(duì)圖像描述模型的改進(jìn)剪枝算法。結(jié)果表明,在保證準(zhǔn)確性的前提下,剪枝后的圖像描述模型可以大幅降低工作時(shí)的處理時(shí)間和消耗的電源容量,能夠隨時(shí)隨地快速準(zhǔn)確地對(duì)環(huán)境信息進(jìn)行描述及語(yǔ)音播報(bào)。
視覺(jué)輔助系統(tǒng);圖像描述模型;模型壓縮和加速;模型剪枝算法
視覺(jué)障礙群體是殘疾人群中容易被忽略的龐大人群,眼睛的缺陷讓他們無(wú)法通過(guò)視覺(jué)系統(tǒng)感知外界的信息,從而給日常生活和出行帶來(lái)極大不便。現(xiàn)階段,視覺(jué)輔助設(shè)備給盲人的生活帶來(lái)了一些便利[1]。但現(xiàn)有的盲人輔助工具或多或少存在著價(jià)格昂貴、輔助功能有限、交互性差、無(wú)法離線使用等缺點(diǎn)。基于此,本文提出了一種搭載在低成本便攜設(shè)備中基于圖像描述算法的離線盲人視覺(jué)輔助系統(tǒng)。
圖像描述能夠利用語(yǔ)言描述圖像內(nèi)容。2014年提出m-RNN模型[2]和NIC模型[3]后,圖像描述任務(wù)相較于基于檢索的模型產(chǎn)生了較大進(jìn)步,在此之后的研究結(jié)合目標(biāo)檢測(cè)等高等級(jí)語(yǔ)義信息實(shí)現(xiàn)高層次視覺(jué)任務(wù)[4-5]、結(jié)合場(chǎng)景圖實(shí)現(xiàn)細(xì)粒度可控的圖像描述模型[6-7]、生成獨(dú)特精確且有信息量的圖像描述[8-9]等方面對(duì)其改進(jìn)。
隨著卷積神經(jīng)網(wǎng)絡(luò)[2-9]的發(fā)展、模型精度的不斷提升,神經(jīng)網(wǎng)絡(luò)計(jì)算量越來(lái)越大的同時(shí)還伴隨了大量的冗余。這造成了實(shí)現(xiàn)深度學(xué)習(xí)網(wǎng)絡(luò)模型要么需要具備強(qiáng)大計(jì)算能力的設(shè)備,要么需要能夠傳輸大量數(shù)據(jù)的網(wǎng)絡(luò)。這對(duì)于實(shí)現(xiàn)能夠隨身攜帶、幫助視覺(jué)障礙人群提供日常服務(wù)的小型移動(dòng)設(shè)備帶來(lái)了巨大的挑戰(zhàn):一是小型移動(dòng)設(shè)備無(wú)法完成大型深度學(xué)習(xí)網(wǎng)絡(luò)計(jì)算量,二是人們不能保證自己時(shí)時(shí)都處于能夠傳輸大量數(shù)據(jù)的網(wǎng)絡(luò)環(huán)境中?;诖耍诒WC模型準(zhǔn)確率的同時(shí)盡可能降低模型的復(fù)雜度成為了一個(gè)熱門研究課題,從剪枝[10-11]、量化[12-13]、蒸餾[14-15]、低秩分解[16-17]、加法網(wǎng)絡(luò)[18-20]等方面實(shí)現(xiàn)模型壓縮,已經(jīng)被廣泛應(yīng)用在各種模型上。
本文將在文獻(xiàn)[10]的方法上做出改進(jìn),對(duì)典型的圖像描述模型進(jìn)行剪枝壓縮,在確保圖像描述精度的同時(shí)提高其運(yùn)行速度,減少其工作消耗,并將其部署在低成本便攜式移動(dòng)設(shè)備上,盲人通過(guò)拍攝照片便可以收聽(tīng)到含有實(shí)時(shí)周圍環(huán)境信息描述的語(yǔ)音播報(bào)。不同的模型剪枝算法也能夠?qū)崿F(xiàn)本文所實(shí)現(xiàn)的功能,但正如前文所述本文主要提出一種利用圖像描述模型為盲人提供視覺(jué)輔助的方法,并采用模型剪枝的方法解決當(dāng)前圖像理解等神經(jīng)網(wǎng)絡(luò)模型計(jì)算量大,難以部署在低成本移動(dòng)設(shè)備的問(wèn)題,對(duì)不同模型剪枝的實(shí)現(xiàn)效果不在本文的重點(diǎn)考慮范圍之內(nèi),因此對(duì)于不同壓縮算法達(dá)到的壓縮程度以及精度不做深入探討。
本文所采用的圖像描述算法的整體框架為編碼-解碼(encoder-decoder)模型[21]。編碼-解碼模型原本用來(lái)解決自然語(yǔ)言處理中的序列到序列(sequence-to-sequence,seq2seq)問(wèn)題,如自然語(yǔ)言翻譯、文章摘要、問(wèn)答系統(tǒng)等,編碼-解碼模型如圖1所示。其中,編碼-解碼模型在最常見(jiàn)的自然語(yǔ)言翻譯模型中,編碼端和解碼端使用的都是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,一種語(yǔ)言的輸入通過(guò)RNN的編碼部分,生成一個(gè)語(yǔ)義編碼信息C,之后經(jīng)過(guò)RNN的解碼部分輸出為另一種語(yǔ)言。將圖像描述模型嵌入到編碼-解碼模型架構(gòu)中后,編碼部分使用的是卷積神經(jīng)網(wǎng)絡(luò),解碼部分使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)。
圖1 編碼-解碼模型
注意力(attention)機(jī)制類似于人眼的注意機(jī)制[22],能夠隨著解碼的進(jìn)行改變對(duì)局部的注意力。在編碼-解碼模型的基礎(chǔ)上加入軟注意力(soft attention)機(jī)制,可以生成更合理的單詞。加入軟注意力機(jī)制后的圖像描述整體框架如圖2所示。
● 編碼端:利用VGG16模型提取圖像特征,本文只利用模型的卷積層,經(jīng)卷積層提取之后最終形成注釋向量(annotation vector)。
● 解碼端:為了避免訓(xùn)練時(shí)的梯度消失現(xiàn)象,本文使用長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)[23]代替RNN:
圖2 加入軟注意力機(jī)制后的圖像描述整體框架
加入注意力機(jī)制后的圖像描述模型與普通圖像描述模型的不同在于,上下文向量(context vector){1,,z,,z}需要由注釋向量a和注意力機(jī)制共同決定。{1,…z,…,z}是根據(jù)某個(gè)特定的局部圖像信息而產(chǎn)生的上下文向量,注釋向量a會(huì)產(chǎn)生一個(gè)權(quán)重a,在注意力機(jī)制中,權(quán)重a是在時(shí)刻圖像區(qū)域a輸入LSTM中所占的比重。權(quán)重a由注釋向量a和長(zhǎng)短期記憶網(wǎng)絡(luò)中的隱藏狀態(tài)h?1之間的相關(guān)性計(jì)算。之后只需要將a和對(duì)應(yīng)的a加權(quán)求和就可計(jì)算上下文向量z。這樣,注意力機(jī)制就能夠?qū)Σ煌膱D像區(qū)域產(chǎn)生不同的關(guān)注度,進(jìn)而生成更合理的詞。
模型的復(fù)雜度一般用浮點(diǎn)數(shù)運(yùn)算量(floating point operation,F(xiàn)LOP)衡量,卷積層FLOP的計(jì)算式[24]為:
其中,(2×C×21)表示一次卷積操作的運(yùn)算量,(2×C×21)×××表示拓展到整個(gè)卷積操作的運(yùn)算量。
本文在圖像描述模型中采用的是經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型VGG16的卷積層部分提取圖像特征,VGG16網(wǎng)絡(luò)結(jié)構(gòu)的大部分運(yùn)算量來(lái)自其卷積層。本文剪枝的主要目標(biāo)是減少模型的運(yùn)算量,也即壓縮方法將針對(duì)編碼部分忽略解碼的相關(guān)操作。
針對(duì)現(xiàn)存盲人視覺(jué)類輔助工具的不足及盲人對(duì)周圍環(huán)境感知的急切需求,本文設(shè)計(jì)了如圖3所示的離線盲人視覺(jué)輔助系統(tǒng)。對(duì)圖像描述模型進(jìn)行剪枝,使得其可以在低成本便攜式移動(dòng)設(shè)備中離線處理圖像,解決現(xiàn)有視覺(jué)輔助設(shè)備價(jià)格昂貴、依賴網(wǎng)絡(luò)、交互性不強(qiáng)等問(wèn)題。該系統(tǒng)以廣角相機(jī)拍攝的照片作為輸入,之后通過(guò)剪枝處理的圖像描述模型幫助盲人感知周圍環(huán)境,并利用揚(yáng)聲器將圖像描述模型得到的環(huán)境描述通過(guò)語(yǔ)音的方式播報(bào),從而從聽(tīng)覺(jué)輔助視覺(jué)的角度幫助視覺(jué)障礙人士實(shí)現(xiàn)對(duì)環(huán)境的感知。本文將在下文對(duì)上述功能模塊進(jìn)行具體闡述。
為了向盲人提供生活上的便利,確保本系統(tǒng)能夠離線處理圖像并在確保圖像描述模型準(zhǔn)確度的基礎(chǔ)上縮短圖像描述模型的運(yùn)行時(shí)間、降低圖像描述模型的功耗,本文使用模型剪枝方法對(duì)圖像描述模型進(jìn)行壓縮剪枝。具體過(guò)程如下。
(1)評(píng)估神經(jīng)元的重要程度
根據(jù)剪枝粒度的不同,神經(jīng)元可以定義為一個(gè)權(quán)重連接,也可以定義為整個(gè)特征圖。理想情況下,無(wú)須對(duì)神經(jīng)元的重要性進(jìn)行評(píng)估,只需要采用暴力方法,逐一對(duì)卷積層進(jìn)行裁剪,并觀察裁剪之后損失函數(shù)在訓(xùn)練集上的變化,變化最小的即最不重要的特征圖,也就是最應(yīng)該被剪掉的特征圖,其目的是使被剪枝的模型的代價(jià)函數(shù)損失最小,代價(jià)函數(shù)如式(5)所示,對(duì)應(yīng)的公式相關(guān)符號(hào)物理意義詳見(jiàn)表1。
為了解決上述問(wèn)題,可以使用泰勒級(jí)數(shù)展開(kāi)[25]近似損失函數(shù)的變化。對(duì)于所有的特征圖{0(1),0(2),…,z(C)}來(lái)說(shuō),剪掉某一個(gè)特征圖h就是令其等于0,這時(shí):
根據(jù)泰勒公式:
因?yàn)槔窭嗜沼囗?xiàng)1(h=0)的值很小,將其忽略,則判斷是否剪枝某一特征圖的目標(biāo)函數(shù)變?yōu)椋?/p>
(2)移除不重要的神經(jīng)元
神經(jīng)元的移除可以根據(jù)是否滿足某個(gè)閾值,也可以按照重要程度進(jìn)行排序。根據(jù)第一步的結(jié)果,只需設(shè)置一個(gè)門信號(hào)進(jìn)行移除:
圖3 離線盲人輔助系統(tǒng)模型框架
門信號(hào)控制卷積計(jì)算輸出的結(jié)果為:
(3)微調(diào)神經(jīng)網(wǎng)絡(luò)
剪枝類似于一種對(duì)完整的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行有損失調(diào)整的操作,勢(shì)必會(huì)對(duì)網(wǎng)絡(luò)模型的精度造成影響。如果剪枝后不進(jìn)行微調(diào),那么多輪次剪枝后,網(wǎng)絡(luò)模型的精度將會(huì)出現(xiàn)斷崖式的下降。因此每次剪枝后需要對(duì)模型重新進(jìn)行訓(xùn)練微調(diào),這在整個(gè)流程中至關(guān)重要。
(4)重復(fù)上述操作,進(jìn)入下一輪的剪枝。
根據(jù)上述算法,剪枝一次需要微調(diào)一次神經(jīng)網(wǎng)絡(luò)。如果一次只剪掉一個(gè)特征圖,那么剪枝過(guò)程就需要進(jìn)行多次微調(diào)神經(jīng)網(wǎng)絡(luò)操作,這無(wú)疑增加了訓(xùn)練時(shí)間。而訓(xùn)練時(shí)間過(guò)長(zhǎng)會(huì)帶來(lái)許多不便,例如系統(tǒng)在使用過(guò)程中往往會(huì)為了提高用戶的體驗(yàn)感、升級(jí)功能、修復(fù)存在的漏洞等方面進(jìn)行版本更新,訓(xùn)練時(shí)間過(guò)長(zhǎng)則會(huì)降低系統(tǒng)迭代更新的速度,不能及時(shí)滿足用戶的需求。相應(yīng)地,一次剪裁掉多個(gè)特征圖可以大大縮減整個(gè)流程的執(zhí)行次數(shù)進(jìn)而降低第3個(gè)步驟的執(zhí)行次數(shù)。具體來(lái)說(shuō),一次裁剪掉1個(gè)特征圖相較于一次裁剪掉30個(gè)特征圖,就需要多進(jìn)行30次訓(xùn)練。但是每次裁剪掉多個(gè)特征圖,會(huì)導(dǎo)致模型精度下降過(guò)快,這使得模型壓縮基本失去意義。一方面是因?yàn)槟P偷慕Y(jié)構(gòu)一次性改變過(guò)大,使得模型難以恢復(fù);另一方面因?yàn)椴眉舻舻奶卣鲌D中存在著不該被剪掉的信息。針對(duì)以上問(wèn)題,本文提出一種改進(jìn)方案實(shí)現(xiàn)一次裁剪多個(gè)特征圖從而減少微調(diào)神經(jīng)網(wǎng)絡(luò)所需要的時(shí)間同時(shí)最小化對(duì)剪枝后模型的影響。
按照理論,在不改變?nèi)魏螀?shù)和輸入的情況下,每次評(píng)估時(shí)應(yīng)該會(huì)得到同樣的結(jié)果,然而實(shí)驗(yàn)結(jié)果并不是這樣。當(dāng)增加評(píng)估次數(shù)時(shí),會(huì)產(chǎn)生不同的剪枝結(jié)果同時(shí)存在一些重合的特征圖,這些重合的特征圖在每輪的評(píng)估結(jié)果中所處的排序位置也不完全相同,這說(shuō)明某一特征圖在某一評(píng)估輪次中最應(yīng)該被剪掉而在其他輪次中有可能不應(yīng)該被剪掉。
根據(jù)上述現(xiàn)象,本文在每輪剪枝中,為了降低不同的評(píng)估實(shí)驗(yàn)對(duì)結(jié)果的影響,首先將“評(píng)估神經(jīng)元的重要程度”這一操作執(zhí)行5次,模型的代價(jià)函數(shù)將變?yōu)椋?/p>
其中,為執(zhí)行評(píng)估的次數(shù),,為每次評(píng)估后選取的特征圖的個(gè)數(shù),其他參數(shù)含義詳見(jiàn)表1。
在增加評(píng)估次數(shù)后,對(duì)模型剪枝算法進(jìn)行改進(jìn),具體方案如下。
步驟1 在增加評(píng)估次數(shù)的基礎(chǔ)上,選取重合的特征圖,重合次數(shù)越多的特征圖就越應(yīng)該被裁剪掉。
表1 剪枝算法公式相關(guān)符號(hào)物理意義說(shuō)明
步驟2 將第一步中選取的特征圖的Oracle-abs值按從小到大的規(guī)則進(jìn)行排序,裁剪掉排名靠前的特征圖。
模型此時(shí)的代價(jià)函數(shù)為:
在后續(xù)的實(shí)驗(yàn)中,分別使用只有步驟(1)的改進(jìn)方案(以下稱為改進(jìn)方案1)和包含步驟(1)、步驟(2)的完整改進(jìn)方案(以下稱為改進(jìn)方案2)對(duì)模型壓縮的精確度進(jìn)行驗(yàn)證。
通過(guò)前文描述得到剪枝后的圖像描述模型后,本文將其在攜式處理器上進(jìn)行了部署,并最終搭建了完整的盲人離線視覺(jué)輔助系統(tǒng),具體包含:用于拍攝周圍場(chǎng)景的廣角攝像機(jī)、將圖像描述用語(yǔ)音轉(zhuǎn)述的揚(yáng)聲器及功能模塊、用于圖像處理的便攜式微處理器設(shè)備。其中,廣角攝像機(jī)和揚(yáng)聲器借助智能眼鏡的形式實(shí)現(xiàn),便攜式微處理器選取了搭載Inter 4核Z8350 CPU、4 GB內(nèi)存、電池容量為5 000 mAh(約為普通智能手機(jī)的電池容量)的便攜式計(jì)算機(jī)。盲人輔助設(shè)備使用說(shuō)明如圖4所示。當(dāng)視覺(jué)障礙人士處于日常生活環(huán)境并需要了解周圍環(huán)境情況時(shí),可以通過(guò)攝像機(jī)拍攝周圍環(huán)境信息,圖像描述模型能夠?qū)ε臄z的圖片處理并生成圖像描述結(jié)果,語(yǔ)音播報(bào)功能模組對(duì)得到的圖像描述信息進(jìn)行播報(bào)。通過(guò)實(shí)驗(yàn),視覺(jué)障礙人士在拍攝照片后2 s左右即可收聽(tīng)到周圍環(huán)境信息的語(yǔ)音描述,符合實(shí)際生活的需求。更為具體的實(shí)驗(yàn)結(jié)果將在第3節(jié)給出。
圖4 盲人輔助設(shè)備使用說(shuō)明
(1)實(shí)驗(yàn)設(shè)置
本文利用阿里云服務(wù)器對(duì)所采用的圖像描述模型進(jìn)行了剪枝和訓(xùn)練,所采用的數(shù)據(jù)集為經(jīng)典的Flickr8k數(shù)據(jù)集[26]。上述數(shù)據(jù)集中每張圖像帶有5句關(guān)于該圖像的描述,每一句描述語(yǔ)句都有一個(gè)0~1的得分,得分越大則語(yǔ)句描述越準(zhǔn)確。Flickr8k數(shù)據(jù)集示例如圖5所示。
獲得剪枝后的圖像描述模型后,本文將其部署在了第3.3節(jié)所描述的離線盲人系統(tǒng)中,并分別用數(shù)據(jù)集和實(shí)際場(chǎng)景進(jìn)行了定性和定量的分析。軟件環(huán)境為Ubuntu18.04系統(tǒng)、Python 3.6和Pytorch 1.0.0。
(2)評(píng)價(jià)指標(biāo)
本文采用雙語(yǔ)替換評(píng)測(cè)(bilingual evaluation understudy,BLEU)[27]和基于召回率的評(píng)估指標(biāo)(recall-oriented understudy for gisting evaluation,ROUGE)[28]對(duì)圖像描述模型的精度進(jìn)行評(píng)價(jià)。
BLEU采用一種-gram的匹配原則,即對(duì)生成的一句話進(jìn)行個(gè)連續(xù)單詞的截?cái)?。根?jù)的取值,BLEU可以劃分成多種評(píng)價(jià)指標(biāo),常見(jiàn)的有BLEU-1、BLEU-2、BLEU-3、BLEU-4。具體來(lái)說(shuō),BLEU-1衡量的是單詞級(jí)別的準(zhǔn)確性,而更高階的BLEU可以衡量句子的流暢性,具體的計(jì)算方法可以參看文獻(xiàn)[27],本文不贅述。
ROUGE評(píng)估指標(biāo)是一組能夠評(píng)估自動(dòng)文摘以及機(jī)器翻譯的指標(biāo),通過(guò)將預(yù)測(cè)語(yǔ)句和參考語(yǔ)句進(jìn)行比較得出召回率,以衡量自動(dòng)生成的語(yǔ)句與參考語(yǔ)句之間的相似度。其中,有3個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是ROUGE-N、ROUGE-L和ROUGE-S。ROUGE 和 BLEU 幾乎一模一樣,區(qū)別是 BLEU 只計(jì)算準(zhǔn)確率,而 ROUGE 只計(jì)算召回率,具體的計(jì)算方法可以參看文獻(xiàn)[28],本文不贅述。
(3)實(shí)驗(yàn)參數(shù)
在本文的方案中,執(zhí)行評(píng)估的次數(shù)5,每次評(píng)估后選取的特征圖的個(gè)數(shù)=50,選擇一次需要裁剪掉的特征圖個(gè)數(shù)為50。在改進(jìn)方案1中,當(dāng)重合的特征圖個(gè)數(shù)不滿50時(shí),需要擴(kuò)大執(zhí)行評(píng)估的次數(shù)。在對(duì)模型進(jìn)行參數(shù)微調(diào)時(shí),批尺寸為64、所有訓(xùn)練樣本的訓(xùn)練次數(shù)為20、編碼學(xué)習(xí)率為5×10?5、解碼學(xué)習(xí)率為5×10?6。
(1)剪枝算法改進(jìn)前后精度和效果對(duì)比
為了驗(yàn)證剪枝前后模型的精度未發(fā)生較大變化,本文首先以BLEU-4為評(píng)估指標(biāo)分別記錄兩種改進(jìn)剪枝算法迭代過(guò)程圖像描述模型的精度。圖6表示改進(jìn)方案1和改進(jìn)方案2在剪枝迭代過(guò)程中BLEU-4的變化情況。其中,原剪枝方案表示經(jīng)過(guò)原始剪枝方法進(jìn)行模型壓縮的圖像描述模型。改進(jìn)方案1表示在原剪枝方案的基礎(chǔ)上增加評(píng)估次數(shù),裁剪重合次數(shù)較多的特征圖。改進(jìn)方案2表示在第一步增加評(píng)估次數(shù)的基礎(chǔ)上,計(jì)算特征圖的Oracle-abs值并按從小到大的規(guī)則進(jìn)行排序,裁剪掉那些排名靠前的特征圖。
圖6 圖像描述模型在原剪枝算法和改進(jìn)方案上的精度對(duì)比
為了更加直觀地驗(yàn)證剪枝后的圖像描述模型仍有較高的精度,本文使用以改進(jìn)方案二剪枝的圖像描述模型分別對(duì)數(shù)據(jù)集中室外和室內(nèi)場(chǎng)景以及生活中的實(shí)際場(chǎng)景進(jìn)行了實(shí)驗(yàn),如圖7、圖8、圖9所示??梢悦黠@看出,剪枝后圖像描述模型的輸出與剪枝前的圖像描述模型的輸出結(jié)果并無(wú)區(qū)別,這同樣印證了圖3的結(jié)論。
(2)剪枝算法改進(jìn)先后圖像描述結(jié)果相似度對(duì)比
為了驗(yàn)證圖像描述模型在本文所提出的剪枝模型的壓縮后,模型的準(zhǔn)確度沒(méi)有明顯下降,能夠提供盲人所需要的周圍環(huán)境信息,本文隨機(jī)選取了100張圖像進(jìn)行圖像描述實(shí)驗(yàn)。將未剪枝的圖像描述模型的輸出作為參考描述,將剪枝后的圖像描述輸出作為預(yù)測(cè)描述,采用ROUGE-1、ROUGE-2、ROUGE-L評(píng)估方式計(jì)算剪枝前后的圖像描述的召回率,這在一定程度上能夠表示剪枝后圖像描述模型與原圖像描述模型輸出的相似度。具體實(shí)驗(yàn)結(jié)果見(jiàn)表2,其中,本文將ROUGE-1、ROUGE-2、ROUGE-L的結(jié)果得分分為4個(gè)區(qū)間:0.91~1、0.71~0.9、0.51~0.7、0~0.5。記錄剪枝前后圖像描述模型輸出結(jié)果的召回率得分的比率情況,得分越高表示其輸出結(jié)果與參考結(jié)果越接近。剪枝前后圖像描述模型輸出結(jié)果的召回率情況如圖10所示。
表2表示使用不同評(píng)估指標(biāo)對(duì)剪枝前后圖像描述模型輸出結(jié)果評(píng)估時(shí)不同召回率的占比情況。由圖10可以看出,剪枝后的圖像描述模型與剪枝前圖像描述模型的輸出中有近60%的結(jié)果召回率大于0.9,在ROUGE-1和ROUGE-L評(píng)估指標(biāo)中有近90%的結(jié)果召回率大于0.7,在ROUGE-2評(píng)估指標(biāo)中也有超過(guò)70%的結(jié)果召回率大于0.7。這說(shuō)明剪枝后的圖像描述模型相比于剪枝前的圖像描述模型的精度有降低,但與剪枝前的圖像描述相比能夠達(dá)到70%以上的相似度,模型精度下降不大。
圖7 模型剪枝前后室外場(chǎng)景圖像描述對(duì)比
圖8 模型剪枝前后室內(nèi)場(chǎng)景圖像描述對(duì)比
圖9 模型剪枝前后實(shí)際場(chǎng)景圖像描述對(duì)比
表2 剪枝前后圖像描述模型輸出結(jié)果的召回率情況
圖10 剪枝前后圖像描述模型輸出結(jié)果的召回率情況
(3)剪枝算法改進(jìn)先后消耗時(shí)間、電源容量對(duì)比
為了驗(yàn)證本文所提出的離線盲人視覺(jué)輔助系統(tǒng)的高可用性,本文分別測(cè)試了剪枝前以及使用改進(jìn)方案2剪枝后的圖像描述模型在本文所用硬件上所消耗的時(shí)間和電源容量的變化情況。本文在相同的10張圖片上進(jìn)行了實(shí)驗(yàn),并累計(jì)對(duì)應(yīng)所消耗的時(shí)間和功率。
同一組10張圖片在剪枝前后的兩個(gè)模型所累積消耗的時(shí)間如圖11(a)所示。無(wú)論是單張圖片的理解速度還是累計(jì)所需要的時(shí)間,剪枝后的模型處理速度比剪枝前的速度快,同時(shí)隨著處理圖片數(shù)量的增加,其差距也越來(lái)越大。根據(jù)表2,剪枝前從圖像輸入到輸出結(jié)果單張圖像平均用時(shí)為4.049 s;而剪枝后的模型對(duì)相同的10張圖像進(jìn)行圖像描述時(shí),單張圖像的平均用時(shí)僅為2.337 s,縮短了42%。圖像描述用時(shí)的縮短能夠?yàn)橐曈X(jué)障礙人士及時(shí)地提供附近環(huán)境信息,特別是在危險(xiǎn)、緊急的情況下為視覺(jué)障礙人群獲得寶貴的反應(yīng)時(shí)間。
圖11 剪枝前后圖像描述對(duì)比
同一組10張圖片在剪枝前后的兩個(gè)模型所累積消耗的電源容量如圖11(b)所示。從圖11中可以看出,對(duì)一張圖片進(jìn)行圖像描述時(shí)功耗消耗相差不大,但隨著處理圖像數(shù)量的增多,剪枝后的模型相比于剪枝前的模型對(duì)電源容量累計(jì)消耗增長(zhǎng)緩慢,即處理單張圖片剪枝后的模型所消耗的電源容量更低,即使處理了10張圖片后,剪枝后的模型所消耗的功率也只近似于剪枝之前的模型消耗的一半。這是由于剪枝后圖像描述所需要處理的數(shù)據(jù)減少,內(nèi)存占用率隨之減少。根據(jù)表3,剪枝前從圖像輸入到輸出結(jié)果每張圖片所消耗的處理平均電源容量為0.269 mAh;而在剪枝后的模型對(duì)相同的10張圖像進(jìn)行圖像描述時(shí),每張圖像所消耗的平均電源容量?jī)H為0.164 mAh。
表3 剪枝前后圖像描述模型所消耗的平均處理時(shí)間和平均電源容量功率
假定模型剪枝前處理一張圖片消耗的電池容量約為0.16 mAh,剪枝后處理一張圖片消耗的電池容量約為0.27 mAh,將本實(shí)驗(yàn)設(shè)備用于日常生活可以處理約30 000 張圖片,而在同等條件下剪枝前的圖像描述模型只能處理約18 000 張圖片。剪枝前后圖像描述所消耗的功率減小對(duì)于將此盲人視覺(jué)輔助系統(tǒng)裝載于低成本便攜小巧的移動(dòng)設(shè)備提供了極大的便利,延長(zhǎng)了視障人士使用該系統(tǒng)時(shí)的時(shí)間。
本文提出了基于圖像描述模型算法的離線盲人視覺(jué)輔助系統(tǒng),為了使得圖像描述模型能夠在便攜式低性能移動(dòng)式設(shè)備上離線使用,本文對(duì)模型進(jìn)行了剪枝處理。視覺(jué)障礙人士可以利用本文的盲人視覺(jué)輔助系統(tǒng)對(duì)周圍場(chǎng)景拍照作為輸入,之后揚(yáng)聲器將圖像描述后的信息以語(yǔ)音的形式播報(bào),從而能夠感知周圍環(huán)境的信息。結(jié)果表明,剪枝后的模型在圖像描述的精度上與剪枝前的模型差別不大,但在處理時(shí)間和能耗上分別有較大的降低,這讓視覺(jué)障礙人士能夠長(zhǎng)時(shí)間穩(wěn)定及時(shí)地感知周圍地環(huán)境,在一定程度上提升其生活幸福感。后續(xù)將進(jìn)一步開(kāi)展對(duì)現(xiàn)有模型的優(yōu)化,力求探索出計(jì)算機(jī)視覺(jué)相關(guān)模型在實(shí)際生活應(yīng)用的最佳實(shí)踐模式。
[1] 康帥, 章堅(jiān)武, 朱尊杰, 等. 改進(jìn)YOLOv4算法的復(fù)雜視覺(jué)場(chǎng)景行人檢測(cè)方法[J]. 電信科學(xué), 2021, 37(8): 46-56.
KANG S, ZHANG J W, ZHU Z J, et al. An improved YOLOv4 algorithm for pedestrian detection in complex visual scenes[J]. Telecommunications Science, 2021, 37(8): 46-56.
[2] MAO J H, XU W, YANG Y, et al. Explain images with multimodal recurrent neural networks[EB]. 2014.
[3] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2015.
[4] ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6077-6086.
[5] LUO Y P, JI J Y, SUN X S, et al. Dual-level collaborative transformer for image captioning[EB]. 2021.
[6] YANG X, TANG K H, ZHANG H W, et al. Auto-encoding scene graphs for image captioning[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2019: 10685-10694.
[7] CHEN S Z, JIN Q, WANG P, et al. Say as you wish: fine-grained control of image caption generation with abstract scene graphs[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 9962-9971.
[8] WANG Z Y, FENG B, NARASIMHAN K, et al. Towards unique and informative captioning of images[M]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, [S.l.:s.n.], 2020: 629-644.
[9] XU G H, NIU S C, TAN M K, et al. Towards accurate text-based image captioning with content diversity exploration[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2021: 12637-12646.
[10] DENTON E, ZAREMBA W, BRUNA, et al. Exploiting linear structure within convolutional networks for efficient evaluation[C]//Advances in neural information processing systems. Cambridge:MIT Press, 2014: 1269-1277.
[11] ZHUANG Z W, TAN M K, ZHUANG B H, et al. Discrimination-aware channel pruning for deep neural networks[EB]. 2018.
[12] RASTEGARI M, ORDONEZ V, REDMON J, et al. Xnor-net: imagenet classification using binary convolutional neural networks[C]//European conference on computer vision. Berlin: Springer, 2016: 525-542.
[13] WANG K, LIU Z J, LIN Y J, et al. HAQ: hardware-aware automated quantization with mixed precision[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2019: 8612-8620.
[14] CHEN H T, WANG Y H, XU C, et al. Data-free learning of student networks[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 3514-3522.
[15] LUO L C, SANDLER M, LIN Z, et al. Large-scale generative data-free distillation[EB]. 2020.
[16] YU X Y, LIU T L, WANG X C, et al. On compressing deep models by low rank and sparse decomposition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2017: 7370-7379.
[17] YANG Z, WANG Y, LIU C, et al. Legonet: efficient convolutional neural networks with lego filters[C]//International Conference on Machine Learning. New York: ACM Press, 2019: 7005-7014.
[18] CHEN H T, WANG Y H, XU C J, et al. AdderNet: do we really need multiplications in deep learning?[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 1468-1477.
[19] XU Y, XU C, CHEN X, et al. Kernel based progressive distillation for adder neural networks[EB]. 2020.
[20] SONG D H, WANG Y H, CHEN H T, et al. AdderSR: towards energy efficient image super-resolution[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2021: 15648-15657.
[21] PARK Y, YUN I D. Fast adaptive RNN Encoder?Decoder for anomaly detection in SMD assembly machine[J]. Sensors (Basel, Switzerland), 2018, 18(10): 3573.
[22] XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[EB]. 2015.
[23] XINGJIAN S H I, CHEN Z, WANG H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. Cambridge:MIT Press, 2015: 802-810.
[24] MOLCHANOV P, TYREE S, KARRAS T, et al. Pruning convolutional neural networks for resource efficient inference[EB]. 2016.
[25] 王從徐. 基于泰勒級(jí)數(shù)展開(kāi)及其應(yīng)用探討[J]. 紅河學(xué)院學(xué)報(bào), 2021, 19(02): 154-156.
WANG C X. Discussion on Taylor series expansion and its application[J]. Journal of Honghe University, 2021, 19(02): 154-156.
[26] HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: data, models and evaluation metrics[J]. Journal of Artificial Intelligence Research, 2013, 47: 853-899.
[27] 蔡鑫. 基于Bert模型的互聯(lián)網(wǎng)不良信息檢測(cè)[J]. 電信科學(xué), 2020, 36(11): 121-126.
CAI X. Internet bad information detection based on Bert model[J]. Telecommunications Science, 2020, 36(11): 121-126.
[28] LIN C Y. Rouge: a package for automatic evaluation of summaries[C]//Text summarization branches out. Barcelona: ACL, 2004: 74-81.
Offline visual aid system for the blind based on image captioning
CHEN Yue1, GUO Yu1,2, XIE Yuanyan1, MI Zhenqiang1
1.School of Computer & Communication, University of Science and Technology Beijing, Beijing 100083, China 2.Shunde Graduate School, University of Science and Technology Beijing, Foshan 528399, China
In view of the inconveniences of existing visual aid systems for the blind, the method of running the image captioning model on portable mobile devices based on model pruning was discussed. Model pruning techniques and image captioning models were reviewed. An improved model pruning algorithm for image captioning model was proposed. Experimental results show that, on the premise of ensuring accuracy, the image captioning model after pruning can greatly reduce processing time and power consumption capacity, and can quickly and accurately describe environmental information and voice broadcast anytime and anywhere.
visual assisted system, image captioning model, model compression and acceleration, model pruning algorithm
TP391
A
10.11959/j.issn.1000?0801.2022014
2021?09?17;
2021?11?19
陳悅(1998?),女,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院碩士生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)與人工智能。
郭宇(1992?),男,博士,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院講師,主要研究方向?yàn)闊o(wú)線傳感器網(wǎng)絡(luò)、云計(jì)算、多機(jī)器人系統(tǒng)。
謝圓琰(1996?),女,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院博士生,主要研究方向?yàn)樵茩C(jī)器人、服務(wù)科學(xué)與云計(jì)算。
米振強(qiáng)(1983?),男,博士,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院副教授,主要研究方向?yàn)榉?wù)計(jì)算、多機(jī)器人系統(tǒng)、移動(dòng)環(huán)境中的點(diǎn)云計(jì)算。