陳萱 徐美佳 王文涵
摘要:基于物聯(lián)網(wǎng)與圖像識別技術的智能停車服務平臺,采用區(qū)域已覆蓋的攝像頭對車位進行圖像識別或增設地磁感應設備以輕松獲取實時車位狀況,以實時服務器數(shù)據(jù)為依據(jù)制定停車方案。用戶在復雜環(huán)境尋找車輛時,系統(tǒng)同樣提供了基于對地面停車號進行文字識別的導航服務,極大減少了尋車時間。系統(tǒng)集搜集、預定、找尋、預測車位服務一體化,在相當大的程度上解決了停車難的社會問題。
關鍵詞:智能停車;圖像識別;文字識別;物聯(lián)網(wǎng);管理系統(tǒng)
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2020)10-0187-03
1背景
居民汽車保有量迅速增長,停車泊位不足的問題日益突出。新建的地下停車場,常配有車位地磁傳感器,可精確檢測每個車位的占用情況。而老舊的大型地面停車區(qū)域,缺乏檢測傳感器,時常出現(xiàn)亂停亂放的情況。車主需占用主干道路不斷尋找空余車位,極易造成交通擁堵。若對每個車位部署傳感器,需要較高的資金成本。
我們將監(jiān)控與圖像識別技術結合,獲取停車場的監(jiān)控信息與感應器產(chǎn)生的數(shù)據(jù),基于圖像識別技術產(chǎn)生相應的判別結果,實時上傳車位信息。根據(jù)對車位信息的智能化判斷,引導用戶前往空閑停車場。當用戶面對陌生復雜的停車場環(huán)境時,通過掃描地面車位號碼,系統(tǒng)將自動定位用戶并對用戶所泊車輛位置進行導航。
2智能停車系統(tǒng)
傳統(tǒng)停車場系統(tǒng)存在無法實時提供位置信息、無法顯示空余車位及無法車位資源共享等問題,智能化停車管理系統(tǒng)也必然會成為未來社會的必備設施。區(qū)別于只通過使用地磁傳感器、RFID讀卡器塒、攝像頭等進行監(jiān)控檢測,本文利用了基于圖像深度學習的停車位識別及查詢方法。圖像采集服務采集停車場圖像,圖像識別服務采用深度學習算法,對新采集的圖像進行識別預測,在服務查詢數(shù)據(jù)庫中獲取信息,根據(jù)空余車位的相對位置在車位平面圖標注出空余車位。
3智能停車服務系統(tǒng)的開發(fā)
3.1管理員端
管理員注冊并登錄后,可上傳自己需要管理的停車場相關信息、查看停車場地圖、查看停車場監(jiān)控、上傳停車場數(shù)據(jù)并設置監(jiān)測區(qū)域、查看自動生成的停車場平面圖。
3.1.1停車場信息管理
管理員將所需管理的停車場有關信息上傳至系統(tǒng)數(shù)據(jù)庫中保存,并通過實時監(jiān)控和圖像識別技術,對停車場的剩余車位信息進行實時更新。
3.1.2停車場的實時監(jiān)控
管理員需將停車場攝像頭的IP、密碼及端口號錄入系統(tǒng)。此后可在系統(tǒng)中查看實時的監(jiān)控畫面,下載錄像和查看歷史記錄。
3.1.3停車場的車位信息
對于無框露天停車場,管理員需上傳一張該停車場的平面圖,并手動勾勒可用車位邊緣,上傳車位信息。當管理員進行查詢時,系統(tǒng)可根據(jù)預存的車位信息,進行車位檢測,并將結果生成該停車場的平面圖。
3.2小程序端
用戶可查詢某一停車場的空位信息和使用停車場導航,我們正在開發(fā)模擬室內(nèi)導航功能。用戶在停車后,掃描車位前的字母,系統(tǒng)會記錄車位所在位置,也可通過室內(nèi)導航功能尋找自己已停放的車。
4算法描述
4.1基于VGGl6的圖像識別
圖像分類識別是計算機視覺的一個應用,其研究也是打開視覺應用大門的必經(jīng)之路。本文在現(xiàn)有的13層卷積的神經(jīng)網(wǎng)絡VGGl6模型和遷移學習技術的基礎上構造了一個小規(guī)模的汽車分類的卷積神經(jīng)網(wǎng)絡模型,將圖像特征向量作為輸入,圖像分類結果作為深度學習算法的輸出,在樣本容量較小的情況下也取得了較好的成果。
VGGNet相比AlexNet采用連續(xù)的3x3的卷積核代替AlexNet中的較大卷積核。對于給定的感受野,采用堆積的小卷積核優(yōu)于大的卷積核,因為多層非線性層可以用更小的代價來增加網(wǎng)絡深度來保證學習更復雜的模式。在VGGl6中使用3個3x3卷積核來代替7x7卷積核,使用2個3x3卷積核來代替5x5卷積核,在保證具有相同感知野的條件下,提升了網(wǎng)絡的深度,在一定程度上提升了神經(jīng)網(wǎng)絡的效果。參數(shù)數(shù)量由49xC2減少到27xC2(C指的是輸入和輸出的通道數(shù)),且小卷積核更好地保持圖像性質(zhì),提高了神經(jīng)網(wǎng)絡模型的性能。
4.2模型結構
VGG16是基于大量真實圖像的ImageNet圖像庫預訓練的網(wǎng)絡。我們將學習好的VGGl6的權重遷移到自己的卷積神經(jīng)網(wǎng)絡上作為網(wǎng)絡的初始權重,避免從頭開始從大量的數(shù)據(jù)里面訓練,顯著提高訓練速度和模型精度。此外我們又添加了兩層Dense層,用于進一步對汽車的特征進行學習,最后Softmax層用于輸出分類結果。
模型中使用了RELU修正線性單元作為激活函數(shù),相比于傳統(tǒng)的神經(jīng)網(wǎng)絡激活函數(shù),能夠更有效地梯度下降以及反向傳播,避免梯度爆炸和梯度消失的問題。同時用RELU替代復雜的指數(shù)函數(shù),也簡化了計算過程。
4.3實時獲取車位信息
構建該車位檢測模型主要有兩個步驟:
1)從前端獲取待檢測區(qū)域信息;
2)使用我們預訓練的模型檢測每個停車位,并預測是否有人停車。
通過使用旋轉、對稱等方式來擴充數(shù)據(jù)集,將數(shù)據(jù)分成15批,訓練后得到的模型準確率達到94%,如圖2:我們對學院樓下停車位進行了實地檢測,結果如圖3:
5自然場景文字檢測及識別
5.1自然場景下文字識別
場景圖像中的文本區(qū)域與通用物體不同,不僅具有更多的尺度,而且可以分布在圖像的任意區(qū)域,容易受類似文字的背景的干擾。本文針對以上問題,結合深度學習的相關技術,使用YOLO模型進行文本定位,在定位的文本上使用CRNN+CTC模型進行文字識別,解決了在自然場景下對停車位上相關文字進行識別的難題。
5.2文本定位模型
YOLOv3是到目前為止,速度和精度最均衡的目標檢測網(wǎng)絡。通過多種先進方法的融合,避免了YOLO系列不擅長檢測小物體的問題。
5.2.1多標簽分類預測
YOLO中使用邏輯回歸預測每個邊界框的對象分數(shù)。與YOLOv2不同,我們的系統(tǒng)只為每個ground truth對象分配一個邊界框。如果先前的邊界框未分配給grounding box對象,則不會對坐標或類別預測造成損失。每個框使用多標簽分類來預測邊界框可能包含的類。在訓練過程中,我們使用二元交叉熵損失來進行類別預測。對于重疊的標簽,多標簽方法可以更好地模擬數(shù)據(jù)。
5.2.2跨尺度預測
YOLOv3采用多個尺度融合的方式做預測。采用類似FPN的上采樣和融合做法,在多個規(guī)模的特征圖上做檢測,對于小目標的檢測效果提升較為明顯。由于采用了多尺度的特征融合,所以邊界框的數(shù)量大幅增多。
5.2.3網(wǎng)絡結構改變
使用新的網(wǎng)絡來實現(xiàn)特征提取。相比于Darknet-19中添加殘差網(wǎng)絡的混合方式,將其擴充為53層并稱之為Darknet-53。其浮點運算少,速度快,可實現(xiàn)每秒最高的測量浮點運算和更好地利用GPU進行有效評估。
5.3文本識別模型
CRNN(Convolutional Recurrent Neural Network)是一種卷積循環(huán)神經(jīng)網(wǎng)絡,用于解決基于圖像的序列識別,如場景文字識別問題。
網(wǎng)絡結構包含三部分,從下到上為:
1)卷積層。作用是從輸入圖像中提取特征序列。由標準的CNN模型中的卷積層和最大池化層組成。
2)循環(huán)層。由一個雙向LSTM循環(huán)神經(jīng)網(wǎng)絡構成,循環(huán)層的誤差被反向傳播,最后會轉換成特征序列,再把特征序列反饋到卷積層,這個轉換操作由自定義網(wǎng)絡層完成,作為卷積層和循環(huán)層之間連接的橋梁。
3)轉錄層。在雙向LSTM網(wǎng)絡的最后連接上CTC模型,做到端對端的識別。所有樣本點的概率傳輸給CTC模型后,輸出最可能的標簽,再經(jīng)過去除空格和去重操作,可得到最終的序列標簽。
5.4基于yolov3和CRNN實現(xiàn)文字識別
構建該檢測模型主要步驟:
1)文字檢測:首先檢測方向,基于圖像分類,在VGGl6模型的基礎上,遷移訓練0、90、180、270度的文字方向分類模型,訓練圖片100000張,準確率95.10%。yolo文字訓練和其他對象檢測訓練方式類似,唯一不同的是,后續(xù)有一個box聚類,原理參考了CTPN相關代碼。
2)文本識別:CRNN+CTC訓練就是支持不定長識別,首先CNN提取圖像卷積特征,然后LSTM進一步提取圖像卷積特征中的序列特征,最后引入CTC解決訓練時字符無法對齊的問題。
我們用模型對實驗室的門牌做了測試,結果如圖5。
6結束語
針對現(xiàn)代社會停車難問題,本文利用基于VGGl6的卷積神經(jīng)網(wǎng)絡,快速對停車場內(nèi)車輛及可用停車位數(shù)量等信息進行獲取,并實時將信息傳至服務器,同步至客戶端,使用戶可遠程獲知附近停車場當前車位狀況。利用深度學習技術對車牌的自動識別實現(xiàn)了車輛管理的自動化,可降低停車場運營成本。通過多種技術整合,解決了停車場的管理和用戶的停車難題,提升了用戶的出行體驗,既具有創(chuàng)新性又有很強的實用價值。