杜啟亮 向照夷 田聯(lián)房,3
(1.華南理工大學 自動化科學與工程學院,廣東 廣州 510640;2.華南理工大學 自主系統(tǒng)與網(wǎng)絡控制教育部重點實驗室,廣東 廣州 510640;3.華南理工大學 珠?,F(xiàn)代產(chǎn)業(yè)創(chuàng)新研究院,廣東 珠海 519175)
如今視頻監(jiān)控攝像機分布在公共場所的各個角落,促使智能視頻監(jiān)控系統(tǒng)成為安防的主要手段,被廣泛運用在商場、醫(yī)院、學校等場所。而客流量檢測是其重要的研究內容之一,對于智能安防、智慧旅游、交通規(guī)劃等領域的研究具有重要的意義[1-3]。
傳統(tǒng)監(jiān)控系統(tǒng)中的客流量統(tǒng)計任務大多是基于人工設計和提取特征完成的。李航等[4]通過提取俯視行人頭部的梯度范數(shù)(NG)和梯度方向直方圖(HOG)特征,使用支持向量機(SVM)完成乘客頭部檢測,并通過CamShift算法進行乘客跟蹤來實現(xiàn)客流量統(tǒng)計。Haq等[5]為了提高運行速度,只提取了HOG特征,并采用KLT(Kanade Lucas Tomasi)跟蹤器,同時手動設定待檢測區(qū)域以減少運算量。這些方法的特征表達能力弱,從而導致統(tǒng)計精度較低。杜啟亮等[6]使用表征能力更強的AdaBoost算法進行頭部識別,利用Kalman算法進行目標跟蹤,但該算法只能從乘客正上方檢測頭部,應用場景受到限制,且攝像機垂直向下的安裝方法導致獲取到的乘客信息大幅減少,不利于集成其他監(jiān)控任務。文獻[7-8]則通過檢測手扶電梯梯級上特征較為豐富的人臉進行客流量統(tǒng)計,避免了限制攝像機安裝方式,然而在地鐵環(huán)境中通常乘客較為擁堵,后面的乘客易被前面乘客遮擋而影響跟蹤,造成人員的漏檢及客流量的錯誤統(tǒng)計。因此,以上基于淺層學習的算法,雖然實時性較高,但人工特征過于簡單,難以適應復雜環(huán)境,統(tǒng)計準確率不理想。
隨著神經(jīng)網(wǎng)絡的興起,深度學習相關方法不斷應用于客流量統(tǒng)計任務中,相較于傳統(tǒng)方法可以自動地從數(shù)據(jù)中提取有用的特征,解決了傳統(tǒng)手工特征表達能力不足的問題。朱林峰等[9]使用Faster R-CNN進行人頭檢測,并利用全卷積孿生網(wǎng)絡(SiamFC)算法實現(xiàn)乘客跟蹤,客流量統(tǒng)計準確率有較大的提升,但跟蹤過程只依賴于第一幀檢測結果,在目標發(fā)生較大形變或遮擋時容易造成目標丟失。Liu等[10]使用YOLOv2檢測乘客,并結合多示例學習(MIL)算法對乘客位置進行預測,以重疊度作為數(shù)據(jù)關聯(lián)的依據(jù)實現(xiàn)乘客跟蹤與客流量統(tǒng)計,檢測速度有所提升但只適用于乘客稀疏的情況。沈爽[11]使用YOLOv3網(wǎng)絡進行乘客檢測,并使用DeepSORT算法進行跟蹤,利用連續(xù)多幀圖像間的特征相似度緩解乘客之間的遮擋問題,但跟蹤算法的時間復雜度大幅增加。Hsu等[12]使用單發(fā)多框檢測器(SSD)網(wǎng)絡對乘客頭部進行檢測,提出了一種結合空間距離、外觀特征及運動模式的級聯(lián)數(shù)據(jù)關聯(lián)方法,解決了公交車環(huán)境下客流量統(tǒng)計的遮擋問題,但跟蹤算法較為復雜。Velastin等[13]證明了人頭跟蹤任務中未使用圖像特征的SORT算法要優(yōu)于DeepSORT算法,但未給出遮擋情況下的處理方法且人頭檢測模型過大。以上基于深度學習的算法主要依賴大型的網(wǎng)絡結構來提高統(tǒng)計準確率,存在網(wǎng)絡結構復雜、參數(shù)量大、運行效率低的問題。
然而,算法的運行環(huán)境并非都是高性能計算平臺,隨著邊緣設備的快速發(fā)展,社會上出現(xiàn)了越來越多的嵌入式設備,其憑借自身價格低、體積小等優(yōu)勢被各大公司廣泛使用,但也存在計算能力不及高性能服務器的缺點,無法實時運行計算量很大的算法。
為了使客流量統(tǒng)計算法在保證統(tǒng)計準確率的前提下,可以高效地運行在嵌入式設備中,本文設計了一種面向嵌入式設備的扶梯客流量實時統(tǒng)計方法。該方法首先對手動截取的感興趣區(qū)域(ROI)圖像進行無失真縮放,以保持檢測圖像與訓練樣本信息分布一致;然后搭建本文提出的YOLOv4-tiny-fast目標檢測網(wǎng)絡,調整合適的參數(shù)進行訓練,并使用訓練好的網(wǎng)絡進行乘客人頭的實時檢測,使用改進的目標跟蹤算法獲得乘客的運動軌跡;最后根據(jù)乘客軌跡完成客流量統(tǒng)計任務,并與其他算法進行了對比。
在輸入目標檢測網(wǎng)絡之前,需要對輸入圖像進行預處理。實際環(huán)境中,相機的高度無法固定,采集到的圖像與訓練集差別較大,易導致檢測效果變差。為避免無關信息對乘客跟蹤計數(shù)的影響,應該對不同場景下相機采集到的原圖像手動選定乘客檢測區(qū)域ROI,盡可能地不引入非計數(shù)目標。
由于ROI的長寬無法固定,而輸入檢測模型的圖像I1長寬固定,且必須是32的整數(shù)倍,如果強行改變ROI圖像的大小為模型所需輸入大小,必將產(chǎn)生拉伸失真,從而導致測試圖像與訓練樣本圖像信息的不一致,無法充分發(fā)揮檢測模型的性能,因此本文提出了一種無失真縮放的圖像預處理方法:固定I1的尺寸,將ROI圖像的長寬以相同的比例縮放并粘貼至I1中心,未鋪滿區(qū)域使用中值填充,處理效果見圖1??梢钥闯?,該縮放方法得到的圖像無拉伸失真,保證了處理前后圖像信息的分布一致性,排除了圖像失真對檢測模型準確率的影響,為后續(xù)對檢測模型的優(yōu)化打下基礎。該處理方法與手動ROI選取相結合,在不同場景、不同ROI尺寸下都可以獲得相同大小的圖像,保證了輸入檢測模型的圖像尺寸固定,且在圖像不發(fā)生形變的前提下,去除了大量的無關噪聲,大幅減少運算量,提高檢測效果。
圖1 圖像預處理效果Fig.1 Preprocessing effect of image
相比傳統(tǒng)特征提取方法,基于深度學習的目標檢測方法具有適應性強、檢測精度高等優(yōu)點。相較于二階段模型,一階段檢測算法通常具有更快的檢測速度,但由于YOLO的深層次結構和巨大的參數(shù)量,各種輕量級網(wǎng)絡(YOLO-tiny[14]和YOLO Nano[15]等)被提出。YOLOv4-tiny是最新的YOLO輕量級網(wǎng)絡,相比YOLOv3-tiny主要增加了跨階段局部(CSP)網(wǎng)絡結構[16],將基礎層的特征映射劃分為兩部分,通過跨層連接將它們合并,增強了卷積神經(jīng)網(wǎng)絡的學習能力,在減少計算量的同時可以保證準確率??紤]到嵌入式設備的算力條件及算法的使用場景,本文對YOLOv4-tiny進行優(yōu)化,提出了YOLOv4-tiny-fast網(wǎng)絡。
在YOLOv4-tiny每個CSP結構之前及最后一個池化層之后各添加一個Reduce模塊。Reduce模塊主要由1×1卷積、批歸一化(BN)層和h-swish激活函數(shù)組成,通過卷積層將通道數(shù)進行減半壓縮,同時去除無用的通道特征,減少模型參數(shù)量。h-swish激活函數(shù)hswish(·)則是利用ReLU6函數(shù)R(·)近似swish函數(shù)[17],使其保留了非線性激活函數(shù)的擬合能力,且方便在嵌入式設備端運算,既保證運算效率,又提高模型性能,其實現(xiàn)公式如下:
(1)
同時使用深度卷積和點卷積(Dwise)替代網(wǎng)絡中部分傳統(tǒng)的3×3卷積。Dwise與傳統(tǒng)卷積的參數(shù)量比率為
(2)
其中,N為輸出特征圖通道數(shù),DK為卷積核的大小??梢缘贸?,對于3×3卷積,參數(shù)量近似縮減為原來的1/9[18]。將CSP和CBL(Conv+BN+LeakyReLU)結構中的傳統(tǒng)卷積替換為Dwise,并分別記為DCSP和DCBL,以降低模型推理復雜度,確保在無GPU的嵌入式設備平臺可滿足實時性,整體網(wǎng)絡結構如圖2所示。
圖2 YOLOv4-tiny-fast網(wǎng)絡的結構Fig.2 Structure of YOLOv4-tiny-fast network
多目標跟蹤算法是計算機視覺的一項重要研究內容,在各種技術中有著廣泛的運用。跟蹤算法極大地影響著客流量統(tǒng)計的效果?;诳柭鼮V波的跟蹤算法[19-20]只利用了檢測框的位置及寬度信息,對檢測結果的依賴過高;基于深度學習的目標跟蹤算法[21-23]利用了多種圖像特征,在檢測出第一幀圖像中的目標后可以不再依賴檢測器直接對目標進行跟蹤,精度高,但計算復雜,部署在嵌入式設備時實時性差。
最小輸出平方誤差和(MOSSE)算法[24]是先以上一幀檢測到的目標圖像作為模板,與當前幀對應的候選區(qū)域圖像進行卷積操作,并選取響應最大的位置作為當前幀的預測結果,更新模板后再進行下一幀的預測,當候選區(qū)域無較高響應時,視為跟蹤結束。該算法提取圖像特征的速度快,且本文場景下的目標特征較為簡單,故該算法足以取得較好的跟蹤精度。
使用檢測網(wǎng)絡得到第一幀乘客人頭位置框,將其作為MOSSE算法的初始模板,跟蹤效果如圖3所示,可以看出基本完成了跟蹤任務,但檢測框形狀始終不變,不能很好地適應人頭的變化,并且中心已經(jīng)偏移目標。
圖3 MOSSE算法的跟蹤效果Fig.3 Tracking effect of MOSSE algorithm
由2.1節(jié)可知,當跟蹤目標的形狀、顏色等特征發(fā)生變化時,MOSSE算法的預測結果會逐漸偏離,導致跟蹤失敗。鑒于目標檢測網(wǎng)絡較好的檢測性能,利用每幀的檢測結果對MOSSE模板進行更新,以抑制誤差累計,提高算法的預測精度。
將檢測結果與預測結果一一對應,實現(xiàn)目標編號及MOSSE模板更新的過程可視為一對一匹配任務,因此可考慮結合KM算法[25]實現(xiàn)目標跟蹤。
2.2.1 優(yōu)化矩陣
KM算法匹配的核心依據(jù)為優(yōu)化矩陣,優(yōu)化矩陣的各個元素反映了兩個目標間的相似度,該值越高,二者越有可能匹配成功。Bewley等[26]使用目標間的交并比(IoU)距離來計算優(yōu)化矩陣,但對于所有無交集的目標對,其值完全相同,造成相似度飽和,沒有區(qū)分度,不利于后續(xù)匹配過程的參數(shù)選??;Wojke等[27]在優(yōu)化矩陣中引入目標間的圖像特征相似度,但圖像特征的提取也導致運算量的大幅增加,增大了嵌入式設備的運算負擔。因此,針對以上問題,本文設計了一種適用于嵌入式設備算力的優(yōu)化矩陣,矩陣中元素dji代表檢測框j與跟蹤框i的相似度,dji計算方法為
(3)
dji=(Dji+1)/2
(4)
式中:Ls為檢測框和跟蹤框中心點之間的距離;L1為能夠同時覆蓋檢測框和跟蹤框的最小矩形的對角線距離,如圖4所示。
圖4 相似度計算示意圖Fig.4 Schematic diagram of similarity calculation
Dji的第一部分為目標之間的重疊度,反映二者的形狀相似度,目標靠近時二者的相似度快速增加;第二部分為目標中心點之間的距離,即距離相似度,保證目標之間無重疊時依然可以準確地計算相似度,避免目標移動過快時無法利用重疊度匹配目標。式(4)對Dji進行歸一化,使dji∈[0,1],得到匹配所需的優(yōu)化矩陣。該優(yōu)化矩陣計算簡單,可以在嵌入式設備平臺快速運行,且避免了相似度飽和問題。
2.2.2 優(yōu)化矩陣裁剪
KM算法在兩組數(shù)據(jù)元素數(shù)目相同且兩兩之間的相似度不為0時,可以對所有元素實現(xiàn)一對一匹配。假設跟蹤框A、B與檢測框C、D的位置如圖5所示,則由式(3)、(4)可得此時的優(yōu)化矩陣為
圖5 優(yōu)化矩陣計算示意圖Fig.5 Schematic diagram of optimization matrix calculation
AB
C
根據(jù)KM算法,最終的匹配結果是A-C和B-D。顯然B、D不應匹配成功,此時應該將跟蹤框B視為跟蹤丟失的目標,將檢測框D視為新增的目標。為此,本文對優(yōu)化矩陣算法進行修改,在匹配之前裁剪優(yōu)化矩陣。對于M行N列優(yōu)化矩陣E,若第i列滿足
?k∈[1,M],Eki (5) 則刪除E中的第i列,其中Eki為E的第k行第i列的值,Ethres為相似度閾值。同理,若第j行滿足 ?k∈[1,N],Ejk (6) 則刪除E中的第j行,得到裁剪后的優(yōu)化矩陣。 被剔除的行與列直接視其匹配失敗,并將裁剪后的優(yōu)化矩陣用于KM匹配,既保證了匹配的合理性,又減少了匹配的時間復雜度。 2.2.3 遮擋處理 上述優(yōu)化矩陣裁剪方法無法處理遮擋情況,即當某個跟蹤目標被遮擋時,該跟蹤目標會被視為丟失,影響客流量統(tǒng)計結果。朱林峰等[9]通過將當前幀檢測框與過往幀跟蹤框的外觀特征進行對比來解決該問題,但對于外觀特征相似的乘客頭部,該方法的檢測效果不明顯,且需要消耗大量的計算資源,無法在性能較差的嵌入式設備平臺實現(xiàn)實時運算。 通常在手扶電梯出入口處,由于靠近攝像機一側的乘客頭部較大,易對遠處較小的乘客頭部造成遮擋。根據(jù)這一特點,本文提出了一種遮擋處理方法,即利用已經(jīng)獲得的相似度矩陣對匹配失敗的跟蹤框進行二次匹配來完成對遮擋目標的跟蹤。在獲得檢測框j與跟蹤框i的相似度dji、檢測框數(shù)目M的情況下,對于匹配失敗的跟蹤框i,根據(jù) (7) 該方法允許部分檢測框匹配多個跟蹤框,當被遮擋目標重新出現(xiàn)時,可以自動實現(xiàn)對遮擋目標的持續(xù)跟蹤,緩解了KM算法只能一對一匹配造成乘客漏檢的問題,且算法復雜度低,幾乎沒有增加過多的計算開銷。 2.2.4 置信度策略 考慮到可能存在短暫的跟蹤或檢測失敗的情況,為保持跟蹤的連續(xù)性,本文提出了置信度策略。為每個目標設定置信度,初始值為0,處理完一幀圖像后,提高跟蹤成功目標的置信度,降低跟蹤失敗目標的置信度。若置信度低于設定閾值Cthres,則視該目標完全離開監(jiān)控范圍。 對于跟蹤目標i,其在第t幀的置信度為 (8) 該策略在目標出現(xiàn)時以對數(shù)規(guī)律緩慢增加置信度,在目標連續(xù)丟失時以指數(shù)規(guī)律快速衰減置信度以濾除短暫出現(xiàn)的誤檢目標。由于Cthres固定,在上述規(guī)則下人員若長時間逗留則無法及時視其離開,對后續(xù)其他目標的跟蹤造成影響,為此設定ND,thres來強制剔除長時間跟蹤失敗的目標。 2.2.5 客流量統(tǒng)計流程 圖6 本文客流量統(tǒng)計算法流程圖Fig.6 Flow chart of the proposed passenger flow statistics algorithm 1)t=0時H0=D0。 3)根據(jù)式(3)、式(4)計算Pt和Dt各個元素間的相似度,得到一個J行I列的優(yōu)化矩陣E。 4)依據(jù)式(5)、式(6)對E進行裁剪,將剔除的行號加入集合R(代表新進入監(jiān)控畫面的目標),將剔除的列號加入集合C(代表將要離開監(jiān)控畫面的目標),裁剪后的距離矩陣記為Ecut。 6)將R中所有目標添加至Ht中,依據(jù)式(8)增加R中目標及跟蹤成功目標的置信度,衰減C中目標的置信度,并結合Cthres判定目標是否離開監(jiān)控范圍內。 7)利用單線計數(shù)法[6],依據(jù)乘客的運行軌跡判斷乘客出入,以完成客流量統(tǒng)計。 其中,步驟1)至步驟6)即為本文的跟蹤算法,該算法的跟蹤效果如圖7所示,對比圖3可以看出,本文算法對人頭的跟蹤位置更加精確,可以準確反映出乘客頭部的位置。 圖7 本文算法的跟蹤效果Fig.7 Tracking effect of the proposed algorithm in this paper 在實驗平臺上運行本文算法,不同手扶電梯出入口的實際運行效果如圖8所示,其中使用ROI內的圖像進行乘客軌跡跟蹤,以中間的客流量統(tǒng)計線為基準,使用單線計數(shù)法進行客流量統(tǒng)計,圖中左上角實時記錄當前手扶電梯口出入客流量(ppIn/ppOut)、30 s內的動態(tài)客流量(pp30s)、處理速度(fps)等信息。 圖8 手扶電梯出入口的處理效果Fig.8 Treatment effect of escalator’s entrance and exit 本文所指的嵌入式設備是指可以運行Linux系統(tǒng)的低性能微型計算機,可以配置TensorFlow、PyTorch等深度學習框架及Python、C++開發(fā)環(huán)境。本文實驗硬件環(huán)境為Jetson AGX Xavier平臺,用以驗證該方法在嵌入式平臺上的性能。使用Ubuntu18.04操作系統(tǒng),主要的系統(tǒng)環(huán)境為Python3.7、OpenCV4.2、PyTorch1.6。程序主體使用C++編寫,使用PyTorch搭建檢測網(wǎng)絡并轉化為ONNX模型,使用OpenCV讀取該模型用于推理,以方便程序的維護。同時,開啟平臺的最大電源功耗模式,以考查嵌入式平臺下的極限處理速度。 針對檢測網(wǎng)絡算法,本文采用廣泛使用的平均精度均值(mAP)、參數(shù)量和每秒處理幀數(shù)(FPS)作為基準指標來驗證所提算法的有效性。針對跟蹤算法,以客流量統(tǒng)計準確度(acc)、FPS為基準指標。統(tǒng)計準確度的計算方法為 (9) 式中,NIN,T、NIN,D分別為從上往下進入的實際人數(shù)和測量人數(shù),NOUT,T、NOUT,D分別為從下往上出去的實際人數(shù)和測量人數(shù)。 分別截取不同手扶電梯出入口不同時刻的監(jiān)控視頻,并挑取關鍵幀手動標注圖中所有乘客的頭部位置,共得到訓練集圖像5 000幅,驗證集圖像500幅,測試集圖像500幅。 使用4種檢測算法(YOLOv4-tiny算法、添加Reduce模塊的YOLOv4-tiny-Reduce算法、將YOLOv4-tiny中的卷積全部替換為Dwise的YOLOv4-tiny-Dwise算法和YOLOv4-tiny-fast算法)進行實驗,將輸入圖像大小統(tǒng)一調整為416×416,使用Adam優(yōu)化器,學習率初始值為0.001,并逐次遞減,共迭代訓練100次。以在驗證集上性能最優(yōu)的模型來對測試集進行預測,各檢測算法的預測結果如表1所示。從表中可知,Reduce結構在減少參數(shù)量的同時提高了模型的檢測精確度。將網(wǎng)絡模型中的所有卷積全部替換為Dwise,雖然可以大幅減少參數(shù)量,但也造成了檢測精確度的較大損失。本文提出的YOLOv4-tiny-fast模型與YOLOv4-tiny相比,mAP值有小幅提升,模型參數(shù)減少了59%,且檢測速度提升了31%,更適合部署在嵌入式設備上。 表1 檢測算法的性能對比Table 1 Performance comparison of detection algorithms YOLOv4-tiny和YOLOv4-tiny-fast網(wǎng)絡在公開數(shù)據(jù)集SCUT-HEAD[28]、Brainwash[29]上的性能對比如表2所示,其中SCUT-HEAD包含A組校園室內數(shù)據(jù)和B組網(wǎng)絡爬蟲數(shù)據(jù),Brainwash為咖啡廳內 表2 YOLOv4-tiny和YOLOv4-tiny-fast網(wǎng)絡在不同數(shù)據(jù)集下的性能對比Table 2 Performance comparison of YOLOv4-tiny and YOLOv4-tiny-fast with different datasets 的人員頭部數(shù)據(jù)。表2表明,本文所提檢測算法在復雜數(shù)據(jù)集上的擬合能力相對于YOLOv4-tiny網(wǎng)絡差距不大,但模型參數(shù)量更小,推理速度更快。 為驗證圖像失真對算法檢測性能的影響,對驗證集分別使用普通縮放方法和本文預處理方法縮放到(416,416)、(416,448)、(416,512)、(416,544)、(416,608)、(416,672)、(416,736)、(416,768)、(416,832)大小,以模擬實際環(huán)境下不同的ROI尺寸,各種情況的檢測精度如圖9所示。 圖9 圖像失真影響對比圖Fig.9 Comparison of the effect of image distortion 可以看出,隨著圖像失真程度的增加,縮放操作的檢測效果逐漸變差,而本文算法的檢測精度不受影響,性能穩(wěn)定,說明該算法可以在ROI尺度變化時保證模型的檢測效果,適用于測試環(huán)境復雜、檢測區(qū)域不固定的場景。 為探究本文所提跟蹤算法對最終客流統(tǒng)計準確度的影響,截取同一車站多個時間段的監(jiān)控視頻,拼接在一起組成最終的測試視頻,在該視頻的基礎上進行相應的消融實驗以探究跟蹤算法各部分的影響。不同優(yōu)化矩陣計算方法對客流量統(tǒng)計準確度的影響如表3所示,可以看出:將IoU作為相似度的優(yōu)化矩陣準確度最低,主要是因為在乘客運動速度較快時,IoU將變?yōu)?,無法準確反映檢測目標與跟蹤目標之間的相似度;廣義交并比(GIoU)雖然避免了相似度為0的情況,但acc仍低于本文算法,說明本文算法的相似度度量標準更為合理。 在測試視頻中不同相似度閾值對統(tǒng)計準確度的影響如圖10所示。當相似度閾值為0,即不對優(yōu)化閾值進行裁剪時,準確度只有55.53%;隨著閾值的不斷提高,準確度整體呈現(xiàn)先增后減的趨勢,當閾值為0.6時準確度達到最高值98.08%,說明優(yōu)化矩陣裁剪策略較大程度地提升了跟蹤準確度。 遮擋處理對本文算法跟蹤性能的影響如表4所示,由表中可知,相比無遮擋處理,對跟蹤框的二次匹配在一定程度上減少了漏檢的乘客數(shù)量,進而提高了跟蹤準確度,說明該處理方法可以有效緩解乘客跟蹤過程中的目標遮擋情況。 表4 遮擋處理對本文算法跟蹤性能的影響Table 4 Effect of occlusion processing on the tracking perfor-mance of the proposed algorithms in this paper 置信度策略對本文算法跟蹤性能的影響如表5所示??梢钥闯?,未使用置信度策略時,漏檢數(shù)大幅增加,統(tǒng)計準確度較低。究其原因,在檢測過程中會出現(xiàn)目標的漏檢,導致目標軌跡不連續(xù),進而影響客流量統(tǒng)計,而置信度策略相當于起到了一個緩沖的作用,可以在短暫目標丟失的情況下保證軌跡的連續(xù)性,提高了統(tǒng)計準確度。 表5 置信度策略對本文算法跟蹤性能的影響Table 5 Effect of confidence strategy on the tracking perfor-mance of the algorithm in this paper 為分析所提面向嵌入式設備的扶梯客流量實時統(tǒng)計方法的性能,本文截取不同車站、不同時間、不同密度下共16段手扶電梯出入口的視頻序列進行實驗分析,測試視頻部分截圖如圖11所示,各子圖中左上角數(shù)字為視頻編號,如視頻1對應編號為1的視頻序列,表示其在傍晚時分拍攝于車站1的扶梯入口處,其余視頻特點可依次類推。車站1、2的視頻(見表6)拍攝于地面出入口,在白天和傍晚的光照條件會發(fā)生變化,而進站出站人員相對比較分散,不易出現(xiàn)擁擠情況,因此用于探究不同時間段即不同光照條件對算法性能的影響。車站3、4的視頻(見表7)拍攝于地鐵內部,光照穩(wěn)定,而乘客上下扶梯較為集中,易出現(xiàn)乘客擁擠情況,因此用于探究不同客流密度對算法的影響。 圖11 測試視頻截圖Fig.11 Screenshot of test video 表6 視頻特點說明1Table 6 Video feature description 1 表7 視頻特點說明2Table 7 Video feature description 2 使用本文方法對上述16段測試視頻的統(tǒng)計結果如表8、表9所示,從表8中可以看出,扶梯入口處的97.11%檢測準確度要優(yōu)于出口處的96.19%,主要由于面部特征相較于背部特征更加復雜,檢測難度更大,更容易造成漏檢問題。 表8 扶梯入口處客流統(tǒng)計結果Table 8 Passenger flow statistics at the entrance of escalator 表9 扶梯出口處客流統(tǒng)計結果Table 9 Passenger flow statistics at the exit of escalator 對比視頻1和2、3和4、5和6、7和8的檢測結果可以看出,白天由于光照更加充足,更容易分辨出乘客頭部,漏檢數(shù)略低,而傍晚光照略暗,不利于乘客的檢測,客流量統(tǒng)計準確度略有下降。 對比視頻9和10、11和12、13和14、15和16的檢測結果可以看出,稀疏情況下的統(tǒng)計準確度要高于擁擠情況下,主要是由于跟蹤過程中遮擋情況的出現(xiàn)對統(tǒng)計準確度產(chǎn)生了一定的影響,但最低準確度依然達到94.55%,反映了本文算法對擁擠情況仍具有良好的統(tǒng)計性能。 16段測試視頻的平均統(tǒng)計準確度達到96.66%,說明了本文算法在不同車站、不同時間段、不同客流密度下仍然可以保持良好的客流統(tǒng)計效果。 為進一步分析本文扶梯客流量實時統(tǒng)計方法的性能,使用本文方法和其他方法在上述16段測試視頻上進行測試,并計算出對應的客流量統(tǒng)計準確度,結果如表10所示。相對于使用傳統(tǒng)特征檢測乘客的方法,本文方法的統(tǒng)計準確度具有較大的提升,檢測速度也有一定的提高;相對于使用深度學習網(wǎng)絡的算法,由于檢測算法參數(shù)量和跟蹤算法復雜度的降低,整體處理速度大幅提高,且統(tǒng)計準確度也有一定的增加。這是因為實驗環(huán)境較為單一,不必使用大型檢測網(wǎng)絡,而且乘客頭部特征較為相似,使得嚴重依賴圖像特征的深度學習跟蹤算法在該實驗環(huán)境下的性能表現(xiàn)不佳,也導致試圖依靠圖像特征來解決遮擋問題的方法難以產(chǎn)生良好的效果。文獻[30]方法雖然對檢測模型進行了輕量化,檢測速度有所提高,但未對遮擋情況進行處理,因此客流量的統(tǒng)計準確度較低。本文方法通過對檢測及跟蹤算法的改進,使其在嵌入式設備上達到了96.66%的統(tǒng)計準確度和25 f/s的處理速度。 表10 幾種方法的統(tǒng)計性能對比Table 10 Comparison of the statistical performance of several methods 本文設計了一種無失真縮放方法,使得不同長寬比的客流量統(tǒng)計區(qū)域擁有相同的檢測效果,相比傳統(tǒng)縮放方法效果更優(yōu);提出了用于檢測乘客頭部的YOLOv4-tiny-fast模型,其檢測準確率在SCUT-HEAD和Brainwash數(shù)據(jù)集上與YOLOv4-tiny相當,但模型大小減少了59%,推理速度提高了31%;提出了一種結合自定義優(yōu)化矩陣及遮擋處理的匹配算法,測試視頻的目標跟蹤結果取得了96.66%的平均統(tǒng)計準確率;本文所提出的面向嵌入式設備的扶梯客流量實時統(tǒng)計方法在不使用GPU加速的情況下達到每秒25幀的檢測速度,適合部署在性能較低的嵌入式設備平臺,與已有的客流量統(tǒng)計算法相比具有較大的優(yōu)勢,對實際場景下的扶梯實時視頻監(jiān)控具有重要的意義。3 實驗結果分析
3.1 實驗平臺
3.2 評價指標
3.3 檢測算法性能分析
3.4 跟蹤算法性能分析
3.5 多場景下算法性能分析
3.6 與其他方法的統(tǒng)計性能對比
4 結語