蒲安會(huì)
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海 201600)
隨著城市經(jīng)濟(jì)的發(fā)展,在現(xiàn)代社會(huì)地鐵已經(jīng)成為人們出行的主流方式,地鐵的高安全性使人們的出行安全得到了保障。因此,越來(lái)越多的人選擇地鐵出行。由于地鐵運(yùn)營(yíng)的載客運(yùn)營(yíng)容量大,人口流動(dòng)性大,車內(nèi)空間狹小。因此,地鐵中各種突發(fā)情況、不文明行為越來(lái)越多,而地鐵的管理人員不能夠及時(shí)地發(fā)現(xiàn)這些行為和情況,導(dǎo)致各種悲劇的發(fā)生。地鐵上的不文明行為有很多種類型,例如在車廂里嬉戲打鬧、扔垃圾、打架以及躺在座位上占座等。而突發(fā)暈倒情況也屢見不鮮,沒(méi)有及時(shí)搶救的話很有可能造成悲劇。
針對(duì)上述問(wèn)題,本研究的意義重大,在乘客倒地、不文明行為、不佩戴口罩等情況下能夠及時(shí)的檢測(cè)到并報(bào)警,方便地鐵工作人員及時(shí)處理上述情況。
本文以深度學(xué)習(xí)為背景,將人工智能與圖像識(shí)別相結(jié)合,針對(duì)地鐵上人的各種違規(guī)行為,將深度學(xué)習(xí)應(yīng)用于關(guān)節(jié)點(diǎn)檢測(cè)。
本文的實(shí)際應(yīng)用情況選取了HigherHRNet 模型,HigherHRNet 模型是目前在多人關(guān)節(jié)點(diǎn)識(shí)別任務(wù)bottom-up 中最先進(jìn)的算法,模型不僅在關(guān)節(jié)點(diǎn)定位上更加準(zhǔn)確,還能夠識(shí)別圖片中人物較小的關(guān)節(jié)點(diǎn)。然而該模型在實(shí)際應(yīng)用中存在模糊圖像無(wú)法檢測(cè)到關(guān)節(jié)點(diǎn)、鏡像圖像的干擾、非正常姿勢(shì)關(guān)節(jié)點(diǎn)檢測(cè)不全等問(wèn)題,本文分別進(jìn)行了超分辨率重建[1-4]、雙閾值、修改關(guān)節(jié)點(diǎn)之間的強(qiáng)相關(guān)的方法從而解決了上述三個(gè)問(wèn)題。
本文主要應(yīng)用場(chǎng)景是地鐵車廂,因此本文的關(guān)節(jié)點(diǎn)檢測(cè)面向很多人,多人關(guān)節(jié)點(diǎn)檢測(cè)分為自上而下和自下而上。自上而下的含義是先檢測(cè)出多個(gè)人,然后再對(duì)每個(gè)人進(jìn)行關(guān)節(jié)點(diǎn)檢測(cè)。自下而上的含義是先檢測(cè)出所有關(guān)節(jié)點(diǎn),再判斷關(guān)節(jié)點(diǎn)屬于哪個(gè)人。
上述的方法都是分為兩步,即先檢測(cè)出所有的關(guān)節(jié)點(diǎn),然后將關(guān)節(jié)點(diǎn)分類到每個(gè)人身上,但是這樣做的結(jié)果會(huì)導(dǎo)致效率變低。2019 年,Nie[5]提出了single-stage 的方法,該方法不同于以往的關(guān)節(jié)點(diǎn)拼接成完整的人,而是直接預(yù)測(cè)人。主要方法是對(duì)Heatmap 進(jìn)行回歸得到一個(gè)root joint 關(guān)節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)就是人的形心,然后將得到的各個(gè)關(guān)節(jié)點(diǎn)的offset 與形心的向量,然后用8 個(gè)hourglass 網(wǎng)絡(luò)結(jié)構(gòu)來(lái)訓(xùn)練預(yù)測(cè)這些偏移量。
目前人體關(guān)節(jié)點(diǎn)數(shù)據(jù)集分為單人數(shù)據(jù)集和多人數(shù)據(jù)集,含義是一張圖片中標(biāo)注了一個(gè)人的關(guān)節(jié)點(diǎn)和一張圖片中標(biāo)注了多個(gè)人的關(guān)節(jié)點(diǎn),上述兩種數(shù)據(jù)集都對(duì)本文的研究有所幫助,因此本文的數(shù)據(jù)集是兩種數(shù)據(jù)集的融合。
HigherHRNet[6]模型是目前在多人關(guān)節(jié)點(diǎn)識(shí)別任務(wù)bottom-up 中最先進(jìn)的算法,模型不僅在關(guān)節(jié)點(diǎn)定位上更加準(zhǔn)確,還能夠識(shí)別圖片中人物較小的關(guān)節(jié)點(diǎn)。
HigherHRNet 在HRNet[7]的基礎(chǔ)上進(jìn)行了改進(jìn),作者發(fā)現(xiàn)目前的研究對(duì)圖像中小尺度的人物關(guān)節(jié)點(diǎn)檢測(cè)任務(wù)精度都不高,因此其主要研究重點(diǎn)放在了應(yīng)對(duì)尺度變化,即在不犧牲大人體性能的情況下提高小人體的性能以及生成高質(zhì)量的高分辨率熱圖,從而精確定位小型人群的關(guān)節(jié)點(diǎn)。
作者提出了尺度感知高分辨率網(wǎng)絡(luò)HigherHRNet,通過(guò)新的高分辨率特征金字塔模塊生成高分辨率熱圖。作者在HRNet的1/4 分辨率路徑上構(gòu)建高分辨率要特征金字塔,以使其高效。為了使HigherHRNet 能夠處理尺度變化,進(jìn)一步提出了一種多分辨率監(jiān)督策略,以將不同分辨率的訓(xùn)練目標(biāo)分配給相應(yīng)的特征金字塔級(jí)別。最后,我們?cè)谕评磉^(guò)程中引入了一種簡(jiǎn)單的“多分辨率熱圖聚合”策略,以生成尺度感知的高分辨率熱圖。
圖1 是網(wǎng)絡(luò)結(jié)構(gòu)的示意圖,首先網(wǎng)絡(luò)是一個(gè)Stem 結(jié)構(gòu),由兩個(gè)3×3 卷積層組成,步長(zhǎng)為2,得到了1/4 分辨率的輸出,之后進(jìn)入到HRNet 網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過(guò)該結(jié)構(gòu)后得到原始圖像1/4 分辨率的熱圖,之后用多個(gè)反卷積模塊來(lái)生成多分辨率和高等分辨率熱圖。反卷積模塊將來(lái)自HRNet 的特征和預(yù)測(cè)熱圖作為輸入,并生成分辨率比輸入特征圖大2 倍的新特征圖。
圖1 HigherHRNet 模型結(jié)構(gòu)示意圖
因此,反卷積模塊會(huì)與HRNet 的特征圖一起生成具有兩種分辨率的特征金字塔。反卷積模塊還通過(guò)添加額外的1×1 卷積來(lái)預(yù)測(cè)熱圖。
2.2.1 HigherHRNet 模型的結(jié)構(gòu)應(yīng)用改進(jìn)
在實(shí)際應(yīng)用的情況下,攝像機(jī)拍攝到的圖片或者視頻不全是高清的,也有模糊的,如圖2 所示,當(dāng)人物在圖中分辨率高時(shí),可以檢測(cè)出來(lái)所有的關(guān)節(jié)點(diǎn),而當(dāng)目標(biāo)人物在圖中比較模糊時(shí),模型無(wú)法檢測(cè)到關(guān)節(jié)點(diǎn)。而如何在此情況下準(zhǔn)確地定位出人類關(guān)節(jié)點(diǎn)成為實(shí)際應(yīng)用的難點(diǎn)。
圖2 HigherHRNet 模型檢測(cè)模糊的照片效果圖
本文首先在網(wǎng)絡(luò)中加入了超分辨率重建技術(shù)以提高圖片的清晰程度,使進(jìn)入到高分辨率特征金字塔之前圖片是足夠清晰的,為了達(dá)到實(shí)際應(yīng)用的要求,首先重構(gòu)的分辨率要滿足HigherHRNet 的輸入要求,使網(wǎng)絡(luò)能夠順利檢測(cè)出關(guān)節(jié)點(diǎn),其次分辨率結(jié)構(gòu)不能太過(guò)復(fù)雜,需要滿足實(shí)時(shí)性的要求。
2.2.2 HigherHRNet 模型的輸出應(yīng)用改進(jìn)
改進(jìn)一:在地鐵車廂中,根據(jù)實(shí)際情況我們知道車廂中攝像頭拍攝的圖片并不是完美的,例如在夜晚時(shí),地鐵窗口會(huì)反射人的影子,由于模型對(duì)能夠適應(yīng)光線的變化,因此導(dǎo)致模型會(huì)預(yù)測(cè)鏡子中的關(guān)節(jié)點(diǎn),如圖3 所示。
圖3 鏡子中反射的人形
本文對(duì)HigherHRNet 模型進(jìn)行了后處理,采用的方法是雙閾值法[8-9],根據(jù)兩個(gè)閾值來(lái)剔除掉鏡子中反射的人物。由于每個(gè)車廂都有攝像頭,因此不存在特別小的人物。然而如果去掉生成高分辨率熱圖的操作,雖然能夠篩選掉圖片中的小人物,但也會(huì)使關(guān)節(jié)點(diǎn)的定位不準(zhǔn)確,原因是當(dāng)像素高的時(shí)候,單個(gè)像素占圖像的比例很小,而模型是對(duì)單個(gè)像素進(jìn)行識(shí)別,因此定位非常準(zhǔn)確。
本文改進(jìn)的方法是利用各個(gè)關(guān)節(jié)點(diǎn)之間的連線來(lái)判斷否是鏡子的反射,判斷分為兩步,第一步是將17 個(gè)關(guān)節(jié)進(jìn)行連線,關(guān)節(jié)點(diǎn)分別表示為I1,I2,I3,…I17,共16 條連線,如式(1)所示:
Sb為設(shè)定的長(zhǎng)度閾值,大于該閾值為現(xiàn)實(shí)中的人,小于該閾值為鏡像中的人。
在第一步之后,進(jìn)行第二步判斷,判斷的標(biāo)準(zhǔn)如式(2)至式(4)所示:
Wx、Wy表示所有關(guān)節(jié)點(diǎn)橫向和縱向的距離,I1x表示所有關(guān)節(jié)點(diǎn)橫向坐標(biāo),I1y表示表示所有關(guān)節(jié)點(diǎn)縱向坐標(biāo),S 表示面積。
這里用的雙閾值的判別法,只有當(dāng)所有關(guān)節(jié)點(diǎn)連線求和面積都滿足閾值要求時(shí),則判斷該目標(biāo)是現(xiàn)實(shí)中的人。
改進(jìn)二:HigherHRNet 模型在關(guān)節(jié)點(diǎn)回歸時(shí),一個(gè)目標(biāo)的17個(gè)關(guān)節(jié)點(diǎn)是相互影響的,互有聯(lián)系的。這是由于每識(shí)別出一個(gè)關(guān)節(jié)點(diǎn)a,a 關(guān)節(jié)點(diǎn)會(huì)向其它關(guān)節(jié)點(diǎn)延伸形成向量,例如a 關(guān)節(jié)點(diǎn)向b 延伸出向量ab,而b 關(guān)節(jié)點(diǎn)時(shí)同樣會(huì)向a 延伸出向量ba,當(dāng)ab 和ba 重合度高時(shí),則認(rèn)為定位的關(guān)節(jié)點(diǎn)是正確的。而在實(shí)際應(yīng)用中,我們發(fā)現(xiàn)目標(biāo)人物的關(guān)節(jié)點(diǎn)會(huì)被物體擋住,不能全部檢測(cè)出,這就導(dǎo)致了模型在回歸關(guān)節(jié)點(diǎn)時(shí)不夠準(zhǔn)確。
由于模型的訓(xùn)練集圖片基本都是站立姿勢(shì),關(guān)節(jié)點(diǎn)的延伸也是按照正常人站立姿勢(shì)延伸的,這就導(dǎo)致了模型不僅無(wú)法學(xué)習(xí)到躺臥姿態(tài)人的特征,也使關(guān)節(jié)點(diǎn)回歸不準(zhǔn)確。模型僅識(shí)別除了6 個(gè)關(guān)節(jié)點(diǎn)。如圖4 所示。
圖4 躺臥姿態(tài)的人
本文修改了模型中判斷兩個(gè)關(guān)節(jié)點(diǎn)相互聯(lián)系的閾值,使非完全重合的兩個(gè)關(guān)節(jié)點(diǎn)延伸向量也能夠輸出出來(lái),這個(gè)閾值代表了上述的ab 和ba 向量的重合度。
我們首先選取cowdpose 數(shù)據(jù)集來(lái)做實(shí)驗(yàn),其次針對(duì)拍攝圖片不清晰的情況,我們?cè)黾恿?000 張模糊的人體圖片。
研究將改進(jìn)的模型在修改之后的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,熱圖的損失函數(shù)和關(guān)節(jié)點(diǎn)的損失函數(shù)如圖5 和圖6 所示,關(guān)節(jié)點(diǎn)標(biāo)簽、關(guān)節(jié)點(diǎn)預(yù)測(cè)如圖7 和圖8 所示。最后與原始的HigherHRNet 模型進(jìn)行實(shí)驗(yàn)對(duì)比,為了保證實(shí)驗(yàn)的公平性,本文在數(shù)據(jù)集中加入了模糊的圖片,其它參數(shù)不變,實(shí)驗(yàn)結(jié)果如表1所示。模型相差不大,有細(xì)微的提升,主要是由于自己標(biāo)注的模糊圖片數(shù)量較少,只占很小的一部分。通過(guò)對(duì)比效果圖片,可以看出差別,如圖3 和圖9 所示。
圖9 改進(jìn)之后的模糊圖片實(shí)驗(yàn)效果圖
表1 原模型與改進(jìn)之后的模型對(duì)比
圖5 熱圖損失
圖6 關(guān)節(jié)點(diǎn)損失
圖8 關(guān)節(jié)點(diǎn)預(yù)測(cè)
模型的輸出應(yīng)用改進(jìn)的實(shí)驗(yàn)驗(yàn)證:
本文將新的圖片分別輸入到原始的模型和經(jīng)過(guò)后處理之后的模型中,得到的結(jié)果如圖10 和圖11 所示。
圖10 輸出閾值改進(jìn)之后的關(guān)節(jié)點(diǎn)檢測(cè)圖
圖11 模型輸出后處理之后的關(guān)節(jié)點(diǎn)檢測(cè)圖
本文首先簡(jiǎn)單介紹了現(xiàn)階段關(guān)節(jié)檢測(cè)的研究進(jìn)展,掌握了國(guó)際上關(guān)節(jié)點(diǎn)檢測(cè)的最新動(dòng)態(tài)和改進(jìn)的方向。然后選取了HigherHRNet 模型作為主要的網(wǎng)絡(luò)結(jié)構(gòu),并在此模型的基礎(chǔ)上,針對(duì)本文的應(yīng)用場(chǎng)景,做出了應(yīng)用方面的改進(jìn),包括網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和模型輸出的改進(jìn)。最后對(duì)改進(jìn)后的模型進(jìn)行了實(shí)驗(yàn),并做了可視化展示。