韓江洪 袁稼軒 衛(wèi)星 陸陽
摘 要:自主駕駛礦井機車需要實時檢測和定位行駛前方的巷道行人,激光雷達等非視覺類方法成本高昂,而傳統(tǒng)基于特征提取視覺類方法無法解決井下光照差且光線不均勻的問題。提出一種基于深度學習的井下巷道行人視覺定位算法。首先給出基于深度學習網(wǎng)絡的系統(tǒng)整體結(jié)構;其次,搭建目標檢測多層卷積神經(jīng)網(wǎng)絡(CNN),生成自主駕駛機車前方視野范圍內(nèi)行人的二維坐標及邊界框的尺寸;再次,通過多項式擬合計算出圖像中行人到機車之間的第三維距離;最后通過真實樣本集實施模型訓練、驗證與測試。實驗結(jié)果表明,所提算法的檢測準確率達94%,速度達每秒25幀,測距誤差小于4%,實現(xiàn)了實時高效的巷道行人視覺定位。
關鍵詞:深度學習;卷積神經(jīng)網(wǎng)絡;巷道行人檢測;視覺定位;圖像處理
中圖分類號: TP391.4
文獻標志碼:A
文章編號:1001-9081(2019)03-0688-07
Abstract: The self-driving mine locomotive needs to detect and locate pedestrians in front of it in the underground roadway in real-time. Non-visual methods such as laser radar are costly, while traditional visual methods based on feature extraction cannot solve the problem of poor illumination and uneven light in the laneway. To solve the problem, a pedestrian visual positioning algorithm for underground roadway based on deep learning was proposed. Firstly, the overall structure of the system based on deep learning network was given. Secondly, a multi-layer Convolutional Neural Network (CNN) for object detection was built to calculate the two-dimensional coordinates and the size of bounding box of pedestrians in visual field of the self-driving locomotive. Thirdly, the third-dimensional distance between the pedestrian in the image and the locomotive was calculated by polynomial fitting. Finally, the model was trained, verified and tested through real sample sets. Experimental results show that the accuracy of the proposed algorithm reaches 94%, the speed achieves 25 frames per second, and the distance detection error is less than 4%, thus efficient and real-time laneway pedestrian visual positioning is realized.
Key words: deep learning; Convolutional Neural Network (CNN); laneway pedestrian detection; visual positioning; image processing
0 引言
近年來,隨著市場對駕駛安全和智能化需求的不斷提高,無人駕駛巨大的社會和經(jīng)濟價值越發(fā)凸顯[1]。無人駕駛系統(tǒng)在民用、科學研究、軍事、工業(yè)等方面獲得廣泛應用。其中在工業(yè)方面則針對具有繁重的運輸任務、有事故風險的井下工作環(huán)境來代替人工來完成采礦、運輸?shù)热蝿铡2煌谝话愕鸟{駛環(huán)境,工業(yè)軌道運輸環(huán)境受井下空間和運輸?shù)V物的影響,容易導致事故的發(fā)生,且一旦發(fā)生事故極易造成人員傷亡或引發(fā)爆炸等嚴重后果。因此,為了從根本上減少機車運行事故的發(fā)生,杜絕人員傷亡現(xiàn)象的出現(xiàn),有必要對無人礦井機車前方行人進行動態(tài)感知、識別分析處理,做到及時啟/停和提前預警。
行人檢測技術多用于地面、街道等交通場景,以方向梯度直方圖(Histogram of Oriented Gradients, HOG)、可變形部件模型(Deformable Part Model, DPM)、決策森林(Decision Forest, DF)為例,主要服務于智能交通和地面無人駕駛。由于井下環(huán)境照明條件惡劣、灰塵大、光線不均勻等,無法將地面檢測方法照搬。井下傳統(tǒng)的圖像處理技術有李曉明等[2]在傳統(tǒng)Hough變化的基礎上提出了極角極徑約束法,標定出軌道線,在此基礎上標定出感興趣區(qū)域,利用HOG特征結(jié)合支持向量機(Support Vector Machine, SVM)進行行人檢測。這種基于傳統(tǒng)圖像處理的技術需要人工設計不同的特征提取算子,并且這些特征提取算子需要靠資深專家進行手工設計,更新迭代速度較慢且對行人的多樣性變化沒有很強的魯棒性。然而,深度學習卻在此領域取得了突破性的進展,行人檢測作為目標檢測的一個重要分支,成為研究的熱點之一[3-7]。同時。在井下行人檢測方面也得到應用。如鄭嘉祺[8]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network, DCNN)的礦井下行人檢測技術,利用YOLO(You Only Look Once)[9]目標檢測算法,并針對井下特殊環(huán)境的特點對其進行改進,提高了檢測速度;王琳等[10]提出了以YOLO網(wǎng)絡為基礎,結(jié)合金字塔場景解析的網(wǎng)絡中的金字塔池化模塊的檢測技術,利用了圖片的上下文信息,對井下行人進行實時檢測;李偉山等[11]提出了改進的Faster R-CNN(Region Convolutional Neural Network, R-CNN)[12]煤礦井下行人檢測方法,一定程度上提高了井下行人的多尺度的檢測效果;這些方法未能充分利用井下行人數(shù)據(jù)的特點,本質(zhì)上均是在二維平面對行人進行了識別、定位,并且其檢測結(jié)果未能對井下機車安全行駛帶來很好的保障作用,具有應用的局限性。
為此,本文將行人檢測與視覺測距算法相結(jié)合,進行測距得到巷道行人距離機車的實際距離。當前視覺測距的方法有單目測距和雙目測距。雙目測距[13]需要使用兩個不同角度的相機從不同角度獲取兩幅圖像,然后通過物體匹配和幾何原理,得到三維信息;然而,雙目視覺測距成像速度慢,系統(tǒng)復雜,不能實現(xiàn)實時計算,于是,單目視覺測距[14-15]憑借自身原理簡單、檢測速度快的特點,成為視覺測距的主流技術。但是,目前還未有成熟且公認的高精度井下行人視覺測距算法,所以,本文提出了一種基于深度學習的井下巷道行人視覺定位算法,實時檢測機車前方視野范圍內(nèi)行人,并計算出行人與機車之間的距離,旨在從根本上減少機車運行事故的發(fā)生,杜絕人員傷亡現(xiàn)象的發(fā)生。
本文整體結(jié)構如下:第1節(jié)介紹井下巷道視覺定位檢測系統(tǒng)模型;第2節(jié)介紹井下巷道行人檢測模型的設計原理及詳細網(wǎng)絡結(jié)構;第3節(jié)介紹測距方法原理;第4節(jié)給出實驗結(jié)果及分析;第5節(jié)闡述論文結(jié)論。
1 視覺定位檢測系統(tǒng)模型設計
井下巷道行人的視覺定位檢測結(jié)構如圖1所示,機車視頻圖像處理器作為無人自主駕駛機車感知部件,需要動態(tài)地對拍攝到的軌道正前方視野畫面進行識別得到行人信息,并傳遞給控制部件完成啟/停、加減速等操作,達到無人自主駕駛的目的。上述圖像識別器的關鍵作用為視覺定位,圖像識別器要動態(tài)獲知視野范圍內(nèi)有無行人,若有則給出其“三維坐標”,即(x,y,z)。如圖1:b處于安全區(qū)域內(nèi),行車通過無影響;c處于預警區(qū)域內(nèi),需鳴笛示警;a處于危險區(qū)域,應立即停車,進而提高無人駕駛機車的安全性能。
為實現(xiàn)上述目標,本文將行人檢測算法與測距算法相結(jié)合,設計整體算法系統(tǒng)模型(如圖2所示),系統(tǒng)主要分為井下巷道行人檢測模型與測距模型,行人檢測模型要解決的核心問題是,檢測出圖像中任何位置出現(xiàn)的不同尺度大小和各種姿態(tài)的行人,并確定他們在二維圖像上的位置及大小,整個檢測流程舍去了候選框提取分支,直接將特征提取、候選框,回歸和分類在同一個無分支的卷積網(wǎng)絡中完成,使得網(wǎng)絡結(jié)構變得簡單;測距模塊負責將行人檢測模塊得到的檢測結(jié)果中的行人的寬,高輸入到實驗訓練時已經(jīng)擬合完成的距離曲線中,計算出圖像中機車前方行人距離機車的實際距離。最后輸出一張標有目標行人及行人距離機車的實際距離的圖片,實現(xiàn)巷道行人檢測的“三維定位”。
2 行人檢測網(wǎng)絡
井下巷道行人檢測算法借鑒YOLO的基本思想,從而實現(xiàn)自己的檢測效果。YOLO的核心思想是系統(tǒng)將輸入圖像分成S×S的網(wǎng)格。如果目標的中心落入某個網(wǎng)格單元中,那么該網(wǎng)格單元就負責檢測該目標。每個網(wǎng)格單元都會預測B個邊界框和這些框的置信度分數(shù)。這些置信度分數(shù)反映了該模型對那個框內(nèi)是否包含目標的概率,以及它對自己的預測的準確度的估量。在形式上,將置信度定義如下:
如果該單元格中不存在目標,則置信度分數(shù)應為零。否則,置信度分數(shù)等于預測框與真實標簽框之間聯(lián)合部分的交集。每個邊界框包含5個預測:x、y、w、h和置信度。(x,y)坐標表示邊界框的中心相對于網(wǎng)格單元的邊界的值,而寬度和高度則是相對于整張圖像來預測的。置信度預測表示預測框與任意實際邊界框之間的IOU。每個網(wǎng)格單元還預測C個條件類別概率Pr(Class|Object),這些概率以包含目標的網(wǎng)格單元為條件。在測試時,將條件類別概率與每個框的預測的置信度值相乘即可得到每個框的特定類別的置信分數(shù):
這些分數(shù)體現(xiàn)了該類出現(xiàn)在框中的概率以及預測框擬合目標的程度。
2.1 錨點框選取
在井下巷道行人檢測網(wǎng)絡訓練過程中,圖像中的錨點尺寸對于行人檢測的位置預測影響重大,故選擇出符合數(shù)據(jù)集的錨點框尤為關鍵。相對于手工挑選錨點框尺寸,本文在數(shù)據(jù)集邊界框上運行k-means聚類算法,讓網(wǎng)絡自動找到最好的錨點框,提高收斂速度,提高行人檢測的位置精度。隨著迭代次數(shù)的不斷增加,網(wǎng)絡學習到行人特征,預測框參數(shù)得到不斷調(diào)整,最終逼近真實框。分析井下特定的圖像數(shù)據(jù),井下行人服飾相對統(tǒng)一,相對于路面或者生活中的人,行走姿態(tài)相對單一,得到與圖像中行人邊界框較好的先驗的9種錨點尺寸。
K-means聚類采用歐氏距離衡量兩點之間的距離。聚類的目標函數(shù)為:
2.2 網(wǎng)絡結(jié)構
本文提出的基于深度學習的井下巷道行人視覺定位算法中行人檢測模型(如圖3所示),網(wǎng)絡模型由53個卷積層,2個上采樣層和一個檢測層組成。模型前端是用來提取圖片特征向量的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN),其中運用了殘差網(wǎng)絡更好地提取特征。后端通過卷積生成不同大小的特征圖,采用3種尺度預測,將之前生成的9種聚類,按照大小分給3個尺度,這樣做充分利用不同卷積層得到的特征圖分辨率不同的特性,即低卷積層分辨率高,有利于檢測小目標,高卷積層感受野大,有利于檢測大目標。同時,在卷積層利用1×1、3×3卷積核,提取細節(jié)特征,更有利于檢測小目標行人。具體網(wǎng)絡參數(shù)如表2。
表2中空格表示此層網(wǎng)絡無此參數(shù),在實際網(wǎng)絡結(jié)構中,編號為11、12、13層網(wǎng)絡組成一個模塊連續(xù)循環(huán)4遍,編號為15、16、17層網(wǎng)絡也組成一個模塊連續(xù)循環(huán)4遍,編號19、20、21層網(wǎng)絡組成一個模塊連續(xù)循環(huán)2遍,此目的為了更好地提取圖像特征。
2.3 損失函數(shù)
損失函數(shù)(loss function)是用來估量模型的預測值與真實值的不一致程度,損失函數(shù)越小,模型的魯棒性就越強。在訓練過程中,由于大多數(shù)樣本都是簡單易區(qū)分的負樣本即背景樣本,類別不均衡,致使訓練過程中不能充分學習到正樣本的特征信息,其次簡單的背景樣本太多,易分背景樣本會產(chǎn)生一定幅度的損失,加之數(shù)量巨大,最終會對損失函數(shù)起到主要的貢獻作用,從而導致梯度更新方向發(fā)生變化,掩蓋正樣本的作用。
針對上述問題,本文結(jié)合focal loss function[16]作為解決類別不均衡的更高效的替代方法。它能動態(tài)地縮放交叉熵,隨著正確類別的置信度增加,其中的尺度因子衰減到零。直觀感受,這個縮放因子可以自動減小訓練過程中easy example的貢獻的比例并快速聚焦hard examples。使用的交叉熵損失函數(shù)如下:
這個縮放因子可以自動降低訓練時easy example貢獻的比重,快速地focus hard examples的模型。由于使用的交叉上損失函數(shù)如下:
3 基于行人檢測的實時測距方法
實時測距方法基于單目視覺來檢測機車與前方行人的距離,從而為無人駕駛機車智能化控制輸入?yún)?shù)。攝像機拍攝到的場景圖像是三維空間場景在二維平面的投影,而在利用機器視覺對巷道前方道路情況進行識別過程中,則需要一個逆向求解的過程,即從二維圖像還原成路面真實圖像。此過程就是巷道前方道路深度信息的獲取。根據(jù)小孔成像原理,將單目視覺系統(tǒng)簡化為攝像機投影模型(如圖4所示)。
如圖4中(b)所示,距離計算,在直觀意義上,當距離確定時,較大行人在圖片上相對較大,對于一個物體,更遠的距離意味著物體的像素尺寸更小。對于行人來說,距離和圖像中行人的像素大小成反比。
根據(jù)所去礦井統(tǒng)計井下行人的平均身高為173cm,在這里將井下巷道的行人身高記為173cm。根據(jù)以上結(jié)論,將巷道行人的身高看作固定參數(shù),用H表示,用行人檢測算法模塊得到的行人邊界框的高bh表示巷道行人在圖像平面上的像素高度。用D表示相機與對象行人之間的實際距離。所以,井下巷道行人與相機間的實際距離遵循以下等式:
H是固定的,c是一個常數(shù),對于不同的相機c是不一樣的,故實驗使用多組D和bh擬合函數(shù)曲線,最后可以得到相機的c。
為了保證檢測的準確性,當檢測到的行人的寬度bw與高度bh的比值超過特定閾值時,即行人可能處于蹲坐狀態(tài),則采取將行人高度強行提高3倍,以避免測距發(fā)生錯誤。
4 實驗
本文實驗主要分為兩部分:一部分是井下巷道的行人檢測實驗,負責檢測圖片中井下巷道行人及行人邊界框位置,為后期距離計算提供數(shù)據(jù)源;另一部分是測距實驗,負責計算行人距機車的實際距離。
4.1 數(shù)據(jù)集擴增
本文中的礦井實驗數(shù)據(jù)來自于桃園煤礦和新集煤礦的井下機車攝像頭所拍攝的井下巷道視頻,視頻按照每秒30幀將視頻轉(zhuǎn)換為13400張分辨率為1280×720的圖片,由于深度網(wǎng)絡的訓練數(shù)據(jù)量巨大,這些圖片的數(shù)量遠遠不足,于是在訓練之前,對圖片進行擴增,主要使用的擴增方式有以下幾種(如圖5)。
1)旋轉(zhuǎn)變換(rotation):隨機將圖像旋轉(zhuǎn)一定角度。
2)翻轉(zhuǎn)變換(flip):對圖像作翻轉(zhuǎn)變換。
3)縮放變換(zoom):縮小或放大圖像。
4)對比度變換(contrast):通過改變圖像像元的亮度值來改變圖像像元的對比度。
5)裁剪變換(cropping):裁剪出圖像中的目標物體。
擴增后數(shù)據(jù)集共19450張,其中訓練集13410張,測試集3020張,驗證集3020張。數(shù)據(jù)集包含了各種尺度的行人,以及昏暗條件下的圖片數(shù)據(jù),有利于增強網(wǎng)絡的魯棒性。
4.2 井下巷道行人檢測實驗
4.2.1 網(wǎng)絡訓練
整個訓練過程使用隨機梯度下降及反向傳播算法來學習網(wǎng)絡參數(shù)。訓練的批處理大小batch為16,subversion為4,動量(momentum)為0.9,權重衰減,(decay)為0.0005,最大迭代次數(shù)為75120次。實驗基于Ubuntu 16.04,64 位操作系統(tǒng),使用的深度學習框架是Pytorch,GPU為GeForce GTX 1080i,初始化網(wǎng)絡訓練的學習率為0.001,經(jīng)過3000次迭代后,將學習率調(diào)整為0.01,迭代10000次后將學習率調(diào)整為0.001,迭代35000次后調(diào)整學習率為0.0001,迭代60000次后調(diào)整學習率為0.00001。
訓練過程中模型的損失函數(shù)收斂曲線如圖6,由圖可知,損失函數(shù)隨著迭代次數(shù)的增加越來越接近于0,網(wǎng)絡是穩(wěn)定收斂的。
4.2.2 評價指標
召回率(Recall): 是測試集中所有正樣本樣例中,被正確識別為正樣本的比例,計算公式如下:
其中:TP(True Positives, TP)為正樣本被正確識別為正樣本的數(shù)量,F(xiàn)N(False Negatives, FN)為正樣本被錯誤識別為負樣本的數(shù)量。
精確度(Precision):在識別出來的圖片中,TP所占的比率,計算公式如下:
其中FP(False Positives, FP)即負樣本被錯誤識別為正樣本數(shù)量。
平均精度(Average-Precision, AP):Precision-Recall 曲線下面的面積,通常來說一個越好的分類器,AP值越高,分類器性能越好。
漏檢率(Miss Rate, MR):與召回率相對應,召回率與漏檢率相加和為1。
平均每張圖片誤檢數(shù)(False Positives Per Image, FPPI):平均每張圖片誤檢測數(shù)目,公式如下:
其中Nimg為圖片總數(shù)目。當評估一個識別方法性能時,通過設置不同的分數(shù)閾值,可以得到不同組(MR, FPPI)值,從而可以畫出MR-FPPI曲線。
4.2.3 行人檢測結(jié)果對比及分析
為進一步測試本文網(wǎng)絡模型的檢測性能,分別使用Faster R-CNN、YOLOv1和本文算法,在驗證圖片以評估模型檢測性能,改變識別閾值IOU,閾值的變化同時會導致精確度與召回率值發(fā)生變化,從而得到曲線。得到精確度召回率曲線性能對比如圖7,算法檢測時間和平均精度(AP)對比數(shù)據(jù)如表3。
由圖7可得,本文算法在召回率相同的情況下,檢測準確度都高于Faster R-CNN、YOLOv1算法。
由表3所示,本文提出的算法檢測時間僅僅需要0.04s,且準確度達到94%,達到了準確而又快速的實時檢測效果。
本實驗還以平均每張圖片誤檢數(shù)(FPPI)作為橫坐標,漏檢率(MR)作為縱坐標,對Faster R-CNN、YOLOv1和本文算法進行性能對比,如圖8。
從圖8中可以看出,平均每張圖片的誤檢數(shù)與漏檢率呈現(xiàn)負相關,在對應的FPPI相同情況下,本文算法的漏檢率較低,即檢測性能最好。
4.3 測距實驗結(jié)果
部分擬合數(shù)據(jù)如表4所示。
根據(jù)表4中的擬合數(shù)據(jù),擬合函數(shù)如下:
測距誤差是影響距離精度的重要因素之一,通過使用同一相機的另一組數(shù)據(jù)測試該方程,利用行人行走時對多個實際距離進行測距實驗,并人工計算測距誤差。定義測距誤差為:
其中:D為行人到機車實際距離,測量距離為dr。式(17)計算得到每一次的誤差de,同時計算出每組測量數(shù)據(jù)的誤差百分比,對實際距離值D、測量值dr、誤差de、誤差百分比進行對比驗證,結(jié)果如表5。
表5結(jié)果表明,本文算法誤差控制在4%以內(nèi),證明它具有很好的適用性。
4.4 實驗結(jié)果展示
圖9展示了本文網(wǎng)絡在輸入不同井下場景圖片時的檢測結(jié)果。從圖9可以看出,井下巷道行人檢測定位算法取得了很好的檢測及測距效果。
5 結(jié)語
針對井下巷道行人檢測及距離測量問題,提出了基于深度學習的端到端的系統(tǒng)檢測模型。在行人檢測模塊設計中,采用殘差網(wǎng)絡提取細粒度特征,并提取多尺度特征;同時,改進損失函數(shù)提高行人所在位置區(qū)域的精度。針對機車前方行人的距離測量問題,利用大量數(shù)據(jù)訓練擬合函數(shù),最終得到測距結(jié)果。但是,本文的研究對于整體網(wǎng)絡復雜度相對較高,測距方法對于被遮擋行人測距檢測誤差較大,仍有提高空間,下一步的研究重點將放在以下兩點:1)保證檢測精度的前提下,降低網(wǎng)絡復雜度;2)提升測距精度。
參考文獻 (References)
[1] 喬維高,徐學進.無人駕駛汽車的發(fā)展現(xiàn)狀及方向[J].上海汽車,2007(7):40-43.(QIAO W G, XU X J. The development situation and direction of the driverless vehicle [J]. Shanghai Auto, 2007(7):40-43.)
[2] 李曉明,郎文輝,馬忠磊,等.基于圖像處理的井下機車行人檢測技術[J].煤礦機械,2017,38(4):167-170.(LI X M, LANG W H, MA Z L, et al. Pedestrian detection technology for mine locomotive based on image processing [J]. Coal Mine Machinery, 2017, 38(4): 167-170.)
[3] LIU T, FU H Y, WEN Q, et al. Extended faster R-CNN for long distance human detection: finding pedestrians in UAV images [C]// Proceedings of the 2018 IEEE International Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2018: 1-2.
[4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587.
[5] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[6] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[7] REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.
[8] 鄭嘉祺.基于DCNN的井下行人檢測系統(tǒng)的研究與設計[D].西安:西安科技大學,2017:84-87.(ZHENG J Q. Research and design on pedestrian detection system under the mine based on DCNN[D]. Xi'an: Xi'an University of Science and Technology, 2017:84-87.)
[9] REDMON J, DIWALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788.
[10] 王琳,衛(wèi)晨,李偉山,張鈺良.結(jié)合金字塔池化模塊的YOLOv2的井下行人檢測[J/OL].計算機工程與應用:1-9[2018-07-15].(WANG L, WEI C, LI W S, et al. Pedestrian detection based on YOLOv2 with pyramid pooling module in underground coal mine[J/OL]. Computer Engineering and Applications: 1-9[2018-07-15])http://kns.cnki.net/kcms/detail/11.2127.TP.20180410.1054.002.html.
王琳,衛(wèi)晨,李偉山,等.結(jié)合金字塔池化模塊的YOLOv2的井下行人檢測[EB/OL]. [2018-05-21]. https://www.doc88.com/p-0714870779937.html.(WANG L, WEI C, LI W S, et al. Pedestrian detection based on YOLOv2 with pyramid pooling module in underground coal mine [EB/OL]. [2018-05-21]. https://www.doc88.com/p-0714870779937.html.)
[11] 李偉山,衛(wèi)晨,王琳.改進的Faster R-CNN煤礦井下行人檢測算法[J/OL].計算機工程與應用:1-16[2018-07-15].(LI W S, WEI C, WANG L. An improved Faster R-CNN Approach for pedestrian detection in underground coal mine[J/OL]. Computer Engineering and Applications: 1-16[2018-07-15])http://kns.cnki.net/kcms/detail/11.2127.TP.20180522.0944.002.html.
李偉山,衛(wèi)晨,王琳.改進的Faster R-CNN煤礦井下行人檢測算法 [EB/OL]. [2018-07-15]. http://kns.cnki.net/kcms/detail/11.2127.TP.20180522.0944.002.html.(LI W S, WEI C, WANG L. An improved faster R-CNN approach for pedestrian detection in underground coal mine [EB/OL]. [2018-07-15]. http://kns.cnki.net/kcms/detail/11.2127.TP.20180522.0944.002.html.)
[12] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[13] 沈彤,劉文波,王京.基于雙目立體視覺的目標測距系統(tǒng)[J].電子測量技術,2015,38(4):52-54.(SHEN T, LIU W B, WANG J. Distance measurement system based on binocular stereo vision [J]. Electronic Measurement Technology, 2015, 38(4): 52-54.)
[14] 郭磊,徐友春,李克強,等.基于單目視覺的實時測距方法研究[J]. 中國圖象圖形學報,2006,11(1):74-81.(GUO L, XU Y C, LI K Q, et al. Study on real-time distance detection based on monocular vision technique [J]. Journal of Image and Graphics, 2006, 11(1): 74-81.)
[15] BAO D, WANG P. Vehicle distance detection based on monocular vision [C]// Proceedings of the 2016 International Conference on Progress in Informatics and Computing. Piscataway, NJ: IEEE, 2016:187-191.
[16] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, PP(99): 2999-3007.
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2999-3007.