吳越舟,鄧斌,李榮鐸,許冠麟
一種基于YOLOv4的隧道吊柱位姿檢測方法
吳越舟,鄧斌,李榮鐸,許冠麟
(西南交通大學 機械工程學院,四川 成都 610031)
針對隧道內(nèi)吊柱實現(xiàn)自動抓取安裝需要獲取吊柱位姿信息的問題,提出一種將YOLOv4目標檢測算法與多特征點提取算法融合的吊柱位姿檢測算法。通過YOLOv4算法在雙目視覺的左右圖像上標出吊柱法蘭的識別框,在擴大后的識別框范圍內(nèi)將圖像從三原色(RGB)空間轉(zhuǎn)換到HSV空間,利用檢測目標的特有HSV信息分離出其區(qū)域,對該區(qū)域進行直線檢測,通過canny和霍夫變換篩選出吊柱法蘭的特征點。利用視差原理與面面交會原理還原出吊柱相對于相機的位姿信息。在不同距離進行了多組位姿檢測實驗,結(jié)果顯示,檢測速度為26 f/s,在1000~1500 mm內(nèi)平均誤差均在20 mm以內(nèi),具有較高的精確性和實時性。
隧道吊柱;YOLOv4;位姿檢測;雙目視覺
當前國內(nèi)外隧道內(nèi)的吊柱安裝大多采用人工完成,如圖1所示,即搭設(shè)腳手架,由人力將吊柱吊至隧道頂部,并在腳手架上對位安裝。該方法存在勞動強度大、安裝效率低等問題。因此,楊三龍[1]設(shè)計了接觸網(wǎng)吊柱安裝機器人構(gòu)型布局,開發(fā)了一套接觸網(wǎng)上部機構(gòu)智能化安裝設(shè)備。但目前對吊柱自動化安裝的研究較少,且諸如楊三龍設(shè)計的吊柱安裝機器在對吊柱進行抓取時,普遍是人工將吊柱的三維位姿信息輸入計算機再下達指令進行抓取,自動化程度與精度均略顯不足,且不能滿足不同位姿吊柱的抓取。要實現(xiàn)吊柱的自動抓取及安裝,關(guān)鍵是在特定環(huán)境中對吊柱進行準確且快速的定位識別。目前,機器視覺技術(shù)在視覺導航、工業(yè)自動化和智能機器人等領(lǐng)域應用非常廣泛,因此,研究基于機器視覺技術(shù)的隧道吊柱識別與定位技術(shù)具有重大意義[2],可為后續(xù)的吊柱安裝及吊柱日常維護等研究奠定基礎(chǔ)。
圖1 吊柱人工作業(yè)圖
目前國內(nèi)外針對隧道吊柱的識別定位研究較少,大多是對接觸網(wǎng)的其他部分,如絕緣子、支柱等的識別定位研究。展明星[3]提出一種雙目視覺結(jié)合SURF(Speed Up Robust Features,加速穩(wěn)健特征)的目標識別定位方法,張珹[4]提出一種改進的FasterR-CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡)算法。以上研究均是先通過各自算法識別整個物件,通過識別出的輪廓質(zhì)心或識別框中心的位置來代表識別物件的位置。對于需要準確識別物件某個空間特征點的情況,容易出現(xiàn)識別精度不足的問題。
在位姿估計方面,空間目標三維姿態(tài)估計方法大致可分為三種[5]:
(1)基于三維模型檢索的方法。需要掌握較多的目標先驗信息,從而建立足夠豐富的目標二維姿態(tài)模型數(shù)據(jù)庫,因此實際使用率較低。
(2)基于特征點對應的方法。在表面紋理不明顯時得到的結(jié)果可能不準確,需要找到合適的特征提取方式。
(3)基于三維特征描述符的方法。通常通過三維掃描儀或者RGB-D相機獲取目標點云信息,利用3D-3D點對求解目標位姿。需要用到深度相機,對設(shè)備功能有要求。
針對以上問題,本文研究了一種基于YOLOv4的隧道吊柱位姿檢測算法,其將YOLOv4識別算法、特征融合檢測算法融合,可以實時得到吊柱法蘭的特征點位置,再通過三維重建算法還原吊柱的位姿信息。在Python環(huán)境中對該算法進行實例測試,驗證了該算法的實時性和精確性。
針對隧道施工中對吊柱自動識別抓取的要求,本算法主要包含兩個部分:
(1)位置檢測。通過YOLOv4算法、特征融合檢測算法結(jié)合視差原理共同實現(xiàn)。通過YOLOv4算法得到吊柱法蘭的定位框,然后在定位框的一定范圍內(nèi)通過吊柱多特征共同提取出所需位置特征點,將位置特征點匹配并由三角形算法還原出位置信息。
(2)姿態(tài)檢測。同樣在基于YOLOv4算法得到的識別框的一定范圍內(nèi),通過吊柱多特征共同提取出所需姿態(tài)特征點,再將姿態(tài)特征點利用面面交會原理算法進行姿態(tài)的還原。
吊柱位姿檢測算法框架如圖2所示。
ROI(Region of Interest):感興趣區(qū)域;HSV(Hue,Saturation,Value;色調(diào),飽和度,亮度):一種顏色模型。
圖2 吊柱檢測算法流程
視差測距法又稱三維重建。視差是指左右觀測點在觀察物體時的偏差,其與觀測點及目標物體的位姿有關(guān)。三維重建是模擬人雙眼觀察物體的原理,是物體成像的逆過程[6]。
平行雙目立體視覺模型原理如圖3所示。
O1-X1Y1Z1、O2-X2Y2Z2為左右相機的坐標系;1-11、2-22為左右圖像坐標系;(,,)為所求目標;1(1,1)、2(2,2)為在左右圖像坐標系的投影;為雙目相機基線,即兩個相機之間的距離;為相機焦距。
圖3 平行雙目立體視覺模型
在平行雙目立體視覺中,左右相機的內(nèi)外參數(shù)可以通過張正友相機平面標定法[7]得到。再結(jié)合相機標定參數(shù),通過空間三角形相似的性質(zhì)可以得到點的三維坐標:
因此,通過左右圖像匹配的位置特征點即可實現(xiàn)吊柱的定位。
吊柱法蘭形狀為正方形,其有兩組相互正交的平行線,利用單幅圖像中的兩組平行線,通過面面交會,可以計算出吊柱的姿態(tài)指向,如圖4所示,其中1平行于2,3平行于4。通過1、2兩個空間平面方程聯(lián)立描述空間直線,即面面交會確定空間直線[8]。由空間幾何知識可知,與L平行,即可通過求的姿態(tài)角求得L的姿態(tài)角,同理L也可以通過3、4轉(zhuǎn)換得到。得到L、L的方向向量后可通過右手定理得到L,即最終需要的吊柱姿態(tài)指向。
平面為吊柱法蘭;平面為相機成像面;1、2、3、4為吊柱法蘭的四條邊;1、2、3、4為1、2、3、4在相機成像面對應的投影;為光心;1和2為1和2分別與所確定的平面;為1和2交會所得直線;L為與1、2平行的直線;L為與3、4平行的直線;L為吊柱姿態(tài)指向。
圖4 面面交會模型
由于空間直線與空間平面難以表示且計算復雜,將求面面交線的問題轉(zhuǎn)換成求兩個面的法向量,再通過右手定理求兩個法向量的外積的問題。
如圖5所示,1~4的直線方程式為:
1、2、3、4為1、2、3、4的交點,即成像面四邊形的四個角點。
圖5 成像面特征直線與特征點
RPY(Roll,Pitch,Yaw;橫滾,俯仰,偏航)角用于目標坐標系相對于參考坐標系的姿態(tài)描述,是一種基于繞固定坐標軸旋轉(zhuǎn)得到的角。RPY角轉(zhuǎn)換式為:
隧道吊柱法蘭是一個厚度為20 mm的正方形板狀結(jié)構(gòu),需要特征識別并進行匹配的即為此正方形,包括正方形的中心點以及四個角點,如圖6所示。在實際拍攝中,由于拍攝角度的傾斜,正方形會變形為一個普通的四邊形,因此不能用正方形或矩形擬合,需要使用更為普遍的四邊形擬合。所識別的隧道吊柱法蘭顏色與直線特征明顯,基于這兩類特征,對吊柱法蘭進行特征提取。
圖6 吊柱法蘭特征點示意圖
目標檢測可定位檢測目標,從而過濾掉目標區(qū)域以外的背景干擾,減小后續(xù)圖像處理的難度。本文的目標檢測主要使用YOLOv4算法。
YOLOv4算法是在YOLOv3算法的基礎(chǔ)上進行改進,得出的一種能夠同時得到目標種類與位置信息的算法,是一種高實時性、高精度的目標檢測模型。YOLOv4算法的實現(xiàn)主要分為數(shù)據(jù)集標定、模型訓練與目標物檢測。數(shù)據(jù)集標定主要是將數(shù)據(jù)集內(nèi)圖片上的目標物進行標注,作為先驗信息輸入到Y(jié)OLOv4網(wǎng)絡中進行訓練得到權(quán)重,最終可以通過該算法對吊柱法蘭進行識別定位。
在三維重建的整個過程中,特征點的檢測與匹配是最為基礎(chǔ)的部分[9]。確定了目標區(qū)域之后,可以對區(qū)域內(nèi)的圖像進行相關(guān)處理,以獲取所需特征點像素坐標。處理步驟主要包括HSV圖像分割、直線提取與聚類及特征點匹配。
HSV由表示占主導頻譜顏色的色調(diào)、表示顏色豐富程度的飽和度和表示顏色亮度的所組成。采用HSV模型時從色彩本質(zhì)特性出發(fā),使用色度分量來聚類分析,可以有效克服光照變化帶來的影響[10]。從RGB空間到HSV色彩空間的變換表達式為:
閾值處理主要是根據(jù)顏色特征對圖片中的目標物進行標記。這里選擇HSV顏色模型來表征顏色特征。閾值處理的步驟為:
(2)將原RGB圖像通過式(7)~(9)轉(zhuǎn)化成HSV圖像;
(3)新建一個與原始圖像等大的二維數(shù)組,其每個點通過式(10)進行賦值。
相比于原圖像直接通過canny邊緣檢測算法識別輪廓,在上一步通過HSV分割得到的吊柱二值圖會大大減少背景雜線,只保留吊柱的輪廓線,為后續(xù)的霍夫變換(Houghlines)優(yōu)化了輸入環(huán)境。再通過設(shè)定合適的Houghlines函數(shù)的閾值,提取到滿足要求的直線,即與空間變形后的吊柱法蘭四邊重合的直線。但此時提取的每條邊的重合直線往往有多條,因此需要對這些直線進行聚類與合并。
采用k-means++均值聚類算法對識別出的直線進行聚類,k-means++在選擇初始類別中心時進行了優(yōu)化。初始類別中心的選擇步驟為:
(1)在數(shù)據(jù)點之間隨機選擇一個中心1;
(4)重復步驟(2)和(3),直到選擇了個中心(即=);
(5)選擇初始中心后使用標準均值聚類。
使用k-means++均值聚類算法可以減少計算時間,且具有聚類的唯一性。通過k-means++均值聚類算法對所得直線聚類求均值,最終可以得到四條結(jié)果直線,從而得到五個特征點。
立體匹配原理是得到所測物在不同成像平面上的特征匹配過程,而圖像的立體匹配就是通過算法實現(xiàn)這一過程[11]。本文得到的特征點只有五個,因此按照以下步驟進行特征點匹配。
對通過k-means++算法得到的四條直線求交點即可得到四個頂點。四個頂點按照以下規(guī)則進行排序:
(1)計算出四個頂點在圖像坐標系的橫縱坐標之和M=Q+Q(=1~4),將M按照大小進行排序,M取最小時對應的點定義為1,M取最大時對應的點定義為3。
(2)通過點1、3得到經(jīng)過此兩點的直線13,判斷剩余兩頂點是位于13的上方還是下方,位于上方的點定義為2,位于下方的點定義為4。
(3)通過點2、4得到經(jīng)過此兩點的直線24,再對1324進行求交點,最終得到5。
雙目相機的左右圖像經(jīng)過以上規(guī)則求得Q(=1~5)后,即可將左圖像的Q與右圖像的Q進行匹配,即完成5個特征點的匹配。
目標檢測方面,對所識別的吊柱采集了240張圖像,經(jīng)過順時針旋轉(zhuǎn)90°、水平鏡像、顛倒等一系列數(shù)據(jù)增強操作,最終得到960張訓練樣本。通過LabelImg將這些訓練樣本進行目標物種類位置的標注,生成xml文件,再輸入YOLOv4網(wǎng)絡進行訓練,得到模型的權(quán)重。使用訓練出的網(wǎng)絡對立體校正后的左右相機的圖像進行識別檢測。
如圖7(a)所示,YOLOv4識別網(wǎng)絡能準確識別吊柱法蘭的位置,檢測速度可達26 f/s,平均精確率(mAP)可達94.6%。得到識別框后將識別框的四邊均雙向擴大20個像素得到圖7(b)。再在擴大后的識別框里進行霍夫變換直線提取,并最終得到所需特征點,如圖7(c)~(f)所示。
相比于對原始圖片直接進行特征識別,本實驗提出的基于YOLOv4的特征融合識別算法具有識別范圍小、受背景干擾影響小、精度高的特點。本文算法與直接對原始圖片特征提取的算法的效果對比如圖8、圖9所示,可見通過YOLOv4算法大大減少了背景的雜線影響,大幅度提升了直線檢測精度。
圖7 特征點提取過程圖
圖8 HSV效果對比圖
圖9 直線提取對比圖
在相機與吊柱法蘭中心分別距離1000 mm、1250 mm、1500 mm、1750 mm、2000 mm的情況下進行了五組實驗。每個距離在不同的角度拍攝了三組照片。位姿驗證點如圖9所示,此點也為機械臂后續(xù)的抓取點。
通過吊柱法蘭中心的位置還原與吊柱的姿態(tài)計算,可綜合得到抓取點的位置及距離,實驗結(jié)果如表1所示。
圖10 吊柱位姿驗證點
表1 吊柱抓取點距離信息還原結(jié)果
實驗表明,還原的吊柱抓取點距離的平均誤差隨著吊柱中心點距離的增大而增大,在1000~1500 mm內(nèi),誤差在20 mm范圍內(nèi)緩慢增長,1750 mm與2000 mm誤差有較大增長。因此,在1000~1500 mm內(nèi),對吊柱的位姿估計誤差較小,吊柱抓取點距離誤差較小,符合任務要求。
為了實現(xiàn)隧道施工自動化,本文提出一種基于YOLOv4的吊柱識別及位姿檢測算法。通過YOLOv4算法實現(xiàn)吊柱法蘭的定位,再通過色彩以及輪廓的特征提取算法提取出特征點。提取出的特征點通過視差原理與面面交會原理綜合得出吊柱的位姿信息,最終確定吊柱抓取點的信息。通過實驗確定了此方法的最佳使用距離范圍為1000~1500 mm,在此范圍內(nèi)具有較好的實時性和準確性。為后續(xù)隧道施工自動化以及吊柱自動抓取提供了理論支持。
[1]楊三龍,饒道龔,李廣平,等. 接觸網(wǎng)吊柱安裝機器人靜力學分析及結(jié)構(gòu)優(yōu)化[J]. 筑路機械與施工機械化,2020,37(12):74-77,91.
[2]HAN Y,LIU Z G,LEE D J,et al. Computer vision-based automatic rod-insulator defect detection in high-speed railway catenary system[J]. International Journal of Advanced Robotic Systems,2018,15(3):1729881418773943.
[3]展明星,王致誠,李致遠. 基于視覺的接觸網(wǎng)絕緣子識別定位研究[J]. 西部交通科技,2022(4):184-187.
[4]張珹. 高鐵接觸網(wǎng)支持裝置緊固件識別與定位的深度學習方法[J]. 工程數(shù)學學報,2020,37(3):261-268.
[5]王一,謝杰,程佳,等. 基于深度學習的RGB圖像目標位姿估計綜述[J]. 計算機應用,2023,43(8):2546-2555.
[6]郭星源. 基于雙目視覺的移動目標測距方法研究與實現(xiàn)[D]. 成都:電子科技大學,2021.
[7] Zhang Z. A Flexible New Technique for Camera Calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[8]宋平,楊小岡,蔡光斌,等. 單站光測圖像中空間目標姿態(tài)估計[J]. 兵器裝備工程學報,2020,41(9):165-170.
[9]徐建鵬,卜凡亮. 三維重建系統(tǒng)下的特征點處理與位姿恢復優(yōu)化算法[J]. 計算機應用研究,2019,36(10):3196-3200.
[10]陳梅香,郭繼英,許建平,等. 梨小食心蟲自動檢測識別計數(shù)系統(tǒng)研制[J]. 環(huán)境昆蟲學報,2018,40(5):1164-1174.
[11]胡高芮,何毅斌,陳宇晨,等. 基于二維圖像的三維重建技術(shù)研究[J]. 機械,2019,46(8):27-31.
Pose Detection Methodof Tunnel Davit Based on YOLOv4
WU Yuezhou,DENG Bin,LI Rongduo,XU Guanlin
(School of Mechanical Engineering, Southwest Jiaotong University, Chengdu 610031,China)
In order to obtain the pose information of the davit to realize the automatic grasping and installation of the davit in the tunnel, this paper proposes a davit pose detection algorithm that combines YOLOv4 target detection algorithm and multi-feature extraction algorithm. The identification frame of the flange of the davit on the left and right images of binocular vision is marked through the YOLOv4 algorithm, and the image is converted from the three primary colors (RGB) space to the HSV space within the expanded identification frame range, and the specific HSV information of the detected object is used to separate its area and conduct the line detection on the area. And the features of the flange of the davit are selected through Canny and Hough Transform. Finally, the pose information of the davit relative to the camera is restored by using the parallax principle and the surface to surface intersection principle. Several groups of pose detection experiments are carried out at different distances. The results show that the detection speed is 26 f/s, and the average error within 1000~1500 mm is within 20 mm, which has high accuracy and real-time performance.
tunnel davit;YOLOv4;pose detection;binocular vision
TP391.41
A
10.3969/j.issn.1006-0316.2023.12.002
1006-0316 (2023) 12-0008-07
2023-03-02
吳越舟(1998-),男,四川南充人,碩士研究生,主要研究方向為機器視覺,E-mail:934712683@qq.com;鄧斌(1964-),男,湖北荊門人,博士研究生,教授,主要研究方向機電液一體化。