肖志強(qiáng) 周書民 汪志成
(東華理工大學(xué)機(jī)械與電子工程學(xué)院 江西省南昌市 330013)
在手機(jī)玻璃基板的生產(chǎn)過(guò)程中,需要對(duì)玻璃基板進(jìn)行AOI視覺(jué)檢測(cè),玻璃基板根據(jù)不同的質(zhì)量放在放置區(qū)域的放置柜中,由人工拿到檢測(cè)區(qū)域進(jìn)行AOI檢測(cè),工作重復(fù)性很高,并且在AOI檢測(cè)過(guò)程中,工人需要等待,造成時(shí)間浪費(fèi),如果使用固定基座的機(jī)械臂進(jìn)行上下料,每一個(gè)放置柜都需要配一臺(tái)機(jī)械臂,還需要配備傳送帶進(jìn)行運(yùn)輸,這樣成本很高。為了降低成本,使用移動(dòng)機(jī)械臂進(jìn)行物料運(yùn)送任務(wù),玻璃基板是裝在物料框中,機(jī)械臂抓取放置柜的物料,運(yùn)送到AOI檢測(cè)區(qū)域,在這一批物料檢測(cè)的過(guò)程中,移動(dòng)機(jī)械臂可以去另一個(gè)放置柜抓取物料并運(yùn)送,以此往復(fù)。為了準(zhǔn)確的抓取到物料并運(yùn)送到目標(biāo)區(qū)域,物料的三維坐標(biāo)識(shí)別是主要問(wèn)題,本文基于深度學(xué)習(xí)算法中的YOLOv5,實(shí)現(xiàn)物料的識(shí)別,使用兩臺(tái)??低暤腗V-CA032-10G10型號(hào),焦距為6mm的相機(jī)組成雙目系統(tǒng)來(lái)進(jìn)行物料的定位。
主要工作流程為從雙目相機(jī)獲得左右圖像后,使用訓(xùn)練好的YOLOv5模型進(jìn)行識(shí)別,得到物料的抓取點(diǎn),以左圖像為基準(zhǔn),使用SGBM算法進(jìn)行圖像的立體匹配,獲得視差圖,得到物料抓取點(diǎn)的三維坐標(biāo),完成物料的三維定位。
YOLOv5可以分為四個(gè)網(wǎng)絡(luò)模型版本:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,其中YOLOv5l是基準(zhǔn)模型,YOLOv5x是擴(kuò)展模型,YOLOv5s和YOLOv5m是預(yù)設(shè)的簡(jiǎn)化模型。他們的主要區(qū)別在于網(wǎng)絡(luò)深度和寬度有差異,YOLOv5的結(jié)構(gòu)如圖1所示。
圖1:YOLOv5結(jié)構(gòu)
輸入端(Input)是圖像預(yù)處理階段,主要包括三個(gè)部分來(lái)提升訓(xùn)練效率,分別是馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放技術(shù)。
主干網(wǎng)絡(luò)(Backbone)主要是對(duì)圖片進(jìn)行下采樣,提取豐富的圖像語(yǔ)義特征,隨著主干網(wǎng)絡(luò)的加深,提取的語(yǔ)義信息越高級(jí)。主干網(wǎng)絡(luò)主要包括切片(Focus)結(jié)構(gòu)、跨階段局部網(wǎng)絡(luò)(CSP)結(jié)構(gòu)和空間金字塔池化(SPP)結(jié)構(gòu),在YOLOv5中有兩種CSP結(jié)構(gòu),CSP1_X在主干網(wǎng)絡(luò)中,CSP2_X在頸部網(wǎng)絡(luò)中,空間金字塔池化采用4種不同卷積核大小的池化層執(zhí)行最大池化操作,對(duì)池化后的結(jié)果進(jìn)行堆疊,完成特征融合,其主要功能是提取重要的上下文特征,增加感受野。
頸部網(wǎng)絡(luò)(Neck)使用的是FPN+PAN網(wǎng)絡(luò)結(jié)構(gòu),是一種多尺度目標(biāo)特征融合的方法,主要用于生成特征金字塔,增強(qiáng)模型對(duì)不同尺度物體的檢測(cè)。
預(yù)測(cè)頭部(Head)組成損失函數(shù)和非極大值抑制,預(yù)測(cè)頭部負(fù)責(zé)在特征圖上應(yīng)用錨框(anchor),生成帶類概率、對(duì)象得分和矩形框的最終輸出向量,生成預(yù)測(cè)結(jié)果。
雙目視覺(jué)是將兩個(gè)相機(jī)放在不同的位置對(duì)目標(biāo)進(jìn)行觀察,由于兩個(gè)相機(jī)擺放位置不同,目標(biāo)物體在相機(jī)投影平面上的投影位置也會(huì)不同,這種投影位置之差就是視差,目標(biāo)物體與兩個(gè)相機(jī)的投影平面可以構(gòu)成三角形平面,對(duì)相機(jī)進(jìn)行標(biāo)定獲得兩個(gè)相機(jī)之間的位置關(guān)系,再利用三角測(cè)量的方法獲取目標(biāo)距離。平行雙目視覺(jué)模型如圖2所示。
圖2:雙目視覺(jué)模型
圖中我們將左相機(jī)的透鏡光心定義為O,右相機(jī)的透鏡光心定義為O,左右光心之間的距離為基線距離用b表示,兩個(gè)相機(jī)的焦距用f表示,其中空間中有一點(diǎn)P(Xc,Yc,Zc),P點(diǎn)在左右相機(jī)的投影平面上的像素坐標(biāo)分別為PL(X,Y)和PR(X,Y),雙目視覺(jué)模型中,兩相機(jī)的圖像平面在同一平面上,空間點(diǎn)P的坐標(biāo)中Y值相等,所以Y=Y,由三角關(guān)系可以得到如式(1)所示:
將P點(diǎn)的視差XL-XR記為d,以左相機(jī)的坐標(biāo)系作為世界坐標(biāo)系,利用視差值,計(jì)算得到P點(diǎn)在左相機(jī)坐標(biāo)系下的坐標(biāo),如式(2)所示為:
因此左圖像平面上的點(diǎn)只要在右圖像上找到相對(duì)應(yīng)的匹配點(diǎn),可計(jì)算出視差和景深,就能求得該點(diǎn)的三維坐標(biāo)。
相機(jī)標(biāo)定要確定像素坐標(biāo)系-圖像坐標(biāo)系-相機(jī)坐標(biāo)系-世界坐標(biāo)系的轉(zhuǎn)換,相機(jī)投影模型如圖3所示。
圖3:相機(jī)投影模型
世界坐標(biāo)系一般由人來(lái)定義的,它的坐標(biāo)原點(diǎn)和方向是任意的,是用來(lái)表示場(chǎng)景中任意物體的位置,用坐標(biāo)系OXYZ來(lái)表示。
相機(jī)坐標(biāo)系是以透鏡面的角度來(lái)描述物體位置的,用坐標(biāo)系O-XYZ來(lái)表示,一般用來(lái)描述相機(jī)的位置。
圖像物理坐標(biāo)系是以圖像中心建立的坐標(biāo)系,用平面坐標(biāo)系Oxy表示,在該坐標(biāo)系中的點(diǎn)以毫米(mm)的物理單位來(lái)描述,其坐標(biāo)原點(diǎn)O為相機(jī)光軸與投影平面的交點(diǎn),其x軸取向右為正,y軸垂直x軸向下為正,表示的坐標(biāo)(x,y)為像素在實(shí)際圖片中的物理坐標(biāo)。
在我國(guó)國(guó)內(nèi)物品物流的運(yùn)輸中,從下單到收貨,這對(duì)包裹的全程追蹤已常態(tài)化,是對(duì)商家最基本的要求,由于跨境電商物流地區(qū)廣,不能做到每個(gè)跨境物品的全程追蹤,在國(guó)內(nèi),信息追蹤可以實(shí)現(xiàn),而當(dāng)包裹出境后,由于信息水平的限制,很難對(duì)其再進(jìn)行繼續(xù)追蹤。雖然目前在一些發(fā)達(dá)國(guó)家可以實(shí)現(xiàn)全程追蹤,但在信息化不高的國(guó)家難以實(shí)現(xiàn),大大制約了跨境交易及跨境物流的發(fā)展。這是由于電商物流企業(yè)無(wú)法與其他國(guó)家物流企業(yè)構(gòu)建起物流信息共享網(wǎng)絡(luò),所以對(duì)出境的貨物進(jìn)行全程追蹤服務(wù)很難實(shí)現(xiàn)。
圖像像素坐標(biāo)系是圖片像素所在的坐標(biāo)系,用平面坐標(biāo)系O-uv表示。此坐標(biāo)系的原點(diǎn)一般定義為圖片的左上角,其uv軸別與圖像物理坐標(biāo)系的xy軸平行且方向一致,單位為像素,其表示的坐標(biāo)(u,v)就是像素所在的行和列。
為了得到實(shí)際空間中任意一點(diǎn)的坐標(biāo)到圖像像素坐標(biāo)的轉(zhuǎn)換,我們需要用數(shù)學(xué)的方法來(lái)推導(dǎo),在上述坐標(biāo)系的基礎(chǔ)上,設(shè)點(diǎn)P(X,Y,Z)為世界坐標(biāo)系中的任意一點(diǎn),點(diǎn)P由像素坐標(biāo)系到世界坐標(biāo)系之間的轉(zhuǎn)換關(guān)系如下:
式中f為焦距,R為旋轉(zhuǎn)矩陣,t為平移向量,N為相機(jī)內(nèi)參矩陣,M為外參矩陣,NM為相機(jī)坐標(biāo)系到世界坐標(biāo)的轉(zhuǎn)換矩陣。
目標(biāo)檢測(cè)模型訓(xùn)練需要大量數(shù)據(jù)集,為此用相機(jī)對(duì)所需要的識(shí)別的物料進(jìn)行拍攝,將拍攝好的圖片進(jìn)行手工標(biāo)注。為了驗(yàn)證YOLOv5模型識(shí)別效果,在制作數(shù)據(jù)集的過(guò)程中分別拍攝了距離遠(yuǎn)近不同和相機(jī)角度不同的圖片,總共制作了2000張圖片作為數(shù)據(jù)集,按照9:1的比例劃分訓(xùn)練集和測(cè)試集。訓(xùn)練環(huán)境CPU為Intel(R)Core(TM)I7-10750H,GPU為RTX 2060,深度學(xué)習(xí)框架為pytorch。訓(xùn)練epoch為300,衰減率為0.002,batch-size為16,得到最優(yōu)權(quán)重。
本文使用平均精度均值(mAP)來(lái)評(píng)價(jià)模型準(zhǔn)確性,mAP是各類別平均準(zhǔn)確率(AP)的平均值,AP值指的是精確率(precision)和召回率(recall)組成PR關(guān)系曲線所圍成的面積,實(shí)驗(yàn)中,訓(xùn)練前期損失值下降較快,隨著訓(xùn)練輪數(shù)增,在200輪后損失降至穩(wěn)定,模型收斂。得到最終物料的平均精度均值(mAP)值達(dá)到95.9%。
將雙目相機(jī)固定不動(dòng),確保標(biāo)定板在相機(jī)視野內(nèi),不斷的改變標(biāo)定板的位置和姿態(tài),在實(shí)驗(yàn)過(guò)程中采集多組左右標(biāo)定圖片,選取較好的21組圖片,使用MATLAB標(biāo)定工具箱進(jìn)行標(biāo)定,得到雙目相機(jī)參數(shù)如表1所示。
表1:雙目相機(jī)參數(shù)表
由表1分析可知,旋轉(zhuǎn)矩陣近似于單位矩陣,標(biāo)定獲得的相機(jī)內(nèi)參經(jīng)求出的實(shí)際焦距結(jié)果與標(biāo)稱焦距6mm相差不大,實(shí)驗(yàn)標(biāo)定精度較高。
為了驗(yàn)證SGBM的有效性,將物料放置于不同的位置,手工測(cè)量物料距離,與算法計(jì)算距離比較,以左相機(jī)光心建立坐標(biāo)系,得到的距離如表2所示。
表2:實(shí)際距離與計(jì)算距離對(duì)比
目標(biāo)檢測(cè)的之后得到物料的矩形框,以矩形框長(zhǎng)邊一半,短邊的四分之一位置的點(diǎn)為抓取目標(biāo)點(diǎn),與雙目立體匹配的結(jié)果結(jié)合起來(lái),由式得到該點(diǎn)三維坐標(biāo),實(shí)現(xiàn)物料的三維定位,將物料放置在距離相機(jī)610mm的地方,其檢測(cè)結(jié)果如圖4所示。根據(jù)檢測(cè)結(jié)果可以看出,結(jié)合目標(biāo)檢測(cè)與雙目視覺(jué)的物料定位效果很好,測(cè)得的距離精度很高,能夠滿足機(jī)械臂抓取要求。
圖4:三維坐標(biāo)檢測(cè)結(jié)果
綜上,研究了基于目標(biāo)檢測(cè)算法識(shí)別物料的位置,使用雙目視覺(jué)測(cè)得物料的距離,完成物料的三維定位,通過(guò)利用YOLOv5算法對(duì)左圖進(jìn)行檢測(cè)得到物料的矩形框,然后利用SGBM算法獲得抓取點(diǎn)的距離,算法測(cè)得的距離誤差在1cm內(nèi),得到物料抓取點(diǎn)的世界坐標(biāo)值,最終完成物料的識(shí)別與定位,通過(guò)實(shí)驗(yàn)表明定位精度可以滿足抓取要求。