摘要:準(zhǔn)確量化爆破后巖石的破碎程度對(duì)于優(yōu)化爆破設(shè)計(jì)和提高采礦作業(yè)的生產(chǎn)效率至關(guān)重要。傳統(tǒng)的圖像分析方法通常耗時(shí)耗力,且準(zhǔn)確性較低。文章提出了一種名為BBDFiT的框架,能夠自動(dòng)分析爆破后圖像中的巖石破碎分布。BBDFiT可以高效提取巖石塊度分布和內(nèi)部裂隙結(jié)構(gòu),為優(yōu)化爆破設(shè)計(jì)和質(zhì)量控制提供數(shù)據(jù)驅(qū)動(dòng)的見(jiàn)解。在專用的煤礦爆破塊度數(shù)據(jù)集上,BBDFiT實(shí)現(xiàn)了81.5%的top-1準(zhǔn)確率,比當(dāng)前最先進(jìn)的視覺(jué)轉(zhuǎn)換器模型高出約1.8%,而推理速度相當(dāng)。這種人工智能驅(qū)動(dòng)的方法為采礦企業(yè)提供了一種新的數(shù)字化工具,有望提高生產(chǎn)效率和經(jīng)濟(jì)效益,在礦山工程圖像分析領(lǐng)域具有廣闊的應(yīng)用前景。
關(guān)鍵詞:Transformer;爆破設(shè)計(jì);圖像分析;煤礦爆破塊度;礦山工程
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)27-0023-04
1 背景
近年來(lái),采礦業(yè)與多學(xué)科技術(shù)融合,推動(dòng)了礦山智能化建設(shè)。實(shí)現(xiàn)對(duì)露天礦爆破效果的實(shí)時(shí)智能評(píng)價(jià)需要自動(dòng)、快速且準(zhǔn)確地統(tǒng)計(jì)爆破后大塊率[1-3]。由于傳統(tǒng)人工目視統(tǒng)計(jì)大塊率效率和精度較低,研究人員提出了利用圖像分割算法自動(dòng)統(tǒng)計(jì)爆破后大塊率的新方法[4],該方法已在多個(gè)礦山現(xiàn)場(chǎng)得到廣泛應(yīng)用。
在過(guò)去十年中,計(jì)算機(jī)視覺(jué)領(lǐng)域主要采用了基于卷積神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)架構(gòu)[5-6]。不同于此,Transformer 是一種主要基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),可處理特征之間的關(guān)系。Transformer被廣泛應(yīng)用于自然語(yǔ)言處理(NLP) 領(lǐng)域,如著名的GPT-3模型[7]L2OP1gt7zIjTer0TqlLEI13BI4jYKsdNgn5+3PLN2wQ=。為將Transformer 結(jié)構(gòu)用于視覺(jué)任務(wù),研究人員探索了如何表示來(lái)自圖像和視頻數(shù)據(jù)的序列信息。Dosovitskiy 等人[8] 開(kāi)發(fā)了Vision Transformer(ViT),通過(guò)將圖像分成局部patches作為視覺(jué)序列輸入,如今,Transformer已廣泛應(yīng)用于圖像識(shí)別[9-10]、目標(biāo)檢測(cè)[11]和圖像分割[12-13]等任務(wù)。
現(xiàn)有工作在處理復(fù)雜多樣的自然圖像時(shí)可能顯得過(guò)于簡(jiǎn)單。因此,本文提出了一種新的Transformer架構(gòu)——Blast Block Detection Frame?work in Transformer (BBDFiT),如圖1 所示。該方法首先將輸入圖像分割為較大的“視覺(jué)句子”,再將每個(gè)句子進(jìn)一步分割為較小的“視覺(jué)詞”。除常規(guī)Transformer塊用于捕捉句子級(jí)特征外,本文還嵌入了子Transformer模塊,以細(xì)致挖掘視覺(jué)詞的細(xì)粒度特征。通過(guò)這種分層表示,BBDFiT能夠提取更加細(xì)致和豐富的視覺(jué)信息。
實(shí)驗(yàn)結(jié)果顯示,與Transformer網(wǎng)絡(luò)相比,該模型在ImageNet 及下游任務(wù)上表現(xiàn)更優(yōu)。本文提出的BBDFiT在精度和計(jì)算效率之間取得了更好的平衡。在采礦領(lǐng)域,BBDFiT架構(gòu)為高效分析煤礦爆破殘?jiān)鼒D像提供了新的可能。
2 方法
2.1 爆破塊度檢測(cè)架構(gòu)
給定一張二維圖像,本文將其均勻分割為n 個(gè)patch ? = [ X1,X2,...,XN ]?Rn × p × p × 3,在ViT[8]模型中,這些圖像被劃分成多個(gè)patch,每個(gè)patch都具有固定的分辨率( p,p)。本文提出了Blast Blockiness DetectionFrame in Transformer(BBDFiT)架構(gòu),用于學(xué)習(xí)煤礦爆破塊度分析圖像中的全局塊度和局部塊度信息。在BBDFiT中,本文將一個(gè)patch定義為代表煤礦爆破塊度圖像的視覺(jué)句子。隨后,再將每個(gè)patch進(jìn)一步分割為m 個(gè)子patch,即一個(gè)視覺(jué)句子X(jué)i 由一系列視覺(jué)單詞(子patch) 組成:
Xi → [ xi,1,xi,2,...,xi,m ] (1)
式中:xi,j ?Rs × s × 3 為第i 個(gè)視覺(jué)句子的第j 個(gè)視覺(jué)單詞,(s,s) 為子patch的空間大小,j = 1,2,...,m。通過(guò)線性投影,本文將視覺(jué)詞Y i轉(zhuǎn)換為一系列詞嵌入:
Y i → [ yi,1,yi,2,...,yi,m ] (2)
yi,j = FC (Vec(xi,j )) (3)
公式(3) 中,yi,j ?Rc 為第j 次詞嵌入,c 為詞嵌入的維數(shù),Vec(?)為向量化運(yùn)算。
在BBDFiT中,本文設(shè)計(jì)了兩個(gè)數(shù)據(jù)流,其中一個(gè)流用于處理視覺(jué)句子,另一個(gè)流用于處理每個(gè)句子中的視覺(jué)單詞。對(duì)于詞嵌入,本文使用Transformer塊來(lái)探索視覺(jué)詞之間的關(guān)系:
Y il′ = Y il - 1 + MSA(LN (Y il - 1 )) (4)
Y il = Y il′ + MLP (LN ( Y il′ )) (5)
其中,l = 1,2,...,L 為第L 個(gè)塊的索引,L 為堆疊塊的總數(shù)。第一個(gè)區(qū)塊的輸入Y i0 即為公式(2)中的Y i。
變換后圖像中的所有詞嵌入γl = [Y 1 l ,Y 2 l ,...,Y nl ]可以看作是一個(gè)內(nèi)部Transformer塊,表示為Tin。這個(gè)過(guò)程通過(guò)計(jì)算任意兩個(gè)視覺(jué)詞之間的相互作用來(lái)建立視覺(jué)詞之間的關(guān)系。
對(duì)于句子級(jí),本文創(chuàng)建句子嵌入記憶?0 來(lái)存儲(chǔ)句子級(jí)表示序列:?0 = [ Zclass,Z10,Z20,...,Zn0 ]?R(n + 1) × d。其中,Zclass 為類令牌,與ViT[8]類似,均初始化為0。在每一層,通過(guò)線性投影將詞嵌入序列轉(zhuǎn)換到句子嵌入域,并加入句子嵌入中:
Zil - 1 = Zil - 1 + FC (Vec(Y il )) (6)
式中,Zil - 1?Rd 和全連通層FC用于使維度匹配加法。通過(guò)上述加法運(yùn)算,句子嵌入?l 的表示得到了詞級(jí)特征的增強(qiáng)。本文使用標(biāo)準(zhǔn)的Transformer塊來(lái)轉(zhuǎn)換句子嵌入:
?′l = ?l - 1 + MSA(LN (?l - 1 )) (7)
?l = ?′l + MLP (LN ( ?′l )) (8)
綜上所述,BBDFiT塊的輸入和輸出包括如圖1所示的視覺(jué)詞嵌入和句子嵌入。因此,BBDFiT可以表示為:
γl,?l = BBDFiT (γl - 1,?l - 1 ) (9)
在本文的BBDFiT塊中,該模型采用了分層結(jié)構(gòu):內(nèi)層Transformer塊用于挖掘patch內(nèi)部的局部特征,而外層Transformer塊則聚焦于捕捉不同patch之間的全局關(guān)聯(lián)。通過(guò)L 次堆疊這種分層BBDFiT模塊,模型能夠高效地融合局部和全局視覺(jué)信息,從而構(gòu)建一個(gè)Transformer-Transformer 網(wǎng)絡(luò)。最后,使用分類令牌作為圖像表示,并通過(guò)全連接層進(jìn)行分類處理。本文為句子嵌入和詞嵌入添加了位置編碼,以保留空間信息。如圖1所示,使用了可學(xué)習(xí)的一維位置編碼。每個(gè)句子?0被分配了一個(gè)位置編碼:
?0 ← ?0 + Esentence (10)
其中,句子Esentence ?R(n + 1) × d 為句子被分配位置編碼,句子中的每個(gè)視覺(jué)詞也被分配位置編碼,在每個(gè)詞Y i0 嵌入中加入一個(gè)詞位置編碼,以確保模型能夠保留和利用空間信息。
Y i0 ← Y i0 + Eword,i = 1,2,…,n (11)
其中,單詞位置編碼Eword ?Rm × c 是跨句子共享的。這樣,句子位置編碼用于保持全局空間信息,而單詞位置編碼用于保持局部相對(duì)位置信息,兩者編碼相互補(bǔ)充。這種設(shè)計(jì)確保了模型在處理視覺(jué)信息時(shí),既能捕捉到整體的空間布局,又能關(guān)注到局部的細(xì)節(jié)關(guān)系。
2.2 網(wǎng)絡(luò)體系結(jié)構(gòu)
本文在ViT[8]的基本配置上構(gòu)建了BBDFiT架構(gòu)。圖像的patch 大小設(shè)為16 × 16,每個(gè)patch 被劃分為m = 4 × 4 = 16 個(gè)子patch。表1 列出了BBDFiT 的3 種不同模型尺寸變體,分別是BBDFiT-S、BBDFiT-B 和BBDFiT-L。這3種模型規(guī)模不同,參數(shù)量分別為6.1 M、23.8 M和65.6 M。在處理224×224分辨率圖像時(shí),對(duì)應(yīng)的計(jì)算量(FLOPs) 分別為1.4 B、5.2 B 和14.1 B。
在模型名稱中,Ti表示Tiny(很?。?,S表示Small (?。珺表示Base(基礎(chǔ))。FLOPs的計(jì)算是基于輸入圖像分辨率為224 × 224。
3 實(shí)驗(yàn)與分析
本文的實(shí)驗(yàn)基于采集到的爆破作業(yè)過(guò)程視頻數(shù)據(jù)集。數(shù)據(jù)集包含37個(gè)時(shí)長(zhǎng)為一分鐘的爆破作業(yè)視頻,整體大小為2.16 GB,涵蓋多個(gè)拍攝角度,包括爆破現(xiàn)場(chǎng)后現(xiàn)場(chǎng)石塊的左側(cè)、右側(cè)、正前方以及左下方、右下方等。經(jīng)過(guò)抽幀、打標(biāo)簽等預(yù)處理后,共獲得大小為5.86 GB的58 617張圖片數(shù)據(jù)的數(shù)據(jù)集。
根據(jù)表2可知,訓(xùn)練集包含40 570張爆破現(xiàn)場(chǎng)石塊圖片,涵蓋多個(gè)拍攝角度;測(cè)試集則包含12 047張爆破現(xiàn)場(chǎng)石塊圖片,也覆蓋了這些拍攝角度。
3.1 參數(shù)設(shè)置
訓(xùn)練參數(shù)的設(shè)置如表3 所示:學(xué)習(xí)率(LR) 設(shè)為0.01,批大?。╞atch size) 為16,訓(xùn)練次數(shù)(epochs) 為300,初始權(quán)重使用ViT 的原始權(quán)重,訓(xùn)練設(shè)備為GPU。
3.2 實(shí)驗(yàn)內(nèi)容
本文通過(guò)對(duì)不同數(shù)據(jù)集和模型進(jìn)行組合,驗(yàn)證自建數(shù)據(jù)集和模型的有效性。實(shí)驗(yàn)設(shè)置遵循控制變量原則,組合方式如下:1) 公開(kāi)數(shù)據(jù)集+模板匹配模型;2) 自建數(shù)據(jù)集+模板匹配模型;3) 自建數(shù)據(jù)集+BBDFiT模型。
根據(jù)以上組合方式,本文設(shè)計(jì)了兩個(gè)對(duì)照實(shí)驗(yàn):1) 比較公開(kāi)數(shù)據(jù)集+模板匹配模型與自建數(shù)據(jù)集+模板匹配模型,以驗(yàn)證自建數(shù)據(jù)集在提升實(shí)際應(yīng)用中識(shí)別率方面的有效性;2) 比較自建數(shù)據(jù)集+模板匹配模型與自建數(shù)據(jù)集+BBDFiT模型,以驗(yàn)證BBDFiT模型的有效性。
3.3 實(shí)驗(yàn)結(jié)果分析
3.3.1 數(shù)據(jù)集訓(xùn)練模板匹配模型對(duì)比
本研究評(píng)估了BBDFiT模型在NVIDIA V100 GPU 和PyTorch環(huán)境下、輸入尺寸為224×224時(shí)的推理速度性能。結(jié)果表明(見(jiàn)表4) ,與ViT 和DeiT 相比,BBDFiT在相似的推理速度下獲得了更高的準(zhǔn)確率。雖然BBDFiT塊增加了一些計(jì)算和內(nèi)存開(kāi)銷,但增幅有限,它能夠有效捕捉局部結(jié)構(gòu)信息,在精度和復(fù)雜度之間取得了更好的平衡。
3.4 消融實(shí)驗(yàn)
3.4.1 位置編碼的影響
位置信息對(duì)圖像識(shí)別至關(guān)重要。在BBDFiT結(jié)構(gòu)中,句子位置編碼用于保留全局空間信息,而詞位置編碼則保持局部相對(duì)位置信息。實(shí)驗(yàn)驗(yàn)證了它們的有效性(見(jiàn)表5) 。在使用兩種位置編碼時(shí),BBDFiT-S 取得了81.8%的最佳top-1準(zhǔn)確率。移除句子位置編碼或詞位置編碼后,準(zhǔn)確率分別下降了0.8%和0.7%。若去除所有位置編碼,則準(zhǔn)確率嚴(yán)重下降1%。結(jié)果表明,BBDFiT中的位置編碼方案能夠很好地融合全局和局部位置信息。
3.4.2 頭部個(gè)數(shù)
在本文中,外部Transformer塊采用了64的頭寬度。而內(nèi)部Transformer塊中的頭數(shù)量則是另一個(gè)需要研究的超參數(shù)。通過(guò)表6中的評(píng)估結(jié)果可以看出,適當(dāng)?shù)念^數(shù)量(例如2或4) 可以達(dá)到最佳性能。
3.4.3 視覺(jué)單詞的數(shù)量
在BBDFiT 中,輸入圖像被分割成若干個(gè)16 × 16patch,每個(gè)圖像patch 進(jìn)一步劃分為m 個(gè)子patch(也可稱為視覺(jué)單詞),其大小為(s,s),以增加計(jì)算效率。本文測(cè)試了超參數(shù)m 對(duì)BBDFiT-S結(jié)構(gòu)的影響。當(dāng)調(diào)整m 時(shí),嵌入維度c 相應(yīng)調(diào)整以控制FLOPs。根據(jù)表7的結(jié)果顯示,m 的變化對(duì)性能產(chǎn)生了輕微影響。本文默認(rèn)使用m = 16來(lái)提高其效率。
3.5 可視化
3.5.1 特征圖的可視化
在本文中,筆者將ViT和BBDFiT學(xué)習(xí)到的特征進(jìn)行了可視化,以了解所提出方法的效果。輸入圖像的尺寸被調(diào)整為1024×1024,并根據(jù)塊嵌入的空間位置重塑為特征映射。圖2(a)展示了不同塊的特征圖,結(jié)果顯示BBDFiT 相比ViT 能夠更好地保留局部信息。圖2(b)展示了使用T-SNE[14]對(duì)第12塊384個(gè)特征圖進(jìn)行可視化的結(jié)果,BBDFiT的特征圖更多樣且豐富,這歸因于內(nèi)部Transformer用于建模局部特征。
圖3展示了BBDFiT的像素級(jí)嵌入。每個(gè)patch的詞嵌入根據(jù)空間位置重構(gòu)為特征映射,并沿通道進(jìn)行平均??梢杂^察到,淺層特征保留了更多的局部信息,而深層特征則逐漸抽象化。通過(guò)這樣的可視化分析,筆者發(fā)現(xiàn)BBDFiT相比ViT能夠更好地捕捉和利用圖像的局部結(jié)構(gòu)信息。
3.5.2 注意力圖的可視化
本文的BBDFiT塊包含兩個(gè)自注意層,分別為內(nèi)部自注意層和外部自注意層,用于建模視覺(jué)詞與句子之間的關(guān)系。圖4展示了內(nèi)部Transformer中不同查詢的注意力映射。對(duì)于給定的查詢視覺(jué)詞,與其外觀相似的視覺(jué)詞具有更高的注意力值,這表明這些視覺(jué)詞的特征與查詢?cè)~的交互更為相關(guān)。
4 總結(jié)
本文提出了一種名為BBDFiT(Blast Blockiness De?tection Frame Transformer) 的新型視覺(jué)識(shí)別網(wǎng)絡(luò)架構(gòu),專門用于評(píng)估煤礦爆破作業(yè)中的大塊率。與標(biāo)準(zhǔn)視覺(jué)Transformer直接對(duì)打平的patch序列進(jìn)行建模不同,BBDFiT將輸入圖像劃分為patch(句子)和子patch(單詞),并通過(guò)內(nèi)外兩個(gè)Transformer模塊分別對(duì)句子和單詞嵌入進(jìn)行建模,從而融合局部信息。通過(guò)保留和利用圖像的局部結(jié)構(gòu)信息,BBDFiT在評(píng)估爆破大塊率等視覺(jué)任務(wù)上取得了優(yōu)異的表現(xiàn)。大量煤礦爆破現(xiàn)場(chǎng)圖像數(shù)據(jù)的實(shí)驗(yàn)驗(yàn)證了BBDFiT架構(gòu)的有效性。
參考文獻(xiàn):
[1] 謝先啟,黃小武,姚穎康,等.露天深孔臺(tái)階精細(xì)爆破技術(shù)研究進(jìn)展[J].金屬礦山,2022(7):7-18.
[2] 汪旭光,吳春平.智能爆破的產(chǎn)生背景及新思維[J].金屬礦山,2022(7):1-6.
[3] 吳春平,汪旭光.智能爆破的基本概念與研究?jī)?nèi)容[J].金屬礦山,2023(5):59-63.
[4] BAHRAMI A, MONJEZI M, GOSHTASBI K, et al. Prediction of rock fragmentation due to blasting using artificial neural net?work[J]. Engineering with Computers, 2011, 27(2): 177-181.
[5] HAN K, WANG Y, TIAN Q, GUO J, et al. GhostNet: More fea?tures from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 1580-1589.
[6] HE K, ZHANG X, REN S, SUN J. Deep residual learning for image recognition[C]//Proceedings of the IEEE/CVF Confer?ence on Computer Vision and Pattern Recognition (CVPR).2016: 770-778.
[7] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C]//Advances in Neural Information Process?ing Systems (NeurIPS), 2020(33): 1877-1901.
[8] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An im?age is worth 16x16 words: Transformers for image recognition at scale[C]//International Conference on Learning Representa?tions (ICLR). 2021.
[9] TANG Y, HAN K, XU C, XIAO A, et al. Augmented shortcuts for vision transformers[EB/OL]. [2023-12-20]. arXiv preprint arXiv:2106.15941.
[10] YUAN L, CHEN Y, WANG T, et al. Tokens-to-token ViT:Training vision transformers from scratch on ImageNet[EB/OL].[2023-12-20].arXiv preprint arXiv:2101.11986.
[11] ZHU X, SU W, LU L, LI B, et al. Deformable DETR: Deform?able transformers for end-to-end object detection[C]//Interna?tional Conference on Learning Representations (ICLR). 2021.
[12] 呂林,尹君,胡振襄.基于圖像處理的巖體塊度分析系統(tǒng)[J].金屬礦山,2011(2):118-121.
[13] 荊永濱,馮興隆,張凱銘,等.基于塊體二維圖形的巖塊三維篩分尺寸研究[J].金屬礦山,2020(4):46-51.
[14] VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(11):2579-2605.
【通聯(lián)編輯:唐一東】