孫宗康,饒睦敏,曹裕靈,史艷麗
基于小樣本不均衡數(shù)據(jù)的供水管道泄漏智能檢測算法
孫宗康1,饒睦敏2,曹裕靈1,史艷麗3
(1. 廣東電力發(fā)展股份有限公司,廣東 廣州 510630;2. 廣東能源集團科學技術研究院有限公司,廣東 廣州 510630;3. 華南農(nóng)業(yè)大學圖書館,廣東 廣州 510642)
針對能源電廠供水管道泄漏視覺檢測存在數(shù)據(jù)樣本少、不均衡等問題,提出一種基于小樣本不均衡數(shù)據(jù)的供水管道泄漏智能檢測算法。首先,提出一種基于多掩碼混合Multi-mask mix的數(shù)據(jù)增強方法,通過隨機生成掩碼層對原始圖像進行區(qū)域提取與混合,在Multi-mask mix中引入支持向量機(SVM)獲取管道正常和泄漏特征,為混合掩碼塊提供更準確的先驗標簽;其次,提出一種均衡化策略并應用于圖像層面和掩碼層面,以實現(xiàn)數(shù)據(jù)均衡化;最后,基于深度學習的Resnet18網(wǎng)絡模型實現(xiàn)管道泄漏檢測與識別。實驗結果表明,該算法處理圖像數(shù)據(jù)后可使Resnet18模型對管道泄漏識別準確率提升1.1% ~ 4.4%,說明深度學習模型能有效提升管道泄漏檢測的分類精度,優(yōu)于現(xiàn)有其他算法。此外,該算法現(xiàn)已成功應用于能源電廠供水管道泄漏檢測。
小樣本;多掩碼混合;數(shù)據(jù)增強;數(shù)據(jù)均衡化;管道泄漏檢測
能源電廠供水管道主要承擔配水、輸水等功能,由于水中存在腐蝕性雜質(zhì),對大型機器機械振動易產(chǎn)生腐蝕,同時設備也存在老化等問題,從而引起供水泄漏。長期的泄漏將加劇供水管道腐蝕與老化,嚴重情況可導致安全事故。因此,及時發(fā)現(xiàn)管道泄漏對保障能源電廠安全運行具有重要意義。早期的管道泄漏檢測主要依賴人工巡檢,由于管路多、空間狹窄,巡檢效率低且容易發(fā)生漏檢[1]。為此,負壓力波檢漏法[2]、聲信號分析法[3]、流量平衡檢漏法[4]、機器視覺檢測等方法逐步應用于管道泄漏檢測。其中,基于機器視覺的檢測方法通過面陣相機動態(tài)采集管道圖片數(shù)據(jù),并與含有泄漏特征圖片模板對比實現(xiàn)長時間不間斷管路監(jiān)測,安裝容易且成本低,已成為主要方法,但復雜光照以及環(huán)境背景條件下泄漏識別率仍有待提升[5]。
近年來,以多層深度人工神經(jīng)網(wǎng)絡為架構,通過對大量數(shù)據(jù)隱含特征學習與表征,深度學習技術已成功應用于語音識別、計算機視覺等領域并取得了很好的效果[6]。利用管道圖片數(shù)據(jù)實現(xiàn)泄漏檢測本質(zhì)上是圖像分類[7]識別問題,基于深度神經(jīng)網(wǎng)絡技術可為能源電廠管道高精度泄漏檢測提供可能。但其訓練通常需大量圖像數(shù)據(jù)樣本支撐,而能源電廠采集圖像主要來源于未泄漏的特征數(shù)據(jù),易導致泄漏與無泄漏特征圖像數(shù)據(jù)出現(xiàn)不均衡特點,并使訓練網(wǎng)絡過于關注無泄漏特征數(shù)據(jù),而忽視了少量含有泄漏特征類圖像數(shù)據(jù),以致泄漏特征識別分類性能提升有限。
為盡可能增加包含更多泄漏特征的圖像數(shù)據(jù),且分布更為均衡,數(shù)據(jù)增強方法較為有效,且能增加訓練數(shù)據(jù)集,讓數(shù)據(jù)集盡可能多樣化,使得訓練模型具有更強泛化能力。其中,有部分學者針對單張圖像提出Cutout[8-9],RandErasing[10],HideAndSeek[11]和GridMask[12]等數(shù)據(jù)增強方法;也有對多張圖像進行混合增強的Mixup[13]和Cutmix[14]等方法,但存在過度刪除區(qū)域等問題,可能造成泄漏的關鍵特征信息缺失,使增強數(shù)據(jù)成為噪聲數(shù)據(jù);或因保留過多區(qū)域,忽略了主要泄漏特征,使整體數(shù)據(jù)失去增強目的。
本文針對管道泄漏數(shù)據(jù)集中存在的數(shù)據(jù)量少、數(shù)據(jù)不均衡的情況,提出了一種多掩碼混合(Multi-mask mix)數(shù)據(jù)增強策略,該策略主要包括4個方面的內(nèi)容:①通過掩碼的線性插值產(chǎn)生新圖像,使其更多地包含泄漏特征,并采用了多個掩碼混合的方法;②使用人工剪切的少量泄漏特征數(shù)據(jù)和少量正常管道特征數(shù)據(jù),訓練支持向量機(support vector machine,SVM),通過SVM判別為混合掩碼提供更為準確的先驗標簽;③針對泄漏圖像較少、正常圖像較多的問題,從圖像層面和掩碼層面上提出了均衡化策略;④結合原圖像和混合掩碼的標簽,提出適用于Multi-mask mix的分類損失函數(shù)。將該數(shù)據(jù)增強策略用于訓練Resnet18[15]和VGG16[16]模型,并與若干流行的數(shù)據(jù)增強方法進行比較,實驗結果表明,該方法能有效提升深度學習模型對管道泄漏檢測的分類精度。
Multi-mask mix算法通過一系列步驟對初始圖片進行處理,進而實現(xiàn)數(shù)據(jù)的增強,流程如圖1所示。首先從數(shù)據(jù)集中隨機選取2張圖片,利用隨機生成的掩碼層將兩者進行混合并組成新樣本,新的樣本包含2種特征,一是原始背景圖像的特征;二是經(jīng)混合后的掩碼塊的特征。前者的特征標簽與背景圖像的標簽一致,后者的標簽由SVM判別得到,通過以上步驟可以獲取新樣本及其標簽。
然后,通過線性插值得到混合掩碼為
其中,用于控制插值程度,~(0,1)。
最后,使用x和x得到x,即
圖1 多掩碼混合生成新圖像
Fig. 1 Multi-mask blending generates new image
經(jīng)處理后,新樣本包含原始背景圖像和混合掩碼塊兩部分特征。前者的特征標簽與背景圖像的標簽一致,后者的標簽需要重新判別。為了判斷混合掩碼的標簽,本文引入了SVM作為該部分特征的判別器。
首先從收集到的管道泄漏數(shù)據(jù)集中人工截圖部分泄漏特征圖像和正常管道圖像構建泄漏特征分類數(shù)據(jù)集,如圖2所示。使用該數(shù)據(jù)集訓練SVM模型,并通過sigmoid-fitting方法輸出分類概率。由于SVM分類算法較為常見,其實施細節(jié)不再贅述,具體見文獻[17]。
圖2 特征分類數(shù)據(jù)集((a)泄露特征;(b)正常特征)
假設得到的分類概率函數(shù)為(),通過式(3)和式(4)得到混合掩碼的標簽為
其中,x和x分別為圖像x和x所對應的第塊掩碼圖像;為對圖像縮放至固定大小,由p可確定混合掩碼的標簽y。
由于管道圖片樣本中正常的居多,泄漏偏少,若直接輸入到神經(jīng)網(wǎng)絡模型中進行訓練,則使得網(wǎng)絡模型在訓練過程中遇到正負樣本不均衡的問題。如果直接使用Multi-mask mix進行隨機采樣,則會加劇不平衡現(xiàn)象,這不僅會導致模型在訓練中提取的泄漏數(shù)據(jù)特征較少,也易導致過擬合并使預測結果更傾向于正常類別,進而造成識別準確率下降。
目前處理類別不平衡的采樣方法主要有上采樣、下采樣、加權損失函數(shù)等[18]。若采用下采樣,則原本數(shù)量就少的管道正常圖片也無法充分利用到,故不適用。傳統(tǒng)的上采樣方法由于樣本本身數(shù)量少,而出現(xiàn)較多樣本重復采樣的情況,易導致嚴重過擬合。
針對管道泄漏圖像數(shù)據(jù)集中存在的數(shù)據(jù)不均衡現(xiàn)象,本文在Multi-mask mix數(shù)據(jù)增強策略中設計了2種數(shù)據(jù)均衡化策略:
(1) 在圖像層面上。對于背景圖像為正常的情況采用“一對一”的方法,即一幅正常的背景圖片僅與一幅前景圖像進行混合;對于背景圖像為泄漏的情況采用“一對多”的策略,即一幅泄漏的背景圖像分別與不同的前景圖像進行混合,生成多幅新的樣本圖像,通過該策略能夠提高多掩碼混合過程中保留泄漏特征的概率,從而產(chǎn)生更多的泄漏數(shù)據(jù),其中,前景圖像數(shù)量設×幅,和均為手動設置的超參數(shù),如圖3所示;
圖3 圖像層面的數(shù)據(jù)均衡化
(2) 在掩碼層面上。掩碼塊的大小及位置是在一定范圍內(nèi)隨機生成,見1.1節(jié),當前景圖像為正常圖像時,使用個掩碼塊生成新圖像;當前景圖像為泄漏圖像時,使用×個掩碼塊生成新圖像,其中>1,且為正整數(shù)。該策略可提高前景圖像中的泄漏區(qū)域被掩碼塊提取的概率,從而使新圖像中更有可能包含泄漏特征,如圖4所示,圖中=1,=4。
圖4 掩碼層面的數(shù)據(jù)均衡化
目前沒有現(xiàn)成的管道泄漏數(shù)據(jù)集,因此需要自己收集原始圖片并進行處理。本文主要從以下3個渠道進行收集:①在能源電廠現(xiàn)場和生活場景中進行收集;②在互聯(lián)網(wǎng)上進行檢索收集;③使用修圖工具對圖片進行調(diào)整,使其具備泄漏特征,人為制造圖片數(shù)據(jù)。將以上收集得到的原始數(shù)據(jù)集進行分類標簽,分為正常和泄漏,如圖5所示,每種類別數(shù)據(jù)數(shù)量見表1。
圖5 管道泄漏檢測圖像數(shù)據(jù)集
表1 管道泄漏初始數(shù)據(jù)集
本文選取VGG16和Resnet18兩種深度學習模型進行對比實驗,根據(jù)其在管道泄漏數(shù)據(jù)集的識別表現(xiàn),選取效果最好的網(wǎng)絡模型。
VGG16網(wǎng)絡結構如圖6所示,包括13個卷積層和3個全連接層。并使用具有小卷積核的架構對深度不斷增加的網(wǎng)絡進行評估,表明將深度推至16權重層時,可以實現(xiàn)對現(xiàn)有技術配置的顯著改進。此外,VGG16可以很好地推廣到其他圖像識別數(shù)據(jù)集,其具有良好的適應性和準確性。國內(nèi)外學者對VGG16也有著深入地研究和應用,陳英義等[19]將VGG16與遷移學習相結合,提出了一種基于FTVGG16卷積神經(jīng)網(wǎng)絡的魚類識別模型;DESAI等[20]將VGG16分層結構與SVM相結合,提出一種基于深度學習框架的圖像檢索混合方法,驗證了其具有良好的圖片特征提取功能,有利于提高檢測效果。
圖6 VGG16網(wǎng)絡結構圖
Resnet18網(wǎng)絡結構見表2,主體部分包括4個殘差塊ResBlock1~4,在每2個ResBlock間增加了殘差映射,在增加網(wǎng)絡深度的同時防止梯度消失,從而可以容易地從深度大幅增加中獲得精度增益,且能加快訓練收斂速度。近年來,在很多領域都能見到Resnet18的應用,ZHU等[21]提出一種空間通道漸進融合殘差網(wǎng)絡以進行多分辨率遙感圖像分類;EBRAHIMI等[22]提出一種將磁共振圖像切片輸入到Resnet18中以檢測阿爾茨海默病的方法,驗證了該網(wǎng)絡既能在特征提取方面表現(xiàn)良好,還能使模型更快收斂,從而減少訓練時間。
表2 Resnet18的網(wǎng)絡結構
本文提出的管道泄漏檢測方案的最終目標是將深度學習模型應用到管道泄漏的實時檢測中,重點解決的是基于小樣本不均衡數(shù)據(jù)訓練出高預測精度的深度學習模型。具體地實施步驟如下:
步驟1. 收集管道泄漏圖像數(shù)據(jù)和正常圖像數(shù)據(jù),通過人工標記得到圖像標簽,構成管道泄漏數(shù)據(jù)集;
步驟2.從數(shù)據(jù)集中人工剪切泄漏特征數(shù)據(jù)和部分正常特征數(shù)據(jù),構成泄漏特征數(shù)據(jù)集E;
步驟3.使用數(shù)據(jù)集E訓練SVM模型,得到其分類概率輸出函數(shù);
步驟4.數(shù)據(jù)集中隨機選出一個批量的圖像{X,Y},基于1.1節(jié)的混合掩碼策略和1.3節(jié)的數(shù)據(jù)均衡化策略生成新圖像集X,使用式(3)和式(4)得到混合掩碼標簽Y;
步驟7.將深度學習模型部署到相應設備中,用于管道監(jiān)控視頻的實時檢測。
實驗在Inter Core i5-9600K CPU、32 GB內(nèi)存、NVIDA GeForce RTX 2080顯卡的windows10系統(tǒng)上進行調(diào)試,模型框架為pytorch,使用python3.7進行編程。
為了更全面地對比實驗結果,本文設計了多組實驗,利用Resnet18和VGG16分別和添加了Mixup,Cutout,Cutmix,Multi-mask mix和添加了均衡化策略的Multi-mask mix數(shù)據(jù)增強方法在制作的數(shù)據(jù)集上進行訓練。數(shù)據(jù)集中每幅圖像定義一個標簽,根據(jù)工作狀態(tài)的不同,選擇{0,1}中的一個,將數(shù)據(jù)集按8∶2的比例隨機選取劃分為訓練集和測試集。
本文生成兩類混淆矩陣,見表3。
表3 混淆矩陣
注:TN為正確預測為泄漏的樣本個數(shù);FN為錯誤預測為泄漏的樣本個數(shù);FP為錯誤預測為正常的樣本個數(shù);TP為正確預測為正常的樣本個數(shù)
由表3的混淆矩陣,可以計算特異性(specificity,SP)、敏感性(sen-sitivity,SE)、準確率(accuracy,AC),即
其中,特異性是正確預測管道正常的概率,特異性高則表示管道為正常時被誤判的概率??;敏感性是正確預測管道泄漏的概率,敏感性高則表示管道為泄漏時被誤判的概率??;準確率表示正確識別管道為正?;蛐孤┑母怕省?/p>
在實際的生產(chǎn)活動中,管道泄漏可能導致巨大的安全事故或經(jīng)濟損失。因此,檢測到管道發(fā)生泄漏所具備的現(xiàn)實意義較大,所以敏感性在實際應用時更為重要。
通過多次實驗得到下列關于各類數(shù)據(jù)增強方法在Resnet18和VGG16網(wǎng)絡結構下的預測精度數(shù)據(jù)表,評價指標為SP,SE和AC,見表4和表5。
表4 Resnet18預測精度數(shù)據(jù)表(%)
注:加粗數(shù)據(jù)為最優(yōu)值
表5 VGG16預測精度數(shù)據(jù)表(%)
注:加粗數(shù)據(jù)為最優(yōu)值
根據(jù)Resnet18和VGG16網(wǎng)絡框架下的實驗數(shù)據(jù),分別從以下3個指標對各數(shù)據(jù)增強方法進行分析:
(1) 特異性。表現(xiàn)最好的為Mixup,在Resnet18和VGG16中分別達到了94.20%和97.39%,而Multi-mask mix僅有85.80%和86.67%,均在baseline之下。由此說明本文算法在識別管道正常特征的能力較差,而均衡化后能有所提升并在Resnet18中略優(yōu)于baseline。
(2) 敏感性。表現(xiàn)最好的為Multi-mask mix,在Resnet18和VGG16中分別達到了77.39%和79.57%,均衡化后均達到了80.00%以上。而其他算法均在80.00%之下。由此可知,本算法在混合過程中可以有效保留小樣本圖像的局部特征如泄漏,故在敏感性上有著更好地表現(xiàn)。
(3) 準確率。Multi-mask mix在Resnet18和VGG16中分別為83.70%和84.89%,與現(xiàn)有算法的表現(xiàn)差距不大,基本在-1%~1%浮動。均衡化后,本算法準確率有所提升,與其他方法拉開差距,最大相差了4.40%,最少也有1.10%。
綜合分析,Mixup等算法在特異性上表現(xiàn)較好,敏感性表現(xiàn)不佳,主要是存在數(shù)據(jù)量少和不均衡問題,導致數(shù)據(jù)增強傾向于正常圖像,對于泄漏圖像特征的學習仍有所不足,故預測結果傾向于正常圖像。而本文算法的混合掩碼塊,增強了對局部特征的提取,在不均衡情況下,對泄漏圖像的識別效果已優(yōu)于其他算法;經(jīng)過數(shù)據(jù)均衡化,泄漏數(shù)據(jù)量得到較大擴增,對泄漏圖像特征的學習有所增強,既有效提高了敏感性,特異性也能穩(wěn)定在85%以上,整體的識別準確率優(yōu)于其他算法。
此外,考慮到實際生產(chǎn)生活中發(fā)現(xiàn)泄漏的意義較大,所以敏感性越高則說明在管道泄漏檢測中有著更好的實用性,通過實驗數(shù)據(jù)可知,本文方法更符合實際需求。
本文提出一種基于多掩碼混合(Multi-mask mix)數(shù)據(jù)增強的檢測算法用于管道泄漏檢測。其中,針對小樣本問題,采用多掩碼混合進行數(shù)據(jù)擴增,該過程中產(chǎn)生的掩碼塊通過SVM進行判別提供其標簽,并提出適用于Multi-mask mix的分類損失函數(shù);針對類別不均衡問題,從圖像層面和掩碼層面對Multi-mask mix進行均衡化處理,使其能夠側重于泄漏樣本的增強,從而減少數(shù)據(jù)不平衡帶來的影響,并提高模型泛化性能和識別準確率。
通過設置實驗,與一些主流數(shù)據(jù)增強算法相比較,本文方法在管道泄漏視覺檢測上能夠?qū)崿F(xiàn)較高的識別準確率,特別是對于泄漏狀態(tài)的識別準確率明顯高于其他模型,從而驗證該方法具備可行性。此外,在相同的測試條件下,本文方法在VGG16中的準確率、特異性、敏感性均略低于Resnet18,考慮到實際應用需求,最終選擇以Resnet18作為本文管道泄漏視覺檢測的網(wǎng)絡模型。目前,該方法已在某能源電廠取得成功應用。
[1] 高琳, 曹建國. 管道泄漏檢測方法研究綜述[J]. 現(xiàn)代制造工程, 2022(2): 154-162.
GAO L, CAO J G. Review of diagnostic technique for pipe leakage[J]. Modern Manufacturing Engineering, 2022(2): 154-162 (in Chinese).
[2] 于鵬飛, 雷云, 劉曉, 等. 基于負壓波原理的管道泄漏檢測技術研究[J]. 管道技術與設備, 2017(5): 22-24.
Yu P F, Lei Y, Liu X, et al. Study on the pipeline leakage detection technology based on principle of negative pressure wave[J]. Pipeline Technology and Equipment, 2017(5): 22-24 (in Chinese).
[3] 黎晨. 基于聲發(fā)射信號的管道泄漏檢測及定位方法研究[D]. 西安: 西安理工大學, 2021.
LI C. Pipeline leakage detection and localization based on acoustic emission signal[D]. Xi’an: Xi’an University of Technology, 2021 (in Chinese).
[4] 張弢甲, 富寬, 劉勝楠, 等. 基于流量平衡法的泄漏識別改進算法[J]. 管道技術與設備, 2017(4): 19-22, 28.
ZHANG T J, FU K, LIU S N, et al. Improved algorithm for leak recognition based on flowrate balance method[J]. Pipeline Technique and Equipment, 2017(4): 19-22, 28 (in Chinese).
[5] FERNANDES A O, MOREIRA L F E, MATA J M. Machine vision applications and development aspects[C]//2011 9th IEEE International Conference on Control and Automation. New York: IEEE Press, 2011: 1274-1278.
[6] 張慧, 王坤峰, 王飛躍. 深度學習在目標視覺檢測中的應用進展與展望[J]. 自動化學報, 2017, 43(8): 1289-1305.
ZHANG H, WANG K F, WANG F Y. Advances and perspectives on applications of deep learning in visual object detection[J]. Acta Automatica Sinica, 2017, 43(8): 1289-1305 (in Chinese).
[7] VOULODINMOS A, DOULAMIS N, DOULAMIS A, et al. Deep learning for computer vision: a brief review[EB/OL]. (2018-02-01) [2022-01-13]. https://www.researchgate.net/ publication/322895764_Deep_Learning_for_Computer_Vision_A_Brief_Review.
[8] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15: 1929-1958.
[9] DEVRIES T, TAYLOR G W. Improved regularization of convolu-tional neural networks with cutout[EB/OL]. (2017-11-29) [2022-01-13]. https://arxiv.org/abs/1708.04552.
[10] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13001-13008.
[11] SINGH K K, LEE Y J. Hide-and-seek: forcing a network to be meticulous for weakly-supervised object and action localization[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3544-3553.
[12] CHEN P G, LIU S, ZHAO H S, et al. Gridmask data augmentation[EB/OL]. (2020-01-14) [2022-01-13]. https:// arxiv.org/abs/2001.04086.
[13] ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[EB/OL]. [2022-01-30]. https://arxiv.org/abs/1710.09412.
[14] YUN S, HAN D, CHUN S, et al. CutMix: regularization strategy to train strong classifiers with localizable features[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2019: 6022-6031.
[15] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-01-30]. https://arxiv.org/abs/1409.1556.
[17] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.
[18] 王樂, 韓萌, 李小娟, 等. 不平衡數(shù)據(jù)集分類方法綜述[J]. 計算機工程與應用, 2021, 57(22): 42-52.
WANG L, HAN M, LI X J, et al. Review of classification methods for unbalanced data sets[J]. Computer Engineering and Applications, 2021, 57(22): 42-52 (in Chinese).
[19] 陳英義, 龔川洋, 劉燁琦, 等. 基于FTVGG16卷積神經(jīng)網(wǎng)絡的魚類識別方法[J]. 農(nóng)業(yè)機械學報, 2019, 50(5): 223-231.
CHEN Y Y, GONG C Y, LIU Y Q, et al. Fish identification method based on FTVGG16 convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(5): 223-231 (in Chinese).
[20] DESAI P, PUJARI J, SUJATHA C, et al. Hybrid approach for content-based image retrieval using VGG16 layered architecture and SVM: an application of deep learning[J]. SN Computer Science, 2021, 2(3): 170.
[21] ZHU H, MA M R, MA W P, et al. A spatial-channel progressive fusion ResNet for remote sensing classification[J]. Information Fusion, 2021, 70: 72-87.
[22] EBRAHIMI A, LUO S H, CHIONG R. Introducing transfer learning to 3D ResNet-18 for Alzheimer’s disease detection on MRI images[C]//2020 35th International Conference on Image and Vision Computing New Zealand. New York: IEEE Press, 2020: 1-6.
Water supply pipeline leakage intelligent detection algorithm based on small and unbalanced data
SUN Zong-kang1, RAO Mu-min2, CAO Yu-ling1, SHI Yan-li3
(1. Guangdong Electric Power Development Co. Ltd, Guangzhou Guangdong 510630, China; 2. Guangdong Energy Group Science and Technology Research Institute Co. Ltd, Guangzhou Guangdong 510630, China; 3. Library of South China Agricultural University, Guangzhou Guangdong 510642, China)
To address the problems of few and unbalanced data samples in the visual detection of water supply pipeline leakage in energy power plants, an intelligent detection algorithm for water supply pipeline leakage based on small sample unbalanced data was proposed. First, a data enhancement method based on Multi-mask mix was proposed. The original image was extracted and mixed by the mask layer randomly generated, and the support vector machine (SVM) was incorporated into Multi-mask mix to obtain pipeline normal and leakage features, thus providing more accurate prior labels for the hybrid mask blocks. Secondly, an equalization strategy was proposed and applied to the image level and mask level to achieve data equalization. Finally, a deep learning-based Resnet18 network model was utilized to attain pipeline leak detection and identification. The experimental results show that the algorithm can improve the accuracy of the Resnet18 model for pipeline leakage detection by 1.1%–4.4% after processing image data, and can effectively enhance the classification accuracy of the deep learning model for pipeline leakage detection, outperforming other existing algorithms. In addition, the algorithm has now been successfully applied to the leakage detection of water supply pipelines in energy power plants.
small sample; Multi-mask mix; data enhancement; data equalization; pipeline leakage detection
TP 391.4
10.11996/JG.j.2095-302X.2022050825
A
2095-302X(2022)05-0825-07
2022-04-19;
2022-06-24
19 April,2022;
24 June,2022
國家自然科學基金項目(51775116);廣東能源集團重點科技項目(YJY/20-033)
National Natural Science Foundation of China (51775116); Key Science and Technology Projects of Guangdong Energy Group (YJY/20-033)
孫宗康(1991-),男,研究員,博士。主要研究方向為智慧電廠、模式識別。E-mail:szkcheer725@163.com
SUN Zong-kang (1991-), researcher, Ph.D. His main research interests cover smart power plant and pattern recognition. E-mail:szkcheer725@163.com
史艷麗(1978-),女,副研究館員,碩士。主要研究方向為圖形圖像分析、圖書情報學。E-mail:sylscau78@scau.edu.cn
SHI Yan-li (1978-), associate research librarian, master. Her main research interests cover graphic image analysis and specialized research in library intelligence. E-mail:sylscau78@scau.edu.cn