王顯龍 馮 早 趙燕鋒
(昆明理工大學(xué)a.信息工程與自動(dòng)化學(xué)院;b.云南省人工智能重點(diǎn)實(shí)驗(yàn)室)
隨著城市建設(shè)的快速發(fā)展,排水系統(tǒng)成為城市生態(tài)物質(zhì)循環(huán)代謝系統(tǒng)的重要一環(huán),正常運(yùn)行的排水系統(tǒng)起到保護(hù)城市環(huán)境、提高居民健康水平以及維持城市交通正常運(yùn)轉(zhuǎn)的作用[1]。近年來,城市內(nèi)澇災(zāi)害頻發(fā),排水系統(tǒng)堵塞故障檢測的重要性也日益凸顯[2]。
因?yàn)槁暡ú粌H能在空氣中傳播,還能在固體、液體和氣體介質(zhì)中傳播,所以聲波作為一種無損檢測技術(shù)檢測排水管道的堵塞故障具有獨(dú)特優(yōu)勢(shì)[3]。利用統(tǒng)計(jì)學(xué)習(xí)方法,對(duì)管道內(nèi)的聲波信號(hào)進(jìn)行有效預(yù)處理和特征提取,便可實(shí)現(xiàn)對(duì)管道運(yùn)行狀態(tài)的識(shí)別。
隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)在故障診斷領(lǐng)域的應(yīng)用越來越廣泛,目前基于數(shù)據(jù)驅(qū)動(dòng)的管道故障識(shí)別大多采用監(jiān)督學(xué)習(xí)方法。焦敬品等采用BP神經(jīng)網(wǎng)絡(luò)對(duì)管道泄漏聲發(fā)射信號(hào)進(jìn)行識(shí)別,整體識(shí)別率達(dá)到了92.5%[4]。伍林峰等采用小波包稀疏表征分類方法對(duì)管道堵塞情況進(jìn)行識(shí)別,獲得了96.88%的準(zhǔn)確率[5]。郎憲明等采用K均值欠采樣方法處理不均衡管道數(shù)據(jù)集,結(jié)合改進(jìn)的雙支持向量機(jī)快速識(shí)別管道泄漏孔徑并定位泄漏位置[6]。然而,基于監(jiān)督學(xué)習(xí)方法的管道檢測識(shí)別模型需要大量的已標(biāo)注數(shù)據(jù)樣本訓(xùn)練模型,這定會(huì)增加管道檢測數(shù)據(jù)樣本的標(biāo)注成本。為此,僅在標(biāo)注少量管道數(shù)據(jù)樣本的情況下,訓(xùn)練高效且泛化能力強(qiáng)的管道堵塞識(shí)別分類模型至關(guān)重要。此外,排水管道的正常數(shù)據(jù)樣本量和堵塞數(shù)據(jù)樣本量存在嚴(yán)重的數(shù)據(jù)不均衡問題,若以傳統(tǒng)的監(jiān)督學(xué)習(xí)方法分類識(shí)別模型,會(huì)造成嚴(yán)重的堵塞故障的漏診和誤判。
主動(dòng)學(xué)習(xí)通過從未標(biāo)注樣本集中挑選信息度高的樣本,經(jīng)標(biāo)注后補(bǔ)充到訓(xùn)練集中,從而提升分類模型的性能[7]。為了篩選未標(biāo)注樣本,Tong S和Koller D用不確定性度量的采樣策略篩選最靠近分類邊界的樣本[8];陳念和唐振民采用QBC委員會(huì)的樣本采樣策略的主動(dòng)學(xué)習(xí)模型對(duì)垃圾郵件進(jìn)行在線過濾,降低了標(biāo)注成本和時(shí)間成本,但是該方法并沒有考慮數(shù)據(jù)不均衡對(duì)分類結(jié)果的影響[9];毛蔚軒等用基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的主動(dòng)學(xué)習(xí)方法對(duì)惡意代碼進(jìn)行檢測,實(shí)現(xiàn)了5.55%的低錯(cuò)誤率,但是該方法嚴(yán)重依賴網(wǎng)絡(luò)數(shù)據(jù),不具有通用性[10]。
筆者針對(duì)排水管道堵塞數(shù)據(jù)集中存在的嚴(yán)重的數(shù)據(jù)不均衡現(xiàn)象,提出基于分類熵和余弦相似度的樣本采樣策略和極限隨機(jī)樹的主動(dòng)學(xué)習(xí)堵塞故障識(shí)別方法。
管道中傳播的聲波,其特點(diǎn)是聲波被約束在管道里,沒有擴(kuò)散,可以傳播得很遠(yuǎn)[11]。在管道內(nèi)部,聲波遇到堵塞物被反射回來,使得管內(nèi)聲場形成駐波聲場。設(shè)Pi為入射檢測聲波聲壓,則有:
式中 c0——聲波的傳播速度;
k——波數(shù);
P0——聲源振動(dòng)產(chǎn)生的入射聲波聲壓;
t——聲波傳播時(shí)間;
x″——聲波傳播距離;
ω——聲源簡諧振動(dòng)的圓頻率。
設(shè)堵塞物的聲壓反射系數(shù)為r,則反射聲波聲壓Pr的數(shù)學(xué)表達(dá)式為:
如果聲波在含有旁支的管道中傳播,由于旁支口的影響,主管道中將產(chǎn)生反射波,旁支管道產(chǎn)生漏入波,入射波有可能穿過旁支口產(chǎn)生透射波。
根據(jù)聲壓連續(xù)條件,可得反射波、入射波、漏入波和透射波之間的聲壓關(guān)系式為:
式中 Pb——漏入波聲壓;
Pt——透射波聲壓。
如圖1所示,聲波在管道內(nèi)傳播,由于振動(dòng)的空氣質(zhì)點(diǎn)之間的摩擦,使得一小部分聲能轉(zhuǎn)化為熱能,稱為空氣對(duì)聲能的吸收。聲波遇到堵塞物,堵塞物吸收部分聲能。部分聲波繞過堵塞物發(fā)生衍射,這部分聲能穿過堵塞物傳遞到堵塞物的另一端。基于以上現(xiàn)象,只要檢測聲場相關(guān)物理量的變化就可以實(shí)現(xiàn)對(duì)管道運(yùn)行狀況的識(shí)別。
圖1 聲波在管道內(nèi)的傳播示意圖
傳統(tǒng)的傅里葉分析用一系列三角基函數(shù)對(duì)信號(hào)進(jìn)行正交運(yùn)算,但是管道內(nèi)部情況復(fù)雜,采集到的往往是非線性、非平穩(wěn)信號(hào)。若以傅里葉分析信號(hào),得到的只是某一段時(shí)間內(nèi)頻率的均值,無法準(zhǔn)確描述頻率隨時(shí)間的變化[12]。雖然希爾伯特-黃變換能夠自適應(yīng)地處理非平穩(wěn)隨機(jī)信號(hào)[13],但 是 經(jīng) 驗(yàn) 模 態(tài) 分 解(Empirical Mode Decomposition,EMD)方法存在不能分解低能量模態(tài)和產(chǎn)生虛假模態(tài)分量的明顯缺陷[14]。變分模態(tài)分解(Variational Mode Decomposition,VMD)是一種自適應(yīng)、完全非遞歸的模態(tài)變分和信號(hào)處理方法,該方法克服了EMD方法存在端點(diǎn)效應(yīng)和模態(tài)分量混疊的問題,并且具有更堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),可以降低復(fù)雜度高和非線性強(qiáng)的時(shí)間序列的非平穩(wěn)性,分解獲得包含多個(gè)不同頻率尺度且相對(duì)平穩(wěn)的子序列,適用于非平穩(wěn)性序列[15]。VMD的優(yōu)點(diǎn)在于它能夠根據(jù)實(shí)際情況確定所給序列的模態(tài)分解個(gè)數(shù),在隨后的搜索和求解過程中可以自適應(yīng)地匹配每種模態(tài)的最佳中心頻率和有限帶寬,并且可以實(shí)現(xiàn)固有模態(tài)分量(IMF)的有效分離和信號(hào)的頻域劃分,進(jìn)而得到給定信號(hào)的有效分解成分,最終獲得變分問題的最優(yōu)解。VMD首先構(gòu)建和求解變分問題,假設(shè)原始信號(hào)f(t)被分解為N個(gè)量,保證分解序列是具有中心頻率的有限帶寬的模態(tài)分量,同時(shí)各模態(tài)的估計(jì)帶寬之和最小,約束條件為所有模態(tài)之和并與原始信號(hào)相等,相應(yīng)的約束變分表達(dá)式為:
其中,N為指定分解的模態(tài)分量個(gè)數(shù),*表示卷積運(yùn)算,un、ωn分別為第n個(gè)模態(tài)分量和中心頻率。
為了降低噪聲干擾并求解式(5),引入拉格朗日算子λ和二次懲罰因子α,得到增廣拉格朗日表達(dá)式:
利用交替方向乘子 (Alternating Direction Method of Multipliers,ADMM)迭代算法、傅里葉等距變換優(yōu)化得到各模態(tài)的分量和中心頻率,并搜尋增廣拉格朗日表達(dá)式(5)的鞍點(diǎn),交替尋優(yōu)迭代后分別更新un、ωn和λ:
模糊熵的大小衡量了時(shí)間序列信號(hào)復(fù)雜度的大小,其計(jì)算步驟如下:
a.假設(shè)一個(gè)時(shí)間序列X(i),i=1,2,…,n′;
b.以m為窗,將時(shí)間序列X(i)分為k′=n′-m+1個(gè)序列,Xi(t)=(Xi(t),Xi+1(t),…,Xi+m-1(t));
c.計(jì)算每個(gè)序列與所有k′個(gè)序列之間的距離d,并列表dij=max|Xi+k′(t)-Xj+k′(t)|,其中k′=0,1,…,m-1;
e.將窗m增長為m+1,重復(fù)步驟b~d;
f.計(jì)算模糊熵FuzzyEn(t)=lnφm(t)-lnφm+1(t)。
大多數(shù)的監(jiān)督機(jī)器學(xué)習(xí)模型都需要基于大量數(shù)據(jù)的訓(xùn)練才能取得良好的效果,尤其是帶有“標(biāo)注”的數(shù)據(jù),是監(jiān)督模型的關(guān)鍵,制約著監(jiān)督模型的學(xué)習(xí)效果。大多數(shù)情況下,相關(guān)領(lǐng)域?qū)<耀@得的是一個(gè)龐大的、未經(jīng)標(biāo)注的數(shù)據(jù)集。然而,數(shù)據(jù)的標(biāo)注工作費(fèi)時(shí)費(fèi)力且成本高昂。為了盡可能地減少訓(xùn)練集和標(biāo)注成本,主動(dòng)學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)運(yùn)而生。主動(dòng)學(xué)習(xí)可以主動(dòng)地提出數(shù)據(jù)標(biāo)注請(qǐng)求,將一些經(jīng)過篩選的數(shù)據(jù)提交專家進(jìn)行標(biāo)注,篩選數(shù)據(jù)的依據(jù)是數(shù)據(jù)的信息度。如圖2所示,主動(dòng)學(xué)習(xí)過程分為兩個(gè)階段:
圖2 主動(dòng)學(xué)習(xí)過程
a.初始化階段。從未標(biāo)注的樣本中隨機(jī)選取小部分?jǐn)?shù)據(jù),由督導(dǎo)者標(biāo)注作為訓(xùn)練集L,剩余未標(biāo)注樣本集為U,建立初始分類模型。
b.循環(huán)查詢階段。從未標(biāo)注樣本集中按照查詢策略Q選取一定數(shù)量的樣本進(jìn)行標(biāo)注,并更新已標(biāo)注樣本集L和未標(biāo)注樣本集U,重新訓(xùn)練分類器直至達(dá)到訓(xùn)練停止標(biāo)準(zhǔn)為止。
樣本信息指的是在訓(xùn)練數(shù)據(jù)集中每個(gè)樣本帶給模型訓(xùn)練的信息是不同的,即每個(gè)樣本為模型的訓(xùn)練的貢獻(xiàn)是有差異的。從未標(biāo)注樣本中集中篩選樣本,衡量樣本信息量差異的方法主要有不確定性標(biāo)準(zhǔn)、版本空間縮減標(biāo)準(zhǔn)和泛化誤差縮減標(biāo)準(zhǔn)[17]。為了度量模型對(duì)未標(biāo)注樣本分類的確定性,引入熵的概念,熵可視為系統(tǒng)中無序性的度量。如果模型對(duì)給定數(shù)據(jù)點(diǎn)的類別具有高度的確定性,則對(duì)于特定類可能具有較高的確定性,而所有其他類的可能性都比較低。在高熵的情況下,意味著該模型將概率近似地分配給所有類別,因?yàn)槟P透静淮_定該數(shù)據(jù)點(diǎn)屬于哪個(gè)類別,這與使氣體均勻分布在盒子的所有區(qū)域的情況相似。因此,具有較高熵的數(shù)據(jù)點(diǎn)較具有較低熵的數(shù)據(jù)點(diǎn)應(yīng)該有更高的優(yōu)先級(jí)被篩選出來提交人工標(biāo)注。分類熵SE的定義如下:
使用分類熵(或其他類似策略)抽樣時(shí),無法考慮數(shù)據(jù)的結(jié)構(gòu)分布信息,這將導(dǎo)致進(jìn)入次優(yōu)查詢。為了緩解這種情況,一種方法是使用信息密度度量幫助指導(dǎo)查詢。余弦相似性通過測量兩個(gè)向量的夾角的余弦值來度量它們之間的相似性。從樣本集U中,采用樣本篩選策略構(gòu)建待標(biāo)注的數(shù)據(jù)集Xu,從中篩選的樣本x的信息密度I(x)可計(jì)算為:
其中,x′表示已標(biāo)注樣本。
在篩選樣本時(shí),為了同時(shí)考慮樣本的不確定性和代表性,筆者選擇分類熵和余弦相似度相結(jié)合的方式求其最大值實(shí)現(xiàn)樣本查詢策略來篩選未標(biāo)注樣本,即arg max(SE+I(x))。
極限隨機(jī)樹算法與隨機(jī)森林算法十分相似,都是由許多決策樹構(gòu)成的[18]。隨機(jī)森林的多個(gè)決策樹都是互相獨(dú)立的,并且不需要進(jìn)行“剪枝”操作。在訓(xùn)練過程中,每棵決策樹采用有放回采樣方法構(gòu)造新的訓(xùn)練數(shù)據(jù)集,在一個(gè)隨機(jī)子集內(nèi)得到最佳分叉屬性。相較于傳統(tǒng)的集成學(xué)習(xí)方法,隨機(jī)森林能較好地容忍噪聲且穩(wěn)定性較高。極限隨機(jī)樹應(yīng)用的是Bagging模型,極限隨機(jī)樹使用的所有的樣本,只是特征是隨機(jī)選取的,其主要過程為:當(dāng)特征屬性是類別的形式時(shí),隨機(jī)選擇具有某些類別的樣本為左分支,而把具有其他類別的樣本作為右分支;當(dāng)特征屬性是數(shù)值的形式時(shí),隨機(jī)選擇一個(gè)處于該特征屬性的最大值和最小值之間的任意數(shù),當(dāng)樣本的該特征屬性值大于該值時(shí)作為左分支,當(dāng)小于該值時(shí)作為右分支。這樣就實(shí)現(xiàn)了在該特征屬性下把樣本隨機(jī)分配到兩個(gè)分支上的目的。然后計(jì)算此時(shí)的分叉值,如果特征屬性是類別的形式,采用基尼指數(shù);如果特征屬性是數(shù)值的形式,采用均方誤差。遍歷節(jié)點(diǎn)內(nèi)的所有特征屬性,按上述方法得到所有特征屬性的分叉值,并選擇分叉值最大的形式實(shí)現(xiàn)對(duì)該節(jié)點(diǎn)的分叉。
綜上所述,極限隨機(jī)樹相較于隨機(jī)森林有兩個(gè)優(yōu)點(diǎn):首先極限隨機(jī)樹可以減少偏差;其次極限隨機(jī)樹中每棵決策樹的分裂閾值是完全隨機(jī)選擇的,可以減少方差。因此,筆者提出以極限隨機(jī)樹為基分類器,結(jié)合分類熵和余弦相似度的樣本查詢策略,建立主動(dòng)學(xué)習(xí)模型,以實(shí)現(xiàn)對(duì)排水管道堵塞故障數(shù)據(jù)集在不均衡情況下的分類識(shí)別。
為了模擬排水管道的運(yùn)行情況,筆者設(shè)計(jì)了排水管道模擬試驗(yàn)平臺(tái)(圖3),PVC排水管道的總長度為15.4m、管道的直徑1為50mm,管道分為3段,分別設(shè)置為空管區(qū)域、管道堵塞區(qū)域和管道三通件區(qū)域。循環(huán)水泵和水箱控制管內(nèi)水位保持較低水位的流動(dòng)。試驗(yàn)平臺(tái)中的計(jì)算機(jī)安裝WinMLS軟件,并驅(qū)動(dòng)聲卡產(chǎn)生時(shí)間為10s、頻率范圍100~6 000Hz的正弦掃頻信號(hào)作為檢測聲波信號(hào),檢測聲波信號(hào)由揚(yáng)聲器釋放到管道內(nèi)部。由于揚(yáng)聲器發(fā)出的不一定是純音,所以必須在接收端進(jìn)行濾波,去除不必要的高次諧波分量。四通道傳聲器采集管道內(nèi)部信號(hào),傳聲器的采樣頻率設(shè)置為44 100Hz,經(jīng)放大器放大后上傳至計(jì)算機(jī)做進(jìn)一步處理。
圖3 排水管道模擬試驗(yàn)平臺(tái)
管道堵塞程度設(shè)置與管道直徑的比例存在一定關(guān)系,定義堵塞物高度在管道直徑的1/3以下為輕度堵塞,堵塞物高度超過管道直徑的1/3為中重度堵塞。本試驗(yàn)用20mm障礙物模擬輕度堵塞,55mm障礙物模擬中重度堵塞。試驗(yàn)采集無堵塞直管、輕度堵塞、中重度堵塞和含三通件正常管道4種管道運(yùn)行狀態(tài)信號(hào)數(shù)據(jù),時(shí)域信號(hào)如圖4所示。為了模擬管道堵塞故障類別不均衡程度,試驗(yàn)方案設(shè)置兩組數(shù)據(jù)的類別數(shù)量比例分別置為1.0∶1.0∶0.3∶0.2和1.0∶1.0∶0.2∶0.1,兩組數(shù)據(jù)分別模擬不同的數(shù)據(jù)不均衡程度,第1組數(shù)據(jù)和第2組數(shù)據(jù)的總數(shù)分別為250和210。
圖4 4種管道運(yùn)行工況下的時(shí)域信號(hào)
為了提取信號(hào)的有效特征表征不同的類型數(shù)據(jù),需要對(duì)采集到的時(shí)域信號(hào)進(jìn)行特征提取。特征提取的主要過程是:先對(duì)信號(hào)進(jìn)行變分模態(tài)分解,根據(jù)模態(tài)分量的中心頻率選擇分解個(gè)數(shù)為4[19]。以無堵塞直管運(yùn)行狀態(tài)時(shí)域信號(hào)為例,其分解結(jié)果如圖5所示。
圖5 無堵塞直管時(shí)域信號(hào)變分模態(tài)分解結(jié)果
由于原始信號(hào)經(jīng)由變分模態(tài)分解后得到4個(gè)模態(tài)分量,分別計(jì)算這4個(gè)模態(tài)分量的脈沖因子和模糊熵,其中模糊熵嵌入維數(shù)越大時(shí)越能更細(xì)致地重構(gòu)系統(tǒng)的動(dòng)態(tài)演化過程,本試驗(yàn)選取嵌入維數(shù)為4[19]。信號(hào)的最終特征提取結(jié)果見表1、2。
表1 脈沖因子特征提取結(jié)果
為了驗(yàn)證基于極限隨機(jī)樹的主動(dòng)學(xué)習(xí)模型對(duì)排水管道堵塞故障識(shí)別的有效性,基于試驗(yàn)平臺(tái)選取兩組試驗(yàn)數(shù)據(jù)。根據(jù)故障類數(shù)據(jù)所占總數(shù)據(jù)的比例,定義數(shù)據(jù)集一為普通不均衡數(shù)據(jù)集,數(shù)據(jù)集二為極端不均衡數(shù)據(jù)集。設(shè)置兩組數(shù)據(jù)集的不均衡比例變換主要是為了檢測主動(dòng)學(xué)習(xí)方法的有效性。初始已標(biāo)注訓(xùn)練集為12個(gè)樣本,各類別的樣本個(gè)數(shù)分別為4、4、2、2,主動(dòng)學(xué)習(xí)過程中,樣本查詢次數(shù)均為20次。
表2 模糊熵特征提取結(jié)果
為了檢驗(yàn)基于極限隨機(jī)樹的主動(dòng)學(xué)習(xí)模型對(duì)管道堵塞故障的識(shí)別能力,通過繪制模型的學(xué)習(xí)曲線和混淆矩陣進(jìn)行比較。排水管道堵塞識(shí)別主動(dòng)學(xué)習(xí)模型如圖6所示,首先在信號(hào)采集完成之后利用已標(biāo)注樣本訓(xùn)練集訓(xùn)練排水管道堵塞故障分類識(shí)別模型——極限隨機(jī)樹,然后在已有分類模型的基礎(chǔ)上使用分類器評(píng)價(jià)剩余未標(biāo)注樣本并對(duì)選擇出的待標(biāo)注信號(hào)進(jìn)行樣本標(biāo)注,其次更新已標(biāo)注的訓(xùn)練集和未標(biāo)注的訓(xùn)練集,如果分類模型的輸出精度符合要求則停止迭代訓(xùn)練過程并輸出最終結(jié)果。
圖6 排水管道堵塞識(shí)別主動(dòng)學(xué)習(xí)模型
筆者所提分類模型對(duì)數(shù)據(jù)集一的初始識(shí)別結(jié)果如圖7所示,可以看出,在相同大小的已標(biāo)注訓(xùn)練集下得到的模型,在普通不均衡數(shù)據(jù)集下得到的測試準(zhǔn)確率略高于在極端不均衡數(shù)據(jù)集下的測試準(zhǔn)確率。
圖7 分類模型對(duì)數(shù)據(jù)集一的初始識(shí)別結(jié)果
本試驗(yàn)中,由于管道堵塞故障數(shù)據(jù)集是不均衡的,對(duì)數(shù)據(jù)集分類識(shí)別時(shí)更應(yīng)該看重少數(shù)類數(shù)據(jù)樣本的分類結(jié)果。因此,筆者選擇混淆矩陣來判斷模型對(duì)少數(shù)類樣本的識(shí)別效果。分類模型對(duì)數(shù)據(jù)集二的初始識(shí)別結(jié)果如圖8所示,可以看出,在進(jìn)行未標(biāo)注樣本采樣之前,由于訓(xùn)練樣本較少,在普通不均衡數(shù)據(jù)集上,模型對(duì)少數(shù)類堵塞故障樣本的分類識(shí)別準(zhǔn)確率不理想,隨著堵塞故障的少數(shù)類樣本進(jìn)一步減少,模型在極端不均衡數(shù)據(jù)集中,對(duì)堵塞故障的識(shí)別效果進(jìn)一步降低,出現(xiàn)了對(duì)中重度堵塞故障全部識(shí)別錯(cuò)誤的情況。這是因?yàn)橐话惴诸惸P驮趯?duì)少數(shù)類樣本進(jìn)行分類識(shí)別時(shí),往往以最小經(jīng)驗(yàn)風(fēng)險(xiǎn)為優(yōu)化原則,忽視了少數(shù)類樣本。在對(duì)未標(biāo)注樣本集進(jìn)行篩選采樣之前,雖然模型對(duì)管道運(yùn)行狀態(tài)的識(shí)別均達(dá)到了90%以上的正確率,但是把堵塞類故障判別為正常類管道樣本會(huì)造成更加嚴(yán)重的后果。為了避免主動(dòng)學(xué)習(xí)過程對(duì)少數(shù)類樣本的錯(cuò)誤分類,從未標(biāo)注樣本集中選取樣本進(jìn)行標(biāo)注,是提高堵塞故障少數(shù)類樣本識(shí)別準(zhǔn)確率的關(guān)鍵。
圖8 分類模型對(duì)數(shù)據(jù)集二的初始識(shí)別結(jié)果
主動(dòng)學(xué)習(xí)模型在兩個(gè)數(shù)據(jù)集的學(xué)習(xí)曲線如圖9所示,可以看出,筆者提出的方法在普通不均衡數(shù)據(jù)集和極端不均衡數(shù)據(jù)集上分別取得了97.6%、97.8%的準(zhǔn)確率,即使數(shù)據(jù)集中的不平衡比例增大,也沒有影響筆者所提方法的準(zhǔn)確率。
圖9 主動(dòng)學(xué)習(xí)模型在兩個(gè)數(shù)據(jù)集的學(xué)習(xí)曲線
本試驗(yàn)的樣本篩選策略主要考慮了分類模型對(duì)已篩選待標(biāo)注樣本的分類不確定性。同時(shí),為了避免少數(shù)類樣本對(duì)分類結(jié)果造成影響,通過余弦距離計(jì)算待標(biāo)注樣本與已標(biāo)注樣本集中各類別樣本的特征距離,以衡量樣本之間的相似程度,這在很大程度上改善了分類器對(duì)標(biāo)注樣本集中少數(shù)類別樣本的誤判。
分類模型在普通不均衡數(shù)據(jù)集的最終識(shí)別結(jié)果如圖10所示,可以看出,數(shù)據(jù)集一的最終分類結(jié)果與模型初始分類結(jié)果相比,經(jīng)過20次的未標(biāo)注樣本迭代查詢后輕度堵塞中有3個(gè)樣本被誤分類為無堵塞管道,中重度堵塞類樣本中有1個(gè)樣本被誤分類為無堵塞管道,2個(gè)中重度堵塞樣本被誤分類為含三通件管道。
分類模型在極端不均衡數(shù)據(jù)集的最終識(shí)別結(jié)果如圖11所示,可以看出,數(shù)據(jù)集二的最終分類結(jié)果與模型初始分類結(jié)果相比,輕度堵塞類別樣本中僅有5個(gè)樣本被誤分類為無堵塞管道,中重度堵塞樣本全部分類識(shí)別正確。
圖10 分類模型在普通不均衡數(shù)據(jù)集的最終識(shí)別結(jié)果
根據(jù)圖10、11可以得到筆者所提模型在普通不均衡數(shù)據(jù)集和極端不均衡數(shù)據(jù)集上的分類指標(biāo)查準(zhǔn)率P、查全率R和F1度量值。其中F1度量值由查準(zhǔn)率和查全率計(jì)算得到,即:
其中,β為可調(diào)參數(shù),通常取1。
可以看出,F(xiàn)1度量值與查準(zhǔn)率P、查全率R成正比,F(xiàn)1度量值越大說明分類模型對(duì)少數(shù)類的分類效果越好。
根據(jù)圖10、11可以得到筆者所提主動(dòng)學(xué)習(xí)模型在普通不均衡數(shù)據(jù)集和極端不均衡數(shù)據(jù)集上的分類指標(biāo),結(jié)果見表3、4??梢钥闯?,主動(dòng)學(xué)習(xí)模型對(duì)中重度堵塞少數(shù)類樣本的識(shí)別效果有了很大的改進(jìn)。但相對(duì)于中重度堵塞,樣本數(shù)量較大的輕度堵塞的F1度量值降低了,經(jīng)分析,造成該后果的原因可能是在減少輕度堵塞樣本的數(shù)據(jù)量時(shí)破壞了原始樣本分布信息。
表3 普通不均衡數(shù)據(jù)集的分類指標(biāo)
表4 極端不均衡數(shù)據(jù)集的分類指標(biāo)
為了在排水管道堵塞故障檢測過程中減少人工標(biāo)注的負(fù)擔(dān),筆者提出了基于主動(dòng)學(xué)習(xí)的排水管道堵塞故障識(shí)別模型。同時(shí)考慮到數(shù)據(jù)不均衡對(duì)分類結(jié)果造成的影響,改進(jìn)了在主動(dòng)學(xué)習(xí)過程中的樣本查詢策略。為了避免主動(dòng)學(xué)習(xí)過程中數(shù)據(jù)不均衡給分類結(jié)果造成的不良影響,提出將衡量樣本分類不確定性的分類熵和樣本分布信息的余弦相似度相結(jié)合的樣本查詢策略,該策略在樣本查詢選擇過程中考慮了未標(biāo)注樣本集中的少數(shù)類樣本。試驗(yàn)在兩組不均衡比例不同的數(shù)據(jù)集進(jìn)行驗(yàn)證:在樣本標(biāo)注成本上,本試驗(yàn)以僅標(biāo)注32個(gè)樣本的標(biāo)注成本在兩個(gè)不均衡比例不同的數(shù)據(jù)集進(jìn)行識(shí)別驗(yàn)證,均取得了較好的準(zhǔn)確率,并極大地節(jié)省了人工標(biāo)注樣本的成本,而且筆者提出的主動(dòng)學(xué)習(xí)模型能夠顯著提高少數(shù)類樣本的F1度量值。
由于本試驗(yàn)考慮的試驗(yàn)條件是基于一個(gè)堵塞物,而在實(shí)際管道檢測條件下,排水管道內(nèi)部情況很復(fù)雜,大多數(shù)情況下會(huì)出現(xiàn)多重堵塞的管道,有些更加復(fù)雜的管道堵塞樣本的數(shù)量更為稀少,因此,筆者提出的方法在更為極端的數(shù)據(jù)不均衡情況下還需更近一步驗(yàn)證。