国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半監(jiān)督聚類方法的管道運(yùn)行狀態(tài)識別研究

2023-06-25 02:13:44方明月馮早朱雪峰
關(guān)鍵詞:學(xué)習(xí)策略類別約束

方明月 ,馮早* ,朱雪峰

(1.昆明理工大學(xué)信息工程與自動化學(xué)院,昆明,650500;2.云南省礦物管道輸送工程技術(shù)研究中心,昆明,650500)

在現(xiàn)場環(huán)境數(shù)據(jù)采集中,隨著數(shù)據(jù)采集設(shè)備與存儲設(shè)備的推陳出新,數(shù)據(jù)的獲取不再困難,簡單的重復(fù)實(shí)驗(yàn)即可獲得大量的無標(biāo)簽數(shù)據(jù).同時(shí),由于一些先驗(yàn)知識、專家經(jīng)驗(yàn)等原因,只有小部分?jǐn)?shù)據(jù)帶有監(jiān)督信息,如果僅僅用這些數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),過少的標(biāo)記數(shù)據(jù)量往往會導(dǎo)致學(xué)習(xí)器過擬合、對新樣本的適應(yīng)能力不足.對數(shù)據(jù)進(jìn)行標(biāo)注會花費(fèi)很多時(shí)間,增加實(shí)驗(yàn)的支出;若通過傳統(tǒng)的無監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)聚類,則會導(dǎo)致難以獲取的監(jiān)督信息的利用率大大降低[1].半監(jiān)督學(xué)習(xí)利用數(shù)據(jù)集中僅有的監(jiān)督信息指導(dǎo)學(xué)習(xí)器對剩下的無標(biāo)簽數(shù)據(jù)集進(jìn)行分類,避免了學(xué)習(xí)器僅利用數(shù)據(jù)集中單一局部信息而出現(xiàn)的問題,但卻增加了半監(jiān)督學(xué)習(xí)器對監(jiān)督信息的依賴性.

針對半監(jiān)督學(xué)習(xí)對監(jiān)督信息的依賴性問題,如何篩選監(jiān)督信息以達(dá)到少量的監(jiān)督信息即可完成有效的半監(jiān)督學(xué)習(xí)的目標(biāo)以及減少監(jiān)督信息中噪聲樣本對半監(jiān)督學(xué)習(xí)器的影響等,成為半監(jiān)督學(xué)習(xí)研究的熱點(diǎn).另外,在半監(jiān)督學(xué)習(xí)中還經(jīng)常遇到樣本數(shù)量過少和樣本間數(shù)量不均衡的問題,如何在小樣本數(shù)據(jù)或不均衡數(shù)據(jù)下實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)亦是當(dāng)下的研究熱點(diǎn).如史蘊(yùn)豪等[2]提出一種基于偽標(biāo)簽的半監(jiān)督學(xué)習(xí)技術(shù)的小樣本調(diào)制方式分類算法,解決在只包含少量標(biāo)簽樣本時(shí)存在的通信信號識別度不高的問題;楊宇等[3]提出基于增量式半監(jiān)督多變量預(yù)測模型,有效地解決了小樣本的故障診斷問題,并縮短了分類時(shí)間.

半監(jiān)督學(xué)習(xí)的全面發(fā)展為半監(jiān)督聚類奠定了良好基礎(chǔ),半監(jiān)督聚類在道路檢測、醫(yī)學(xué)、圖像、故障診斷等領(lǐng)域取得了一定進(jìn)展.如張建朋等[4]提出進(jìn)化因子圖模型,彌補(bǔ)傳統(tǒng)聚類只從靜態(tài)圖出發(fā)難以滿足建模動態(tài)變化的真實(shí)網(wǎng)絡(luò)圖的要求.劉少鵬等[5]提出一個(gè)以半監(jiān)督為基礎(chǔ)的對抗網(wǎng)絡(luò)的分階段混合模型,用以解決醫(yī)學(xué)領(lǐng)域中帶有標(biāo)簽的數(shù)據(jù)較少導(dǎo)致的不足以完成神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練的問題,獲得了良好的醫(yī)學(xué)圖像分割效果.

針對上述實(shí)測數(shù)據(jù)不包含標(biāo)記信息、少量監(jiān)督信息只能從專家經(jīng)驗(yàn)對部分樣本的賦予和從實(shí)驗(yàn)室已有監(jiān)督信息中獲得、監(jiān)督信息的利用通常具有隨機(jī)性等問題,本文提出一種主動學(xué)習(xí)策略下基于變分貝葉斯推理的半監(jiān)督高斯混合模型:

(1)通過主動學(xué)習(xí)策略建立高質(zhì)量成對約束條件,實(shí)現(xiàn)了標(biāo)記信息的有效利用,提升了半監(jiān)督變分貝葉斯推理高斯混合模型(下文均簡稱為半監(jiān)督高斯模型)的學(xué)習(xí)性能.

(2)在實(shí)驗(yàn)中不斷減少標(biāo)記樣本的數(shù)量,探索標(biāo)記樣本數(shù)量對模型的影響.為了進(jìn)一步提升模型在標(biāo)記樣本數(shù)量不斷減少時(shí)的識別準(zhǔn)確率,還在模型中引入最小生成樹聚類對半監(jiān)督高斯模型的主要參數(shù)進(jìn)行初始化,提升模型在面對標(biāo)記樣本數(shù)量不斷發(fā)生變化時(shí)的穩(wěn)定性.

(3)當(dāng)某一類別的標(biāo)記樣本數(shù)量減少到0,即完全缺失該類別的標(biāo)記信息時(shí),本文提出的主動學(xué)習(xí)策略下基于最小生成樹的變分貝葉斯推理半監(jiān)督高斯混合模型依舊可以實(shí)現(xiàn)有效的判別.

1 相關(guān)算法

1.1 半監(jiān)督聚類半監(jiān)督聚類將類標(biāo)簽或成對約束等先驗(yàn)知識融入傳統(tǒng)聚類方法來獲得更高質(zhì)量的聚類結(jié)果.根據(jù)先驗(yàn)知識的不同,半監(jiān)督聚類大致可分為基于距離的半監(jiān)督聚類方法和基于約束的半監(jiān)督聚類方法.

基于距離的半監(jiān)督聚類方法利用數(shù)據(jù)集中一些標(biāo)記數(shù)據(jù)來指導(dǎo)聚類機(jī)制.Wu et al[6]設(shè)計(jì)了一種基于密度敏感的半監(jiān)督聚類法,得到一種改進(jìn)的密度敏感的距離度量,可以有效地增大位于不同稠密區(qū)域的樣例的距離,并縮小位于同一稠密區(qū)域內(nèi)的樣例的距離.Bijral et al[7]以基于密度的距離估計(jì)為基礎(chǔ),提出一種用圖上的最短路徑進(jìn)行計(jì)算的簡單有效的方法,適用于稠密的全連接圖,能有效地減少運(yùn)行時(shí)間.范九倫等[8]提出半監(jiān)督截集式可能性C‐均值聚類算法,提高彩色圖像分割的效率和準(zhǔn)確率.基于距離的半監(jiān)督聚類方法的缺點(diǎn)是其聚類效果很大程度上依賴于標(biāo)簽數(shù)據(jù)集的規(guī)模和質(zhì)量.

基于約束的半監(jiān)督聚類方法在為簇分配數(shù)據(jù)時(shí)利用監(jiān)督信息來限制可行解,或直接通過改變分配策略來防止違反監(jiān)督信息的分配[9],或在監(jiān)督信息被違反、得到滿足的情況下,通過懲罰、獎勵目標(biāo)函數(shù)間接進(jìn)行,缺點(diǎn)是求解時(shí)易出現(xiàn)約束違反的情況.劉如輝等[10]通過建立成對約束關(guān)系,將快速密度峰值聚類算法引入半監(jiān)督學(xué)習(xí),結(jié)合集成學(xué)習(xí)的思想解決原算法中的自動選擇時(shí)誤選和漏選中心點(diǎn)、簇的數(shù)量需要主觀先驗(yàn)判斷、算法使用受場景局限等缺陷.張鑫等[11]在拉普拉斯特征映射算法的基礎(chǔ)上,對標(biāo)記樣本點(diǎn)進(jìn)行置信度約束,提出基于改進(jìn)的拉普拉斯特征映射算法的半監(jiān)督故障診斷模型,優(yōu)化了聚類效果.

1.2 基于主動學(xué)習(xí)策略的成對約束篩選為了提高聚類性能,一般將先驗(yàn)知識加入無監(jiān)督聚類算法來提升聚類的效果,進(jìn)而提出一系列改進(jìn)的半監(jiān)督聚類算法.最常見的先驗(yàn)知識有兩種:一是標(biāo)簽信息;二是存在于數(shù)據(jù)點(diǎn)之間的成對約束信息,即必連約束和勿連約束[12].必連約束是隸屬于相同類型的成對的數(shù)據(jù),而勿連約束是隸屬于不同類型的成對的數(shù)據(jù).

一般地,在半監(jiān)督聚類算法中,若被提供的監(jiān)督信息占總的數(shù)據(jù)信息的比重較小,或者該類信息是聚類算法自身可以捕捉的,會導(dǎo)致該類信息不易指導(dǎo)算法完成聚類,難以提升算法的性能[13].因此,需要找到只通過算法自身很難發(fā)現(xiàn)的數(shù)據(jù)間的密切聯(lián)系,利用該數(shù)據(jù)關(guān)系可以獲取信息規(guī)模更大的監(jiān)督信息,而這些信息對提高半監(jiān)督聚類學(xué)習(xí)器的聚類性能大有裨益.

如圖1 所示,用三角形和圓形兩種不同形狀分別表示兩種不同類型的數(shù)據(jù),其中勿連約束用紅色虛線表示,必連約束用黑色實(shí)線表示.圖1a中,構(gòu)成必連約束的數(shù)據(jù)點(diǎn)空間位置相鄰甚至出現(xiàn)重疊情況,而構(gòu)成勿連約束的數(shù)據(jù)點(diǎn)之間相距較遠(yuǎn),聚類算法總是將構(gòu)成必連約束的數(shù)據(jù)集分到同一類別中,將構(gòu)成勿連約束的數(shù)據(jù)集歸為不同類別,導(dǎo)致先驗(yàn)知識失去了對聚類算法的指導(dǎo)作用,得到的監(jiān)督信息是無效的、低質(zhì)量的.圖1b中的約束集與圖1a 相反,同類別之間距離較遠(yuǎn)的點(diǎn)構(gòu)成了必連約束,不同類別之間距離較近的點(diǎn)構(gòu)成了勿連約束,這樣可以更充分地體現(xiàn)數(shù)據(jù)之間的結(jié)構(gòu),而僅僅通過聚類算法難以發(fā)現(xiàn)這個(gè)結(jié)構(gòu).因此,通過這種方式得到的數(shù)據(jù)一般具有較高的信息量.

圖1 監(jiān)督信息特性的示例Fig.1 Examples of supervisory information characte?ristics

建立高質(zhì)量成對約束的主動學(xué)習(xí)策略以數(shù)據(jù)集D(r*c)(r為樣本數(shù),c為特征維數(shù))和已有的成對約束集為基礎(chǔ),其中輸入為已有的必連約束集和勿連約束集,輸出為新的必連約束集和勿連約束集.該策略的偽代碼如算法1 所示,其中,D_ML,D_CL 分別表示必連約束距離和勿連約束距離,T表示迭代次數(shù),vx,vy分別表示Q中數(shù)值對應(yīng)到矩陣D中的兩個(gè)數(shù).

1.3 主動學(xué)習(xí)策略下基于最小生成樹的變分貝葉斯推理的高斯混合模型基于譜圖的最小生成樹半監(jiān)督聚類主要依賴距離矩陣,將每個(gè)頂點(diǎn)看作一個(gè)獨(dú)立的樹,在滿足約束條件下依據(jù)距離合并最小生成樹以達(dá)到聚類目的,直至最后聚類簇?cái)?shù)小于等于目的類簇?cái)?shù)為止.其輸出為類別標(biāo)簽,這些標(biāo)簽信息被用來對變分貝葉斯推理的高斯混合模型中的參數(shù)(均值、協(xié)方差以及混合系數(shù))進(jìn)行初始化.

2017 年Blei et al[14]提出變分高斯混合模型(Variational Bayesian Inference for Gussian Mix‐ture Model,VBIGMM),應(yīng)用于無標(biāo)記樣本數(shù)據(jù)集.假設(shè)從K個(gè)獨(dú)立的高斯分本中抽出n個(gè)樣本,xi為一個(gè)樣本數(shù)據(jù),uk為每個(gè)高斯分布的均值,ci表示樣本xi對應(yīng)的高斯分布.則高斯混合模型的生成過程[15]如下:

根據(jù)平均場的性質(zhì),每個(gè)潛在變量都由其自身的變分因子控制.因子q(uk;mk;)是第k個(gè)混合組件均值參數(shù)的高斯分布,其平均值為mk,方差為.因子q(ci;φi)是第i個(gè)觀測值混合分配,其分配概率為K維向量φi.

變分貝葉斯推斷的目標(biāo)是尋找一個(gè)恰當(dāng)?shù)穆?lián)合分布使其近似代替P(x),即最大化變分下界ELBO.ELBO越大,近似估計(jì)的概率分布和數(shù)據(jù)整體真實(shí)的概率分布的相似度就越高.

為了合理利用監(jiān)督信息,在上述變分貝葉斯推理高斯混合模型中引入必連約束和勿連約束.在推理過程中,勿連約束使具有不同標(biāo)簽的樣本不能分配給相同的高斯分量,必連約束使具有相同標(biāo)簽的樣本不能分配給不同的高斯分量.

主動學(xué)習(xí)策略下基于最小生成樹的變分貝葉斯推理的高斯混合模型以數(shù)據(jù)集與新的必連約束集和勿連約束集作為輸入,以數(shù)據(jù)的標(biāo)簽向量作為輸出.該算法的偽代碼如算法2 所示,其中,N表示簇?cái)?shù),P表示概率矩陣,G表示無向權(quán)重圖,su和sv分別表示構(gòu)成G中邊的兩個(gè)點(diǎn),uk表示均值,ce表示質(zhì)心,Mc表示協(xié)方差矩陣.

2 技術(shù)路線

由于實(shí)驗(yàn)室采集的管道狀態(tài)檢測聲學(xué)信號數(shù)據(jù)集的監(jiān)督信息是標(biāo)簽信息,而不是本文要求的成對約束信息,因此首先需要根據(jù)實(shí)驗(yàn)提供的標(biāo)簽信息隨機(jī)構(gòu)建必連約束集與勿連約束集,作為本文半監(jiān)督實(shí)驗(yàn)中的初始監(jiān)督信息.

步驟1.信號分解:對檢測到的管道運(yùn)行狀態(tài)聲學(xué)響應(yīng)信號進(jìn)行互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(Com‐plementary Ensemble Empirical Mode Decomposi‐tion,CEEMD),經(jīng)過信號分解后獲得八個(gè)內(nèi)涵模態(tài)分量(Intrinsic Mode Functions,IMF).

步驟2.特征分量的選?。河?jì)算分解后的八個(gè)IMF 分量和原始聲壓信號的皮爾遜相關(guān)系數(shù),系數(shù)越大表示分量與原信號的相關(guān)性越強(qiáng).本文需要選取相關(guān)性較強(qiáng)、特征信息豐富的IMF 分量.

步驟3.特征提取:分別計(jì)算步驟2 中選取的IMF 分量的過零率與梅爾頻率倒譜系數(shù)(Mel‐Scale Frequency Cepstral Coefficients,MFCC),構(gòu)建特征向量集合D.

步驟4.主動學(xué)習(xí)策略:將特征向量集合D與必連約束集合、勿連約束集合輸入基于主動學(xué)習(xí)策略的成對約束篩選模型,一般認(rèn)為不同類中距離最近的兩個(gè)樣本點(diǎn)構(gòu)成的勿連約束與同類中距離最遠(yuǎn)的兩個(gè)樣本點(diǎn)構(gòu)成的必連約束提供的信息難以被聚類算法本身捕捉,屬于高質(zhì)量約束信息.輸出新的高質(zhì)量必連約束集合和勿連約束集合.

步驟5.半監(jiān)督最小生成樹聚類:將特征向量集合D與新的高質(zhì)量必連約束集合和勿連約束集合輸入半監(jiān)督最小生成樹聚類.將每個(gè)樣本看作獨(dú)立的樹,在滿足約束條件下,根據(jù)樣本點(diǎn)之間的歐式距離進(jìn)行樣本劃分,直到規(guī)定的簇?cái)?shù),計(jì)算聚類后每個(gè)簇中簇心和協(xié)方差矩陣.

步驟6.半監(jiān)督變分推理高斯混合模型:依據(jù)步驟5 的結(jié)果依次初始化模型中的均值向量和協(xié)方差矩陣,再將特征向量集合D與新的高質(zhì)量必連約束集合和勿連約束集合輸入模型,根據(jù)樣本點(diǎn)分屬類別的概率矩陣的最優(yōu)值為所有樣本賦予標(biāo)簽,發(fā)生約束沖突時(shí)選擇次優(yōu)值,最后輸出聚類標(biāo)簽向量.

步驟7.聚類評價(jià):使用準(zhǔn)確率來評估聚類效果,驗(yàn)證本文提出的模型的有效性.

本文的技術(shù)路線流程如圖2 所示.

圖2 技術(shù)路線的流程圖Fig.2 The flow chart of experimental method

3 實(shí)驗(yàn)平臺與數(shù)據(jù)采集

采用實(shí)驗(yàn)室搭建的管道運(yùn)行狀態(tài)檢測平臺獲取實(shí)驗(yàn)數(shù)據(jù)集來學(xué)習(xí)并驗(yàn)證模型的性能.該平臺包括一段直徑為150 mm、長14.4 m 的黏土管道,東方所INV3062T 信號采集儀,愛華AWA1651聲源發(fā)生器,智眾叁H5646 信號放大器,奧樂YJB‐10 揚(yáng)聲器,東方所INV9206 聲壓傳感器.

3.1 實(shí)驗(yàn)過程

(1)在管道首端放置聲壓傳感器和信號采集儀以及聲源發(fā)生器,聲源發(fā)生器選擇100~6000 Hz 的正弦掃頻信號作為激勵信號.

(2)將聲源發(fā)生器的一端連接信號采集儀來獲取輸入信息,另一端連接信號放大器,激勵信號經(jīng)過放大之后滿足揚(yáng)聲器的信號頻段需求,經(jīng)其轉(zhuǎn)變?yōu)槁曇粜盘?,?shí)現(xiàn)聲音在管道中的傳播.

(3)將四個(gè)聲壓傳感器順序排列放置在管道尾端,將各通道傳感器采集的聲壓信號通過數(shù)據(jù)采集儀輸入電腦,進(jìn)行存儲和下一步處理.

對實(shí)驗(yàn)過程中管道的堵塞程度定義為:如果堵塞物在管道中的堵塞高度達(dá)到管道直徑的三分之一,定義為重度堵塞;沒有達(dá)到該高度則定義為輕微堵塞.因此,為了分別模擬現(xiàn)實(shí)管道中的輕微和中重度堵塞,實(shí)驗(yàn)過程中在管道中放置高度分別為20 mm 和55 mm 的堵塞物,并且,為了確定管道運(yùn)行時(shí)旁支管道對整個(gè)檢測結(jié)果的干擾程度,使用三通件來模擬旁支管道.管道堵塞實(shí)驗(yàn)?zāi)M平臺如圖3 所示.

圖3 實(shí)驗(yàn)平臺、三通件和堵塞實(shí)物圖Fig.3 Physical diagrams of experimental platform,three?way piece and blockages

3.2 數(shù)據(jù)采集采樣頻率設(shè)定為44100 Hz,根據(jù)聲音在空氣中的傳播速度及待檢測管道長度將采樣時(shí)間設(shè)定為0.1 s.模擬的管道運(yùn)行狀態(tài)包括正常健康的管道、含三通件的正常健康管道、含有輕微堵塞物的管道和含重度堵塞物的管道四種,采集四種工況下的聲學(xué)響應(yīng)信號數(shù)據(jù)各144組,得到的信號的時(shí)域波形如圖4 所示.由圖可見,四種工況的區(qū)分性較差,難以實(shí)現(xiàn)工況的識別.

圖4 四種工況下的管道時(shí)域波形圖Fig.4 Time domain waveforms of pipeline under four working conditions

4 數(shù)據(jù)處理與特征提取

4.1 CEEMD 分解2010 年Yeh et al[16]針對集合經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode De‐composition,EEMD)算法在引入的白噪聲集總平均之后不能完全抵消而存在殘留、重建的分量信號依舊存在不可忽略的噪聲等問題,提出互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(Complementary Ensemble Em‐pirical Mode Decomposition,CEEMD)算法.

算法的流程如下:

Step 2.經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode De‐composition,EMD):加入噪聲2n個(gè)信號(t)和(t),得到2n個(gè)集成的IMF 分量,分別為IMFi1和IMFi2.求IMFi1和IMFi2的均值得到IMFi,再計(jì)算n組的IMFi,得到最終的IMF 分量.

4.2 信號分解對四種不同工況的聲學(xué)信號進(jìn)行CEEMD 分解,圖5 以20 mm 堵塞故障采集得到的信號為例,給出了聲壓信號經(jīng)CEEMD 分解后獲得的八個(gè)IMF 分量信號的不同特征成分.由于不同分量包含的信息成分不同,為了提高下一步的模型學(xué)習(xí)效率,還需要對分量進(jìn)行篩選.

圖5 IMF 分量的時(shí)域波形圖Fig.5 Time domain waveform of IMF component

4.3 IMF 分量篩選分別計(jì)算各分量信號與原信號之間的皮爾遜相關(guān)系數(shù),將得到的不同系數(shù)進(jìn)行排序后選取合適的分量構(gòu)建半監(jiān)督學(xué)習(xí)模型的訓(xùn)練特征集.

皮爾遜相關(guān)系數(shù)是1895 年P(guān)earson[17]提出的度量兩個(gè)變量之間相關(guān)程度的一種統(tǒng)計(jì)概念,其值介于-1 與1 之間.本文用來衡量各分量信號與原信號的相關(guān)程度,一般認(rèn)為皮爾遜相關(guān)系數(shù)r<0.1時(shí),兩者不相關(guān).

向量X{x1,x2,…,xn}與Y{y1,y2,…,yn}之間的皮爾遜相關(guān)系數(shù)為:

經(jīng)CEEMD 分解后的八個(gè)分量信號與原信號的皮爾遜相關(guān)系數(shù)如表1 所示.由表可見,分量信號IMF6,IMF7,IMF8 與原信號的皮爾遜相關(guān)系數(shù)均低于0.1,因此認(rèn)為IMF6 以后的分量信號與原信號極弱相關(guān)或無相關(guān).所以,選取分量IMF1~I(xiàn)MF5 進(jìn)行特征提取.

表1 各分量信號與原信號間的皮爾遜相關(guān)系數(shù)Table 1 Pearson correlation coefficient between each component signal and the original signal

4.4 特征提取對于選取的IMF1~I(xiàn)MF5 分量,分別計(jì)算其過零率與梅爾頻率倒譜系數(shù),構(gòu)建能夠描述管道狀態(tài)的聲學(xué)特征集.

4.4.1 過零率過零率指一個(gè)信號通過零點(diǎn)的次數(shù),主要應(yīng)用在模式識別和聲紋檢索等領(lǐng)域,如楊亦春等[18]將過零率分析引入聲引信目標(biāo)信號分析與識別,孫慧芳等[19]利用過零率和幅值頻譜提升語音和音樂分類識別的準(zhǔn)確率.過零率也常被應(yīng)用到其他領(lǐng)域,如尹麗等[20]將過零率應(yīng)用到波形復(fù)雜且幅值較小的心電信號分析中,劉琨等[21]認(rèn)為過零率能夠較好地體現(xiàn)信號的部分頻率信息,將其應(yīng)用到多類別入侵事件識別方法中.

過零率的計(jì)算如式(13)所示:

其中,threshold為設(shè)定的閾值,本文中設(shè)為0.

sgn(x)的計(jì)算如式(14)所示:

4.4.2 梅爾頻率倒譜系數(shù)梅爾頻率倒譜系數(shù)(MFCC)在聲音信號處理中常作為信號特征被廣泛使用,基于MFCC的研究大量涌現(xiàn)[22-23].MF?CC的提取方法主要分兩步:第一步,通過常見的離散傅里葉變換將信號映射到頻域,計(jì)算能量譜;第二步,用一組Mel 尺度的三角形濾波器對得到的能量譜進(jìn)行卷積運(yùn)算,實(shí)現(xiàn)濾波處理.為了便于對信號進(jìn)行倒譜分析,對結(jié)果取對數(shù),最后通過離散余弦變換得到24 維的關(guān)于聲信號的特征參數(shù).

5 半監(jiān)督聚類與結(jié)果分析

5.1 主動學(xué)習(xí)策略為了證明主動學(xué)習(xí)策略對半監(jiān)督聚類的積極影響,設(shè)計(jì)的初始成對約束由每個(gè)類別的標(biāo)簽樣本隨機(jī)構(gòu)建必連約束集和勿連約束集,每個(gè)類別的標(biāo)簽樣本含量占該類別樣本數(shù)量的50%.在基于成對約束的半監(jiān)督變分推理高斯混合模型上驗(yàn)證由主動學(xué)習(xí)策略篩選成對約束的有效性.有主動學(xué)習(xí)策略的模型將主動學(xué)習(xí)策略篩選后的新的必連約束集和勿連約束集作為模型的輸入,無主動學(xué)習(xí)策略的模型將初始約束集合作為模型的輸入.使用準(zhǔn)確率評估實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)100 次后對所有結(jié)果取平均值,將其作為展示結(jié)果.實(shí)驗(yàn)結(jié)果如圖6 所示,類別1,2,3,4 分別對應(yīng)正常管道樣本、含三通件的管道樣本、含輕微堵塞的管道樣本和含重度堵塞的管道樣本,預(yù)測類別為0 的樣本是模型判斷失效的樣本.

圖6 主動學(xué)習(xí)策略的模型圖Fig.6 The diagram of active learning strategy model

圖6a 是將基于變分推理的高斯混合模型在增加成對約束后,再引入半監(jiān)督學(xué)習(xí)得到對管道運(yùn)行狀態(tài)識別的混淆矩陣,可以看出該模型有效地根據(jù)少量的標(biāo)記信息輔助模型訓(xùn)練無標(biāo)記數(shù)據(jù).通過主動學(xué)習(xí)策略構(gòu)建的高質(zhì)量約束集可以提供聚類算法本身不易發(fā)掘的信息,進(jìn)一步提升模型的識別準(zhǔn)確率,其混淆矩陣如圖6b 所示.對比圖6a 和圖6b,可以看出,增加主動學(xué)習(xí)策略后模型類別的識別準(zhǔn)確率至少提高了3%,模型判斷失效樣本減少了72%.

5.2 半監(jiān)督學(xué)習(xí)組合方法

5.2.1 監(jiān)督信息減少時(shí)半監(jiān)督學(xué)習(xí)模型性能對比為了進(jìn)一步驗(yàn)證半監(jiān)督模型在監(jiān)督信息比例發(fā)生變化時(shí)的學(xué)習(xí)性能,對實(shí)驗(yàn)數(shù)據(jù)中每個(gè)類別提供的標(biāo)簽樣本量與該類別樣本數(shù)量的百分比進(jìn)行調(diào)整,從初始的50% 下降到10%,每次下降10%.初始必連約束集合和勿連約束集合依據(jù)實(shí)驗(yàn)數(shù)據(jù)中提供的標(biāo)簽信息隨機(jī)構(gòu)建.分別在半監(jiān)督高斯模型、加入主動學(xué)習(xí)策略的高斯模型以及加入主動學(xué)習(xí)策略的基于最小生成樹的變分貝葉斯推理半監(jiān)督高斯混合模型(下文均稱為組合模型)中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7 所示.

圖7 不同標(biāo)簽含量的半監(jiān)督高斯模型對比Fig.7 Comparison of semi?supervised Gaussian mod?els with different label contents

由圖可見,隨著標(biāo)簽樣本含量的下降,增加了主動學(xué)習(xí)策略的半監(jiān)督高斯模型的準(zhǔn)確率在不斷降低.比例為10%時(shí),主動學(xué)習(xí)策略對模型的聚類性能改善有限,而使用了組合聚類的模型性能優(yōu)于其他兩個(gè)模型,也更穩(wěn)定.

5.2.2 當(dāng)某一類別無監(jiān)督信息時(shí)模型性能分析依次取消各類別中所有的標(biāo)記信息,當(dāng)某個(gè)類別完全無標(biāo)簽信息時(shí),其他類別的含標(biāo)簽信息的樣本數(shù)量占總樣本標(biāo)簽數(shù)量的50%.聚類時(shí)將完全無標(biāo)簽信息的樣本類別定義為無預(yù)定義標(biāo)簽類,即0 類.實(shí)驗(yàn)中所需的初始成對約束監(jiān)督信息依舊根據(jù)實(shí)驗(yàn)所提供的標(biāo)簽信息隨機(jī)構(gòu)建,這種情況得到的實(shí)驗(yàn)結(jié)果如圖8 所示.

圖8 不同情況下的完全缺失部分類別標(biāo)記信息的聚類結(jié)果Fig.8 Clustering results of completely missing partial category marker information in different cases

由圖可見:(1)完全缺失正常管道的類別標(biāo)記信息時(shí),模型識別的準(zhǔn)確率達(dá)92.4%,該類別與其他類別間有極弱的相似性,故而被識別為新類別的準(zhǔn)確率較高.(2)完全缺失含三通件管道的類別標(biāo)記信息時(shí),模型的識別為新類別的準(zhǔn)確率可達(dá)70.8%.由于聲波在含三通件的管道中傳播不存在堵塞時(shí),其傳播路徑與正常管道中傳播路徑類似過程相似,但聲波又會在三通件的位置發(fā)生部分散射和反射現(xiàn)象,此時(shí)與聲波在管道中遇到堵塞物時(shí)發(fā)生的物理現(xiàn)象又有部分類似,因而完全缺失該類別的標(biāo)記信息時(shí)會有10%~20%的樣本被錯(cuò)分為正常管道和輕微堵塞.(3)完全缺失堵塞管道的類別標(biāo)記信息時(shí),系統(tǒng)識別為堵塞的準(zhǔn)確率可達(dá)73.6%.聲波在管道中遇到堵塞物時(shí)發(fā)生的物理現(xiàn)象相同,但堵塞物的高度不同,傳感器接收的聲壓信號會有差異,實(shí)驗(yàn)中管道中的輕微堵塞物和重度堵塞物的高度僅相差3.5 cm,因而,在不同堵塞程度的管道類別標(biāo)記信息為0 需要進(jìn)一步判斷堵塞程度時(shí),模型在判斷該類別為新類別的同時(shí),容易將該類別的部分樣本誤判為其他堵塞程度的管道類別.

6 結(jié)論

在實(shí)際生活中,監(jiān)督信息來源于專家經(jīng)驗(yàn)對部分樣本的賦予和實(shí)驗(yàn)室已有的監(jiān)督信息,在基于約束的半監(jiān)督聚類中對監(jiān)督信息的利用往往具有隨機(jī)性.因此,本文針對監(jiān)督信息的利用情況,提出一種主動學(xué)習(xí)策略下基于最小生成樹的變分推理半監(jiān)督高斯混合模型,對高質(zhì)量的監(jiān)督信息實(shí)現(xiàn)充分利用,較大程度地提高了算法的聚類性能.

經(jīng)過實(shí)驗(yàn)驗(yàn)證,得到如下結(jié)論:

(1)引入主動學(xué)習(xí)策略的半監(jiān)督高斯模型,其聚類性能有明顯的提升,但在標(biāo)記樣本信息占比下降到10%時(shí),主動學(xué)習(xí)策略對模型性能提升有限,因此又引入了最小生成樹聚類初始化模型參數(shù),進(jìn)一步提升模型性能.

(2)在監(jiān)督信息數(shù)量發(fā)生變動時(shí),本文提出的組合模型具有一定的魯棒性,且在某一類別完全缺失監(jiān)督信息時(shí),可以依據(jù)聚類結(jié)果分析判別其類別狀態(tài),并保證了一定的準(zhǔn)確性.

下一步的工作:

(1)研究不同的主動學(xué)習(xí)策略,如一致熵樣本查詢策略、投票熵樣本查詢策略等,進(jìn)一步提升模型性能.

(2)展開半監(jiān)督學(xué)習(xí)下的特征篩選工作,突出樣本的類別特征,在提升模型對新類別的識別準(zhǔn)確率的同時(shí),進(jìn)一步考慮半監(jiān)督學(xué)習(xí)下標(biāo)記樣本的數(shù)量對零樣本學(xué)習(xí)的影響.

猜你喜歡
學(xué)習(xí)策略類別約束
“碳中和”約束下的路徑選擇
約束離散KP方程族的完全Virasoro對稱
高中生數(shù)學(xué)自主學(xué)習(xí)策略探討
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
一種使用反向?qū)W習(xí)策略的改進(jìn)花粉授粉算法
適當(dāng)放手能讓孩子更好地自我約束
人生十六七(2015年6期)2015-02-28 13:08:38
基于微博的移動學(xué)習(xí)策略研究
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
大渡口区| 杭州市| 古蔺县| 巴彦淖尔市| 仁布县| 布拖县| 团风县| 报价| 措勤县| 永春县| 富宁县| 壶关县| 青川县| 兴城市| 陕西省| 巴彦淖尔市| 雷山县| 崇礼县| 桦南县| 诸暨市| 东平县| 江油市| 休宁县| 科技| 横山县| 左贡县| 得荣县| 突泉县| 高平市| 丁青县| 灵宝市| 页游| 隆安县| 长子县| 丹棱县| 新晃| 恩施市| 定襄县| 莲花县| 长子县| 长兴县|