国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向復(fù)雜工業(yè)過程的虛擬樣本生成綜述

2024-04-30 08:07崔璨麟喬俊飛
自動化學(xué)報(bào) 2024年4期
關(guān)鍵詞:樣本空間工業(yè)樣本

湯 健 崔璨麟 夏 恒 喬俊飛

信息技術(shù)的不斷發(fā)展和工業(yè)自動化進(jìn)程的不斷 深入,利用多類型傳感器采集的海量多模態(tài)數(shù)據(jù)能夠支撐構(gòu)建“工業(yè)大數(shù)據(jù)”驅(qū)動模型,這已成為復(fù)雜工業(yè)過程實(shí)現(xiàn)智能控制、決策與優(yōu)化的重要手段[1-4].然而,復(fù)雜工業(yè)過程的產(chǎn)品質(zhì)量、污染物排放等難測關(guān)鍵運(yùn)行指標(biāo)和異常故障的建模數(shù)據(jù)依然存在量少稀疏、分布不平衡以及內(nèi)涵機(jī)理知識匱乏等問題,難以支撐構(gòu)建準(zhǔn)確且魯棒的檢測與識別模型[5-7].以城市固廢焚燒(Municipal solid waste incineration,MSWI)過程為例,該過程排放的痕量有機(jī)污染物二噁英(Dioxin,DXN) 因受限于在線檢測技術(shù)的復(fù)雜度和離線化驗(yàn)技術(shù)的高成本,使得具有真值的建模樣本數(shù)量極少[8-9];此外,已有的真值樣本通常是在某種穩(wěn)定的次優(yōu)運(yùn)行工況下獲得的,極優(yōu)工況和潛在異常工況下的樣本數(shù)據(jù)是缺失的.這些有限數(shù)量的真值樣本中顯然缺乏有助于洞悉運(yùn)行指標(biāo)的相關(guān)機(jī)理,造成與建模相關(guān)的內(nèi)涵知識匱乏.為解決上述問題,從擴(kuò)增建模樣本數(shù)量的視角,早期模式識別領(lǐng)域的研究學(xué)者Poggio 和Vetter 提出虛擬樣本生成(Virtual sample generation,VSG)的概念[10],其核心思想是基于已有數(shù)據(jù)通過某種方式生成并不存在的樣本以擴(kuò)充數(shù)據(jù)空間,其目前已廣泛地應(yīng)用于圖像處理[11]、人臉識別[12]以及可靠性分析[13]等領(lǐng)域.圖1 給出了近20 年內(nèi)與VSG 相關(guān)的文獻(xiàn)發(fā)表數(shù)量與被引頻次的變化情況.

圖1 Web of Science 上的VSG 論文數(shù)量與被引頻次Fig.1 Number and citation frequency of articles on VSG in Web of Science

由圖1 可知,有關(guān)VSG 的論文發(fā)表量和被引量在總體上呈現(xiàn)上升趨勢,表明該技術(shù)已逐漸受到研究學(xué)者的重視.雖然,Niyogi 等從數(shù)學(xué)視角證明了虛擬樣本等價(jià)于將先驗(yàn)知識合并為正則化矩陣[14],但復(fù)雜工業(yè)過程固有的機(jī)理不清、強(qiáng)耦合和非線性等特性,使得從該類過程獲得明確的先驗(yàn)知識存在難度大和耗時(shí)長等問題,這導(dǎo)致目前研究學(xué)者大多聚焦于如何從小樣本中學(xué)習(xí)知識進(jìn)而生成虛擬樣本的研究[15].隨著變分自編碼器(Variational autoencoder,VAE)[16-18]、生成對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[19-20]等生成模型的發(fā)展,使得VSG 的研究熱度得到進(jìn)一步的提升[15].隨著工業(yè)數(shù)字孿生[21-22]、元宇宙[23-24]等概念的發(fā)展和日趨成熟,筆者認(rèn)為,VSG 技術(shù)將成為上述技術(shù)發(fā)展中不可或缺的元素之一.綜上,VSG 技術(shù)的逐步完善與成熟,能夠?yàn)閷?shí)際復(fù)雜工業(yè)過程的運(yùn)行指標(biāo)建模和異常故障識別乃至工業(yè)數(shù)字孿生和元宇宙提供有效支撐,有必要對當(dāng)前VSG 的研究動態(tài)與未來趨勢進(jìn)行總結(jié)與展望.

本文以工業(yè)過程為背景,全面綜述VSG 在工業(yè)過程中的研究現(xiàn)狀及未來的發(fā)展方向,主要工作如下: 第1 節(jié)從樣本稀缺、樣本分布完備性差和樣本內(nèi)涵機(jī)理知識匱乏共3 個視角總結(jié)工業(yè)過程VSG 所面臨的問題,并梳理虛擬樣本定義、輸入/輸出空間虛擬樣本內(nèi)涵以及面向工業(yè)過程的實(shí)現(xiàn)流程;第2 節(jié)根據(jù)目前的研究成果和實(shí)際工業(yè)過程的特點(diǎn),從樣本覆蓋區(qū)域、實(shí)現(xiàn)流程與推廣應(yīng)用共3個方面進(jìn)行綜述;第3 節(jié)給出相關(guān)的數(shù)據(jù)集和開源軟件;第4 節(jié)進(jìn)行對比與討論,并分析下一步的發(fā)展方向;第5 節(jié)對全文工作進(jìn)行總結(jié)并給出未來挑戰(zhàn).

1 面向工業(yè)過程的VSG 技術(shù)

1.1 運(yùn)行指標(biāo)和異常故障建模存在的問題

目前,對系統(tǒng)性能、生產(chǎn)質(zhì)量和經(jīng)濟(jì)效益的高要求使得現(xiàn)代工業(yè)過程的復(fù)雜度、包含的設(shè)備類型和數(shù)量也迅速增加,多類型傳感器和自動化系統(tǒng)的應(yīng)用促成了“工業(yè)大數(shù)據(jù)”以及工業(yè)過程建模、控制與優(yōu)化研究[25].相應(yīng)地,基于數(shù)據(jù)驅(qū)動的運(yùn)行指標(biāo)和異常故障建模技術(shù)也得到迅速發(fā)展[26].但是,技術(shù)上仍難以在線檢測的部分運(yùn)行指標(biāo)和難以再現(xiàn)的異常故障卻導(dǎo)致可用建模樣本量稀缺的現(xiàn)象[27].此外,復(fù)雜工業(yè)過程機(jī)理不清難以建模的特性和工業(yè)現(xiàn)場以確保安全穩(wěn)定運(yùn)行為目標(biāo)的次優(yōu)運(yùn)行狀態(tài),使得建模數(shù)據(jù)還存在著分布不平衡以及內(nèi)涵機(jī)理知識匱乏等問題.

1.1.1 樣本稀缺

針對難測運(yùn)行指標(biāo)而言,以MSWI 過程的DXN排放濃度檢測為例,其可采用離線直接檢測法和在線間接檢測法進(jìn)行測量,但存在過程繁瑣、價(jià)格昂貴、設(shè)備復(fù)雜和時(shí)間滯后等局限性;企業(yè)以月或季為間隔的不定期檢測導(dǎo)致建模樣本極為稀缺[8].這需要采用適合于小樣本數(shù)據(jù)的學(xué)習(xí)算法[28].

針對復(fù)雜工業(yè)過程的故障檢測與診斷(Fault detection and diagnosis,FDD)模型而言,異常故障樣本屬于“可遇不可求”,同時(shí)工業(yè)現(xiàn)場也是極力避免出現(xiàn)這樣的故障,即會在異常出現(xiàn)前通過定期維修、降低生產(chǎn)效率等方式予以預(yù)防,因而導(dǎo)致樣本缺失,增加了故障分類模型的構(gòu)建難度[29-30].

文獻(xiàn)[31]指出,當(dāng)在工程應(yīng)用和學(xué)術(shù)研究中采用的建模樣本數(shù)量分別少于50 和30 時(shí),所面對的機(jī)器學(xué)習(xí)問題即被稱為小樣本學(xué)習(xí)問題;進(jìn)一步,文獻(xiàn)[32]將該問題表示為下式:

式中,nsample為樣本數(shù),pfeature為特征數(shù),α的典型取值為 {2, 5, 10}.顯然,α過小的數(shù)據(jù)集難以為構(gòu)建可靠的學(xué)習(xí)模型提供支撐.

1.1.2 樣本分布完備性差

為保證工業(yè)全流程的運(yùn)行安全性,實(shí)際工業(yè)過程常工作在折衷的穩(wěn)定狀態(tài),甚至以犧牲經(jīng)濟(jì)性確保安全性為代價(jià)使工業(yè)過程長期運(yùn)行在次優(yōu)狀態(tài)[33].因此,即使采集了大量的過程數(shù)據(jù),但其所涵蓋的工況波動范圍和所具有的代表性樣本數(shù)量也是有限的,即多數(shù)為常規(guī)次優(yōu)工況數(shù)據(jù)和少數(shù)為極優(yōu)與潛在異常工況數(shù)據(jù).這些數(shù)據(jù)難以表征期望建模樣本空間中所需要的完備分布.本文將上述問題歸納為樣本分布完備性差,這會導(dǎo)致所構(gòu)建的模型僅適用于穩(wěn)定的次優(yōu)運(yùn)行過程,難以適用于存在工況動態(tài)漂移變化的實(shí)際過程[34].

在故障診斷中,正常樣本和異常故障樣本間呈現(xiàn)的是長尾分布,即正常運(yùn)行與常見故障為頭部多數(shù)類而罕見故障為尾部少數(shù)類,這也是樣本分布完備性差的體現(xiàn),其會嚴(yán)重影響故障診斷的結(jié)果.度量少數(shù)異常類和多數(shù)正常類之間不平衡度的指標(biāo),即不平衡比(Imbalance ratio,IR)[35]如下所示:

式中,Nmajority和Nminority分別為多數(shù)正常類和少數(shù)異常類樣本的數(shù)量.顯然,IR 值越大表示建模樣本集的不平衡程度越嚴(yán)重.在文獻(xiàn)[36]所構(gòu)建的感應(yīng)電動機(jī)故障診斷模型中,IR 的值達(dá)到了10.

雖然目前已有針對少樣本或零樣本的故障診斷研究成果[37-39],但其在本質(zhì)上并未解決樣本分布完備性的問題.

1.1.3 樣本蘊(yùn)涵機(jī)理知識匱乏

用于難測運(yùn)行指標(biāo)與異常故障建模的過程數(shù)據(jù)所蘊(yùn)涵的機(jī)理知識匱乏的原因在于: 首先,樣本數(shù)量稀缺;其次,樣本分布不完備使得從數(shù)據(jù)中獲取機(jī)理知識難,尤其是在數(shù)據(jù)均源于單一工況的情況下;再次,工業(yè)過程的機(jī)理復(fù)雜不清導(dǎo)致知識理解難.

文獻(xiàn)[40]指出,針對在生產(chǎn)階段早期采集的過程數(shù)據(jù)而言,其所蘊(yùn)涵的知識有限,難以為推理樣本分布提供支撐.文獻(xiàn)[34]認(rèn)為,雖然現(xiàn)代工業(yè)的規(guī)模在不斷擴(kuò)大,但可用的過程信息卻極為稀缺.進(jìn)一步,文獻(xiàn)[41]利用遷移學(xué)習(xí)從類似工況或設(shè)備的歷史數(shù)據(jù)中獲取知識,將其用于當(dāng)前過程關(guān)鍵工藝參數(shù)的預(yù)測;文獻(xiàn)[42]指出,進(jìn)行跨階段(Crossphase)、跨狀態(tài)(Cross-state)、跨實(shí)體(Cross-entity) 和跨領(lǐng)域(Cross-domain)的遷移學(xué)習(xí),是工業(yè)過程中獲取知識的途徑之一.但是,如何基于有限的建模樣本和復(fù)雜工業(yè)過程的經(jīng)驗(yàn)知識,獲得建模樣本所蘊(yùn)含的知識依然是一個開放性的問題.

1.2 虛擬樣本的定義及內(nèi)涵

1.2.1 虛擬樣本的定義

虛擬樣本的概念由Poggio 和 Vetter 于1992年提出并用于模式識別領(lǐng)域[10],但并未給出明確定義.文獻(xiàn)[43]給出了如下所示的較為通用定義.

定義1.對于給定訓(xùn)練樣本 (xi,yi),若由變換(T,fT) 得到的樣本(,) 也是一個合理的樣本,那么就稱新樣本 (,) 是由變換 (T,fT) 所生成的虛擬樣本.

基于定義1,文獻(xiàn)[6]給出如下的推論:

1.2.2 虛擬樣本輸入空間內(nèi)涵

由于難測運(yùn)行指標(biāo)和異常故障建模樣本的分布完備性差,即樣本分布在某個或某幾個區(qū)域,導(dǎo)致樣本間存在大量間隙,因此需要考慮對原始域樣本空間進(jìn)行有效填充.此外,原始域樣本空間之外也可能會存在符合實(shí)際數(shù)據(jù)分布的擴(kuò)展域,需對原始域進(jìn)行有效擴(kuò)展,但擴(kuò)展后可能會超出完備域(期望域)樣本空間.從可視化的角度,圖2 給出了二維平面內(nèi)原始域、擴(kuò)展域和完備域(期望域)樣本空間之內(nèi)的虛擬樣本和真實(shí)樣本的相互關(guān)系[44].

圖2 樣本輸入空間內(nèi)虛擬與真實(shí)樣本間的關(guān)系Fig.2 Relationship between virtual samples and real samples in sample input space

由圖2 可知,生成的虛擬樣本共有4 類: 1) 在原始域樣本空間內(nèi)部填補(bǔ)真實(shí)樣本間隙的合格虛擬樣本;2) 在原始域樣本空間外完備域(期望域)樣本空間內(nèi)的擴(kuò)展域空間的合格虛擬樣本;3) 在擴(kuò)展域樣本空間外、完備域(期望域)樣本空間內(nèi)的合格虛擬樣本;4) 在完備域(期望域)樣本空間外需剔除的不合格虛擬樣本.

進(jìn)一步,文獻(xiàn)[45]給出了三維空間視角下的不同虛擬樣本輸入生成方法的局限性,如圖3 所示.

圖3 三維空間下的不同虛擬樣本輸入生成方法示意圖Fig.3 Diagram of different virtual sample input generation methods in 3D space

在圖3 中,標(biāo)記的數(shù)字是真實(shí)和虛擬樣本編號,以數(shù)字“12”為例,其表示虛擬樣本12 是在真實(shí)樣本1 和2 的連線上生成的.具體而言,圖3(a)所示為依據(jù)樣本順序采用線性連續(xù)插值法依次在真實(shí)樣本間插值生成虛擬樣本輸入,即其僅分布在真實(shí)樣本輸入的順序連線上;圖3(b) 所示為合成少數(shù)類過采樣技術(shù)(Synthetic minority over-sampling technique,SMOTE),其表示隨機(jī)選擇兩個真實(shí)樣本并在其間進(jìn)行線性插值的方式,顯然其丟失了真實(shí)樣本間可能存在的時(shí)序關(guān)系與物理含義;圖3(c) 所示為重采樣法,其能夠在真實(shí)樣本的連接“面”上生成虛擬樣本輸入,但在由真實(shí)樣本組成的空間內(nèi)部并未生成虛擬樣本,即存在樣本“空洞”.

由上可知,虛擬樣本輸入的生成方式需要依據(jù)待解決問題而異,因此結(jié)合機(jī)理知識和經(jīng)驗(yàn)知識是必要的.

1.2.3 虛擬樣本輸出空間內(nèi)涵

針對樣本輸出空間而言,回歸和分類問題具有完全不同的方式,下文分別描述.

1) 回歸問題

如何為虛擬樣本輸入匹配高精度的輸出是面向回歸的VSG 需要面對的關(guān)鍵問題,其在極大程度上決定了虛擬樣本的優(yōu)劣.

目前,一般通過構(gòu)建基于小樣本的映射模型生成虛擬樣本輸出.Li 等[46]提出當(dāng)映射模型的平均絕對百分比誤差(Mean absolute percentage error,MAPE)不超過10%時(shí),其可用于生成虛擬樣本輸出.基于映射模型生成虛擬樣本輸出的流程如圖4所示.

圖4 映射模型生成虛擬樣本輸出流程圖Fig.4 Flow chart of virtual sample output generation based on mapping model

針對不同的映射模型結(jié)構(gòu),通過調(diào)整參數(shù)雖然可達(dá)到上述要求,但由于模型自身的差異性,由相同虛擬樣本輸入所映射的輸出間也存在不同.因此,為得到更佳的虛擬樣本輸出,映射模型需對數(shù)據(jù)集具有較好的適應(yīng)性.

2) 分類問題

相較于回歸問題,面向分類的虛擬樣本輸出所面臨的問題是類間不平衡,即某些類的樣本數(shù)量遠(yuǎn)少于另外一些類.

針對故障診斷模型而言,充足的訓(xùn)練樣本和完備的故障類型是需要滿足的兩個基本條件[47].受工業(yè)過程復(fù)雜性和檢測環(huán)境不穩(wěn)定性等限制,異常故障數(shù)據(jù)采集困難,某類故障甚至不可再現(xiàn)[48].圖5給出了多數(shù)正常類和少數(shù)異常類真實(shí)樣本與虛擬樣本間的關(guān)系.

圖5 面向分類問題的虛擬與真實(shí)樣本間的關(guān)系Fig.5 Relationship between virtual samples and real samples for classification problem

由圖5 可知,面向分類問題的VSG 的特點(diǎn)為:a) 數(shù)量少的類別(少數(shù)類)需要生成更多的虛擬樣本,數(shù)量多的類別(多數(shù)類)只需生成少量甚至不生成虛擬樣本;b) 少數(shù)類虛擬樣本主要生成稀疏區(qū)域以填補(bǔ)信息空缺;c) 多數(shù)類和少數(shù)類都需要在分類邊界上生成一定量的虛擬樣本.此外,因工業(yè)過程的動態(tài)變化,還可能存在不能采集到樣本的未知類,這需要機(jī)理知識與經(jīng)驗(yàn)知識支撐.

從本質(zhì)上,回歸問題和分類問題中的VSG,都很難從復(fù)雜工業(yè)過程獲得清晰機(jī)理知識和領(lǐng)域先驗(yàn)知識.從理論支撐方面而言,Niyogi 等通過數(shù)學(xué)推導(dǎo)證明了虛擬樣本等價(jià)于合并先驗(yàn)知識以作為正則化矩陣[14],但是,在期望分布、虛擬與真實(shí)樣本相似度以及混合樣本組成等方面的研究還缺乏理論支持.

1.3 面向工業(yè)過程的VSG 實(shí)現(xiàn)流程

基于小樣本建模數(shù)據(jù)的工業(yè)過程VSG 實(shí)現(xiàn)流程如圖6 所示.

圖6 面向工業(yè)過程的VSG 實(shí)現(xiàn)流程圖Fig.6 Flow chart of VSG for industrial process

如圖6 所示,步驟如下:

1) 第1 階段為過程數(shù)據(jù)預(yù)處理,包括高維數(shù)據(jù)降維、缺失數(shù)據(jù)填補(bǔ)和過程數(shù)據(jù)標(biāo)準(zhǔn)化等操作以及機(jī)理與經(jīng)驗(yàn)知識獲取.

2) 第2 階段為生成虛擬樣本輸入,對于回歸問題而言要求能夠填補(bǔ)完備域樣本空間,對于分類問題而言要求保證少數(shù)類和多數(shù)類間的平衡性.

3) 第3 階段為匹配虛擬樣本輸出,對于分類問題而言,因其類別標(biāo)簽是預(yù)設(shè)的和確定的而相對簡單.對于回歸問題而言,其輸出真值需通過映射模型進(jìn)行匹配而相對復(fù)雜.但分類問題可能需要考慮未知類.

4) 第4 階段為生成虛擬樣本質(zhì)量篩選,通過相似性度量以及建模結(jié)果誤差等準(zhǔn)則進(jìn)行篩選以保證虛擬樣本質(zhì)量.

5) 第5 階段為生成虛擬樣本數(shù)量確定,通過獲得理想的期望數(shù)量以減少計(jì)算成本和提高模型精度,目前還缺少理論支撐.

在上述流程中,第1 階段是VSG 的必要操作,第2 和3 階段是VSG 的基礎(chǔ)操作,第4 和5 階段是生成高質(zhì)量虛擬樣本的重要保障.

此外,在已有研究成果中,存在先進(jìn)行階段3再進(jìn)行階段2 的VSG 流程,如文獻(xiàn)[20]和文獻(xiàn)[49]等.這類方法相對較少,本文在后文綜述時(shí)也予以說明.

2 VSG 的研究現(xiàn)狀

本節(jié)將面向工業(yè)過程數(shù)據(jù)的VSG 研究現(xiàn)狀從樣本覆蓋區(qū)域、實(shí)現(xiàn)流程和推廣應(yīng)用共3 個方面進(jìn)行綜述,之后針對每個方向再進(jìn)行展開敘述,具體如圖7 所示.

圖7 VSG 的研究現(xiàn)狀結(jié)構(gòu)圖Fig.7 Structure diagram of VSG research status

2.1 基于樣本覆蓋區(qū)域分類的研究現(xiàn)狀

2.1.1 基于原始域樣本空間的VSG

基于原始域樣本空間的VSG 通過挖掘原始樣本間的分布關(guān)系以生成虛擬樣本,其重點(diǎn)關(guān)注的是原始域樣本空間的稀疏區(qū)域,目的是通過虛擬樣本填補(bǔ)真實(shí)樣本間的空隙.下文針對回歸和分類問題分別從特征工程和樣本工程2 個視角進(jìn)行描述.

1) 面向回歸問題的VSG

a) 特征工程

復(fù)雜工業(yè)過程的運(yùn)行指標(biāo)建模數(shù)據(jù)具有高維度特性[50-51],對應(yīng)的稀疏區(qū)域難以識別,這導(dǎo)致直接進(jìn)行VSG 存在困難.因此,先進(jìn)行特征工程是廣泛采用的解決方法.下面從特征變換、特征選擇和兩者綜合共3 個方面進(jìn)行綜述.

特征變換是指通過線性或非線性的方式將原始數(shù)據(jù)變換至新的低維或高維空間.Zhu 等[52]先采用局部線性嵌入(Locally linear embedding,LLE)算法對高維數(shù)據(jù)進(jìn)行降維,再基于隨機(jī)插值生成虛擬樣本輸入,最后通過反向傳播神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)映射模型得到虛擬樣本輸出.Zhang 等[53]基于等間隔映射 (Isometric feature mapping,Isomap) 對高維數(shù)據(jù)進(jìn)行可視化以尋找稀疏區(qū)域后采用插值法和映射模型生成虛擬樣本.文獻(xiàn)[54]采用t分布隨機(jī)鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法,在提取原始高維特征后再插值生成虛擬樣本輸入,通過隨機(jī)森林(Random forest,RF)映射模型得到虛擬樣本輸出.上述這些方法的本質(zhì)是在變換后的特征空間中獲得易生成虛擬樣本的區(qū)域,但并未考慮原始特征中可能存在的冗余和變換后特征失去的原有物理含義等問題.

相較于特征變換,特征選擇雖然會舍棄掉部分特征,但能夠保留清晰的物理含義,更適合于在輸入輸出間具有較強(qiáng)因果關(guān)系的工業(yè)過程.陳忠圣等[55]基于精對苯二甲酸生產(chǎn)過程的機(jī)理,選擇影響醋酸消耗的17 個因素作為輸入特征后采用分位數(shù)回歸條件GAN 生成虛擬樣本.該方法適用于減少特征后可清晰地獲得易生成區(qū)域的建模樣本,但也存在約簡后仍然難以分辨稀疏區(qū)域以及忽略的特征在未知工況下可能造成的未知影響等問題.

此外,現(xiàn)有研究成果中也存在串聯(lián)特征變換和特征選擇兩種方式生成虛擬樣本的策略[56],該研究根據(jù)專家經(jīng)驗(yàn)和MSWI 過程DXN 排放機(jī)理選擇輸入特征后再基于改進(jìn)大趨勢擴(kuò)散和隱含層插值生成虛擬樣本.這類方法需結(jié)合具體工業(yè)過程予以應(yīng)用,具有較強(qiáng)的定制化特性.

b) 樣本工程

樣本工程旨在直接學(xué)習(xí)原始真實(shí)樣本所表征的分布關(guān)系,基于樣本“間隙”生成虛擬樣本.根據(jù)所選用模型的不同,可分為基于函數(shù)模型插值和基于對抗模型生成兩種方式.

基于函數(shù)模型插值的VSG 是指通過某種函數(shù)表征原始真實(shí)樣本的間隙,基于該函數(shù)生成虛擬樣本輸入后再結(jié)合映射模型生成虛擬樣本輸出.典型方法包括分段線性插值、徑向基函數(shù)(Radial basis function,RBF)插值和三樣條插值(Cubic spline interpolation,CSI)等.Zhu 等[57]采用空間投影法進(jìn)行稀疏性檢測以得到原始樣本間的空隙,利用中點(diǎn)插值和RBF 映射模型生成虛擬樣本.進(jìn)一步,Chen 等[49]基于稀疏性假設(shè)和中心假設(shè)確定虛擬樣本數(shù)量,基于CSI 生成虛擬樣本輸出后再經(jīng)過輸入訓(xùn)練神經(jīng)網(wǎng)絡(luò)(Input-training neural network,ITNN) 獲得虛擬樣本輸入,結(jié)果表明可有效地提高模型性能.Sutojo 等[58]采用總線拓?fù)浣Y(jié)構(gòu),在原始樣本間連接后再在連接線上插值生成虛擬樣本的策略.

目前,在如何選取合適的用于產(chǎn)生虛擬樣本輸出的映射模型方面還不存在統(tǒng)一定論.相關(guān)研究包括: 通過隨機(jī)權(quán)神經(jīng)網(wǎng)絡(luò)(Random weight neural network,RWNN)模型學(xué)習(xí)樣本間的非線性關(guān)系后在其隱含層插值以生成虛擬樣本的策略[59],其首先在真實(shí)樣本輸出之間插值生成虛擬樣本輸出,然后在隱含層插值得到新隱含層并反向求出虛擬樣本輸入,最后組合虛擬樣本輸入和輸出;進(jìn)一步,朱寶等[60]提出在自聯(lián)想神經(jīng)網(wǎng)絡(luò)(Auto-associative neural network,AANN)的隱含層插值生成虛擬樣本以消除樣本間的噪聲;再隨后,喬俊飛等[56]提出基于等間隔插值和正則化RWNN 隱含層插值獲取虛擬樣本并刪除冗余樣本,進(jìn)而增強(qiáng)了虛擬樣本的穩(wěn)定性和互補(bǔ)性;進(jìn)一步,湯健等[61]提出基于粒子群優(yōu)化(Particle swarm optimization,PSO)算法優(yōu)化選擇上述方法所生成的虛擬樣本以降低虛擬樣本之間的冗余性;為了有效地均衡虛擬樣本數(shù)量和模型泛化性能,文獻(xiàn)[15]提出基于多目標(biāo)PSO 混合優(yōu)化的VSG,其采用RF 和RWNN 集成模型作為非線性映射模型.

近些年,深度學(xué)習(xí)在學(xué)術(shù)界發(fā)展迅速并在工業(yè)界廣泛應(yīng)用,體現(xiàn)出極強(qiáng)的處理復(fù)雜任務(wù)的能力[62].GAN 是目前深度學(xué)習(xí)中最為熱門的研究方向之一[19],其雖已廣泛應(yīng)用于圖像生成領(lǐng)域,但在工業(yè)過程VSG 中的研究才剛剛起步[63].GAN 的基本原理是:通過生成器和判別器的博弈對抗使得生成的虛擬樣本越來越接近真實(shí)樣本,生成器的目標(biāo)是生成判別器無法判別的樣本,判別器的目標(biāo)是準(zhǔn)確識別真實(shí)樣本和虛擬樣本,其結(jié)構(gòu)如圖8 所示[63].

圖8 GAN 模型的結(jié)構(gòu)Fig.8 Structure of GAN model

GAN 的目標(biāo)函數(shù)表示如下:

式中,pdata為原始小樣本的分布;pz為隨機(jī)噪聲的分布;D(x) 和G(z) 分別表示判別器和生成器的輸出.

面向回歸問題,針對基于GAN 的VSG,如何為其所生成的虛擬樣本輸入映射合理的輸出是目前的研究難題.對此,Zhu 等[20]通過計(jì)算局部異常因子(Local outlier factor,LOF)確定稀疏區(qū)域,采用K-means++算法計(jì)算簇的中心后插值生成虛擬樣本輸出,將其作為條件GAN (Conditional GAN,CGAN)的條件變量生成相應(yīng)的虛擬樣本輸入;在此基礎(chǔ)上,文獻(xiàn)[64]提出基于循環(huán)結(jié)構(gòu)CGAN (Cycle structure CGAN,CS-CGAN)的VSG,采用最近鄰距離確定離群點(diǎn)以獲得稀疏區(qū)域邊界,通過WGAN-GP 在稀疏區(qū)域生成虛擬樣本輸入,之后利用CS-CGAN 生成和選擇虛擬樣本輸出;進(jìn)一步,He 等[65]通過GAN 內(nèi)嵌分位數(shù)回歸器生成與虛擬樣本輸入相匹配的虛擬樣本輸出.上述方法均未考慮如何結(jié)合具體工業(yè)過程領(lǐng)域知識進(jìn)行區(qū)域擴(kuò)展和確定虛擬樣本數(shù)量.

2) 面向分類問題的VSG

a) 特征工程

目前,面向分類問題的VSG 多應(yīng)用于故障診斷領(lǐng)域,采用特征工程進(jìn)行處理的故障樣本大多為機(jī)械振動信號.這類VSG 的特點(diǎn)是: 先采用快速傅里葉變換(Fast Fourier transform,FFT) 將時(shí)域信號轉(zhuǎn)換至頻域再在生成模型中對特征進(jìn)行處理,如: 添加卷積層提取特征[66-67]、采用編碼器提取特征[68]以及添加自注意力模型增強(qiáng)特征[69]等.

b) 樣本工程

從函數(shù)模型插值和對抗模型生成兩個方面進(jìn)行介紹.相較于回歸問題而言,因無需考慮生成虛擬樣本輸出,已有的面向分類問題的VSG 更關(guān)注類與類之間的關(guān)系以及類間數(shù)據(jù)的平衡.

SMOTE 通過在鄰近少數(shù)類樣本間的隨機(jī)線性插值生成少數(shù)類的虛擬樣本,進(jìn)而實(shí)現(xiàn)不平衡數(shù)據(jù)集的均衡化[70],如下所示.

式中,xi為第i個少數(shù)類樣本,為xi的第j個K近鄰樣本,為生成的虛擬樣本,rand(0,1)為服從(0,1)范圍均勻分布的隨機(jī)數(shù).

SMOTE 可歸類為基于分段線性插值的VSG方法.在此基礎(chǔ)上,Mathew 等[71]提出基于加權(quán)核的SMOTE,其通過在支持向量機(jī)(Support vector machine,SVM)的特征空間中進(jìn)行插值生成虛擬樣本的方式解決算法在高IR 下的非線性可分離問題;進(jìn)一步,Maldonado 等[72]提出面向高維數(shù)據(jù)集的改進(jìn)SMOTE,通過特征排序法選擇相關(guān)特征后采用Minkowski 距離替換歐氏距離以生成高維虛擬樣本;謝樺等[73]先通過SMOTE 生成虛擬樣本,再采用決策樹算法提取有關(guān)變壓器狀態(tài)的評估知識;隨后,劉云鵬等[74]針對變壓器非正常狀態(tài)的樣本數(shù)量稀少的問題,提出基于SVM 和SMOTE 的變壓器故障診斷方法,其核心理念是在支持向量近似的分類邊界上采用最近鄰決策機(jī)制生成虛擬樣本輸入;Soltanzadeh 等[75]針對噪聲樣本偏移和邊界樣本重疊等問題,提出可以識別類類邊界和控制生成范圍的SMOTE.

針對多類數(shù)據(jù)混雜問題,文獻(xiàn)[76]提出采用組發(fā)現(xiàn)技術(shù)對原始樣本進(jìn)行預(yù)分類以生成指定類的虛擬樣本,其過程為: 先任選樣本點(diǎn)P1,將與P1同類和不同類樣本點(diǎn)間的最小距離記為R1;接著再以P1為球心和R1為半徑構(gòu)建超球體;之后進(jìn)行判斷,若在超球體內(nèi)存在與P1同類的樣本P2,則P1和P2為同組;最后,以P2為球心重復(fù)上述操作,直至超球體不包含新的同類樣本,進(jìn)而完成預(yù)分類.隨后,文獻(xiàn)[77]在組發(fā)現(xiàn)技術(shù)的基礎(chǔ)上采用純化過程剔除相近的非同類樣本以保證分組的準(zhǔn)確性,之后再通過構(gòu)造超球以生成虛擬樣本輸入,實(shí)驗(yàn)表明該策略能夠有效地提高接地網(wǎng)絡(luò)的故障識別率.

由于面向分類問題的虛擬樣本輸出為類別標(biāo)簽,故其可作為已掌握的條件信息控制生成模型以獲得指定類型的虛擬樣本.例如,文獻(xiàn)[78]將少數(shù)類的標(biāo)簽作為條件信息輸入CGAN,結(jié)構(gòu)如圖9 所示.

圖9 基于CGAN 的VSG 模型結(jié)構(gòu)Fig.9 VSG model structure based on CGAN

在圖9 中,隨機(jī)噪聲z和類別標(biāo)簽c共同注入生成器G,其中c作為條件信息控制G生成對應(yīng)的虛擬樣本輸入G(z|c);將真實(shí)樣本輸入x和虛擬樣本輸入G(z|c) 注入判別器D后根據(jù)判別結(jié)果更新D和G.

基于上述模型結(jié)構(gòu),黃南天等[79]構(gòu)建基于輔助分類器GAN (Auxiliary classifier GAN,ACGAN)的風(fēng)機(jī)主軸承故障診斷模型,提出通過添加Dropout層防止過擬合以減少重復(fù)樣本生成的策略;Li 等[80]采用具有梯度懲罰的輔助分類Wasserstein GAN(Auxiliary classier Wasserstein GAN with gradient penalty,ACWGAN-GP)生成具有高質(zhì)量的少數(shù)類虛擬樣本以提高模型準(zhǔn)確率;Dixit 等[81]提出采用模型無關(guān)元學(xué)習(xí)(Model agnostic meta learning,MAML)算法替換常規(guī)的隨機(jī)梯度下降算法進(jìn)而初始化和更新網(wǎng)絡(luò)參數(shù)的條件輔助分類GAN,提高了生成模型的穩(wěn)定性;Yang 等[82]采用基于GAN的VSG 解決諧波傳動故障數(shù)據(jù)不平衡問題后利用多尺度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)進(jìn)行故障診斷;Wang 等[67]采用深度卷積生成對抗網(wǎng)絡(luò)(Deep convolutional GAN,DCGAN)生成虛擬樣本平衡訓(xùn)練集后通過K-means聚類算法構(gòu)建改進(jìn)CNN 診斷模型;Zareapoor 等[83]提出采用判別器既判斷樣本真假又充當(dāng)分類器和故障檢測器的少數(shù)類過采樣GAN (Minority oversampling GAN,MoGAN) 策略,有效地提高了虛擬故障樣本的質(zhì)量;之后,Li 等[84]和Li 等[85]對WGAN進(jìn)行改進(jìn)以穩(wěn)定生成的故障樣本質(zhì)量;李東東等[86]基于貝葉斯優(yōu)化策略自適應(yīng)調(diào)節(jié)GAN 的判別器參數(shù)和采用Wasserstein 距離作為損失函數(shù)提高模型的泛化性能,結(jié)果表明其能夠有效提高虛擬樣本的質(zhì)量;此外,也有研究人員組合多個GAN 進(jìn)行VSG后,再通過篩選提高虛擬樣本的質(zhì)量[82].在上述研究中,僅是考慮了依據(jù)已知的類別生成虛擬樣本輸入,但如何面對動態(tài)環(huán)境下的未知類別進(jìn)行VSG 還有待于研究.

GAN 的本質(zhì)是基于博弈對抗的訓(xùn)練框架,其能夠訓(xùn)練任意類型的生成模型.自編碼器(Autoencoder,AE)作為一種非線性無監(jiān)督神經(jīng)網(wǎng)絡(luò)[87],通過非線性變換將輸入數(shù)據(jù)投影至潛在特征空間中.變分AE (Variational AE,VAE)是以AE 結(jié)構(gòu)為基礎(chǔ)的深度生成模型[88].將編碼器與GAN 進(jìn)行組合可得到基于編碼器的GAN,其在VSG 領(lǐng)域的研究成果包括: 戴俊等[89]將AE 的解碼器嵌入至GAN中作為生成器,并通過編碼-解碼-編碼過程后的特征差異判斷是否存在異常;Wang 等[68]建立基于條件變分自編碼器GAN (Conditional VAE GAN,CVAE-GAN)的不平衡故障診斷模型,通過CVAE獲取故障樣本分布作為生成器輸入,利用博弈對抗機(jī)制對生成器、判別器和分類器的參數(shù)進(jìn)行優(yōu)化;Liu 等[90]將編碼器合并到GAN 中,通過學(xué)習(xí)真實(shí)數(shù)據(jù)的深度特征以提高數(shù)據(jù)生成質(zhì)量,通過深度遺憾分析算法對判別器施加梯度懲罰以避免模式崩潰,實(shí)驗(yàn)表明具有較好的魯棒性;Wang 等[91]設(shè)計(jì)具有傳輸層的改進(jìn)型AE 以消除數(shù)據(jù)噪聲,采用暹羅編碼器結(jié)構(gòu)計(jì)算潛在特征之間的殘差,引入最小二乘GAN (Least squares GAN,LSGAN)學(xué)習(xí)健康數(shù)據(jù)分布以生成虛擬樣本,結(jié)果表明可提前檢測潛在異常;Liu 等[92]將自調(diào)制嵌入到GAN 的生成器中,使其能夠同時(shí)依靠輸入和判別器反饋進(jìn)行參數(shù)更新;Rathore 等[93]提出結(jié)合堆疊AE 和WGAN的VSG 策略,提高了虛擬樣本的質(zhì)量.可見,如何獲得具有可解釋性的GAN 還有待深入研究,例如基于模糊或決策樹算法.此外,面向回歸問題的基于編碼器的GAN 還有待進(jìn)一步研究.

2.1.2 基于擴(kuò)展域樣本空間的VSG

理論上,由真實(shí)小樣本組成的原始域樣本空間是完備(期望)域樣本空間的子集[44],其蘊(yùn)含信息有限.從實(shí)際工業(yè)過程視角,所采集的真實(shí)小樣本多源自于某種平穩(wěn)工況,但完備域樣本空間需要同時(shí)覆蓋平穩(wěn)與非平穩(wěn)工況.因此,研究人員開始關(guān)注在原始域樣本空間(易獲取數(shù)據(jù))上進(jìn)行擴(kuò)展以得到擴(kuò)展域樣本空間(難獲取數(shù)據(jù)),并在其上生成虛擬樣本,進(jìn)而能夠接近完備域樣本空間[15].理論上,擴(kuò)展域可分為可擴(kuò)展域和未知域,后者無數(shù)據(jù)可用,即不存在真值或是未知類別.針對工業(yè)過程的多輸入單輸出回歸和分類問題,面向VSG 的原始域、可擴(kuò)展域和未知域的示意圖如圖10 所示.

圖10 面向VSG 的原始域、可擴(kuò)展域和未知域的示意圖Fig.10 Schematic diagram of original,extension,and unknown domain for VSG

筆者將基于擴(kuò)展域樣本空間的VSG 分為面向集合理論、面向分布假設(shè)和基于知識共3 類,從回歸和分類2 個方面進(jìn)行綜述.

1) 面向回歸問題的VSG

a) 集合理論

工業(yè)過程的真實(shí)小樣本攜帶的有限信息導(dǎo)致進(jìn)行VSG 存在不可避免的不確定性.模糊集理論是處理具有隨機(jī)和不確定特性數(shù)據(jù)的有效手段.鑒于此,Huang[94]提出通過模糊數(shù)學(xué)進(jìn)行樣本集值化的處理方法,即信息擴(kuò)散,其原理為: 通過三角、正態(tài)以及梯形等隸屬度函數(shù)確定樣本所蘊(yùn)含信息的擴(kuò)散范圍.在此基礎(chǔ)上,Huang 等[95]將正態(tài)擴(kuò)散函數(shù)與神經(jīng)網(wǎng)絡(luò)相結(jié)合提出擴(kuò)散神經(jīng)網(wǎng)絡(luò)(Diffusion neural network,DNN),但該方法僅適用于特征間的相關(guān)系數(shù)大于0.9 的情況.隨后,Li 等[96]在DNN的基礎(chǔ)上提出大趨勢擴(kuò)散(Mega-trend-diffusion,MTD)技術(shù),如圖11 所示.

圖11 大趨勢擴(kuò)散技術(shù)Fig.11 Mega-trend-diffusion technology

在圖11 中,m和n表示2 個給定數(shù)據(jù),b和a表示擴(kuò)散函數(shù)的上界和下界,uset表示樣本變量取值的中心.

由上可知,MTD 假設(shè)特征變量間相互獨(dú)立和能夠不對稱地?cái)U(kuò)展特征范圍,進(jìn)而能夠在可擴(kuò)展域上基于采樣方式生成虛擬樣本;進(jìn)一步,Lin 等[97]提出廣義趨勢擴(kuò)散(Generalized-trend-diffusion,GTD)技術(shù),即通過計(jì)算連續(xù)數(shù)據(jù)之間的趨勢以獲得序列數(shù)據(jù)的時(shí)間依賴性,并采用所生成的虛擬樣本解決柔性制造系統(tǒng)調(diào)度建模問題.此外,Li 等[98]通過集成MTD 和樹模型提出基于樹結(jié)構(gòu)趨勢擴(kuò)散(Tree structure based trend diffusion,TTD)的VSG,在多層陶瓷電容的介電系數(shù)預(yù)測實(shí)驗(yàn)中驗(yàn)證了其有效性.Rahimi 等[99]提出基于神經(jīng)網(wǎng)絡(luò)的MTD,采用生成的虛擬樣本構(gòu)建聚合物CO2預(yù)測模型.朱寶等[100]提出采用三角分布和均勻分布共同表征小樣本特性的多分布MTD (Multi-distribution MTD,MD-MTD)技術(shù),如圖12 所示.

圖12 MD-MTD 示意圖Fig.12 Schematic figure of multi-distribution MTD

在圖12 中,MD-MTD 采用三角分布在原始域樣本空間表示真實(shí)小樣本的分布情況,采用均勻分布在可擴(kuò)展域樣本空間生成虛擬樣本.

Sivakumar 等[101]提出基于K近鄰(K-nearest neighbor,KNN)的MTD,其通過原始樣本的KNN計(jì)算擴(kuò)展范圍以確保虛擬樣本的合理分布.Khamis 等[102]提出基于K-means 的改進(jìn)MTD,主要創(chuàng)新在于解決隸屬度函數(shù)構(gòu)建過程中的屬性冗余問題.此外,也有研究人員采用組合多種信息擴(kuò)散技術(shù)的策略生成混合虛擬樣本,如: 高克鉉等[103]提出改進(jìn)型MTD (Advanced MTD,AD-MTD),結(jié)合文獻(xiàn)[100] 所提出的MD-MTD 獲得混合整體MTD (Hybrid-MTD),充分利用各自優(yōu)勢.研究人員也提出結(jié)合MTD 與其他插值方式的策略,如喬俊飛等[56]同時(shí)采用了MTD 和隱含層插值.

與直接在可擴(kuò)展域樣本空間內(nèi)以采樣的方式獲取虛擬樣本不同,Li 等[46]在采用MTD 確定擴(kuò)散范圍后,先基于遺傳算法(Genetic algorithm,GA)生成虛擬樣本輸入,再通過基于可行性的規(guī)劃(Feasibility-based programming,FBP)模型生成虛擬樣本輸出;Chen 等[104]先提出基于三角隸屬度的信息擴(kuò)散(Information-expanded based on triangular membership,TMIE)技術(shù),再在確定的范圍后采用PSO 算法獲得虛擬樣本輸入,最后通過RWNN得到虛擬樣本輸出.此外,針對不同VSG 所產(chǎn)生虛擬樣本間存在的冗余性與互補(bǔ)性,湯健等[61]采用PSO 算法對基于領(lǐng)域?qū)<抑R和MTD 生成的虛擬樣本進(jìn)行優(yōu)化選擇.

粗糙集理論是由Pawlak 提出的處理具有模糊、不一致和不確定等特性數(shù)據(jù)的數(shù)學(xué)理論[105],其核心思想是從近似空間導(dǎo)出上近似算子和下近似算子(又稱上、下近似集),將知識空間劃分為上近似域、下近似域和邊界域,其中: 上近似域是由知識空間內(nèi)與某一概念有非空交集的知識粒的并集構(gòu)成的集合,下近似域是由知識空間內(nèi)包含某一概念的知識粒的并集構(gòu)成的集合.目前,粗糙集理論已廣泛應(yīng)用于工業(yè)制造[106]、廢水處理[107]以及優(yōu)化控制[108]等領(lǐng)域,但將粗糙集理論直接應(yīng)用于回歸VSG 的研究還未見報(bào)道.

b) 分布假設(shè)

高斯分布是工業(yè)過程數(shù)據(jù)最為符合的假定分布.文獻(xiàn)[109]通過劃分區(qū)間提出改善核密度估計(jì)(Improved kernel density estimation,IKDE)并生成虛擬樣本以解決制造系統(tǒng)早期階段樣本少的問題;隨后,文獻(xiàn)[110]將IKDE 擴(kuò)展為通用模型,應(yīng)用于具有時(shí)間依賴性的小樣本建模問題并生成虛擬樣本.Li 等[111]采用小型約翰變換方法(Small Johnson data transformation,SJDT) 使得小樣本數(shù)據(jù)趨近正態(tài)分布,進(jìn)而生成虛擬樣本.但是,實(shí)際工業(yè)過程數(shù)據(jù)的期望分布不但未知且在小樣本情況下也難以確定.

相較于高斯分布,威布爾(Weibull)分布在工業(yè)制造、可靠性分析等領(lǐng)域的應(yīng)用更為廣泛.Li 等[112]針對產(chǎn)品壽命性能評估樣本數(shù)量少的問題,基于雙參數(shù)Weibull 分布選擇最大p值(Maximalpvalue,MPV)的反直覺假設(shè)檢驗(yàn)方法近似估計(jì)非線性和非對稱的小樣本分布,并采用從分布中隨機(jī)采樣的策略生成虛擬樣本,但其實(shí)用性有待驗(yàn)證;接著,Li 等[113]為解決TFT-LCD 制作領(lǐng)域中的多模態(tài)小樣本問題,先用赤池信息準(zhǔn)則(Akaike information criterion,AIC)的改進(jìn)版AICc (Corrected version of the AIC)對聚類結(jié)果進(jìn)行評價(jià),再通過MPV 計(jì)算多峰分布的參數(shù)以確定虛擬樣本數(shù)量,最后生成虛擬樣本,但其適用性有待評估.

c) 基于知識

面向回歸問題,針對如圖10 所示的可擴(kuò)展域和未知域,可能存在不合理的虛擬樣本和無法生成的虛擬樣本;此時(shí),需要借助工業(yè)過程自身機(jī)理知識和其他相似過程的經(jīng)驗(yàn)知識予以輔助.

目前,已有的基于領(lǐng)域知識的研究僅見于文獻(xiàn)[15],其依據(jù)MSWI 過程DXN 值的下限范圍進(jìn)行可擴(kuò)展域真值的修訂.如何借助工業(yè)過程的機(jī)理知識輔助回歸問題VSG 的研究還未見報(bào)道.

2) 面向分類問題的VSG

a) 集合理論

文獻(xiàn)[114]采用基于模糊的信息分解(Fuzzybased information decomposition,FID) 為少數(shù)類生成虛擬樣本以平衡訓(xùn)練數(shù)據(jù)并對缺失值進(jìn)行填充.Ramentol 等[115]基于SMOTE 和粗糙集理論生成虛擬樣本以處理不平衡數(shù)據(jù)集;在此基礎(chǔ)上,胡峰等[116]提出基于三支決策的不平衡數(shù)據(jù)過采樣策略,首先依據(jù)樣本總體分布定義正域、邊界域和負(fù)域后,再在邊界域和負(fù)域生成虛擬樣本,結(jié)果表明可有效地解決不平衡數(shù)據(jù)的二分類問題,但如何解決多分類問題仍有待研究.由上可知,基于集合理論面向分類問題VSG 的研究還有待深入.

b) 分布假設(shè)

Yang 等[43]在假設(shè)過程數(shù)據(jù)符合高斯分布的基礎(chǔ)上,在計(jì)算其均值和標(biāo)準(zhǔn)差后采樣生成虛擬樣本,實(shí)驗(yàn)表明采用適當(dāng)數(shù)量的虛擬樣本能夠提高分類器泛化性能,但如何確定數(shù)量未予以考慮;進(jìn)一步,Shen等[117]在采用最大期望算法計(jì)算高斯模型的參數(shù)和采用AIC 與貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)自適應(yīng)確定模型高斯分量的最佳數(shù)量后,通過采樣獲得虛擬樣本.文獻(xiàn)[118]采用SVM 的狀態(tài)函數(shù)近似樣本分布并通過采樣輸出虛擬樣本.文獻(xiàn)[119] 采用K均值聚類法檢測多模態(tài)Weibull 分布,利用真實(shí)和虛擬樣本間Weibull 偏度的誤差變化作為虛擬樣本數(shù)量的評估標(biāo)準(zhǔn).

c) 基于知識

面向分類問題,在實(shí)際過程中存在無目標(biāo)類別的樣本用于模型訓(xùn)練的情況,即零樣本問題,例如:故障診斷領(lǐng)域存在特殊故障的樣本無法獲得的問題.筆者認(rèn)為,類似于回歸問題,向生成過程添加機(jī)理或經(jīng)驗(yàn)知識是解決VSG 中未知領(lǐng)域零樣本問題的有效手段.

實(shí)際工業(yè)過程中,領(lǐng)域?qū)<医柚趯?fù)雜機(jī)理的認(rèn)知,再輔以長期的工作實(shí)踐和經(jīng)驗(yàn)積累,對已經(jīng)出現(xiàn)的或可能出現(xiàn)的各種異常故障形成了相應(yīng)的知識體系[120-121].研究表明,將專家知識轉(zhuǎn)換為屬性、文本/語義、知識圖譜、規(guī)則以及本體等融入到模型訓(xùn)練中,可有效提高模型的泛化性和可解釋性[122].對此,Link 等[121]采用基于專家知識定義的由故障位置、影響和原因等屬性組成的故障描述確定故障類型,相關(guān)的屬性知識可從其他易獲取的故障中預(yù)先學(xué)習(xí)和遷移,故無需額外的訓(xùn)練數(shù)據(jù).但這種方法并無虛擬樣本產(chǎn)生.Zhuo 等[123]提出基于故障屬性GAN (Fault attributes GAN,FAGAN)的任意樣本學(xué)習(xí)策略,本質(zhì)上是將專家知識定義的故障屬性作為輔助信息使得生成樣本更接近真實(shí)樣本,實(shí)現(xiàn)對未知故障的診斷.

相較于領(lǐng)域?qū)<抑苯犹峁┑膶<抑R,模型知識是通過對模型的學(xué)習(xí)和推導(dǎo)所提取出的隱含知識[124].Yao 等[125]提出結(jié)合聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)的缺失數(shù)據(jù)填充策略,目的是使不同邊緣設(shè)備上的模型能夠互相傳遞和利用所學(xué)習(xí)到的知識,從而提高數(shù)據(jù)填充的準(zhǔn)確性.Feng 等[126]提出基于多頭語義表示和層次對齊技術(shù)的語義細(xì)化WGAN (Semantic refinement WGAN,SRWGAN),其通過細(xì)化粗粒度語義描述消除類別之間的偏差,進(jìn)而提高特征生成和知識轉(zhuǎn)移的效果.目前暫無基于模型知識驅(qū)動的工業(yè)過程VSG 成果報(bào)道.

如何獲得相關(guān)領(lǐng)域的專家知識和如何利用數(shù)值仿真模型提取符合工業(yè)過程的知識,是未來支撐知識驅(qū)動VSG 和解決未知域故障診斷的重要研究方向.

綜上可知,基于模糊集理論VSG 的成果較為豐富,特點(diǎn)是: 面向回歸問題的研究多于分類問題,面向虛擬樣本輸入空間的研究多于輸出空間.此外,目前的信息擴(kuò)散技術(shù)缺少工業(yè)過程機(jī)理知識的支撐.相較于模糊集理論,粗糙集理論在VSG 領(lǐng)域的研究較少,所提知識空間的3 個域并未給出相應(yīng)的域擴(kuò)展計(jì)算方法,這將是未來基于粗糙集理論VSG的研究方向之一.此外,如何基于知識確定符合復(fù)雜工業(yè)過程的分布類型及相關(guān)參數(shù)是基于分布假設(shè)VSG 的未來重要研究方向.基于知識的VSG 還處于輔助階段,相對而言在分類問題上更易研究.

2.2 基于VSG 實(shí)現(xiàn)流程分類的研究現(xiàn)狀

2.2.1 面向回歸問題的VSG 實(shí)現(xiàn)流程

1) 過程數(shù)據(jù)預(yù)處理階段

對過程數(shù)據(jù)進(jìn)行預(yù)處理的目的是使得原始域樣本空間的稀疏區(qū)域易于發(fā)現(xiàn)以降低VSG 的難度.首先進(jìn)行對數(shù)據(jù)缺失值的處理,如: 文獻(xiàn)[15]和[61]對MSWI 過程DXN 數(shù)據(jù)中的缺失值進(jìn)行刪減和人工填充,文獻(xiàn)[64]和[127]對化工過程數(shù)據(jù)的異常和缺失值進(jìn)行識別和去除,文獻(xiàn)[125]利用聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)進(jìn)行缺失值填充.然后,采用特征工程進(jìn)行數(shù)據(jù)處理,如: 文獻(xiàn)[52]和[53]采用LLE和Isomap 從高維數(shù)據(jù)中提取2 維特征,文獻(xiàn)[54]采用t-SNE 提取3 維特征,文獻(xiàn)[59]和[128]基于化工機(jī)理選擇與運(yùn)行指標(biāo)相關(guān)的特征,文獻(xiàn)[61]基于專家經(jīng)驗(yàn)選擇與DXN 排放濃度相關(guān)的特征.最后,進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,目的是消除不同特征上差異化數(shù)量級所造成的影響.

2) 虛擬樣本輸入生成階段

針對原始域樣本空間而言,通常是先采用某種方法識別原始域樣本空間的稀疏區(qū)域后再采用各種策略生成虛擬樣本輸入,如: 文獻(xiàn)[127]采用歐氏距離識別稀疏區(qū)域后采用插值策略,文獻(xiàn)[57]通過對投影點(diǎn)的最大間距進(jìn)行稀疏檢測后采用中點(diǎn)插值;文獻(xiàn)[52-54]提取過程數(shù)據(jù)特征后通過可視化樣本分布確定稀疏區(qū)域.針對不同區(qū)域,文獻(xiàn)[49]提出稀疏假設(shè)和集中假設(shè),指出相較于在密集區(qū)域生成虛擬樣本而言,在稀疏區(qū)域生成虛擬樣本更有必要,但這需要權(quán)衡兩個區(qū)域所生成的虛擬樣本數(shù)量.此外,文獻(xiàn)[64]和[65]通過WGAN-GP 和CWGAN學(xué)習(xí)原始樣本分布后生成虛擬樣本輸入.

針對擴(kuò)展域樣本空間而言,采用信息擴(kuò)散和分布假設(shè)等方法先確定可擴(kuò)展區(qū)域后再生成虛擬樣本輸入,如: 文獻(xiàn)[96]采用基于三角隸屬度函數(shù)的MTD獲得擴(kuò)展范圍后采用基于插值的生成策略;文獻(xiàn)[104]采用基于非對稱三角隸屬度函數(shù)的信息擴(kuò)散技術(shù)獲得擴(kuò)展域范圍,通過PSO 在該范圍內(nèi)生成虛擬樣本輸入;文獻(xiàn)[129]采用流形子空間對原始域真實(shí)樣本進(jìn)行分組并基于MTD 確定擴(kuò)展范圍,根據(jù)兩者構(gòu)建超球體方程后在球面和球內(nèi)通過采樣生成虛擬樣本輸入.

3) 虛擬樣本輸出生成階段

通常采用原始域的真實(shí)小樣本訓(xùn)練的映射模型為虛擬樣本輸入匹配輸出,常用的映射模型包括RWNN[59,104,129]、BPNN[52]、RF[54]和RBF[57]等.面向GAN 策略,文獻(xiàn)[64]基于CS-CGAN 和一致性檢驗(yàn)為WGAN-GP 所生成的虛擬樣本輸入匹配輸出;文獻(xiàn)[65] 將基于深度神經(jīng)網(wǎng)絡(luò)的回歸器與生成器以及判別器共同訓(xùn)練以生成虛擬樣本輸出;文獻(xiàn)[55] 采用分位數(shù)回歸網(wǎng)絡(luò),在一定置信度下為CGAN 生成合適的虛擬樣本輸出,進(jìn)而減少生成器和判別器的訓(xùn)練難度.

4) 虛擬樣本質(zhì)量篩選階段

常見的虛擬樣本質(zhì)量篩選方法如下:

a) 相似性度量: Kullback-Leibler (KL)散度[55]和Wasserstein 距離[64]等方法因不能同時(shí)考慮輸入和輸出之間的關(guān)系而只能用于虛擬樣本輸入的度量,不能直接用作回歸問題中輸入/輸出虛擬樣本對的篩選標(biāo)準(zhǔn);

b) 優(yōu)化算法: 文獻(xiàn)[61]采用PSO 算法對虛擬樣本進(jìn)行優(yōu)化選擇以提高樣本質(zhì)量;

c) 模型誤差: 文獻(xiàn)[46]指出合格虛擬樣本構(gòu)建模型的相對誤差應(yīng)小于10%.其他的相關(guān)研究包括:文獻(xiàn)[130]基于隸屬度函數(shù)值的似然評估機(jī)制進(jìn)行篩選,文獻(xiàn)[49]基于領(lǐng)域?qū)<遗袛嗵摂M樣本的合理性等.綜上,筆者認(rèn)為,針對輸入/輸出虛擬樣本對的篩選準(zhǔn)則的研究還有待深入,并且需要結(jié)合質(zhì)量判別準(zhǔn)則進(jìn)行優(yōu)化選擇.

5) 虛擬樣本數(shù)量確定階段

常用確定虛擬樣本數(shù)量的方式是憑借經(jīng)驗(yàn)或者依據(jù)逐批添加虛擬樣本至真實(shí)小樣本后所構(gòu)建不同模型的泛化誤差.

在此基礎(chǔ)上,文獻(xiàn)[131]根據(jù)真實(shí)小樣本的方差上限,提出先采用信息熵理論確定虛擬樣本數(shù)量再建立最優(yōu)虛擬樣本生成數(shù)量的概率模型的2 步策略.具體的,確定虛擬樣本數(shù)量的公式如下:

式中,σ0為真實(shí)樣本的標(biāo)準(zhǔn)方差;n1為原始樣本的數(shù)量.面向噪聲0.95 置信水平的最優(yōu)虛擬樣本概率模型的公式如下:

式中,μ0為真實(shí)小樣本的均值,C0為虛擬樣本產(chǎn)生的總噪聲.文獻(xiàn)[49]根據(jù)其所提的稀疏假設(shè)和集中假設(shè),給出如下的虛擬樣本數(shù)量確定公式:

式中,n為訓(xùn)練樣本數(shù)量;nv為添加虛擬樣本數(shù)量.

6) 特殊階段

目前,已有研究學(xué)者提出,先生成虛擬樣本輸出再匹配生成虛擬樣本輸入的“反向” VSG 策略,如: 文獻(xiàn)[20]利用LOF 獲得原始樣本輸出的稀疏區(qū)域并通過K-means++獲得中心點(diǎn),利用中點(diǎn)插值生成虛擬樣本輸出后將其作為CGAN 的條件信息以生成虛擬樣本輸入;文獻(xiàn)[49] 在獲得原始樣本輸出的密集和稀疏區(qū)域并利用三樣條插值生成虛擬樣本輸出后,基于ITNN 生成虛擬樣本輸入.

綜上可知,采用不同策略的VSG 具有差異化的特性.如何面向特定應(yīng)用領(lǐng)域進(jìn)行選擇和改進(jìn)是應(yīng)用時(shí)需關(guān)注的問題.

2.2.2 面向分類問題的VSG 實(shí)現(xiàn)流程

針對不存在未知類的分類問題而言,VSG 將類別信息直接作為先驗(yàn)用于虛擬樣本輸入的生成.因此,本節(jié)將從過程數(shù)據(jù)預(yù)處理、虛擬樣本輸入生成、虛擬樣本質(zhì)量篩選和虛擬樣本數(shù)量確定等階段進(jìn)行綜述.

1) 過程數(shù)據(jù)預(yù)處理

由于采用VSG 技術(shù)的故障數(shù)據(jù)多為機(jī)械信號,常用方法是采用FFT 將時(shí)域數(shù)據(jù)轉(zhuǎn)換為頻域數(shù)據(jù).也有學(xué)者將一維時(shí)域信號轉(zhuǎn)換為二維圖像后進(jìn)行處理,如: 文獻(xiàn)[85]和[132]將振動信號切為若干片段,依次歸一化并取整后轉(zhuǎn)換為灰度圖進(jìn)行VSG.研究學(xué)者提出根據(jù)計(jì)算機(jī)視覺領(lǐng)域的數(shù)據(jù)增強(qiáng)策略對機(jī)械信號進(jìn)行處理以緩解生成模型過擬合現(xiàn)象的策略,如: 文獻(xiàn)[133]采用重疊分割、旋轉(zhuǎn)和抖動的數(shù)據(jù)增強(qiáng)策略對故障樣本進(jìn)行處理,文獻(xiàn)[92]對故障樣本進(jìn)行平移和縮放處理等.

2) 虛擬樣本輸入生成

SMOTE 作為針對少數(shù)類樣本進(jìn)行隨機(jī)線性插值的VSG 技術(shù),已廣泛應(yīng)用于解決類不平衡問題,如: 文獻(xiàn)[115]結(jié)合粗糙集理論生成少數(shù)類虛擬樣本,文獻(xiàn)[73]對電力變壓器非正常狀態(tài)的樣本進(jìn)行補(bǔ)充,文獻(xiàn)[74]在支持向量近似的分類邊界生成非正常狀態(tài)的虛擬樣本,文獻(xiàn)[72]采用Minkowski 距離代替?zhèn)鹘y(tǒng)SMOTE 中的歐氏距離,文獻(xiàn)[75]通過控制生成范圍減少重疊樣本等.

隨著深度學(xué)習(xí)的發(fā)展和GAN 的提出,對抗模型已成為面向分類問題VSG 的研究熱點(diǎn).為保證訓(xùn)練過程的穩(wěn)定性和虛擬樣本的質(zhì)量,目前研究主要集中在改進(jìn)損失函數(shù)和模型結(jié)構(gòu).改進(jìn)損失函數(shù)的研究成果包括: 采用Wasserstein 距離替換傳統(tǒng)交叉熵?fù)p失函數(shù)的WGAN[84],在WGAN 損失函數(shù)的基礎(chǔ)上增加梯度懲罰項(xiàng)的WGAN-GP[85],采用Pull-away 損失函數(shù)的改進(jìn)GAN[69]等.改進(jìn)模型結(jié)構(gòu)的成果包括: 文獻(xiàn)[79] 在ACGAN 中添加Dropout 層以緩解虛擬樣本生成過程中的模式崩潰問題,文獻(xiàn)[68]采用CVAE 取代ACGAN 的生成器,文獻(xiàn)[90]采用VAE 作為GAN 的生成器并將遺憾算法用于判別器,文獻(xiàn)[83]采用包含具有真假判斷、故障診斷和故障分類3 種功能的判別器,文獻(xiàn)[92]采用CVAE 作為WGAN 的生成器并通過自調(diào)制算法進(jìn)行更新以提高模型穩(wěn)定性,文獻(xiàn)[19]采用并行GAN 生成虛擬樣本等.上述這些研究,在如何擴(kuò)展虛擬樣本輸入的邊界方面的研究較少,原因在于分類問題在輸出空間上相對于回歸問題的特殊性.

此外,受限于原始域樣本空間所蘊(yùn)含的機(jī)理知識匱乏的問題,部分學(xué)者采用遷移學(xué)習(xí)從相似領(lǐng)域中提取知識用以輔助生成虛擬樣本.基于樣本進(jìn)行遷移的研究包括: Zhang 等[134]提出結(jié)合SMOTE和遷移學(xué)習(xí)的VSG 以處理不平衡數(shù)據(jù),采用源域樣本和目標(biāo)域原始樣本加權(quán)的方式生成虛擬樣本,結(jié)果表明能夠有效提高分類器的準(zhǔn)確性;Liu 等[135]采用自適應(yīng)混合方法生成虛擬樣本,包括基于遷移學(xué)習(xí)策略保證生成樣本的數(shù)量與多樣性和通過進(jìn)化算法提高故障診斷精度;賈欣等[136]提出將多數(shù)類樣本遷移為少數(shù)類邊界樣本的均衡方案,這有利于學(xué)習(xí)類別決策邊界.從模型角度進(jìn)行遷移以生成虛擬樣本的研究包括: 廖一帆等[137]通過Fine-tuning 方法將由臨界和非臨界樣本所訓(xùn)練的預(yù)測模型嵌入WGAN 中以輔助生成非臨界樣本;蘭健等[138]通過GAN 學(xué)習(xí)電力系統(tǒng)各種運(yùn)行方式的共性特征,之后基于微調(diào)得到高性能的典型運(yùn)行方式生成模型,為運(yùn)行方式的分析提供支撐.由上可知,目前遷移學(xué)習(xí)已經(jīng)成為VSG 的研究熱點(diǎn)之一,但遷移后的可靠性方面還有待驗(yàn)證.

3) 虛擬樣本質(zhì)量篩選

目前通常采用組合多種評價(jià)指標(biāo)的方式對虛擬樣本質(zhì)量進(jìn)行評估,如表1 所示.

表1 面向分類問題的虛擬樣本評價(jià)指標(biāo)Table 1 Virtual sample evaluation index for classification problem

由表1 可知,用于分類問題VSG 的評價(jià)指標(biāo)包括: Wasserstein 距離、歐氏距離、馬氏距離、KL散度、F-score、Kappa 系數(shù)、皮爾遜相關(guān)系數(shù)、判別概率、最大均值差異和GAN 測試值等,這表明目前還不存在統(tǒng)一標(biāo)準(zhǔn),相關(guān)的理論支撐也未見報(bào)道.相對而言,文獻(xiàn)[82]和[69]給出了評價(jià)指標(biāo)的具體閾值并據(jù)此進(jìn)行樣本篩選.

4) 虛擬樣本數(shù)量確定

面向分類問題(以存在A 和B 兩類為例,其中A 類數(shù)量遠(yuǎn)大于B 類數(shù)量),VSG 的目的是: 通過生成B 類虛擬樣本降低數(shù)據(jù)集的不平衡比IR 直至其值為1,即實(shí)現(xiàn)從上述視角,虛擬樣本的理想數(shù)量即為A (多數(shù))類和B (少數(shù))類樣本的數(shù)量之差,可表示為:

其中,Nvir為虛擬樣本的數(shù)量,分別為A (多數(shù))類和B (少數(shù))類樣本的數(shù)量.

文獻(xiàn)[140]指出,生成虛擬樣本并不需要完全地消除少數(shù)類與多數(shù)類之間的數(shù)量差距,可通過類別之間的分類復(fù)雜度Hclass確定最終所需虛擬樣本數(shù)量,如下:

綜上所述,面向工業(yè)過程的VSG 需要根據(jù)具體任務(wù)和實(shí)際數(shù)據(jù)的特性設(shè)計(jì)相應(yīng)的VSG 流程和采用適合的策略.

2.3 基于VSG 推廣應(yīng)用分類的研究現(xiàn)狀

本文依據(jù)當(dāng)前工業(yè)過程中VSG 的研究現(xiàn)狀,從回歸和分類兩類問題對VSG 的推廣應(yīng)用情況進(jìn)行綜述.

2.3.1 面向回歸問題的VSG 應(yīng)用

目前VSG 主要應(yīng)用于石油化工、固廢焚燒、工業(yè)制造和礦業(yè)冶金等領(lǐng)域,其統(tǒng)計(jì)結(jié)果如圖13 所示.

圖13 面向回歸建模問題的VSG 應(yīng)用統(tǒng)計(jì)結(jié)果Fig.13 VSG application statistical results for regression modeling problem

如圖13 所示,VSG 在工業(yè)制造和石油化工領(lǐng)域應(yīng)用和發(fā)展時(shí)間較長,而在固廢焚燒和礦業(yè)冶金領(lǐng)域的應(yīng)用才剛剛起步.

面向化工過程,文獻(xiàn)[104]提出基于信息擴(kuò)散和PSO 優(yōu)化的VSG,通過RWNN 為虛擬樣本輸入匹配輸出,提高了精對苯二甲酸(Pure terephthalic acid,PTA)生產(chǎn)過程的醋酸消耗預(yù)測模型的性能;文獻(xiàn)[59]通過在RWNN 隱含層間插值生成虛擬樣本輸出和虛擬樣本輸入,構(gòu)建乙烯生產(chǎn)系統(tǒng)模型以為石化行業(yè)的能源管理提供指導(dǎo)作用;文獻(xiàn)[53]針對PTA 生產(chǎn)過程的數(shù)據(jù)分布不完備問題,采用Isomap 流形學(xué)習(xí)進(jìn)行降維并搜尋稀疏區(qū)域插值生成虛擬樣本,結(jié)果表明該方法可有效提高軟測量模型的性能;文獻(xiàn)[55]將分位數(shù)回歸神經(jīng)網(wǎng)絡(luò)嵌入至CGAN 內(nèi)為虛擬樣本匹配準(zhǔn)確輸出,采用實(shí)際過程數(shù)據(jù)驗(yàn)證了所提方法的有效性;文獻(xiàn)[65]將回歸器嵌入至CWGAN 中,針對PTA 生產(chǎn)過程的應(yīng)用表明,所生成的虛擬樣本質(zhì)量優(yōu)于常規(guī)方法.

針對MSWI 過程DXN 建模數(shù)據(jù)獲取困難的問題,文獻(xiàn)[56]提出基于改進(jìn)大趨勢擴(kuò)散和隱含層插值的混合VSG,即生成的虛擬樣本包含基于子區(qū)域歐氏距離改進(jìn)的MTD 等間隔生成和基于正則化改進(jìn)的RWNN 隱含層插值生成兩類,通過混合樣本構(gòu)建DXN 排放軟測量模型,但樣本間的冗余性未予于考慮;接著,文獻(xiàn)[61]基于領(lǐng)域?qū)<抑R和MTD技術(shù)對真實(shí)樣本進(jìn)行擴(kuò)展,在生成虛擬樣本輸入和根據(jù)映射模型獲得虛擬樣本輸出后,采用PSO 算法對虛擬樣本進(jìn)行優(yōu)化選擇,但該方法未能同時(shí)考慮虛擬樣本數(shù)量和映射模型超參數(shù)對模型泛化性能的影響;對此,文獻(xiàn)[15] 提出基于多目標(biāo)PSO (Multi-objective PSO,MOPSO)混合優(yōu)化的VSG,通過對虛擬樣本數(shù)量和模型性能指標(biāo)2 個目標(biāo)進(jìn)行混合優(yōu)化的策略確保了VSG 的合理性和有效性.

在工業(yè)制造領(lǐng)域中,文獻(xiàn)[97]針對柔性制造調(diào)度系統(tǒng)建模過程中存在的樣本信息匱乏且與時(shí)間相關(guān)的問題,提出基于GTD 技術(shù)的VSG,結(jié)果表明混合樣本有助于提高模型性能;在此基礎(chǔ)上,文獻(xiàn)[98]將趨勢擴(kuò)散和樹算法結(jié)合,提出基于樹結(jié)構(gòu)的趨勢擴(kuò)散方法,用于擴(kuò)充制造過程初期的樣本數(shù)量;針對產(chǎn)品壽命性能評估問題,文獻(xiàn)[112]在符合制造業(yè)的Weibull 分布中,以采樣方式獲得虛擬樣本;文獻(xiàn)[141]采用模糊c均值聚類算法將數(shù)據(jù)分為多個簇后賦予不同權(quán)重,通過箱型圖估計(jì)特征的擴(kuò)展范圍后生成虛擬樣本,構(gòu)建的模型相較于對比方法具有更佳的性能;文獻(xiàn)[117] 采用高斯混合模型擬合數(shù)據(jù)分布后采用網(wǎng)格搜索技術(shù)對模型進(jìn)行優(yōu)化,所提方法能夠緩解橡膠加工耐磨性數(shù)據(jù)的缺乏和提高預(yù)測模型的精度.

針對磨礦過程采用非完備樣本構(gòu)建數(shù)據(jù)驅(qū)動模型困難的問題,文獻(xiàn)[6]提出結(jié)合先驗(yàn)知識和FBP的VSG,對構(gòu)建物理闡釋明確的軟測量模型具有重要的借鑒意義.針對稀土萃取過程中存在的小樣本問題,文獻(xiàn)[142]將基于MD-MTD 和RWNN 生成的虛擬樣本與GA 優(yōu)化MD-MTD 生成的虛擬樣本混合后構(gòu)建預(yù)測模型,結(jié)果表明可提高模型的穩(wěn)定性和泛化性能.

針對其他領(lǐng)域回歸問題的VSG 還包括: 鋰電池剩余壽命預(yù)測[143]、蒸餾塔煤油凝固點(diǎn)預(yù)測[144]和血液光譜分析[103]等.

2.3.2 面向分類問題的VSG 應(yīng)用

已有研究成果主要集中在故障診斷領(lǐng)域,即用于軸承、齒輪以及電機(jī)等機(jī)械設(shè)備診斷模型的故障樣本生成.與傳統(tǒng)過程數(shù)據(jù)不同,這類故障樣本多為用于二分類問題的機(jī)械振動信號,特點(diǎn)是故障樣本的數(shù)量明顯少于健康樣本,即存在類不平衡問題[145].基于這一特點(diǎn),圖14 給出了2019~ 2022 年間VSG技術(shù)在故障診斷領(lǐng)域的應(yīng)用.

圖14 2019~ 2022 年面向故障診斷領(lǐng)域的VSG 應(yīng)用統(tǒng)計(jì)結(jié)果Fig.14 VSG application statistical results for fault diagnosis on 2019~ 2022

由圖14 可知,近4 年故障診斷領(lǐng)域的VSG 研究成果主要集中于編碼器、GAN 等深度學(xué)習(xí)方法,其本質(zhì)是通過改進(jìn)生成模型的結(jié)構(gòu)、數(shù)量和損失函數(shù)等方式保證虛擬樣本的質(zhì)量.

在滾動軸承故障診斷領(lǐng)域中,文獻(xiàn)[146]提出結(jié)合遷移學(xué)習(xí)和GAN 的VSG,其基于設(shè)備故障機(jī)理對特征進(jìn)行遷移并通過GAN 學(xué)習(xí)設(shè)備監(jiān)測數(shù)據(jù)的分布特征進(jìn)而生成虛擬樣本,具有較好的變工況遷移能力;文獻(xiàn)[147]提出融合用于生成虛擬故障樣本的去噪自編碼器(Predictive generative denoising AE,PGDAE)和進(jìn)行故障診斷的深度珊瑚網(wǎng)絡(luò)(Deep coral network,DCN)的統(tǒng)一框架,結(jié)果表明可有效生成虛擬故障樣本并準(zhǔn)確識別滾動軸承故障;為提高生成模型性能,文獻(xiàn)[66]采用元學(xué)習(xí)增強(qiáng)Wassersterin AE (WAE)策略提升先驗(yàn)分布與滾動軸承振動信號間的映射能力,結(jié)果表明生成的虛擬樣本質(zhì)量優(yōu)于對比方法;文獻(xiàn)[92]將自調(diào)制、CVAE 和WGAN 相結(jié)合以增強(qiáng)博弈對抗過程的穩(wěn)定性,進(jìn)而生成高質(zhì)量的虛擬故障樣本;文獻(xiàn)[132]將一維信號數(shù)據(jù)轉(zhuǎn)換成二維灰度圖像后基于ACGAN生成虛擬故障樣本,通過自注意力機(jī)制深度子域適應(yīng)網(wǎng)絡(luò)(Deep subdomain adaptation network,DSAN)提高故障特征的非線性擬合能力;文獻(xiàn)[148]利用常數(shù)Q 轉(zhuǎn)換將機(jī)械信號轉(zhuǎn)為頻譜圖像后輸入GAN,并采用均方誤差替換交叉熵作為損失函數(shù);文獻(xiàn)[149]通過度量判別器與生成器間的相對性能后自適應(yīng)調(diào)節(jié)生成器的損失值,結(jié)果表明對抗學(xué)習(xí)過程的收斂更快,所生成樣本的質(zhì)量更好;文獻(xiàn)[69]提出深度特征增強(qiáng)生成對抗網(wǎng)絡(luò)以提高不平衡故障診斷的性能,建立自動數(shù)據(jù)過濾器以保證生成樣本的準(zhǔn)確性和多樣性;文獻(xiàn)[150]提出深度特征生成網(wǎng)絡(luò)(Deep feature generating network,DFGN)用于面向零樣本的滾動軸承故障檢測,實(shí)驗(yàn)結(jié)果表明能夠有效地檢測典型故障.

面向變壓器的故障樣本與健康樣本不平衡的問題,文獻(xiàn)[73]采用SMOTE 生成異常狀態(tài)樣本后,通過DT 提取變壓器狀態(tài)評估知識后將其轉(zhuǎn)換為狀態(tài)量和評估規(guī)則;文獻(xiàn)[74]在支持向量近似的分類邊界,根據(jù)最近鄰決策機(jī)制采用插值方式生成虛擬樣本,進(jìn)而提高診斷模型的準(zhǔn)確性;文獻(xiàn)[151]采用基于梯度懲罰優(yōu)化的CWGAN (CWGAN-GP)生成多類別故障樣本,構(gòu)建基于棧式自編碼器的診斷模型,結(jié)果表明可有效改善模型分類偏好和提升分類性能;文獻(xiàn)[91]設(shè)計(jì)包含孿生編碼器、解碼器和傳輸層的改進(jìn)AE 以消除數(shù)據(jù)噪聲,通過LSGAN生成高置信度的健康狀態(tài)樣本,結(jié)果表明能夠及時(shí)檢測發(fā)電機(jī)的潛在異常情況.

針對風(fēng)力渦輪機(jī)故障樣本稀少引起的信息缺失問題,文獻(xiàn)[152]按照皮爾遜相關(guān)系數(shù)和最大信息系數(shù),將生成的虛擬樣本特征分組輸入判別器后分別計(jì)算損失,以加權(quán)值作為總損失用于更新GAN,實(shí)驗(yàn)表明所生成的虛擬樣本更為真實(shí);文獻(xiàn)[153]提出將對抗學(xué)習(xí)作為正則項(xiàng)引入CNN 的深度對抗CNN (Deep adversarial CNN,DACNN),結(jié)果表明提高了診斷模型的準(zhǔn)確度;文獻(xiàn)[89]針對機(jī)械系統(tǒng)的異常樣本采集難的問題,提出結(jié)合GAN 和AE的機(jī)械系統(tǒng)異常檢測方法,通過編碼-解碼-再編碼的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)異常變化并生成虛擬樣本,結(jié)果表明能夠更穩(wěn)定地表征故障演化過程;文獻(xiàn)[154]提出將樣本生成和故障診斷相結(jié)合的ASM1D-GAN(Assembled 1D CNN and GAN),通過對抗學(xué)習(xí)機(jī)制同時(shí)優(yōu)化上述兩個過程以達(dá)到同時(shí)提高生成樣本質(zhì)量和故障診斷精度的目的.

針對齒輪箱的故障診斷問題,文獻(xiàn)[68]提出基于條件變分自編碼器生成對抗網(wǎng)絡(luò)的不平衡故障診斷方法,通過CVAE 提取故障樣本分布以對抗方式生成虛擬樣本,結(jié)果表明可生成不同工況下的故障樣本,能夠提高模型性能;針對GAN 調(diào)參復(fù)雜且具有隨機(jī)性的問題,文獻(xiàn)[86]通過貝葉斯優(yōu)化(Bayesian optimization,BO)策略自適應(yīng)地調(diào)節(jié)WGAN的判別器參數(shù)以提升虛擬樣本質(zhì)量,結(jié)果表明可有效提高故障識別精度;文獻(xiàn)[67]采用深度卷積GAN(Deep convolution GAN,DCGAN)生成虛擬樣本以解決數(shù)據(jù)集不平衡問題,通過K-means 聚類算法改進(jìn)基于CNN 的機(jī)械設(shè)備故障診斷模型.

此外,VSG 在故障診斷中的應(yīng)用還包括: 小電流接地系統(tǒng)故障線路檢測[77]以及熱電聯(lián)產(chǎn)電廠給水泵[155]、磨礦機(jī)[156]和化工過程[157]等領(lǐng)域的故障診斷.

綜合上述研究可知,VSG 正快速在缺失完備建模樣本的復(fù)雜工業(yè)過程中獲得應(yīng)用,其在面向分類問題的研究深度和先進(jìn)性等方面明顯優(yōu)于面向回歸問題.本文雖然僅對常見的工業(yè)過程的VSG 典型應(yīng)用進(jìn)行了介紹,但這些結(jié)果在一定程度上表明,VSG 具有獨(dú)特的優(yōu)勢和適應(yīng)不同工業(yè)過程數(shù)據(jù)的良好性能.

3 數(shù)據(jù)集與開源軟件

本節(jié)將對上述面向工業(yè)過程的VSG 研究所涉及的數(shù)據(jù)集和開源軟件進(jìn)行總結(jié),包括用于虛擬樣本實(shí)驗(yàn)評估的基準(zhǔn)數(shù)據(jù)集和在VSG 算法實(shí)現(xiàn)過程中所用到的開源軟件,進(jìn)而為VSG 的研究提供基礎(chǔ)支撐.

3.1 基準(zhǔn)數(shù)據(jù)集

本節(jié)將從面向回歸和分類問題兩個方面對目前VSG 研究中采用的合成和公開基準(zhǔn)數(shù)據(jù)集進(jìn)行匯總,如表2 和表3 所示.

表2 面向回歸問題VSG 的合成數(shù)據(jù)集Table 2 Synthetic datasets of VSG for regression problem

表3 面向分類問題的VSG 公開數(shù)據(jù)集Table 3 Public datasets of VSG for classification problem

由表2 和表3 可知,目前的VSG 研究大多是在傳統(tǒng)的合成函數(shù)和公開的故障診斷數(shù)據(jù)集上開展的,基于實(shí)際工業(yè)過程的VSG 基準(zhǔn)數(shù)據(jù)集還未見相關(guān)報(bào)道,尤其面向回歸問題,甚至不存在由實(shí)際工業(yè)過程產(chǎn)生的數(shù)據(jù)集.因此,構(gòu)建能夠用于生成模型和虛擬樣本質(zhì)量評估的通用VSG 基準(zhǔn)工業(yè)數(shù)據(jù)集也是未來的重要研究方向之一.構(gòu)建面向?qū)嶋H工業(yè)過程的虛擬樣本數(shù)據(jù)庫更是值得深入研究的基礎(chǔ)工作.

3.2 開源軟件

合適的編程軟件是實(shí)現(xiàn)VSG 的重要基礎(chǔ),目前主要分為Python 和Matlab 兩類.

1) 基于Python 的開源軟件

a) PyTorch,由Facebook AI Research 開發(fā)的深度學(xué)習(xí)庫,支持基于CPU 和GPU 進(jìn)行高效張量運(yùn)算并提供可靈活修改模型結(jié)構(gòu)的動態(tài)計(jì)算圖,包含許多深度學(xué)習(xí)模型和算法,詳見官網(wǎng): https://pytorch.org/.

b) TensorFlow,由Google Brain 團(tuán)隊(duì)開發(fā)的機(jī)器學(xué)習(xí)平臺,支持GPU 和TPU 等硬件加速計(jì)算并能夠進(jìn)行分布式的訓(xùn)練和推理,提供了豐富的工具和資源.除Python 外,TensorFlow 還支持Java、C++等編程語言,詳見官網(wǎng): https://www.tensorflow.org/.

c) Keras,由Python 編寫的開源神經(jīng)網(wǎng)絡(luò)庫,能夠在TensorFlow、CNTK 以及Theano 上運(yùn)行,支持快速實(shí)驗(yàn)和構(gòu)建復(fù)雜模型,詳見官網(wǎng): https://keras.io/.

2) Matlab 的開源軟件

a) Deep Learn Toolbox,其包含多種模型、算法和應(yīng)用程序的深度學(xué)習(xí)框架,支持網(wǎng)絡(luò)設(shè)計(jì)可視化和訓(xùn)練進(jìn)度實(shí)時(shí)監(jiān)控,詳見官網(wǎng): https://ww2.mathworks.cn/products/deep-learning.html.

b) Statistics and Machine Learning Toolbox,其提供多種用于數(shù)據(jù)描述、分析和建模的有監(jiān)督、半監(jiān)督和無監(jiān)督機(jī)器學(xué)習(xí)算法,能夠自動生成C/C++代碼用于嵌入式部署,詳見官網(wǎng): https://ww2.mathworks.cn/products/statistics.html.

目前,VSG 研究正處于與統(tǒng)計(jì)學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、集成學(xué)習(xí)等領(lǐng)域的新進(jìn)展深度結(jié)合階段,因此這些領(lǐng)域所采用的開源軟件都可用于VSG 領(lǐng)域.進(jìn)一步,后續(xù)研究可考慮構(gòu)建由基礎(chǔ)算法、基準(zhǔn)數(shù)據(jù)集、標(biāo)準(zhǔn)評估算法以及可視化等組件組成的VSG Toolbox.

4 VSG 的比較與討論

4.1 方法比較

從樣本覆蓋區(qū)域、VSG 實(shí)現(xiàn)流程和推廣應(yīng)用3個方面,針對回歸問題和分類問題VSG 的研究成果統(tǒng)計(jì)與對比如附錄A 的表A1 所示.文中的符號說明如表A2 所示.

由表A1 可知: 從3 個不同視角綜述的結(jié)果而言,面向回歸和分類問題的VSG 在側(cè)重點(diǎn)上是存在差異性的,具體表現(xiàn)為:

1) 樣本覆蓋區(qū)域視角.面向原始域樣本空間的VSG 最早源于SMOTE 等插值算法,在GAN出現(xiàn)后其迎來了更高的研究熱度,其中: 分類問題主要集中在故障診斷領(lǐng)域,采用卷積網(wǎng)絡(luò)、編碼器和注意力機(jī)制對故障數(shù)據(jù)進(jìn)行特征提取和增強(qiáng);回歸問題采用流形學(xué)習(xí)、專家經(jīng)驗(yàn)等處理高維過程數(shù)據(jù);此外,由于在博弈對抗的過程中為虛擬樣本輸入匹配準(zhǔn)確的輸出存在困難,使得基于GAN 的回歸問題VSG 研究較少.從通過VSG 完備樣本分布的目的的視角,識別真實(shí)樣本的稀疏區(qū)域是基于函數(shù)模型進(jìn)行VSG 的關(guān)鍵,即首先通過稀疏區(qū)域確定需要生成虛擬樣本的位置;但是,在基于對抗模型的VSG 過程中,可能會生成不屬于完備域(期望域)樣本空間的不合格虛擬樣本,因此進(jìn)行樣本篩選很有必要.面向擴(kuò)展域樣本空間的VSG 最早源于信息擴(kuò)散理論,在MTD 提出后獲得廣泛應(yīng)用,其中: 基于模糊集理論的VSG 研究相較于粗糙集理論更加成熟;基于分布假設(shè)的VSG 針對不同工業(yè)過程需選擇合適的分布以接近完備域的樣本分布.從完備樣本分布區(qū)域的目的而言,基于擴(kuò)展域空間的VSG 既要考慮可擴(kuò)展區(qū)域存在與否和存在時(shí)的區(qū)域范圍,又要考慮擴(kuò)展時(shí)虛擬樣本的分布程度;同時(shí),還需要結(jié)合知識對未知域進(jìn)行認(rèn)知.因此,已有研究通常為原始域和擴(kuò)展域分別選擇合適的VSG 策略.

2) VSG 實(shí)現(xiàn)流程視角.數(shù)據(jù)預(yù)處理階段需要依據(jù)建模數(shù)據(jù)特性進(jìn)行處理以便更好地開展后續(xù)工作,例如: 對異常和缺失值進(jìn)行剔除和填充,對高維數(shù)據(jù)進(jìn)行特征約簡以及對機(jī)械信號進(jìn)行FFT 處理等.針對分類問題,由于無需匹配輸出,采用GAN在虛擬樣本輸入生成階段的研究明顯多于回歸問題,這也導(dǎo)致基于擴(kuò)展域樣本空間的VSG 研究較少.在虛擬樣本輸出生成階段,采用RF、RWNN和RBF 等映射模型均能夠適應(yīng)小樣本建模,但如何基于有限的樣本構(gòu)建準(zhǔn)確且魯棒的映射模型仍是待解決的熱點(diǎn)研究問題.在虛擬樣本質(zhì)量篩選階段,通常采用的是相似性度量、優(yōu)化算法和模型誤差等方法,但如何確定統(tǒng)一的、有理論支撐的期望評價(jià)準(zhǔn)則仍是一個未解決的開放性問題.在虛擬樣本數(shù)量確定階段,目前多依據(jù)實(shí)際問題特性采用試湊方式確定添加數(shù)量,雖有學(xué)者從數(shù)學(xué)理論和數(shù)據(jù)特性等角度探索確定方法,但仍待繼續(xù)完善.

3) VSG 推廣應(yīng)用視角.面向回歸問題的VSG主要應(yīng)用在石油化工、固廢焚燒、工業(yè)制造和礦業(yè)冶金等領(lǐng)域,其中: 石油化工領(lǐng)域多采用基于原始域樣本空間的VSG;工業(yè)制造領(lǐng)域的VSG 研究多集中于擴(kuò)展域樣本空間;固廢焚燒和礦業(yè)冶金的VSG 研究相對較少,處于起步階段.面向分類問題的VSG 應(yīng)用在軸承、齒輪、渦輪機(jī)以及變壓器等機(jī)械或電力設(shè)備的故障診斷中,其中以面向機(jī)械信號采用GAN 的應(yīng)用最為廣泛.

綜上可知,在上述3 個視角下,針對回歸問題和分類問題的VSG 各具優(yōu)勢,有必要相互進(jìn)行借鑒;同時(shí),也有待于與遷移學(xué)習(xí)、集成學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等算法結(jié)合并與具體應(yīng)用領(lǐng)域進(jìn)行深度融合.

4.2 討論與分析

結(jié)合以上分析,筆者總結(jié)了面向工業(yè)過程VSG的未來研究方向,如下所示.

1) 樣本質(zhì)量與生成模型協(xié)同優(yōu)化

由式(1)可知,采用增加樣本數(shù)量或減少特征維數(shù)均是獲得較大α值的可行方案.在VSG 前基于特征工程降維以減少模型的訓(xùn)練難度是必要的,其中: 基于特征變換VSG 的難點(diǎn)在于如何重構(gòu)虛擬樣本,基于特征選擇VSG 的難點(diǎn)在于如何平衡選擇的特征數(shù)量和生成的虛擬樣本質(zhì)量等問題.虛擬樣本輸出的質(zhì)量在很大程度上取決于生成模型的選擇,但目前尚無統(tǒng)一的評估方式以分析模型結(jié)構(gòu)或參數(shù)對虛擬樣本的影響.針對某個工業(yè)過程的某個實(shí)際問題所設(shè)計(jì)的VSG 效果好但具有局限性,如何借鑒并提高普適性有待研究.因此,設(shè)計(jì)虛擬樣本質(zhì)量評價(jià)指標(biāo)并與生成模型的結(jié)構(gòu)和參數(shù)協(xié)同優(yōu)化是未來的重要研究方向,同時(shí)也需要考慮如何提高優(yōu)化效率、降低運(yùn)行消耗等問題.

2) 基于對抗學(xué)習(xí)融合機(jī)理知識、經(jīng)驗(yàn)規(guī)則和數(shù)據(jù)驅(qū)動模型的智能VSG

現(xiàn)有VSG 主要利用原始真實(shí)樣本構(gòu)建基于數(shù)據(jù)驅(qū)動的生成模型,存在蘊(yùn)含機(jī)理知識缺乏和完備樣本分布未知等問題.針對具體復(fù)雜工業(yè)過程而言,可利用數(shù)值仿真軟件構(gòu)建能夠反映運(yùn)行狀態(tài)的近似機(jī)理可視化模型和利用專家經(jīng)驗(yàn)知識構(gòu)建反映運(yùn)行規(guī)則的經(jīng)驗(yàn)?zāi)P?因此,通過對抗學(xué)習(xí)等技術(shù)自行選擇由機(jī)理知識、經(jīng)驗(yàn)規(guī)則和數(shù)據(jù)驅(qū)動等構(gòu)成的多類型生成模型并通過進(jìn)化最優(yōu)VSG 流程,將能夠?yàn)樯赡P偷倪x擇和構(gòu)建提供指導(dǎo)作用和提升VSG的可解釋性.

3) 基于合成數(shù)據(jù)集的VSG 理論分析

雖然VSG 已在復(fù)雜工業(yè)過程的各個領(lǐng)域得到迅速發(fā)展,但與其相關(guān)的理論分析卻較為匱乏,例如: 擴(kuò)展域樣本空間的隸屬度函數(shù)和分布函數(shù)的選擇依賴于主觀經(jīng)驗(yàn);用于信息擴(kuò)散的三角隸屬度函數(shù)和用于分布假設(shè)的正態(tài)分布函數(shù)并不適用于所有工業(yè)過程.在優(yōu)化算法領(lǐng)域中,常采用多種基準(zhǔn)函數(shù)進(jìn)行算法設(shè)計(jì)、性能測試和方法比較,依據(jù)這些人為設(shè)定的基準(zhǔn)函數(shù)能夠較為客觀地評價(jià)不同優(yōu)化算法的各種性能.對此,也有學(xué)者設(shè)計(jì)測試函數(shù)并采樣得到合成數(shù)據(jù)對VSG 性能進(jìn)行評價(jià)[57,129].但是,在如何確定完備分布,如何確定不同分布下虛擬樣本的數(shù)量和質(zhì)量等方面的理論還缺失.因此,筆者認(rèn)為,采用具有較好規(guī)范性和多樣性的合成數(shù)據(jù)進(jìn)行VSG 的理論分析是未來該領(lǐng)域偏向于學(xué)術(shù)方面的研究方向之一.

4) 借鑒相關(guān)領(lǐng)域知識的遷移VSG

不管是基于原始域樣本空間還是基于擴(kuò)展域樣本空間的VSG,本質(zhì)都是基于原始真實(shí)樣本并從中挖掘樣本間的聯(lián)系或獲取擴(kuò)展范圍,但受限于樣本數(shù)量該過程存在多種困難.以GAN 為例,其作為一種本身需要數(shù)據(jù)支撐的神經(jīng)網(wǎng)絡(luò),只有在存在充足數(shù)據(jù)時(shí)才能支持網(wǎng)絡(luò)訓(xùn)練的收斂,在數(shù)據(jù)量較少的情況下難以達(dá)到納什均衡且易陷入模式崩塌,此時(shí)的樣本生成過程近似于對原始樣本的簡單復(fù)制,顯然這對提高樣本的多樣性和進(jìn)行區(qū)域空間擴(kuò)充并無實(shí)質(zhì)性的幫助[158].因此,除機(jī)理知識外,從外部的樣本空間獲取知識以提高生成模型的性能是VSG的重要研究方向.顯然,這種外部的樣本空間應(yīng)與原始域空間具有相似性且數(shù)據(jù)量大,此處將其稱為相似域空間.遷移學(xué)習(xí)旨在利用相關(guān)領(lǐng)域的知識提高學(xué)習(xí)性能或最小化目標(biāo)領(lǐng)域所需的樣本數(shù)[159].目前,基于相似域空間的VSG 尚處于起步階段,還存在大量問題亟待解決,例如: 兩個域之間存在相似性是知識遷移的必要前提,但相似性度量方法的優(yōu)劣還未有統(tǒng)一標(biāo)準(zhǔn);域間相似性對虛擬樣本質(zhì)量的影響程度也是值得研究的問題;如何從數(shù)據(jù)和模型兩個層面同時(shí)進(jìn)行遷移以達(dá)到更好的效果等.

5) 工業(yè)過程數(shù)字孿生系統(tǒng)驅(qū)動的VSG 完備樣本分布研究

工業(yè)過程數(shù)據(jù)存在樣本稀缺、分布完備性差和內(nèi)涵機(jī)理知識匱乏等問題.如何獲取具有完備樣本分布的建模數(shù)據(jù)是未來VSG 實(shí)現(xiàn)落地應(yīng)用的關(guān)鍵.近些年,數(shù)字孿生技術(shù)的出現(xiàn)以及其迅速的發(fā)展為解決上述問題提供了新的思路.文獻(xiàn)[160]構(gòu)建航天器電源系統(tǒng)的數(shù)字孿生模型,并對其注入虛擬故障以獲得虛擬樣本.文獻(xiàn)[161] 通過采煤機(jī)搖臂機(jī)的數(shù)字孿生模型生成狀態(tài)檢測樣本并構(gòu)建預(yù)測模型,為復(fù)雜礦用設(shè)備的運(yùn)維提供支持.雖然上述數(shù)字孿生系統(tǒng)多面向離散過程,但也能夠?yàn)闃?gòu)建機(jī)理更加復(fù)雜的流程工業(yè)數(shù)字孿生系統(tǒng)提供借鑒.因此,基于物理幾何模型和動力學(xué)模型以及多源數(shù)據(jù)構(gòu)建復(fù)雜工業(yè)過程數(shù)字孿生模型,生成具有完備樣本分布的虛擬樣本庫能夠?yàn)閂SG 提供機(jī)理知識,具體實(shí)現(xiàn)方式與可用性驗(yàn)證等問題還有待研究.

6) 基于監(jiān)督和半監(jiān)督學(xué)習(xí)的集成VSG

復(fù)雜工業(yè)過程的關(guān)鍵運(yùn)行指標(biāo)數(shù)量受限于檢測技術(shù)的高成本和大時(shí)滯特性,導(dǎo)致存在大量未標(biāo)記的過程數(shù)據(jù)和少量標(biāo)記的建模數(shù)據(jù)共存的現(xiàn)象[162].半監(jiān)督學(xué)習(xí)是綜合有標(biāo)記和無標(biāo)記數(shù)據(jù)的建模方法,其能充分利用過程數(shù)據(jù)所表征的工業(yè)運(yùn)行過程的特性[163].因此,借鑒半監(jiān)督學(xué)習(xí)思想,在虛擬樣本輸入生成階段可充分利用未標(biāo)記過程數(shù)據(jù)所能表征的特征空間以提高生成樣本的質(zhì)量.結(jié)合上述樣本的差異度與主動學(xué)習(xí)算法篩選合格輸入數(shù)據(jù),對其進(jìn)行標(biāo)記能夠獲得高置信度的偽標(biāo)記樣本和高質(zhì)量的虛擬樣本.筆者認(rèn)為,從輸入輸出視角,真實(shí)樣本可記為“真-真”樣本,之前研究所生成的虛擬樣本可記為“虛-虛”樣本,此處采用半監(jiān)督方式獲得的樣本可記為“真-虛”樣本.因此,基于監(jiān)督和半監(jiān)督學(xué)習(xí)的集成VSG 能夠基于“真-真”樣本和未標(biāo)記樣本提高“虛-虛”樣本可信度的同時(shí)通過“真-虛”樣本進(jìn)一步增加虛擬樣本的數(shù)量.

7) 自適應(yīng)更新的動態(tài)VSG

在實(shí)際的工業(yè)過程中,數(shù)據(jù)分布會隨時(shí)間發(fā)生動態(tài)變化導(dǎo)致舊模型無法適用于新樣本,該問題被稱為概念漂移,產(chǎn)生原因通常是元器件老化或生產(chǎn)環(huán)境變化導(dǎo)致模型輸入輸出間的分布關(guān)系發(fā)生改變.如何進(jìn)行概念漂移的檢測、量化和處理也是學(xué)術(shù)界的開放性問題之一[164].基于歷史真實(shí)數(shù)據(jù)的VSG 雖能夠進(jìn)行域擴(kuò)展,但卻難以表征工業(yè)過程未知漂移和難以確定未知域.因此,VSG 應(yīng)能夠根據(jù)工業(yè)動態(tài)環(huán)境的變化進(jìn)行完備樣本分布的實(shí)時(shí)更新,進(jìn)而確保生成模型的性能和預(yù)測模型的精度,在該方向上的研究成果還未見報(bào)道.

5 結(jié)論

本文總結(jié)了針對復(fù)雜工業(yè)過程難測運(yùn)行指標(biāo)和異常故障進(jìn)行建模的真實(shí)樣本所存在的問題,梳理了虛擬樣本的定義和內(nèi)涵,給出了工業(yè)過程VSG的實(shí)現(xiàn)流程,綜述了面向樣本覆蓋區(qū)域、實(shí)現(xiàn)流程與推廣應(yīng)用3 個方向的研究現(xiàn)狀,討論了未來研究方向.結(jié)合上述分析結(jié)果,筆者認(rèn)為未來挑戰(zhàn)包括:1) 構(gòu)建合成數(shù)據(jù)集進(jìn)行VSG 理論分析,進(jìn)行樣本質(zhì)量與生成模型的協(xié)同優(yōu)化;2) 利用對抗學(xué)習(xí)對機(jī)理知識、經(jīng)驗(yàn)規(guī)則和數(shù)據(jù)驅(qū)動模型進(jìn)行動態(tài)進(jìn)化選擇,構(gòu)建具有最優(yōu)生成流程的智能VSG;3) 同時(shí)從輸入和輸出角度評估本文所提出的相似域樣本空間,采用基于樣本和模型的遷移學(xué)習(xí)構(gòu)建虛擬樣本輸入生成模型和輸出映射模型;4) 面向工業(yè)過程的物理實(shí)體構(gòu)建混合機(jī)理和數(shù)據(jù)驅(qū)動的數(shù)字孿生系統(tǒng),依據(jù)實(shí)際工業(yè)數(shù)據(jù)的動態(tài)變化對數(shù)據(jù)孿生模型進(jìn)行預(yù)測性調(diào)整以確保虛擬樣本質(zhì)量和預(yù)測模型性能;5) 利用未標(biāo)記樣本提升虛擬樣本的可信度,結(jié)合監(jiān)督和半監(jiān)督學(xué)習(xí)算法的差異度和主動學(xué)習(xí)算法的靈活性,構(gòu)建面向多視角學(xué)習(xí)機(jī)制的集成VSG和結(jié)合工業(yè)過程概念漂移的動態(tài)VSG.

附錄A

表A1 VSG 的研究成果統(tǒng)計(jì)與對比Table A1 Statistics and comparison of VSG research results

猜你喜歡
樣本空間工業(yè)樣本
高中數(shù)學(xué)新教材一個探究試驗(yàn)的商榷
概率統(tǒng)計(jì)中樣本空間芻議
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
推動醫(yī)改的“直銷樣本”
工業(yè)人
淺談高校古典概率的教學(xué)
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
全概率公式的教學(xué)方法研究
村企共贏的樣本
掌握4大工業(yè)元素,一秒變工業(yè)風(fēng)!