国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于堆疊降噪自編碼器的神經(jīng)–符號模型及在晶圓表面缺陷識別

2022-12-03 14:31劉國梁余建波
自動化學(xué)報 2022年11期
關(guān)鍵詞:置信度神經(jīng)元符號

劉國梁 余建波

半導(dǎo)體作為應(yīng)用最為廣泛的元器件之一,其制造過程需要經(jīng)過薄膜沉積、蝕刻、拋光等眾多復(fù)雜工藝流程,生產(chǎn)過程中的任何異常都可能導(dǎo)致晶圓表面缺陷的產(chǎn)生[1].除了需要對晶圓制造過程中的關(guān)鍵參數(shù)進行控制和預(yù)測[2],準確識別晶圓表面的各種缺陷模式,也有助于提升晶圓制造質(zhì)量,降低半導(dǎo)體生產(chǎn)廢品率,避免因大批量晶圓表面缺陷而造成的巨大損失.

早期的晶圓表面缺陷識別方法主要通過統(tǒng)計學(xué)方法實現(xiàn).Hess等[3]研究晶圓缺陷密度分布實現(xiàn)對成品率的預(yù)測.Friedman等[4]采用無模型的缺陷聚類方法實現(xiàn)對晶圓表面缺陷的形狀、大小和分布的檢測.Yuan等[5]在前人研究的基礎(chǔ)上提出一種基于貝葉斯推論的模式聚類演算法,可進一步檢測曲線模式、橢球模式、非均勻全局缺陷模式.這些方法的缺陷在于只是對晶圓缺陷進行了統(tǒng)計分析,并沒有做到對缺陷類別的精準識別,對實際生產(chǎn)過程幫助有限.

隨著機器學(xué)習(xí)和深度學(xué)習(xí)的崛起,線性判別方法[6]、反向傳播網(wǎng)絡(luò)[7]、廣義回歸神經(jīng)網(wǎng)絡(luò)[8]、支持向量機[8-10]、深度神經(jīng)網(wǎng)絡(luò)[11-14]等模型已被廣泛地應(yīng)用于晶圓表面缺陷識別,其中堆疊降噪自編碼器(Stacked denoising auto-encoders,SDAE)作為經(jīng)典的深度學(xué)習(xí)模型,憑借其強大的學(xué)習(xí)能力,取得了不錯的結(jié)果[13-14].但是,上述模型仍然存在以下2個問題:1)雖然以卷積神經(jīng)網(wǎng)絡(luò)和SDAE 為代表的深度神經(jīng)網(wǎng)絡(luò)模型憑借其強大的特征提取能力,在晶圓缺陷識別問題上取得了較好的結(jié)果,但是深度網(wǎng)絡(luò)模型始終存在不可被解釋的缺陷.這一缺陷使得深度神 經(jīng)網(wǎng)絡(luò)在WMPR 上的應(yīng)用存在很多困難.2)傳統(tǒng)機器學(xué)習(xí)模型如支持向量機、決策樹等可以通過數(shù)學(xué)或邏輯途徑進行解釋和驗證,但是它們的缺陷識別能力并不高.

縱觀神經(jīng)網(wǎng)絡(luò)發(fā)展史,研究者們一直在嘗試彌補神經(jīng)網(wǎng)絡(luò)不可被解釋的缺陷.通過對網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)或統(tǒng)計意義進行分析,以達到解釋網(wǎng)絡(luò)的目的是當(dāng)下的主流研究方向[15].Gallant[16]最早提出利用IF-THEN 形式的規(guī)則解釋神經(jīng)網(wǎng)絡(luò)的推理結(jié)果,形成神經(jīng)網(wǎng)絡(luò)專家系統(tǒng).其后Towell等[17]提出基于知識的人工神經(jīng)網(wǎng)絡(luò)(Knowledge-based artificial neural network,KBANN),該模型通過從網(wǎng)絡(luò)中抽取和插入規(guī)則,實現(xiàn)了邏輯規(guī)則與神經(jīng)網(wǎng)絡(luò)之間的交互.Garcez等[18]在KBANN的研究基礎(chǔ)上提出一種利用符號規(guī)則初始化神經(jīng)網(wǎng)絡(luò)的方法,可以幫助模型更高效的學(xué)習(xí)數(shù)據(jù)中的知識.在深度神經(jīng)網(wǎng)絡(luò)研究方面,Garcez等[19]提出神經(jīng)–符號系統(tǒng)的概念,其核心理念為符號規(guī)則負責(zé)表述神經(jīng)網(wǎng)絡(luò)中蘊含的知識而神經(jīng)元負責(zé)學(xué)習(xí)和推理,所生成的模型同時具備高魯棒性、高識別性能以及可解釋性.在這一概念的基礎(chǔ)上,Odence等[20]將受限玻爾茲曼機與符號規(guī)則相結(jié)合,為符號規(guī)則與深度神 經(jīng)網(wǎng)絡(luò)的結(jié)合打下基礎(chǔ);Tran等[21]在前人研究基礎(chǔ)上首次提出了從深度置信網(wǎng)絡(luò)(Deep belief network,DBN)中抽取和插入符號規(guī)則的算法,具有里程碑意義;劉國梁等[22]提出一種混合規(guī)則并將它與堆疊降噪自編碼器集成,但該算法計算成本高,難以適應(yīng)大規(guī)模復(fù)雜問題,Hitzler等[23]在符號–神經(jīng)系統(tǒng)的基礎(chǔ)上,詳細介紹語義網(wǎng)的神經(jīng)符號研究的前景和優(yōu)勢,并分析了其對深度學(xué)習(xí)的潛在場景.Bennetot等[24]提出了一種推理模型來解釋神經(jīng)網(wǎng)絡(luò)的決策,并使用解釋從網(wǎng)絡(luò)原理來糾正其決策過程種的偏差.在推理模型方面:Li等[25]從功能角度將邏輯語言與神經(jīng)網(wǎng)絡(luò)相結(jié)合,形成了一種新的學(xué)習(xí)推理模型,同時具備連接主義和符號主義的優(yōu)勢.Sukhbaatar等[26]提出了記憶網(wǎng)絡(luò),引入了記憶機制來解決對推理過程中間結(jié)果的存儲問題,對神經(jīng)符號系統(tǒng)進行了進一步的探索,賦予了神經(jīng)網(wǎng)絡(luò)符號化的結(jié)構(gòu),對后續(xù)的研究有著重要的啟發(fā)意義.Sawant等[27]在知識圖和語料庫的基礎(chǔ)上建立了一套推理系統(tǒng),可以解釋模型中不可觀察或潛在的變量.Liang等[28]進一步引入了符號化的記憶機制,幫助神經(jīng)網(wǎng)絡(luò)更好地完成復(fù)雜推理.Salha等[29]利用簡單的線性模型替代圖自編碼器等模型中的圖卷積網(wǎng)絡(luò),簡化了模型計算.同時,Salha等[30]提出了一個通用的圖自編碼器和圖變分自編碼器的框架.該框架利用圖的簡并性概念,只從密集的節(jié)點子集中訓(xùn)練模型,從而顯著提高了模型的可伸縮性和訓(xùn)練速度.綜上所述,目前對傳統(tǒng)深度學(xué)習(xí)模型 (比如DBN或SDAE)的可解釋性研究已經(jīng)初見成效,但在卷積神經(jīng)網(wǎng)絡(luò)類網(wǎng)絡(luò)中,卷積等運算帶來的復(fù)雜問題在可解釋性上還有待研究.如何建立一套適用于晶圓缺陷識別的神經(jīng)–符號模型是本文研究的重點.

針對晶圓缺陷識別問題的特點,基于神經(jīng)與符號相結(jié)合的理念,本文采用一種基于SDAE的神經(jīng)–符號模型[22],構(gòu)建了基于知識的堆疊降噪自編碼器(Knowledge-based stacked denoising auto-encoder,KBSDAE),并建立了一套基于KBSDAE的晶圓表面缺陷識別系統(tǒng),以達到快速、高效識別晶圓表面缺陷的目的.本文的主要貢獻包括:1)提出了全新的符號規(guī)則形式,可有效地表達SDAE的深度網(wǎng)絡(luò)結(jié)構(gòu),極大地減少了知識轉(zhuǎn)化過程中的信息損失;2)提出了規(guī)則抽取與插入算法,在實現(xiàn)知識高效轉(zhuǎn)化的同時提升SDAE 特征學(xué)習(xí)性能;3)提出了基于神經(jīng)–符號系統(tǒng)的晶圓缺陷識別模型,既可以識別缺陷模式,也可以通過規(guī)則理解網(wǎng)絡(luò)內(nèi)部的推理邏輯,并使得深度神 經(jīng)網(wǎng)絡(luò)具有了可解釋性.基于SDAE的神經(jīng)–符號系統(tǒng)成功應(yīng)用在實際工業(yè)案例中且取得了較好的特征學(xué)習(xí)和識別性能,是在晶圓表面缺陷識別領(lǐng)域的一次新的嘗試.

1 堆疊降噪自編碼器

自編碼器由輸入層(x)、隱藏層(h)和輸出層(y)構(gòu)成,是深度學(xué)習(xí)的經(jīng)典模型之一[1].它通過編碼和解碼運算重構(gòu)輸入數(shù)據(jù),通過減少重構(gòu)誤差為目標達到特征提取的目的.由于訓(xùn)練過程中沒有利用數(shù)據(jù)標簽,而只是以輸入數(shù)據(jù)作為重構(gòu)目標,屬于典型的無監(jiān)督學(xué)習(xí).

自編碼器的編碼階段在輸入層x和隱藏層h之間,具體表示為:

式中,σ是非線性激活函數(shù)Sigmoid 函數(shù):σ(x)=1/(1+e-x),參數(shù)集合θ={w,b}.解碼階段體現(xiàn)在隱藏層h和輸出層y之間,表示為:

式中,σ′是非線性激活函數(shù)Sigmoid 函數(shù),參數(shù)集合θ′={w′,b′}.

通過最小化重構(gòu)誤差函數(shù)L(x,y)=‖x-y‖2來逐步地調(diào)整網(wǎng)絡(luò)內(nèi)部的參數(shù)θ和θ′,優(yōu)化方式選擇隨機梯度下降法,最優(yōu)參數(shù)如下:

降噪自編碼器(Denoising auto-encoder,DAE)是基于自編碼器的一種變形,通過噪聲污染訓(xùn)練輸入數(shù)據(jù)以增加網(wǎng)絡(luò)的魯棒性,防止過擬合[31].圖1展示了DAE的訓(xùn)練過程,首先利用隨機函數(shù)以一定的概率p將原訓(xùn)練數(shù)據(jù)x中的一些單元置零得到被污染的數(shù)據(jù); 其次通過自編碼器對進行重構(gòu);最后調(diào)整網(wǎng)絡(luò)參數(shù)θ和θ′.DAE 相較于傳統(tǒng)的自編碼器具有更強的泛化能力和魯棒性.

圖1 堆疊降噪自編碼器Fig.1 Stacked denoising autoencoder

將若干個DAE 堆疊起來,就可以形成SDAE,如圖1 所示.其訓(xùn)練過程首先是對逐個DAE 進行訓(xùn)練,其次通過反向傳播算法微調(diào)整個網(wǎng)絡(luò).相較于淺層神經(jīng)網(wǎng)絡(luò),層度更深的SDAE 在特征提取方面更加優(yōu)秀,在處理高維數(shù)據(jù)問題上具有明顯優(yōu)勢.從符號與網(wǎng)絡(luò)相結(jié)合的角度來看,它的網(wǎng)絡(luò)結(jié)構(gòu)簡單并且支持將Sigmoid 作為激活函數(shù),這兩個特性使SDAE 更容易與符號規(guī)則進行集成.

2 神經(jīng)-符號規(guī)則系統(tǒng)

符號規(guī)則的應(yīng)用不僅能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)的描述和解釋,還能夠提高模型性能.本節(jié)主要討論SDAE與符號規(guī)則結(jié)合建立模型的方法.如圖2 所示,該模型的建立分為3 步:1)建立并訓(xùn)練標準SDAE;2)從SDAE 中抽取知識得到符號規(guī)則與分類規(guī)則;3)將符號與分類規(guī)則插入SDAE 進行深度學(xué)習(xí).符號規(guī)則和神經(jīng)網(wǎng)絡(luò)的集成可實現(xiàn)二者優(yōu)勢的互補,規(guī)則可以描述網(wǎng)絡(luò)并表達深度網(wǎng)絡(luò)中的知識,而KBSDAE 可以更有效地識別晶圓缺陷.

圖2 堆疊降噪自編碼器的神經(jīng)–符號模型Fig.2 Stacked denoising autoencoder based neural-symbolic model

2.1 符號規(guī)則系統(tǒng)

以往邏輯符號規(guī)則種類繁多,但都有同樣的缺點,即表現(xiàn)形式和推理邏輯單一.這一缺點導(dǎo)致傳統(tǒng)規(guī)則在描述參數(shù)龐大的深度網(wǎng)絡(luò)時會出現(xiàn)規(guī)則體積龐大、描述效率底下和難以推導(dǎo)并理解的問題.針對SDAE的網(wǎng)絡(luò)特點,本文在傳統(tǒng)規(guī)則的基礎(chǔ)上提出了一種數(shù)值和符號相結(jié)合的規(guī)則系統(tǒng),解決SDAE 不能被解釋的問題.

作為一種符號語言,規(guī)則的形式對規(guī)則本身意義重大,合適的形式才能更高效表示和描述網(wǎng)絡(luò).由于SDAE 包含特征提取部分的降噪自編碼器(Denoising auto-encoders,DAEs)和用于分類的分類器,雖然2 部分的形式相同,但是運行機理截然不同.為了能更精準地描述網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)不同部分的特性確定了不同的規(guī)則形式:置信度規(guī)則和MofN (N個先行條件中的M個為真)規(guī)則,并將它們有機地結(jié)合起來.

網(wǎng)絡(luò)特征提取部分由多個DAE 疊加形成,其訓(xùn)練方式為逐層訓(xùn)練.為了保證置信度規(guī)則能夠有效描述網(wǎng)絡(luò)的這一部分,置信度規(guī)則具備了以下特性[21-22]:規(guī)則本身支持逐層推導(dǎo);規(guī)則節(jié)點與網(wǎng)絡(luò)神經(jīng)元一一對應(yīng);置信值是對網(wǎng)絡(luò)權(quán)值進行擬合得出的;推理過程由符號和數(shù)值共同完成.這些特性賦予符號規(guī)則3 種能力:1)規(guī)則具備描述大型網(wǎng)絡(luò)的能力,且逐層推導(dǎo)的邏輯意義與DAEs 部分一致;2)符號規(guī)則的結(jié)構(gòu)與網(wǎng)絡(luò)基本相同且元素一一對應(yīng),網(wǎng)絡(luò)內(nèi)部的邏輯關(guān)系可以被遷移到規(guī)則上作為一種網(wǎng)絡(luò)內(nèi)部關(guān)系的表現(xiàn);3)規(guī)則可以作為深度神經(jīng)網(wǎng)絡(luò)的一種簡化表示,具備一定的識別能力.所以符號規(guī)則的運行其實是對神經(jīng)網(wǎng)絡(luò)行為的一種簡化模仿,而這種模仿過程是人類所能理解的.

置信度規(guī)則[21]是一個符合充要條件的等式:c:h ?x1∧···∧xn,其中c是實數(shù)類型,定義為置信值;h和xi(i∈[1,n])為假設(shè)命題.這種符號規(guī)則形式與文獻[21]的規(guī)則相似,但由于面向的網(wǎng)絡(luò)不同,規(guī)則符號的意義也不同.本文定義具體的置信度符號規(guī)則:

該規(guī)則被解釋為:當(dāng)x1,···,xn命題成立時,h命題也成立的置信值為c,反之也成立.其中是符號規(guī)則標簽,解釋為第l 層第j個符號規(guī)則;代表DAE 中第l 個隱藏層中第j個神經(jīng)元;xi(i∈[1,n])代表DAE 輸入層中第i個神經(jīng)元,P和N分別代表對產(chǎn)生積極和消極影響的輸入層神經(jīng)元集合.根據(jù)表達式可以看出,置信度規(guī)則和DAEs 具有相似的堆疊嵌套結(jié)構(gòu),這可以最大化模擬網(wǎng)絡(luò)結(jié)構(gòu).

SDAE的分類器層一般為單層前向全連接網(wǎng)絡(luò),通過反向傳播算法進行訓(xùn)練.這種經(jīng)典網(wǎng)絡(luò)的規(guī)則模型研究較為成熟,故本文采用Towell等[32]提出的MofN 規(guī)則形式.這種規(guī)則通過對網(wǎng)絡(luò)權(quán)重值和偏差的歸納與總結(jié),達到從網(wǎng)絡(luò)中抽取規(guī)則的目的.相較于同類型的其他規(guī)則,MofN 具備形式靈活和體積小的優(yōu)點,這使得它可以適用于規(guī)模較大的網(wǎng)絡(luò).分類規(guī)則的基本表達形式如下:

該規(guī)則被解釋為:如果規(guī)則的N個前層神經(jīng)元中有M個被激活,那么這條規(guī)則所對應(yīng)的神經(jīng)元也激活.為了使MofN 規(guī)則與置信度規(guī)則更加契合,使用式(5)的泛化形式:

式中,NumTrue代表神經(jīng)元激活的數(shù)量;A代表一類前層神經(jīng)元的集合,w代表一類連接的權(quán)重值,類別通過對權(quán)重值聚類得到;bias代表目標神經(jīng)元的偏置值;C表示具體的類標簽.

上述2 種規(guī)則的有機結(jié)合形成了一套規(guī)則體系(Confidence &MofN rule,CM-R)[22],具備以下優(yōu)點:規(guī)則本身具備分層特性,可進行逐層抽取和推導(dǎo),與SDAE的堆疊邏輯相通;規(guī)則根據(jù)網(wǎng)絡(luò)不同部分的不同特性有針對的進行設(shè)計,極大地減少了抽取過程中的信息損失;這兩種規(guī)則的集成使CM-R 在處理復(fù)雜數(shù)據(jù)時也具有較高準確度.

CM-R 可逐層推理的特性是其能夠適配SDAE的根本原因,也是置信度規(guī)則和MofN 規(guī)則可以集成的根本因素,所以規(guī)則層與層之間的推理方法是極為重要的.本文根據(jù)將規(guī)則的數(shù)值特性和符號特性相結(jié)合,提出了一套適用于CM-R的推理算法(Rule inference,Rule-INF)[22].Rule-INF 以符號結(jié)構(gòu)作為規(guī)則層內(nèi)推導(dǎo)依據(jù),以數(shù)值作為層與層之間的聯(lián)系,將整個CM-R 聯(lián)系了起來,使之成為一個完整的規(guī)則系統(tǒng).這一算法最大特點是通過對置信值的推導(dǎo)使規(guī)則突破了離散二值的限制,可以被用來推導(dǎo)連續(xù)數(shù)據(jù).算法細節(jié)如下所示,首先將初始化后的數(shù)據(jù)輸入置信度規(guī)則中進行逐層推導(dǎo),其中上層規(guī)則推導(dǎo)輸出的信任值(B)可作為下層規(guī)則的輸入數(shù)據(jù);其次將頂層置信度規(guī)則輸出的信任值調(diào)整為布爾向量;最終利用MofN 規(guī)則根據(jù)調(diào)整后的信任值(1 表示真、0 表示假)確定數(shù)據(jù)類別.

算法1.Rule-INF

2.2 知識抽取

本節(jié)將呈現(xiàn)從SDAE 模型中抽取規(guī)則.由于符號規(guī)則CM-R 是知識的載體,故知識抽取也叫規(guī)則抽取.CM-R 包含置信度規(guī)則和MofN規(guī)則,分別對應(yīng)SDAE 中的DAE 和分類器部分,下面對2 種規(guī)則進行討論.

置信度規(guī)則面向特征提取部分[21]有逐層無監(jiān)督訓(xùn)練和多個DAE 堆疊而成2 個特點.為了使知識抽取過程更加符合網(wǎng)絡(luò)的訓(xùn)練邏輯,引入了逐層抽取的概念,即在自監(jiān)督訓(xùn)練過程中對每一個DAE單獨抽取規(guī)則.規(guī)則抽取原理是將置信值cjsj最大化擬合權(quán)重值wj,并利用符號解釋網(wǎng)絡(luò)結(jié)構(gòu).根據(jù)DAE 基本原理,其輸入數(shù)據(jù)x到隱含表示h的映射表示為:

式中,σ表示激活函數(shù)Sigmoid,b表示偏置值.根據(jù)式(7),本文提出新的函數(shù),可將數(shù)據(jù)x映射到隱藏層空間中:

算法2.置信度符號規(guī)則抽取.

根據(jù)上述分析,從DAEs 中抽取置信度符號規(guī)則的置信度符號規(guī)則抽取(Confidence rule extraction,Confidence-RE)如算法2 所示.該算法面向單個DAE,所以只需根據(jù)網(wǎng)絡(luò)將其迭代運行,抽取出完整且具有堆疊特性的置信度規(guī)則集[22].

MofN 規(guī)則[25]面向SDAE的分類器部分,本文僅討論以單層神經(jīng)元為分類器的網(wǎng)絡(luò),后文用分類層表述這一單層神經(jīng)網(wǎng)絡(luò).在進行規(guī)則抽取之前首先要對網(wǎng)絡(luò)的微調(diào)過程進行假設(shè):分類層和隱藏層HN(如圖1 所示)只具備激活(輸出值接近1)和不激活(輸出值接近0)兩種輸出狀態(tài).這一假設(shè)使得分類器相關(guān)的神經(jīng)元具備布爾特性,把規(guī)則抽取問題轉(zhuǎn)化成了神經(jīng)元是否激活的規(guī)律性問題.

為了符合上述假設(shè),將邏輯回歸函數(shù)作為激活函數(shù)對網(wǎng)絡(luò)進行微調(diào).分類層的微調(diào)原理為:

式中,Cj表示分類層中第j個神經(jīng)元,邏輯回歸函數(shù)σ表示為:

由式(12)和式(13)可知,當(dāng)神經(jīng)元的加權(quán)輸入值大于偏置值時,其輸出值接近1,反之則接近0.這與假設(shè)相匹配.MofN的規(guī)則抽取過程可以看作是搜索使分類層神經(jīng)元激活的條件情況.

分類器部分神經(jīng)元的輸出值被簡化成了0 或1,使得神經(jīng)元的輸入被簡化成只與權(quán)重值有關(guān),式(12)可簡化為:

這一簡化使規(guī)則抽取只需關(guān)注分類層神經(jīng)元的連入權(quán)重和自身的偏置,顯著降低規(guī)則和算法復(fù)雜度.

MofN 規(guī)則抽取算法分為4 步:1)通過K均值將分類層神經(jīng)元的連入權(quán)重值聚類并將組內(nèi)成員的權(quán)重值重置為組標簽;2)對神經(jīng)元影響不大的權(quán)重類刪除(歸零);3)固定權(quán)重值,通過反向傳播算法重新對神經(jīng)元偏置進行優(yōu)化;4)對每一個分類層神經(jīng)元形成一條規(guī)則,其中神經(jīng)元偏置作為閾值,權(quán)值連接的HN層神經(jīng)元作為先驗元素.

2.3 知識插入

在獲得有效知識之后,進一步討論如何將規(guī)則所代表的知識插入到網(wǎng)絡(luò)當(dāng)中,以達到提升網(wǎng)絡(luò)特征學(xué)習(xí)的目的.知識插入網(wǎng)絡(luò)的過程一般為利用規(guī)則對深度網(wǎng)絡(luò)進行初始化,這極大程度地決定著網(wǎng)絡(luò)模型的性能[17].在知識插入作用下,深度網(wǎng)絡(luò)的初始化和訓(xùn)練將更加容易且有效[22].在網(wǎng)絡(luò)的初始階段就賦予一定的知識,可以提高網(wǎng)絡(luò)學(xué)習(xí)性能并降低對數(shù)據(jù)的依賴程度.

在特征提取部分,置信度規(guī)則被用于初始化網(wǎng)絡(luò)并幫助網(wǎng)絡(luò)訓(xùn)練.置信度規(guī)則的符號邏輯被用于初始化DAE 網(wǎng)絡(luò)結(jié)構(gòu);置信值被用于初始化DAE中的權(quán)重值.如圖3 所示,利用一個簡單的規(guī)則作為例子描述了置信度規(guī)則初始化DAE的過程[22].

圖3 置信度規(guī)則初始化網(wǎng)絡(luò)過程示意圖Fig.3 The process of network initialization base on confidence rule

在DAE 被初始化之后,對其進行自監(jiān)督訓(xùn)練過程中,為了保證知識能夠保存在網(wǎng)絡(luò)中而不會隨著訓(xùn)練的進行而失效,選擇置信度較高的規(guī)則進行權(quán)值參數(shù)凍結(jié)處理.通過這種方法既可以保證知識的有效插入,也可以保證模型的魯棒性.特征提取部分具體知識插入過程如下所示:

步驟1.建立一個DAE,對每一個規(guī)則cj:hj ?x1∧···∧xn,hj和x1∧···∧xn分別對應(yīng)目標網(wǎng)絡(luò)DAE的隱藏層神經(jīng)元以及輸入層神經(jīng)元集.

步驟2.確定在hj與x1,···,xn之間的連接權(quán)重scj.如果輸入神經(jīng)元對應(yīng)規(guī)則中的激活元素,那么s=1,反之則s=-1. 其余的與hj沒有關(guān)聯(lián)以及隱藏層與輸出層之間的連接權(quán)重設(shè)為較小的隨機值.神經(jīng)元偏差設(shè)為隨機值.

步驟3.采用反向傳播算法訓(xùn)練網(wǎng)絡(luò),其中部分被規(guī)則初始化的連接權(quán)重不被更新.為了保證插入的規(guī)則在訓(xùn)練過程中與網(wǎng)絡(luò)較好嵌合,利用隨機數(shù)對隱藏層神經(jīng)元輸出進行二值化處理:隨機生成一個數(shù)值在0~1的隨機數(shù)R,如果hj >R那么hj=1,反之則hj=0.

步驟4.對每一個DAE 重復(fù)步驟1~3 進行訓(xùn)練,直到所有堆疊的DAEs 訓(xùn)練完成.

分類器部分僅由單層神經(jīng)元構(gòu)成,所以這部分的初始化可以簡化成如何將規(guī)則插入單層前向神經(jīng)網(wǎng)絡(luò)問題.由于MofN 規(guī)則[17,22]包含數(shù)和符號兩部分,故分類器的知識插入過程可以具體化為利用MofN規(guī)則初始化單層前向神經(jīng)網(wǎng)絡(luò)的過程.

初始化過程的主要任務(wù)是確定分類層神經(jīng)元的連入權(quán)重值和偏置值.如圖4 所示,對一個簡單的MofN 規(guī)則:

首先利用其中的符號確定網(wǎng)絡(luò)的整體結(jié)構(gòu),其次利用w和b分別確定第i個分類層神經(jīng)元的連入權(quán)重值和偏置,最后添加規(guī)則中沒有提到的關(guān)系并將這些權(quán)重值設(shè)為極小的隨機數(shù),這一過程從SDAE的角度來看是對分類器C以及隱藏層HN部分的初始化,圖4 為了簡潔表示省略了大部分連接線.隨著進一步的研究發(fā)現(xiàn),將規(guī)則過多的插入分類器中反而會使網(wǎng)絡(luò)性能降低,這是由于網(wǎng)絡(luò)參數(shù)被過度初始化從而使魯棒性降低所導(dǎo)致的.經(jīng)過理論[32]和試驗對比,最終確定MofN 規(guī)則的插入比率為1/4,其中篩選過程完全隨機.

圖4 MofN 規(guī)則初始化網(wǎng)絡(luò)過程示意圖Fig.4 The process of network initialization based on MofN rules

2.4 KBSDAE 訓(xùn)練

通過規(guī)則插入,KBSDAE的結(jié)構(gòu)參數(shù)被確定完成,然后對網(wǎng)絡(luò)進行進一步訓(xùn)練,使其具有更好的性能.KBSDAE的訓(xùn)練過程首先是進行逐個DAE的無監(jiān)督訓(xùn)練,之后進行網(wǎng)絡(luò)微調(diào),但過程中的參數(shù)更新策略不同.在自監(jiān)督訓(xùn)練階段,選擇將置信度關(guān)系高的參數(shù)進行凍結(jié)處理,在訓(xùn)練過程中盡可能保護知識不被改變;在微調(diào)階段,被MofN 規(guī)則確定參數(shù)在更新過程中加入了抑制系數(shù)L,改變了這一部分參數(shù)的學(xué)習(xí)率ηr=η·L.通過上述訓(xùn)練策略,可以在知識插入效率和網(wǎng)絡(luò)性能之間尋找到平衡點,使得網(wǎng)絡(luò)的性能被最大化提高.

在訓(xùn)練過程中,KBSDAE的規(guī)則抽取和插入的乘-加操作為11.02 KB.這一過程消耗了一定的計算量,但同時也加快了KBSDAE的收斂速度,大幅減少了KBSDAE的訓(xùn)練耗時.相同條件下(訓(xùn)練數(shù)據(jù)18 000 個樣本),即使加上規(guī)則抽取與插入的時間成本,KBSDAE 訓(xùn)練至收斂的平均訓(xùn)練時間僅是SDAE的1.2 倍,并且這個差距會隨著數(shù)據(jù)量的增大而減小.在預(yù)測過程中,KBSDAE 對每一例數(shù)據(jù)的乘-加操作為4.41 KB,內(nèi)存占用為8.33 KB.對比深度神經(jīng)網(wǎng)絡(luò)(如GoogleNet[33])計算量更少并且內(nèi)存占用量也更小,更適合工業(yè)過程的線上識別環(huán)境.

與SDAE 相比,KBSDAE 具有以下優(yōu)點:模型通過數(shù)據(jù)和規(guī)則兩種方式進行學(xué)習(xí),降低了深度網(wǎng)絡(luò)對數(shù)據(jù)的依賴性,這在工業(yè)領(lǐng)域是具有重要意義的;初始化后的網(wǎng)絡(luò)本身具備更合理的結(jié)構(gòu)參數(shù),使模型具備更高的識別精度和更快的收斂速度[34].綜上所述,KBSDAE 更適合晶圓缺陷識別領(lǐng)域.

3 晶圓缺陷探測與識別系統(tǒng)

本文提出的基于KBSDAE 晶圓缺陷識別方案如圖5 所示.整個探測識別分為離線建模和在線探測2 個部分.離線建模方面,首先對數(shù)據(jù)庫中已有的晶圓圖進行降噪處理突出晶圓的模式特征,其次提取圖像的幾何、灰度、紋理等特征,最后通過神經(jīng)–符號系統(tǒng)建立缺陷探測與識別系統(tǒng).該系統(tǒng)第1步是通過正常特征數(shù)據(jù)建立基于KBSDAE的監(jiān)控控制圖,用于晶圓缺陷探測;第2 步是通過缺陷特征數(shù)據(jù)構(gòu)建KBSDAE 模型,用于晶圓缺陷識別.

圖5 基于KBSDAE的晶圓表面缺陷識別系統(tǒng)Fig.5 Wafer surface defect recognition system based on KBSDAE

3.1 圖像濾噪與特征產(chǎn)生

晶圓圖像通常參雜各種噪聲,直接使用往往不能達到預(yù)期效果,故首先采用非線性空域濾噪技術(shù)[35]對晶圓圖進行濾噪處理.非線性空域濾噪法是直接處理圖像像素的一種濾噪方法,本文利用像素領(lǐng)域內(nèi)灰度值的中值代替該像素的值.

從晶圓圖中直接提取有效特征可在保證模型精度的同時大大降低計算復(fù)雜度,對本系統(tǒng)具有實際意義.因此,本文從幾何、灰度、紋理、投影4 個方面進行特征提取,其中幾何特征用于描述形狀和大小,其余特征用于描述灰度特征,具體特征集列表如表1 所示.總特征維度51 維,其中幾何特征18 維,投影特征24 維,其余特征包括重心坐標、對比度等共9 維.盡管提取了有效特征,但該特征集仍具有較高維度,并且包含很多噪音,不適合直接輸入歸類器進行分類識別.因此,本文采用KBSDAE 進行進一步的特征學(xué)習(xí)及分類識別.

表1 晶圓圖像特征集Table 1 Wafer map feature set

從晶圓中進行特征產(chǎn)生有以下3 個優(yōu)點:1)以低維的原始特征集代替高維的圖像將使得深度網(wǎng)絡(luò)模型結(jié)構(gòu)更加簡單有效;2)將圖像的像素特征轉(zhuǎn)換為簡單的特征等可以更好地簡化規(guī)則,然后提升深度網(wǎng)絡(luò)模型的可解釋性;3)規(guī)則關(guān)聯(lián)可理解的物理特征而不是像素特征將提高規(guī)則的可理解性與有效性.

3.2 晶圓缺陷探測與識別系統(tǒng)構(gòu)建

整個晶圓缺陷識別過程分兩步走,首先進行缺陷探測,其次進行缺陷識別.缺陷探測的主要目的是區(qū)分正常和存在缺陷的晶圓.缺陷識別的主要目的是識別晶圓缺陷的具體類別.將缺陷探測和識別分解為2 個問題:1)兩分類可以有效提高故障探測性能;2)九分類問題轉(zhuǎn)換為八分類問題,更少的分類可有效提高深度網(wǎng)絡(luò)模型的缺陷識別性能.

本文缺陷探測模型如圖6 上半部分所示,主要包含基于KBDAE的控制圖與KBDAE 識別器兩部分.具體建模過程為:首先利用部分數(shù)據(jù)建立并訓(xùn)練標準DAEs 并利用Confidence-RE 算法抽取置信度規(guī)則,其次利用規(guī)則初始化基于知識的降噪自編碼器(Knowledge-based DAEs,KBDAEs)并用另一部分數(shù)據(jù)進行訓(xùn)練,最后將KBDAEs 輸出的特征數(shù)據(jù)作為控制變量建立控制圖,設(shè)定控制圖信任限為99.73% (3σ合格率),制造過程狀態(tài)檢測指標為在線抽取向量特征與在控過程特征的歐氏距離D:

圖6 晶圓缺陷探測與識別流程Fig.6 The process of defect detecting and identifying on wafer

控制圖可以在保證制造過程異常探測性能的同時,實現(xiàn)制造過程狀態(tài)的可視化,是生產(chǎn)過程中有效的質(zhì)量檢測工具.

晶圓缺陷識別模型的建立過程如圖6 下半部分所示,首先利用部分數(shù)據(jù)建立SDAE 模型并通過規(guī)則抽取算法得到規(guī)則集CM-R,其次利用CM-R 構(gòu)建KBSDAE 并用另一部分數(shù)據(jù)訓(xùn)練.通過上述方法可得到一個可以被分析且具有高識別性能的SDAE模型.

4 晶圓缺陷探測與識別系統(tǒng)

WM-811K[36]的圖像數(shù)據(jù)來自實際半導(dǎo)體生產(chǎn)線.根據(jù)晶圓圖中像素位置的掃描值,分別對正常、缺陷和空元素使用青色、品紅和白色進行標注.WM-811K 數(shù)據(jù)集包含8 個缺陷模式(Center、Edge-ring、Edge-local、Random、Local、Scratch、Near-full、Donut)和None-pattern,如圖7 所示.數(shù)據(jù)集分為訓(xùn)練集和測試集,分別用于構(gòu)建模型和測試模型的性能.用于進行故障檢測和識別的晶圓片映射的詳細信息如圖8 所示.很明顯,WM-811K 數(shù)據(jù)集存在類不平衡,這將給KBSDAE帶來挑戰(zhàn).

圖7 正常模式與8 種缺陷模式的晶圓圖Fig.7 Normal pattern and eight defect patterns of wafer

圖8 WM-811K 中晶圓圖數(shù)據(jù)構(gòu)成Fig.8 Data Structure of wafer map in WM-811K

4.1 晶圓表面缺陷探測

在缺陷探測系統(tǒng)中,首先利用基于KBSDAE的監(jiān)控圖檢測晶圓缺陷.使用所有數(shù)據(jù)的60%作為訓(xùn)練集來構(gòu)建KBSDAE (其中20%數(shù)據(jù)用來建立標準SDAE,其他數(shù)據(jù)用來訓(xùn)練KBSDAE),10%的數(shù)據(jù)作為測試集來執(zhí)行缺陷檢測.為了體現(xiàn)KBSDAE的優(yōu)越性,增加了基于原始數(shù)據(jù)和SDAE的控制圖結(jié)果進行對比.基于原始數(shù)據(jù)、SDAE 和KBSDAE的監(jiān)控圖分別如圖9~11 所示,其中閾值設(shè)置為99.73%,在假報率和漏報率之間取得較好的權(quán)衡.對比3 個控制圖可以發(fā)現(xiàn)KBSDAE 控制圖的表現(xiàn)明顯優(yōu)于基于原始數(shù)據(jù)和SDAE的控制圖.由圖11可以看出,監(jiān)控圖幾乎檢測到了所有的缺陷,并且不會觸發(fā)太多的虛警(虛警率為0.05%).結(jié)果表明,該監(jiān)測圖對晶圓圖缺陷的在線檢測是有效的.

圖9 基于原始數(shù)據(jù)的控制圖Fig.9 Control chart based on raw data

圖10 基于SDAE 提取特征的控制圖Fig.10 Control chart based on feature extracted by SDAE

圖11 基于KBSDAE 提取特征的控制圖Fig.11 Control chart based on feature extracted by KBSDAE

圖9~11 給出了基于原始數(shù)據(jù)、SDAE 和KBSDAE 控制圖的缺陷模式檢出率.表2 給出了3 種控制圖的缺陷探測率.KBSDAE 控制圖的檢出率明顯高于其他2 種圖,并且不會出現(xiàn)對個別缺陷完全不能識別的問題.KBSDAE 控制圖可以檢測出93.52%的缺陷晶圓圖,可滿足工業(yè)應(yīng)用的要求.雖然SDAE 輸出特征對比原始數(shù)據(jù)更加有效,但控制圖對個別缺陷類完全無法探測.但是,KBSDAE對幾乎所有缺陷類可以進行有效的探測,其缺陷探測顯著優(yōu)于SDAE.KBSDAE 提取的特征可以極大地提升控制圖的缺陷探測性能.同時,KBSDAE可以更好地處理類不平衡數(shù)據(jù),這是由于知識插入顯著地提高了其特征學(xué)習(xí)性能.

表2 3 種控制圖的缺陷探測率 (%)Table 2 Defect detection capabilities of three control charts (%)

4.2 規(guī)則有效性驗證

訓(xùn)練SDAE 并從容中抽取規(guī)則,從規(guī)則的可理解性、準確度、信息保真度方面進行有效性驗證.本節(jié)從訓(xùn)練數(shù)據(jù)(僅有故障數(shù)據(jù))中隨機選取4 000 例數(shù)據(jù)訓(xùn)練標準SDAE 網(wǎng)絡(luò),網(wǎng)絡(luò)由2 層DAE 和全連接分類層堆疊而成,結(jié)構(gòu)為51-60-15-8.

將表3 和表4的規(guī)則結(jié)合起來,就可以形成一套CM-R 規(guī)則.從表現(xiàn)形式和代表意義上可以得出,這套規(guī)則有效地描述了SDAE 網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu),達到了對深度網(wǎng)絡(luò)進行知識抽取和網(wǎng)絡(luò)結(jié)構(gòu)解釋的目的.通過CM-R的表示,神經(jīng)網(wǎng)絡(luò)中的運算邏輯可被以一種簡單有效的方式進行表達.通過對CMR的推理,規(guī)則集可以作為一個簡單的分類器,并且具備“白盒”模型的特性.可以通過對規(guī)則集的推導(dǎo),了解深度網(wǎng)絡(luò)內(nèi)部分類機制,也可量化輸入特征的重要程度.

表3 部分置信度符號規(guī)則Table 3 Part of Confidence Rule

表4 部分MofN 規(guī)則Table 4 Part of MofN Rule

可將規(guī)則集看作一種分類器,利用1 000 例測試數(shù)據(jù)分別對CM-R 和SDAE 進行準確率測試,其中CM-R的準確率為73.96%,SDAE的準確率為88.67%.從測試結(jié)果可以看出規(guī)則和網(wǎng)絡(luò)之間存在差距,這是因為規(guī)則在提取過程中會出現(xiàn)信息損失現(xiàn)象.為了驗證這種信息損失對CM-R的影響,對比了規(guī)則和對應(yīng)標準網(wǎng)絡(luò)在相同測試數(shù)據(jù)下的推導(dǎo)精度.首先,利用不同訓(xùn)練數(shù)據(jù)分別訓(xùn)練20 個標準雙層DAE 網(wǎng)絡(luò)并從中抽取規(guī)則.其次,對20 個SDAE 模型分別用20 例不同的測試數(shù)據(jù)進行測試,結(jié)果如圖12 所示.圖12 橫坐標表示標準網(wǎng)絡(luò)在測試集上的預(yù)測精度,縱坐標表示規(guī)則在測試集上的推導(dǎo)精度,線代表網(wǎng)絡(luò)和規(guī)則測試精度相同的基準線,每個點代表一組模型(一個標注SDAE+從中抽取的CM-R)的測試結(jié)果.可以看出,大部分點都在基準線附近,證明了整套規(guī)則算法的有效性;近乎所有點都在線下方,證明信息損失是存在的2 張圖結(jié)果點較為密集,證明模型具有較識別高穩(wěn)定性,即便訓(xùn)練數(shù)據(jù)量發(fā)生變化,規(guī)則精度也不會發(fā)生突變.結(jié)果表明CM-R 規(guī)則具有較好的保真度[37].盡管CM-R 規(guī)則具有一定的信息損失,但是依然有效地提高了KBSDAE的特征學(xué)習(xí)性能.

圖12 SDAE 和相應(yīng)的符號規(guī)則的晶圓表面缺陷識別率對比Fig.12 Comparison of wafer defect recognition rates between SDAE and corresponding rules

4.3 KBSDAE 訓(xùn)練過程分析

知識插入不僅使KBSDAE的初始化具備了一定的模式識別能力,而且將有效地提升KBSDAE的無監(jiān)督訓(xùn)練學(xué)習(xí)和有監(jiān)督的微調(diào)學(xué)習(xí).為了驗證知識插入網(wǎng)絡(luò)是否可以為缺陷識別帶來積極影響,首先利用規(guī)則初始化網(wǎng)絡(luò),并利用余下訓(xùn)練數(shù)據(jù)(僅包含缺陷數(shù)據(jù))訓(xùn)練KBSDAE,其次利用訓(xùn)練數(shù)據(jù)訓(xùn)練了規(guī)模相同的SDAE.為分析兩種網(wǎng)絡(luò)的表現(xiàn),記錄了模型在無監(jiān)督訓(xùn)練和微調(diào)階段的均方誤差變化.由圖13 可以看出,不管是在無監(jiān)督訓(xùn)練還是在微調(diào)階段,KBSDAE的均方誤差相較于SDAE 都具有更快的收斂速度和更低的收斂區(qū)間.這證明了利用知識初始化網(wǎng)絡(luò)所帶來的積極影響,也進一步證明了本文提出方法的有效性.

圖13 KBSDAE 和SDAE 訓(xùn)練過程的均方誤差變化對比Fig.13 Comparison of mean square errors of KBSDAE and SDAE training processes

表5 進一步給出了KBSDAE 在測試數(shù)據(jù)上的識別結(jié)果混淆矩陣.這個矩陣中的對角線元素是每個缺陷模式的識別率(總體準確率為91.2%).由表5 可以看出,大部分錯誤來自于對局部(Local)、劃痕缺陷(Scratch)和近滿(Near-full)的錯誤識別,其中Local 和Scratch 出現(xiàn)誤判是由于它們本身的類別特征具有相似性導(dǎo)致容易混淆.Near-full 則是因為數(shù)據(jù)極少導(dǎo)致模型對該類的學(xué)習(xí)不足,但在提取規(guī)則幫助下,它被準確識別準確率達到了84%.圖14是被誤判的Local 和邊緣局部(Edge-local)的晶圓圖,它們之間存在共性,故鑒定邊界模糊容易混淆.一般情況下,可以接受這些錯誤分類的結(jié)果,因為這些晶圓圖可能同時具備一種以上模式特性.上述結(jié)果表明,KBSDAE 在面對類不平衡數(shù)據(jù)也能對各類進行有效分類,其主要原因是規(guī)則插入提高了KBSDAE的特征提取能力,減少了數(shù)據(jù)類不平衡對網(wǎng)絡(luò)的影響.

圖14 Local 和Edge-local 模式的晶圓圖Fig.14 Wafer maps in Local and Edge-local patterns

表5 基于 KBSDAE的晶圓缺陷識別率Table 5 Recognition rates of defects in wafers based on KBSDAE

為進一步驗證知識插入深度網(wǎng)絡(luò)的優(yōu)化效果,對比了KBSDAE 和SDAE 在不進行微調(diào)和只進行幾步微調(diào)后的測試精度.利用相同數(shù)據(jù)分別建立了結(jié)構(gòu)和訓(xùn)練參數(shù)相同的SDAE 和KBSDAE,網(wǎng)絡(luò)的2 個訓(xùn)練階段的學(xué)習(xí)率分別為0.05 和1,DAE訓(xùn)練階段噪聲率為0.05.測試結(jié)果如圖15 所示,可以看出,KBSDAE 在不進行微調(diào)的情況下仍具有一定的識別能力,與SDAE 相比提升明顯.這進一步證明了利用規(guī)則插入網(wǎng)絡(luò)可以進一步提升SDAE的特征學(xué)習(xí)性能.而經(jīng)過前幾步微調(diào)后的KBSDAE測試精度普遍高于SDAE,這證明了將知識代入網(wǎng)絡(luò)可以顯著提高網(wǎng)絡(luò)的分類性能.

圖15 不同微調(diào)訓(xùn)練步數(shù)的SDAE 與KBSDAE 分類性能比較Fig.15 Comparison of classification performances between SDAE and KBSDAE with different fine-tuning steps

4.4 超參數(shù)敏感性分析

對于KBSDAE,網(wǎng)絡(luò)結(jié)構(gòu)、規(guī)則的插入規(guī)模等參數(shù)對其判別特征提取的有效性有顯著影響.為檢驗重要參數(shù)對網(wǎng)絡(luò)識別性能的影響程度,對網(wǎng)絡(luò)進行參數(shù)敏感性分析.敏感性分析是通過在一定范圍內(nèi)改變這些參數(shù)來實現(xiàn)的.由表6 可知,KBSDAE的性能隨著隱藏層數(shù)的增加而提高,規(guī)則過多并不能提高KBSDAE的性能.其中,采用前1/3 置信度規(guī)則和1/2 分類規(guī)則構(gòu)造雙層KBSDAE 時,晶圓缺陷識別效果最好.

表6 結(jié)構(gòu)規(guī)則超參數(shù)敏感性分析Table 6 Model hyperparameter sensitivity analysis

為了檢驗網(wǎng)絡(luò)模型對數(shù)據(jù)的敏感度,對比了在不同訓(xùn)練數(shù)據(jù)量下KBSDAE 和SDAE的識別精度.利用相同訓(xùn)練數(shù)據(jù)分別訓(xùn)練SDAE 和KBSDAE,訓(xùn)練數(shù)據(jù)量從20 開始逐漸遞增.訓(xùn)練后的網(wǎng)絡(luò)利用1 000 個測試數(shù)據(jù)進行識別性能測試.結(jié)果如圖16所示,即使在訓(xùn)練數(shù)據(jù)量很小的情況下,KBSDAE依舊具有高識別精度,這是由于知識代入網(wǎng)絡(luò)的結(jié)果.并且隨著訓(xùn)練數(shù)據(jù)量的增加,KBSDAE 識別精度也穩(wěn)定高于標準SDAE.試驗結(jié)果證明KBSDAE相較于SDAE 具有更高的數(shù)據(jù)敏感度,在缺乏訓(xùn)練數(shù)據(jù)的情況下依舊可以保持較高的識別精度,這在工業(yè)應(yīng)用方面是很大的提升.

圖16 不同訓(xùn)練數(shù)據(jù)量下的KBSDAE 與 SDAE識別性能比較Fig.16 Comparison of classification performances between KBSDAE and SDAE with different training data volumes

4.5 結(jié)果比較

將KBSDAE 在WM-811K 和相關(guān)仿真數(shù)據(jù)上的分類結(jié)果與其他典型分類器進行了比較.這些經(jīng)典分類器包括DBN、堆疊自編碼器、堆疊稀疏自編碼器(Stacked sparse auto-encoder,SSAE)、SDAE、BP 神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)、基于KBANN的符號神經(jīng)系統(tǒng)(Neurosymbolic system for KBANN,INSS-KBANN)[38]、密集連接的卷積網(wǎng)絡(luò)(Densely connected convolutional network,DenseNet)[39]、殘差神經(jīng)網(wǎng)絡(luò)(Residual network,ResNet)[40]、谷歌網(wǎng)絡(luò)(Google inception net,GoogleNet)[33]、支持向量機–高斯核函數(shù)(Support vector machine with Gaussian kernel,SVMG),網(wǎng)絡(luò)–符號的模型為符號–深度置信網(wǎng)絡(luò)(Symbolic-Deep belief network,SYM-DBN)[34]、局部與非局部聯(lián)合線性判別分析(Local and nonlocal preserving projection,JLNDA)[41].為了更加全面地測試KBSDAE的性能,在本節(jié)試驗中加入仿真數(shù)據(jù)[42],這種數(shù)據(jù)被經(jīng)常應(yīng)用于驗證模型有效性,是根據(jù)晶圓故障的特性生成的帶有噪聲的數(shù)據(jù),同樣的也具備類不平衡的缺陷.圖17 展示了仿真數(shù)據(jù)的組成結(jié)構(gòu).DBN 和SYM-DBN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,受限玻爾茲曼機階段的學(xué)習(xí)率和動量分別為0.5 和0,微調(diào)階段學(xué)習(xí)率為2;SDAE 和SSAE的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動量分別為1 和0.5;INSS-KBANN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動量分別為2 和0.1;BPNN的網(wǎng)絡(luò)結(jié)構(gòu)為51-60-15-8,學(xué)習(xí)率和動量分別為2 和0.1;DenseNet、ResNet 和GoogleNet 都是直接識別圖像的卷積神經(jīng)網(wǎng)絡(luò)模型,所以直接利用晶圓圖像數(shù)據(jù)進行訓(xùn)練和測試.

圖17 仿真數(shù)據(jù)集中晶圓圖構(gòu)成示意圖Fig.17 Data structure of wafer map in simulation dataset

對上述模型分別進行五折交叉試驗,結(jié)果如表7所示.相較于傳統(tǒng)分類器,KBSDAE 在晶圓缺陷識別上具有顯著好的性能.與直接識別圖片的卷積神經(jīng)網(wǎng)絡(luò)模型相比,KBSDAE的缺陷識別率更高且網(wǎng)絡(luò)規(guī)模更小.這是因為KBSDAE 利用特征數(shù)據(jù)進行學(xué)習(xí),也說明了特征產(chǎn)生為 網(wǎng)絡(luò)帶來了一定的優(yōu)勢.符號–神經(jīng)模型(INSS-KBANN、SYM-DBN)相比原網(wǎng)絡(luò)模型(BPNN、DBN)識別效果更好,但需要更多時間進行知識提取與插入.而KBSDAE仍然顯示更好的特征學(xué)習(xí)性能.KBSDAE 在2 種數(shù)據(jù)集上的優(yōu)異表現(xiàn),也更加充分地證明了其特征學(xué)習(xí)與識別能力的優(yōu)越性.

表7 各種學(xué)習(xí)模型的晶圓缺陷識別率 (%)Table 7 Wafer defect recognition rates for various learning models (%)

5 結(jié)束語

由于實際制造工況的復(fù)雜性,如何解決深度神經(jīng)網(wǎng)絡(luò)在應(yīng)用過程中出現(xiàn)的不可解釋和依賴數(shù)據(jù)源的問題是晶圓缺陷識別領(lǐng)域迫切需要解決的問題.本文提出了一種基于SDAE的神經(jīng)–符號模型.針對SDAE 設(shè)計了適配的符號規(guī)則形式,同時提出了適用于網(wǎng)絡(luò)和規(guī)則的知識轉(zhuǎn)化算法.建立了一套基于KBSDAE的晶圓表面缺陷識別系統(tǒng),可有效地探測與識別晶圓缺陷模式.試驗結(jié)果表明,在利用晶圓數(shù)據(jù)建模的過程中不僅規(guī)則可有效描述網(wǎng)絡(luò)表述知識,而且插入知識的網(wǎng)絡(luò)同時具備高識別性能.在未來研究中,將繼續(xù)探索神經(jīng)–符號系統(tǒng),嘗試更復(fù)雜深度網(wǎng)絡(luò)模型(比如卷積神經(jīng)網(wǎng)絡(luò)),提高模型性能和可解釋性.

猜你喜歡
置信度神經(jīng)元符號
置信度輔助特征增強的視差估計網(wǎng)絡(luò)
一種基于定位置信度預(yù)測的二階段目標檢測方法
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
學(xué)符號,比多少
“+”“-”符號的由來
正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
ERK1/2介導(dǎo)姜黃素抑制STS誘導(dǎo)神經(jīng)元毒性損傷的作用
毫米波導(dǎo)引頭預(yù)定回路改進單神經(jīng)元控制
草繩和奇怪的符號