俞晟
(江南大學人工智能與計算機學院 江蘇省無錫市 214122)
白光LED 作為節(jié)能,高效的光源已經(jīng)逐步替代傳統(tǒng)的光源走進人們?nèi)粘I町斨?,白光LED 發(fā)光原理是利用LED 芯片發(fā)出藍光,激發(fā)涂覆在芯片表面的紅黃綠熒光粉,藍光與受激熒光粉發(fā)出的幾種光色混合,最終產(chǎn)生白光[1]。評價白光LED 的發(fā)光顏色質(zhì)量的重要指標是發(fā)光色度,色度可以通過在CIE(1931)XYZ 坐標系中的位置(橫坐標CX,縱坐標CY)來描述。圖1 為坐標系中各個相關(guān)色溫(CCT)對應(yīng)的麥克亞當橢圓,國際上采用這一系列橢圓規(guī)定各色溫光源的色度允許波動范圍[2],麥克亞當橢圓有3,5,7 階等不同階數(shù)區(qū)別,階數(shù)越大橢圓面積越大,根據(jù)不同的應(yīng)用需求規(guī)定色度的橢圓階數(shù)大小,圖中所展示為3 階麥克亞當橢圓。LED封裝器件最終成品測量下來的色度坐標如果偏出指定的橢圓范圍,則會被判定成不合格品,對生產(chǎn)企業(yè)造成直接經(jīng)濟損失。
圖1:LED 不同相關(guān)色溫的3 階麥克亞當橢圓
LED封裝作為LED 光源生產(chǎn)中的重要環(huán)節(jié),很大程度決定了最終光源的發(fā)光質(zhì)量。本文探討對象為大功率白光LED 器件,其封裝過程中熒光粉涂覆采用霧化噴涂工藝,因熒光粉在透明硅膠溶劑中的濃度不變,影響發(fā)光色度的主要因素有熒光粉硅膠的涂覆量[3-4],另外還有增加引線框架反射率的TiO2 硅膠涂覆量[5],以及器件所使用的藍光芯片的發(fā)光亮度與主波長。因此通過收集這些關(guān)鍵的材料信息與封裝工藝數(shù)據(jù),并加以充分的分析利用,可以實現(xiàn)過程中對最終光源色度的準確預(yù)測。LED 的封裝生產(chǎn)周期較長,當生產(chǎn)過程中擁有可靠準確的預(yù)測手段時,可以及時預(yù)警異常并采取相應(yīng)的補救措施,避免了后續(xù)大批量不合格品的產(chǎn)生,這對企業(yè)提升良品率以及保證訂單交付有著重要的意義。
關(guān)于數(shù)據(jù)的分析及預(yù)測方面,文獻[6,7]提出了一種基于k-means聚類與SVM 回歸的方法,分別應(yīng)用在對機場噪聲,光伏發(fā)電功率的預(yù)測中,通過k 均值算法對歷史數(shù)據(jù)進行聚類,然后在各個類別上分別訓(xùn)練支持向量機(SVM),對比直接使用SVM 模型,預(yù)測準確度有了明顯提升。文獻[8]利用高斯混合模型,根據(jù)歷史風力輸入和電力輸出數(shù)據(jù),將風電場內(nèi)發(fā)電機組進行了分類,選擇代表機組進行回歸訓(xùn)練,提高了預(yù)測準確性和時效性。
目前企業(yè)在LED 的熒光粉涂覆完成后抽樣檢測半成品色度,對半成品色度及最終成品色度關(guān)系直接采用神經(jīng)網(wǎng)絡(luò)進行擬合,該方法生成的預(yù)測模型忽視了LED 芯片特征和封裝狀態(tài)的差異,訓(xùn)練后得到的籠統(tǒng)的單個模型在預(yù)測準確性方面有所欠缺。本文采用高斯混合模型(Gaussian mixture model, GMM)對LED 芯片特征和封裝過程中的工藝數(shù)據(jù)進行聚類,首先利用貝葉斯信息準則(Bayesian information criterion, BIC)判定最優(yōu)聚類個數(shù),然后通過最大期望(Expectation maximization, EM)算法進行聚類,最后依靠反向傳播(Back propagation, BP)神經(jīng)網(wǎng)絡(luò)對各個類別進行回歸運算,最終模型能夠準確地預(yù)測白光LED 色度,驗證所提方法優(yōu)于直接回歸和k-means 聚類后回歸方法,為LED 色度預(yù)測提供了有效的思路。
1.1.1 模型理論及實現(xiàn)算法
高斯混合模型是通過多個高斯分布函數(shù)的線性疊加來擬合樣本分布,假設(shè)樣本數(shù)據(jù)集合服從k 個參數(shù)未知的高斯分布,服從相同分布的樣本會被劃分到一類。本文利用最大期望算法[9]對高斯混合模型的參數(shù)進行估計,求出每個分布各自的均值和協(xié)方差,具體流程如下。
第一步:初始化k 個高斯分布各自的均值μj和協(xié)方差∑j,分布的權(quán)重φj初始值設(shè)定為1/k,其中1 ≤j ≤k。
第二步:按照公式(1)和公式(2)估計每一個樣本點xi(樣本點數(shù)量為m, i=1,2,…,m,)屬于的j 類高斯分布的概率γi,j,。
式中N(﹒)為概率密度函數(shù);d 為xi的維度。
第三步:按照公式(3),公式(4)和公式(5)更新各高斯分布的參數(shù)μj,∑j,φj。
第四步:重復(fù)第二步和第三步,直到各個高斯分布參數(shù)收斂。
第五步:按照樣本點概率γi,j的最大值對樣本點進行歸類
本文選取LED 芯片亮度,波長,熒光粉硅膠涂覆量,TiO2硅膠涂覆量,半成品色度坐標(CX, CY)這些數(shù)據(jù)的中位值作為各個封裝批次的特征,共7 個維度,高斯混合聚類模型將這7 維特征作為輸入數(shù)據(jù)對各個封裝批次進行分類。
1.1.2 混合模型組數(shù)的確定
基于貝葉斯信息準則[10]來確定高斯混合分布的分組數(shù)量。BIC值的計算公式中包含似然函數(shù)項和懲罰因子項,公式如下:
式中Ln(L)為樣本點集合的高斯混合模型的極大似然函數(shù);np為混合模型中的參數(shù)個數(shù);m 是樣本點個數(shù)。
公式中Ln(L)數(shù)值越大,BIC 值越低,表示模型對樣本點分布的擬合效果越好,同時np作為懲罰因子起到防止模型過擬合的作用,因此通過計算不同組數(shù)的BIC 數(shù)值,優(yōu)先尋找低BIC 值的分組數(shù)量。
廣泛應(yīng)用的k-means 聚類方法是通過計算樣本點到每一類別中心的歐式距離,然后按照距離最小的原則進行類別判定,本文采用k-means 聚類方法同步建立分組模型,與GMM 方法做后續(xù)預(yù)測結(jié)果的對比。
k-means 聚類的分組個數(shù)利用輪廓系數(shù)(Silhouette coefficient,SC)作為評價分組合理性的指標,SC 值公式如下:
式中a(xi)為樣本點xi 與同組內(nèi)其他點距離的平均值;b(xi)為樣本點xi與最相鄰的其他組內(nèi)樣本點距離的平均值。
SC 值的取值范圍為[-1,1],SC 值越大,說明同組樣本相距越近,組間樣本相距越遠,分組效果明顯。因此在使用k-means 聚類選擇分組個數(shù)時,優(yōu)先尋找高SC 值的組數(shù)。
封裝批次分組完成后,在各組上分別建立預(yù)測模型,圖2 為先聚類后預(yù)測的模型建立流程。詳細步驟如下:
圖2:先聚類的色度坐標預(yù)測流程圖
(1)選取影響發(fā)光色度的關(guān)鍵工藝參數(shù)作為輸入特征,清洗異常數(shù)據(jù),并做數(shù)據(jù)歸一化,減少參數(shù)間數(shù)量級的差異;
(2)基于BIC 值或SC 值選取最優(yōu)的分組方案,利用聚類算法對各批次按照特征數(shù)據(jù)進行分組;
(3)以熒光粉噴涂完成后(半成品狀態(tài))抽樣檢測的色度坐標作為輸入,分別訓(xùn)練各組的預(yù)測模型,使用訓(xùn)練完成的模型預(yù)測最終成品的色度坐標。
本文色度預(yù)測模型通過BP 神經(jīng)網(wǎng)絡(luò)[11]構(gòu)建,BP 神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算
法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,其優(yōu)點就是具有很強的非線性映射能力。神經(jīng)網(wǎng)絡(luò)的隱藏層層數(shù)、各層的神經(jīng)元個數(shù)可根據(jù)具體情況設(shè)定,并且網(wǎng)絡(luò)結(jié)構(gòu)的差異導(dǎo)致其性能也有所不同。本文通過網(wǎng)格搜索選擇最優(yōu)的隱藏層層數(shù)和隱藏層包含的神經(jīng)元個數(shù),對分組后的數(shù)據(jù)分別構(gòu)建預(yù)測模型。
為了驗證模型的有效性,本文共收集白光LED 的4 個CCT 共653 個封裝批次的數(shù)據(jù),每批次單顆顆粒的成品測試數(shù)據(jù)1400 個,半成品抽樣測試數(shù)據(jù)480 個,芯片亮度波長數(shù)據(jù)1400 個,均按批次合并取中位值。熒光粉涂覆量,TiO2硅膠涂覆量則使用設(shè)備記錄的批次數(shù)據(jù)。將樣本數(shù)據(jù)按照80%,20%的比例拆分為訓(xùn)練集和測試集。
因為系統(tǒng)和機臺記錄故障,通訊異常,或者測試時接觸不良的情況,產(chǎn)生了許多非正常的生產(chǎn)數(shù)據(jù),異常數(shù)據(jù)對于預(yù)測模型的有效性和準確性有較大影響,根據(jù)異常數(shù)據(jù)的分布特點,使用基于密度的局部異常因子(Local Outlier Factor,LOF)[12]算法對數(shù)據(jù)進行清理,該方法將當前點密度明顯小于領(lǐng)域點密度判定為異常點,以收集的半成品色度坐標為例,使用該方法清理前后的數(shù)據(jù)如圖3所示。
圖3:半成品色度坐標數(shù)據(jù)清洗前后
去除異常點后需要將數(shù)據(jù)進行標準化處理,本文采用0-1 標準化將樣本每個特征都轉(zhuǎn)換為均值為0 和方差為1 的分布,公式如下:
其中μ 為某一樣本特征的平均值,σ 為標準差。
利用LED 芯片亮度,波長,熒光粉硅膠涂覆量,TiO2硅膠涂覆量,半成品色度坐標這些數(shù)據(jù)作為封裝批次的特征,對各批次進行分組。使用EM 算法分別按照GMM 分組個數(shù)2 到10 時進行聚類,計算不同分組數(shù)量時對應(yīng)的BIC 值,另外作為對比算法,也計算了k-means算法按2 到10 組聚類,各種分組數(shù)量下的SC 值。BIC 值和SC 值根據(jù)不同分組個數(shù)的變化如圖所示。
由圖4可以看到,隨著分組數(shù)量的增加,BIC數(shù)值先降低后升高,在分組個數(shù)為3 時達到最低值2488,而SC 值則是分組個數(shù)為4 時達到最大值0.32.根據(jù)最優(yōu)的聚類數(shù)量的判斷規(guī)則,取BIC值最低時,即分組數(shù)量3 作為GMM 最優(yōu)聚類數(shù)量,取SC 值最高時,即分組數(shù)量4 作為k-means 最優(yōu)聚類數(shù)量。
圖4:GMM 分組的BIC 值和k-means 分組的SC 值
訓(xùn)練集上的封裝批次分組完成后,使用LED 半成品的色度坐標和成品色度坐標分別作為BP 神經(jīng)網(wǎng)絡(luò)的輸入和輸出,進行組內(nèi)訓(xùn)練。在測試集上使用訓(xùn)練完成后的模型預(yù)測成品色度坐標,驗證模型的準確性。實驗選取RMSE(Root Mean Squared Erro,均方根誤差)與R2值作為評價模型準確性的指標,RMSE 表示開根號的輸出與目標之間平均平方差,值越小則表明仿真得到的模型越精準。R2值則是對比預(yù)測模型與基準模型(取平均值預(yù)測)好壞的指標,R2取值從負無窮到1,數(shù)值越大說明預(yù)測模型較基準模型優(yōu)勢明顯,擬合效果越好。RMSE 值和R 值的計算公式如公式(9)和公式(10)所示:
以相關(guān)色溫5700K 為例,表1 是按照評價指標對比不同模型預(yù)測結(jié)果,未分組的BP 網(wǎng)絡(luò),GMM 分組和k-means 分組得到色度坐標CX 預(yù)測的RMSE 值分別為0.0013,0.0009 和0.001,可以看到GMM 分組后的預(yù)測效果最好,較未分組的BP 網(wǎng)絡(luò)和k-means分組預(yù)測值RMSE 指標分別降低了44%和11%,色度坐標CY 上分別降低了50%和14%。另外從R2值方面,GMM 分組后色度預(yù)測結(jié)果R2 值最高,其中CY 預(yù)測上R2值達到了0.804,同樣證明了模型的預(yù)測效果優(yōu)秀。
表1:不同模型的成品CX,CY 預(yù)測RMSE 值和R2 值對比
圖5 是使用不同算法預(yù)測色度坐標CXCY 數(shù)值的折線圖對比,從中也可以看到GMM 分組后的預(yù)測模型折線更加貼合實際值,預(yù)測的準確度較高。
圖5:各批次成品的CX,CY 預(yù)測值與實際值
除了在色溫5700K 上,從其他色溫的預(yù)測結(jié)果來看,GMM 分組后的預(yù)測網(wǎng)絡(luò)同樣具有較好的準確度,另外分別計算了相關(guān)色溫4000K,5000K, 6500K 上不同預(yù)測模型的色度RMSE 值,如圖6 折線圖顯示,GMM 分組后的預(yù)測結(jié)果始終好于未分組和k-means分組后的預(yù)測,而且在5000K 的色度預(yù)測上最優(yōu),CX 和CY 的RMSE 值較未分組的BP 預(yù)測結(jié)果降低了21%和53%,準確性提升明顯。在3000K 和4000K 的CX,CY 預(yù)測上各算法結(jié)果比較接近,GMM 分組算法稍好于其他算法。因此,可以看到GMM 分組后的預(yù)測網(wǎng)絡(luò)在各個色溫上的預(yù)測,具有最好的穩(wěn)定性,適用于各個相關(guān)色溫的色度預(yù)測。
由于影響大功率白光LED封裝器件色度的因素較多,如藍光芯片的波長、亮度,還有熒光粉涂覆量,TiO2硅膠涂覆量等,因此本文在對LED 色度的預(yù)測中引入了聚類分析,通過EM 算法來對LED封裝批次特征數(shù)據(jù)進行GMM 聚類,然后分別對各個類別進行BP 神經(jīng)網(wǎng)絡(luò)回歸計算,實驗結(jié)果證明該算法可以有效地提高預(yù)測的精確度。使用RMSE 值和R2值作為評價指標,對比直接回歸和k-means 聚類后回歸,本文方法在評價指標上均優(yōu)于這兩種方法。另外應(yīng)用在各個相關(guān)色溫的色度預(yù)測上,GMM 聚類預(yù)測模型也表現(xiàn)出更優(yōu)的準確性和穩(wěn)定性。本文為白光LED封裝器件色度的準確預(yù)測提供了新的思路,后續(xù)可以不斷地將最新樣本數(shù)據(jù)加入模型,使得模型能適應(yīng)變化的生產(chǎn)線狀態(tài),以保持較好的預(yù)測精度。