国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于無監(jiān)督主動(dòng)學(xué)習(xí)的蘋果品質(zhì)光譜無損檢測(cè)模型構(gòu)建方法

2022-01-12 00:19:32趙小康朱啟兵
光譜學(xué)與光譜分析 2022年1期
關(guān)鍵詞:代表性訓(xùn)練樣本光譜

趙小康,趙 鑫,朱啟兵,黃 敏

江南大學(xué)輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122

引 言

光譜檢測(cè)技術(shù)因其快速、無損等特點(diǎn)而廣泛用于農(nóng)產(chǎn)品、食品品質(zhì)檢測(cè)領(lǐng)域[1-5]。在利用光譜檢測(cè)技術(shù)進(jìn)行農(nóng)產(chǎn)品、食品品質(zhì)無損檢測(cè)時(shí),通常都需要一定數(shù)量的訓(xùn)練樣本(包含光譜特征和理化品質(zhì)指標(biāo))來構(gòu)建預(yù)測(cè)模型。目前,已有多種建模方法被用于構(gòu)建預(yù)測(cè)模型,例如:偏最小二乘回歸模型(partial least square regression,PLSR)、支持向量回歸模型(support vector regression,SVR)。在實(shí)際應(yīng)用中,無論用何種建模方法構(gòu)建光譜預(yù)測(cè)模型,預(yù)測(cè)模型的性能都嚴(yán)重依賴于訓(xùn)練樣本的多樣性和代表性。為了保證訓(xùn)練樣本的多樣性和代表性,人們往往需要獲得大量的訓(xùn)練樣本;但訓(xùn)練樣本的品質(zhì)指標(biāo)(標(biāo)簽)多是通過破壞性理化實(shí)驗(yàn)獲得,需要較高的時(shí)間和人力成本。相比于理化指標(biāo)檢驗(yàn),樣本的光譜信息獲取較為容易。如果可以從大量的無標(biāo)簽樣本(僅有光譜信息)中選取最有價(jià)值的樣本進(jìn)行標(biāo)注,將有助于減少訓(xùn)練樣本標(biāo)注的盲目性,達(dá)到利用少量訓(xùn)練樣本獲得良好預(yù)測(cè)模型的目的。Kennard-Stone算法(KS)和光譜-理化值共生距離算法(SPXY)是光譜領(lǐng)域兩種較為常見的樣本選擇方法。KS算法首先選擇歐式距離最大的一組樣本加入到訓(xùn)練集,然后依次選擇一個(gè)樣本,使已選樣本與剩余樣本的歐式距離最大,由于樣本間的相似性通過歐式距離計(jì)算,其選擇樣本的空間分布易受離散點(diǎn)的影響,樣本的代表性難以保證。而SPXY算法[2]在KS算法的基礎(chǔ)上增加了對(duì)樣本輸出空間距離的考慮,因此需要獲得樣本的真實(shí)標(biāo)簽值。SPXY算法是一種有監(jiān)督樣本選擇方法,在實(shí)際應(yīng)用中仍然需要大量的理化分析,以獲得樣本標(biāo)簽值。

主動(dòng)學(xué)習(xí)是近年來提出的,綜合考慮樣本代表性、信息性或多樣性的樣本選擇策略,已被廣泛地運(yùn)用于構(gòu)建有監(jiān)督分類模型。例如:王立國(guó)等[6]將主動(dòng)學(xué)習(xí)算法用于高光譜圖像分類任務(wù)中;唐金亞等[3]利用主動(dòng)學(xué)習(xí)算法研究了玉米種子純度分類模型的更新。但目前,主動(dòng)學(xué)習(xí)在農(nóng)產(chǎn)品、食品品質(zhì)預(yù)測(cè)模型中的應(yīng)用還鮮有報(bào)道。本文將結(jié)合農(nóng)產(chǎn)品、食品品質(zhì)無損檢測(cè)的需要,提出了一種融合層次凝聚聚類(hierarchical agglomerative clustering,HAC)和局部線性重建算法(locally linear reconstruction,LLR)的無監(jiān)督主動(dòng)學(xué)習(xí)方法(HAC-LLR)。HAC-LLR利用HAC聚類算法對(duì)原始光譜樣本集進(jìn)行聚類操作,以獲得具有多樣性的多個(gè)樣本簇;針對(duì)不同的樣本簇,通過LLR選取最具代表性的樣本;最后基于選取的代表性樣本及其理化指標(biāo),構(gòu)建訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明,相比于已有算法,HAC-LLR方法在訓(xùn)練樣本數(shù)量相同的前提下,可以顯著提高光譜模型的預(yù)測(cè)性能。

1 基于HAC-LLR的無監(jiān)督主動(dòng)學(xué)習(xí)方法

根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,要獲得一個(gè)具有良好泛化性能的預(yù)測(cè)模型,用于構(gòu)建預(yù)測(cè)模型的訓(xùn)練樣本應(yīng)該能夠充分刻畫整體樣本的概率分布,即訓(xùn)練樣本應(yīng)該具有良好的代表性和多樣性。代表性是指訓(xùn)練樣本的概率分布應(yīng)該能夠代表整體樣本的概率分布狀態(tài);而多樣性是指訓(xùn)練樣本應(yīng)該盡可能地分布在整體樣本空間,以實(shí)現(xiàn)整體樣本空間的充分表達(dá)。多樣性和代表性通常會(huì)存在一定的矛盾,為了解決這一矛盾,本文提出了HAC-LLR無監(jiān)督主動(dòng)學(xué)習(xí)方法,該方法首先對(duì)待選樣本集進(jìn)行聚類分析,獲得多個(gè)樣本簇;在不同簇中通過局部線性重建算法選出最具代表性的樣本,從而使選擇的樣本兼具多樣性和代表性。

1.1 基于層次凝聚聚類的樣本集劃分

聚類算法將數(shù)據(jù)集劃分到不同子集中,使得子集內(nèi)的數(shù)據(jù)相似度最大,子集間的數(shù)據(jù)相似度最小,從而可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律。本文利用無需預(yù)先設(shè)定聚類簇?cái)?shù)的層次凝聚聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類分析。層次凝聚聚類首先對(duì)數(shù)據(jù)集進(jìn)行初始化,即將每個(gè)樣本初始化為單獨(dú)的簇,并計(jì)算兩兩簇之間的距離,然后尋找相距最近的兩個(gè)簇進(jìn)行歸并,刪除合并前的簇,保留新生成的簇,重復(fù)該過程,直到所有簇都?xì)w為一個(gè)大類[7]。整個(gè)聚類過程其實(shí)是建立一棵樹,聚類結(jié)果可以根據(jù)最終生成的聚類樹設(shè)置距離閾值,簇間距離大于設(shè)定值的不同簇即為期望得到的聚類結(jié)果。本文中,根據(jù)光譜數(shù)據(jù)特性,簇間距離采用相似性計(jì)算,簇間聚合方式為未加權(quán)平均距離法,根據(jù)生成的聚類樹及聚類結(jié)果評(píng)價(jià)指標(biāo),距離閾值設(shè)定為0.8。

1.2 基于局部線性重建算法的代表性樣本選擇策略

光譜數(shù)據(jù)多是高維數(shù)據(jù),一個(gè)高維數(shù)據(jù)通常是由其低維潛在變量按照某種規(guī)則重建獲得的。假設(shè)X=[X1,…,Xm]T是已知的原始高維數(shù)據(jù)集,Q=[q1,…,qm]T是與X同維的由低維潛在變量重建的數(shù)據(jù)集。LLR算法認(rèn)為已知數(shù)據(jù)集X應(yīng)該與重建數(shù)據(jù)集Q具有相同的鄰域表示關(guān)系。即對(duì)于任意一個(gè)樣本Xi,若其可以由其鄰域Np(Xi)內(nèi)(相鄰數(shù)據(jù)點(diǎn))的點(diǎn)線性表示為

Wij=0 ifXj?Np(Xi)

(1)

(2)

式(2)中,μ是懲罰系數(shù),用于調(diào)節(jié)重建誤差和重構(gòu)樣本Q的鄰域關(guān)系表示誤差。本文中設(shè)置為0.1。

定義Λ為m×m的對(duì)角矩陣,如果i∈{s1,…,sk},則對(duì)角元素為Λii=1,否則Λii=0。則目標(biāo)函數(shù)(2)可以重新被寫成如式(3)矩陣形式

ε(Q)=Tr((Q-X)TΛ(Q-X))+μTr(QTMQ)

(3)

式(3)中,M=(I-W)T(I-W),I為單位對(duì)角陣,Tr為矩陣求跡運(yùn)算。式(3)最小化,則重建結(jié)果可以表示為

Q=(μM+Λ)-1ΛX

(4)

對(duì)于原始樣本點(diǎn)x1,…,xm和樣本點(diǎn)重建結(jié)果q1,…,qm,重建誤差可以表示如式(5)

(5)

式(5)中,重建誤差只與所選擇的點(diǎn){s1,…,sk}有關(guān),因此,最具代表性的點(diǎn)可以定義為那些能夠最小化重建誤差的點(diǎn),即如果所選樣本點(diǎn)確定,可以更準(zhǔn)確地重建整個(gè)原始數(shù)據(jù)集。式(5)可以通過迭代求解策略獲得,其詳細(xì)計(jì)算過程見參考文獻(xiàn)[8]。

1.3 基于HAC-LLR訓(xùn)練樣本選擇策略的光譜檢測(cè)方法流程

基于HAC-LLR訓(xùn)練樣本選擇策略的光譜檢測(cè)方法流程主要包括:(1)利用層次凝聚聚類對(duì)大量的無標(biāo)記光譜數(shù)據(jù)集進(jìn)行聚類分析,根據(jù)生成的聚類樹和設(shè)定的簇間距離閾值劃分出不同的數(shù)據(jù)簇;(2)針對(duì)每個(gè)數(shù)據(jù)簇,利用局部線性重建算法,選取一定數(shù)量的待標(biāo)記樣本(該簇樣本數(shù)量占樣本總數(shù)的比例乘以期望選出樣本的總數(shù)k即為每個(gè)簇應(yīng)選出的樣本數(shù)),從所有的簇中總共選出設(shè)定的k個(gè)樣本;(3)對(duì)選出的樣本根據(jù)具體檢測(cè)指標(biāo),進(jìn)行理化分析,獲得其標(biāo)簽值Y,構(gòu)建訓(xùn)練集樣本對(duì)(Xi,Yi)i=1,…,k;(4)利用訓(xùn)練集樣本,訓(xùn)練輸出模型;(5)利用模型對(duì)預(yù)測(cè)集樣本進(jìn)行預(yù)測(cè)。圖1給出了算法的流程示意圖。

圖1 基于HAC-LLR訓(xùn)練樣本選擇策略的光譜檢測(cè)方法流程圖Fig.1 Flow chart of spectral detecting method based on HAC-LLR training samples selecting strategy

2 實(shí)驗(yàn)部分

實(shí)驗(yàn)樣本是美國(guó)密歇根州立大學(xué)克拉克斯維爾園藝實(shí)驗(yàn)站果園提供的Golden Delicious(GD),Jonagold(JG)和Red Delicious(RD)三個(gè)品種的蘋果,采收于2009年和2010年連續(xù)兩個(gè)年份。樣本的光譜數(shù)據(jù)通過微型Vis-SWNIR光譜儀(S400,Ocean Optics,Dunedin,FL)采集。Vis-SWNIR光譜儀的光譜范圍為460~1 100 nm,光譜分辨率為1 nm,每個(gè)光譜樣本有641個(gè)變量。獲得光譜數(shù)據(jù)之后,使用質(zhì)地分析儀(型號(hào)TA.XT2i,Stable Micro Systems,Inc.,Surrey,UK)和數(shù)字折射儀(型號(hào)PR-101,Atago Co.,Tokyo,Japan)在光譜儀測(cè)量的位置對(duì)蘋果的硬度和可溶性固形物(soluble solid content,SSC)進(jìn)行測(cè)量。實(shí)驗(yàn)設(shè)備和數(shù)據(jù)的更詳細(xì)信息參見文獻(xiàn)[9]。

表1給出了實(shí)驗(yàn)樣本的SSC和硬度統(tǒng)計(jì)數(shù)據(jù)表。由表1可以看出,SSC和硬度的分布范圍較大,可以充分驗(yàn)證模型的性能。圖2為不同年份、不同種類蘋果樣本的平均光譜。從圖中可以看出,不同年份、不同種類的蘋果光譜存在著較大差異,難以用一個(gè)單一模型進(jìn)行建模,需要對(duì)不同年份、不同種類的蘋果構(gòu)建多個(gè)模型。

表1 蘋果樣本的品質(zhì)參數(shù)統(tǒng)計(jì)信息Table 1 Statistics of quality reference for apple samples

圖2 連續(xù)兩年采收的三種蘋果的平均光譜Fig.2 The average spectra of three cultivars apple samples harvestee from two years

3 結(jié)果與討論

3.1 基于HAC-LLR訓(xùn)練樣本選擇策略的蘋果品質(zhì)檢測(cè)模型的建立

基于無監(jiān)督主動(dòng)學(xué)習(xí)算法選取一定數(shù)量的樣本用于建立蘋果品質(zhì)檢測(cè)模型。為充分驗(yàn)證基于無監(jiān)督主動(dòng)學(xué)習(xí)算法的模型性能,針對(duì)每個(gè)數(shù)據(jù)集,首先隨機(jī)選取100個(gè)未標(biāo)記樣本作為預(yù)測(cè)集,其余未標(biāo)記樣本作為樣本選擇池。基于該樣本選擇池,分別利用隨機(jī)采樣(RS)、Kennard-Stone算法(KS)、光譜-理化值共生距離算法(SPXY)和本文提出的HAC-LLR樣本選擇策略,選出一定數(shù)量的樣本作為訓(xùn)練集,用于訓(xùn)練PLSR模型。利用預(yù)測(cè)集均方根誤差(RMSE)、相關(guān)系數(shù)(Rp)和殘留預(yù)測(cè)偏差(residual prediction deviation,RPD)評(píng)估最終的模型性能。為了減少預(yù)測(cè)集樣本隨機(jī)選取對(duì)實(shí)驗(yàn)結(jié)果的影響,每次實(shí)驗(yàn)過程隨機(jī)重復(fù)5次,5次隨機(jī)實(shí)驗(yàn)的平均值作為最終結(jié)果。考慮到每個(gè)光譜樣本有641個(gè)變量,為了避免模型的過擬合,利用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣算法[10](competitive adaptive reweighted sampling,CARS)對(duì)原始特征進(jìn)行篩選,其中,105,120,82,94,131,106,125,90,96,112,103和120個(gè)特征變量分別作為GD2009,GD2010,JG2009,JG2010,RD2009和RD2010的SSC和硬度PLSR模型的輸入。PLSR模型的最佳主元數(shù)量通過10折交叉驗(yàn)證確定。

PLSR建模和光譜數(shù)據(jù)分析軟件分別是PLS工具箱(Eigenvector Research,Inc.,Wenatchee,WA,USA)和MATLAB R2014a(The MathWorks,Inc.,Natick,MA,USA)。

3.2 基于不同樣本選擇算法的建模結(jié)果比較

對(duì)于不同數(shù)據(jù)集,按照與預(yù)測(cè)集1∶1,2∶1,3∶1和4∶1的比例劃分,四種算法分別選取100,200,300和400個(gè)樣本作為訓(xùn)練集,用于建立PLSR模型。圖3給出了不同數(shù)據(jù)集下PLSR模型的預(yù)測(cè)結(jié)果。從圖3中可以看出,隨著訓(xùn)練集樣本數(shù)量的增加,四種樣本選擇算法建立的模型性能都有所提高(RMSE值降低、Rp和RPD值增高)。相比于其他三種算法,本文提出的無監(jiān)督主動(dòng)學(xué)習(xí)算法表現(xiàn)出了最佳的預(yù)測(cè)性能,特別是在建模集樣本數(shù)量較少的情況下。當(dāng)建模集樣本數(shù)量較多時(shí),不同樣本選擇算法選出的樣本共性較大,模型也趨于穩(wěn)定,主動(dòng)學(xué)習(xí)方法的優(yōu)勢(shì)也會(huì)逐漸減弱。同一品種不同年份的蘋果樣本所對(duì)應(yīng)的模型性能也表現(xiàn)出了一定差異,進(jìn)一步驗(yàn)證了需要對(duì)不同年份、不同品種的蘋果構(gòu)建多個(gè)模型的設(shè)想。另外,四種算法分別選出200個(gè)樣本所建立模型的預(yù)測(cè)性能如表2、表3所示,基于HAC-LLR的SSC模型相對(duì)于基于RS,KS和SPXY的SSC模型預(yù)測(cè)結(jié)果的RMSE值分別降低了2.0%~8.6%,3.6%~7.9%和2.8%~13.2%,對(duì)于硬度模型,RMSE值相應(yīng)地分別降低了2.6%~7.2%,1.2%~7.2%和2.6%~15.7%。

表2 四種算法分別選出200個(gè)2009年的樣本所建立PLSR模型的預(yù)測(cè)結(jié)果Table 2 The prediction results of PLSR models based on 200 samples from 2009 selected by four algorithms respectively

表3 四種算法分別選出200個(gè)2010年的樣本所建立PLSR模型的預(yù)測(cè)結(jié)果Table 3 The prediction results of PLSR models based on 200 samples from 2010 selected by four algorithms respectively

圖3 不同數(shù)據(jù)集下基于不同樣本選擇算法的SSC (a)和硬度(b)的PLSR模型預(yù)測(cè)結(jié)果Fig.3 PLSR mdoel prediction results of SSC (a)and firmness (b)based on different sample selection algorithms under different datsets

為了比較不同算法性能的統(tǒng)計(jì)學(xué)意義,本文進(jìn)一步利用參考文獻(xiàn)[11]定義的曲線下面積(area under curve,AUC)作為綜合性能度量指標(biāo)對(duì)模型的RMSE,Rp和RPD進(jìn)行分析(圖4所示)。本文使用RS算法的AUC值對(duì)其他三種算法進(jìn)行標(biāo)準(zhǔn)化,因此RS算法的AUC值始終為1。對(duì)于RMSE值而言,較小的AUC值代表較高的模型性能,對(duì)于Rp值和RPD值而言,較高的AUC值代表較高的模型性能。從圖4可以看出,基于本文提出的HAC-LLR訓(xùn)練樣本選擇策略所建立的模型,預(yù)測(cè)無標(biāo)記樣本的AUC-RMSE值更低,AUC-Rp值和AUC-RPD值更高。

圖4 不同數(shù)據(jù)集上歸一化的AUC-RMSE(a),AUC-Rp(b)和AUC-RPD(c)Fig.4 Normalized AUCs of the RMSE (a),the Rp (b)and the RPD (c)on different datasets

RS算法選擇的樣本具有較強(qiáng)的隨機(jī)性,相應(yīng)的模型性能有很強(qiáng)的不確定性。KS算法考慮到了樣本光譜信息的歐氏距離,由于光譜數(shù)據(jù)的高維性,歐氏距離不能很好地表征樣本間的真實(shí)距離和相似性[8,12],但整體性能優(yōu)于RS算法和SPXY算法。SPXY算法基于KS算法,雖然增加了對(duì)輸出空間距離的考慮,即需要使用到樣本真實(shí)理化標(biāo)簽值,屬于有監(jiān)督的樣本選擇算法,但是對(duì)輸出空間的度量?jī)H僅基于不同真實(shí)標(biāo)簽的差值,因此整體性能上沒有表現(xiàn)出優(yōu)勢(shì),甚至在很多數(shù)據(jù)集上不及KS算法。而本文提出的無監(jiān)督主動(dòng)學(xué)習(xí)方法由于綜合考慮了樣本的多樣性和代表性,因此表現(xiàn)出了最佳性能。綜合多個(gè)評(píng)價(jià)指標(biāo)以及實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文提出的無監(jiān)督主動(dòng)學(xué)習(xí)方法的有效性。

4 結(jié) 論

建立一個(gè)精確的且具有良好泛化能力的回歸模型通常需要大量的帶標(biāo)記的訓(xùn)練集樣本。然而,在樣本制備過程中,采集樣本的光譜數(shù)據(jù)是相對(duì)容易的,獲得樣本的真實(shí)標(biāo)記卻是費(fèi)時(shí)費(fèi)力且具有破壞性的。常規(guī)的光譜學(xué)實(shí)驗(yàn)設(shè)計(jì)中無法充分利用已知樣本的信息,使得基于不同訓(xùn)練集的模型的性能相差較大。主動(dòng)學(xué)習(xí)是一種選擇最有價(jià)值的未標(biāo)記樣本進(jìn)行標(biāo)記的方法,以少量標(biāo)記樣本建立更好的回歸模型。本文提出了一種無監(jiān)督的主動(dòng)學(xué)習(xí)方法,該方法融合了樣本多樣性和代表性兩種選擇標(biāo)準(zhǔn),在連續(xù)兩年采收的三個(gè)品種蘋果的光譜數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出的無監(jiān)督主動(dòng)學(xué)習(xí)方法的有效性,為有效減少訓(xùn)練集樣本數(shù)量、降低破壞性理化實(shí)驗(yàn)所帶來的成本消耗、提高模型精度提供了一種解決方案。由于本文所提方法考慮的是模型構(gòu)建中的訓(xùn)練樣本選擇,因此,同樣適用于構(gòu)建非線性模型。此外,遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí)都可以用于處理標(biāo)記樣本不足的問題,今后我們還將研究如何融合主動(dòng)學(xué)習(xí)和遷移學(xué)習(xí)的思想用于減少光譜分析領(lǐng)域訓(xùn)練集樣本的制備。

猜你喜歡
代表性訓(xùn)練樣本光譜
國(guó)家級(jí)非遺項(xiàng)目代表性傳承人簡(jiǎn)介
基于三維Saab變換的高光譜圖像壓縮方法
漳州市非物質(zhì)文化遺產(chǎn)代表性項(xiàng)目代表性傳承人名錄
閩臺(tái)地區(qū)代表性道地藥材
人工智能
非遺代表性傳承人
——勉沖·羅布斯達(dá)
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識(shí)別算法
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
星載近紅外高光譜CO2遙感進(jìn)展
澳门| 阿城市| 阿勒泰市| 鄂托克旗| 夏河县| 筠连县| 尚志市| 会理县| 锡林郭勒盟| 本溪| 根河市| 治县。| 横山县| 沽源县| 上高县| 栾川县| 宁津县| 清丰县| 信阳市| 平潭县| 乌拉特中旗| 宁城县| 新乐市| 澄城县| 汶上县| 涞源县| 普宁市| 司法| 湖州市| 余庆县| 呼伦贝尔市| 彝良县| 深州市| 梅河口市| 沅江市| 萨嘎县| 商洛市| 中宁县| 景谷| 留坝县| 波密县|