摘要 近紅外光譜具有簡單、快速和無損等特點,已成為廣泛采用的復雜體系的定性和定量分析方法。然而近紅外光譜通常包含大量與目標組分不相關的冗余波長,導致預測模型的預測性能變差,因此在建模前需對光譜變量進行選擇。本研究首次將蜉蝣算法(Mayfly algorithm, MA)離散化并用于近紅外光譜定量分析。MA 模擬蜉蝣的求偶與交配行為,首先設置相同數量的雌性和雄性蜉蝣個體,對蜉蝣進行位置更新并離散。雄性蜉蝣吸引雌性蜉蝣通過“門當戶對”的交配以及突變的方式產生子代,子代數量固定為20。將得到的子代加入原始種群中,根據總種群數保留相應數量的最優(yōu)個體,使種群數在每次迭代后保持不變,形成的新一代種群進行下一次迭代。重復上述過程,直至達到最大迭代次數。采用玉米和摻偽植物油的近紅外光譜數據驗證了MA 算法的性能。對MA 算法中重力系數、迭代次數和種群數量3 個參數進行優(yōu)化。采用MA 選擇后的變量和待分析組分的含量建立偏最小二乘(Partial least squares, PLS)模型,并與全光譜PLS 模型進行對比。結果顯示, MA-PLS 模型對玉米數據集中油、水分、蛋白質和淀粉含量預測的預測均方根誤差(Root mean square error of prediction, RMSEP)比PLS 模型分別下降了30.59%、40.24%、36.96%和27.93%,對摻偽植物油數據集中紫蘇籽油、大豆油、玉米油和棉籽油含量預測的RMSEP 分別下降了83.85%、90.90%、81.60%和92.18%。此外, MA-PLS 所使用的變量數也顯著少于PLS 模型。因此, MA 算法能夠有效降低PLS 模型的復雜度,提高PLS 模型預測的準確性。
關鍵詞 近紅外光譜;變量選擇;蜉蝣算法;偏最小二乘;群體智能優(yōu)化
近紅外光譜(Near-infrared spectroscopy, NIR)主要由分子中的碳氫、氧氫、氮氫的倍頻和合頻振動峰組成,波長范圍在800~2500 nm 之間[1]。相比于其它分析技術,近紅外光譜具有快速、高效、無損和可在線分析等優(yōu)勢,廣泛應用于農業(yè)、食品、醫(yī)藥、石油化工和紡織業(yè)等領域[2-8]。然而,近紅外光譜同時存在吸收強度弱、吸收帶寬、譜峰重疊嚴重和波長冗余等問題。對近紅外光譜直接建立預測模型不僅會增加模型的復雜性,還會降低其預測效果和泛化能力[9]。為了克服此問題,在建模前需要對與目標組分相關的變量進行篩選[10]。隨著化學計量學的不斷發(fā)展[11],已提出了多種變量選擇方法,如連續(xù)投影算法(Successive projections algorithm, SPA)[12]、變量投影重要性(Variable important in projection, VIP)[13]、無信息變量消除(Uninformative variable elimination, UVE)[14]、蒙特卡洛-無信息變量消除(Monte Carlo-UVE,MC-UVE)[15]、隨機檢驗(Randomization test, RT)[16]、競爭性自適應重加權采樣(Competitive adaptivereweighted sampling, CARS)[17]、迭代性保留有信息變量(Iteratively retains informative variables, IRIV)[18]、變量組合集群分析(Variable combination population analysis, VCPA)[19]、自舉軟收縮(Bootstrapping softshrinkage, BOSS)[20]和C 值法(C value)[21]等。然而,變量選擇屬于典型的NP-hard 問題,復雜性高,計算難度大[22],因此探索更高效的新方法成為該研究領域的重點。在此背景下,群體智能優(yōu)化算法因其在解決高維、多目標優(yōu)化問題方面的優(yōu)越性能,為變量選擇方法提供了新思路[23]。相較于基于單一指標和統計學的變量選擇方法,群體智能優(yōu)化算法憑借其強大的全局搜索能力和較強的魯棒性,能夠高效去除非信息變量,進而獲得簡單且預測性能更好的模型[24-27]。
蜉蝣算法(Mayfly algorithm, MA)是由Zervoudakis 等[28]于2020 年開發(fā)的一種模擬蜉蝣種群求偶和交配行為的群體智能優(yōu)化算法。該算法將蜉蝣群體分為雌雄兩類,雄性蜉蝣在水面上翩翩起舞,吸引雌性蜉蝣前來交配,這一系列生物學行為被轉化為數學模型。蜉蝣的位置代表問題的可能解,而蜉蝣的移動過程即為優(yōu)化過程。相較于其它群體智能優(yōu)化算法, MA 算法的參數較少且結構簡單,展現出較強的尋優(yōu)能力。雖然MA 已應用于食品儲藏溫度預測和癌癥診斷數據分類模型的參數優(yōu)化等問題[29-31],但是尚未應用于光譜的變量選擇。本研究首次將MA 算法離散化,并探討其在近紅外光譜變量選擇中的應用可行性。以玉米和摻偽植物油樣品的近紅外光譜作為研究對象,通過研究重力系數、最大迭代次數以及蜉蝣種群數量對模型性能的影響,得到MA 的最佳參數。采用最優(yōu)參數下的MA 算法選擇與待分析組分相關的近紅外光譜變量,并構建偏最小二乘(Partial least squares, PLS)模型。結果表明,與全光譜的PLS模型相比, MA-PLS 方法不僅使用的變量少,而且具有更高的預測準確度。
1 實驗部分
1.1 蜉蝣算法
MA 算法靈感來源于昆蟲綱中蜉蝣的集體行為,尤其是它們的求偶和交配過程中的行為。在MA算法中,每只蜉蝣的位置代表一個潛在的解決方案。MA算法由雄性蜉蝣運動、雌性蜉蝣運動、雌性和雄性蜉蝣交配3 個部分組成。通過迭代最終得到蜉蝣的最佳位置即全局最優(yōu)解,算法具體實現步驟如圖1 所示。
第一步:初始化。設置最大迭代次數及算法本身的參數并隨機生成N 個雄性蜉蝣和N 個雌性蜉蝣。將蜉蝣群體按雌雄分成兩組,每只蜉蝣被隨機放在求解空間中,雄蜉蝣為d維向量x = (x1...xd )表示的候選解,雌蜉蝣代表d維向量y = (y1…yd )的候選解。定義目標函數f (x)選解進行評估。
第二步:進行蜉蝣的位置更新。這一階段雄性和雌性蜉蝣的位置更新方式各不相同。雄性蜉蝣通過向當前位置添加速度來改變位置,表述如式(1)所示:
其中, xit表示在第t 次迭代時第i 個雄性蜉蝣的位置, vit+1為該蜉蝣更新后的速度, xit+1為該蜉蝣更新后的位置。
為了吸引雌性蜉蝣與其交配,雄性蜉蝣會在水面上起舞,因此其速度變化不會過快且持續(xù)進行移動。其速度的計算公式如式(2)所示:
其中, g表示重力系數,其值是(0, 1)范圍內的固定數字;vijt和xijt分別是第t 次迭代時雄性蜉蝣i在j維度上的速度和位置;a1 和a2 是正吸引常數; 是蜉蝣的可見度系數; pbest ij是蜉蝣i到達過的最佳位置;gbest ij是全局最優(yōu)位置; rp是當前位置與pbest之間的Cartesian 距離;rg是當前位置與gbest之間的Cartesian 距離;d是婚禮舞蹈系數;r是[–1, 1]范圍內的隨機值。
對于個體的歷史最佳位置,當迭代次數為t+1 時,如果蜉蝣當前的位置xit+1比pbest i更優(yōu), pbest i被替換,否則保持不變。蜉蝣的pbest i和gbest計算如式(3)和(4)所示:
公式(2)中rp和rg的Cartesian 距離按式(5)計算:
其中, xij對應蜉蝣i 在j 維度的位置,而Xi對應pbest i或gbest。
在雄蜉蝣運動的同時,雌性蜉蝣也進行其特有的運動。與雄性不同,雌性蜉蝣并不成群結隊,它們被雄性蜉蝣吸引進行交配。雌蜉蝣位置更新如式(6)所示:
其中, yit表示在第t 次迭代時第i 個雌性蜉蝣的位置, vit+1為該蜉蝣更新后的速度, yit+1為該蜉蝣更新后的位置。
雌性蜉蝣被雄性蜉蝣吸引,其速度計算如式(7)所示:
其中, vijt和yijt分別是第t 次迭代時雌性蜉蝣i在j維度上的速度和位置;a2為正吸引常數; 是固定的可見度系數;rmf 是雄性和雌性蜉蝣之間的Cartesian 距離,使用公式(5)計算; fl是隨機游動系數,當雌性蜉蝣不被雄性吸引時使用;r 是[1, 1] 范圍內的隨機值。
需要注意的是,蜉蝣個體在尋優(yōu)過程中容易陷入局部最優(yōu),因此算法通過迭代時逐步降低婚禮舞蹈系數d和隨機游動系數fl的方式緩解,該方式應具有良好的穩(wěn)定性和實時性。因此,可利用幾何級數公式(8)和(9)更新這兩項數值:
dt = doδt , 0 lt;δ lt; 1 (8)
fl t = fl0δt , 0 lt;δ lt; 1 (9)
其中, δ是(0, 1)范圍內的固定值。
第三步:根據計算出的適應度值對雌性和雄性蜉蝣分別排序。
第四步:蜉蝣交配并更新子代。蜉蝣之間的交配過程基于最優(yōu)適應度匹配機制,即適應度最佳的雌性蜉蝣與適應度最佳的雄性蜉蝣交配,適應度值位列第二的雌性蜉蝣與適應度值位列第二的雄性蜉蝣交配。以此類推,并將后代的初始速度設置為零。
最優(yōu)適應度匹配機制描述為:
offspring1 =L* male + (1-L)*"female
offspring2 =L*female + (1-L)*"male(10)
其中, male 為父親, female 為母親, L 為特定范圍內的隨機值。
考慮到局部最優(yōu)而非全局最優(yōu)的過早收斂問題,引入突變過程,以便算法探索搜索空間中可能無法訪問的新區(qū)域。將一個正態(tài)分布的隨機數添加到所選后代的變量中進行突變,這種突變過程描述為:
offspringn = offspringn + σNn(0, 1) (11)
其中, σ為正態(tài)分布的標準差, Nn(0, 1)為均值=0、方差=1的標準正態(tài)分布。
第五步:更新全局最優(yōu)即全局最佳適應度。
重復第二步~第五步,直至達到最大迭代次數。
本研究將蜉蝣算法應用于近紅外光譜數據變量選擇,原始的MA 算法主要用于解決連續(xù)優(yōu)化問題,而光譜變量選擇是一種離散問題。因此,本研究采用round 函數將蜉蝣種群的位置離散為0 和1,其中,0 表示不選擇該波長點, 1 表示選擇該波長點,這些代表波長點的由0 和1 構成的向量作為蜉蝣算法的輸入。在數據集劃分方面,采用Kennard-Stone(KS)算法進行數據分組,并基于PLS 模型構建MA-PLS 模型。為了評估模型性能,采用預測均方根誤差(Root mean square error of prediction, RMSEP)作為算法的適應度指標,通過此指標對蜉蝣算法的參數進行優(yōu)化,從而得到最優(yōu)參數。
1.2 實驗數據
采用玉米數據集和摻偽植物油數據集驗證MA 算法的有效性。其中,玉米數據集來源于http://software.eigenvector.com/Data/Corn/index.Html,包含80 個玉米樣品的近紅外光譜和蛋白質、脂肪、水分和淀粉4 個組分的含量。近紅外光譜分別由M5、MP5和MP6這3 種光譜儀測定,波數范圍為9000~4000 cm–1,共700 個波長點。本研究以M5 儀器采集的玉米樣品的近紅外光譜和4 種組分的含量為研究對象,其光譜如圖2A 所示。采用KS 方法選取53個樣品用于建立模型, 27 個樣品用于驗證模型的性能。
摻偽植物油數據集包含63 個摻偽植物油樣品的近紅外光譜和紫蘇油、大豆油、玉米油和棉籽油4 種組分的含量。摻偽植物油樣品的近紅外光譜由VERTEX70 紅外光譜儀(德國Bruker 公司)測定,波數范圍為12000~4000 cm–1,分辨率為4 cm–1,共2074 個波長數據點。本研究以摻偽植物油樣品的近紅外光譜和4 種組分含量為研究對象,其光譜如圖2B 所示。同樣根據KS 方法對數據進行分組,選擇其中42 個樣品用于建模, 21 個樣品用于驗證模型的性能。
2 結果與討論
2.1 重力系數的優(yōu)化
蜉蝣算法的重力系數與粒子群優(yōu)化算法中慣性權重的工作原理相似,有利于實現算法勘探與開發(fā)之間的完全平衡。為了確定最優(yōu)重力系數,采用摻偽植物油樣品中大豆油組分的數據,迭代次數固定為100,種群數量設定為50。在運行程序后,通過分析重力系數與RMSEP 值的變化確定最佳重力系數。圖3 展示了適應度指標RMSEP 隨著重力系數變化的結果。隨著重力系數增加, RMSEP 值呈現波動性,在重力系數為0.2~0.6 時呈現先下降后上升的趨勢,當重力系數取0.4 時, RMSEP 值降至最低,即最佳重力系數為0.4。此外,對摻偽植物油樣品中其它組分以及玉米樣品的4 種組分進行的類似分析,同樣確認了最佳重力系數為0.4。
2.2 迭代次數的優(yōu)化
迭代次數是MA 算法在初始化階段設置的一個主要參數。若迭代次數過少,模型可能無法充分尋找最優(yōu)變量組合,導致預測精度較差;若迭代次數過多,會增加模型復雜度,使計算過程變得更加耗時。因此,需要確定一個合適的迭代次數,以提高模型的預測性能,降低模型復雜度。以摻偽植物油樣品中大豆油組分為研究對象,對迭代次數進行優(yōu)化。設定重力系數為0.4,蜉蝣種群數量為50,迭代次數的范圍為1~150,考察摻偽植物油樣品中大豆油組分的RMSEP 隨迭代次數變化情況,結果如圖4 所示,植物油樣品中大豆油組分的RMSEP 在1~130 次的迭代范圍內隨迭代次數增加而呈現先急劇后緩慢的下降趨勢,在第140 次迭代時達到最低點,之后趨于穩(wěn)定,因此設定最佳迭代次數為140。同時,在摻偽植物油的其它組分以及玉米數據集中也得到類似結果。因此,在后續(xù)分析中兩個數據集的最大迭代次數均設定為140。
2.3 蜉蝣種群數量的優(yōu)化
MA 算法主要通過蜉蝣群體的位置更新實現,因此蜉蝣種群數量會影響MA 的性能。為得到最佳蜉蝣種群數量,設定重力系數為0.4,迭代次數為140,蜉蝣種群數量在10~80 范圍內以間隔為5 進行變化,考察RMSEP 與蜉蝣種群數量的關系。摻偽植物油中大豆油組分的RMSEP 隨蜉蝣種群數的變化如圖5所示, RMSEP 隨蜉蝣種群數量的變化顯著。種群數量在10~35 范圍內時, RMSEP 隨種群數量增加而急劇下降;種群數量高于35 時, RMSEP 小幅度上升;種群數量在50~65 范圍內時, RMSEP 再次呈現下降趨勢,并且當種群數量達到65 時, RMSEP 降至最小,而后又上升。因此,可以確定最佳蜉蝣種群數量為65。同理得到摻偽植物油樣品中的其它組分和玉米樣品中的4 種組分的最佳蜉蝣種群數。
2.4 預測結果
在最優(yōu)參數下,將MA 算法分別應用于玉米和摻偽植物油樣品的近紅外光譜變量選擇。利用篩選出的光譜變量構建PLS 校正模型,同時將其與全光譜建立的PLS 校正模型對比。利用RMSEP 和相關系數(R)評價模型的性能,其中, RMSEP 表示預測值和真實值的偏差, R 表示預測值和真實值的相關性,RMSEP 值越小、R 值越大,表明模型具有較好的預測性能。
兩個數據集的計算結果見表1。玉米數據集的油、水分、蛋白質和淀粉組分在采用MA 算法進行變量選擇建模后, RMSEP 值顯著降低, R 值相對提升。摻偽植物油數據集中紫蘇籽油、大豆油、玉米油和棉籽油4 種組分通過MA-PLS 保留的變量數均少于PLS,并且對應的RMSEP 值低于PLS, R 值高于PLS。結果表明,使用MA 算法變量選擇能夠提高PLS 模型的預測準確度,更好地實現樣品的定量分析。
3 結論
本研究首次將MA 離散化并與PLS 結合,應用于玉米和摻偽植物油兩組近紅外光譜數據集的變量選擇以及組分含量預測。采用RMSEP 作為算法適應度指標,在算法中設置相同數量的雌性和雄性蜉蝣個體,每個個體執(zhí)行位置更新與離散化操作,蜉蝣交配與突變生成的子代合并到原始種群,在保持總種群數量不變的前提下形成新一代群體進行迭代優(yōu)化,直至迭代結束選出用于建模的最佳變量。針對算法中重力系數、迭代次數和蜉蝣種群數量3 個參數進行優(yōu)化,在最優(yōu)參數和最佳光譜變量下分別對玉米樣品的油、水分、蛋白質、淀粉組分以及摻偽植物油樣品的紫蘇籽油、大豆油、玉米油、棉籽油組分建立MA-PLS 模型進行定量分析。結果表明,相較于全光譜PLS, MA-PLS 所選取的變量數較少,并且RMSEP值更低、R 值更高。因此,蜉蝣算法可作為近紅外光譜變量選擇的有效工具。
References
[1] MANLEY M. Chem. Soc. Rev. , 2014, 43(24): 8200-8214.
[2] BAI Y, YANG W, WANG Z, CAO Y, LI M. Comput. Electron. Agric. , 2024, 219: 108760.
[3] SITORUS A, LAPCHAROENSUK R. Sensors, 2024, 24(7): 2362.
[4] LOZANO-TORRES B, GARCIA-FERNANDEZ A, DOMINGUEZ M, SANCENóN F, BLANDEZ J F, MARTíNEZMá?EZR. Anal. Chem. , 2023, 95(2): 1643-1651.
[5] CHU Gang-Hui, WANG Kun, YIN Xue-Bo. Chin. J. Anal. Chem. , 2020, 48(4): 536-542.
楚剛輝, 王坤, 尹學博. 分析化學, 2020, 48(4): 536-542.
[6] LIU S, WANG S, HU C, ZHAN S, KONG D, WANG J. Spectrochim. Acta, Part A, 2022, 277: 121261.
[7] LI Mao-Gang, YAN Chun-Hua, XUE Jia, ZHANG Tian-Long, LI Hua. Chin. J. Anal. Chem. , 2019, 47(12): 1995-2003.
李茂剛, 閆春華, 薛佳, 張?zhí)忑垼?李華. 分析化學, 2019, 47(12): 1995-2003.
[8] DAIKOS O, SCHERZER T. Talanta, 2021, 221: 121567.
[9] WANG H P, CHEN P, DAI J W, LIU D, LI J Y, XU Y P, CHU X L. TrAC, Trends Anal. Chem. , 2022, 153: 116648.
[10] XIAOBO Z, JIEWEN Z, POVEY M J W, HOLMES M, HANPIN M. Anal. Chim. Acta, 2010, 667(1-2): 14-32.
[11] PARASTAR H, TAULER R. Angew. Chem. Int. Ed. , 2022, 61(44): e201801134.
[12] KAMRUZZAMAN M, KALITA D, AHMED M T, ELMASRY G, MAKINO Y. Anal. Chim. Acta, 2022, 1202: 339390.
[13] YU H D, YUN Y H, ZHANG W, CHEN H, LIU D, ZHONG Q, CHEN W, CHEN W. Spectrochim. Acta, Part A, 2020, 224:117376.
[14] WU D, NIE P, HE Y, WANG Z, WU H. Int. J. Food Properties, 2013, 16(5): 1002-1015.
[15] CAI W, LI Y, SHAO X. Chemom. Intell. Lab. Syst. , 2008, 90(2): 188-194.
[16] ZHANG H, HU X, LIU L, WEI J, BIAN X. Spectrochim. Acta, Part A, 2022, 270: 120841.
[17] OUYANG Q, LIU L, WANG L, ZAREEF M, WANG Z, LI H, YIN J, CHEN Q. J. Food Compos. Anal. , 2023, 115: 104868.
[18] YUN Y H, WANG W T, TAN M L, LIANG Y Z, LI H D, CAO D S, LU H M, XU Q S. Anal. Chim. Acta, 2014, 807: 36-43.
[19] YUN Y H, WANG W T, DENG B C, LAI G B, LIU X, REN D B, LIANG Y Z, FAN W, XU Q S. Anal. Chim. Acta, 2015,862: 14-23.
[20] DENG B C, YUN Y H, CAO D S, YIN Y L, WANG W T, LU H M, LUO Q Y, LIANG Y Z. Anal. Chim. Acta, 2016, 908:63-74.
[21] ZHANG J, CUI X, CAI W, SHAO X. Sci. China Chem. , 2019, 62(2): 271-279.
[22] YUN Y H, LI H D, DENG B C, CAO D S. TrAC, Trends Anal. Chem. , 2019, 113: 102-115.
[23] ZHANG D X, LIU J, YANG L, CUI T, HE X Y, YU T C, KHEIRY A N O. Int. J. Agric. Biol. Eng. , 2021, 14(6): 153-161.
[24] BIAN X, ZHANG R, LIU P, XIANG Y, WANG S, TAN X. Spectrochim. Acta, Part A, 2023, 284: 121788.
[25] ZHAO S, JIAO T, WANG Z, ADADE S Y S S, WU X, OUYANG Q, CHEN Q. J. Food Compos. Anal. , 2023, 123: 105653.
[26] LI Y, VIA B K, HAN F, LI Y, PEI Z. Front. Plant Sci. , 2023, 14: 1121287.
[27] BIAN X, ZHAO Z, LIU J, LIU P, SHI H, TAN X. Anal. Methods, 2023, 15(39): 5190-5198.
[28] ZERVOUDAKIS K, TSAFARAKIS S. Comput. Ind. Eng. , 2020, 145: 106559.
[29] LIM M K, LI Y, WANG C, TSENG M L. Ind. Manage. Data Syst. , 2022, 122(3): 819-840.
[30] TAMILMANI G, DEVI V B, SUJITHRA T, SHAJIN F H, RAJESH P. Biomed. Signal Process. Control, 2022, 75: 103545.[31] HASSAN ALI H, FATHY A. Energy, 2024, 292: 130600.
藥物制劑技術研究與評價\"國家藥品監(jiān)督管理局重點實驗室開放課題項目(Nos. 2022TREDP04,2023TREDP01)資助。