国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SSA-SVR的葡萄糖定量分析研究

2022-12-22 09:46:22郭洪瑞曹匯敏張朱珊瑩
關(guān)鍵詞:預(yù)處理葡萄糖光譜

郭洪瑞,曹匯敏,2,3*,張朱珊瑩,2,3*,李 龍,薛 宇,塔 娜,李 肖,周 丹

(1.中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,湖北 武漢 430074;2.認(rèn)知科學(xué)國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074;3.醫(yī)學(xué)信息分析及腫瘤診療湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074)

0 引言

葡萄糖作為一種隨處可見(jiàn)的有機(jī)化合物,在人體健康、農(nóng)業(yè)生產(chǎn)、醫(yī)療藥品等方面有著重要的作用[1-5]。在葡萄糖定量分析領(lǐng)域,常用的光學(xué)檢測(cè)方法主要有紅外光譜法[6]、偏振光旋光法[7]、拉曼光譜法[8]、光學(xué)相干斷層成像法[9]。紅外光譜(Infrared Spectroscopy,IR)因其無(wú)損傷、高靈敏度、無(wú)污染等特點(diǎn)被廣泛應(yīng)用。汪明圓等人[10]采用近紅外光譜和互因子分析方法(Mutual factor analysis,MFA)對(duì)血清中低濃度葡萄糖進(jìn)行定量分析,預(yù)測(cè)集相關(guān)系數(shù)(Rp)和預(yù)測(cè)集均方根誤差(RMSEP)分別為0.9833 mmol/L和0.07 mmol/L。Fuglerud S S等人[11]采用近紅外光譜法對(duì)血糖檢測(cè)的影響因素進(jìn)行研究,使用偏最小二乘回歸(Partial least squares regression,PLSR)方法建模RMSEP達(dá)到1.6 mmol/L。同時(shí)發(fā)現(xiàn)人體中高于生理水平的乳酸和乙醇會(huì)對(duì)葡萄糖的檢測(cè)有較大的影響。Wang C Y等人[12]利用近紅外高光譜成像技術(shù)針對(duì)水溶液中0~1000 mg/dL的葡萄糖濃度進(jìn)行PLSR預(yù)測(cè),預(yù)測(cè)集決定系數(shù)(RP2)和RMSEP分別為0.9902和37.5 mg/dL,證明近紅外高光譜成像技術(shù)在葡萄糖定量中的可行性。Zavala O D A 等人[13]使用 PLSR、支持向量回歸(Support Vector Regression,SVR)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)對(duì)細(xì)胞培養(yǎng)過(guò)程中的葡萄糖、乳酸鹽、谷氨酰胺等物質(zhì)濃度進(jìn)行研究,其中針對(duì)葡萄糖濃度檢測(cè)模型的PLSR、SVR、ANN的RMSEP分別為3.37×10-5cell/mL、2.29×10-5cell/mL、1.32 ×10-5cell/mL,證明SVR 和 ANN的有效性。

本文以葡萄糖仿體溶液(樣本A)和葡萄糖及白蛋白仿體溶液(樣本B)為研究對(duì)象,采集其紅外光譜數(shù)據(jù),建立定量分析模型。通過(guò)四種數(shù)據(jù)集劃分方法、五種預(yù)處理方法及其組合、兩種建模方法,探討數(shù)據(jù)集劃分方法、預(yù)處理方法及定量模型的影響關(guān)系,研究葡萄糖高精準(zhǔn)定量的方法。

1 實(shí)驗(yàn)部分

1.1 光譜數(shù)據(jù)采集

通過(guò)母液配置法,配置兩種仿體溶液,材料為Thermo超純水系統(tǒng)制備的超純水、費(fèi)森尤斯卡比華瑞制藥有限公司的英脫利匹特脂肪乳注射液、上海麥克林生化科技有限公司的無(wú)水葡萄糖試劑和卵清蛋白試劑。樣本A:葡萄糖仿體溶液,其中葡萄糖濃度范圍為0~500 mg/dL,以20 mg/dL和50 mg/dL為梯度,共計(jì)30個(gè)樣本。樣本B:葡萄糖與白蛋白混合仿體溶液,其中葡萄糖濃度范圍為0~500 mg/dL,以50 mg/dL為梯度;白蛋白為0~2000 mg/dL,以500 mg/dL為梯度,共計(jì)40個(gè)樣本。

對(duì)兩種樣本的紅外光譜數(shù)據(jù)進(jìn)行采集,掃描時(shí)使用硒化鋅(ZnSe)水平衰減全反射附件,扣除的背景是以純仿體溶液和二氧化碳為背景。設(shè)備為傅里葉變換中近紅外光譜儀,型號(hào)為布魯克INVENIO S,光譜掃描范圍為4000~600 cm-1,數(shù)值為掃描16次的平均值,分辨率為4 cm-1。由于光譜數(shù)據(jù)的冗余性,實(shí)驗(yàn)只采用光譜范圍在3000~600 cm-1的數(shù)據(jù)。

1.2 數(shù)據(jù)集劃分

采用等間隔劃分法(RANK)、Kennard Stone(KS)法、雙向(Duplex)法、SPXY(sample set partitioning based on joint x-y distance)法四種劃分方法劃分?jǐn)?shù)據(jù),校正集與預(yù)測(cè)集的比例為3∶1,然后建立葡萄糖定量分析模型(PLSR和SVR),通過(guò)模型評(píng)價(jià)數(shù)據(jù)集劃分方法的優(yōu)劣。

1.3 數(shù)據(jù)預(yù)處理

光譜的信息冗余會(huì)給后續(xù)的建模帶來(lái)干擾,因此采用小波變換濾波(Wavelet Transform,WT)、直接正交信號(hào)校正(Direct Orthogonal Signal Correction,DOSC)、Savitzky Golay(SG)濾波、散射校正(Multivariate Scatter Correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normal Variate,SNV)五種方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,比較其對(duì)建模的影響。同時(shí),無(wú)預(yù)處理記作RAW。

1.4 建模方法

1.4.1 偏最小二乘回歸

對(duì)于PLSR模型[14],首先按照劃分方法和3:1的劃分比例將數(shù)據(jù)集劃分為校正集與測(cè)試集,然后經(jīng)過(guò)預(yù)處理方法處理后,采用留一交叉驗(yàn)證法確定的最佳主因子數(shù),主因數(shù)的搜索范圍為1~20,然后獲取在最佳主因子數(shù)下的模型,使用最佳模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。

1.4.2 基于麻雀搜索算法的支持向量回歸

根據(jù)Cortes和Vapnik的支持向量機(jī)思想,衍生出支持向量回歸(SVR)算法。SVR算法也被開(kāi)發(fā)出ε-SVR、ν-SVR、LSSVR 等多種衍生算法,其中ε-SVR為基礎(chǔ)的算法之一。目前,SVR的核函數(shù)大多使用這四種,它們分別是線性(Linear)核函數(shù)、多項(xiàng)式(Polynomial)核函數(shù)、徑向基(Radial Basis Function,RBF)核函數(shù)、Sigmod核函數(shù)[15,16]。RBF核函數(shù)公式如下:

根據(jù)文獻(xiàn)[17]可得出,RBF核函數(shù)在處理非線性問(wèn)題有著較好的穩(wěn)定性。因此,本研究采用RBF核函數(shù)進(jìn)行建模。利用臺(tái)灣大學(xué)林志仁(Chih-Jen Lin)教授等人研發(fā)的LIBSVM工具包建立模型[18],實(shí)驗(yàn)中設(shè)置的主要參數(shù)如表1所示。

表1 實(shí)驗(yàn)中設(shè)置的主要參數(shù)

隨著仿生群智能算法的出現(xiàn)[19],根據(jù)麻雀的覓食和反捕食行為,薛建凱等人提出一種新型的群智能優(yōu)化算法——麻雀搜索算法(Sparrow Search Algorithm,SSA)[20]。該算法通過(guò)模擬麻雀發(fā)現(xiàn)食物并引導(dǎo)方向、其他麻雀加入捕食隊(duì)伍、提高種群適應(yīng)度、發(fā)現(xiàn)危險(xiǎn)采取安全措施等行為實(shí)現(xiàn)其對(duì)食物的搜索,即參數(shù)的搜索。

假設(shè)麻雀群內(nèi)有麻雀N只,則經(jīng)過(guò)t次迭代后發(fā)現(xiàn)者麻雀處于d維空間中的位置為

其中,T為最大迭代的次數(shù);α為隨機(jī)數(shù),取值范圍是(0,1];Q為隨機(jī)數(shù),取值服從正態(tài)分布;R2為當(dāng)前輪次的預(yù)警值;ST為當(dāng)前輪次的安全值;L為1×d的單位矩陣。

同樣,經(jīng)過(guò)t次迭代后加入者麻雀處于d維空間中的位置為

其中,xwtd為之前輪次的最差位置;xbdt+1為當(dāng)前輪次的最優(yōu)位置;A為取值1或-1、大小1×d的矩陣;A=A+T(AAT)-1。

在所有的加入者麻雀中,大約有10%~20%的預(yù)警者。當(dāng)遇到危險(xiǎn)時(shí),它們會(huì)進(jìn)行反捕或者撤退。經(jīng)過(guò)t次迭代后,這些預(yù)警者麻雀處于d維空間中的位置為

對(duì)于SVR模型,首先按照劃分方法和3∶1的劃分比例將數(shù)據(jù)集劃分為校正集與測(cè)試集,然后經(jīng)過(guò)預(yù)處理方法處理后,SSA算法中的適應(yīng)度為超參搜索過(guò)程中SVR模型的RMSEP,待SSA算法確定最優(yōu)的參數(shù)c、參數(shù)g和參數(shù)p,得到最優(yōu)的參數(shù)下的SVR模型。最后使用最佳模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。

1.5 模型評(píng)價(jià)指標(biāo)

測(cè)量值與真實(shí)值之間的相關(guān)系數(shù)R和均方根誤差RMSE,其計(jì)算公式如下:

2 結(jié)果與討論

2.1 不同數(shù)據(jù)集劃分方法結(jié)果對(duì)比分析

不同數(shù)據(jù)集劃分方法會(huì)對(duì)模型的實(shí)驗(yàn)結(jié)果有所影響。因此,針對(duì)兩種無(wú)預(yù)處理的數(shù)據(jù)集,采用四種劃分方法,進(jìn)行PLSR和SVR建模預(yù)測(cè),劃分比例為3∶1。

2.1.1 PLSR模型結(jié)果分析

表2為四種劃分方法下的PLSR模型結(jié)果。從表2中可以看出,樣本A模型效果最好的為SPXY法,RMSEP為10.8284 mg/dL;樣本B模型效果最好的為KS法,RMSEP為6.4114 mg/dL。同時(shí)發(fā)現(xiàn),SXPY法和Duplex法下的模型預(yù)測(cè)表現(xiàn)比較穩(wěn)定,但前者表現(xiàn)較好。

表2 PLSR模型結(jié)果對(duì)比

2.1.2 SVR模型結(jié)果分析

表3為四種劃分方法下的SVR模型結(jié)果。由表3可知,樣本A模型效果最好的為SPXY法,RMSEP為10.4970 mg/dL;樣本B模型效果最好的為SPXY法,RMSEP為10.4134 mg/dL。不難看出,SPXY法下的SVR模型預(yù)測(cè)效果依舊穩(wěn)定,且效果良好。

表3 SVR模型結(jié)果對(duì)比

2.1.3 實(shí)驗(yàn)結(jié)果分析

圖1為在不同的樣本和建模方法下不同劃分方法的模型RMSEP結(jié)果。從圖1中可以看出,劃分方法、樣本、建模方法之間存在相互影響關(guān)系,即在建模時(shí)需要優(yōu)選劃分方法。同時(shí),SPXY法在四種劃分方法下的模型表現(xiàn)比較穩(wěn)定,且預(yù)測(cè)效果較好。所以在探討不同預(yù)處理方法下模型的優(yōu)劣問(wèn)題時(shí),數(shù)據(jù)集劃分方法統(tǒng)一選用SPXY法。

圖1 不同劃分方法的模型RMSEP結(jié)果對(duì)比圖

2.2 不同預(yù)處理方法結(jié)果對(duì)比分析

為了更好地建立模型,需要對(duì)預(yù)處理方式進(jìn)行選擇。將WT、DOCS、SG、SNV、MSC、RAW五種預(yù)處理方法按照單一和兩兩組合(考慮順序)的方式,得到26種預(yù)處理方法。為了方便探討預(yù)處理方法之間的關(guān)系,數(shù)據(jù)集劃分方法選用SPXY法。

2.2.1 單獨(dú)預(yù)處理方法結(jié)果對(duì)比分析

圖2中的折線為無(wú)預(yù)處理下模型的RMSEP值,位于折線下方的方法對(duì)模型預(yù)測(cè)效果有所提升,位于折線上方的方法對(duì)模型預(yù)測(cè)效果有所下降。從圖2中可以分析出,SG對(duì)SVR和PLSR模型的改善最為明顯,WT和DOCS幾乎無(wú)改善,然而SNV和MSV方法對(duì)模型呈完全負(fù)優(yōu)化。SNV和MSC兩種算法都是消除固體顆粒導(dǎo)致的散射現(xiàn)象,由于樣本的配置和光譜的采集比較嚴(yán)苛,采集到的紅外光譜數(shù)據(jù)中存在較少的散射現(xiàn)象,因此兩種預(yù)處理方法反而對(duì)數(shù)據(jù)造成了干擾。

圖2 單預(yù)處理方法下的SVR和PLSR模型RMSEP對(duì)比圖

2.2.2 組合預(yù)處理方法結(jié)果對(duì)比分析

五種預(yù)處理方式按兩兩組合(考慮順序)得到20種組合預(yù)處理方式,如表4所示,然后采用PLSR和SVR對(duì)其進(jìn)行建模并分析。為了便于比較組合預(yù)處理與原預(yù)處理方法的效果,列出組合預(yù)處理方法的第一種預(yù)處理方法,如表5所示。表4和表5將用于圖3和圖4的繪制。

表4 20種組合預(yù)處理方法表

表5 組合預(yù)處理方法的第一種預(yù)處理方法表

圖3為組合預(yù)處理方法下PLSR模型的RMSEP結(jié)果對(duì)比圖,其中圓點(diǎn)為表5中預(yù)處理方法下的RMSEP結(jié)果。從圖3可以看出,SG與DOCS(即組3和組4)、DOCS與WT(即組7和組8)、SG與WT(即組17和組18)的組合順序?qū)δP托Ч绊懖淮?。?duì)于樣本A,效果最好的模型是WT+SG,RMSEP為8.0169 mg/dL,RP為0.9987;對(duì)于樣本B,效果最好的模型是 SG+DOCS,RMSEP 為 7.9836 mg/dL,RP為0.9985。在剩余組合方法中,針對(duì)樣本A有30%的方法對(duì)模型優(yōu)化作用,RMSEP降低的范圍一般在0.4705~2.8141 mg/dL,只有 SNV+MSC模型的RMSEP降低13.8237 mg/dL;針對(duì)樣本B,有近一半對(duì)模型有微小的優(yōu)化,RMSEP降低的范圍一般在0.1066~2.1436 mg/dL,只有MSC+SNV模型的RMSEP降低19.0178 mg/dL。

圖3 組合預(yù)處理方法和單一預(yù)處理下PLSR模型的RMSEP結(jié)果對(duì)比圖

圖4為SVR模型的RMSEP結(jié)果對(duì)比圖,其中圓點(diǎn)為表5中預(yù)處理方法下的RMSEP結(jié)果。從圖4中可以分析出,MSC+SG(即組9)、SNV+SG(即組16)、MSC+WT(即組13)、WT+SG(即組18)四種組合預(yù)處理方案都對(duì)模型有所提升。對(duì)于樣本A,效果最好的模型是WT+SG,RMSEP為3.4351 mg/dL,RP為0.9998;對(duì)于樣本B,效果最好的模型是SG+WT,RMSEP為5.9545 mg/dL,RP為0.9992。同時(shí)發(fā)現(xiàn),一半以上的組合預(yù)處理與單一預(yù)處理相比,對(duì)模型都是負(fù)影響,其中DOCS+MSC的模型影響最為明顯,對(duì)于樣本A,RMSEP提升76.9222 mg/dL;對(duì)樣本B,RMSEP提升275.2664 mg/dL。

圖4 組合預(yù)處理方法和單一預(yù)處理下SVR模型的RMSEP結(jié)果對(duì)比圖

2.2.3 實(shí)驗(yàn)結(jié)果分析

表6為SPXY劃分方法下各樣本模型的RMSEP排名前五的結(jié)果。從表6中不難發(fā)現(xiàn),對(duì)于單一背景樣本A,不管采用PLSR還是SVR建模,最優(yōu)的預(yù)處理都是WT+SG。此時(shí)PLSR模型的RMSEP為8.0169 mg/dL,RP為0.9987;SVR模型的RMSEP為3.4351 mg/dL,RP為0.9998。對(duì)于復(fù)雜背景樣本B,PLSR模型的最優(yōu)預(yù)處理方法是SG+DOCS,其 RMSEP為7.9836 mg/dL,RP為 0.9985;SVR模型的最優(yōu)預(yù)處理為SG,其RMSEP為5.2247 mg/dL,RP為0.9993。整體來(lái)看,在SPXY劃分方法下,SVR模型對(duì)于單一背景還是復(fù)雜背景,模型效果要優(yōu)于PLSR模型。同時(shí)發(fā)現(xiàn),針對(duì)不同的建模方式和樣本,最優(yōu)模型采用的預(yù)處理方法也不同,需要尋找最優(yōu)組合。

表6 SPXY法劃分方法下的PLSR和SVR模型結(jié)果

2.3 不同建模方式結(jié)果對(duì)比分析

采用樣本A和樣本B兩種數(shù)據(jù)集、四種數(shù)據(jù)集劃分方法、六種預(yù)處理方式(包含RAW)及其組合預(yù)處理方法、兩種建模方法,得到2×4×26×2=416種組合模型。將每種數(shù)據(jù)集的每種模型效果排名前五的結(jié)果進(jìn)行展示,如表7所示。

表7 不同建模方式的實(shí)驗(yàn)結(jié)果部分展示

從表7看出,PLSR模型的最優(yōu)預(yù)處理方法為DOCS與SG組合,SVR模型的最優(yōu)預(yù)處理為WT與SG組合。與表6的結(jié)果不同,說(shuō)明劃分方法、預(yù)處理、建模方法存在相互影響關(guān)系。因此,針對(duì)不同樣本,需要探究數(shù)據(jù)集劃分方法、預(yù)處理方法、定量模型的最佳組合。另外,從表7還可以看出,樣本A最佳PLSR模型采用的是RANK劃分方法、SG+DOCS預(yù)處理方法,其模型的RMSEP為5.7079 mg/dL,RP為0.9998;樣本A最佳SVR模型采用的是SPXY劃分方法、WT+SG預(yù)處理方法,其模型的RMSEP為3.4351 mg/dL,RP為0.9998;樣本B最佳PLSR模型采用的是KS方法、DOCS+SG預(yù)處理方法,其模型的RMSEP為5.8532 mg/dL,RP為0.9990;樣本B的最佳SVR模型采用的是RANK劃分法、SG+WT預(yù)處理方法,其模型的RMSEP為3.6813 mg/dL,RP為0.9998。無(wú)論哪種樣本,SVR模型效果都要優(yōu)于PLSR模型。

3 結(jié)論

采用單一背景和混合背景兩組葡萄糖紅外光譜數(shù)據(jù),利用PLSR和SVR方法建立葡萄糖定量回歸模型。同時(shí),從四種數(shù)據(jù)集劃分方法與五種預(yù)處理方法中探尋最佳組合。研究結(jié)果表明,針對(duì)不同樣本,需要探究數(shù)據(jù)集劃分方法、預(yù)處理方法、定量建模的最佳組合。對(duì)于樣本A,最佳定量分析模型是SPXY-WT+SG-SVR模型,優(yōu)于最佳PLSR模型,RMSEP降低1.9980 mg/dL;樣本B最佳組合為RANK-SG+WT-SVR模型,優(yōu)于最佳PLSR模型,RMSEP降低2.1718 mg/dL。由此可以看出,無(wú)論是單一背景樣本還是混合背景樣本,SVR模型效果都要優(yōu)于PLSR模型。因此,SVR模型更適用于紅外光譜的葡萄糖定量分析研究,研究結(jié)果為紅外光譜數(shù)據(jù)集定量分析提供一種思路。

猜你喜歡
預(yù)處理葡萄糖光譜
基于三維Saab變換的高光譜圖像壓縮方法
葡萄糖漫反射三級(jí)近紅外光譜研究
糖耐量試驗(yàn)對(duì)葡萄糖用量的要求
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
葡萄糖對(duì)Lactobacillus casei KDL22發(fā)酵及貯藏性能的影響
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
星載近紅外高光譜CO2遙感進(jìn)展
多發(fā)性肺硬化性血管瘤18~F-脫氧葡萄糖PET/CT顯像1例
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
永定县| 库车县| 宝山区| 南昌县| 河津市| 德阳市| 锦州市| 堆龙德庆县| 阳江市| 彭水| 门源| 巴林左旗| 平度市| 罗田县| 增城市| 黄冈市| 池州市| 滦平县| 镇巴县| 新蔡县| 南陵县| 集安市| 贵南县| 曲松县| 兴安县| 金寨县| 沙雅县| 栖霞市| 改则县| 杭锦后旗| 夏津县| 黄大仙区| 确山县| 古浪县| 湘乡市| 平安县| 清流县| 开平市| 屏南县| 陈巴尔虎旗| 临朐县|