謝佳麗,張 勝,姜新宇,王青青,張建兵,瞿海斌*
基于拉曼光譜的絞股藍(lán)總皂苷色譜洗脫過(guò)程在線監(jiān)測(cè)方法研究
謝佳麗1,張 勝1,姜新宇2,王青青3,張建兵3,瞿海斌1*
1. 浙江大學(xué) 藥物信息學(xué)研究所,浙江 杭州 310058 2. 湖南華寶通制藥有限公司,湖南 長(zhǎng)沙 410331 3. 萬(wàn)邦德制藥集團(tuán)有限公司,浙江 臺(tái)州 317599
為實(shí)現(xiàn)絞股藍(lán)總皂苷(saponins,GPS)色譜洗脫過(guò)程實(shí)時(shí)監(jiān)測(cè),保障純化過(guò)程絞股藍(lán)總皂苷質(zhì)量一致性。采集色譜洗脫過(guò)程7批共計(jì)237個(gè)樣本的拉曼光譜,將其中5批用于建模,2批用于外部測(cè)試,以總皂苷質(zhì)量濃度、總固體量和人參皂苷Rb3(Rb3)質(zhì)量濃度為指標(biāo),采用高斯過(guò)程回歸(Gaussian process regression,GPR)法建立定量模型,并將GPR模型與偏最小二乘回歸及支持向量機(jī)回歸定量模型進(jìn)行性能對(duì)比?;诶庾V技術(shù)結(jié)合GPR,建立了其洗脫過(guò)程的多指標(biāo)定量校正模型。總皂苷質(zhì)量濃度、總固體量和Rb3質(zhì)量濃度3個(gè)指標(biāo)的GPR模型均具有更高的決定系數(shù)(2),訓(xùn)練集2均為1.00,驗(yàn)證集2分別為0.953、0.986、0.939,以及更低的誤差均方根(root mean square error,RMSE),訓(xùn)練集RMSE分別為70.4、224.0、31.6 μg/mL,驗(yàn)證集RMSE分別為3.02、2.03、1.19 mg/mL。GPR模型在外部測(cè)試集的結(jié)果為總皂苷質(zhì)量濃度、總固體量和Rb3質(zhì)量濃度預(yù)測(cè)2分別達(dá)到0.947、0.954、0.837,RMSE分別為3.28、4.37、2.44 mg/mL;GPR模型能較好地反映總皂苷質(zhì)量濃度和總固體量含量和變化趨勢(shì),但對(duì)Rb3質(zhì)量濃度的預(yù)測(cè)能力較弱。以總皂苷質(zhì)量濃度和總固體量為指標(biāo),提出的基于拉曼光譜結(jié)合GPR建模的方法可實(shí)現(xiàn)絞股藍(lán)總皂苷色譜洗脫過(guò)程的實(shí)時(shí)監(jiān)測(cè)。
絞股藍(lán);色譜洗脫;拉曼光譜;高斯過(guò)程回歸;在線監(jiān)測(cè);質(zhì)量一致性;總皂苷;人參皂苷Rb3;偏最小二乘回歸;支持向量機(jī);誤差均方根
中藥提取物的分離純化是中藥制劑生產(chǎn)過(guò)程中的關(guān)鍵環(huán)節(jié),直接影響到產(chǎn)品的質(zhì)量和臨床療效[1]。大孔樹脂色譜常被應(yīng)用于總黃酮、總皂苷、總生物堿等中藥目標(biāo)成分的富集、分離和純化。但大孔樹脂色譜在實(shí)際生產(chǎn)中缺乏過(guò)程監(jiān)測(cè)方法,終點(diǎn)放行主要依賴于生產(chǎn)經(jīng)驗(yàn)或?qū)嶒?yàn)室分析結(jié)果[2],耗時(shí)且滯后,難以及時(shí)反映生產(chǎn)狀態(tài)以致生產(chǎn)決策延時(shí),造成產(chǎn)品質(zhì)量一致性較差。
絞股藍(lán)(Thunb.) Makino是多年生草質(zhì)藤本植物,為葫蘆科絞股藍(lán)屬,又名“七葉膽”“五葉參”等,在臨床上主要用于調(diào)節(jié)血糖、調(diào)血脂、抗腫瘤和抗血栓等,因此絞股藍(lán)也逐漸備受關(guān)注[3-4]。絞股藍(lán)的主要有效成分為皂苷類、多糖類、黃酮類、氨基酸類、多種維生素及微量元素等[5],其中皂苷類被視為絞股藍(lán)中重要的標(biāo)志性成分,是絞股藍(lán)的主要藥效成分[6-7]。絞股藍(lán)總皂苷工業(yè)化生產(chǎn)常用的方法是大孔吸附樹脂法,目前,關(guān)于絞股藍(lán)總皂苷色譜過(guò)程在線監(jiān)測(cè)方法的研究報(bào)道較少。
拉曼光譜(Raman spectroscopy)是一種快速、無(wú)損的在線檢測(cè)技術(shù),其原理是基于拉曼散射效應(yīng)得到分子振動(dòng)、轉(zhuǎn)動(dòng)相關(guān)信息從而反映化學(xué)組成,是一種常用的過(guò)程分析技術(shù)(process analytical technology,PAT)工具。拉曼光譜技術(shù)在中藥[8-10]、生物藥[11-13]、化學(xué)藥[14-16]的生產(chǎn)過(guò)程已有一定的應(yīng)用研究進(jìn)展,通過(guò)化學(xué)計(jì)量學(xué)和機(jī)器學(xué)習(xí)等方法建立定量光譜校正模型,實(shí)現(xiàn)制藥過(guò)程的在線監(jiān)測(cè)。
主成分回歸(principal components regression,PCR)[17]、偏最小二乘回歸(partial least squares regression,PLS)[18-20]及支持向量機(jī)回歸(support vector regression,SVR)[21-23]是常用光譜定量建模方法,但模型性能受樣本數(shù)量影響顯著,對(duì)于小樣本數(shù)據(jù),模型性能有時(shí)候會(huì)達(dá)不到理想效果。高斯過(guò)程回歸(Gaussian process regression,GPR)是一種基于貝葉斯理論和統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,適用于非線性、高維度以及小樣本等復(fù)雜數(shù)據(jù)的回歸問(wèn)題[24-25]。
本研究以絞股藍(lán)總皂苷色譜過(guò)程為對(duì)象,采用GPR法建立了基于拉曼光譜的在線監(jiān)測(cè)方法。首先優(yōu)化GPR模型的核函數(shù),然后將建立的GPR模型與優(yōu)選的PLS及SVR定量模型進(jìn)行性能對(duì)比,最終將該模型應(yīng)用于絞股藍(lán)總皂苷色譜洗脫過(guò)程,為該過(guò)程智能化生產(chǎn)提供了研究基礎(chǔ)。
i-Raman Plus型便攜式拉曼光譜儀,美國(guó)B&W Tek公司,配備785 nm激光源(300 mW)、電荷耦合器件檢測(cè)器和BAC101型工業(yè)級(jí)拉曼探頭;Agilent 1260型高效液相色譜儀,Agilent科技有限公司,配備在線脫氣機(jī)、四元泵、標(biāo)準(zhǔn)型自動(dòng)進(jìn)樣器、柱溫箱和蒸發(fā)光散射檢測(cè)器(evaporative light-scattering detector,ELSD);BT300-2J型流量型蠕動(dòng)泵,保定蘭格恒流泵有限公司;石英流通池,光程5 mm,宜興晶科光學(xué)儀器有限公司。
人參皂苷Rb1(Rb1,批號(hào)220307,質(zhì)量分?jǐn)?shù)≥98%)、人參皂苷Rb3(Rb3,批號(hào)220803,質(zhì)量分?jǐn)?shù)≥98%)對(duì)照品均購(gòu)自上海融禾醫(yī)藥科技有限公司。無(wú)水乙醇,分析純,體積分?jǐn)?shù)≥99.7%,上海凌峰化學(xué)試劑有限公司;純凈水,杭州娃哈哈集團(tuán)有限公司。柱色譜過(guò)程中的絞股藍(lán)上樣液樣品,批號(hào)T2021110101、T2021110102、T2021110103、T2021110104,由萬(wàn)邦德制藥集團(tuán)有限公司提供。
絞股藍(lán)總皂苷色譜過(guò)程包含了上樣、水洗、25%乙醇洗脫、70%乙醇洗脫和90%乙醇洗脫等工藝流程。為確保采樣點(diǎn)盡可能體現(xiàn)洗脫過(guò)程軌跡,從70%乙醇洗脫開始計(jì)時(shí),分時(shí)段選擇不同的采樣間隔來(lái)采集樣本,以批次2為例:在有效成分開始被洗脫出來(lái)之前,即第5~20 min,采樣間隔為5 min;在有效成分被洗脫出來(lái)至達(dá)到峰值后,即第21~30 min,采樣間隔為1 min;在峰值之后至洗脫終點(diǎn)前,即第31~65 min,采樣間隔為5 min;洗脫終點(diǎn)前后即第66~100 min,采樣間隔為2 min;各批次實(shí)驗(yàn)間根據(jù)具體情況進(jìn)行調(diào)整。每個(gè)樣本采集時(shí)長(zhǎng)為1 min,進(jìn)行了7個(gè)批次實(shí)驗(yàn),共采集了237個(gè)樣本,結(jié)果見表1。
絞股藍(lán)總皂苷色譜洗脫實(shí)驗(yàn)和光譜采集裝置見圖1,色譜洗脫液流出后直接進(jìn)入石英流通池來(lái)采集拉曼光譜。流通池到采樣口時(shí)滯約35 s,因此在光譜開始采集時(shí)需間隔35 s再采樣。拉曼光譜采集參數(shù):光譜波數(shù)范圍172.91~3 201.75 cm?1,激光強(qiáng)度100%,積分時(shí)間800 ms,平均次數(shù)43次(由于光譜儀內(nèi)部通訊和計(jì)算等原因,實(shí)驗(yàn)中每張光譜的實(shí)際采集時(shí)間約為1 min)。
拉曼光譜易受熒光干擾[26],以Savitsky-Golay平滑(SG,平滑點(diǎn)數(shù)15個(gè))、一階導(dǎo)數(shù)(first-order differential,1st)、二階導(dǎo)數(shù)(second-order differential,2nd)以及標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV)等方法及其組合作為光譜預(yù)處理方法可以減少熒光干擾,提取有用信息。
圖1 絞股藍(lán)總皂苷色譜洗脫實(shí)驗(yàn)和光譜采集裝置圖
絞股藍(lán)總皂苷色譜洗脫過(guò)程原始及預(yù)處理后拉曼光譜見圖2。單個(gè)批次內(nèi)隨著70%乙醇洗脫時(shí)間增加,拉曼光譜相對(duì)強(qiáng)度呈現(xiàn)先上升后下降趨勢(shì),與含量變化趨勢(shì)一致,各批次拉曼強(qiáng)度范圍在0~65 000。光譜預(yù)處理方法通過(guò)對(duì)光譜數(shù)據(jù)平滑降噪和基線校正達(dá)到減少熒光及噪聲背景干擾:SNV法降低了光譜數(shù)據(jù)中固體顆粒和樣品表面散射等造成的影響;SG 1st和SG 2nd有效地消除了基線漂移及熒光噪聲背景干擾,并分辨重疊峰,提高了拉曼光譜分辨率靈敏度。
2.3.1 對(duì)照品溶液的制備 精密稱取Rb1對(duì)照品6.90 mg于10 mL量瓶中,加甲醇至刻度,得質(zhì)量濃度為0.690 mg/mL的對(duì)照品溶液。
2.3.2 線性關(guān)系考察 吸取對(duì)照品溶液50、100、150、200、250、300、380 μL分別置于10 mL具塞試管中,60 ℃揮干,分別加入5%香草醛冰乙酸溶液0.2 mL、高氯酸0.8 mL,混勻,密塞,置60 ℃水浴中加熱15 min,取出,冷卻,加冰醋酸5 mL,混勻,即質(zhì)量濃度分別為34.5、69.0、104.0、138.0、172.0、207.0、262.0 μg/mL的系列對(duì)照品溶液。
以空白試劑為對(duì)照,在550 nm處測(cè)定吸光度。以質(zhì)量濃度為橫坐標(biāo)(),吸光度為縱坐標(biāo)(),繪制標(biāo)準(zhǔn)曲線,進(jìn)行線性回歸,得其回歸方程=0.275-0.010 9,相關(guān)系數(shù)=0.999 6,線性范圍34.5~262.0 μg/mL。
2.3.3 絞股藍(lán)總皂苷定量測(cè)定方法 精密量取所采集的樣本溶液適量,置10 mL具塞試管中,60 ℃揮干后,按“2.3.2”項(xiàng)下方法操作,測(cè)定吸光度,按照回歸方程計(jì)算絞股藍(lán)總皂苷的質(zhì)量濃度。
精密量取適量樣品溶液,置已干燥至恒定質(zhì)量的稱量瓶中,水浴上蒸干,于105 ℃干燥3 h,移至干燥器中冷卻30 min,迅速精密稱定質(zhì)量,計(jì)算總固體量。
使用HPLC-ELSD法測(cè)定絞股藍(lán)總皂苷色譜洗脫過(guò)程中的含量最高的皂苷成分即Rb3含量變化。
2.5.1 色譜條件 采用Agilent Zorbax SB-C18色譜柱(250 mm×4.6 mm,5 μm);流動(dòng)相為乙腈-0.5%乙酸水溶液,采用梯度洗脫程序:0~25 min,5%~31%乙腈;25~33 min,31%~33.2%乙腈;33~55 min,33.2%~33.5%乙腈;55~70 min,33.5%~50%乙腈;70~81 min,50%~58%乙腈;81~91 min,58%~100%乙腈;體積流量0.8 mL/min;進(jìn)樣量5 μL。ELSD參數(shù):增益100,漂移管溫度80 ℃,氣壓0.7 MPa。色譜圖見圖3。
圖2 絞股藍(lán)總皂苷色譜洗脫過(guò)程原始及預(yù)處理后拉曼光譜圖
2.5.2 對(duì)照品溶液的制備 精密稱取Rb332.44 mg于25 mL量瓶中,加甲醇至刻度,得質(zhì)量濃度為1.268 mg/mL的對(duì)照品母液;精密吸取該母液適量,用甲醇稀釋25倍,制得質(zhì)量濃度為51.90 μg/mL的對(duì)照品溶液。
圖3 陰性對(duì)照(A)、Rb3對(duì)照品(B)和供試品溶液(C)的HPLC圖
2.5.3 供試品溶液的制備 取絞股藍(lán)總皂苷色譜70%乙醇洗脫段溶液,經(jīng)0.22 μm微孔濾膜濾過(guò),即得。缺絞股藍(lán)陰性對(duì)照品溶液由70%乙醇溶液經(jīng)0.22 μm微孔濾膜濾過(guò)而得。
2.5.4 線性關(guān)系考察 精密吸取“2.5.2”項(xiàng)下的對(duì)照品母液5、10、20、30 μL,以及母液稀釋25倍所得的對(duì)照品溶液5、10、20 μL,按“2.5.1”項(xiàng)色譜條件進(jìn)樣檢測(cè),記錄色譜峰峰面積,以Rb3對(duì)照品質(zhì)量濃度對(duì)峰面積進(jìn)行線性回歸,得回歸方程為=9.889×105-468.2,相關(guān)系數(shù)=0.999 7,線性范圍0.259 5~38.04 μg/mL。
2.5.5 精密度試驗(yàn) 取T2021110103樣品,依供試品溶液制備方法制備一份供試品溶液,依法連續(xù)進(jìn)樣6次,計(jì)算Rb3色譜峰峰面積的RSD為2.11%。
2.5.6 穩(wěn)定性試驗(yàn) 取同一份T2021110103供試品溶液,于制備后0、2、4、6、12、18、24、36 h依法檢測(cè),計(jì)算Rb3色譜峰峰面積的RSD為2.46%,表明供試品溶液在36 h內(nèi)穩(wěn)定。
2.5.8 加樣回收試驗(yàn) 精密稱取7.16 mg Rb3對(duì)照品于10 mL量瓶中,甲醇定容,得質(zhì)量濃度為0.716 mg/mL的對(duì)照品溶液。精密吸取3份527、659、791 μL質(zhì)量濃度為0.716 mg/mL的對(duì)照品溶液于9個(gè)1 mL量瓶中,揮干。取9份已知質(zhì)量濃度的T2021110103供試品溶液,定容至刻度,依法檢測(cè),計(jì)算Rb3低、中、高濃度平均加樣回收率分別為94.76%、99.18%、94.57%,RSD分別為2.16%、2.68%、1.39%。
2.5.9 樣品測(cè)定 將色譜洗脫實(shí)驗(yàn)所得樣品,按“2.5.3”項(xiàng)下條件制備供試品溶液,按“2.5.1”項(xiàng)下色譜條件進(jìn)樣分析,記錄峰面積,按標(biāo)準(zhǔn)曲線計(jì)算Rb3的含量。
GPR是一種基于貝葉斯方法的非參數(shù)概率模型,高斯過(guò)程(Gaussian process,GP)性質(zhì)完全由均值函數(shù)和協(xié)方差函數(shù)確定,因此,GP可定義為()=GP((),(,′)),對(duì)于回歸模型如下:=()+,其中,為輸入變量,為觀測(cè)值,是觀測(cè)噪聲,假設(shè)其服從高斯分布,即=(0,σ2),其中σ2是噪聲的方差,因此,就可以得到的先驗(yàn)分布=(0,(,)+σ2I),以及觀測(cè)值和預(yù)測(cè)值*的聯(lián)合先驗(yàn)分布為
(1)
其中,*為輸入待測(cè)變量,式(1)也可以表示為
利用式(2)可得到*的后驗(yàn)分布為
(3)
將批次2~6實(shí)驗(yàn)樣本作為建模數(shù)據(jù)集,批次1和7實(shí)驗(yàn)樣本作為獨(dú)立于建模數(shù)據(jù)集的外部測(cè)試集。利用濃度梯度法將建模樣本的光譜數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集(3∶1),由于部分樣本的指標(biāo)參考值缺失,各指標(biāo)模型的樣本集劃分結(jié)果見表2。
表2 各指標(biāo)模型的樣本劃分結(jié)果
采用GPR法建立絞股藍(lán)總皂苷色譜洗脫過(guò)程的拉曼光譜與多個(gè)指標(biāo)間的定量模型。GPR模型的性能受到核函數(shù)的影響顯著,因此,建立了基于不同核函數(shù)的GPR模型,包括平方指數(shù)核(squared exponential,SE)、指數(shù)核(exponential,Exp)、有理二次核(rational quadratic,RQ)、Matern32與Matern52核。
通過(guò)貝葉斯優(yōu)化找到最小化五折交叉驗(yàn)證損失的超參數(shù)。以相同訓(xùn)練集和驗(yàn)證集建立PLS和SVR定量模型,其中SVR模型的超參數(shù)包括懲罰參數(shù)和核參數(shù)等,通過(guò)貝葉斯優(yōu)化方法以最小化五折交叉驗(yàn)證損失為目標(biāo)來(lái)尋找最佳的超參數(shù)組合,而PLS模型同樣通過(guò)最小化五折交叉驗(yàn)證誤差均方根來(lái)優(yōu)化主成分?jǐn)?shù)。
模型性能評(píng)價(jià)指標(biāo)包括決定系數(shù)(2)和誤差均方根(root mean square error,RMSE)。將得到的GPR模型與優(yōu)選的PLS以及SVR模型進(jìn)行各指標(biāo)預(yù)測(cè)性能的比較。
以70%乙醇開始洗脫為起點(diǎn),各批次樣本的絞股藍(lán)總皂苷含量、總固體量及Rb3含量的過(guò)程變化趨勢(shì)見圖4??梢钥闯?,不同批次間絞股藍(lán)總皂苷質(zhì)量濃度和總固體量含量范圍與變化趨勢(shì)較一致,但不同批次Rb3含量存在較大差異,其原因包括上樣液的Rb3含量各不相同以及各組分間競(jìng)爭(zhēng)吸附。除此之外,批次間洗脫起點(diǎn)與終點(diǎn)存在時(shí)間差異,原因在于大孔樹脂色譜柱柱效變化,批次3~7實(shí)驗(yàn)于大孔樹脂色譜柱再生后進(jìn)行,而批次1和2實(shí)驗(yàn)于再生前進(jìn)行。
圖4 絞股藍(lán)總皂苷色譜洗脫過(guò)程的各指標(biāo)變化圖
建立的各指標(biāo)基于不同核函數(shù)的GPR模型性能對(duì)比結(jié)果見表3,預(yù)處理方法選擇SG 2nd??傇碥崭鱃PR模型訓(xùn)練集的2和RMSE相差不大,觀察驗(yàn)證集,Matern32核模型具有更高的2和更低的RMSE,總皂苷和Rb3模型同理,因此總皂苷、總固體量和Rb3的GPR模型最佳核函數(shù)均為Matern32核。優(yōu)選出的3個(gè)GPR模型2都超過(guò)了0.93,表明3個(gè)模型均具有較好的擬合效果,模型性能好。
以相同的數(shù)據(jù)集建立并優(yōu)選出PLS和SVR模型,與“3.3”項(xiàng)得到的GPR模型的性能比較結(jié)果見表4??傇碥?、總固體量和Rb3的PLS模型預(yù)處理方法分別為1st、1st和SG(平滑點(diǎn)數(shù)為15)。根據(jù)交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)選擇最佳主成分?jǐn)?shù),結(jié)果見圖5。為防止過(guò)擬合,主成分?jǐn)?shù)量上限設(shè)為10個(gè),總皂苷、總固體量和Rb3的PLS模型的最佳主成分?jǐn)?shù)分別為3、3和10個(gè)。SVR模型采用SNV預(yù)處理后的拉曼光譜作為輸入,核函數(shù)均為線性函數(shù)。
表3 各指標(biāo)基于不同核函數(shù)的GPR模型性能對(duì)比結(jié)果
表4 各模型的性能參數(shù)對(duì)比結(jié)果
圖5 各指標(biāo)PLS模型主成分?jǐn)?shù)量選擇圖
觀察表4可發(fā)現(xiàn),總皂苷、總固體量與Rb3的GPR模型均擁有更高的2和更低的RMSE,性能最佳,其次是SVR模型,PLS模型性能最差。以驗(yàn)證集RMSE為評(píng)價(jià)指標(biāo),GPR總皂苷定量模型相對(duì)PLS和SVR模型預(yù)測(cè)誤差分別降低了31.8%、22.7%;GPR總固體量定量模型相對(duì)PLS和SVR模型預(yù)測(cè)誤差分別降低了69.5%、56.2%;GPR Rb3定量模型相對(duì)PLS和SVR模型預(yù)測(cè)誤差分別降低了25.2%、37.4%。在外部測(cè)試集中,總皂苷和固含量GPR模型2均大于0.93,模型擬合效果好且具有較好的魯棒性;Rb3的GPR模型雖然相比PLS和SVR模型性能最佳,但其2只有0.81,模型預(yù)測(cè)準(zhǔn)測(cè)度嚴(yán)重下滑,說(shuō)明該模型魯棒性差。
圖6為各模型預(yù)測(cè)值與參考值的相關(guān)圖,可以看出,3個(gè)指標(biāo)各模型中,PLS模型相關(guān)性均最差;SVR模型訓(xùn)練集樣本均具有較好的相關(guān)性,而驗(yàn)證集樣本相關(guān)性較差;GPR模型訓(xùn)練集和驗(yàn)證集均具有較好的相關(guān)性,說(shuō)明模型擬合效果好,預(yù)測(cè)準(zhǔn)確度高。將建立的GPR模型用于監(jiān)測(cè)批次1和7絞股藍(lán)總皂苷色譜洗脫過(guò)程的總皂苷質(zhì)量濃度、總固體量和Rb3質(zhì)量濃度,結(jié)果如圖7所示。GPR模型能較好地預(yù)測(cè)總皂苷質(zhì)量濃度和總固體量,而對(duì)Rb3質(zhì)量濃度預(yù)測(cè)準(zhǔn)確度較差。其原因可能在于Rb3含量在各上樣液中差異較大,且Rb3與其他各成分存在競(jìng)爭(zhēng)吸附,而本實(shí)驗(yàn)中采集的樣本較少,不足以充分反映這些情況,導(dǎo)致GPR模型對(duì)Rb3質(zhì)量濃度的預(yù)測(cè)性能較差。因此,總皂苷質(zhì)量濃度和總固體量更適合作為絞股藍(lán)總皂苷色譜洗脫過(guò)程的監(jiān)測(cè)指標(biāo),通過(guò)GPR模型實(shí)現(xiàn)色譜洗脫過(guò)程的可視化,幫助實(shí)驗(yàn)者判斷收集起點(diǎn)和洗脫終點(diǎn)。
圖6 各模型預(yù)測(cè)值與參考值的相關(guān)圖
圖7 絞股藍(lán)總皂苷色譜洗脫過(guò)程中總皂苷質(zhì)量濃度、總固體量和Rb3質(zhì)量濃度實(shí)時(shí)監(jiān)測(cè)
本研究建立了基于拉曼光譜技術(shù)的絞股藍(lán)總皂苷色譜洗脫過(guò)程的總皂苷濃度、總固體量和Rb3質(zhì)量濃度實(shí)時(shí)監(jiān)測(cè)方法。結(jié)果表明,該方法能精準(zhǔn)地預(yù)測(cè)絞股藍(lán)總皂苷色譜洗脫過(guò)程的總皂苷濃度和總固體量含量以及變化趨勢(shì),但對(duì)Rb3的預(yù)測(cè)能力相對(duì)較弱。后續(xù)研究中可通過(guò)增加訓(xùn)練集代表性樣本數(shù)量、篩選特征波長(zhǎng)范圍、更改樣本集劃分方法及建模算法等手段提高光譜信息挖掘能力,進(jìn)一步提高模型對(duì)Rb3的預(yù)測(cè)能力。以總皂苷濃度和總固體量為指標(biāo),該方法有助于生產(chǎn)人員判斷絞股藍(lán)總皂苷洗脫起點(diǎn)和終點(diǎn),可將該思路應(yīng)用到絞股藍(lán)總皂苷色譜洗脫上樣過(guò)程,指導(dǎo)上樣吸附時(shí)間的調(diào)整優(yōu)化,以保障絞股藍(lán)總皂苷的質(zhì)量一致性。
值得注意的是,相比PLS定量模型,SVR和GPR模型出現(xiàn)了過(guò)擬合現(xiàn)象。模型過(guò)擬合根本原因在于模型對(duì)數(shù)據(jù)變異的高解釋力并不等同于高預(yù)測(cè)力。數(shù)據(jù)變異包括來(lái)源自變量的變異和來(lái)源于抽樣隨機(jī)誤差的變異,模型擬合度即對(duì)數(shù)據(jù)變異的總解釋度。SVR和GPR法相比PLS增加了模型復(fù)雜度,提高了模型擬合度,解釋了更多的數(shù)據(jù)變異,但過(guò)度擬合反而偏離了數(shù)據(jù)生成的真實(shí)過(guò)程,導(dǎo)致對(duì)非樣本數(shù)據(jù)預(yù)測(cè)力降低。后續(xù)研究中可采用正則化和增大樣本量等來(lái)降低過(guò)擬合。
將拉曼光譜分析技術(shù)應(yīng)用于中藥領(lǐng)域,最主要的限制首先是大部分企業(yè)現(xiàn)有設(shè)備難以滿足PAT工業(yè)應(yīng)用需求,需要對(duì)生產(chǎn)設(shè)備進(jìn)行改造以及配置PAT工具,前期成本投入大;其次實(shí)際生產(chǎn)過(guò)程存在顆粒及氣泡問(wèn)題,導(dǎo)致光譜采集不穩(wěn)定,影響模型預(yù)測(cè)結(jié)果;最后是監(jiān)管難題,國(guó)內(nèi)對(duì)于PAT相關(guān)的法規(guī)和指導(dǎo)文件較為缺乏,在工藝變更等審批上存在挑戰(zhàn),企業(yè)對(duì)于實(shí)施PAT具有諸多顧慮。
利益沖突 所有作者均聲明不存在利益沖突
[1] 楊敏, 張?zhí)戾a, 史磊, 等. 大孔吸附樹脂分離純化中藥成分影響因素探討 [J]. 中草藥, 2020, 51(15): 4050-4058.
[2] 范冬冬, 匡艷輝, 董利華, 等. 基于“伴隨標(biāo)志物”在線控制技術(shù)的絞股藍(lán)總皂苷純化工藝及成分鑒定研究 [J]. 中國(guó)中藥雜志, 2017, 42(7): 1331-1337.
[3] 白宏, 王亞, 葛維娟, 等. 絞股藍(lán)皂苷的抗癌作用機(jī)制研究進(jìn)展 [J]. 西北藥學(xué)雜志, 2019, 34(4): 564-567.
[4] 鄧芙蓉, 王翰林, 謝佩佩, 等. 絞股藍(lán)皂苷對(duì)人胃癌細(xì)胞增殖和凋亡的影響及作用機(jī)制 [J]. 中國(guó)藥理學(xué)通報(bào), 2023, 39(4): 646-652.
[5] 張欣怡, 夏明明. 絞股藍(lán)化學(xué)成分的降血脂機(jī)制研究進(jìn)展 [J]. 光明中醫(yī), 2020, 35(8): 1271-1274.
[6] 杜曉鴻. 絞股藍(lán)發(fā)酵口服液的制備及對(duì)小鼠免疫功能的影響 [D]. 重慶: 西南大學(xué), 2022.
[7] 史琳, 王志成, 時(shí)圣明, 等. 絞股藍(lán)皂苷水解產(chǎn)物化學(xué)成分和藥理作用研究進(jìn)展[J]. 藥物評(píng)價(jià)研究, 2017, 40(5): 711-716.
[8] 殷文俊, 唐建飛, 鄭潔, 等. 基于拉曼光譜實(shí)時(shí)監(jiān)測(cè)甘草配方顆粒的提取過(guò)程 [J]. 中草藥, 2021, 52(18): 5560-5568.
[9] Ru C L, Wen W, Zhong Y. Raman spectroscopy for on-line monitoring of botanical extraction process using convolutional neural network with background subtraction [J]., 2023, 284: 121494.
[10] Tao Y, Bao J Q, Liu Q,. Application of deep-learning algorithm driven intelligent Raman spectroscopy methodology to quality control in the manufacturing process of Guanxinning Tablets [J]., 2022, 27(20): 6969.
[11] Gibbons L, Rafferty C, Robinson K,. Raman based chemometric model development for glycation and glycosylation real time monitoring in a manufacturing scale CHO cell bioreactor process [J]., 2022, 38(2): e3223.
[12] Westley C, Fisk H, Xu Y,. Real-time monitoring of enzyme-catalysed reactions using deep UV resonance raman spectroscopy [J]., 2017, 23(29): 6983-6987.
[13] Hara R, Kobayashi W, Yamanaka H,. Development of Raman calibration model without culture data for in-line analysis of metabolites in cell culture media [J]., 2023: 521-533.
[14] 劉蘭玲. 近紅外與拉曼光譜技術(shù)在硝苯地平原輔料及其溶出過(guò)程中的應(yīng)用研究 [D]. 濟(jì)南: 山東大學(xué), 2021.
[15] Inoue M, Osada T, Hisada H,. Quantitative monitoring of cocrystal polymorphisms in model tablets using transmission low-frequency Raman spectroscopy [J]., 2023, 112(1): 225-229.
[16] Zhu Q X, Li X H, Li D,. A rapid therapeutic drug monitoring strategy of carbamazepine in serum by using coffee-ring effect assisted surface-enhanced Raman spectroscopy [J]., 2022, 28(1): 128.
[17] 孟慶龍, 尚靜, 黃人帥, 等. 基于主成分回歸的獼猴桃可溶性固形物無(wú)損檢測(cè) [J]. 包裝工程, 2021, 42(3): 19-24.
[18] 閻續(xù), 沈麗娟, 胥文彥, 等. 拉曼光譜用于CHO細(xì)胞培養(yǎng)液多指標(biāo)快速分析 [J]. 高?;瘜W(xué)工程學(xué)報(bào), 2019, 33(4): 872-877.
[19] He H J, Wang Y L, Ou X Q,. Rapid determination of chemical compositions in chicken flesh by mining hyperspectral data [J]., 2023, 116: 105069.
[20] Teye E, Amuah C L Y, Yeh T S,. Nondestructive detection of moisture content in palm oil by using portable vibrational spectroscopy and optimal prediction algorithms [J]., 2023, 2023: 3364720.
[21] 韓斯琴高娃, 李楠, 薛蘭, 等. 拉曼光譜技術(shù)結(jié)合主成分分析-支持向量機(jī)對(duì)砷類礦物藥的分類識(shí)別研究 [J]. 分析科學(xué)學(xué)報(bào), 2022, 38(2): 224-228.
[22] Ikram R M A, Mostafa R R, Chen Z H,. Advanced hybrid metaheuristic machine learning models application for reference crop evapotranspiration prediction [J]., 2022, 13(1): 98.
[23] Wang C Z, Li M Y, Yan J P. Forecasting carbon dioxide emissions: Application of a novel two-stage procedure based on machine learning models [J]., 2023, 14(2): 477-493.
[24] 姚煜, 胡濤, 付建勛, 等. 小樣本分散數(shù)據(jù)的回歸建模和多目標(biāo)優(yōu)化 [J]. 上海大學(xué)學(xué)報(bào): 自然科學(xué)版, 2022, 28(3): 451-462.
[25] Wu S J, Cui T C, Li Z,. Real-time monitoring of the column chromatographic process ofpart I: End-point determination based on near-infrared spectroscopy combined with machine learning [J]., 2022, 46(19): 9085-9097.
[26] Goldrick S, Lovett D, Montague G,. Influence of incident wavelength and detector material selection on fluorescence in the application of Raman spectroscopy to a fungal fermentation process [J].(Basel, Switzerland), 2018, 5(4): 79.
[27] 馬澤剛, 黃春花, 鐘輝云, 等. 八個(gè)不同產(chǎn)地絞股藍(lán)總皂苷含量及抗氧化活性測(cè)定[J]. 湖北農(nóng)業(yè)科學(xué), 2018, 57(14): 109-113.
On-line monitoring method of chromatographic process ofsaponins based on Raman spectroscopy
XIE Jia-li1, ZHANG Sheng1, JIANG Xin-yu2, WANG Qing-qing3, ZHANG Jian-bing3, QU Hai-bin1
1. Pharmaceutical Informatics Institute, College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310058, China 2. Hunan Huabaotong Pharmaceutical Co., Ltd., Changsha 410331, China 3. Wanbangde Pharmaceutical Group Co., Ltd., Taizhou 317599, China
In order to realize the real-time monitoring of chromatographic process ofsaponins (GPS) and ensure the quality uniformity and batch consistency.The Raman spectra of 237 samples collected in seven batches during the chromatographic process, of which five batches were used as modeling sets and two batches were used as external test sets. With total saponin concentration, total solids and ginsenoside Rb3concentration as indexes, Gaussian process regression (GPR) method was used to establish the model, and the performance was compared with partial least squares and support vector machine regression quantitative models, and the method was applied to external test sets for validation.Multi-index quantitative correction models were established based on Raman spectroscopy combined with GPR. The results showed that the GPR models of the three indexes had higher coefficient of determination (2) and lower root mean square error (RMSE). The2of the training sets were all 1.00, and the2of the verification sets were 0.953, 0.986, and 0.939, respectively. The RMSE of the training sets were 70.4, 224.0, 31.6 μg/mL, and the RMSE of the verification sets were 3.02, 2.03, 1.19 mg/mL, respectively. The results of external test sets showed that the prediction2of total saponin concentration, total solid content and ginsenoside Rb3concentration were 0.947, 0.954 and 0.837, respectively, and RMSE were 3.28, 4.37 and 2.44 mg/mL, respectively. GPR model can predict the content and trend of total saponin and total solid well, but it is weak in predicting ginsenoside Rb3concentration.With total saponins concentration and total solids as indexes, this method can realize the real-time monitoring of the chromatographic process of GPS.
; chromatographic process; raman spectrum; gaussian process regression; on line monitoring; quality conformance; total saponins; ginsenoside Rb3; partial least squares; support vector machine regression
R283.6
A
0253 - 2670(2023)12 - 3824 - 10
10.7501/j.issn.0253-2670.2023.12.009
2023-01-11
國(guó)家中醫(yī)藥管理局“組分中藥與智能制藥多學(xué)科交叉創(chuàng)新團(tuán)隊(duì)”(ZYYCXTD-D-2020002)
謝佳麗(1998—),女,碩士研究生,研究方向?yàn)樾滤巹?chuàng)制工程。E-mail: 1547670486@qq.com
通信作者:瞿海斌,博士生導(dǎo)師,從事制藥過(guò)程質(zhì)量控制研究。Tel: (0571)88208428 E-mail: quhb@zju.edu.cn
[責(zé)任編輯 鄭禮勝]