朱建國(guó),王雅靜,尹知沁,謝雷英,5,王 娜,6,曹 鐸
(1.上海理工大學(xué) 材料科學(xué)與工程學(xué)院,上海 200093;2.上海師范大學(xué) 數(shù)理學(xué)院,上海 200234;3.中國(guó)科學(xué)院上海技術(shù)物理研究所 紅外物理國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200083;4.上海節(jié)能鍍膜玻璃工程技術(shù)研究中心,上海 200083;5.上??萍即髮W(xué) 物質(zhì)學(xué)院,上海 200120;6.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433)
自從1996 年第一個(gè)轉(zhuǎn)基因生物(GMO)批準(zhǔn)入市以來,引入市場(chǎng)的轉(zhuǎn)基因農(nóng)作物數(shù)量急劇增加[1]。采用轉(zhuǎn)基因技術(shù)可以將抗蟲基因[2]、抗病基因[3]和抗除草劑基因[4]等優(yōu)良基因引入到農(nóng)作物中,以此來改善農(nóng)產(chǎn)品的品質(zhì)、縮短生長(zhǎng)周期,緩解由于人口快速增加和可用耕地減少而帶來的糧食危機(jī)。然而轉(zhuǎn)基因技術(shù)的潛在安全性仍然存在著爭(zhēng)議,比如:轉(zhuǎn)移基因表達(dá)的蛋白質(zhì)對(duì)生態(tài)環(huán)境的非預(yù)期影響[5],外源基因逃逸對(duì)其他作物的潛在影響[6],以及由基因轉(zhuǎn)移引起的食物中毒、過敏反應(yīng)和耐藥性對(duì)人體的有害影響[7]。因此,如何快速鑒別是否為轉(zhuǎn)基因產(chǎn)品是非常必要的。
目前,聚合酶鏈反應(yīng)、酶聯(lián)免疫吸附分析、二維電泳和微陣列分析是轉(zhuǎn)基因產(chǎn)品和作物最常用的檢測(cè)方法[8]。這些方法在大多數(shù)情況下都具有良好的特異性和敏感性,但是檢測(cè)過程過于繁瑣,檢測(cè)時(shí)間長(zhǎng)達(dá)數(shù)個(gè)小時(shí),無法滿足人們想要實(shí)時(shí)檢測(cè)轉(zhuǎn)基因產(chǎn)品的需求。而近紅外光譜則是一種快速、無損、可實(shí)時(shí)在線檢測(cè)的技術(shù),不需要對(duì)轉(zhuǎn)基因樣品進(jìn)行任何處理就能表征基因結(jié)構(gòu)變化所帶來的構(gòu)型變化,進(jìn)而可以通過C—O鍵、C—H 鍵、C—N 鍵等數(shù)據(jù)變化看出基因表達(dá)的差異[9]。2010 年翟亞峰等[10]采用近紅外光譜技術(shù)實(shí)現(xiàn)了對(duì)不同品種的9 個(gè)小麥轉(zhuǎn)基因種子樣品的準(zhǔn)確鑒別。2013 年Luna 等[11]用近紅外光譜對(duì)非轉(zhuǎn)基因大豆油和轉(zhuǎn)基因大豆油進(jìn)行獨(dú)立識(shí)別,識(shí)別率分別為100%和90%,由于是對(duì)純的轉(zhuǎn)基因油與純的非轉(zhuǎn)基因油樣本進(jìn)行識(shí)別,實(shí)際應(yīng)用價(jià)值不高。
本文則對(duì)不同品牌的轉(zhuǎn)基因油和非轉(zhuǎn)基因油進(jìn)行混合,構(gòu)成不同混合比例的轉(zhuǎn)基因油樣本,并采用近紅外光譜技術(shù)對(duì)這些油樣本進(jìn)行分析。通過研究不同預(yù)處理方法對(duì)光譜預(yù)測(cè)模型的影響,提高了光譜預(yù)測(cè)模型準(zhǔn)確性,實(shí)現(xiàn)了對(duì)純的轉(zhuǎn)基因油以及非轉(zhuǎn)基因油中摻入轉(zhuǎn)基因油的有效鑒別。
購(gòu)置不同品牌的轉(zhuǎn)基因大豆油、轉(zhuǎn)基因玉米油和非轉(zhuǎn)基因大豆油、非轉(zhuǎn)基因玉米油若干瓶。將轉(zhuǎn)基因油與非轉(zhuǎn)基因油按1:1,1:2,1:3,???,1:20 等比例混合得到不同體積分?jǐn)?shù)的轉(zhuǎn)基因油樣本102 份,同時(shí)將不同品牌的非轉(zhuǎn)基因油按1:1,1:2,1:3,???,1:20 混合得到不同體積分?jǐn)?shù)的非轉(zhuǎn)基因油樣本102 份,混合好后的樣品放在超聲清洗機(jī)中用超聲波使之充分混合。
實(shí)驗(yàn)的轉(zhuǎn)基因油與非轉(zhuǎn)基因油的近紅外光譜由傅里葉變換紅外光譜儀vertex70(Bruker,Germany)采集,分辨率為2 cm?1,光譜區(qū)域?yàn)? 000~12 500 cm?1,掃描16 次。探測(cè)器為InGaAs。具體的掃描次數(shù)由信噪比決定,若信噪比較差可適當(dāng)增加掃描次數(shù)。每次采集光譜時(shí),先以空的比色皿測(cè)試以便扣除系統(tǒng)背景。
在建立光譜預(yù)測(cè)模型過程中,校正集樣本與預(yù)測(cè)集樣本的選擇至關(guān)重要,而Kennard Stone(KS)算法是一種應(yīng)用廣泛的樣本集劃分方法[12-13]。KS 算法以光譜間的歐氏距離為基礎(chǔ),選擇代表性強(qiáng),分布范圍廣的樣品作為轉(zhuǎn)換集樣品[12]。根據(jù)KS 法,我們選取轉(zhuǎn)基因樣本72 個(gè)、非轉(zhuǎn)基因樣本72 個(gè),共計(jì)144 個(gè)樣本作為校正集,余下的60 個(gè)樣本作為預(yù)測(cè)集。
對(duì)于不同種類的油其理化性質(zhì)差別不大,主要脂肪酸都是棕櫚酸、硬脂酸、油酸、亞油酸等,只是在含量上有所差別[14]。近紅外光譜能夠表征基因結(jié)構(gòu)變化所帶來的構(gòu)型變化,進(jìn)而可以通過C—O 鍵、C—H 鍵、C—N 鍵等數(shù)據(jù)變化看出基因表達(dá)的差異[9],而C—O 鍵、C—H鍵、C—N 鍵等在近紅外波長(zhǎng)的吸收峰又是不同的,因此可以通過觀察近紅外光譜吸收峰的位置和強(qiáng)度來找出轉(zhuǎn)基因油與非轉(zhuǎn)基因油之間的差異,如圖1 所示。從圖1 可以看出,轉(zhuǎn)基因油與非轉(zhuǎn)基因油在近紅外波段差異不大,在1 550~1 650 nm 和1 800~2 100 nm 范圍光譜強(qiáng)度有一定的區(qū)別。這是由于轉(zhuǎn)基因油與非轉(zhuǎn)基因油為同源性物質(zhì),這兩種物質(zhì)因化學(xué)鍵含量的不同而表現(xiàn)在光譜強(qiáng)度上有所差別。
圖1 轉(zhuǎn)基因油與非轉(zhuǎn)基因油在近紅外波段的原始光譜Fig.1 Spectra of genetically modified oil and non-transgenic oil in the near-infrared region
為了盡可能去除來自外界或者系統(tǒng)的隨機(jī)噪聲、光散射等對(duì)轉(zhuǎn)基因油與非轉(zhuǎn)基因油透射光譜的影響以及提高光譜與待測(cè)組分之間的相關(guān)性,我們利用MATLAB 2016a 軟件,分別采用多元散射校正(MSC)、一階導(dǎo)數(shù)(FD)、移動(dòng)窗口平滑(MWS)、Savitzky-Golay 平滑一階導(dǎo)數(shù)(SG1)等方法對(duì)原始光譜數(shù)據(jù)進(jìn)行了預(yù)處理。光譜預(yù)處理結(jié)果如圖2 所示,其中多元散射校正可以有效去除散射對(duì)樣品光譜的影響,移動(dòng)窗口平滑則可以提高分析信號(hào)的信噪比及消除儀器的隨機(jī)噪聲,一階導(dǎo)數(shù)和Savitzky-Golay 平滑一階導(dǎo)數(shù)可消除基線漂移、強(qiáng)化譜帶特征和克服譜峰重疊[15]。
支持向量機(jī)(SVM)是一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。SVM 利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則避免過擬合問題,在最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)下所得結(jié)果優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法,而且在小樣本、高維度數(shù)據(jù)情況下具有優(yōu)異的建模能力[16]。我們選擇SVM 作為建模方法[17],將預(yù)處理后的光譜數(shù)據(jù)分別輸入到SVM 中建立轉(zhuǎn)基因油與非轉(zhuǎn)基因油預(yù)測(cè)模型。通過對(duì)比不同預(yù)處理方法,建立模型后預(yù)測(cè)集樣本的預(yù)測(cè)結(jié)果,選擇最優(yōu)預(yù)處理方式,預(yù)測(cè)結(jié)果如表1 所示。在SVM 模型參數(shù)選擇中,選用徑向基RBF 核函數(shù)作為本次預(yù)測(cè)模型的核函數(shù),并通過網(wǎng)格參數(shù)尋優(yōu)和交叉驗(yàn)證獲得最佳的懲罰因子系數(shù)(C)和核函數(shù)的參數(shù)系數(shù)(G)。
由表1 可知,采用多元散射校正預(yù)處理方法預(yù)測(cè)準(zhǔn)確率最高,達(dá)到了91.6%,其他3 種預(yù)處理方法準(zhǔn)確率均不高于75%。因此我們把多元散射校正定為轉(zhuǎn)基因油和非轉(zhuǎn)基因油后續(xù)其他建模過程的光譜預(yù)處理方式,進(jìn)而研究其他影響模型預(yù)測(cè)能力的因素。
圖2 不同方法預(yù)處理后的光譜圖Fig.2 Different methods preprocessed spectra
表1 不同數(shù)據(jù)預(yù)處理方法的預(yù)測(cè)結(jié)果Tab.1 Prediction results of different pretreatment methods
在光譜全波長(zhǎng)建模中,雖然預(yù)測(cè)結(jié)果比較準(zhǔn)確,光譜與待測(cè)性質(zhì)表現(xiàn)出了很強(qiáng)的相關(guān)性。但光譜包含了6 000 多個(gè)數(shù)據(jù)點(diǎn),其中包含了大量與待測(cè)性質(zhì)無關(guān)的信息以及共線性變量。如果將這些冗余變量全部輸入到模型中,不僅會(huì)增加模型的建立難度,而且還會(huì)降低模型的預(yù)測(cè)精度與穩(wěn)定性。在近紅外光譜分析中,特征波長(zhǎng)篩選是非常重要的一步,通過光譜特征波長(zhǎng)提取,可以有效地簡(jiǎn)化模型并提高模型的預(yù)測(cè)精度和穩(wěn)定性。
連續(xù)投影算法(SPA)是一種向前變量篩選方法。通過選定一個(gè)初始波長(zhǎng),每一次迭代時(shí)加入新的波長(zhǎng),直至達(dá)到指定的波長(zhǎng)數(shù)量。通過這種投影分析,從光譜矩陣中提取有效信息,并使光譜變量共線性達(dá)到最小[18]。通過SPA 來提取特征波長(zhǎng)可以有效地去除光譜數(shù)據(jù)間的冗余變量。圖3 顯示了SPA 的不同數(shù)量變量進(jìn)行交叉驗(yàn)證的均方根誤差(RMSE)趨勢(shì)以及最終被選擇的特征波長(zhǎng)點(diǎn)。
從圖3(a)可以看出,當(dāng)選擇15 個(gè)特征變量(1 152 nm、1 184 nm、1 210 nm、1 231 nm、1 410 nm、1 433 nm、1 660 nm、1 860 nm、1 895 nm、1 920 nm、1 935 nm、2 012 nm、2 038 nm、2 084 nm、2 102 nm)時(shí),此 時(shí)RMSE 最小為0.46。因此這15 個(gè)特征波長(zhǎng)點(diǎn)被輸入到SVM中,輸入的特征波長(zhǎng)如圖3(b)所示。
圖3 連續(xù)投影算法(SPA)特征波長(zhǎng)選擇結(jié)果Fig.3 Characteristic wavelength results selected by successive projections algorithm(SPA)
與Luna 等[11]對(duì)轉(zhuǎn)基因油與非轉(zhuǎn)基因油進(jìn)行鑒別的方法不同,我們是將不同的轉(zhuǎn)基因油和非轉(zhuǎn)基因油進(jìn)行混合組成具有干擾性的轉(zhuǎn)基因油樣本進(jìn)行分析。對(duì)混合后的轉(zhuǎn)基因油與非轉(zhuǎn)基因油放在一起進(jìn)行預(yù)測(cè),這樣預(yù)測(cè)時(shí)的樣本既可能是純的轉(zhuǎn)基因油,也可能是摻雜的轉(zhuǎn)基因油,而不是純的轉(zhuǎn)基因油或者是純的非轉(zhuǎn)基因油,因而更接近實(shí)際應(yīng)用情況。預(yù)測(cè)結(jié)果如圖4 所示,共對(duì)60個(gè)樣本進(jìn)行預(yù)測(cè),其中30 個(gè)非轉(zhuǎn)基因油樣本準(zhǔn)確預(yù)測(cè)29 個(gè),準(zhǔn)確率為96.7%,僅有一個(gè)誤判,而30 個(gè)轉(zhuǎn)基因油準(zhǔn)確預(yù)測(cè)30 個(gè),準(zhǔn)確率為100%。
圖4 模型預(yù)測(cè)(標(biāo)簽為1 的是轉(zhuǎn)基因油,標(biāo)簽為?1 的是非轉(zhuǎn)基因油)Fig.4 Model prediction(Label 1 is a genetically modified oil,and label ?1 is a non-transgenic oil)
需要特別指出的是,我們所預(yù)測(cè)的30 個(gè)轉(zhuǎn)基因油中,只有4 個(gè)是純的轉(zhuǎn)基因油,其余26 個(gè)全部為非轉(zhuǎn)基因油中摻入轉(zhuǎn)基因油的樣本,因此,只要食用油中有轉(zhuǎn)基因油的存在就能被檢測(cè)出來。與Luna 等[11]僅對(duì)純轉(zhuǎn)基因油樣品進(jìn)行判別的準(zhǔn)確率(90%)相比,不但預(yù)測(cè)準(zhǔn)確率更高,而且更有實(shí)用價(jià)值。該模型針對(duì)轉(zhuǎn)基因油和非轉(zhuǎn)基因油的整體預(yù)測(cè)準(zhǔn)確率為98.3%,相比于整體預(yù)測(cè)準(zhǔn)確率為91.6%的MSC-SVM 模型,MSC-SPA-SVM 模型提高了預(yù)測(cè)準(zhǔn)確率,可以很大程度降低模型的復(fù)雜性,提高模型的預(yù)測(cè)精度。這也從側(cè)面表明,樣本光譜特征波長(zhǎng)的提取對(duì)于提高模型預(yù)測(cè)精度、減少模型的復(fù)雜性發(fā)揮著至關(guān)重要的作用。同時(shí)通過對(duì)比不同預(yù)處理方式對(duì)預(yù)測(cè)結(jié)果的影響,可以發(fā)現(xiàn),對(duì)于散射較為嚴(yán)重的樣本,采用多元散射校正(MSC)預(yù)處理會(huì)大大增強(qiáng)光譜數(shù)據(jù)與待測(cè)性質(zhì)之間的相關(guān)性,有利于光譜特征波段提取。
本文基于近紅外光譜技術(shù)對(duì)轉(zhuǎn)基因油和非基因油的鑒別進(jìn)行了研究。通過MSC 預(yù)處理方法,結(jié)合連續(xù)投影算法SPA 和支持向量機(jī)SVM獲得了很好的預(yù)測(cè)效果,準(zhǔn)確率高達(dá)98.3%。結(jié)果表明,轉(zhuǎn)基因油與非轉(zhuǎn)基因油基因表達(dá)在近紅外波段有差異,從而可通過近紅外光譜方法進(jìn)行判別。通過篩選特征波長(zhǎng),可以有效地去除光譜數(shù)據(jù)間的冗余變量,提高模型的預(yù)測(cè)精度和魯棒性。在我們所建立的預(yù)測(cè)模型中,只要食用油中有轉(zhuǎn)基因油的存在就能被檢測(cè)出來。與其他傳統(tǒng)檢測(cè)方法相比,近紅外光譜法操作簡(jiǎn)單、檢測(cè)時(shí)間短、不破壞樣品,可以滿足消費(fèi)者實(shí)時(shí)檢測(cè)轉(zhuǎn)基因產(chǎn)品的需求。后續(xù)研究將增加轉(zhuǎn)基因油與非轉(zhuǎn)基因油的種類,進(jìn)一步擴(kuò)大樣本數(shù)和類型,以提高模型預(yù)測(cè)的普適性。