鄧 悅 王亞平 張 毅
(1.錦州醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院醫(yī)學(xué)物理教研室 錦州 121013;2.大連理工大學(xué)物理與光電工程學(xué)院 大連 116024)
當(dāng)前對于人類健康威脅最大的是癌癥,其中占第一位的是肺癌[1],女性第一位的是乳腺癌[2]。現(xiàn)在對肺癌和乳腺癌的篩查檢測方法中,有血清免疫學(xué)方法等,但都不夠理想,尤其對肺癌、乳腺癌早期的檢測很困難,尚無令人滿意的方法。
表面增強(qiáng)拉曼光譜在用于檢測時,具有所需樣品少和無損傷的特點(diǎn),同時對于具有拉曼活性的物質(zhì)具有高選擇性[3],所以可以用該方法進(jìn)行癌癥或其他疾病的檢測。目前,已有很多文獻(xiàn)報道了拉曼光譜在疾病檢測上的應(yīng)用[4]。
在血清SERS光譜分類分析方法中,常用的是主成分分析法[5],并且該方法也已發(fā)展的較為成熟。此外還有聚類分析法,聚類分析作為一種有效的數(shù)據(jù)分析工具,已廣泛地應(yīng)用于圖像處理、信息檢索、數(shù)據(jù)挖掘等領(lǐng)域[6],近來大連理工大學(xué)的馬輝[7]已將該分類方法應(yīng)用到血清光譜的分析中。
本文主要對三類血清(35例健康人、58例乳腺病患者及43例肺癌患者)進(jìn)行拉曼光譜檢測,所得的數(shù)據(jù)經(jīng)過一定的預(yù)處理之后,對其分別進(jìn)行主成分分析和聚類分析,并對分析結(jié)果進(jìn)行比較,為下一步找出更適合血清SERS光譜分類分析方法提供有用的參考。
(1)實(shí)驗(yàn)儀器:RENISHAW(INVIA)拉曼光譜儀、電子分析天平、磁力加熱攪拌器、離心機(jī)、微波爐、超聲波振蕩器等。
(2)實(shí)驗(yàn)條件:用半導(dǎo)體硅片(520 cm-1)定標(biāo),血清拉曼光譜檢測掃描范圍為300~2200 cm-1。
(3)實(shí)驗(yàn)試劑及樣品:檸檬酸三鈉、硝酸銀、去離子水及血清樣品(健康人35例,乳腺病58例,肺癌43例)。
(1)納米銀膠的制備:采用微波法制備納米銀膠,并用離心方法,清洗3次,待用。
(2)待測血清樣品的配置:將上述離心清洗后的納米銀膠和待測的血清樣品按照1∶1混合,振蕩1h。
(3)血清SERS光譜數(shù)據(jù)采集:將配置好的血清樣品放在拉曼光譜儀的樣品池內(nèi),進(jìn)行數(shù)據(jù)的采集,每個血清樣品測量10個測試點(diǎn),平均取值。
(1)去直基線處理:光譜的基線應(yīng)是一條平的、值為零的直線,但實(shí)驗(yàn)中所測得的光譜數(shù)據(jù)由于熒光的作用使得基線漂移。選擇725 cm-1底部的點(diǎn)和1825 cm-1對應(yīng)拉曼值的點(diǎn)做直線,進(jìn)行去直基線操作。圖1為去直基線前和去直基線后的對比圖。
(2)血清SERS光譜的特征峰分析和挑選:對這三類樣品譜線分別求平均譜,然后讓725 cm-1處譜峰等高,見圖2。
挑選出相對強(qiáng)度相差較大的峰位進(jìn)行分類分析(主成分分析和聚類分析)。經(jīng)對比挑選出636 cm-1,805 cm-1,945 cm-1,1017 cm-1,1135 cm-1,1330 cm-1,1399 cm-1,1453 cm-1,1620 cm-1,1688 cm-1這10處特征峰。由于725 cm-1峰位所對應(yīng)的物質(zhì)含量幾乎保持不變,所以選擇725 cm-1作為內(nèi)標(biāo),將其余光譜強(qiáng)度與內(nèi)標(biāo)強(qiáng)度做比,即得到相對強(qiáng)度為:
計算得出各個所選峰位的相對強(qiáng)度,進(jìn)行血清SERS光譜的分類分析(主成分分析和聚類分析)。
(1)主成分分析
主成分分析是把原來多個具有相關(guān)性的變量化為少數(shù)幾個互不相關(guān)的綜合指標(biāo)的一種統(tǒng)計分析方法。在實(shí)際問題中,一般挑選前幾個方差最大的主成分(累積方差貢獻(xiàn)率在85%以上),這樣既減少了變量的數(shù)目,又抓住了主要矛盾,簡化了變量之間的關(guān)系。
R軟件(http://cran.r-project.org/)是一款免費(fèi)且功能強(qiáng)大的軟件,它可以方便快捷地完成主成分分析的計算,并且有很高的計算精度。在R軟件中分析血清SERS光譜,令
X1=I1688/I725; X2= I1620/I725;X3= I1453/I725;X4= I1399/I725;X5= I1330/I725;
X6= I1135/I725;X7= I1017/I725;X8= I945/I725;X9= I805/I725;X10= I636/I725。
將136例樣品(健康人35例、乳腺病患者58例及肺癌患者43例)的X1-X10計算出來,在R軟件中用主成分分析函數(shù)處理數(shù)據(jù),輸出結(jié)果為:相關(guān)矩陣的特征值為7.137701817,2.36205964,0.331981566,0.070359627,0.029088945,0.025473953,0.016674982,0.012028573,0.008496586,0.006134312,前兩個主成分的累積方差貢獻(xiàn)率為95%。
從輸出的結(jié)果可以看出,前兩個主成分的累積方差貢獻(xiàn)率超過了85%,由此可以選擇前兩個主成分C1和C2進(jìn)行分析。最后計算前兩個主成分的綜合得分,在Matlab 2010b中畫出C1關(guān)于C2的散點(diǎn)圖,如圖3所示。
圖1 原始拉曼光譜與去直基線后拉曼光譜對比
圖2 健康人、乳腺病患者及肺癌患者血清 SERS光譜的平均譜
圖3 健康人、乳腺病患者及肺癌患者血清的主成分分析
通過主成分分析圖可以看出,肺癌43例:正確率為100%,錯判0例,似然比統(tǒng)計極大;乳腺病58例:正確率為84%,錯判9例,似然比為5.7;健康人35例:正確率為91%,錯判3例,似然比為10。
(2)聚類分析
聚類分析是指對一組數(shù)據(jù)的群聚結(jié)構(gòu)在無任何先驗(yàn)知識時,根據(jù)樣本間的距離與相似程度將樣本分類。所謂聚類分析是把欲進(jìn)行分類的對象作為樣本,對這些樣本進(jìn)行量化分類。它的基本思想是計算樣品(或變量)之間的間距,距離較近的分為一類。本文采用的是最常見的最短距離法和閔科夫斯基距離中的歐幾里得距離(即歐氏距離)[8],其公式為(其中q=2):
本文使用Matlab R2010a軟件對136例樣品(健康人35例、乳腺病患者58例及肺癌患者43例),在300 cm-1~2200 cm-1波段的10個振動模式進(jìn)行聚類分析,得到一個136×10的矩陣作為原始分析數(shù)據(jù)。分析的主要程序如下:
bx=zscore(x)對數(shù)據(jù)矩陣 X 進(jìn)行標(biāo)準(zhǔn)化處理y=pdist(x)計算數(shù)據(jù)集合中兩兩元素間的距離(向量)d=squareform(y)將距離的輸出向量形式定格為矩陣形式z=linkage(y)連接數(shù)據(jù)集中的目標(biāo)為二元群的層次樹[h,t]=dendrogram(z)輸出系統(tǒng)樹狀圖
輸出的結(jié)果如圖4所示(其中1~35號為健康人,36~93號為乳腺病患者,94~136號為肺癌患者),圖中紅色折線為分類的臨界處:第一條折線左側(cè)為健康類人群(編號1~35),折線右側(cè)為乳腺病人群(編號36~93),第二條折線右側(cè)為肺癌人群(編號94~136)。
通過聚類分析圖可以看出,健康人35例:正確率為100%,錯判0例,似然比統(tǒng)計極大;乳腺病58例:正確率為86%,其中錯判8例乳腺病為肺癌,似然比為7.4;肺癌43例:正確率為100%,其中錯判8例乳腺病為肺癌,似然比為5.3。
圖4 健康人、乳腺病患者及肺癌患者血清的聚類分析
主成分分析:肺癌與乳腺病、健康人均可以完全區(qū)分,乳腺病的9例和健康人的3例,相互錯判。正確率:肺癌100%,乳腺病84%,健康人91%。
聚類分析:健康人與乳腺病、肺癌可以很好的區(qū)分,其中誤判率:健康人為0;乳腺病為14%;肺癌為19%。
從主成分分析和聚類分析的結(jié)果來看,肺癌、乳腺病及健康人三者分類的正確率均處在84%~100%之間;誤判率均處在19%~0%之間。由以上結(jié)果可以說明:肺癌和乳腺病的拉曼篩查的原理已經(jīng)過關(guān),可以應(yīng)用主成分分析和聚類分析實(shí)現(xiàn)對血清SERS光譜的分類分析。