孫代青, 謝麗蓉, 周 延, 郭煜濤, 車少敏
1. 新疆大學(xué)電氣工程學(xué)院, 新疆 烏魯木齊 830047 2. 西安交通大學(xué)能源動力工程學(xué)院, 陜西 西安 710049
血紅蛋白(Hemoglobin)是生物化學(xué)和生物醫(yī)學(xué)研究中最重要的成分之一[1-2], 它大約占紅細(xì)胞的96%, 承擔(dān)著將氧氣通過循環(huán)系統(tǒng)運(yùn)輸?shù)狡鞴俚闹匾?zé)任, 同時(shí)血紅蛋白濃度的測定也是臨床上應(yīng)用最廣的檢查項(xiàng)目。 目前血紅蛋白濃度檢測方法主要分為兩類, 一種為有化學(xué)試劑類型[3], 另一種為無化學(xué)試劑類型[1-2,4-6]。 有化學(xué)試劑的檢測方法通常因?yàn)樗褂玫幕瘜W(xué)試劑對人體和環(huán)境有害而使其應(yīng)用場所受到限制。 無化學(xué)試劑方法測量精度很低, 所需血液量較多(20 μL)[6], 而且其價(jià)格及其昂貴[7]。
近年來, 近紅外光譜技術(shù)不斷發(fā)展, 其應(yīng)用領(lǐng)域也越來越廣泛。 基于近紅外光譜技術(shù)能反映組織細(xì)胞生理病理信息的特點(diǎn), 對藍(lán)莓果渣花色苷含量進(jìn)行了測定[8]。 同時(shí), 基于近紅外光譜的無創(chuàng)、 快速等特點(diǎn), 將近紅外光譜與偏最小二乘(PLS)回歸相結(jié)合用以檢測血液中的不同成分含量的方法廣受歡迎[5,9]。 偏最小二乘回歸是建立光譜信號和濃度關(guān)系的最流行的方法[10]。 其中也不乏對于血紅蛋白濃度的檢測研究, 但是, 目前基于這種方法建立的血紅蛋白濃度檢測模型都存在精度不高的問題, 很難達(dá)到臨床應(yīng)用的標(biāo)準(zhǔn), 主要原因是所獲取的近紅外光譜數(shù)據(jù)可能包含很多背景信號, 降低了光譜信號的信噪比。
為減小背景信號對光譜數(shù)據(jù)質(zhì)量的影響, 一階導(dǎo)數(shù)[11]、 二階導(dǎo)數(shù)[12]、 主成分分析[13]、 多元散射校正(MSC)[14]等數(shù)據(jù)預(yù)處理方法被提出, 然而缺少對于全血光譜數(shù)據(jù)的預(yù)處理方法、 波長選擇的研究。 故基于近紅外光譜分析, 對全血光譜數(shù)據(jù)的預(yù)處理方法、 波長篩選、 以及全血血紅蛋白濃度預(yù)測模型進(jìn)行研究, 為提高全血血紅蛋白濃度預(yù)測精度提供一種新的思路。
數(shù)據(jù)集取自Karl Norris[15]的文章。 這組數(shù)據(jù)是使用NIRSystems6500光譜儀獲得。 儀器參數(shù)設(shè)置如下: 波長變量為1 100~2 498 nm,分辨率為2 nm。 樣品池是帶有石英窗口的直徑2 cm的不銹鋼圓柱體。 將200 μL全血從移液管轉(zhuǎn)移至樣品池, 使樣品厚度為0.6 mm, 一共獲得190組不同血紅的蛋白濃度的全血透射光譜, 所獲透射光譜對應(yīng)最小血紅蛋白濃度為10.3 g·dL-1, 最大血紅蛋白濃度為17.3 g·dL-1。
為使得建立的模型具有普遍性, 選用前143個(gè)血紅蛋白濃度對應(yīng)的透射光譜樣本作為校正集, 剩下47個(gè)作為驗(yàn)證集。 經(jīng)劃分后的校正集透射光譜樣本對應(yīng)最小血紅蛋白濃度為10.6 g·dL-1, 最大血紅蛋白濃度為17.3 g·dL-1, 平均血紅蛋白濃度為13.68 g·dL-1, 標(biāo)準(zhǔn)差為1.64 g·dL-1; 驗(yàn)證集透射光譜樣本對應(yīng)最小血紅蛋白濃度為10.3 g·dL-1, 最大血紅蛋白濃度為17.3 g·dL-1, 平均血紅蛋白濃度為13.94 g·dL-1, 標(biāo)準(zhǔn)差為1.65 g·dL-1。
首先對原始全血透射光譜取-log(T), 將其轉(zhuǎn)換成吸收光譜數(shù)據(jù), 然后對原始全血吸收光譜分別進(jìn)行均值中心化、 標(biāo)準(zhǔn)化、 SNV、 MSC以及SG卷積平滑結(jié)合MSC方法預(yù)處理操作。 討論卷積平滑與MSC的操作順序?qū)τ陬A(yù)處理效果的影響, 以及平滑窗口寬度對于SG-MSC平滑效果的影響, 比較不同平滑窗口的降噪效果, 選擇降噪效果最好的一個(gè)窗口寬度作為卷積平滑窗口。 對比以上幾種預(yù)處理方法的降噪效果, 選擇表現(xiàn)最好的方法作為全血吸收光譜數(shù)據(jù)預(yù)處理方法。
蒙特卡洛無信息變量消除算法(Monte Carlo uninformative variable elimination,MC-UVE)是無信息變量消除方法的一種, 它是基于模型變量穩(wěn)定性值對無信息變量進(jìn)行剔除的方法。 穩(wěn)定性值的絕對值越大, 所對應(yīng)的變量越重要, 保留穩(wěn)定性值大的變量, 剔除穩(wěn)定性值小的變量。 利用此方法從預(yù)處理過的全血吸收光譜中選擇出穩(wěn)定性值較大的波長變量, 以提高基于近紅外光譜的全血血紅蛋白濃度預(yù)測模型的預(yù)測精度和預(yù)測效率。
將170個(gè)不同全血血紅蛋白濃度的近紅外透射光譜數(shù)據(jù)導(dǎo)入Matlab R2017a計(jì)算原始全血透射比與全血血紅蛋白濃度之間的相關(guān)系數(shù), 其相關(guān)系數(shù)曲線如圖1(a)所示。 再將透射光譜數(shù)據(jù)取-log(T), 計(jì)算全血吸收度與全血血紅蛋白濃度的相關(guān)系數(shù)R2, 其曲線如圖1(b)所示。
分析圖1可知, 原始透射光譜的R2最大值僅為0.003 5, 在波長1 954 nm處取得。 相應(yīng)的原始吸收光譜的R2最大值也僅為0.005 0, 且只有少量的信號對應(yīng)于較大(此處指大于0.005 0)的R2值。 由此可見, 利用原始信號建立全血血紅蛋白濃度預(yù)測模型是比較困難的。
圖1 原始全血光譜相關(guān)系數(shù)平方R2曲線圖(a): 原始透射; (b): 原始吸收Fig.1 R2 curves for the original spectra of whole blood signals(a): Transmission spectrum; (b): Absorbance spectrum
表1中展示了分別使用均值中心化、 標(biāo)準(zhǔn)化、 SNV、 MSC以及SG卷積平滑結(jié)合MSC對原始全血吸收光譜分別進(jìn)行預(yù)處理后相關(guān)系數(shù)平方最大值R2*的變化情況。 其中, 中心化、 標(biāo)準(zhǔn)化、 SNV這幾種預(yù)處理方法對于全血吸收光譜的平滑處理效果都不明顯; 單獨(dú)使用MSC時(shí), 其處理效果也不理想,R2*值僅為0.105 2, 但在結(jié)合SG卷積平滑后降噪效果迅速提升, 最大相關(guān)系數(shù)平方值R2*迅速提升至0.944 1, 這是因?yàn)镸SC在處理漿狀物透射近紅外光譜方面具有很好的效果, 血液樣本正好符合這一特征。 除此之外, 二階導(dǎo)數(shù)能消除光譜采集過程中由于檢測環(huán)境和儀器狀態(tài)等因素引起的基線平移, 平滑處理能消除光譜中的隨機(jī)誤差, 提高信號的信噪比。
表1 不同預(yù)處理方法R2*值比較Table 1 Comparison of R2* values of different preprocessing methods
圖2(a)中展示了不同平滑窗口寬度下的SG-MSC預(yù)處理的R2*值變化情況, 圖中R2*表示最大相關(guān)系數(shù)平方值, 將平滑窗口的寬度依次從1變化到61, 最大R2*值為0.944 1, 此時(shí)窗口寬度為27, 得到最佳平滑參數(shù)是2階導(dǎo)數(shù)平滑, 二階多項(xiàng)式和27個(gè)平滑點(diǎn)。 圖2(b)展示了在上述參數(shù)設(shè)置下的SG-MSC方法對全血原始吸收光譜處理后各波長點(diǎn)處的相關(guān)系數(shù)平方值R2。 與圖1(b)相比,R2迅速上升, 并且較大(此處指R2值大于0.6)R2個(gè)數(shù)也明顯增多。
圖2 平滑窗口寬度對SG-MSC預(yù)處理方法R2*值的影響(a): 窗口寬度vs. R2*; (b): SG-MSC處理后R2Fig.2 R2* vs. the width of the SG-MSC method(a): R2* vs. the width; (b): R2 after preporcessing by SG-MSC
為了進(jìn)一步提高預(yù)測模型的預(yù)測精度和預(yù)測效率, 對預(yù)處理過的全血吸收光譜的700個(gè)波長進(jìn)行蒙特卡洛無信息變量消除, 剔除509個(gè)波長, 剩余191個(gè)波長用于建立全血血紅蛋白濃度回歸模型。 為建立穩(wěn)健性好、 預(yù)測能力強(qiáng)的血紅蛋白濃度預(yù)測模型, 比較分析了原始全血透射光譜PLS模型、 原始全血吸收光譜PLS回歸模型、 SG-MSC-PLS回歸模型、 SG-MSC-MC-UVE-PLS回歸模型以及二階導(dǎo)數(shù)UVE-PLS回歸模型[12], 各模型指標(biāo)結(jié)果如表2所示, 表中NW (number of wavelengths)為篩選出的波長變量個(gè)數(shù)。
由表2中結(jié)果分析可知, 原始全血透射光譜PLS模型的R2比較小, 且RMSEP很大, 這也說明了直接利用原始全血透射光譜進(jìn)行建模不可取。 加入SG-MSC預(yù)處理以后, 所建PLS模型的預(yù)測集R2相比于原始透射光譜數(shù)據(jù)提高了0.296 5, RMSEP下降了0.669 1, MAE減小了1.931 8。 證明SG-MSC對于全血光譜數(shù)據(jù)的平滑降噪能力非常強(qiáng)。 在此基礎(chǔ)上, 對預(yù)處理過的光譜數(shù)據(jù)進(jìn)行波長選擇, 建立SG-MSC-MC-UVE-PLS模型, 與SG-MSC-PLS模型指標(biāo)相比, 其R2, RMSEP, MAE, MRE均優(yōu)于未篩選波長的PLS模型, 且與前人所提二階導(dǎo)數(shù)UVE-PLS模型相比, 其具有更高的R2和更低的RMSEP值。 進(jìn)一步說明SG-MSC-MC-UVE-PLS算法可以有效降低噪聲、 篩選更具有價(jià)值的波長變量、 提高預(yù)測能力和預(yù)測效率。
表2 PLS模型預(yù)測結(jié)果Table 2 Determination results for PLS models
將獲取的原始全血透射光譜轉(zhuǎn)換成全血吸收光譜, 應(yīng)用偏最小二乘法建立全血血紅蛋白濃度回歸模型, 針對原始數(shù)據(jù)相關(guān)性低的問題, 對原始數(shù)據(jù)進(jìn)行了光譜數(shù)據(jù)預(yù)處理; 針對原始數(shù)據(jù)中無用信息成分較多問題采用了蒙特卡洛無信息變量消除方法對波長進(jìn)行篩選; 比較了原始數(shù)據(jù)、 預(yù)處理數(shù)據(jù)、 波長選擇數(shù)據(jù)建立的PLS模型效果, 得到以下結(jié)論:
(1)針對全血吸收光譜數(shù)據(jù), 通過比較均值中心化、 標(biāo)準(zhǔn)化、 標(biāo)準(zhǔn)正態(tài)變量變換、 多元散射校正、 SG卷積平滑結(jié)合多元散射校正對全血光譜數(shù)據(jù)的預(yù)處理效果, 得到最佳預(yù)處理方法為SG卷積預(yù)處理+多元散射校正方法, 其R2為0.944 1。
(2)對SG-MSC預(yù)處理方法的平滑窗口寬度對于平滑效果的影響進(jìn)行研究, 得到最佳參數(shù)設(shè)置為窗口寬度為27, 二階導(dǎo)數(shù)平滑, 二階多項(xiàng)式擬合。 與先進(jìn)行多元散射校正再進(jìn)行SG卷積平滑(相關(guān)系數(shù)平方值為0.942 4)相比, 卷積平滑之后再對數(shù)據(jù)進(jìn)行多元散射校正處理, 其相關(guān)系數(shù)平方值更大, 為0.944 1。
(3)MC-UVE可以實(shí)現(xiàn)對全血吸收光譜波長變量的篩選, 且其篩選的波長變量個(gè)數(shù)僅為191個(gè), 在模型效果更優(yōu)的情況下, 篩選出的波長變量更少, 可以大大簡化模型, 提高模型效率。
(4)在全血血紅蛋白濃度回歸模型中, 將SG卷積平滑、 多元散射校正以及MC-UVE組合建立的PLS模型具有最優(yōu)的模型效果, 相比于原始全譜以及未經(jīng)波長選擇的SG-MSC-PLS模型, SG-MSC-MC-UVE-PLS模型的模型精度更高, 且篩選出的波長點(diǎn)更少, 其模型指標(biāo)R2為0.979 1, RMSEP為0.220 3, MAE為0.411 2, MRE為0.023 8。 該模型效果與前人所提方法相比有所提高。