何睿琳,劉子妤,楊欣怡,李 晨,李曉燕
1東北大學(xué)醫(yī)學(xué)與生物信息工程學(xué)院,沈陽 110819 2中國醫(yī)科大學(xué)腫瘤醫(yī)院/遼寧省腫瘤醫(yī)院病理科,沈陽 110042
醫(yī)學(xué)圖像是現(xiàn)代醫(yī)學(xué)主要診斷依據(jù)之一,組織病理學(xué)圖像作為醫(yī)學(xué)圖像的重要組成部分,對(duì)切實(shí)了解患者病情具有極為重要的意義。然而,由于組織病理學(xué)圖像數(shù)據(jù)龐大且復(fù)雜,需在有限的存儲(chǔ)空間中實(shí)現(xiàn)對(duì)大量醫(yī)學(xué)信息的完整保存,即在高壓縮率下,同時(shí)保證高質(zhì)量、具有完整有效信息的圖像重建。在眾多數(shù)字圖像處理方法中,矩陣計(jì)算應(yīng)用較為廣泛,一般由計(jì)算機(jī)增強(qiáng)、特征提取、腐蝕膨脹及分割等操作步驟組成,其中主成分分析法(principal component analysis,PCA)和奇異值分解法(singular value decomposition,SVD)是更具優(yōu)勢的圖像壓縮方法[1]。采用PCA對(duì)圖像進(jìn)行降維處理,在減小數(shù)據(jù)量、簡化數(shù)據(jù)分析的同時(shí),不丟失原矩陣圖片的主要特征;采用SVD對(duì)矩陣圖片進(jìn)行分解,選擇其中的奇異值進(jìn)行重構(gòu),可獲得原矩陣圖片的主要信息[2]。
本研究基于PCA與SVD兩種矩陣算法,對(duì)低、中、高分化的宮頸癌組織病理學(xué)圖像進(jìn)行壓縮存儲(chǔ),對(duì)比分析壓縮重建前后的圖像質(zhì)量,提出針對(duì)不同分化程度的組織病理學(xué)圖像壓縮存儲(chǔ)的最優(yōu)途徑。
本研究為回顧性分析,以遼寧省腫瘤醫(yī)院病理科資料庫2019年1—10月宮頸癌組織病理圖像作為研究對(duì)象,包括低、中、高不同分化程度的宮頸癌組織免疫組化染色圖像及HE染色圖像各10組(每組10張,共600張),分類均經(jīng)病理診斷證實(shí)。以上圖像均由全視野數(shù)字圖像(whole slide image,WSI)剪裁獲得,既可作為獨(dú)立視野顯微圖像使用(直接進(jìn)行壓縮儲(chǔ)存),又可作為WSI局部使用。作為WSI局部使用時(shí),首先需將WSI圖像剪裁至所需大小,然后對(duì)每張圖像進(jìn)行壓縮儲(chǔ)存,在需要使用WSI圖像時(shí),再將壓縮后的圖像進(jìn)行還原拼接。
本研究已通過遼寧省腫瘤醫(yī)院倫理審查委員會(huì)批準(zhǔn)(審批號(hào):202229),并豁免患者知情同意。
1.2.1 基本原理
PCA是利用正交變換的方法,將從圖像中提取的原向量經(jīng)過線性變化處理變換為新向量,并將計(jì)算分析出的新向量根據(jù)方差大小進(jìn)行排序。因此,在正交變換中,總體方差不變,第一主成分計(jì)算結(jié)果是方差最大的向量組,第二主成分是次一級(jí)向量組,以此類推,可獲得n個(gè)變量,即n個(gè)主成分,且新獲得的主成分之間無相關(guān)性[3]。一張組織病理學(xué)圖片往往具有較多維度,利用PCA實(shí)現(xiàn)了對(duì)圖片的降維處理,在縮小其存儲(chǔ)空間的同時(shí),保存了圖片中的大量信息。
1.2.2 壓縮儲(chǔ)存步驟
假設(shè)樣本為
(2)將轉(zhuǎn)化好的標(biāo)準(zhǔn)化矩陣進(jìn)行計(jì)算、分析,得出相關(guān)系數(shù)矩陣。
(3)由相關(guān)系數(shù)矩陣求解其特征方程。通過計(jì)算可得出m個(gè)特征根,并使用sort函數(shù)對(duì)指定區(qū)間所有數(shù)值進(jìn)行排序。利用數(shù)據(jù),求出特征值和特征向量。
(4)計(jì)算貢獻(xiàn)率。貢獻(xiàn)率是主成分與各個(gè)分量方差總和的比值。累計(jì)貢獻(xiàn)率則是所選取的主成分的貢獻(xiàn)率的總和,累計(jì)貢獻(xiàn)率的大小代表了數(shù)據(jù)的一種可靠性,且兩者成正比關(guān)系,累計(jì)貢獻(xiàn)率越大,所得出結(jié)論的可靠性越強(qiáng);累計(jì)貢獻(xiàn)率越小,圖片損失的信息量越大[4]。通常在利用PCA對(duì)圖像進(jìn)行處理時(shí),累計(jì)貢獻(xiàn)率一般不低于85%,采用這一標(biāo)準(zhǔn)確定選取主成分的個(gè)數(shù),能夠作出較為科學(xué)的評(píng)價(jià)。
1.2.3 圖像儲(chǔ)存改進(jìn)
本研究在以上PCA的基礎(chǔ)上,對(duì)圖像進(jìn)行3種方式的壓縮處理改進(jìn):(1) 將彩色圖像轉(zhuǎn)化為灰度圖像,將圖像數(shù)組矩陣轉(zhuǎn)化為樣本矩陣,并計(jì)算樣本和變量的個(gè)數(shù)。計(jì)算并提取前p個(gè)主成分,根據(jù)系數(shù)矩陣重建樣本矩陣,再將樣本矩陣轉(zhuǎn)化回圖像數(shù)組。(2) 分塊處理。利用im2col函數(shù)實(shí)現(xiàn)圖像塊重排列,再利用col2im對(duì)圖像進(jìn)行恢復(fù)。以自定義大小作為卷積核,對(duì)輸入圖像進(jìn)行分割處理,形成新的矩陣。將圖像塊轉(zhuǎn)換成矢向量,并計(jì)算圖像塊灰度均值。計(jì)算取出最大n個(gè)特征值,將自定義維度映射到n維,最后利用col2im重建圖像。(3) 圖像融合。提取圖片主成分,融合第一、二主成分實(shí)現(xiàn)圖像壓縮。
1.3.1 基本原理
SVD是高等數(shù)學(xué)線性代數(shù)中的一種算法,可有效提取矩陣代數(shù)特征[5],主要應(yīng)用對(duì)象為正方矩陣,在信號(hào)處理中有著極為廣泛的應(yīng)用。其從雙線性函數(shù)f(x,y)=xTAy,a∈Rn×n著手,通過利用線性變換,x=Uζ,y=Vη,帶入到雙線性函數(shù)中,得到f(x,y)=ζTSη,其中S如公式(1.1)所示。
S=UTAV
(1.1)
由公式(1.1)可知,當(dāng)滿足矩陣U和矩陣V均為正交矩陣時(shí),二者之間的選擇存在(n2-n)的自由度。若通過這些自由度將矩陣S的對(duì)角線元素不置零,其余元素均置零,則矩陣S便成為對(duì)角矩陣且S=∑=diag(σ1,σ2,σ3,…,σn)。接著用U和VT各自左乘和右乘公式(1.1)。利用矩陣U和矩陣V的正交性,可得A如公式(1.2)所示。
A=U∑VT
(1.2)
1.3.2 壓縮儲(chǔ)存步驟
若一幅圖像有n×n個(gè)像素,則利用n×n的矩陣A代表n×n個(gè)像素,對(duì)矩陣A進(jìn)行奇異值分解,可知A=U∑VT,并將所得的奇異值由大到小排序。選取前k個(gè)奇異值逼近原圖像,即可通過k×(2n+1)個(gè)值逼近原圖像n×n個(gè)數(shù)值??汕蟮脡嚎s比例,如公式(1.3)所示。
(1.3)
利用SVD的具體操作步驟如下:
(1)首先對(duì)輸入圖片進(jìn)行灰度化處理,并計(jì)算輸入圖像尺寸;
(2)將原圖像的灰度值轉(zhuǎn)換成double類型;
(3)進(jìn)行奇異值分解,并提出對(duì)角矩陣的對(duì)角線元素,得到一個(gè)向量,并計(jì)算最大、最小奇異值;
(4)保留前n個(gè)最大奇異值,并對(duì)其他奇異值置零,將向量轉(zhuǎn)化為對(duì)角矩陣;
(5)還原圖像,計(jì)算壓縮比。
1.3.3 圖像儲(chǔ)存改進(jìn)
本研究在以上SVD的基礎(chǔ)上,對(duì)圖像進(jìn)行2種方式的壓縮處理改進(jìn):(1) 在傳統(tǒng)SVD的方法上,將圖片uint8改為double類型,double更適合運(yùn)算,uint8是為了節(jié)省存儲(chǔ)空間。首先進(jìn)行奇異值分解,提出對(duì)角矩陣對(duì)角線元素,獲得向量。保留選定的奇異值,計(jì)算壓縮比,若為矩形矩陣,則用0填滿。(2)利用colormap和imagesc函數(shù)進(jìn)行計(jì)算,獲取當(dāng)前色圖,并以圖像的方式顯示矩陣。
重建圖像的還原度從以下兩個(gè)角度進(jìn)行考量:
(1)峰值信噪比(peak signal-to-noise ratio,PSNR)。PSNR是應(yīng)用最為廣泛的圖像客觀評(píng)價(jià)指標(biāo),基于對(duì)應(yīng)像素點(diǎn)之間的誤差進(jìn)行圖像評(píng)價(jià),如公式(1.4)所示。PSNR高于40 db說明圖像質(zhì)量極好,十分接近原圖像;>30~40 db說明圖像質(zhì)量較好,可察覺部分失真;20~30 db說明圖像質(zhì)量差;20 db以下則圖像質(zhì)量不可接受。
(1.4)
(2)結(jié)構(gòu)相似度(structural similarity,SSIM)。SSIM是一種質(zhì)量評(píng)價(jià)方法,可用于衡量兩張圖片相似性指標(biāo)。SSIM取值范圍為[0,1],值越大,表明圖像結(jié)構(gòu)失真越小。
所有數(shù)據(jù)應(yīng)用SPSS 23.0軟件進(jìn)行描述性統(tǒng)計(jì)學(xué)分析,PSNR和SSIM以均數(shù)±標(biāo)準(zhǔn)差表示。
利用PCA對(duì)圖像進(jìn)行壓縮儲(chǔ)存預(yù)試驗(yàn),當(dāng)主成分p分別為1、18、36、53時(shí),圖像壓縮比分別為539.68、29.98、14.99、10.18,累計(jì)貢獻(xiàn)率分別為99.35%、99.98%、99.99%、99.99%。
將主成分p設(shè)為53,應(yīng)用PCA處理低、中、高分化宮頸癌組織免疫組化染色和HE染色病理圖像各10組(每組10張)。結(jié)果顯示,低、中、高分化宮頸癌組織免疫組化染色圖像PSNR均值分別為43.84±0.43、43.27±0.25、43.71±0.49,壓縮圖像SSIM分別為0.964±0.004、0.963±0.006、0.965±0.005;HE染色圖像PSNR均值分別為43.41±0.78、42.95±1.03、43.52±0.69,壓縮圖像SSIM分別為0.953±0.010、0.949±0.015、0.960±0.007。壓縮前后的圖像對(duì)比見圖1,2。
圖1 不同分化程度宮頸癌組織免疫組化染色圖像經(jīng)主成分分析法壓縮前后圖像
圖2 不同分化程度宮頸癌組織HE染色圖像經(jīng)主成分分析法壓縮前后圖像
利用SVD對(duì)圖像進(jìn)行壓縮儲(chǔ)存預(yù)試驗(yàn),當(dāng)奇異值分別為32、48、64、108、128、200時(shí),圖像壓縮比分別為47.99、32.00、24.00、14.22、10.00、7.68。
設(shè)定奇異值為128,應(yīng)用SVD處理低、中、高分化宮頸癌組織免疫組化染色和HE染色病理圖像各10組(每組10張)。結(jié)果顯示,低、中、高分化宮頸癌組織免疫組化染色圖像PSNR均值分別為39.89±1.69、38.20±2.19、40.90±0.50,壓縮圖像SSIM分別為0.949±0.006、0.938±0.011、0.955±0.004;HE染色圖像PSNR均值分別為40.31±0.98、39.46±1.59、40.77±1.67,壓縮圖像SSIM分別為0.965±0.006、0.943±0.010、0.969±0.005。壓縮前后的圖像對(duì)比見圖3,4。
圖3 不同分化程度宮頸癌組織免疫組化染色圖像經(jīng)奇異值分解法壓縮前后圖像
圖4 不同分化程度宮頸癌組織HE染色圖像經(jīng)奇異值分解法壓縮前后圖像
本研究采用PCA和SVD兩種矩陣算法對(duì)不同分化程度的宮頸癌組織免疫組化染色圖像及HE染色圖像進(jìn)行壓縮儲(chǔ)存處理,解決了病理學(xué)圖像數(shù)據(jù)龐大、圖像包含信息量巨大、占用大量存儲(chǔ)空間等問題。經(jīng)PSNR和SSIM分別評(píng)價(jià)后,顯示兩種壓縮儲(chǔ)存算法在圖像質(zhì)量和結(jié)構(gòu)保真度方面均較好。
近年來,隨著數(shù)字病理學(xué)的發(fā)展,傳統(tǒng)病理診斷瓶頸逐漸被打破,在一定程度上解決了醫(yī)療資源地域分布不均等問題,極大提高了病理診斷效率及診斷準(zhǔn)確性。但同時(shí),隨著醫(yī)學(xué)圖像數(shù)量及尺寸(分辨率提高)的增加,對(duì)于有效存儲(chǔ)和便捷傳輸方法的需求亦不斷提高[6]。壓縮后的圖像需要保留精細(xì)的結(jié)構(gòu)信息[7],而正是對(duì)圖片質(zhì)量的高要求,需要更大存儲(chǔ)容量的設(shè)備,因而產(chǎn)生了額外的昂貴成本[8]。因此,高效的影像學(xué)數(shù)據(jù)壓縮、傳輸不僅對(duì)于疾病遠(yuǎn)程診斷和監(jiān)測十分重要,且是降低醫(yī)院運(yùn)營成本的重要舉措??v觀所有高階數(shù)據(jù)處理方法,PCA或類PCA是廣泛使用的圖像壓縮方法[9]。在矩陣中,SVD可在不影響圖像質(zhì)量的前提下,實(shí)現(xiàn)圖像重建的目的[10]。
PCA矩陣計(jì)算方法是先將圖像數(shù)據(jù)進(jìn)行分塊,將每一塊作為一個(gè)樣本向量,再通過對(duì)多個(gè)樣本構(gòu)成的矩陣提取主成分[11],其去相關(guān)性好,根據(jù)圖像本身數(shù)據(jù),制訂變換矩陣,其計(jì)算方式是在最小均方差狀態(tài)下的正交變換,幾乎適用于各種醫(yī)學(xué)圖像的壓縮存儲(chǔ)處理。主成分的貢獻(xiàn)率越大,證明此主成分的比重越大,所包含的信息量越多。故本研究選擇主成分p=53,此時(shí)壓縮比為10.18,在保證運(yùn)算速度的同時(shí),使累計(jì)貢獻(xiàn)率最大化,即圖中有效信息的可檢測性大,圖像質(zhì)量較優(yōu)。
在利用矩陣計(jì)算方法對(duì)圖像進(jìn)行存儲(chǔ)處理的過程中,矩陣的奇異值分解是一種重要的處理手段。自1970年由Golub和Reinch提出矩陣計(jì)算方法SVD以來,SVD已成為解決圖像矩陣計(jì)算方面的有效解決工具[12]。其優(yōu)點(diǎn)在于圖像奇異值的穩(wěn)定性較為出色,例如施加一些小的干擾,醫(yī)學(xué)圖像的奇異值不會(huì)發(fā)生較大的變動(dòng),且SVD所展現(xiàn)出的并非視覺特性,而是醫(yī)學(xué)圖片蘊(yùn)含的固有屬性[13-14],是在不改變醫(yī)學(xué)圖像原本矩陣度量的條件下,分析計(jì)算出有效秩,再在特定情形下給出圖片矩陣秩的最佳逼近效果。通過利用圖像的固有矩陣結(jié)構(gòu),對(duì)圖像對(duì)應(yīng)的數(shù)據(jù)矩陣進(jìn)行圖像再壓縮。重構(gòu)時(shí),首先選擇合適的奇異值及奇異值向量還原數(shù)據(jù)矩陣,再重構(gòu)圖像,這樣可簡化數(shù)據(jù),極大降低圖像所占用的資源[10]。本研究選擇的最大奇異值為128,壓縮比為10.00,此時(shí)可最大程度保留原圖像信息,是SVD系數(shù)最優(yōu)值。
本研究采用PSNR和SSIM針對(duì)圖像壓縮后重建質(zhì)量進(jìn)行分析評(píng)估。PSNR是基于對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià),其數(shù)值越大,圖像失真越小。SSIM是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量圖像相似性,其數(shù)值越大,圖像失真越小,且在圖像相似度的評(píng)價(jià)上優(yōu)于PSNR。本研究綜合衡量兩種指標(biāo),壓縮免疫組化圖像時(shí),PCA算法相對(duì)于SVD算法質(zhì)量更高且更穩(wěn)定,波動(dòng)的標(biāo)準(zhǔn)差在0.5以內(nèi),并與原圖相比,SSIM近乎為1。壓縮HE染色圖像時(shí),SVD 可在很大程度上保證繼承原圖像的大量信息,重建所得圖像與原圖像SSIM高于PCA算法。本研究發(fā)現(xiàn),宮頸癌分化程度對(duì)組織圖像壓縮具有一定影響,相較于低、高分化,中分化宮頸癌組織圖像壓縮重建后SSIM稍低,推測原因:低、高分化宮頸癌一般具有典型的組織學(xué)形態(tài),圖像像素分布較為集中,因此壓縮后重建效果較好。
綜上,PCA和SVD兩種算法均具有出色的圖像壓縮和重建功能,其中PCA技術(shù)穩(wěn)定性相對(duì)更高,為解決病理圖像存儲(chǔ)難題提供了解決方案,值得臨床進(jìn)一步推廣應(yīng)用。
作者貢獻(xiàn):何睿琳負(fù)責(zé)結(jié)果分析、論文初稿撰寫;劉子妤、楊欣怡負(fù)責(zé)臨床試驗(yàn);李晨、李曉燕構(gòu)思論文框架、審核并修訂論文。
利益沖突:所有作者均聲明不存在利益沖突