国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

質(zhì)譜成像中的計算策略綜述

2019-08-30 08:35:40甘勝豐李建軍
分析科學(xué)學(xué)報 2019年4期
關(guān)鍵詞:降維分類器質(zhì)譜

許 光,甘勝豐,李建軍,楊 莉

(1.湖北第二師范學(xué)院計算機學(xué)院,湖北武漢430205;

2.Department of Computer Science,Texas A&M University Corpus Christi,TX,USA 78412;3.Human Health Therapeutics,National Research Council Canada,Ottawa,Ontario,Canada K1A0R6)

1 前言

質(zhì)譜成像(MSI)可以把生物組織切片上獲取的不同位置的質(zhì)譜數(shù)據(jù)直接生成二維或三維圖像中的像素點。近年來,發(fā)展迅速的最常見的MSI技術(shù)是基質(zhì)輔助激光解吸電離-飛行時間質(zhì)譜成像(MALDI成像)[1-2]。其他MSI方法包括二次離子質(zhì)譜(SIMS)和解吸電噴霧電離(DESI)也被廣泛應(yīng)用。對于 MSI數(shù)據(jù)分析,除了主成分分析(PCA)等常用算法外,近年還出現(xiàn)了大量新穎的計算策略和方法[3-5]。MSI的生物學(xué)和臨床應(yīng)用包括組織疾?。ㄈ绨┌Y)分類和診斷、生物標(biāo)記物研究、組織分子鑒定(如代謝組學(xué)內(nèi)容)和藥物開發(fā)[1,6]。在MSI技術(shù)中,由多個質(zhì)譜譜圖數(shù)據(jù)組成的空間數(shù)據(jù)矩陣可由MALDI質(zhì)譜儀產(chǎn)生。每張質(zhì)譜來自于整個組織切片中具有特定空間位置的樣本點。由于圖像的每個空間位點可顯示為具有x和y坐標(biāo)的像素點,MSI數(shù)據(jù)矩陣包含三個維度,即空間坐標(biāo)x、y和每個質(zhì)譜數(shù)據(jù)中的質(zhì)荷比(m/z)。圖像的顏色是根據(jù)每個樣品的特定位點的分子豐度確定的。MSI圖像分辨率通??梢赃_(dá)到20μm,這意味著一個組織切片可以產(chǎn)生數(shù)萬個像素點。如果從每個譜圖中提取超過一百個信號峰,那么整個圖像將具有超過一百萬個數(shù)據(jù)點。

因為處理MSI數(shù)據(jù)集中不同像素的質(zhì)譜是非常具有挑戰(zhàn)性的。我們在這篇綜述首先討論原始數(shù)據(jù)預(yù)處理的算法,包括數(shù)據(jù)歸一化、校正和m/z-圖像去噪。我們隨后討論各種數(shù)據(jù)降維算法,包括線性降維方法(如PCA、獨立分量分析、非負(fù)矩陣分解和最大自相關(guān)因子)、非線性降維方法(隨機鄰域嵌入法(SNE))和特征選擇算法。我們還會總結(jié)MSI數(shù)據(jù)聚類和分類中的統(tǒng)計和機器學(xué)習(xí)算法。最后,我們回顧計算策略在MSI系統(tǒng)中的生物學(xué)應(yīng)用以及近年來已發(fā)表的軟件工具。

1 MSI數(shù)據(jù)預(yù)處理

1.1 譜圖處理

MALDI-MSI超譜數(shù)據(jù)集是由大量質(zhì)譜譜圖組成,每個譜圖是由位于整個樣本區(qū)域內(nèi)一個空間點的樣本生成。圖像中的一個像素點可以用一個MALDI-MS譜圖來表示,該譜圖包含具有不同m/z的分子離子的定量豐度信息。m/z和豐度值成對出現(xiàn)在質(zhì)譜譜圖中形成峰值。在信號峰檢測和統(tǒng)計分析之前,預(yù)處理過程通常會被使用來修正數(shù)據(jù)從而獲取更加規(guī)范的空間質(zhì)譜數(shù)據(jù)集。

與傳統(tǒng)的MALDI數(shù)據(jù)分析類似,MSI中的預(yù)處理方法也包括基線校正、平滑去噪、歸一化等[7-8]。然而,與MALDI-MS數(shù)據(jù)相比,在一個MSI數(shù)據(jù)集中有數(shù)千或數(shù)萬個質(zhì)譜譜圖。為了減小質(zhì)量和豐度在不同質(zhì)譜之間的偏差,校準(zhǔn)相同離子在不同譜中的m/z值,有必要將它們的豐度值歸一化為統(tǒng)一的尺度。人們通常選擇均勻分布在所有樣本像素中的分子作為參考,通過除以由標(biāo)準(zhǔn)峰得來的峰值系數(shù)來校準(zhǔn)信號峰的m/z或豐度值。最常見和最簡單的無目標(biāo)歸一化策略是將質(zhì)譜中的所有分子離子豐度除以總離子數(shù)(TIC)。該方法假定每個譜圖的豐度變化處于同一水平。改進(jìn)的算法引入了統(tǒng)計學(xué)理論,比如豐度中值法、滑動窗口歸一化(SWN)[9]、概率商歸一化(PQN)[10]、方差穩(wěn)定歸一化(VSN)[4]等。有研究證明,與未進(jìn)行歸一化或使用簡單的中值法的圖像相比,SWN策略具有獲取更清晰圖像的優(yōu)勢[9]。已有研究系統(tǒng)地評估了針對每個像素對應(yīng)的質(zhì)譜圖的信號峰豐度的7種歸一化方法[10]。圖1顯示了6種歸一化方法中各個單獨像素點中的質(zhì)譜峰值豐度除以的系數(shù),“信息峰”是指通過兩種不同的方法進(jìn)行變量選擇后仍然存在的峰值。歸一化過程也可分為譜內(nèi)(Intra)-歸一化(計算每個像素中質(zhì)譜的歸一尺度因子)和譜間(Inter)-歸一化(在圖像樣本中的所有質(zhì)譜使用統(tǒng)一歸一尺度因子[11])。

圖1 大鼠腦樣本矢狀面切片MALDI-MSI數(shù)據(jù)的歸一化處理。六張圖代表六種歸一化方法,每幅圖像的色階代表著歸一化因子系數(shù),每個單獨像素中的質(zhì)譜數(shù)據(jù)將除以這個因子進(jìn)行處理。紅色表示被高因子除,藍(lán)色表示被低因子除Fig.1 Normalization of MALDI MSI data of the sagittal rat brain section.The color scale for each image represents the factor by which the spectrum in an individual pixel would be divided for six normalization methods.Red represents the division by a higher factor and blue a lower factor.Reprinted with permission from Fonville et al.[10]Copyright 2012 American Chemical Society

1.2 峰檢測和m/z-圖像去噪

峰檢測,也稱為質(zhì)心化[12]或峰提取[13],這是質(zhì)譜數(shù)據(jù)分析中的一個常見步驟,它的目的是將一種化合物的質(zhì)譜信號組合成一個峰,從而將質(zhì)譜譜圖簡化為信號峰列表。通常,MSI譜圖中的信號峰列表被構(gòu)建為m/z-圖像,這種圖像是基于MSI數(shù)據(jù)集中所有譜圖中具有特定m/z的峰的豐度值[13]。在隨后的數(shù)據(jù)處理階段,全變差(Total Variation)最小化和Chambole算法可用于對m/z-圖像進(jìn)行保持邊緣去噪。該去噪過程使用了在常規(guī)MALDI-MS去噪中不會考慮的MSI數(shù)據(jù)中的空間信息。另一種方法,即兩步峰值選擇法也被引入到了MALDI-MSI空間成像信息的處理中。該方法首先去除與基質(zhì)相關(guān)的噪聲峰,然后根據(jù)m/z-圖像的豐度分布來設(shè)定可解釋變異(Variance Explained)閾值完成空間質(zhì)譜數(shù)據(jù)的去噪[10]。

2 降維處理

2.1 線性降維處理

線性降維與矩陣分解和變換密切相關(guān)。在MSI數(shù)據(jù)的統(tǒng)計分析中,矩陣因式分解是一個將二維MSI數(shù)據(jù)矩陣分解成其他矩陣乘積的數(shù)學(xué)過程。本綜述將根據(jù)不同的分解動機和矩陣約束來討論幾種用于MSI數(shù)據(jù)集降維的矩陣分解方法。

圖2顯示了基于4種常見的線性降維方法提取主因子,包括:主成分分析(PCA)、非負(fù)矩陣分解(NMF)、最大自相關(guān)因子(MAF)和概率潛在語義分析(PLSA)。前期的研究已經(jīng)證明降維處理可在不同組織切片間(如疾病和健康組織[11,15-17])提供帶有更顯著差異的和更好的可視化效果。另外,降維算法對生物標(biāo)記物的確認(rèn)也非常有幫助,更為自動圖像識別提供了依據(jù)[5]。在醫(yī)藥領(lǐng)域,還有其他降維算法包括應(yīng)用于研究不同種類藥片中化合物的具體組成和分布[18]。為了獲得更加一致和準(zhǔn)確的結(jié)論,有的研究會結(jié)合多種降維策略。比如,Jones等人將三種矩陣分解方法(PCA、NMF、MAF)和兩種聚類算法(K-means聚類和模糊C-means聚類)生成的多個分量圖像集成為一致性圖用于圖像分析[19]。

圖2 應(yīng)用主成分分析(PCA)、非負(fù)矩陣分解(NMF)、概率潛在語義分析(PLSA)和最大自相關(guān)因子(MAF)對大鼠大腦矢狀面切片的MALDI-MSI圖像進(jìn)行特征因子選擇Fig.2 Selected factors from principal component analysis(PCA),non-negative matrix factorization(NMF),maximum autocorrelation factor(MAF),and probabilistic latent semantic analysis(PLSA)applied to a MALDI-MSI image of a sagittal section of rat brain.Reprinted with permission from Race et al[14].Copyright 2016American Chemical Society

2.1.1 主成分分析(PCA) PCA可以將坐標(biāo)系(包括像素位置的維度和MSI譜圖中選定信號峰的豐度值)線性變換為正交主成分坐標(biāo)系。PCA方法通常選擇一個或兩個主成分因子來表示MSI數(shù)據(jù)集,這會有效地減小數(shù)據(jù)維數(shù),去除不相關(guān)的噪聲,同時保留更多數(shù)據(jù)信息。第一主成分展示了數(shù)據(jù)集中的最大方差。許多綜述和研究討論了用于監(jiān)督和非監(jiān)督 MSI分析的 PCA 方法[5,7,9,11,14-16,18-21]。主成分分析也可以與其他幾種方法相結(jié)合使用,包括隨機投影主成分分析(RP-PCA)[22]、主成分分析-線性判別分析(PCA-LDA)[23]和主成分分析-符號判別分析(PCA-SDA)[24]。隨機投影可以將m/z-圖像中的所有像素點映射到較少的像素點上并計算投影分?jǐn)?shù),從而使數(shù)據(jù)維數(shù)變小。這種方法也可單獨用于MSI超譜數(shù)據(jù)分析[25-26]。PCA 與其他算法的結(jié)合可用于數(shù)據(jù)集的分類和聚類分析[23-24,27]。

2.1.2 獨立成分分析(ICA) ICA可以將MSI數(shù)據(jù)集分解為若干統(tǒng)計學(xué)相互獨立的正交子成分的線性組合。通常是利用最大化某種非高斯性度量,而不是類似PCA中的方差最大化[18,21,28]。ICA主要針對非高斯分布樣本點。

2.1.3 非負(fù)矩陣分解(NMF) NMF是用兩個非負(fù)矩陣的乘積來重構(gòu)MSI數(shù)據(jù)矩陣的另一種矩陣因子分解方法。為了使原始矩陣與重建的矩陣乘積之間的誤差最小化,通常會使用歐氏距離等最優(yōu)化函數(shù)[14,17-19]。

2.1.4 最大自相關(guān)系數(shù)(MAF) 在MAF分析中,所使用的線性變換類似于PCA和ICA。唯一的區(qū)別是MAF是通過最大化MSI數(shù)據(jù)集中相鄰像素間的自相關(guān)指標(biāo)來實現(xiàn)因子分解[14,19]。

2.2 非線性降維

隨機鄰域嵌入(SNE)是一種非線性降維方法,它將高維數(shù)據(jù)展示在二維或三維空間中以便更好地可視化[29]。改進(jìn)的方法包括t-分布SNE(tSNE)和分層SNE(hSNE)已被用于 MSI數(shù)據(jù)集的可視化分析[16,30-33]。tSNE根據(jù)t分布和 KL散度計算相似概率分布,將數(shù)據(jù)定位在低維圖中[30,32-33]。hSNE 將高維MSI數(shù)據(jù)分層地顯示在低維空間中,每層具有不同程度的可視化信息[31]。

2.3 特征選擇

數(shù)據(jù)降維通常分為特征提取和特征選擇[34]。在前面的章節(jié)中,我們總結(jié)了通過將高維空間中的數(shù)據(jù)投影到低維空間中來減少維度的常見的特征提取方法。特征選擇可以看作是另一種數(shù)據(jù)降維方法,它通過選擇重要的和包含信息較多的特征(即質(zhì)譜數(shù)據(jù)中的信號峰的m/z值),以排除噪聲信號,提高計算效率。特征選擇的其他優(yōu)勢還包括提高無監(jiān)督圖像像素聚類的準(zhǔn)確性,以及避免有監(jiān)督分類分析中的過擬合問題[7,35]。信息特征選擇還可通過應(yīng)用收縮t統(tǒng)計量(Shrunken t-Statistics)來比較類別或片段的質(zhì)心(由一種分類或一個圖像區(qū)域中的平均質(zhì)譜數(shù)據(jù)定義)與整體的質(zhì)心的差異來實現(xiàn)[36]。另一項研究提出基于Wilcoxon秩檢驗和Kolmogorov-Smirnov檢驗獲得顯著性差異程度p值,并選擇p值最小的信號峰作為分類特征,從而實現(xiàn)特征選擇[37]。

3 聚類

聚類是數(shù)據(jù)挖掘和統(tǒng)計分析中常用的無監(jiān)督方法。聚類方法可對MSI像素數(shù)據(jù)點進(jìn)行分組,同一聚類簇中的像素數(shù)據(jù)點的譜圖、峰值表或生成的主成分特征相比于其他簇中數(shù)據(jù)點具有更大的相似性。在二維和三維MSI分析中,聚類主要用于自動構(gòu)建分割圖像,以便更好地實現(xiàn)可視化和進(jìn)行生物評價[38-39]。如圖3所示,根據(jù)分割圖[39],不同的解剖學(xué)結(jié)構(gòu)可以很容易地被識別和分辨。空間分割圖還有助于揭示腫瘤區(qū)域在組織中的分布[40]、腫瘤的功能異質(zhì)性[41]以及借助微蛋白質(zhì)組學(xué)進(jìn)行腫瘤分類[42]。圖切割聚類法已應(yīng)用于比較小鼠腦組織切片的DESI和MALDI-MSI的離子抑制效果,它可以區(qū)分奧氮平(Olanzapine)的高、低離子抑制區(qū)[43]。MSI數(shù)據(jù)集中無監(jiān)督聚類分析的另一個應(yīng)用是分析在大麥發(fā)芽過程中具有組織特異性和時間依賴性的代謝物模式[44]。下面介紹最常用的幾種MSI聚類算法。

3.1 K-均值(K-means)算法

K-means算法將MSI數(shù)據(jù)集劃分為k個聚類簇,k的值是預(yù)定義的數(shù)。其劃分主要依據(jù)每個像素點的特征向量與k個聚類簇的質(zhì)心向量之間距離,像素點被分到距離最近的那個聚類簇中。質(zhì)心向量在第一次迭代時是隨機分配的,然后根據(jù)所有簇內(nèi)像素點的平均值更新每個簇的質(zhì)心向量,重復(fù)該過程直到質(zhì)心向量不再改變。其中計算距離常常是使用歐氏距離[40-42,45-46]。其它的距離度量也有在MSI數(shù)據(jù)分析研究中使用,如 Cityblock(曼哈頓)距離、相關(guān)性距離和余弦距離[39,43,47-49]。K-means算法已集成到各種MSI分析軟件工具中[11,50-51]。

3.2 層次聚類(HC)

HC建立了一個聚類簇的層次樹,稱為樹狀圖(Dendrogram)。集聚(Agglomerative)或分裂(Divisive)策略被遞歸地執(zhí)行,每次遞歸對最相似或最不相似的像素數(shù)據(jù)點分別進(jìn)行合并或分割,并生成樹的一層分支節(jié)點。相似性的計算同樣基于距離度量,如歐氏距離。該方法已廣泛應(yīng)用在MSI圖像分割分析[8,16,40,52-53]。HC算法還用于通過將具有最小簇間距離的相鄰峰集合并到一個簇中來實現(xiàn) MSI譜圖的數(shù)據(jù)降維,每個簇的范圍是根據(jù)質(zhì)譜中的m/z值來計算確定的[54]。

圖3 圖切割聚類法跟MSI中現(xiàn)有聚類算法的比較,算法應(yīng)用于大腦冠狀面(k=7)和矢狀面(k=20)切片的MSI圖像以及作為比較的Allen大腦圖集(圖底部)。大鼠腦冠狀面數(shù)據(jù)是以45×45μm的像素獲取并且共包含20 000個像素,大鼠腦矢狀面數(shù)據(jù)是以100×100μm的像素獲取并且共包含12 500個像素Fig.3 Comparison of existing clustering algorithms used in MSI,and graph cuts clustering applied to MSI images of a coronal(k=7)and sagittal(k=20)brain sections as compared to the Allen brain atlas(bottom).Coronal mouse brain data was acquired with 45×45μm pixels and contained a total of 20 000pixels,sagittal rat brain was acquired with 100×100μm pixels and contained 12 500pixels.Reprinted with permission from Dexter et al[39].Copyright 2017American Chemical Society

3.3 自組織圖(SOM)

SOM是一種神經(jīng)網(wǎng)絡(luò)類型,由高維的MSI數(shù)據(jù)集訓(xùn)練得到,用低維節(jié)點圖表示。在MSI數(shù)據(jù)分析中,SOM被用于數(shù)據(jù)降維、聚類和可視化[32]。而作為一種改進(jìn)的SOM方法,分層雙曲線自組織圖(H2SOM)是為MSI圖像分割和無監(jiān)督聚類而開發(fā)引入的[44]。

3.4 其他聚類算法

圖切割法是另一種聚類算法,已有研究將其與K均值法和層次聚類法進(jìn)行了比較[39]。比較結(jié)果證實它在小鼠冠狀面和矢狀面腦切片的MSI數(shù)據(jù)集中能生成更清晰的分割圖像(圖3)。模糊C-均值(C-means)算法不同于K-均值和HC等硬聚類算法。除了使用了模糊集思想,這種算法還采用了新的距離度量方式。模糊C-均值算法已用于對一種植物(桉樹)葉片的MSI代謝組學(xué)數(shù)據(jù)集進(jìn)行聚類[9]。利用期望最大化的概率聚類算法也被用于對大鼠腦冠狀切面產(chǎn)生的MSI數(shù)據(jù)進(jìn)行處理[46]。

4 分類

分類算法是一種有監(jiān)督的學(xué)習(xí)策略,它根據(jù)訓(xùn)練后的分類器對給定的數(shù)據(jù)集進(jìn)行分類。這些分類器由訓(xùn)練數(shù)據(jù)集中選定特征構(gòu)成的數(shù)學(xué)函數(shù)進(jìn)行定義。訓(xùn)練過程主要依賴于具有明確類標(biāo)簽的數(shù)據(jù)集。它不同于一般的聚類算法,因為聚類算法沒有將先驗知識用于分析[7,35-36]。MSI數(shù)據(jù)分析中使用的大多數(shù)分類方法都集中在區(qū)分健康和疾病條件下的樣本數(shù)據(jù)的各種生物學(xué)應(yīng)用,以及在不同階段協(xié)助診斷疾病。通過從數(shù)據(jù)集中選擇包含信息較大的特征,可由經(jīng)過訓(xùn)練的分類器進(jìn)行診斷測試[16]。為了提高分類器的分類性能,各種算法包括支持向量機(SVM)、隨機森林(RF)和PCA等被用來獲取和訓(xùn)練分類器。在本節(jié)中,我們將描述這些用于MSI圖像分類的算法策略。

4.1 支持向量機算法

支持向量機(SVM)是一種非概率型分類算法,已經(jīng)在生物信息學(xué)領(lǐng)域得到了廣泛的應(yīng)用。根據(jù)不同的核函數(shù),SVM可以生成線性分類器或非線性分類器。訓(xùn)練過程包括最優(yōu)化超平面的計算,以劃分不同標(biāo)記類中的數(shù)據(jù)點。聯(lián)合使用SVM和PCA算法可將人腦組織樣本中感興趣區(qū)域ROI的MSI圖像像素點分為三類,即非病理性的人腦垂體區(qū)、分泌性和非分泌性垂體腺瘤區(qū)[27]。最近有研究利用支持向量機(SVM)算法建立了基于ALλ和ATTR淀粉樣蛋白的肽組成的分類模型,對淀粉樣變性疾病進(jìn)行診斷[55]。另外,SVM在腫瘤類型診斷和甲狀腺病變診斷中的應(yīng)用已有報道[56]。

4.2 隨機森林算法

隨機森林是一種利用投票將多個決策樹構(gòu)造為分類器的集成型分類方法。在每個樹的每個節(jié)點中,通過分裂情況來確定特征(MSI數(shù)據(jù)處理中的m/z值可作為特征)的隨機子集中最優(yōu)的特征,訓(xùn)練樣本集是由所有樣本中采用Bagging或Bootstrap的取樣方法有放回的選出的。隨機森林算法已與主動學(xué)習(xí)(AL)策略和改進(jìn)的樣本標(biāo)記方法相結(jié)合用于對MSI數(shù)據(jù)集進(jìn)行多分類[3,57]。

4.3 其他統(tǒng)計和機器學(xué)習(xí)算法

通過對給定樣本和每個腫瘤類型的統(tǒng)計模型間相似性分?jǐn)?shù)計算,可以建立用于腫瘤類型分類和鑒定的統(tǒng)計框架[54]。Veselkov等人使用了遞歸最大間距準(zhǔn)則(RMMC)方法來處理基于脂質(zhì)分子特征的結(jié)腸癌組織類型分類問題。與基于偏最小二乘法(PLS)的算法以及它們以前所使用的PCA-LDA方法相比,它具有更高的分辨精確度[4]。在人類腎細(xì)胞癌MSI數(shù)據(jù)集上,另一個基于空間收縮質(zhì)心策略的統(tǒng)計模型被用于對正常組織和癌組織進(jìn)行分類。與PLS-DA算法相比,該算法在提供有用信息的特征顯著減少的情況下仍能獲得類似的分類性能[36]。

套索算法(LASSO)模型也已在前期的研究中被使用,它通過選取小代謝產(chǎn)物和脂質(zhì)分子作為診斷特征來區(qū)分正常前列腺和前列腺癌[58]。該研究指出,在組織樣本MSI所有像素點的質(zhì)譜圖中,小代謝物葡萄糖和檸檬酸鹽的平均離子信號可作為癌癥診斷的分類器(圖4)。已有研究將三種分類器包括LDA分類器、樸素貝葉斯分類器(NBC)和決策樹分類器(DTC)進(jìn)行了系統(tǒng)性的比較[37]。深度學(xué)習(xí)是近年來解決具有大信息量的數(shù)據(jù)集中分類問題的有效方法。深度卷積神經(jīng)網(wǎng)絡(luò)方法(CNNs)也被應(yīng)用于處理基于MSI的腫瘤分類,比如診斷兩種肺部腫瘤亞型以及辨別肺部腫瘤和胰腺腫瘤[59]。

圖4 負(fù)離子模式的DESI-MS針對葡萄糖/檸檬酸鹽的離子信號豐度比圖,用于(A)訓(xùn)練集(18個良性和18個癌癥樣本),以及(B)驗證集(10個良性和8個癌癥樣本),其中信號是從單個組織樣本獲得的所有像素質(zhì)譜中的葡萄糖和檸檬酸鹽的平均離子信號。從這些圖中可以看出,當(dāng)葡萄糖/檸檬酸鹽信號豐度比大于1時,一個組織可歸類為癌癥;當(dāng)葡萄糖/檸檬酸鹽信號豐度比小于0.5時,該組織可歸類為良性Fig.4 Negative ion mode DESI-MS ion signal intensity ratios for glucose/citrate are plotted for(A)the training set(18 benign and 18cancer specimens),and(B)the validation set(10benign and 8cancer specimens)by averaging the ion signals of glucose and citrate from all pixels acquired from the individual tissue sample.From these plots,a tissue can be classified as cancer when glucose/citrate signal ratio is>1,and benign when the ratio is<0.5.Reprinted with permission from Banerjee et al[58].Copyright(2017)National Academy of Sciences

5 MSI軟件

前期的綜述文章對用于MSI數(shù)據(jù)分析和可視化的軟件工具已進(jìn)行了總結(jié),包括常用的商業(yè)軟件、免費軟件工具和開源軟件[7]。因此,我們主要綜述過去三年新開發(fā)的工具。

用戶友好性較好的商業(yè)工具M(jìn)assImager可提供高通量的MSI數(shù)據(jù)可視化和統(tǒng)計分析功能[5]。文獻(xiàn)中報道的用于MSI數(shù)據(jù)分析的軟件基本都是免費的,如BioMap和Datacube。直接比較表明,盡管Biomap具有更好的用戶體驗和便捷性,但它和Datacube的性能是基本相似的[60-61]。msIQuant是一個MSI可視化工具,可以相對快速加載較大的MSI數(shù)據(jù)集。新版本的msIQuant引入了減少數(shù)據(jù)信息熵和壓縮算法并可用于高效的數(shù)據(jù)歸檔[62-63]。BASTet是OpenMSI工具的一個擴(kuò)展框架,主要用于網(wǎng)絡(luò)共享、管理和分析MSI數(shù)據(jù)[64-65]。MSIdV可通過衡量和比較MSI數(shù)據(jù)集中不同m/z值的多個分子來實現(xiàn)組織切片的所有區(qū)域的生物指標(biāo)的可視化[66]。

OpenMSI陣列分析工具包(OMAAT)是一個與OpenMSI集成的開源工具。它可以生成每個感興趣的離子的圖像,并協(xié)助分析指定空間區(qū)域中的一組數(shù)據(jù)[67]。兩個基于R的開源軟件包rMSI[68]和massPix[50]也已用于MSI數(shù)據(jù)處理。rMSI設(shè)計了一個用戶友好的圖形界面(GUI)來可視化MSI圖像數(shù)據(jù),界面包括空間圖像面板、所選的感興趣區(qū)域(ROI)和質(zhì)譜視圖面板。與rMSI不同,Masspix專門針對脂質(zhì)組學(xué)MSI,它專注于繪制單離子分布圖并加入了PCA和聚類算法等統(tǒng)計分析功能。pyBASIS是另一個開源平臺,它可通過機器學(xué)習(xí)和模式識別等方法處理多個組織樣本中產(chǎn)生的大規(guī)模MSI數(shù)據(jù)集[11]。MsiReader v1.0是該開源工具系列的最新版本,它添加了一些新功能,例如用于分析極性切換數(shù)據(jù)的極性過濾器、用于成像顯示的圖像疊加功能以及用于質(zhì)量保證的質(zhì)量測量精度(MMA)熱圖繪制功能[69]。如圖5所示,MsiReader v1.0的界面展示了對小鼠腦組織切片的多個MSI數(shù)據(jù)集的處理情況。

圖5 多個圖像數(shù)據(jù)集加載。圖示為12個小鼠腦組織矢狀面切片中膽固醇[M+H-H2O]+的圖像Fig.5 Loading multiple imaging data sets.The images presented are for cholesterol[M+H-H2O]+in 12sagittal mouse brain tissue sections.Reprinted with permission from [Springer Nature]:[Springer][Journal of The American Society for Mass Spectrometry][MSiReader v1.0:Evolving Open-Source Mass Spectrometry Imaging Software for Targeted and Untargeted Analyses.Bokhart M T,Nazari M,Garrard K P,Muddiman D C[69]].[COPYRIGHT](2018)

6 結(jié)論

MSI質(zhì)譜成像技術(shù)已成為組織樣本切片中分子組分鑒定的一項重要技術(shù)。由于數(shù)據(jù)量大、不同像素中的質(zhì)譜數(shù)據(jù)的差異以及實驗噪聲等因素影響,MSI數(shù)據(jù)處理仍然具有挑戰(zhàn)性。本文中我們綜述了MSI數(shù)據(jù)分析流程中的生物信息學(xué)計算策略,包括預(yù)處理、數(shù)據(jù)降維、聚類、分類和軟件工具。數(shù)據(jù)歸一化處理在預(yù)處理中非常重要,我們也慨括了校正不同像素中數(shù)據(jù)之間的誤差的重要性。矩陣分解法(如PCA、ICA、NMF和MAF)常用于MSI線性數(shù)據(jù)降維,以去除次要成分因子,提高數(shù)據(jù)分析效率。我們也介紹了非線性降維算法SNE和基于統(tǒng)計的特征選擇方法。本綜述還討論了K-means、HC和SOM等聚類算法在圖像分割和生物學(xué)評價中的應(yīng)用。此外,MSI在疾病診斷和生物標(biāo)記物發(fā)現(xiàn)的應(yīng)用中,有監(jiān)督分類算法(如SVM、隨機森林)是一種有價值的驗證標(biāo)準(zhǔn)。預(yù)計MSI計算策略的進(jìn)一步發(fā)展將有助于提高M(jìn)SI數(shù)據(jù)的質(zhì)量,并促進(jìn)MSI技術(shù)在生物和臨床發(fā)展中的應(yīng)用。

致謝:感謝基礎(chǔ)教育信息技術(shù)服務(wù)湖北省協(xié)同創(chuàng)新中心的資助。

猜你喜歡
降維分類器質(zhì)譜
混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
車主之友(2022年4期)2022-08-27 00:57:12
氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測中的應(yīng)用及維護(hù)
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測定水中18種揮發(fā)性有機物
棗霜化學(xué)成分的色譜質(zhì)譜分析
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
Modeled response of talik development under thermokarst lakes to permafrost thickness on the Qinghai-Tibet Plateau
正镶白旗| 高唐县| 株洲县| 万安县| 珠海市| 龙江县| 马关县| 咸宁市| 榆社县| 象州县| 湾仔区| 湘潭县| 织金县| 特克斯县| 抚远县| 垫江县| 淳化县| 仁布县| 禄丰县| 保康县| 来安县| 绍兴市| 阿克| 平陆县| 班玛县| 利川市| 永定县| 普洱| 山丹县| 遵义市| 寿宁县| 平罗县| 新沂市| 重庆市| 大连市| 北海市| 嘉义市| 深泽县| 高邑县| 湟源县| 类乌齐县|