国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

腫瘤微衛(wèi)星不穩(wěn)定檢測(cè)方法綜述①

2018-10-24 11:05李曉東何小雨李瑞琳牛北方
關(guān)鍵詞:微衛(wèi)星核苷酸等位基因

陳 瑋, 趙 丹, 李曉東, 何小雨, 李瑞琳, 牛北方,3

1(中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心, 北京 100190)

2(中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)與控制學(xué)院, 北京 100049)

3(貴州大學(xué) 醫(yī)學(xué)院, 貴陽(yáng) 550025)

微衛(wèi)星, 即短串聯(lián)重復(fù)序列, 是廣泛分布在真核生物基因組中的(原核生物基因組中也有少量分布), 以1-6bp為一個(gè)重復(fù)單元, 重復(fù)次數(shù)不超過(guò)60次的DNA序列. 人類基因組中有數(shù)以萬(wàn)計(jì)的微衛(wèi)星位點(diǎn),這些微衛(wèi)星位點(diǎn)近似均勻地分布在各個(gè)染色體上, 所有的微衛(wèi)星序列約占整個(gè)基因組的3%. 微衛(wèi)星按照重復(fù)單元的大小可分為單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重復(fù);按照重復(fù)序列的結(jié)構(gòu)可分為簡(jiǎn)單重復(fù)(由單一重復(fù)單元構(gòu)成)和復(fù)合重復(fù)(由重復(fù)單元不同的多個(gè)重復(fù)序列構(gòu)成). 與DNA中的其他區(qū)域相比, 微衛(wèi)星區(qū)域具有較高的突變率[1]. 其高突變率的直接表現(xiàn)是高度的多態(tài)性[2], 即不同個(gè)體之間或正常組織與腫瘤組織之間, 微衛(wèi)星位點(diǎn)重復(fù)單元的重復(fù)次數(shù)存在差異. 由于微衛(wèi)星位點(diǎn)的分布廣泛性及高度多態(tài)性, 微衛(wèi)星常用于個(gè)體鑒定、連鎖圖譜的繪制以及腫瘤發(fā)生機(jī)制的研究.

微衛(wèi)星不穩(wěn)定(Micro Satellite Instability, MSI), 是指微衛(wèi)星位點(diǎn)重復(fù)單元的重復(fù)次數(shù)出現(xiàn)波動(dòng)的現(xiàn)象,即重復(fù)單元的插入與刪除. 現(xiàn)普遍認(rèn)為這種現(xiàn)象是由DNA在復(fù)制過(guò)程中出現(xiàn)“鏈滑”(strand slippage)引起的. DNA在復(fù)制過(guò)程中, DNA聚合酶沿模板鏈滑動(dòng),子鏈與模板鏈會(huì)發(fā)生局部分離和重新配對(duì). 在重新配對(duì)的過(guò)程中, 子鏈與模版鏈發(fā)生錯(cuò)配, 就會(huì)導(dǎo)致一個(gè)或幾個(gè)重復(fù)單元形成凸環(huán). 一般情況下, 這種錯(cuò)誤會(huì)被DNA的錯(cuò)配修復(fù)系統(tǒng)(Mismatch Repair, MMR)修復(fù),然而, 當(dāng)MMR中的相關(guān)基因由于啟動(dòng)子超甲基化或基因突變等原因出現(xiàn)故障, DNA復(fù)制錯(cuò)誤無(wú)法被修復(fù),一些微衛(wèi)星位點(diǎn)重復(fù)單元的重復(fù)次數(shù)發(fā)生波動(dòng), 進(jìn)而發(fā)生微衛(wèi)星不穩(wěn)定[3]. 不同的微衛(wèi)星位點(diǎn)穩(wěn)定性不同.微衛(wèi)星重復(fù)單元的大小、重復(fù)單元的堿基組成、重復(fù)序列的結(jié)構(gòu)及重復(fù)次數(shù)等都會(huì)在一定程度上影響位點(diǎn)的穩(wěn)定性. 根據(jù)微衛(wèi)星不穩(wěn)定的程度, 可以將MSI分為MSI-H (MicroSatellite Instability High), MSI-L(MicroSatellite Instability Low)以及MSS(MicroSatellite Stable).

1993年, Aaltonen等人首次在家族性遺傳性結(jié)直腸癌(Hereditary Non-Polyposis Colorectal Cancer,HNPCC)中發(fā)現(xiàn)高頻率的MSI[4]. 微衛(wèi)星不穩(wěn)定在大約15%的結(jié)直腸癌以及90%的林奇綜合癥(HNPCC,又稱Lynch Syndrome)中起決定作用[5]. 近年來(lái)的研究表明, MSI對(duì)林奇綜合癥以及結(jié)直腸癌的診斷、預(yù)后以及化療敏感性有重要的意義. 除了結(jié)直腸癌, 研究人員也相繼在子宮內(nèi)膜癌、卵巢癌[6]、胃癌以及乳腺癌[7]等疾病中發(fā)現(xiàn)MSI. MSI作為腫瘤遺傳不穩(wěn)定的敏感指標(biāo), 其檢測(cè)對(duì)于腫瘤的早期診斷、預(yù)后判斷、化療敏感性判斷以及高危人群的圈定等具有重要意義. 已有不少研究發(fā)現(xiàn)MSI-H的腫瘤患者相對(duì)于MSS的腫瘤患者有更好的預(yù)后[8,9], 同時(shí)MSI-H腫瘤患者對(duì)不同化療方法的敏感性也表現(xiàn)出差異[10].

目前, 臨床上主要采用MSI-PCR以及MMRIHC的方法進(jìn)行微衛(wèi)星不穩(wěn)定的檢測(cè). 然而, 近年來(lái),隨著下一代測(cè)序技術(shù)(Next-Generation Sequencing technology, NGS)的飛速發(fā)展, 測(cè)序價(jià)格以超越摩爾定律的速度急速下降, 測(cè)序速度也大幅提升, 這使得方便快捷地獲取測(cè)序數(shù)據(jù)成為可能. 目前已有多個(gè)通過(guò)分析測(cè)序數(shù)據(jù)來(lái)檢測(cè)微衛(wèi)星不穩(wěn)定的軟件方法.

下文將從基于生物學(xué)實(shí)驗(yàn)的方法和基于計(jì)算的方法兩個(gè)角度來(lái)介紹現(xiàn)有的微衛(wèi)星不穩(wěn)定的檢測(cè)方法.

1 基于生物學(xué)實(shí)驗(yàn)的方法

當(dāng)前臨床上主要采用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction, PCR)或免疫組織化學(xué)(Immuno Histo Chemistry, IHC)染色的方法檢測(cè)患者的MSI狀態(tài).

MSI-PCR[11]通過(guò)對(duì)腫瘤組織和正常組織中選定的微衛(wèi)星位點(diǎn)進(jìn)行PCR擴(kuò)增及凝膠電泳, 通過(guò)比較兩組電泳結(jié)果的差異來(lái)確定MSI的狀態(tài). 然而人類基因組中有數(shù)以萬(wàn)計(jì)的微衛(wèi)星位點(diǎn), 不同的位點(diǎn)對(duì)于檢測(cè)MSI的敏感性和準(zhǔn)確性也各不相同. 為了標(biāo)準(zhǔn)化MSI的檢測(cè), NCI (National Cancer Institute)于1997年推薦了Bethesda指南[12], 該指南推薦了兩個(gè)單核苷酸位點(diǎn)(BAT-25, BAT-26)以及三個(gè)二核苷酸位點(diǎn)(D2S123, D5S346 和D17S250)作為檢測(cè)MSI的微衛(wèi)星標(biāo)記, 檢測(cè)結(jié)果中有兩個(gè)及以上位點(diǎn)出現(xiàn)不穩(wěn)定為MSI-H, 一個(gè)位點(diǎn)出現(xiàn)不穩(wěn)定為MSI-L, 沒(méi)有位點(diǎn)出現(xiàn)不穩(wěn)定為MSS. 鑒于二核苷酸位點(diǎn)在對(duì)MMR故障的腫瘤患者的MSI檢測(cè)中, 敏感性和準(zhǔn)確性不及單核苷酸位點(diǎn), NCI又于2004年對(duì)Bethesda指南進(jìn)行了修訂[13].與此同時(shí), Bacher等人[14]通過(guò)對(duì)266個(gè)微衛(wèi)星位點(diǎn)(其中包括單核苷酸、二核苷酸、四核苷酸以及五核苷酸微衛(wèi)星位點(diǎn))檢測(cè)的敏感性及準(zhǔn)確性進(jìn)行評(píng)估, 提出了Promega分析系統(tǒng), 該系統(tǒng)使用五個(gè)單核苷酸微衛(wèi)星位點(diǎn)(BAT-25, BAT-26, NR-21, NR-24和MONO-27)檢測(cè)MSI, 并使用兩個(gè)五核苷酸微衛(wèi)星位點(diǎn)(Penta C和Penta D)標(biāo)識(shí)樣本.

與MSI-PCR不同, MMR IHC通過(guò)檢測(cè)MMR蛋白(MLH1、MSH2、MSH6和PMS2)的表達(dá)來(lái)確定MMR系統(tǒng)是否發(fā)生故障, 進(jìn)而判斷MSI的狀態(tài). 然而并不能用MMR IHC完全替代MSI PCR, 因?yàn)樵诖_定為MSI-H的腫瘤中, 有5%的腫瘤, 四種蛋白都表達(dá),使用MMR IHC無(wú)法將其識(shí)別.

2 基于計(jì)算的方法

目前, 已有多個(gè)通過(guò)分析高通量測(cè)序數(shù)據(jù)檢測(cè)微衛(wèi)星不穩(wěn)定的方法及軟件. 從模型的角度可以將這些方法分為基于一般統(tǒng)計(jì)模型的方法和基于機(jī)器學(xué)習(xí)模型的方法. 其中, 基于統(tǒng)計(jì)的方法, 首先選取一個(gè)可以反映微衛(wèi)星不穩(wěn)定特點(diǎn)的指標(biāo), 然后在一組給定的樣本上(MSI的臨床檢測(cè)結(jié)果已知), 確定該指標(biāo)與臨床檢測(cè)結(jié)果的一致性及分類閾值. 基于機(jī)器學(xué)習(xí)的方法,主要通過(guò)特征提取、特征選擇及分類器訓(xùn)練的方法進(jìn)行MSI狀態(tài)的預(yù)測(cè). 不論是統(tǒng)計(jì)方法中的指標(biāo)還是機(jī)器學(xué)習(xí)方法中的特征, 其選擇的主要依據(jù)是微衛(wèi)星不穩(wěn)定這一現(xiàn)象以及其背后的產(chǎn)生機(jī)制. 其中, 現(xiàn)象, 即測(cè)序數(shù)據(jù)中表現(xiàn)出的微衛(wèi)星位點(diǎn)重復(fù)單元重復(fù)次數(shù)的波動(dòng), 其本質(zhì)上是堿基的插入與刪除;產(chǎn)生機(jī)制, 即DNA錯(cuò)配修復(fù)系統(tǒng)相關(guān)基因啟動(dòng)子超甲基化或發(fā)生突變使得這些基因無(wú)法表達(dá), 進(jìn)而影響到錯(cuò)配修復(fù)系統(tǒng)的功能. 因此, 基于計(jì)算的方法一般是通過(guò)對(duì)測(cè)序數(shù)據(jù)、超甲基化數(shù)據(jù)、突變數(shù)據(jù)以及基因表達(dá)數(shù)據(jù)進(jìn)行分析, 確定MSI狀態(tài)的.

從樣本的角度可以將這些方法分為基于配對(duì)的腫瘤-正常樣本的方法和僅基于腫瘤樣本的方法. 第二種方法在缺乏與腫瘤樣本配對(duì)的正常樣本的情況下, 可以有效解決MSI的檢測(cè)問(wèn)題.

表1從以上兩個(gè)維度對(duì)現(xiàn)有的方法進(jìn)行了分類.

表1 MSI檢測(cè)方法分類

以下將從模型的角度分類介紹各個(gè)方法.

2.1 基于一般統(tǒng)計(jì)模型的MSI檢測(cè)方法

目前, 主要有以下四種基于一般統(tǒng)計(jì)模型的MSI檢測(cè)方法, 這些方法均是通過(guò)對(duì)測(cè)序數(shù)據(jù)的分析,從微衛(wèi)星位點(diǎn)重復(fù)單元重復(fù)次數(shù)波動(dòng)的角度出發(fā), 解決這一問(wèn)題的.

(1) 基于Indel的MSI檢測(cè)方法[18]

MSI中發(fā)生的重復(fù)單元的插入與刪除從本質(zhì)上是小片段堿基的插入與刪除, 即Indel. Lu等人正是從這個(gè)角度出發(fā), 將MSI的判定問(wèn)題轉(zhuǎn)化為了微衛(wèi)星區(qū)域的Indel變化問(wèn)題.

對(duì)于每個(gè)樣本, 首先進(jìn)行Indel識(shí)別, 其次對(duì)獲得的Indel進(jìn)行過(guò)濾并保留位于微衛(wèi)星區(qū)域的Indel. 通過(guò)在一組樣本(MSI臨床檢測(cè)結(jié)果已知)上對(duì)PI、PD以及PI/PD作為MSI判別指標(biāo)進(jìn)行t檢驗(yàn)評(píng)估(其中PI表示微衛(wèi)星區(qū)域insertion占所有insertion的比例, PD表示微衛(wèi)星區(qū)域deletion占所有deletion的比例, PI/PD為二者的比率), 選擇了PI/PD作為樣本的MSI判別指標(biāo). MSI-H的樣本在該指標(biāo)上的取值顯著低于MSS的樣本.

Lu等人僅提供了上述方法的工作流程并通過(guò)實(shí)際的數(shù)據(jù)驗(yàn)證了該方法的有效性, 并沒(méi)有開(kāi)發(fā)出相應(yīng)的軟件工具.

(2) mSINGS[19]

mSINGS首先判斷每個(gè)微衛(wèi)星位點(diǎn)的穩(wěn)定性, 進(jìn)一步根據(jù)不穩(wěn)定的微衛(wèi)星位點(diǎn)的比例來(lái)判斷樣本的MSI狀態(tài). 對(duì)于每個(gè)微衛(wèi)星位點(diǎn), mSINGS試圖找到一個(gè)指標(biāo)來(lái)量化其穩(wěn)定程度, 并基于一組MSS樣本建立各微衛(wèi)星位點(diǎn)該指標(biāo)的參考值, 對(duì)于給定樣本的某個(gè)微衛(wèi)星位點(diǎn), 若該指標(biāo)取值超出參考范圍, 則認(rèn)為該微衛(wèi)星位點(diǎn)不穩(wěn)定. 通過(guò)這種方式, mSINGS解決了僅有腫瘤樣本情況下MSI的判定問(wèn)題. 具體方法如下:

1) 對(duì)于任一微衛(wèi)星位點(diǎn), 以其等位基因的個(gè)數(shù)作為衡量該位點(diǎn)是否穩(wěn)定的指標(biāo), 計(jì)算一組MSS樣本上,該位點(diǎn)等位基因個(gè)數(shù)的平均值作為參考值. 具體計(jì)算方法如下:

① 僅選擇在該位點(diǎn)測(cè)序深度大于等于30的MSS樣本參與計(jì)算;

② 對(duì)每個(gè)符合條件的樣本, 計(jì)算該位點(diǎn)等位基因的分布信息, 如表2所示;

③ 對(duì)每個(gè)符合條件的樣本, 規(guī)范化其等位基因的支持reads數(shù):規(guī)范化的支持reads數(shù)=支持reads數(shù)/最大支持reads數(shù);

④ 對(duì)每個(gè)符合條件的樣本, 過(guò)濾掉規(guī)范化的支持reads數(shù)小于5%的等位基因, 以剩余的等位基因數(shù)作為該樣本該位點(diǎn)的等位基因數(shù);

⑤ 計(jì)算符合條件的樣本該位點(diǎn)等位基因數(shù)的平均值(該微衛(wèi)星位點(diǎn)的參考值)及方差.

2)對(duì)于給定樣本, 采用與1)相同的處理方式, 對(duì)比1) 中建立的參考值, 根據(jù)3σ法則判斷其各微衛(wèi)星位點(diǎn)的穩(wěn)定性;

3)計(jì)算不穩(wěn)定微衛(wèi)星位點(diǎn)的比例以判定樣本的MSI狀態(tài).

從上述mSINGS的方法介紹可以看出, 各微衛(wèi)星位點(diǎn)穩(wěn)定性指標(biāo)的參考值是影響mSINGS準(zhǔn)確性的重要因素, 而參考值的計(jì)算依賴于合理地選擇一組MSS樣本. 為了保證判別的準(zhǔn)確率, 用于參考的MSS樣本與待檢測(cè)的樣本應(yīng)該具有較好的一致性, 如測(cè)序、癌種方面的一致性. 在實(shí)際使用中, 常常需要自行建立參考值.

表2 等位基因分布信息

(3) MSIsensor[15]

與mSINGS相似, MSIsensor也是通過(guò)分別判斷每個(gè)微衛(wèi)星位點(diǎn)的穩(wěn)定性, 然后以不穩(wěn)定微衛(wèi)星位點(diǎn)的比例作為MSI得分. 不同的是, MSIsensor需要基于配對(duì)的腫瘤-正常樣本進(jìn)行MSI的判定. 首先, 對(duì)于在腫瘤和正常樣本中測(cè)序深度均大于等于20的微衛(wèi)星位點(diǎn), 計(jì)算其等位基因的分布信息;其次, 通過(guò)卡方檢驗(yàn)比較腫瘤和正常樣本的相同微衛(wèi)星位點(diǎn)的等位基因分布, 若顯著不同, 則認(rèn)為該微衛(wèi)星位點(diǎn)不穩(wěn)定;最后統(tǒng)計(jì)不穩(wěn)定位點(diǎn)的比例, 若該比例超過(guò)閾值, 則判定為MSI-H, 其中, 閾值是通過(guò)該指標(biāo)在一組樣本上(包括MSI-H和MSS的樣本)的累積分布確定的.

(4) MANTIS[16]

類似于MSIsensor, MANTIS也獲得了腫瘤-正常配對(duì)樣本在每個(gè)微衛(wèi)星位點(diǎn)的等位基因分布信息;與MSIsensor不同的是, 對(duì)于每個(gè)微衛(wèi)星位點(diǎn), MANTIS把上述兩組數(shù)據(jù)看作兩個(gè)向量, 定義這兩個(gè)向量的L1范數(shù)為樣本中該位點(diǎn)的穩(wěn)定程度, 對(duì)所有位點(diǎn)的L1范數(shù)求平均值即為樣本的MSI得分. 具體方法如下:

對(duì)于每個(gè)微衛(wèi)星位點(diǎn),

1)僅保留讀長(zhǎng)、測(cè)序質(zhì)量符合要求的比對(duì)到該位點(diǎn)的reads;

2)分別計(jì)算配對(duì)的腫瘤-正常樣本中該位點(diǎn)的等位基因分布;

3)根據(jù)3σ法則, 過(guò)濾掉配對(duì)的腫瘤-正常樣本在該位點(diǎn)支持reads不足的等位基因;

4)經(jīng)過(guò)上述處理, 僅保留在配對(duì)的腫瘤-正常樣本中支持reads總數(shù)(該位點(diǎn)的測(cè)序深度)均超過(guò)一定閾值的微衛(wèi)星位點(diǎn).

5)分別規(guī)范化腫瘤-正常樣本該位點(diǎn)等位基因的支持reads數(shù):規(guī)范化的支持reads數(shù)=支持reads數(shù)/該位點(diǎn)的總支持reads數(shù);

6)根據(jù)規(guī)范化后的支持reads數(shù), 計(jì)算配對(duì)的腫瘤-正常樣本中該微衛(wèi)星位點(diǎn)等位基因分布的L1范數(shù);

7)以所有位點(diǎn)L1范數(shù)的平均值作為樣本的MSI得分.

MANTIS對(duì)參與計(jì)算的數(shù)據(jù)進(jìn)行了相對(duì)嚴(yán)格的質(zhì)量控制, 如上述流程中的1)、3)及4)步驟. 由于測(cè)序過(guò)程中總會(huì)產(chǎn)生誤差和錯(cuò)誤, 通過(guò)質(zhì)量控制, 僅使用符合要求的數(shù)據(jù)參與計(jì)算, 可以在一定程度上提高后續(xù)分析的準(zhǔn)確性.

上述基于一般統(tǒng)計(jì)模型的MSI檢測(cè)方法通過(guò)設(shè)計(jì)一個(gè)MSI判定指標(biāo), 在一組樣本上, 使用累積分布等方式, 確定該指標(biāo)的閾值, 實(shí)現(xiàn)對(duì)MSI狀態(tài)的檢測(cè).MANTIS一文從MSI判定的準(zhǔn)確性及計(jì)算資源使用兩個(gè)方面對(duì)mSINGS、MSIsensor以及MANTIS三種方法進(jìn)行了評(píng)估, 閾值、用于分析的微衛(wèi)星位點(diǎn)的數(shù)量以及癌種都會(huì)影響軟件的準(zhǔn)確性. 盡管在敏感度和特異度方面有細(xì)微差異, 三個(gè)軟件工具均可以準(zhǔn)確的檢測(cè)樣本的MSI狀態(tài). 然而, 不同于mSINGS和MANTIS, MSIsensor沒(méi)有對(duì)等位基因分布中的支持reads數(shù)進(jìn)行規(guī)范化以及質(zhì)控, 在配對(duì)的腫瘤-正常樣本測(cè)序深度不同的情況下, 可能出現(xiàn)假陽(yáng)性的結(jié)果.

2.2 基于機(jī)器學(xué)習(xí)模型的MSI檢測(cè)方法

目前, 基于機(jī)器學(xué)習(xí)模型的MSI檢測(cè)方法主要有以下三種. 特征和算法是機(jī)器學(xué)習(xí)的重要組成, 以下將從這兩個(gè)方面介紹各個(gè)方法. 關(guān)于每個(gè)特征的提取方式不在此贅述.

(1) MSIseq[20]

發(fā)生微衛(wèi)星不穩(wěn)定的樣本其單核苷酸替代(Single Nucleotide Substitution, SNS)率以及小片段堿基的插入與刪除(Indel)比率都會(huì)發(fā)生變化, MSIseq主要是從基因變異這一角度出發(fā)選取特征的. 備選特征如表3所示.

表3 MSIseq備選特征

在這些特征的基礎(chǔ)上, MSIseq使用五折交叉驗(yàn)證分別基于LR、決策樹(shù)、隨機(jī)森林、樸素貝葉斯算法訓(xùn)練了分類器并評(píng)估了性能, 最終選擇基于決策樹(shù)算法的分類器, 該分類器僅使用了S.ind這一個(gè)特征.

由于MSIseq提取的特征并不依賴于配對(duì)的腫瘤-正常樣本, 因此這一方法適用于僅有腫瘤樣本的情況.

(2) MOSAIC[17]

MOSAIC是基于對(duì)每個(gè)微衛(wèi)星位點(diǎn)穩(wěn)定性的判斷設(shè)計(jì)特征的. 除了與各微衛(wèi)星位點(diǎn)穩(wěn)定性相關(guān)的特征外, 還增加了通過(guò)在一組樣本上對(duì)所有微衛(wèi)星位點(diǎn)的穩(wěn)定性進(jìn)行分析后發(fā)現(xiàn)的顯著不穩(wěn)定的微衛(wèi)星位點(diǎn)信息, 備選特征如表4所示.

表4 MOSAIC備選特征

其中, 微衛(wèi)星位點(diǎn)不穩(wěn)定性的確定采用高敏感度的方法, 數(shù)據(jù)處理過(guò)程與mSINGS相同, 不同點(diǎn)在于微衛(wèi)星位點(diǎn)不穩(wěn)定的判定不再依據(jù)3σ原則, 而是對(duì)于任意微衛(wèi)星位點(diǎn), 若腫瘤樣本相對(duì)于配對(duì)的正常樣本, 在該位點(diǎn)出現(xiàn)新增的等位基因, 即認(rèn)為該位點(diǎn)不穩(wěn)定.

MOSAIC分別基于決策樹(shù)和隨機(jī)森林算法訓(xùn)練了模型, 最終選擇了基于決策樹(shù)算法的分類器, 該分類器僅使用了peak_avg以及defsite兩個(gè)特征 .

MOSAIC選擇的特征依賴于配對(duì)的腫瘤-正常樣本, 因此僅適用于有配對(duì)樣本的情況.

(3) MIRMMR[21]

與其他方法不同, MIRMMR的特征選擇主要依據(jù)MSI的發(fā)生機(jī)制. 使用了與DNA錯(cuò)配修復(fù)系統(tǒng)相關(guān)的35個(gè)基因的點(diǎn)突變率、甲基化水平以及CADD[22]得分作為備選特征, 基于LR算法構(gòu)造了分類器. 相比于MSIseq及MOSAIC, MIRMMR提供了更多的建模方法, 包括univariate、stepwise與penalized三種模式.其中univariate用于單變量的邏輯回歸建模, 可以用于比較各特征用于MSI判定的準(zhǔn)確性;stepwise模式用于自動(dòng)化的特征選擇, 從備選特征中, 選擇最優(yōu)的特征集訓(xùn)練模型;penalized模式在模型中增加了懲罰項(xiàng)用于防止過(guò)擬合. MIRMMR默認(rèn)使用了penalized模式基于676個(gè)樣本訓(xùn)練了模型. MIRMMR使用的特征不依賴于配對(duì)的腫瘤-正常樣本, 因此可適用于僅有腫瘤樣本的情況.

2.3 各方法的比較

針對(duì)上述提到的七種用于微衛(wèi)星不穩(wěn)定檢測(cè)的計(jì)算方法, 從適用范圍、MSI指標(biāo)、測(cè)試數(shù)據(jù)集以及軟件特性等方面進(jìn)行了比較, 具體如表5所示. 其中“—”表示無(wú)相關(guān)信息, WES (Whole Exome Sequencing)表示全外顯子組測(cè)序.

對(duì)于MSI的檢測(cè), 表5中每個(gè)方法的輸出既可以是連續(xù)的MSI指標(biāo)也可以是確定的分類. 其中基于一般統(tǒng)計(jì)模型的MSI檢測(cè)方法, 可以在連續(xù)的MSI指標(biāo)基礎(chǔ)上, 根據(jù)閾值對(duì)樣本分類;基于機(jī)器學(xué)習(xí)模型的MSI檢測(cè)方法, 可以預(yù)測(cè)類別也可以輸出類別的概率.

從軟件易用性的角度分析, MSIsensor和MANTIS由于可以直接對(duì)BAM文件進(jìn)行分析因此使用最為方便;而mSINGS在對(duì)樣本進(jìn)行分析之前, 需要足夠的MSS樣本建立參考值, 對(duì)樣本量有一定要求,給使用帶來(lái)了一定程度上的不便;基于機(jī)器學(xué)習(xí)模型的方法, 雖然可以直接使用模型進(jìn)行預(yù)測(cè), 硬件資源使用少, 速度快, 但是特征的提取依然是一個(gè)復(fù)雜低效的過(guò)程.

不論是基于一般統(tǒng)計(jì)模型的方法還是基于機(jī)器學(xué)習(xí)模型的方法, 要準(zhǔn)確地檢測(cè)MSI都離不開(kāi)數(shù)據(jù)的支持, 測(cè)試數(shù)據(jù)集的大小和包含的癌種都會(huì)在一定程度上影響分類的準(zhǔn)確性.

表5 基于計(jì)算的各方法比較

3 討論

隨著測(cè)序成本的下降和測(cè)序速度的提升, 計(jì)算方法相對(duì)于生物學(xué)實(shí)驗(yàn)方法的優(yōu)勢(shì)也越來(lái)越突出. 相比于計(jì)算方法, 通過(guò)生物學(xué)實(shí)驗(yàn)方法檢測(cè)MSI有以下幾個(gè)方面的不足. 首先, 需要耗費(fèi)一定的時(shí)間和人力;其次, 結(jié)果的準(zhǔn)確性依賴于分析人員的肉眼判斷;再者,微衛(wèi)星標(biāo)記和MMR蛋白都有其局限性. 對(duì)于微衛(wèi)星標(biāo)記, 實(shí)驗(yàn)中選擇的數(shù)量有限, 存在組織(腫瘤)特異性[23],無(wú)法準(zhǔn)確地在多種腫瘤中檢測(cè)MSI狀態(tài);對(duì)于MMR蛋白, 由于MMR可能不是引起MSI的唯一原因[24], 以及MMR自身的復(fù)雜性, 使用MMR蛋白的表達(dá)來(lái)間接判斷MSI狀態(tài)也存在局限性.

計(jì)算方法利用測(cè)序數(shù)據(jù), 從MSI的表現(xiàn)及產(chǎn)生機(jī)制的層面, 可以對(duì)樣本的MSI狀態(tài)作出全面的評(píng)估. 相比于生物學(xué)實(shí)驗(yàn)方法, 計(jì)算方法的眾多優(yōu)勢(shì)使其可能在未來(lái)用于微衛(wèi)星不穩(wěn)定的臨床檢測(cè). 在這個(gè)過(guò)程中,還需要考慮以下方面的問(wèn)題. 首先, 數(shù)據(jù)支持. 不論是基于一般統(tǒng)計(jì)模型的方法還是基于機(jī)器學(xué)習(xí)模型的方法, 要確定合適的閾值或提高分類器的準(zhǔn)確性都需要大量數(shù)據(jù)的支持. 其次, 軟件易用性. 軟件要易于安裝,其使用應(yīng)該在最大程度上實(shí)現(xiàn)自動(dòng)化同時(shí)運(yùn)行時(shí)間需要在可接受的范圍內(nèi).

MSKCC(Memorial Sloan Kettering Cancer Center)最近的一項(xiàng)研究[25]使用MSIsensor對(duì)12 288例實(shí)體癌病人的靶向測(cè)序數(shù)據(jù)進(jìn)行分析, 判定MSI狀態(tài), 并用MSI-PCR/MMR-IHC進(jìn)行了驗(yàn)證. 實(shí)驗(yàn)證明, 基于大規(guī)模靶向測(cè)序數(shù)據(jù), 通過(guò)MSIsensor預(yù)測(cè)病人的MSI狀態(tài)具有高的可信度. 對(duì)于MMR故障的樣本, 相比于當(dāng)前普遍使用的MSI-PCR方法,MSIsensor具有更高的敏感性. 根據(jù)2.3節(jié)的分析,MSIsensor使用C++語(yǔ)言開(kāi)發(fā), 安裝及使用十分便利,同時(shí)支持并行計(jì)算, 運(yùn)行速度快, 方便臨床應(yīng)用. 此項(xiàng)研究在一定程度上為該軟件工具的臨床應(yīng)用提供了支持.

猜你喜歡
微衛(wèi)星核苷酸等位基因
單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
綠鰭?cǎi)R面鲀?nèi)蚪M微衛(wèi)星分布特征
徐長(zhǎng)風(fēng):核苷酸類似物的副作用
基于轉(zhuǎn)錄組西施舌微衛(wèi)星標(biāo)記開(kāi)發(fā)及隱種鑒定
花斑無(wú)須鯰(Ageneiosus marmoratus)全基因組微衛(wèi)星分布特征研究
親子鑒定中男性個(gè)體Amelogenin基因座異常1例
基于轉(zhuǎn)錄組測(cè)序的大熊貓多態(tài)性微衛(wèi)星標(biāo)記篩選
Acknowledgment to reviewers—November 2018 to September 2019
用數(shù)學(xué)思維分析遺傳的基本規(guī)律
愛(ài)笑不愛(ài)笑,基因早知道
宁蒗| 永嘉县| 万宁市| 兴海县| 上栗县| 香港| 永城市| 山东| 十堰市| 阿瓦提县| 漳州市| 全南县| 确山县| 永仁县| 赞皇县| 东辽县| 三江| 香港| 环江| 祁连县| 永平县| 阳新县| 都昌县| 星座| 屯昌县| 明溪县| 侯马市| 潼南县| 涞源县| 广水市| 伊通| 内丘县| 岳阳县| 开阳县| 怀安县| 上杭县| 上蔡县| 光山县| 青阳县| 五寨县| 江城|