江蘇省醫(yī)學(xué)會(huì)病理學(xué)分會(huì),江蘇省醫(yī)學(xué)會(huì)檢驗(yàn)學(xué)分會(huì),江蘇省臨床檢驗(yàn)中心
目前二代測(cè)序(next-generation sequencing,NGS)技術(shù)已廣泛應(yīng)用于腫瘤精準(zhǔn)醫(yī)療領(lǐng)域。生物信息學(xué)分析是NGS檢測(cè)過(guò)程中至關(guān)重要的環(huán)節(jié),它能將臨床樣本經(jīng)過(guò)實(shí)驗(yàn)處理及測(cè)序后產(chǎn)生的大量序列數(shù)據(jù)破解為可靠的變異信息,幫助臨床全方位找尋致病根源,為疾病的篩查、診斷以及治療策略的制定提供重要依據(jù)。生物信息學(xué)分析流程主要通過(guò)計(jì)算機(jī)編程語(yǔ)言將不同的生物信息學(xué)分析軟件及數(shù)據(jù)庫(kù)按流程封裝的方式實(shí)現(xiàn)自動(dòng)化的標(biāo)準(zhǔn)輸入和輸出,然后通過(guò)高性能服務(wù)器完成從原始測(cè)序數(shù)據(jù)到變異結(jié)果的檢測(cè)與注釋;整個(gè)過(guò)程包括數(shù)據(jù)清洗、數(shù)據(jù)比對(duì)、比對(duì)后數(shù)據(jù)預(yù)處理、變異識(shí)別、變異過(guò)濾和變異結(jié)果報(bào)告,以及必要的質(zhì)量控制點(diǎn)對(duì)全過(guò)程進(jìn)行監(jiān)測(cè)從而保證分析結(jié)果的準(zhǔn)確可靠。傳統(tǒng)分子檢測(cè)技術(shù)如常規(guī)PCR等,通常是對(duì)已知或有限信息的確認(rèn),而基于生物信息學(xué)分析的測(cè)序技術(shù)則更多的是對(duì)未知結(jié)果的探尋和發(fā)現(xiàn),因此如何選擇軟件及其參數(shù)以及數(shù)據(jù)庫(kù)信息進(jìn)行多種變異的檢出和注釋,如何規(guī)范生物信息學(xué)分析流程的性能驗(yàn)證,如何建立NGS數(shù)據(jù)分析的質(zhì)量控制體系以保證檢測(cè)結(jié)果的準(zhǔn)確性等,都是目前NGS實(shí)驗(yàn)室面臨的巨大挑戰(zhàn)。為此,江蘇省醫(yī)學(xué)會(huì)病理學(xué)分會(huì)、江蘇省醫(yī)學(xué)會(huì)檢驗(yàn)學(xué)分會(huì)和江蘇省臨床檢驗(yàn)中心組織省內(nèi)病理學(xué)及分子生物學(xué)領(lǐng)域的相關(guān)專(zhuān)家共同制定本共識(shí),對(duì)人員要求、測(cè)序數(shù)據(jù)要求、生物信息學(xué)分析平臺(tái)的基本要求、生物信息學(xué)數(shù)據(jù)庫(kù)以及生物信息學(xué)分析的基本流程及其性能驗(yàn)證和質(zhì)量控制等方面提出規(guī)范化管理的要求。本共識(shí)以腫瘤實(shí)體瘤體細(xì)胞突變NGS生物信息學(xué)分析為主線,覆蓋胚系突變和血液系統(tǒng)腫瘤方面的關(guān)鍵要素。
共識(shí)1:腫瘤NGS生物信息學(xué)分析人員可來(lái)自生物信息學(xué)、計(jì)算機(jī)科學(xué)、基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)等多個(gè)專(zhuān)業(yè),應(yīng)掌握生物信息學(xué)專(zhuān)業(yè)知識(shí)、數(shù)據(jù)分析常用工具和編程語(yǔ)言,能夠建立、有效運(yùn)行和評(píng)估優(yōu)化生物信息學(xué)分析流程,具備數(shù)據(jù)分析、處理及質(zhì)量評(píng)估的能力,并定期參加臨床實(shí)驗(yàn)室基本知識(shí)培訓(xùn)和考核,包括實(shí)驗(yàn)原理和操作流程、實(shí)驗(yàn)室安全、醫(yī)學(xué)倫理、人類(lèi)遺傳資源管理和信息安全等內(nèi)容,通過(guò)相應(yīng)的崗位能力評(píng)估及授權(quán)后方可上崗。
目前主流的二代測(cè)序儀按其原理和來(lái)源主要分為3類(lèi):基于可逆末端終止法和邊合成邊測(cè)序技術(shù)的Illumina測(cè)序儀、基于半導(dǎo)體測(cè)序技術(shù)的Ion Torrent測(cè)序儀和基于聯(lián)合探針錨定聚合技術(shù)的MGI測(cè)序儀。實(shí)驗(yàn)室應(yīng)優(yōu)選經(jīng)過(guò)中國(guó)國(guó)家藥品監(jiān)督管理局(National Medical Products Administration, NMPA)注冊(cè)、用途寬廣、性能穩(wěn)定、操作簡(jiǎn)便的二代測(cè)序儀,同時(shí)考慮儀器的性能指標(biāo)、技術(shù)參數(shù)、臨床用途、運(yùn)行成本等是否能夠滿(mǎn)足實(shí)驗(yàn)室目前的臨床實(shí)際應(yīng)用和未來(lái)發(fā)展需求[1]。
2.1下機(jī)數(shù)據(jù)的質(zhì)量控制 測(cè)序儀原始的下機(jī)數(shù)據(jù)稱(chēng)為原始數(shù)據(jù)(raw data),在對(duì)原始數(shù)據(jù)分析之前需要進(jìn)行質(zhì)量控制。主要流程為通過(guò)測(cè)序儀配套的質(zhì)控軟件設(shè)置相應(yīng)的質(zhì)控指標(biāo)對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,質(zhì)控合格后才能進(jìn)入生物信息學(xué)分析流程;否則,應(yīng)查找原因并及時(shí)糾正,必要時(shí)重新進(jìn)行濕實(shí)驗(yàn)。
共識(shí)2:實(shí)驗(yàn)室應(yīng)明確所用測(cè)序儀的原始下機(jī)數(shù)據(jù)的質(zhì)控指標(biāo)。核心質(zhì)控指標(biāo)為測(cè)序下機(jī)數(shù)據(jù)量和原始測(cè)序數(shù)據(jù)Q30,還可包括其他指標(biāo)如簇密度和簇通過(guò)率等。質(zhì)控合格標(biāo)準(zhǔn)應(yīng)在檢測(cè)方法建立時(shí)確定,至少滿(mǎn)足測(cè)序儀說(shuō)明書(shū)最低要求,其中測(cè)序下機(jī)數(shù)據(jù)量和Q30作為變異檢測(cè)的重要指標(biāo),通常要求有效下機(jī)數(shù)據(jù)比例不低于80%、Q30不低于80%。
2.2數(shù)據(jù)拆分 數(shù)據(jù)拆分是利用樣本標(biāo)簽信息(barcode/index)將測(cè)序儀原始下機(jī)數(shù)據(jù)拆分為單個(gè)樣本下機(jī)數(shù)據(jù)的過(guò)程。數(shù)據(jù)拆分軟件應(yīng)與測(cè)序平臺(tái)相互匹配,可設(shè)置測(cè)序儀自動(dòng)拆分或測(cè)序完成后生物信息學(xué)分析流程的拆分。數(shù)據(jù)拆分的關(guān)鍵參數(shù)是最大允許的標(biāo)簽堿基錯(cuò)配個(gè)數(shù),該閾值應(yīng)小于所有標(biāo)簽間的最小漢明距離?;旌蠝y(cè)序時(shí)建議使用雙端唯一標(biāo)簽標(biāo)記,避免因標(biāo)簽跳躍造成樣本間的交叉污染。
共識(shí)3:實(shí)驗(yàn)室應(yīng)根據(jù)實(shí)驗(yàn)方案設(shè)計(jì),確定樣本與標(biāo)簽序列的對(duì)應(yīng)關(guān)系以及允許的標(biāo)簽堿基錯(cuò)配個(gè)數(shù),以保證數(shù)據(jù)拆分的準(zhǔn)確性。通常情況下,標(biāo)簽堿基錯(cuò)配個(gè)數(shù)應(yīng)設(shè)置為0或1。
3.1計(jì)算機(jī)與服務(wù)器的搭建 NGS數(shù)據(jù)分析需要配備高性能處理速度的計(jì)算機(jī)服務(wù)器,其核心組件包括處理器、內(nèi)存、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)部件。實(shí)驗(yàn)室應(yīng)根據(jù)樣本規(guī)模、樣本周轉(zhuǎn)時(shí)間、不同檢測(cè)產(chǎn)品的數(shù)據(jù)量大小、測(cè)序儀通量以及生物信息學(xué)分析流程所需計(jì)算資源等進(jìn)行服務(wù)器配置,同時(shí)還需考慮未來(lái)需求增加的可能,定期升級(jí)維護(hù)以確保數(shù)據(jù)分析的穩(wěn)定性。
3.2操作系統(tǒng)與分析軟件 NGS生物信息學(xué)分析軟件及其運(yùn)行環(huán)境主要基于Linux操作系統(tǒng),常用的分析軟件主要包括數(shù)據(jù)質(zhì)控軟件、序列比對(duì)軟件、SAM/BAM文件處理軟件、變異識(shí)別和注釋軟件等。在生物信息學(xué)分析軟件及數(shù)據(jù)分析流程應(yīng)用于臨床檢測(cè)前應(yīng)對(duì)其進(jìn)行性能評(píng)估,驗(yàn)證分析結(jié)果能否達(dá)到預(yù)期目的。
3.3數(shù)據(jù)的存儲(chǔ)與安全
共識(shí)4:實(shí)驗(yàn)室應(yīng)建立NGS全流程的數(shù)據(jù)存儲(chǔ)管理規(guī)范,包括文件類(lèi)型、存儲(chǔ)格式、存儲(chǔ)時(shí)限、存儲(chǔ)位置和環(huán)境、存儲(chǔ)清理和轉(zhuǎn)存、備份周期等,確保數(shù)據(jù)信息的便捷使用、安全管理與可追溯性。數(shù)據(jù)的安全管理應(yīng)嚴(yán)格遵循《中華人民共和國(guó)人類(lèi)遺傳資源管理?xiàng)l例》和GB/T 39725—2020《信息安全技術(shù)健康醫(yī)療數(shù)據(jù)安全指南》,確保數(shù)據(jù)的訪問(wèn)、傳輸、使用和公開(kāi)等過(guò)程處于有效保護(hù)和合法利用的狀態(tài)。
NGS相關(guān)的生物信息學(xué)數(shù)據(jù)庫(kù)可根據(jù)生物信息學(xué)分析流程分為序列比對(duì)數(shù)據(jù)庫(kù)、突變過(guò)濾數(shù)據(jù)庫(kù)、突變注釋與解讀數(shù)據(jù)庫(kù)等,或者根據(jù)數(shù)據(jù)庫(kù)功能分為群體數(shù)據(jù)庫(kù)、疾病相關(guān)數(shù)據(jù)庫(kù)、臨床試驗(yàn)數(shù)據(jù)庫(kù)、藥物數(shù)據(jù)庫(kù)等(表1)[2]。實(shí)驗(yàn)室應(yīng)根據(jù)臨床實(shí)際應(yīng)用的需求和檢索目的,綜合NGS各流程所需要的數(shù)據(jù)信息,選擇使用合適的公共數(shù)據(jù)庫(kù)或自建數(shù)據(jù)庫(kù),并對(duì)運(yùn)行中的數(shù)據(jù)庫(kù)進(jìn)行評(píng)估和驗(yàn)證。建議數(shù)據(jù)庫(kù)保持至少半年更新一次,保存更新記錄以及驗(yàn)證過(guò)程與結(jié)果的記錄。
表1 腫瘤NGS常用生物信息學(xué)數(shù)據(jù)庫(kù)
共識(shí)5:實(shí)驗(yàn)室應(yīng)建立、優(yōu)化、評(píng)估生物信息學(xué)分析流程并文件化(圖1)。整個(gè)流程需要以全自動(dòng)化的方式進(jìn)行搭建,完成從拆分測(cè)序數(shù)據(jù)到各個(gè)模塊自動(dòng)分析、質(zhì)控、樣本異常監(jiān)控、結(jié)果流轉(zhuǎn)的過(guò)程,且每個(gè)數(shù)據(jù)分析模塊均應(yīng)有對(duì)應(yīng)的質(zhì)控監(jiān)測(cè)方法及標(biāo)準(zhǔn)的輸入和輸出文件,應(yīng)通過(guò)性能驗(yàn)證確認(rèn)預(yù)先設(shè)定好的每個(gè)分析參數(shù)及相關(guān)質(zhì)控閾值。
注:Q30,堿基質(zhì)量值(pherd quality score,Q)大于30的比例;SNV,單核苷酸變異(single nucleotide variation);Indel,短片段插入或缺失;CNV,拷貝數(shù)變異(copy number variation);Fusion/Rearrangement,融合/重排;MSI,微衛(wèi)星不穩(wěn)定(microsatellite instability)。圖1 腫瘤NGS生物信息學(xué)分析的基本流程(虛線框內(nèi))
5.1數(shù)據(jù)清洗
共識(shí)6:經(jīng)過(guò)數(shù)據(jù)拆分后,不同測(cè)序平臺(tái)的數(shù)據(jù)均統(tǒng)一為fastq格式,堿基質(zhì)量值的含義互通,質(zhì)控指標(biāo)可共用。為了確保進(jìn)入生物信息學(xué)分析的數(shù)據(jù)的質(zhì)量,應(yīng)對(duì)拆分后的數(shù)據(jù)進(jìn)行清洗,去除接頭序列、低質(zhì)量序列、低復(fù)雜度序列、過(guò)短序列等,清洗后得到的數(shù)據(jù)通過(guò)質(zhì)控后才能進(jìn)入后續(xù)分析。
常用的NGS數(shù)據(jù)清洗軟件有fastp、AdapterRemoval、Trimmomatic和Cutadapt等[3]。不同的數(shù)據(jù)清洗步驟及軟件可能會(huì)對(duì)后續(xù)的數(shù)據(jù)分析結(jié)果產(chǎn)生不同的影響,因此,在進(jìn)行數(shù)據(jù)清洗時(shí),應(yīng)根據(jù)具體實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)質(zhì)量要求進(jìn)行調(diào)整和優(yōu)化,以確保最終分析結(jié)果的準(zhǔn)確性。
5.2數(shù)據(jù)比對(duì)及比對(duì)后數(shù)據(jù)預(yù)處理
共識(shí)7:根據(jù)樣本類(lèi)型(DNA/RNA)使用符合行業(yè)標(biāo)準(zhǔn)推薦的軟件及其參數(shù)進(jìn)行數(shù)據(jù)比對(duì)。參考基因組推薦采用1000G(phase 2)使用的人類(lèi)參考基因組序列hs37d5。比對(duì)率作為評(píng)估樣本比對(duì)效果的重要指標(biāo)應(yīng)納入質(zhì)控。
常用DNA比對(duì)軟件包括BWA、Sentieon和Bowtie2等,RNA比對(duì)軟件包括STAR、Tophat等[3]。軟件參數(shù)的選擇可參考開(kāi)源社區(qū)、文獻(xiàn)專(zhuān)利中公認(rèn)或主要使用的方法。在進(jìn)行數(shù)據(jù)比對(duì)時(shí),需根據(jù)分析目的對(duì)比對(duì)工具和參數(shù)設(shè)置進(jìn)行調(diào)整并進(jìn)行多次比較和優(yōu)化,以保證下游分析結(jié)果的準(zhǔn)確性[4]。
共識(shí)8:預(yù)處理方式應(yīng)根據(jù)測(cè)序文庫(kù)制備的方法以及比對(duì)和變異識(shí)別適用的軟件來(lái)確定,通常包括PCR重復(fù)產(chǎn)物的過(guò)濾、復(fù)雜區(qū)域重比對(duì)、堿基質(zhì)量值矯正等。預(yù)處理生成的數(shù)據(jù)通過(guò)質(zhì)控后才能進(jìn)入后續(xù)分析。實(shí)驗(yàn)室對(duì)于已經(jīng)生成報(bào)告的樣本,其比對(duì)結(jié)果應(yīng)采用BAM文件格式存儲(chǔ)至少2年。
常用的BAM文件排序、去重工具包括Picard、sambamba和SAMtools等,復(fù)雜區(qū)域重比對(duì)和堿基質(zhì)量值矯正通常可采用GATK軟件的IndelRealigner和BQSR模塊實(shí)現(xiàn)[3-4]。使用特異性分子標(biāo)簽(unique molecular index,UMI)標(biāo)記DNA片段,在比對(duì)后進(jìn)行PCR去重分析,可有效排除DNA單鏈損傷、PCR擴(kuò)增錯(cuò)誤、測(cè)序錯(cuò)誤等環(huán)節(jié)引入的假突變;通過(guò)UMI去重可獲得原始DNA分子的一致序列,常用公共軟件包括Fgbio、Gencore和smCounter2等[5]。復(fù)雜區(qū)域重比對(duì),可減少基因組復(fù)雜區(qū)域比對(duì)的偏差,保證Indel檢出的準(zhǔn)確性。此外,測(cè)序儀報(bào)告的堿基質(zhì)量值會(huì)因測(cè)序系統(tǒng)誤差表現(xiàn)不精確,從而影響變異檢測(cè)的可信度,實(shí)驗(yàn)室應(yīng)結(jié)合所使用的變異檢測(cè)軟件及所檢測(cè)的變異類(lèi)型進(jìn)行堿基質(zhì)量值矯正[1]。
5.3變異識(shí)別 生物信息檢出變異指的是與參考基因組序列不同的位點(diǎn),包括單核苷酸變異(SNV)、短片段插入或缺失(Indel)、拷貝數(shù)變異(CNV)、融合/重排(Fusion/Rearrangement)、微衛(wèi)星不穩(wěn)定(MSI)等。不同的變異類(lèi)型需使用不同的軟件相互配合才能準(zhǔn)確地識(shí)別出所有變異。同時(shí),實(shí)驗(yàn)室應(yīng)基于NGS檢測(cè)系統(tǒng)的性能驗(yàn)證結(jié)果,確定各種變異類(lèi)型檢測(cè)對(duì)樣本質(zhì)量(如腫瘤細(xì)胞占比、樣本均一性等)的最低要求。
5.3.1SNV、Indel檢出
共識(shí)9:SNV、Indel的檢出與軟件算法以及參數(shù)設(shè)置有關(guān),對(duì)變異檢出有影響的參數(shù)均應(yīng)納入性能驗(yàn)證范圍。
由于外周血cfDNA(circulating free DNA)的濃度低,通常需要提高樣本的測(cè)序深度來(lái)獲得更高靈敏度。通過(guò)UMI分子標(biāo)簽、對(duì)照樣本和健康人群基線可以減少實(shí)驗(yàn)噪音對(duì)低頻突變位點(diǎn)的影響。此外,還需要識(shí)別來(lái)源于克隆性造血的突變,可采用高深度的對(duì)照樣本對(duì)其進(jìn)行判定。
5.3.2CNV檢出
共識(shí)10:CNV檢測(cè)的結(jié)果應(yīng)與熒光原位雜交(fluorescence in situ hybridization, FISH)結(jié)果進(jìn)行一致性比較,并以GCN(基因拷貝數(shù))的方式進(jìn)行報(bào)告。
CNV分析軟件包括CNVkit、DECoN、CONTRA、CNVnator和XHMM等[7]。CNV通過(guò)評(píng)估腫瘤樣本相對(duì)于對(duì)照樣本或基線樣本的深度變化計(jì)算獲得[8],可以CNV(擴(kuò)增倍數(shù))、CN(拷貝數(shù))或GCN(基因拷貝數(shù))三種方式報(bào)告檢測(cè)結(jié)果。腫瘤占比或樣本均一性不合格的樣本不建議做CNV檢測(cè);如果評(píng)估腫瘤樣本占比存在不足,且臨床難以再獲取滿(mǎn)意樣本(二次活檢或腫瘤脫落細(xì)胞)時(shí),實(shí)驗(yàn)室可在知情同意后通過(guò)生物信息算法模擬評(píng)估檢測(cè)樣本中腫瘤占比,輔助CNV的檢測(cè)。
5.3.3Fusion/Rearrangement檢出
共識(shí)11:Fusion/Rearrangement的檢測(cè)準(zhǔn)確性與基因結(jié)構(gòu)的復(fù)雜性有關(guān),對(duì)于基因斷裂點(diǎn)處于低復(fù)雜度或者重復(fù)區(qū)域的融合需要進(jìn)行嚴(yán)格的過(guò)濾及IGV(integrative genomics viewer,交互式基因組瀏覽器)審核。RNA融合檢測(cè)需要區(qū)分選擇性剪切的不同形式以及低表達(dá)基因的融合。DNA融合檢測(cè)與RNA融合檢測(cè)具有各自的局限性,實(shí)驗(yàn)室可采用DNA+RNA組合檢測(cè)方式互相彌補(bǔ)不足以提高檢測(cè)準(zhǔn)確性。
常用的DNA結(jié)構(gòu)變異(structural variation, SV)分析軟件包括Lumpy、CREST和Delly等[9],RNA融合分析軟件包括STAR-fusion、Arriba、Fumap和FusionCatcher等[10-12]。
(2)能源礦產(chǎn)與黑色金屬礦產(chǎn)從業(yè)人員居多。2017年河北省持證礦山企業(yè)能源礦產(chǎn)從業(yè)人員較多,為11.71萬(wàn)人,占礦山企業(yè)從業(yè)人員總數(shù)的62.26%,其中煤礦10.75萬(wàn)人,占能源礦產(chǎn)從業(yè)人員總量的91.80%;其次是黑色金屬礦產(chǎn)從業(yè)人員4.35萬(wàn)人,占礦山企業(yè)從業(yè)人員總量的23.13%。其中鐵礦企業(yè)從業(yè)人員4.34萬(wàn)人,占黑色金屬礦產(chǎn)從業(yè)人員總數(shù)的99.97%。
5.3.4MSI檢出
共識(shí)12:MSI可以使用配對(duì)樣本或人群基線進(jìn)行分析;對(duì)于使用基線的MSI分析,閾值需要根據(jù)不同的測(cè)序平臺(tái)進(jìn)行驗(yàn)證。MSI的探針設(shè)計(jì)應(yīng)采取雙端設(shè)計(jì)。生物信息學(xué)分析產(chǎn)生的MSI結(jié)果應(yīng)采用多重?zé)晒釶CR毛細(xì)管電泳法和/或免疫組織化學(xué)(immunohistochemistry,IHC)法進(jìn)行驗(yàn)證。
常用的MSI分析軟件包括MSIsensor、mSINGs和MANTIS等[13]。如無(wú)對(duì)照樣本同步分析,則需基于微衛(wèi)星穩(wěn)定(Microsatellite stable,MSS)的樣本構(gòu)建參考基線,通過(guò)評(píng)估腫瘤樣本與基線的差異位點(diǎn)來(lái)計(jì)算MSI?;€會(huì)受到所用測(cè)序平臺(tái)以及實(shí)驗(yàn)批次的影響,因此基線和閾值均需基于實(shí)驗(yàn)室已確認(rèn)的檢測(cè)系統(tǒng)及其實(shí)驗(yàn)流程進(jìn)行驗(yàn)證。不同類(lèi)型的MSI位點(diǎn)和數(shù)量會(huì)直接影響MSI檢測(cè)的性能,可在全基因組范圍內(nèi)篩選足夠數(shù)目且具有明確分類(lèi)效果的MSI位點(diǎn)。
5.4變異過(guò)濾 由于實(shí)驗(yàn)與測(cè)序過(guò)程以及軟件算法中可能存在的系統(tǒng)誤差,通過(guò)生物信息學(xué)分析初步識(shí)別出的變異通常會(huì)包含一些假陽(yáng)性位點(diǎn),因此在變異識(shí)別后需要對(duì)其進(jìn)行進(jìn)一步的過(guò)濾,除去假陽(yáng)性,提高檢測(cè)準(zhǔn)確度。實(shí)驗(yàn)室應(yīng)基于內(nèi)部建立的且經(jīng)性能驗(yàn)證確認(rèn)的相應(yīng)質(zhì)控標(biāo)準(zhǔn)進(jìn)行變異過(guò)濾。
5.5變異的注釋
5.5.1變異命名的標(biāo)準(zhǔn)化 在完成變異識(shí)別和過(guò)濾后,需對(duì)所識(shí)別出的SNV、Indel位點(diǎn)進(jìn)行HGVS(Human Genome Variation Society,人類(lèi)基因組變異協(xié)會(huì))格式轉(zhuǎn)換。實(shí)驗(yàn)室需在指定基因組注釋體系下進(jìn)行轉(zhuǎn)換以得到cHGVS以及pHGVS信息。建議從LRG、RefSeq以及HGNC數(shù)據(jù)庫(kù)中獲得參考轉(zhuǎn)錄本的編號(hào),同一個(gè)突變注釋到多個(gè)轉(zhuǎn)錄本時(shí)應(yīng)優(yōu)先選擇經(jīng)典轉(zhuǎn)錄本;否則,建議選擇非經(jīng)典轉(zhuǎn)錄本上的影響等級(jí)最高或文獻(xiàn)使用最頻繁的轉(zhuǎn)錄本[14]。
5.5.2變異基因功能的注釋 針對(duì)腫瘤體細(xì)胞變異,實(shí)驗(yàn)室應(yīng)先進(jìn)行變異注釋,再對(duì)變異進(jìn)行致癌性評(píng)級(jí),最終明確變異的臨床意義(如療效預(yù)測(cè)或預(yù)后判斷等)[15];對(duì)于胚系變異,應(yīng)先按照ACMG遺傳變異分類(lèi)標(biāo)準(zhǔn)或單個(gè)基因(如TP53、CDH1等)胚系變異分類(lèi)標(biāo)準(zhǔn)進(jìn)行致病性評(píng)級(jí),再明確變異的臨床意義。常見(jiàn)的人群、基因功能、癌癥和藥物相關(guān)數(shù)據(jù)庫(kù)注釋見(jiàn)表1。
5.6生物信息分析軟件版本控制
共識(shí)13:實(shí)驗(yàn)室應(yīng)建立完善的生物信息分析軟件版本控制方案,確保始終使用現(xiàn)行有效的版本進(jìn)行結(jié)果分析;當(dāng)版本更新時(shí)應(yīng)重新進(jìn)行性能驗(yàn)證,同時(shí)應(yīng)保存所有與生物信息分析軟件版本的使用、更新和驗(yàn)證有關(guān)的記錄。
生物信息分析軟件發(fā)生變更時(shí),包括參數(shù)調(diào)整或版本升級(jí)等,應(yīng)建立測(cè)試數(shù)據(jù)集并使用變更前和變更后的版本分別進(jìn)行測(cè)試,檢查運(yùn)行結(jié)果是否存在差異以及差異是否符合預(yù)期要求,任何可能影響到準(zhǔn)確性的更新都應(yīng)完成生物信息學(xué)分析流程的測(cè)試及驗(yàn)證。
生物信息學(xué)分析流程的性能驗(yàn)證指的是實(shí)驗(yàn)室在完成“濕實(shí)驗(yàn)”性能驗(yàn)證后,利用內(nèi)部建立的生物信息學(xué)分析流程對(duì)已知變異的樣本數(shù)據(jù)進(jìn)行分析,驗(yàn)證在已建立的質(zhì)量控制標(biāo)準(zhǔn)下的分析結(jié)果是否能滿(mǎn)足預(yù)期性能指標(biāo)的要求(如正確度、精密度和檢測(cè)限等)[1,14];如未能滿(mǎn)足,則需要查找原因,進(jìn)一步優(yōu)化分析流程,再次進(jìn)行驗(yàn)證,直到滿(mǎn)足為止;其最終目的是確保檢測(cè)范圍內(nèi)所有變異能夠準(zhǔn)確檢出。
6.1性能驗(yàn)證指標(biāo)
共識(shí)14:性能驗(yàn)證指標(biāo)應(yīng)包括但不限于正確度、精密度(重復(fù)性和重現(xiàn)性)、分析敏感性(檢測(cè)限)、分析特異性(干擾)、臨床敏感性(基因區(qū)域和變異檢測(cè)范圍)、臨床特異性(交叉反應(yīng))等內(nèi)容,經(jīng)分析和驗(yàn)證后應(yīng)確保該生物信息學(xué)分析流程所有使用軟件分析得到的結(jié)果能滿(mǎn)足相應(yīng)臨床檢測(cè)的預(yù)期用途,并確定所有變異類(lèi)型和影響臨床診療決策的重要基因的分析參數(shù)及檢測(cè)范圍。
6.2性能驗(yàn)證樣本 性能驗(yàn)證樣本可使用已知變異的臨床樣本測(cè)序數(shù)據(jù)、參考品測(cè)序數(shù)據(jù)和模擬數(shù)據(jù),三類(lèi)數(shù)據(jù)樣本各有優(yōu)缺點(diǎn),可互為補(bǔ)充[1]。
臨床樣本的樣本類(lèi)型應(yīng)與常規(guī)檢測(cè)樣本一致,且應(yīng)盡量包含所有預(yù)期可檢測(cè)到的變異類(lèi)型及頻率,所有變異的陰陽(yáng)性狀態(tài)均需已知且準(zhǔn)確。參考品的樣本類(lèi)型宜盡量模擬臨床樣本真實(shí)情況;實(shí)驗(yàn)室可按照特定的突變類(lèi)型、突變頻率、突變數(shù)目進(jìn)行陽(yáng)性參考品、陰性參考品、不同組織類(lèi)型以及不同實(shí)驗(yàn)參數(shù)的樣本配置,原則上是能夠全面地對(duì)生物信息學(xué)分析流程的各方面進(jìn)行準(zhǔn)確的性能驗(yàn)證。模擬數(shù)據(jù)包括從頭模擬和測(cè)序數(shù)據(jù)編輯兩種方法,后者更適合生物信息學(xué)分析流程的性能驗(yàn)證。模擬軟件包括BAMSurgeon[16]、Mutationmaker[17]和VarBen[18],其中VarBen包含突變類(lèi)型最多,包括SNV、Indel、Complex Indel、CNV和SV等。模擬數(shù)據(jù)的驗(yàn)證可進(jìn)行閾值的調(diào)整以及多個(gè)算法模型的優(yōu)化和選擇,通過(guò)不同比例的陽(yáng)性樣本進(jìn)行ROC曲線以及F1值[19]綜合評(píng)估,選擇最佳參數(shù)閾值。模擬數(shù)據(jù)可以幫助軟件實(shí)現(xiàn)功能驗(yàn)證,但因其難以復(fù)現(xiàn)真實(shí)樣本分析中的隨機(jī)誤差和系統(tǒng)誤差,無(wú)法完全取代臨床樣本/參考品的真實(shí)測(cè)序結(jié)果。
7.1分析流程的質(zhì)量控制
共識(shí)15:實(shí)驗(yàn)室應(yīng)針對(duì)生物信息學(xué)分析各環(huán)節(jié)設(shè)置相應(yīng)質(zhì)量指標(biāo)進(jìn)行質(zhì)控,對(duì)于“失控”的異常數(shù)據(jù)或結(jié)果應(yīng)查找原因并建立明確的異常處理方案。
在建立生物信息學(xué)分析流程的過(guò)程中,應(yīng)針對(duì)每個(gè)環(huán)節(jié)設(shè)定必要的質(zhì)量指標(biāo)及其控制標(biāo)準(zhǔn)(圖1和表2)。目前對(duì)于不同檢測(cè)產(chǎn)品或測(cè)序分析系統(tǒng)尚無(wú)統(tǒng)一化標(biāo)準(zhǔn),實(shí)驗(yàn)室應(yīng)基于檢測(cè)方法的特點(diǎn)及臨床預(yù)期用途針對(duì)這些質(zhì)量指標(biāo)建立自己的控制范圍或閾值并開(kāi)展定期評(píng)估。各環(huán)節(jié)的質(zhì)量指標(biāo)包括:(1)數(shù)據(jù)清洗:測(cè)序數(shù)據(jù)量、Clean reads Q30、有效序列占比、有效序列長(zhǎng)度、接頭污染率、GC含量和堿基平衡;(2)數(shù)據(jù)比對(duì)及比對(duì)后數(shù)據(jù)預(yù)處理:比對(duì)率、中靶率、重復(fù)率、插入片段長(zhǎng)度、有效測(cè)序深度、覆蓋均一性、樣本污染率和樣本損傷;(3)變異過(guò)濾:SNV和Indel(位點(diǎn)有效深度、支持變異reads數(shù)、突變堿基質(zhì)量Q30、突變等位基因頻率、堿基比對(duì)質(zhì)量值、鏈偏好性、DNA損傷和氧化損傷等);CNV(樣本覆蓋均一性和樣本質(zhì)量等);融合/重排[位點(diǎn)深度、SR(split reads,即覆蓋了融合斷裂點(diǎn)的reads)支持reads數(shù)目、堿基比對(duì)質(zhì)量值等];MSI(MSI合格的位點(diǎn)數(shù)、MSI不穩(wěn)定的位點(diǎn)數(shù)和MSI不穩(wěn)定的得分等)。其中最重要質(zhì)量指標(biāo)為Clean reads Q30、比對(duì)率、有效測(cè)序深度和覆蓋均一性[1,14]。各指標(biāo)的閾值設(shè)置應(yīng)通過(guò)性能驗(yàn)證進(jìn)行確認(rèn)。
表2 腫瘤NGS生物信息學(xué)分析流程中涉及的質(zhì)量指標(biāo)及控制標(biāo)準(zhǔn)
7.2樣本污染質(zhì)控 樣本污染包括非人源的外源物種污染和實(shí)驗(yàn)室樣本交叉污染。通過(guò)計(jì)算不同物種對(duì)于樣本的污染比例,防止非人源物種、病毒和細(xì)菌等外源物種污染。對(duì)于實(shí)驗(yàn)室樣本交叉污染,可通過(guò)比較配對(duì)樣本胚系位點(diǎn)的基因頻率偏移來(lái)計(jì)算污染比例,常用的腫瘤樣本污染分析軟件有GATK ContEst、VerifyBamID和Conpair等[20]。對(duì)于樣本污染比例超過(guò)實(shí)驗(yàn)室設(shè)置標(biāo)準(zhǔn)的樣本,建議重新實(shí)驗(yàn)或重新采樣。
7.3配對(duì)樣本胚系及性別質(zhì)控 配對(duì)樣本胚系及性別質(zhì)控用于判斷已建流程所分析的數(shù)據(jù)是否與送檢樣本保持一致。胚系一致性主要采用對(duì)照樣本與腫瘤樣本胚系位點(diǎn)的一致性進(jìn)行判定,性別預(yù)測(cè)則一般采用性染色體上STR(short tandem repeats,短串聯(lián)重復(fù))區(qū)域測(cè)序覆蓋度的差異進(jìn)行判定。對(duì)于胚系不合格的樣本需要進(jìn)行臨床病理核查,比如患者近期是否存在輸血、異基因造血干細(xì)胞移植、器官移植等可能產(chǎn)生胚系不一致的因素,如果不是可以解釋的原因,則需要重新實(shí)驗(yàn)或者重新采樣。
7.4結(jié)果質(zhì)控
共識(shí)16:生物信息學(xué)分析流程應(yīng)具備標(biāo)準(zhǔn)的輸入和輸出,其中輸出的結(jié)果文件至少應(yīng)包含樣本的唯一性標(biāo)識(shí)以及突變的基本信息。生物信息分析結(jié)果的比較需要在相同的實(shí)驗(yàn)、相同的流程或者檢測(cè)限下才具有可比性。在臨床上不能僅依賴(lài)生物信息的變異檢出作為最終的結(jié)果,尤其是結(jié)果處于質(zhì)量指標(biāo)的灰區(qū)范圍時(shí),應(yīng)采取其他方式或方法學(xué)進(jìn)行驗(yàn)證。
各種變異類(lèi)型在輸出結(jié)果時(shí)至少應(yīng)包含的信息:(1)SNV、Indel:染色體、物理位置、參考序列堿基、突變堿基、突變頻率、支持突變的Reads數(shù)、基因名、轉(zhuǎn)錄本號(hào)和基因區(qū)間,以及其他的功能性注釋以及人群數(shù)據(jù)庫(kù)注釋。陽(yáng)性判斷閾值可結(jié)合突變頻率和支持突變的reads數(shù)目進(jìn)行判定,對(duì)于血液腫瘤微小殘留病(MRD)監(jiān)測(cè)樣本的變異,還需要結(jié)合初診的變異信息來(lái)進(jìn)行判定;(2)CNV:染色體、起始物理位置、染色體臂、基因名、log2比值、基因拷貝數(shù)。在腫瘤占比以及樣本均一性合格的情況下,可通過(guò)基因拷貝數(shù)或腫瘤細(xì)胞的拷貝數(shù)劃定基因擴(kuò)增/缺失的閾值,對(duì)于染色體倍增產(chǎn)生的CNV需進(jìn)行區(qū)分和標(biāo)記;(3)Fusion/Rearrangement:基因名、轉(zhuǎn)錄本號(hào)、外顯子號(hào)、斷裂點(diǎn)位置、斷裂點(diǎn)有效深度、SR支持reads數(shù)目、DP(discordant paired-end reads,即非一致成對(duì)讀序,成對(duì)的reads分別比對(duì)到融合的5′伴侶基因和3′伴侶基因)支持reads數(shù)目和突變頻率。對(duì)于RNA融合基因檢測(cè),需要在管家基因表達(dá)合格的前提下進(jìn)行陽(yáng)性閾值的判定和計(jì)算融合的相對(duì)表達(dá)量,通常以突變頻率以及SR支持reads數(shù)劃定陽(yáng)性判斷閾值;(4)MSI:MSI位點(diǎn)合格數(shù)、MSI不穩(wěn)定的位點(diǎn)數(shù)量、MSI得分(MSI score)和MSI狀態(tài)(MSI-H或者M(jìn)SS)。在樣本質(zhì)控合格的情況下,可通過(guò)MSI得分進(jìn)行MSI狀態(tài)的閾值判定,否則,則不能進(jìn)行該位點(diǎn)MSI的判定。
執(zhí)筆:陳劼、楊軍、朱衛(wèi)東、丁穎、解珺丹、張騰騰
整合和審修:趙建華、何軍、章宜芬
倡議和終審:許斌
參與本共識(shí)修訂的人員及單位(按姓氏漢語(yǔ)拼音順序排列):常志力(南京世和基因生物技術(shù)股份有限公司)、陳劼(江蘇省中醫(yī)院)、楚玉星(蘇州吉因加生物醫(yī)學(xué)工程有限公司)、鄧望龍(江蘇先聲診斷醫(yī)學(xué)有限公司)、丁穎(江蘇省人民醫(yī)院)、郭凌川(蘇州大學(xué)附屬第一醫(yī)院)、何軍(蘇州大學(xué)附屬第一醫(yī)院)、孔令印(蘇州貝康醫(yī)療股份有限公司)、解珺丹(蘇州大學(xué)附屬第一醫(yī)院)、劉雅紅(江蘇省臨床檢驗(yàn)中心)、饒秋(中國(guó)人民解放軍東部戰(zhàn)區(qū)總醫(yī)院)、汪俊軍(中國(guó)人民解放軍東部戰(zhàn)區(qū)總醫(yī)院)、夏艷(臻和精準(zhǔn)醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室無(wú)錫有限公司)、楊軍(南京鼓樓醫(yī)院)、章宜芬(江蘇省中醫(yī)院)、張騰騰(蘇州大學(xué)附屬第一醫(yī)院)、趙建華(江蘇省臨床檢驗(yàn)中心)、朱衛(wèi)東(蘇州大學(xué)附屬第一醫(yī)院)。