張換勤 劉洋 郭旭 邢金良 權志博
早期診斷對提高腫瘤患者預后,降低死亡率具有重要意義。然而,早期實體瘤體積往往較小、腫瘤細胞含量低、攜帶的腫瘤特異突變信息也較少,因此早期診斷依然面臨巨大挑戰(zhàn)[1]。癌癥細胞中存在的一些超低頻突變能導致腫瘤治療抵抗[2],也是復發(fā)的基礎[3]。由此可見,超低頻突變的準確檢測具有重要意義。液體活檢技術是通過檢驗血液、尿液、唾液、胸腔積液等體液中的生物標志物對疾病進行診斷。其中,液體活檢中最重要的檢測內容之一是攜帶腫瘤特異性突變信息的循環(huán)腫瘤DNA(circulating tumor DNA,ctDNA)[4]。然而,腫瘤患者血漿中可檢測到的ctDNA突變含量極少,難以檢測。有研究表明從Ⅰ期肺癌患者ctDNA中檢測到的突變頻率通常在千分之一以下,甚至達到十萬分之一的級別,給檢測帶來了巨大挑戰(zhàn)[5]。因此,超低頻突變檢測技術對ctDNA臨床轉化應用能否成功具有至關重要的作用。目前檢測基因組超低頻突變技術主要包括突變擴增系統(tǒng)(ARMS?PCR)、微滴式數(shù)字PCR(droplet digital PCR,ddPCR)和二代測序技術(next?generation sequencing,NGS)。ARMS?PCR成本低廉、操作簡單,但靈敏度略低、穩(wěn)定性欠佳。與ARMS?PCR相比,ddPCR具有較高的穩(wěn)定性、準確性和靈敏度。然而,ARMS?PCR與ddPCR的通量均較低,且只能檢測已知變異。NGS具有可同時檢測多個基因、多種類型的未知突變等優(yōu)勢。但NGS實驗環(huán)節(jié)較復雜,在樣本制備、文庫構建、上機測序及數(shù)據(jù)分析等過程中,諸多因素均可影響超低頻突變檢測的準確性[6]。本文就目前NGS檢測超低頻突變過程面臨的挑戰(zhàn)及解決策略作一綜述。
目前,福爾馬林固定石蠟包埋(formalinfixedparaffin embedded,F(xiàn)FPE)腫瘤組織是臨床研究中最常見的樣本類型之一[7]。然而,基于NGS對FFPE樣本進行精準超低頻突變檢測的可行性尚不確定[8]。在樣本制備時,采用福爾馬林固定會對樣品中的核酸產生極大影響,其中固定不足則導致核酸降解,而固定過度會導致蛋白質間更廣泛的交聯(lián),增加核酸提取難度。最重要的是,在福爾馬林固定組織過程中會使DNA發(fā)生以下?lián)p傷:⑴甲醛誘導DNA交聯(lián)。甲醛處理會使樣品中的生物分子產生廣泛的分子交聯(lián)和化合物,極大降低通過雜交、PCR和測序進行后期分子分析所獲得的突變信號[9]。⑵福爾馬林誘導的堿基損傷會降低PCR效率。此外,用于PCR的DNA聚合酶在損傷位點復制時,會產生假陽性突變。⑶FFPE樣本中的DNA經過福爾馬林處理并且長期保存后,容易發(fā)生嚴重的斷裂、單鏈化、無堿基位點、氧化損傷等,導致基因組不完整,影響基因突變檢測的準確性[10]。此外,手術室樣品處理過程中的冷缺血時間、樣本大小和脫鈣方法均會影響FFPE樣本后續(xù)的DNA分析。石蠟包埋切塊的儲存方法和截面厚度也會影響FFPE樣本中DNA的提取效率[11]。事實上,使用少量的DNA可能會進一步加劇上述困難的程度,因為假陽性突變會隨著起始DNA量的減少而增多[12]。這些假陽性突變不能與真正的超低頻突變區(qū)分,因此嚴重影響FFPE樣本中超低頻突變檢測的準確性。
針對FFPE樣本處理對測序產生的影響,目前有些處理方法可有效降低上述原因引起的假陽性突變,如Agilent公司的HaloPlex target enrichment system能夠特異性捕獲并分析每個目標片段的兩條鏈,從而減少DNA片段化引起的假陽性突變,進而提高突變檢測的靈敏度[13]。利用尿嘧啶?N?糖基化酶(UNG酶)可減少胞嘧啶脫氨引起的C>A/G>T假陽性突變[14]。此外,樣本應盡量在中性福爾馬林試劑中保存8~24 h,尺寸定為3 mm3,塊儲存時間少于1年,載玻片組織切片儲存時間少于1周[11]。也可進一步考慮使用水溶性雙功能催化劑(鄰氨基苯甲酸酯和磷酸酯)加速去除甲醛誘導的分子交聯(lián)和化合物[15]。
除FFPE樣本外,新鮮腫瘤組織目前也應用于臨床研究。而腫瘤異質性是腫瘤組織面臨的最大挑戰(zhàn)。腫瘤異質性是惡性腫瘤的特征之一,是指腫瘤在生長過程中,經過多次分裂增殖,其子細胞呈現(xiàn)出分子生物學或基因方面的改變,使腫瘤的生長速度、侵襲能力、對藥物的敏感性、預后等方面產生差異[16]。簡而言之,腫瘤異質性指腫瘤內既有致瘤細胞亞群,也有非致瘤細胞亞群。即腫瘤組織內的每個細胞中DNA是否發(fā)生突變以及發(fā)生突變的頻率均有差異,這給腫瘤組織中超低頻基因突變的檢測帶來巨大挑戰(zhàn)。單細胞測序可以避免腫瘤異質性對突變檢測的影響。從理論上講,對單個細胞進行測序可以消除混合測序固有的時間及空間偏倚,因為無論何時出現(xiàn)突變或某個被測序的細胞內所有遺傳突變均可被檢測[17]。
此外,液體活檢作為腫瘤非侵入性的早期診斷方法,具有廣闊的臨床應用前景,也為腫瘤異質性的監(jiān)測提供可能。在液體活檢研究中,循環(huán)腫瘤細胞(circulating tumor cell,CTC)及ctDNA應用最廣泛,但目前有關CTC突變檢測的研究較少。血漿ctDNA是腫瘤早期診斷及預后研究中最常見的檢測對象,但也面臨諸多挑戰(zhàn)。研究顯示血漿中的ctDNA高度片段化,其片段分布范圍為134~144 bp[18],且片段化程度可能隨著腫瘤大小的增加而增加[19]。DNA高度片段化還可能導致包含超低頻突變位點的ctDNA分子數(shù)量的減少,進而影響ctDNA超低頻突變檢測的準確性。此外,血漿中的ctDNA含量占比僅為0.01%~1.00%[20],半衰期也僅為 4~30 min[21],這一特征進一步影響了ctDNA檢測的準確性。有研究顯示,針對晚期癌癥患者,部分ctDNA突變頻率在0.5%以下,意味著只有測序深度達到4 000~5 000 X才可能有效檢測超低頻突變。針對血漿樣本,目前提高測序深度是準確檢測超低頻突變的首選。近年來,多種靶向深度測序方法已被用于分析ctDNA中特定的基因組區(qū)域,且高度敏感。例如通過設計特異性引物對目標區(qū)域進行靶向擴增的標記擴增子測序(tagged amplicon sequencing,TAm?Seq)、基于腫瘤基因突變數(shù)據(jù)庫篩選癌癥相關突變后進行靶向捕獲的癌癥個體化深度測序分析方法(cancer personalized profiling by deep sequencing,CAPP?Seq)以及通過對目標基因增加一個特定編碼序列后進行靶向擴增的安全測序系統(tǒng)(safe?sequencing system,Safe?SeqS)等。
CHEN等[22]研究發(fā)現(xiàn)大型公共數(shù)據(jù)庫中許多超低頻突變可能是由于DNA損傷引起的假陽性突變。測序文庫構建時,首先需要進行DNA片段化,其中超聲與酶切是常見的DNA片段化方式。然而,超聲打斷過程易發(fā)生氧化損傷,導致C>A/G>T假陽性突變[23]。而非平末端缺口、無堿基位點或因酶促機制變化產生的其他不完整性DNA片段更容易受到損傷[24],從而影響超低頻突變檢測的準確性。在文庫構建時,DNA片段的末端修復和A尾連接使用低保真聚合酶,PCR擴增步驟使用高保真聚合酶,但當DNA模板受損時,所有的聚合酶都更容易產生假陽性突變。PCR擴增步驟引入堿基錯配也是導致假陽性的一個重要環(huán)節(jié),PCR前幾輪循環(huán)產生的錯誤會隨擴增過程延長而呈指數(shù)增長趨勢[25]。此外,DNA擴增酶具有一定的擴增偏向性,尤其是針對GC含量差異大或存在二級結構的模板。
對于氧化損傷引起的假陽性突變,COSTELLO等[26]明確了超聲打斷過程致DNA氧化損傷的作用,并提出通過引入抗氧化劑來減少DNA氧化的方法。對于PCR過程中的錯誤,可以使用獨特分子條形碼(unique molecular identifiers,UMI)來糾正。UMI是一組隨機堿基排列的的寡核苷酸序列,通常用于高通量測序過程[27]。迄今為止,基于UMI開發(fā)了3種單鏈一致性測序策略:Safe?SeqS[28];單分子分子倒位探針(smMIPs)[29];UMI接頭[30]。其可將誤差降低 2~3個數(shù)量級,而且可以準確識別頻率為0.1%的超低頻突變,但仍然無法識別第一個PCR循環(huán)產生的錯誤。2012年,CABEL等開發(fā)了雙重測序(Duplex Seq)技術[31]。該法通過對DNA雙鏈的兩條鏈進行獨立標記和測序,這種方法將錯誤率降低至10-7~10-4或更低,而且能夠避免第一個PCR循環(huán)產生的錯誤。因此,這種方法檢測超低頻DNA突變以及單分子計數(shù)具有很高的靈敏度。AHN等[32]通過該方法對人類乳腺正常干細胞和非干細胞中的線粒體DNA突變進行綜合分析,發(fā)現(xiàn)絕大多數(shù)突變頻率小于0.5%,且常規(guī)NGS無法檢測到,表明這些線粒體DNA突變可能有助于表征人類乳腺正常上皮細胞,并可以作為癌癥干細胞突變譜的參考。目前,市場上已發(fā)布PCR?free建庫試劑盒,例如華大平臺Hieff NGS?OnePot II DNA Library Prep Kit,該試劑盒可以有效避免聚合酶造成的擴增偏向性,同時可以避免PCR擴增錯誤的產生及累計。
NGS可進行多個樣本混合測序,在測序芯片的同一泳道內通常有數(shù)百甚至數(shù)千個文庫,即使測序前的樣本制備合格,文庫構建沒有問題,測序過程中也可能發(fā)生樣本之間的交叉污染,即樣本1的測序數(shù)據(jù)中混入樣本2的基因組序列信息[33]。研究顯示,即使是同一個物種內的適量污染(2%~5%),也會增加基因突變檢測的錯誤率[34]。此外,最近研究表明,使用排他性擴增(ExAmp)生成簇的Illumina測序儀(包括HiSeq 3000、HiSeq 4000、HiSeq X系列和Novaseq)更容易發(fā)生樣本標簽錯配(index misassignment)問題,且Illumina描述這種現(xiàn)象為“標簽跳躍”(index hop?ping),即測序過程中樣本1的index和樣本2模板相連接、樣本2的index和樣本1模板相連接,而這可能會產生高達10%的交叉污染[35]。在測序過程中,酶活性下降以及信號分析誤差的累積也會導致測序周期越長,測序質量越低[36]??偟膩碚f,NGS存在較高的測序錯誤率(0.1%~1.0%),對于高頻的遺傳性突變檢測,該錯誤率可以接受,但是癌癥中頻率小于1%的超低頻體細胞突變,該測序方法存在諸多局限。
針對樣本間交叉污染的問題,可以在文庫構建過程中的待測模板一端加上一段已知堿基信息的短序列用于標記不同樣本,通常把這段已知序列稱為index或barcode,但是單端index容易引起“標簽跳躍”[33],因此雙index技術(待測模板兩端均加index或barcode)能更好地解決樣本之間交叉污染的問題[37]。此外,ZHANG等[38]基于已知群體常見變異位點的等位基因頻率開發(fā)了一種算法來估算DNA污染情況。
測序數(shù)據(jù)的質量控制和預處理對在下游數(shù)據(jù)分析中獲得高準確性的突變信息至關重要,尤其是超低頻突變。在數(shù)據(jù)分析前,通常使用數(shù)據(jù)過濾和修剪程序去除低質量的測序接頭序列和堿基。不適宜的過濾和修剪程序必然影響數(shù)據(jù)的產出,進而影響超低頻突變檢測的靈敏度。測序質量也極大影響后續(xù)突變分析,因此指控閾值也很重要。堿基質量值是衡量測序質量的重要指標,質量值(Q)越高代表堿基被測錯的概率(P)越小,例如質量值Q30,則錯誤識別的概率是0.1%,即錯誤率0.1%,或者正確率是99.9%。一般要求下機測序數(shù)據(jù)的Q30至少達到85%。此外,有研究表明修剪程序對提高血漿中超低頻突變檢測準確性至關重要,但對新鮮腫瘤組織與FFPE組織樣本有效性并不理想[39]。
數(shù)據(jù)分析過程中另一個必不可少的步驟是序列比對,即在序列文件中查找與目標基因最匹配的片段,并通過比對識別基因突變和測序錯誤。在序列比對中,錯配堿基數(shù)是至關重要的參數(shù),錯配堿基數(shù)過少會導致遺漏真正的突變,相反錯配堿基數(shù)過多則會導致假陽性突變數(shù)量增多。一項針對線粒體DNA突變識別方法的研究顯示,當將錯配堿基數(shù)設置為3時,突變識別準確性最高[39]。為減少假陽性突變,目前已開發(fā)了多種突變過濾策略[23]。例如,刪除測序文庫制備過程中的人工鳥嘌呤氧化所產生的較低頻率C>A/G>T 突變[40];刪除突變頻率和突變堿基質量不符合二項式檢驗的假陽性突變位點,有研究顯示這些突變是由測序錯誤引起[41?42]。不同比對算法對超低頻突變檢測的準確性及敏感性均會產生影響[43]。目前BWA(Burrows?Wheeler Aligner)軟件常被應用于NGS數(shù)據(jù)比對,其主要功能是將差異度較小的序列比對到一個較大的參考基因組上。其中提供了3種算法:⑴WA?backtrack,僅應用于測序reads長度不超過100 bp的數(shù)據(jù);⑵BWA?SW,支持序列長度70 bp~1 Mbp的測序數(shù)據(jù),同時支持剪接性比對;⑶BWA?MEM是支持序列長度70 bp~1 Mbp的算法,也最常用、最新、最準確[44]。
測序技術自面世至今,短短幾十年內發(fā)生了許多技術革新。目前,高通量測序技術已日趨成熟并取得了很大成就,但也仍存在諸多挑戰(zhàn),如即存在許多與癌癥相關的基因突變,也存在許多未知意義突變,即目前并沒有獲得完整的腫瘤相關基因組突變信息。此外,盡管使用UMI方法可以提高超低頻突變檢測的準確性,但是利用來自UMI的生物信息學分析方法目前尚未標準化。因此,未來仍需進一步探索,提高檢測技術,才能進一步加強對超低頻突變的認識,并將超低頻突變檢測更廣泛地應用于臨床實踐中。