国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細(xì)胞內(nèi)大片段DNA數(shù)據(jù)存儲(chǔ)的多RS碼交織編碼

2021-07-21 09:30:56陳為剛葛奇王盼盼韓明哲郭健
合成生物學(xué) 2021年3期
關(guān)鍵詞:堿基染色體測(cè)序

陳為剛,葛奇,王盼盼,韓明哲,郭健

(1天津大學(xué)微電子學(xué)院,天津300072;2教育部合成生物學(xué)前沿科學(xué)中心,天津大學(xué),天津300072;3天津大學(xué)化工學(xué)院,天津300072)

人工合成脫氧核糖核酸(DNA)作為一種有潛力的數(shù)據(jù)存儲(chǔ)介質(zhì),存儲(chǔ)密度高,可用時(shí)間久,保存能耗低,有望成為未來(lái)海量離線數(shù)據(jù)存儲(chǔ)的重要選擇之一[1-7]。美國(guó)半導(dǎo)體工業(yè)協(xié)會(huì)(SIA)與半導(dǎo)體研究公司(SRC)在2021年1月發(fā)布《半導(dǎo)體十年計(jì)劃》,將DNA數(shù)據(jù)存儲(chǔ)列為與硬盤(pán)、固態(tài)硬盤(pán)、磁帶并列的大量數(shù)據(jù)的主要存儲(chǔ)方式之一,成為未來(lái)全球存儲(chǔ)產(chǎn)業(yè)競(jìng)爭(zhēng)的重要方向[8]。DNA數(shù)據(jù)存儲(chǔ)的模式主要包括:短片段寡核苷酸池(Oligo pool)存儲(chǔ)[9-18]、細(xì)胞內(nèi)DNA存儲(chǔ)[19-26]等。短片段的寡核苷酸池存儲(chǔ),借助DNA的高通量芯片合成與測(cè)序技術(shù)[18],發(fā)展迅速,但是在大規(guī)模均衡擴(kuò)增、復(fù)制成本方面仍存在很大挑戰(zhàn)[12]。細(xì)胞內(nèi)DNA數(shù)據(jù)存儲(chǔ),尤其是細(xì)胞內(nèi)大片段DNA存儲(chǔ),借助體內(nèi)組裝方法實(shí)現(xiàn)短DNA片段組裝成長(zhǎng)片段,借助體內(nèi)復(fù)制實(shí)現(xiàn)高效擴(kuò)增,復(fù)制成本低,在大規(guī)模數(shù)據(jù)分發(fā)等場(chǎng)景或有潛在應(yīng)用價(jià)值。近年來(lái),合成生物學(xué)發(fā)展迅速,尤其酵母基因組的人工合成與基于酵母的同源組裝取得了很大進(jìn)展[27-37]。在此基礎(chǔ)上,前期我們?cè)O(shè)計(jì)組裝了一條約254 kb的酵母人工染色體,存儲(chǔ)了37.8 KB圖片與視頻數(shù)據(jù),除了能可靠復(fù)制,未見(jiàn)其他明顯生物功能,綜合考慮信息編碼、合成組裝、復(fù)制穩(wěn)定性、采用三代納米孔測(cè)序儀讀出等問(wèn)題,實(shí)現(xiàn)了細(xì)胞內(nèi)的外源數(shù)字信息寫(xiě)入,并基于三代納米孔測(cè)序器件實(shí)現(xiàn)了快速便攜讀出[19]。目前長(zhǎng)基因組的合成與組裝難度大、成本高,借助細(xì)胞增殖的復(fù)制成本低,納米孔測(cè)序可實(shí)現(xiàn)便攜式快速讀出。綜合以上幾個(gè)特點(diǎn),大片段DNA存儲(chǔ)非常類似只讀光盤(pán)(CD)的早期發(fā)展階段,該種存儲(chǔ)模式稱為“酵母光盤(pán)”或“DNA光盤(pán)”模式。本文針對(duì)DNA數(shù)據(jù)存儲(chǔ)的“光盤(pán)”模式設(shè)計(jì)編碼與數(shù)據(jù)恢復(fù)方法,并結(jié)合實(shí)測(cè)數(shù)據(jù)開(kāi)展仿真研究。

在數(shù)據(jù)存儲(chǔ)領(lǐng)域,糾錯(cuò)編碼是保證數(shù)據(jù)可靠性的重要手段。根據(jù)香農(nóng)信息論的信道容量與信道編碼的基本理論,糾錯(cuò)碼需要與寫(xiě)入/讀出的錯(cuò)誤特點(diǎn)匹配,才能實(shí)現(xiàn)可靠與高效的數(shù)據(jù)存儲(chǔ)[38-39]。目前,數(shù)字通信領(lǐng)域的幾種重要糾錯(cuò)碼已經(jīng)在體外DNA數(shù)據(jù)存儲(chǔ)中進(jìn)行了嘗試。例如,數(shù)字噴泉碼用于糾正寡核苷酸分子丟失造成的刪除錯(cuò)誤[10],里德-所羅門(mén)(RS)碼糾正堿基刪除與隨機(jī)錯(cuò)誤[12-13],低密度奇偶校驗(yàn)(LDPC)碼與RS碼構(gòu)成的乘積碼糾正刪除與隨機(jī)錯(cuò)誤[15]等。而體內(nèi)大片段DNA存儲(chǔ)的編碼方法,采用LDPC碼與偽隨機(jī)序列構(gòu)成的水印碼,針對(duì)三代納米孔測(cè)序的高錯(cuò)誤率,重點(diǎn)考慮難以處理的堿基插入/刪節(jié)錯(cuò)誤[19]。該方法的編碼效率較低,為1.19 bit/bp,距離4堿基{A,T,G,C}表示信息的理論極限密度2 bit/bp仍有較大差距。細(xì)胞內(nèi)的數(shù)據(jù)存儲(chǔ)框架,與針對(duì)細(xì)菌等微生物的基因組從頭(de novo)進(jìn)行測(cè)序組裝非常類似,需要測(cè)序讀段從頭組裝的過(guò)程,需要考慮組裝后重疊群(contig)的特點(diǎn),進(jìn)一步得到完整的數(shù)據(jù)。因此,為適配二代高通量測(cè)序的高精度、組裝的重疊群可能存在缺失片段的特點(diǎn),同時(shí)提高堿基承載有效數(shù)據(jù)的效率,研究便于擴(kuò)展的信息編碼方法,對(duì)降低寫(xiě)入成本、開(kāi)展大片段DNA數(shù)據(jù)存儲(chǔ)具有重要價(jià)值。

基于上述考慮,針對(duì)細(xì)胞內(nèi)大片段DNA數(shù)據(jù)存儲(chǔ),為實(shí)現(xiàn)信息編碼方法適配于測(cè)序、讀段組裝的錯(cuò)誤特點(diǎn),設(shè)計(jì)了基于多個(gè)高碼率里德-所羅門(mén)(RS)碼的符號(hào)交織編碼方法;提出數(shù)據(jù)DNA與自主復(fù)制序列(autonomously replicating sequence,ARS)交替鑲嵌,構(gòu)建大片段DNA數(shù)據(jù)存儲(chǔ)一般結(jié)構(gòu)的方法。讀取端匹配于二代高通量測(cè)序特點(diǎn),設(shè)計(jì)了基于不同參數(shù)(k-mer)組裝多個(gè)重疊群、根據(jù)ARS定位重疊群位置實(shí)現(xiàn)數(shù)據(jù)段合并、使用高碼率RS碼的糾刪糾錯(cuò)算法糾正殘留錯(cuò)誤的處理流程。研究方法上,為了給從頭合成與測(cè)序“濕”實(shí)驗(yàn)提供靈活的實(shí)驗(yàn)前驗(yàn)證與評(píng)估,建立了基于計(jì)算機(jī)的仿真流程,搭建了擴(kuò)增與測(cè)序模型,利用前期的254 kb存儲(chǔ)專用人工染色體的真實(shí)測(cè)序數(shù)據(jù)[19]進(jìn)行校準(zhǔn),對(duì)編碼方案、恢復(fù)方法進(jìn)行了仿真驗(yàn)證。仿真實(shí)驗(yàn)證實(shí),在保證端到端可靠寫(xiě)入與讀出的前提下,本方法實(shí)現(xiàn)的大片段DNA的數(shù)據(jù)部分邏輯密度為1.973 bit/bp,即使考慮生物功能單元開(kāi)銷,堿基總體邏輯密度仍高達(dá)1.947 bit/bp,高于目前基于寡核苷酸池的存儲(chǔ)方法(目前報(bào)道的最高密度為1.57 bit/nt[10]),非常接近2 bit/bp,充分說(shuō)明了大片段DNA存儲(chǔ)的優(yōu)勢(shì)。

1 大片段DNA數(shù)據(jù)存儲(chǔ)的編碼方法

大片段DNA數(shù)據(jù)存儲(chǔ)的邏輯結(jié)構(gòu)設(shè)計(jì),不同于基于寡核苷酸池(oligo pool)的數(shù)據(jù)存儲(chǔ),索引與引物(或類似單元,例如酵母人工染色體中的骨架)所占的比例相對(duì)較低,在堿基利用率上具有一定優(yōu)勢(shì)[11,19]。數(shù)據(jù)讀取階段,需要先對(duì)測(cè)序讀段進(jìn)行從頭(de novo)組裝,類似新物種的基因組從頭(de novo)測(cè)序。然后,利用糾錯(cuò)碼對(duì)殘留的錯(cuò)誤進(jìn)行糾正,得到完全無(wú)錯(cuò)的數(shù)據(jù)DNA序列,該過(guò)程與傳統(tǒng)基因組測(cè)序不同。因此,設(shè)計(jì)大片段DNA數(shù)據(jù)存儲(chǔ)的糾錯(cuò)編碼方案,需要與測(cè)序讀段組裝后的錯(cuò)誤特點(diǎn)相匹配。同時(shí),與生物研究中的基因組組裝要求不同,根據(jù)數(shù)據(jù)存儲(chǔ)與讀取的特點(diǎn),面向數(shù)據(jù)存儲(chǔ)的讀段組裝以及后續(xù)處理,需要算法有較低復(fù)雜度,能在接近實(shí)時(shí)的情況下實(shí)現(xiàn)數(shù)據(jù)可靠讀出,而基因組的從頭組裝一般對(duì)處理時(shí)間的要求并不苛刻。

考慮上述特點(diǎn),提出基于多個(gè)RS碼交織編碼得到數(shù)據(jù)DNA單元,進(jìn)一步與ARS序列交替鑲嵌,構(gòu)建體內(nèi)數(shù)據(jù)存儲(chǔ)人工染色體,形成高效率的大片段DNA數(shù)據(jù)存儲(chǔ)基本結(jié)構(gòu)。針對(duì)大片段DNA的二代高通量測(cè)序數(shù)據(jù),結(jié)合現(xiàn)有的讀段組裝軟件實(shí)現(xiàn)重疊群快速組裝,利用ARS序列定位重疊群、RS碼糾錯(cuò)糾刪譯碼,實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù),其工作流程如圖1(a)所示。本文的大片段DNA設(shè)計(jì)方法包括以下幾個(gè)要素:高碼率的RS碼,交替嵌入的ARS序列以及尺度可變的組合方法。實(shí)際流程中,將數(shù)據(jù)寫(xiě)入大片段DNA,也即DNA的合成組裝過(guò)程,需要借助酵母實(shí)現(xiàn);數(shù)據(jù)的復(fù)制也是借助酵母自身繁殖的過(guò)程;核酸提取與建庫(kù)等是酵母研究中基本操作。進(jìn)一步,將酵母人工染色體引入大腸桿菌進(jìn)行富集或直接對(duì)酵母進(jìn)行操作,提取核酸、建庫(kù),得到測(cè)序數(shù)據(jù)。前期工作中,我們使用長(zhǎng)度為254 886 bp的人工染色體初步證明該方法的可行性,但在更大的長(zhǎng)度,實(shí)現(xiàn)人工染色體的分離具有難度,也非常具有研究?jī)r(jià)值,本文不對(duì)該問(wèn)題進(jìn)行研究。從大片段DNA的合成組裝到二代測(cè)序輸出,依據(jù)信息論的研究范式,一般稱其為“信道”,本文采用仿真的方法描述該“信道”[圖1(a)]。該仿真的“信道”是經(jīng)過(guò)前期254 kb存儲(chǔ)專用人工DNA序列的測(cè)序數(shù)據(jù)訓(xùn)練校準(zhǔn)的,更接近真實(shí)實(shí)驗(yàn),這是本文研究的特色之一。

圖1 面向大片段DNA數(shù)據(jù)存儲(chǔ)的高碼率RS碼編碼方法Fig.1 Encoding scheme using a very high code rate RScodes for data storage with large DNA

1.1 多個(gè)極高碼率的RS碼符號(hào)交織的編碼方法

提出的設(shè)計(jì)方案中糾錯(cuò)碼采用RS碼。設(shè)計(jì)方案與大片段DNA數(shù)據(jù)存儲(chǔ)流程中的錯(cuò)誤類型能實(shí)現(xiàn)較好匹配。RS碼是一種高效、可同時(shí)糾正刪除(erasure,或稱為“擦除”)與隨機(jī)錯(cuò)誤的多進(jìn)制循環(huán)碼,可獲得理論上最大的最小距離(minimum distance),稱為最小距離最大可分(MDS)碼;同時(shí),高碼率的RS碼,冗余符號(hào)所占比例較低,編譯碼復(fù)雜度較低,可支撐數(shù)據(jù)存儲(chǔ)的快速譯碼讀出[39-40]。正是由于這些特點(diǎn),經(jīng)過(guò)優(yōu)化處理的RS碼在硬盤(pán)、光盤(pán)、固態(tài)硬盤(pán)以及分布式存儲(chǔ)等領(lǐng)域都獲得了廣泛應(yīng)用[41-47]。借鑒RS碼的成功經(jīng)驗(yàn),本文針對(duì)二代高通量測(cè)序錯(cuò)誤率低、能高效組裝成重疊群的特點(diǎn),設(shè)計(jì)了極高碼率(R=0.987)的多個(gè)RS碼的交織編碼方法,并基于此方法構(gòu)建DNA數(shù)據(jù)存儲(chǔ)單元。

數(shù)量不等的DNA數(shù)據(jù)單元與不同的ARS和載體結(jié)合,構(gòu)造了可變長(zhǎng)度的大片段DNA數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。不同的ARS組成了可選的ARS序列集合[48],根據(jù)目前的相關(guān)研究結(jié)果,ARS的數(shù)量較多,能滿足本文的設(shè)計(jì)方案。ARS序列集合在本文的設(shè)計(jì)中有兩個(gè)作用:一是與流程中的“濕”操作有關(guān),面向?qū)懭雮?cè)的實(shí)際體內(nèi)組裝與擴(kuò)增,支持大片段DNA在酵母體內(nèi)的可靠組裝、復(fù)制[19,35-37];二是流程中的信息處理,在數(shù)據(jù)讀取時(shí),作為組裝的重疊群的標(biāo)志(類似“路標(biāo)”),確定組裝的重疊群在整個(gè)人工染色體大片段DNA中的位置,便于實(shí)現(xiàn)數(shù)據(jù)恢復(fù)。

編碼流程如圖1(b)所示,具體包括以下步驟:

步驟1:數(shù)據(jù)擾碼。也即將數(shù)據(jù)與已知的偽隨機(jī)序列疊加[7]。由于數(shù)據(jù)可能存在長(zhǎng)的連續(xù)的“0”或者“1”,采用擾碼能減少連續(xù)比特的數(shù)量,從而減少后續(xù)長(zhǎng)連續(xù)堿基的數(shù)量,降低測(cè)序與合成的難度,減少難以處理的堿基的插入與刪節(jié)(insertion/deletion)錯(cuò)誤[2,10,12]。

步驟2:RS碼編碼。選擇的RS碼為定義在有限域GF(212)上的RS碼(4095,4040,t=27),其碼長(zhǎng)為4095個(gè)符號(hào),信息位部分的長(zhǎng)度為4040個(gè)符號(hào),可以糾正55個(gè)符號(hào)刪除或27個(gè)符號(hào)錯(cuò)誤,碼率為0.987。每個(gè)符號(hào)包含12 bit,一個(gè)RS碼的碼字包含的比特?cái)?shù)量為49 140 bit。該RS碼所定義的有限域?yàn)镚F(212),階數(shù)較高,但是僅包含55個(gè)冗余符號(hào),碼率非常高,考慮到RS碼的編譯碼復(fù)雜度與冗余符號(hào)的數(shù)量直接相關(guān),采用該參數(shù)的RS碼具有可行的編譯碼實(shí)現(xiàn)復(fù)雜度,復(fù)雜度遠(yuǎn)低于文獻(xiàn)中采用的冗余符號(hào)數(shù)量高達(dá)65 536×15%、定義在GF(216)的RS碼[12,39]。

步驟3:多RS碼符號(hào)交織。根據(jù)選擇的RS碼字的數(shù)量P,將其按照列的方式進(jìn)行排序,然后將其分解為若干組P×P的單元,對(duì)每一個(gè)單元分別按照?qǐng)D1(b)所示的對(duì)角循環(huán)的方式進(jìn)行交織,得到P個(gè)數(shù)據(jù)分組。每個(gè)數(shù)據(jù)分組包含P個(gè)RS碼符號(hào),從而實(shí)現(xiàn)了符號(hào)交織,每個(gè)分組的大小為4095個(gè)符號(hào)。在圖1(b)中,僅用5個(gè)碼字的交織為例展示原理[17,39]。在本文的仿真案例中P=100。

步驟4:將RS碼碼字轉(zhuǎn)化為比特分組。每個(gè)數(shù)據(jù)段對(duì)應(yīng)的4095個(gè)符號(hào),轉(zhuǎn)化為49 140 bit,為一個(gè)基本分組。

步驟5:比特分組轉(zhuǎn)碼為DNA數(shù)據(jù)序列。按照相鄰兩個(gè)比特轉(zhuǎn)化為1個(gè)堿基,來(lái)自一個(gè)GF(212)上的一個(gè)符號(hào)轉(zhuǎn)化得到的12 bit,映射為相鄰的6個(gè)堿基。采用該種轉(zhuǎn)化,有利于RS碼發(fā)揮其糾正突發(fā)刪除能力強(qiáng)的優(yōu)勢(shì)。一個(gè)RS碼碼字轉(zhuǎn)化為24 570 bp的DNA數(shù)據(jù)序列。

步驟6:DNA數(shù)據(jù)序列與ARS、載體等組合,構(gòu)成完整的大的環(huán)狀DNA。選擇長(zhǎng)度較短的P-1個(gè)ARS序列,然后按照交替組合的方式,進(jìn)一步添加載體骨架序列,得到一個(gè)環(huán)形染色體序列,作為大片段數(shù)據(jù)存儲(chǔ)的基本單元。

1.2 細(xì)胞內(nèi)數(shù)據(jù)存儲(chǔ)的大片段DNA的通用編碼設(shè)計(jì)

在我們以前的工作中,初步驗(yàn)證了酵母人工染色體用于數(shù)據(jù)存儲(chǔ)的可行性與穩(wěn)定性。在本文提出長(zhǎng)片段DNA數(shù)據(jù)存儲(chǔ)的一般框架:選擇P個(gè)DNA數(shù)據(jù)段與自主復(fù)制序列(ARS)交替鑲嵌組合,進(jìn)一步添加載體,構(gòu)成一種酵母內(nèi)數(shù)據(jù)存儲(chǔ)通用大片段DNA結(jié)構(gòu)。該方法靈活選擇編碼DNA數(shù)據(jù)單元與ARS的數(shù)量,也可在一定范圍內(nèi)改變數(shù)據(jù)單元大小、數(shù)據(jù)單元承載有效數(shù)據(jù)量的大小(也即改變RS碼的碼率),構(gòu)成一個(gè)規(guī)模與效率都可變的長(zhǎng)DNA數(shù)據(jù)存儲(chǔ)統(tǒng)一框架。設(shè)計(jì)中,編碼DNA數(shù)據(jù)單元可能出現(xiàn)ARS序列相似度非常高的情況,但是出現(xiàn)概率較低。選用的100組ARS序列的最小長(zhǎng)度為57 bp,則理論上數(shù)據(jù)DNA部分出現(xiàn)該序列的概率非常低,約為1/457,因此在數(shù)據(jù)處理中無(wú)需對(duì)該問(wèn)題進(jìn)行處理。其余ARS序列的長(zhǎng)度均高于57 bp,出現(xiàn)的概率會(huì)更低。

第一個(gè)可變參數(shù)為人工環(huán)形染色體包含的數(shù)據(jù)單元數(shù)量P,在確定每個(gè)數(shù)據(jù)單元的大小后,可以根據(jù)數(shù)據(jù)量以及大片段DNA的合成組裝策略靈活選擇單元數(shù)量。第二個(gè)可變參數(shù)為RS碼的信息符號(hào)數(shù)量,為進(jìn)一步提高恢復(fù)的可靠性,可以減少每個(gè)RS碼包含的信息符號(hào)的數(shù)量,提高RS碼的糾錯(cuò)能力。還可以將組裝使用的測(cè)序數(shù)據(jù)覆蓋度為約束,確定錯(cuò)誤率,以此來(lái)調(diào)整RS碼的參數(shù)。進(jìn)一步,本設(shè)計(jì)結(jié)構(gòu)的各個(gè)要素,例如編碼方法、ARS單元等均具有可擴(kuò)展性。例如,也可以采用其他的糾錯(cuò)編碼方法構(gòu)建數(shù)據(jù)單元,從而匹配采用不同寫(xiě)入或讀取模式的需要。利用糾正插入與缺失錯(cuò)誤的編碼方案,設(shè)計(jì)了與本文方法類似的結(jié)構(gòu),用于三代納米孔測(cè)序場(chǎng)景[19];可根據(jù)宿主菌的情況,靈活設(shè)計(jì)復(fù)制起始位點(diǎn)(origin of replication,酵母中為ARS)集合、載體序列,從而構(gòu)建適合不同宿主菌的編碼方案。

作為一個(gè)例子,本文中我們采用了定義在有限域GF(212)上的RS碼(4095,4040,t=27)的構(gòu)建的編碼方法,可以滿足設(shè)計(jì)長(zhǎng)度為幾十萬(wàn)到幾百萬(wàn)堿基的人工染色體(圖2)。具體展示了三個(gè)設(shè)計(jì)實(shí)例:第一是2 489 847 bp的長(zhǎng)序列的方案,存儲(chǔ)了一張照片和一份中文文本;第二是兩條1.25 Mb的長(zhǎng)序列的設(shè)計(jì),分別存儲(chǔ)了一張照片以及用于填充的文本文件;第三是10條大約250 kb的長(zhǎng)序列的設(shè)計(jì),該長(zhǎng)度與我們之前的實(shí)驗(yàn)驗(yàn)證研究相似,相關(guān)結(jié)論可以借用。根據(jù)數(shù)據(jù)單元的組裝結(jié)構(gòu),可得到該編碼方法的編碼效率與邏輯密度。本方法采用的RS碼碼率為R=4040/4095。數(shù)據(jù)部分邏輯密度為2 bit/bp×4040/4095=1.973 bit/bp。在第一種方案中,考慮鑲嵌的ARS序列以及載體序列,總體邏輯密度為1.947 bit/bp。在其他兩種方案中,由于載體所占比例增加,總體邏輯密度略有下降,見(jiàn)表1。上述邏輯密度均高于目前文獻(xiàn)中四堿基編碼的邏輯密度。本文提供的編碼方法與數(shù)據(jù)恢復(fù)方法,可在該邏輯密度下實(shí)現(xiàn)可靠數(shù)據(jù)讀取,非常接近4個(gè)堿基存儲(chǔ)數(shù)據(jù)的理論邏輯密度,也即2 bit/bp。

表1 不同編碼方法的堿基邏輯密度比較Tab.1 Base logical density using different encoding schemes

圖2 不同數(shù)量數(shù)據(jù)段組合構(gòu)建不同長(zhǎng)度的大片段DNAFig.2 Building of variant-length large DNA integrating different number of data blocks

2 數(shù)據(jù)恢復(fù)策略:ARS導(dǎo)引的重疊群合并與RS碼糾錯(cuò)糾刪方法

針對(duì)提出的大片段DNA數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),設(shè)計(jì)了面向二代高通量測(cè)序的數(shù)據(jù)恢復(fù)方法。大片段DNA數(shù)據(jù)存儲(chǔ)的讀取,與新物種的基因組測(cè)序、從頭組裝非常類似,目標(biāo)均是得到“完美”的、沒(méi)有任何堿基錯(cuò)誤的基因組。新物種的基因組從頭測(cè)序,對(duì)實(shí)時(shí)性要求低,可對(duì)參數(shù)反復(fù)調(diào)整以得到最優(yōu)結(jié)果[49-55]。大片段DNA數(shù)據(jù)存儲(chǔ)的讀出,對(duì)算法實(shí)時(shí)性要求高,傳統(tǒng)的生物信息學(xué)處理流程并不適用。針對(duì)這一特點(diǎn),數(shù)據(jù)恢復(fù)時(shí),無(wú)需在讀段組裝步驟獲得“完美”序列,利用糾錯(cuò)碼糾正組裝后的殘留錯(cuò)誤,降低數(shù)據(jù)讀取的整體復(fù)雜度,但是需要實(shí)現(xiàn)糾錯(cuò)碼及其譯碼方法與組裝方法的適配。

本文提出的方法面向數(shù)據(jù)DNA長(zhǎng)度在Kb到Mb級(jí)。該長(zhǎng)度的DNA適用于常用的二代測(cè)序雙端讀?。╬aired-end)讀段的高效組裝,例如基于de Bruijn圖的組裝方法[53],典型的組裝軟件有Velvet[54]或ABySS[55]等。組裝得到的序列依據(jù)內(nèi)嵌的RS碼可實(shí)現(xiàn)糾錯(cuò),得到“完美”人工染色體序列。該方法與傳統(tǒng)基因組測(cè)序組裝的主要差別是:可以在較低的測(cè)序覆蓋度下得到“完美”的基因組序列,并且在設(shè)計(jì)大片段DNA時(shí),在數(shù)據(jù)段避免了重復(fù)序列、長(zhǎng)連續(xù)堿基等,讀段組裝與恢復(fù)方法更為有效。

基于上述思路,提出的數(shù)據(jù)恢復(fù)方法如圖3所示,具體步驟為:

圖3 基于短讀段從頭組裝、ARS引導(dǎo)的多重疊群合并、RS碼糾錯(cuò)糾刪的數(shù)據(jù)恢復(fù)流程Fig.3 Data readout processes

步驟1:利用Velvet或ABySS等二代序列組裝軟件在多個(gè)不同長(zhǎng)度的k-mer值下實(shí)現(xiàn)二代測(cè)序讀段的組裝,得到一組重疊群;該過(guò)程同時(shí)實(shí)現(xiàn)了基于de Bruijn圖的數(shù)據(jù)預(yù)糾錯(cuò),能糾正二代測(cè)序中存在的單堿基替換、插入與缺失錯(cuò)誤。

步驟2:識(shí)別出每個(gè)重疊群中的ARS序列,根據(jù)ARS序列確定數(shù)據(jù)讀段的位置。ARS位置的識(shí)別依據(jù)包括插入與刪節(jié)錯(cuò)誤的編輯距離,在本文中我們采用了一種魯棒的識(shí)別策略,只要識(shí)別序列與ARS序列的編輯距離小于該ARS序列長(zhǎng)度的20%,判斷為該ARS存在。識(shí)別出ARS位置后,將ARS兩側(cè)對(duì)應(yīng)的測(cè)序讀段,放入該數(shù)據(jù)段對(duì)應(yīng)的緩存區(qū),直到所有包含ARS序列(或部分ARS序列)的讀段被全部標(biāo)記與分配完畢。

步驟3:對(duì)每一個(gè)數(shù)據(jù)讀段所對(duì)應(yīng)的部分測(cè)序讀段,進(jìn)行大數(shù)合并,得到每條數(shù)據(jù)讀段的合并序列。如果某部分讀段不存在測(cè)序數(shù)據(jù),則標(biāo)記該部分片段為符號(hào)刪除,如果在某些位置,無(wú)法進(jìn)行大數(shù)判決,也標(biāo)注為刪除;進(jìn)一步將其轉(zhuǎn)化為RS碼符號(hào)序列。

步驟4:根據(jù)分組交織順序?qū)個(gè)數(shù)據(jù)段進(jìn)行解交織,得到P個(gè)存在錯(cuò)誤與刪除的RS碼碼字。

步驟5:解交織得到RS碼的P個(gè)碼字,分別進(jìn)行糾錯(cuò)、糾刪除譯碼,得到數(shù)據(jù)段。

步驟6:根據(jù)RS碼的譯碼得到的數(shù)據(jù)段恢復(fù)原始文件,實(shí)現(xiàn)比特到文件的恢復(fù)。

提出的數(shù)據(jù)讀取方法有以下幾個(gè)顯著特點(diǎn)。首先,使用基于de Bruijn圖的不同軟件和參數(shù)的組裝方法得到的重疊群具有一定獨(dú)立性,對(duì)大片段DNA的不同部分有不同的覆蓋度。本文中,為降低讀取復(fù)雜度與讀取成本,我們采用低覆蓋度的測(cè)序數(shù)據(jù),例如20×到30×。在低的覆蓋度下,不同的k-mer值產(chǎn)生的de Bruijn圖的結(jié)構(gòu)有很大的差別,進(jìn)一步考慮到后續(xù)處理方法不同,會(huì)得到差別很大的一組重疊群。傳統(tǒng)的基因組的組裝目標(biāo)是得到大的重疊群,本文的組裝目標(biāo)是得到盡可能多的重疊群去覆蓋數(shù)據(jù)部分。因此,借用通信中的“分集合并”(diversity and combination)的思想,充分利用重疊群的多樣性(diversity),可提高數(shù)據(jù)段的覆蓋度。二代測(cè)序讀段的錯(cuò)誤率本身并不高,因此組裝的重疊群的錯(cuò)誤率往往較低,RS碼需解決的主要問(wèn)題是缺失部分?jǐn)?shù)據(jù)的恢復(fù)。

然后,利用鑲嵌在數(shù)據(jù)段之間的ARS序列實(shí)現(xiàn)每個(gè)重疊群的位置判斷,ARS序列充當(dāng)了一種分布式路標(biāo),實(shí)現(xiàn)了與大片段DNA數(shù)據(jù)存儲(chǔ)的特點(diǎn)較好匹配。從生物功能方面,該設(shè)計(jì)也使得大片段DNA在酵母內(nèi)的組裝與傳代更為穩(wěn)定[19,35]。最后,多個(gè)重疊群利用ARS定位并合并后,由于ARS缺失或者所有重疊群不能覆蓋某區(qū)域,會(huì)造成數(shù)據(jù)的某些部分的缺失,將大數(shù)判決后存在缺失數(shù)據(jù)部分標(biāo)注為刪除(erasure),可以充分發(fā)揮RS碼糾刪能力,提高糾錯(cuò)效率。進(jìn)一步采用交織與解交織,可將組裝后數(shù)據(jù)段中的大段序列缺失轉(zhuǎn)化為隨機(jī)符號(hào)的刪除錯(cuò)誤,防止單個(gè)數(shù)據(jù)塊譯碼失?。?9,47]。這是本文設(shè)計(jì)的交織的RS碼方案的特色所在,較好地匹配了組裝后重疊群的特點(diǎn),實(shí)現(xiàn)了整體優(yōu)化。前已提及,本文未對(duì)DNA組裝以及隨著酵母增殖進(jìn)行復(fù)制的過(guò)程進(jìn)行建模。事實(shí)上,DNA組裝過(guò)程一般采用能保證完整性與正確性的方法。在酵母增殖過(guò)程中,在254 kb長(zhǎng)度的人工染色體中堿基出錯(cuò)的概率非常低,測(cè)試了100代的12個(gè)樣本中未在數(shù)據(jù)DNA部分觀察到任何堿基錯(cuò)誤;但是,長(zhǎng)度達(dá)到2.5 Mb的人工染色體,超過(guò)目前酵母承載外源DNA實(shí)驗(yàn)結(jié)果的上界,存在不確定性,可能會(huì)存在大片段的缺失。針對(duì)大片段的丟失,目前的設(shè)計(jì)方案最大可容忍33 000 bp的大片段缺失。存在大片段缺失時(shí),整個(gè)序列會(huì)發(fā)生整體移位(shift),考慮到ARS序列是分布式嵌入的,基于ARS的重疊群的定位仍可以工作,這也是提出的分布式嵌入ARS序列的優(yōu)點(diǎn)。

本方法的另一特點(diǎn)是測(cè)序與譯碼的復(fù)雜度較低。提出的恢復(fù)方法可以在較低的測(cè)序覆蓋度下完成數(shù)據(jù)恢復(fù),因此需要緩存處理的總測(cè)序數(shù)據(jù)量較少,從而使得組裝處理、重疊群合并等步驟的處理復(fù)雜度較低。進(jìn)一步,采用的RS碼碼率很高,校驗(yàn)符號(hào)的數(shù)量?jī)H為55,根據(jù)RS碼的特點(diǎn),其譯碼復(fù)雜度較低。設(shè)計(jì)中通過(guò)糾刪除與交織技術(shù),充分挖掘RS碼的糾錯(cuò)能力,仍能實(shí)現(xiàn)在20×測(cè)序覆蓋度下實(shí)現(xiàn)可靠恢復(fù),整體復(fù)雜度較低,能在較高的效率實(shí)現(xiàn)數(shù)據(jù)可靠恢復(fù)。

仿真實(shí)驗(yàn)中,假定人工染色體的測(cè)序數(shù)據(jù)與宿主基因組數(shù)據(jù)是分離的。該條件可以通過(guò)生化操作或測(cè)序數(shù)據(jù)預(yù)處理實(shí)現(xiàn)。生化處理可根據(jù)人工染色體的特性將其分離,在前期針對(duì)254 kb的實(shí)驗(yàn)中,將人工染色體轉(zhuǎn)入大腸桿菌進(jìn)行富集。但是,在更大規(guī)模的人工染色體,例如Mb長(zhǎng)度級(jí)別的人工染色體,轉(zhuǎn)入大腸桿菌的方法存在困難。將Mb長(zhǎng)度級(jí)別的人工染色體分離的操作仍然需要根據(jù)人工染色體與宿主染色體之間的關(guān)聯(lián),并進(jìn)行進(jìn)一步設(shè)計(jì),這也是目前我們正在開(kāi)展的工作。在測(cè)序數(shù)據(jù)預(yù)處理方面,可開(kāi)展宿主與人工染色體的混合測(cè)序,然后先將測(cè)序數(shù)據(jù)與宿主菌的已知基因組進(jìn)行比對(duì),再將基因組數(shù)據(jù)剔除。優(yōu)點(diǎn)是該方法處理準(zhǔn)確度較高。缺點(diǎn)是增加測(cè)序數(shù)據(jù)處理的總量,例如酵母的基因組的堿基數(shù)量大約為12 Mb,與設(shè)計(jì)的2.5 Mb的序列相比,數(shù)據(jù)量大約是人工染色體序列的4.8倍。

3 實(shí)驗(yàn)結(jié)果與分析

本文設(shè)計(jì)了一個(gè)長(zhǎng)度為2.5 Mb的用于數(shù)據(jù)存儲(chǔ)的酵母人工染色體作為仿真測(cè)試實(shí)例。高通量測(cè)序過(guò)程利用二代測(cè)序數(shù)據(jù)的仿真軟件ART[56],得到了雙端讀取的PE150測(cè)序仿真數(shù)據(jù)。然后,開(kāi)展從測(cè)序讀段的數(shù)據(jù)恢復(fù)實(shí)驗(yàn),驗(yàn)證提出的大片段DNA編碼方法在二代高通量測(cè)序下的優(yōu)越性,也即實(shí)現(xiàn)了測(cè)序數(shù)據(jù)特點(diǎn)、從頭組裝方法以及糾錯(cuò)編碼的匹配,從而能憑借非常小的編碼冗余實(shí)現(xiàn)了非常高的邏輯密度。本部分主要介紹基于仿真測(cè)序數(shù)據(jù)的測(cè)試驗(yàn)證方法。

3.1 仿真測(cè)序數(shù)據(jù)校準(zhǔn)與分析

本文建立了基于計(jì)算機(jī)的長(zhǎng)DNA片段數(shù)據(jù)存儲(chǔ)仿真平臺(tái),如圖4所示。目前長(zhǎng)片段DNA存儲(chǔ)框架中,基因組合成與組裝過(guò)程產(chǎn)生的錯(cuò)誤遠(yuǎn)少于測(cè)序產(chǎn)生的錯(cuò)誤。因此,在數(shù)據(jù)恢復(fù)中需要應(yīng)對(duì)的錯(cuò)誤主要來(lái)自高通量測(cè)序。仿真實(shí)驗(yàn)中,選擇產(chǎn)生測(cè)序讀段的ART軟件模擬測(cè)序過(guò)程。本研究雖未開(kāi)展直接的合成與測(cè)序?qū)嶒?yàn),我們利用前期的“濕”實(shí)驗(yàn)數(shù)據(jù)[13]對(duì)本文的仿真方法進(jìn)行了校準(zhǔn)與驗(yàn)證,使得仿真結(jié)果具有較好可信度,一定程度上實(shí)現(xiàn)了“濕”實(shí)驗(yàn)與仿真設(shè)計(jì)的融合,使得仿真過(guò)程更為合理。進(jìn)一步,我們分析了仿真的測(cè)序數(shù)據(jù)與端到端的存儲(chǔ)恢復(fù)性能。

圖4 基于計(jì)算機(jī)仿真的編碼大片段DNA體內(nèi)存儲(chǔ)驗(yàn)證流程Fig.4 Verification procedures using computer simulation for proposed encoding method and construction scheme of large DNA chunks in living cells

數(shù)據(jù)存儲(chǔ)的大片段DNA與物種的基因組存在一定差別。為利用ART軟件產(chǎn)生更符合實(shí)際情況的測(cè)序數(shù)據(jù),我們先采用以前構(gòu)建的數(shù)據(jù)存儲(chǔ)人工染色體的二代測(cè)序數(shù)據(jù)[19]對(duì)ART軟件進(jìn)行參數(shù)訓(xùn)練。具體參數(shù)訓(xùn)練與校準(zhǔn)中,針對(duì)254 886的人工染色體,我們采用的實(shí)際測(cè)序數(shù)據(jù)的覆蓋度超過(guò)200×。然后,利用訓(xùn)練的參數(shù)生成針對(duì)本文設(shè)計(jì)的大片段DNA的二代測(cè)序數(shù)據(jù)。我們獨(dú)立產(chǎn)生了10組30×的數(shù)據(jù)并開(kāi)展10次獨(dú)立實(shí)驗(yàn),總的測(cè)序數(shù)據(jù)量也達(dá)到了總覆蓋度超過(guò)300×。圖5和圖6給出了生成的仿真測(cè)序數(shù)據(jù)與我們前期實(shí)驗(yàn)得到的254 kb人工染色體測(cè)序數(shù)據(jù)的對(duì)比。圖5比較了讀段中測(cè)序錯(cuò)誤的數(shù)量。從該圖可以看出,發(fā)生錯(cuò)誤的讀段的數(shù)量在20%左右。仿真產(chǎn)生的讀段的質(zhì)量略差于實(shí)測(cè)數(shù)據(jù),這可以更好地說(shuō)明本文提出方法的糾錯(cuò)能力。圖6比較了讀段中測(cè)序與處在讀段中位置的關(guān)系??梢钥闯?,二代測(cè)序讀段中包含插入、缺失與替代錯(cuò)誤,錯(cuò)誤率在10-4~10-3左右。插入與缺失的錯(cuò)誤率明顯低于替代錯(cuò)誤概率。從圖中可看出生成的測(cè)序數(shù)據(jù)特征與實(shí)際二代測(cè)序數(shù)據(jù)特征是非常一致的,這說(shuō)明利用仿真的方法生成測(cè)序數(shù)據(jù)是具有較好可行性的。考慮到目前大片段DNA的組裝仍然是非常有挑戰(zhàn)性的任務(wù),本文的仿真方法可以在實(shí)驗(yàn)前提供更為全面的評(píng)估,提高實(shí)驗(yàn)效率。

圖5 仿真讀段與實(shí)際測(cè)序讀段的堿基錯(cuò)誤數(shù)量(編輯距離)分布Fig.5 Base error number(edit distance)distribution in simulation and real sequencing reads.

圖6 仿真與實(shí)測(cè)讀段的堿基錯(cuò)誤隨著位置變化情況Fig.6 Base error position distribution in simulation and real sequencing.

3.2 譯碼恢復(fù)性能與分析

以100個(gè)RS碼字的2.5 Mb的基因組為例開(kāi)展仿真研究。在該模型中,影響數(shù)據(jù)恢復(fù)性能的主要參數(shù)是測(cè)序數(shù)據(jù)覆蓋度,我們?cè)诓煌母采w度下對(duì)編碼方案、數(shù)據(jù)恢復(fù)方法進(jìn)行了仿真測(cè)試與分析。測(cè)序覆蓋度(coverage),體現(xiàn)了對(duì)用于存儲(chǔ)的DNA的處理復(fù)雜度,與成本、信息處理硬件設(shè)備復(fù)雜度等密切相關(guān)。一般而言,二代高通量測(cè)序是基于合成的測(cè)序方法,測(cè)序覆蓋度越高,讀取成本會(huì)越高,測(cè)序時(shí)間會(huì)越長(zhǎng);高覆蓋度的測(cè)序讀段越多,需要的數(shù)據(jù)緩存的硬件復(fù)雜度與計(jì)算量都迅速增長(zhǎng)。因此,本文參照傳統(tǒng)的信息存儲(chǔ)設(shè)備的特點(diǎn),致力于在相對(duì)較低的測(cè)序覆蓋度下,實(shí)現(xiàn)沒(méi)有任何堿基錯(cuò)誤的快速、“完美”的數(shù)據(jù)讀出。

測(cè)試中我們選用覆蓋度為20×、25×、30×,每個(gè)覆蓋度用ART生成10組獨(dú)立測(cè)試數(shù)據(jù),進(jìn)行10次獨(dú)立的平行組裝與譯碼實(shí)驗(yàn)。選用的組裝軟件為Velvet與ABySS,每種組裝方法選擇若干不同k-mer值,表2給出了具體仿真結(jié)果。圖7給出了不同測(cè)序覆蓋度下的組裝錯(cuò)誤特性說(shuō)明,證實(shí)提出的多RS碼交織并執(zhí)行糾刪糾錯(cuò)方案的合理性。從圖7可以看出,當(dāng)測(cè)序覆蓋度增加時(shí),多軟件多參數(shù)的組裝方法的性能不斷改善,殘留的錯(cuò)誤與刪除數(shù)量快速下降,從而可以實(shí)現(xiàn)可靠恢復(fù)。在測(cè)序覆蓋度為20×?xí)r,單獨(dú)的Velvet與ABySS組裝的錯(cuò)誤率均在該方案的糾錯(cuò)能力的邊緣(糾正1.34%的符號(hào)刪除,或者糾正0.66%的符號(hào)錯(cuò)誤,圖7),存在數(shù)據(jù)恢復(fù)失敗的情況,詳見(jiàn)表2。考慮到組裝與重疊群合并策略的波動(dòng)較大,圖7給出了每次實(shí)驗(yàn)的具體結(jié)果(如圖中的“×”和“□”)。

圖7 不同測(cè)序覆蓋度與組裝方法,在ARS識(shí)別與重疊群合并后,數(shù)據(jù)DNA部分錯(cuò)誤分布Fig.7 Base error distribution of the data DNA after ARSidentification and contig merging using different assembly methods and sequencing coverage

表2 采用交織多個(gè)RS碼的數(shù)據(jù)恢復(fù)分析Tab.2 Data recovery analysis using interleaved multiple RScodes

從表2的仿真結(jié)果可以看出,當(dāng)覆蓋度為25×和30×?xí)r,所有方案的10次平行實(shí)驗(yàn)均譯碼成功,驗(yàn)證了該編碼方法與數(shù)據(jù)恢復(fù)方法的魯棒性。同時(shí)也可看出,采用多方法、多k-mer與采用單k-mer的結(jié)果相比較,讀段組裝的性能有明顯改善,片段缺失與錯(cuò)誤均明顯減少。表2中僅列出了大片段的錯(cuò)誤情況,這些組裝、ARS識(shí)別后的錯(cuò)誤經(jīng)過(guò)交織,可充分利用多個(gè)高碼率RS碼的糾錯(cuò)能力,獲得非常高的成功率,實(shí)驗(yàn)測(cè)試中在25×與30×下數(shù)據(jù)恢復(fù)都是成功的。表2中還列出了若不采用交織方案,僅采用相同參數(shù)的RS碼獨(dú)立編碼每個(gè)數(shù)據(jù)段不能成功譯碼的所有情況。若不采用多RS碼交織,每個(gè)數(shù)據(jù)塊采用單獨(dú)的RS碼編碼,由于高碼率的RS碼的糾錯(cuò)糾刪能力有限(糾正Nerasure=55個(gè)刪除,或者Nerror=27個(gè)錯(cuò)誤,或者2×Nerror+Nerasure≤55),會(huì)存在某些片段不能正確譯碼的情況,不能完全恢復(fù)數(shù)據(jù)。

在20×測(cè)序數(shù)據(jù)下,采用單個(gè)k-mer組裝的重疊群錯(cuò)誤率很高,不能正確譯碼,本部分?jǐn)?shù)據(jù)量較大,未在表2中列出,詳細(xì)的信息見(jiàn)本文在期刊官網(wǎng)html文件的補(bǔ)充材料表。但是,多個(gè)k-mer值組合的情況仍獲得較好的性能。首先,采用Velvet軟件多k-mer組裝,10次獨(dú)立實(shí)驗(yàn),僅有第三次會(huì)發(fā)生解交織后的譯碼失敗,其他情況均正確譯碼。進(jìn)一步,在Velvet與ABySS混合組裝中,所有10組獨(dú)立實(shí)驗(yàn),均獲得了增益,解交織后全部譯碼成功。

進(jìn)一步,根據(jù)表2中的數(shù)據(jù)(第4列)也可看出,本文提出的框架,二代高通量測(cè)序讀段組裝后的錯(cuò)誤主要是大片段的數(shù)據(jù)缺失錯(cuò)誤,標(biāo)記為刪除。這是本文主要設(shè)計(jì)出發(fā)點(diǎn):實(shí)現(xiàn)糾錯(cuò)編碼、組裝方法與測(cè)序方法的匹配。第一,考慮到RS碼有理論上最優(yōu)的糾正刪除錯(cuò)誤能力,本文提出采用RS碼來(lái)糾正這些突發(fā)刪除,可取得非常好的效果,能憑借較小的編碼冗余度獲得可靠數(shù)據(jù)恢復(fù),可以實(shí)現(xiàn)高邏輯密度存儲(chǔ)的可靠存儲(chǔ)。第二,多RS碼交織避免了某些數(shù)據(jù)段缺失過(guò)多無(wú)法恢復(fù)的情況。

4 結(jié)語(yǔ)與展望

為利用細(xì)胞內(nèi)數(shù)據(jù)處理與存儲(chǔ)的優(yōu)勢(shì),本文提出一種針對(duì)大片段DNA數(shù)據(jù)存儲(chǔ)的融合碼率為0.987的RS碼與符號(hào)交織的高效編碼方法。提出的編碼方法實(shí)現(xiàn)了將數(shù)據(jù)文件編碼到多個(gè)DNA數(shù)據(jù)單元,DNA數(shù)據(jù)單元進(jìn)一步與ARS交替鑲嵌組合,構(gòu)建了靈活的細(xì)胞內(nèi)DNA數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)在大片段DNA中的存儲(chǔ)。進(jìn)一步,基于二代高通量測(cè)序讀段、采用提出的數(shù)據(jù)恢復(fù)方法,可實(shí)現(xiàn)可靠的高效率DNA數(shù)據(jù)讀出。該方法實(shí)現(xiàn)了交織的多RS碼的編碼方法、大片段DNA邏輯結(jié)構(gòu)、二代高通量測(cè)序、從頭組裝方法的多要素匹配,從而能夠?qū)崿F(xiàn)非常高的堿基邏輯密度,總體邏輯密度達(dá)到1.947 bit/bp,高于目前的主要設(shè)計(jì)方法,非常接近理論的2 bit/bp。

基于前期的實(shí)際生物實(shí)驗(yàn)與香農(nóng)信息論的經(jīng)典研究方法,提出的大片段DNA數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)方法,實(shí)現(xiàn)了編碼方法與細(xì)胞內(nèi)大片段存儲(chǔ)信道的匹配,將信息論的研究方法擴(kuò)展到了合成生物學(xué)領(lǐng)域。后續(xù)研究將把更多的系統(tǒng)影響因素納入考慮,例如三代測(cè)序、堿基識(shí)別方法、測(cè)序條形碼[57-58]等,為研究者提供更全面、更準(zhǔn)確、更系統(tǒng)化的大片段DNA數(shù)據(jù)存儲(chǔ)仿真平臺(tái),為研究更接近傳統(tǒng)存儲(chǔ)系統(tǒng)形態(tài)的DNA存儲(chǔ)提供依據(jù)。

該存儲(chǔ)模式中,酵母內(nèi)大片段DNA的從頭合成與組裝的“濕”實(shí)驗(yàn)是目前技術(shù)難度最大、成本最高的部分[27-37]。設(shè)計(jì)的Mb級(jí)別的DNA是否適合在酵母內(nèi)合成與組裝,組裝難度如何,都是值得進(jìn)一步深入分析的問(wèn)題。之前的實(shí)驗(yàn)研究中,僅完成了254 kb的大片段DNA數(shù)據(jù)存儲(chǔ)的全流程實(shí)驗(yàn)驗(yàn)證,在一定程度上證明本設(shè)計(jì)思路具有可行性[19]。到目前,針對(duì)已存在的基因序列,可以構(gòu)造2 Mb以上的酵母人工染色體(YAC)[59-60]。但是,對(duì)于來(lái)自數(shù)字世界轉(zhuǎn)化來(lái)的Mb級(jí)別以上的DNA數(shù)據(jù)序列,尚無(wú)嚴(yán)格的實(shí)驗(yàn)證實(shí)。因此,如何進(jìn)一步突破單個(gè)細(xì)胞內(nèi)的存儲(chǔ)長(zhǎng)度,挑戰(zhàn)數(shù)據(jù)存儲(chǔ)的容量上限,并研究其與宿主細(xì)胞的相互影響,尤其是Mb級(jí)別的完全外源的人工DNA的組裝、復(fù)制穩(wěn)定性以及與生物本身基因組的相互作用等問(wèn)題,都需進(jìn)一步實(shí)驗(yàn)研究。在合成生物學(xué)“設(shè)計(jì)-構(gòu)建-測(cè)試-學(xué)習(xí)”的閉環(huán)策略中,針對(duì)數(shù)據(jù)存儲(chǔ)專用的人工染色體,在254 kb正在初步完成該閉環(huán)策略[19]。進(jìn)一步通過(guò)“學(xué)習(xí)”能否構(gòu)建Mb級(jí)別的細(xì)胞內(nèi)存儲(chǔ)機(jī)制,本文只是完成了“設(shè)計(jì)”步驟,后續(xù)還需要更為深入研究,包括構(gòu)建、穩(wěn)定性測(cè)試分析等工作。同時(shí),在外部數(shù)據(jù)體內(nèi)存儲(chǔ)的場(chǎng)景,大片段DNA在細(xì)胞內(nèi)的處理(例如組裝、分離等),是合成生物學(xué)的重要基礎(chǔ)問(wèn)題[25,32-37],期望在未來(lái)取得更大的進(jìn)展,不僅推動(dòng)DNA數(shù)據(jù)存儲(chǔ)的發(fā)展,也促進(jìn)合成生物學(xué)本身的發(fā)展。

針對(duì)細(xì)胞內(nèi)長(zhǎng)片段DNA存儲(chǔ)(“DNA光盤(pán)”)的應(yīng)用場(chǎng)景,考慮到目前長(zhǎng)片段DNA的組裝成本高,類似早期只讀光盤(pán)的發(fā)展,可通過(guò)大量用戶共享一次數(shù)據(jù)寫(xiě)入的成本(“母盤(pán)”的成本)才能獲得應(yīng)用優(yōu)勢(shì)。考慮到用于存儲(chǔ)數(shù)據(jù)的染色體,借助酵母增殖的復(fù)制成本低,能效高,是一種極為高效的生物計(jì)算模式。前期研究已初步說(shuō)明了該類染色體可以有效承載數(shù)據(jù),能隨著生命過(guò)程快速?gòu)?fù)制,并且便于讀出,證明該模式適合數(shù)據(jù)大規(guī)模分發(fā)。數(shù)據(jù)分發(fā)(例如通過(guò)介質(zhì)克隆或網(wǎng)絡(luò)傳輸),都需要一定成本,利用生命過(guò)程的數(shù)據(jù)大規(guī)模復(fù)制與分發(fā),即使與基于寡核苷酸池的DNA存儲(chǔ)相比,在成本方面仍具有優(yōu)勢(shì),其量化評(píng)估需要綜合考慮的因素較多,可以將其作為未來(lái)研究的方向。

猜你喜歡
堿基染色體測(cè)序
杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
新民周刊(2022年27期)2022-08-01 07:04:49
二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
傳染病信息(2021年6期)2021-02-12 01:52:58
應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
中國(guó)科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
生命“字母表”迎來(lái)4名新成員
多一條X染色體,壽命會(huì)更長(zhǎng)
生命“字母表”迎來(lái)4名新成員
為什么男性要有一條X染色體?
能忍的人壽命長(zhǎng)
再論高等植物染色體雜交
永靖县| 宁德市| 高陵县| 四平市| 丹东市| 晋城| 万宁市| 南召县| 柏乡县| 吉水县| 琼结县| 霍州市| 登封市| 吉安县| 宜春市| 屏南县| 祁门县| 六安市| 尚义县| 舟曲县| 灌阳县| 永川市| 彭州市| 临泉县| 吕梁市| 廉江市| 阿城市| 新龙县| 玉山县| 临漳县| 彭山县| 东丰县| 宣汉县| 西安市| 乌拉特中旗| 峨边| 凤山县| 铜川市| 龙川县| 宜城市| 内江市|