国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DNA數(shù)字信息存儲的研究進展

2021-07-21 09:30董一名孫法家武瑞君錢瓏
合成生物學 2021年3期
關鍵詞:存儲介質(zhì)堿基測序

董一名,孫法家,武瑞君,錢瓏

(1北京大學定量生物學中心,北京 100871;2中國生物技術發(fā)展中心戰(zhàn)略與政策處,北京 100039)

隨著人類對世界的觀測向著更高精度和更大廣度發(fā)展,多樣化、微型化、動態(tài)化傳感器的發(fā)明和普及,人類數(shù)據(jù)量保持指數(shù)甚至超指數(shù)形式增長,“天文數(shù)字”這一概念被不斷顛覆[1]。如今,在科研領域,觀測太空的阿塔卡瑪大型毫米陣列每天會增加2 TB的觀測數(shù)據(jù);在健康領域,數(shù)字人體和數(shù)字醫(yī)療涵蓋了個人健康數(shù)據(jù)、臨床大數(shù)據(jù)和運營數(shù)據(jù)各種類型,全球醫(yī)療保健數(shù)據(jù)已達到2.26 ZB;此外,金融、工業(yè)生產(chǎn)、安防等領域的網(wǎng)絡化、實時化已成為現(xiàn)代社會的標配,這些領域的數(shù)據(jù)以人口為基數(shù)、以秒為時間單位不斷積累。依據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)的估計,2025年全球數(shù)據(jù)產(chǎn)出量將會達到175 ZB(1 ZB≈1.18×1021B)[2],而當前主流存儲介質(zhì)的生產(chǎn)已經(jīng)不堪重負[3]。海量數(shù)據(jù)的拷貝和傳輸也面臨挑戰(zhàn)。按民用光纖傳輸速率1 Gbps估計,PB(1PB≈106GB)量級的數(shù)據(jù)交流花費的時間遠長于物理運輸,而后者產(chǎn)生了大量非必要成本。除此之外,現(xiàn)有存儲介質(zhì)不可避免地隨著讀寫次數(shù)和自然時間發(fā)生損耗,導致每年數(shù)以億計的信息維護費用。因此,實用的新型數(shù)據(jù)存儲介質(zhì)亟待開發(fā),以應對信息爆炸式增長的挑戰(zhàn)。

脫氧核糖核酸(DNA)是生物體用于存儲遺傳信息的載體。通過A、T、C、G四個堿基,DNA存儲了物種的全部遺傳信息并且穩(wěn)定遺傳給后代,我們的身高、膚色、虹膜等信息都被記錄在小小的細胞中,基因組和中心法則稱得上是自然界最精妙絕倫的信息存儲與傳遞算法[4-5]。DNA同樣具有存儲數(shù)字信息的潛力。數(shù)據(jù)可轉化為堿基的線性順序,編碼在DNA這種新型信息存儲介質(zhì)中。最引人注目的是DNA的信息存儲容量和存儲密度,研究表明,DNA信息存儲密度可以達到1019bit/cm3,是硬盤的106倍[6-7]。此外,DNA穩(wěn)定性強,存儲時間長,并且無需頻繁維護?;械腄NA平均半衰期估計為521年[8];利用一些特殊的材料如合成二氧化硅或者凝膠則可以保存更久的時間[9-10]。利用生物化學手段可以便利地對信息進行復制(PCR方法)、切割(限制性內(nèi)切核酸酶)和粘貼(DNA連接酶)等。這些特性使得DNA分子成為一種理想的新型數(shù)據(jù)存儲介質(zhì)。

1 DNA數(shù)據(jù)存儲的研究進展

1.1 DNA信息存儲流程簡述

使用DNA分子進行信息存儲,可以分為信息編碼、DNA合成(寫入)、DNA測序(讀?。┖托畔⒔獯a四個步驟,如圖1所示。

圖1 DNA信息存儲流程[11]Fig.1 The process of DNA-based information storage[11]

首先必須將信息轉換為DNA分子中4種堿基的序列。在信息科學領域,不同的數(shù)據(jù)類型有不同的編碼和壓縮算法,常用的算法有霍夫曼編碼、算術編碼、字典編碼等[12-13]。此外,對于DNA分子而言,在合成、復制、測序的過程中都可能發(fā)生錯誤[14],物理冗余和邏輯冗余可以在信息失真的情況下恢復原始數(shù)據(jù),也就是糾錯碼[15-16]。圖2分別展示了信息直接轉換、線性分組碼[17-20]、噴泉碼[21-22]和卷積碼[23-27]的原理。

圖2 DNA存儲研究中使用的信息編碼方法(前向糾錯體系)[(a)直接轉換,不包含糾錯方案。在這種方案中,數(shù)據(jù)被讀取為數(shù)字流,然后轉換為DNA序列。例如,Church等[28]和Goldman等[29]分別將二進制數(shù)字流和三進制數(shù)字流中的每一位轉換為一個DNA堿基。(b)線性分組碼,即通過線性運算,從原始信息(信息碼元)產(chǎn)生用于糾錯的冗余(稱為“校驗碼元”或“監(jiān)督碼元”)。在解碼時,與生成矩陣相對應的校驗矩陣可以用于校驗接收到的信息中是否包含錯誤,并進行糾正。(c)噴泉碼,即將原始信息轉換為大量較短的信息,這些較短的信息并非原始信息的一部分,而是將原始信息中的符號通過特定的分布進行異或運算得到的。在解碼時,只要獲得了足夠數(shù)量的短信息,就可以恢復原始信息。(d)卷積碼,即“有記憶”的編碼方案。在編碼用于傳輸?shù)姆枙r,不僅需要處理當前的信息符號,還要對當前位置之前的數(shù)個信息符號進行運算]Fig.2 Information encoding method(forward error correction system)used in DNA storage research[(a)Direct conversion without error correction scheme.In thismethod,thedata isread asadigital stream and then converted into DNA sequences.For example,Church et al.[28]and Goldman et al.[29]converted each bit in a binary number stream and aternary number stream into a DNA base,respectively.(b)Linear block code,namely,generating redundancy for error correction(called"check symbols"or"supervision symbols")from the original information(information symbols)through linear operations.In thedecoding process,thecheck matrix corresponding to thegenerator matrix can beused to check whether thereceived information containserrorsand then correct them.(c)Fountain code,which convertstheoriginal information into alargenumber of shorter sequences.Theseshorter sequencesarenot part of the original information,but obtained by performing XORoperationson thesymbolsin the original information according to aspecific distribution.In thedecoding process,aslong asasufficient number of shorter sequencesareobtained,theoriginal information can be restored.(d)Convolutional codes,that is,coding schemes"with memory".Both thecurrent information symbol and several information symbolsbeforethecurrent position areused to generatetheencoding symbols]

在編碼之后,進行DNA合成,即寫入。三代DNA合成技術——化學合成法(固相亞磷酰胺化學法)[30-31]、微陣列DNA合成法[32]和酶合成法[33]的演化大大減少了DNA合成的時間和成本。另外,基因組裝和編輯技術的發(fā)展讓我們可以靈活而準確地改變遺傳信息,并在活細胞中進行信息的處理和儲存[11],為DNA信息存儲的發(fā)展提供了有利的條件。

信息的讀取依靠基因測序技術。自1977年第一代DNA測序技術(Sanger法)出現(xiàn)以來[34],測序技術已獲得了巨大的發(fā)展。相比于最初,其成本下降了十萬倍[35]。通過測序恢復堿基序列,根據(jù)編碼原則可以預判信息恢復能力。在得到DNA序列信息之后,將堿基序列重新轉換為二進制序列,此后,再利用編碼的糾錯原理將序列自動糾錯,就可以得到原本的數(shù)字信息。

1.2 DNA信息存儲發(fā)展史

關于DNA分子的認知始于19世紀70年代Miescher和Kossel等的研究[36-37],然而直到1953年Watson和Crick在Nature上發(fā)表了“Molecular Structures of Nucleic Acids”一文,人們才對DNA分子的結構有了清晰的認識[4]。同一時期Avery等[38]和Hershey等[39]的研究證實了DNA分子是生物體存儲遺傳信息的載體。后續(xù)的一些研究使人們認識到,生物體的遺傳信息就存儲在組成DNA分子的4種核苷酸的線性排列中。4種堿基的特定排列蘊藏了生物的遺傳信息。

這些研究成果自然而然引發(fā)了使用DNA分子存儲人工數(shù)據(jù)的猜想和嘗試。然而,受限于當時尚不成熟的DNA合成和測序技術,這些嘗試未能獲得成功。直到1996年,Davis才將包含35個像素點的黑白圖像信息編碼到DNA分子,導入到大腸桿菌中并成功讀取出來[40]。到了2001年,Bancroft等將《雙城記》開篇的兩句名言編碼到了DNA分子中,使用的方法與DNA編碼蛋白質(zhì)序列的“密碼子”方法類似[41]。在2012年和2013年,Nature和Science分別刊發(fā)了哈佛醫(yī)學院Church等[28]和歐洲生物信息研究所Goldman等[29]在DNA數(shù)據(jù)存儲領域的研究成果。與早期研究不同,兩組研究都存儲了可觀的數(shù)據(jù)量。Church等的研究在DNA分子中存儲了659 KB的數(shù)據(jù),而Goldman等存儲了739 KB。這兩項研究的成功有賴于DNA合成和測序技術的巨大進步,使得合成與讀取數(shù)以萬計的DNA分子成為可能。

在這兩項研究之后,DNA數(shù)據(jù)存儲領域的新進展如雨后春筍般涌現(xiàn)出來。在2015年和2016年,Grass等[42]和Blawat等[43]的兩項研究把信息科學領域的“前向糾錯碼”引入DNA數(shù)據(jù)存儲領域,使在合成和測序過程中發(fā)生錯誤時,信息依然可以被恢復出來,從而提升了使用DNA分子進行數(shù)據(jù)存儲的可靠性。2016年,Bornholt等[44]設計實現(xiàn)了DNA存儲體系中數(shù)據(jù)的“隨機訪問”(random access)。2017年,Erlich等[45]將“噴泉碼”引入了DNA編碼體系中,稱為“DNA噴泉”,實現(xiàn)了較高的數(shù)據(jù)存儲密度。同年,Shipman等[46]將一部電影信息通過CRISPR技術編碼到了活細胞中。2018年,Organick等[47]在DNA分子中存儲了多達200 MB的數(shù)據(jù),實現(xiàn)了大規(guī)模體系中的隨機訪問,并嘗試使用單分子測序(single molecule sequencing,SMS)進行數(shù)據(jù)的讀取和恢復。

2020年,Erlich和Grass將噴泉碼運用于信息存儲[48],他們提出了一個“萬物皆可存儲DNA信息”概念(DNA-of-things,DoT)。作者將3D打印的兔子——斯坦福兔子的設計藍本信息轉換為DNA序列,合成寡核苷酸片段,然后將這些短片段封裝在大小為160 nm的二氧化硅納米顆粒中,與可降解熱塑性聚酯混合用于3D打印。信息的讀取和復制也非常簡便,從兔子耳朵處剪下一小塊進行溶解,就可以得到其中的DNA,進而進行測序和擴增,得到的信息還可以進行下一代兔子的3D打印。最終,研究人員完美地復制和打印了五代兔子,展示了DNA作為信息存儲介質(zhì)的穩(wěn)定性和保真性。此外,他們還將1.4 MB大小的視頻編碼存儲到眼鏡的樹脂玻璃中。在這項研究中,他們同樣使用了“DNA噴泉”,即使用LT碼應對錯誤[49-50]。

2020年,Press等[51]開發(fā)出了一種能夠處理DNA合成和測序錯誤中出現(xiàn)的增刪(indel)錯誤的DNA編碼算法,稱為“HEDGES”。這種算法使用了RS碼和卷積碼進行編碼,并使用樹結構進行解碼。基于HEDGES編碼,他們合成了5865條長度為300 bp的寡核苷酸,這些DNA分子之后被人工引入了突變和增刪錯誤并在Illumina平臺上測序。解碼結果表明,在犧牲一定編碼密度的情況下,HEDGES能夠處理總計約1.2%的增刪錯誤。這種算法為應對更復雜的DNA錯誤類型提供了借鑒,從而保障DNA分子存儲信息的穩(wěn)健性。與傳統(tǒng)的信息存儲方式利用磁性存儲介質(zhì)(磁盤)、光學存儲介質(zhì)(光盤)和電子存儲介質(zhì)(內(nèi)存、U盤)相比,DNA讀寫速度慢并且過程煩瑣。很多研究人員致力于實現(xiàn)全自動DNA信息存儲。微軟公司和華盛頓大學搭建了一臺基于柱式合成和三代測序的全自動DNA存儲和讀取設備,存儲與讀取“hello”的整個過程需要21 h[52]。盡管還有很長的路要走,但信息存儲和讀取的自動化對于DNA存儲的產(chǎn)業(yè)化意義巨大。

可以看出,研究人員將DNA分子存儲領域與DNA合成與測序技術、細胞生物學與分子生物學技術、信息科學與通信技術等領域不斷交叉融合,為這一領域的未來描繪出更多的可能性,不斷提高DNA分子的存儲潛力,使得DNA數(shù)據(jù)存儲越來越接近于生產(chǎn)和生活實際。

2 DNA信息存儲的優(yōu)勢

2.1 存儲密度

磁性存儲介質(zhì)利用磁性介質(zhì)的電磁效應進行信息存儲。光學存儲介質(zhì)將信息刻錄在光盤表面的凹槽中,再通過激光讀取,數(shù)據(jù)量越大要求激光的精度也越高。物理設備的工作分辨率決定了這些傳統(tǒng)介質(zhì)的極限密度。而碳基生物分子的存儲密度在分子尺度,與傳統(tǒng)介質(zhì)相比,具備天然的優(yōu)勢。

理想情況下,DNA分子的存儲密度可達約460 EB/g,這意味著僅需要數(shù)克的DNA分子即可存儲全世界一年所產(chǎn)生的信息。DNA具有雙螺旋立體結構,單位空間的數(shù)據(jù)密度非常高。由于不能無限地緊密堆積,體積密度更能夠代表DNA分子實際數(shù)據(jù)存儲能力。據(jù)估算,每立方厘米的DNA分子可以存儲大約1 EB的信息,這一密度是當前存儲密度最高的介質(zhì)(閃存)的1000倍,是硬盤數(shù)據(jù)存儲密度的百萬倍[6]。即便因為封裝、冗余等實際因素無法實現(xiàn)最大存儲潛力,其可用的存儲密度依然遠遠高于當前主流的數(shù)據(jù)存儲介質(zhì)。

天然DNA分子包含四種堿基,因此每一個堿基最多可以存儲2 bit的信息。然而,也有一部分研究工作試圖擴展堿基系統(tǒng),即使用DNA分子中的四種天然堿基之外的“人工堿基”或“非天然堿基”來存儲信息,從而提高DNA分子的信息存儲密度。非天然堿基的工作起源于20世紀80年代[53],而在近幾年有了較大的突破,目前已經(jīng)實現(xiàn)了8個堿基的系統(tǒng)[54-56]。

除了使用額外的非天然堿基,也有一些研究使用“簡并堿基”來擴展DNA分子的存儲密度。在2019年,有幾項不同的研究成功使用簡并堿基進行數(shù)據(jù)存儲,并且提升了存儲密度。具體而言,簡并堿基將DNA序列中每個位置的序列空間連續(xù)化,即表示為四種堿基的混合體系。例如,Anavy等[57]在其研究中定義了兩個新的堿基符號:M,是等量A和T的混合體;K,是等量G和T的混合體。加入這兩個符號之后,DNA分子中的每一位就包含了6個“堿基”,因而可以容納2.58 bit的信息。這一堿基體系可以繼續(xù)擴充,以包含更多的“簡并堿基”符號,從而進一步提升DNA分子的存儲潛力。在Anavy等的研究中,他們嘗試使用更大的堿基空間存儲較小規(guī)模的信息(22.5 B),并實現(xiàn)了每合成輪4.29 bit的存儲密度。Choi等[58]也提出了類似的思路,并使用包含15個“堿基”的系統(tǒng)存儲了854 B的信息,實現(xiàn)了每個DNA 3.37 bit的存儲密度。

除了DNA之外,其他碳基存儲介質(zhì)也展現(xiàn)了信息存儲能力。中國科學院上海微系統(tǒng)與信息技術研究所的陶虎教授課題組發(fā)明了基于蠶絲蛋白的生物存儲器[59],每平方英寸可以存儲64 GB數(shù)據(jù)信息(1平方英寸=6.4516×10-4m2),并且可重復擦寫。蠶絲蛋白和DNA相似,可耐受異常濕度、輻射和磁場等環(huán)境。蠶絲蛋白也可以用于存儲生物體DNA等生物樣品,有望未來和DNA介質(zhì)結合,用于數(shù)字存儲。盡管其存儲密度依舊受限于光學寫入設備的分辨率,但展現(xiàn)了學術界對于碳基介質(zhì)用作信息存儲的認可。而代謝分子(糖類、氨基酸等)更小,也可以用作信息存儲。布朗大學Kennedy等[60]受DNA存儲的啟發(fā),利用代謝分子液滴在金屬板點陣列存儲圖片等信息。與簡并堿基的思想類似,他們利用對代謝組分分布的測量實現(xiàn)了更高維度空間中的信息編碼。

盡管碳基存儲尤其DNA在密度上有很大優(yōu)勢,考慮到隨機訪問所需的稀溶液條件和分子擴散速率,一個1 L的DNA存儲池中可容納的信息量被限制在TB~ZB量級[11]。因此,一個值得關注的概念是“Storage-on-Chip”。存儲硬件體系的設計需要適配這些實際考量,超大規(guī)模的數(shù)據(jù)存儲離不開存儲體系的創(chuàng)新。

2.2 數(shù)據(jù)維護

傳統(tǒng)的數(shù)據(jù)存儲介質(zhì)總會自發(fā)地發(fā)生損耗,導致信息損壞或丟失。硬盤和閃存能夠存留信息的年限不超過十幾年。在傳統(tǒng)數(shù)據(jù)存儲介質(zhì)中維護大量數(shù)據(jù)需要極其高昂的成本。例如,如果一個數(shù)據(jù)中心要在磁帶上存儲109GB數(shù)據(jù),需要高達十億美元和十年以上的時間來建造和維護,以及上億度電的耗費。

而DNA分子在適當?shù)臈l件下具有極高的穩(wěn)定性,可以保障存儲在其中的信息不會受損。地質(zhì)學家手中的化石為DNA分子的數(shù)據(jù)存留能力提供了有力的證明——有時可以獲取甚至數(shù)十萬年前化石中的DNA分子并讀取其序列信息。如果將DNA分子保存在合適的環(huán)境中,其序列甚至可以存留更長的時間。例如,Grass等[42]將固態(tài)DNA分子封裝在二氧化硅中,表現(xiàn)出了比純固態(tài)DNA粉末和其他存儲介質(zhì)更好的存留特性。他們推算出了封裝在二氧化硅小球中的DNA分子的一級降解動力學活化能,并由此推測在相同條件下其可在9.4℃下存留2000年,或在-18℃下存留200萬年。

同時,相比傳統(tǒng)介質(zhì),使用DNA分子進行數(shù)據(jù)存儲幾乎不需要維護成本。使用DNA分子存儲109GB數(shù)據(jù)用電量不足0.1 W。如此之低的維護成本使得DNA分子尤其適用于存儲大規(guī)模不需要經(jīng)常訪問的“冷數(shù)據(jù)”。

2.3 體內(nèi)信息存儲潛力

迄今為止,大多數(shù)DNA存儲的嘗試都是在體外進行的,例如DNA寡核苷酸池(oligo pool),或者對DNA片段進行物理封裝以進一步增強存儲穩(wěn)定性(圖3)。在當前的技術水平下,體外存儲在存儲成本(短片段存儲、無需連接成長片段,也無需導入質(zhì)?;蛘呋蚪M中)、DNA刻寫(活細胞DNA在刻寫時需要避開功能基因及其相關序列等)、DNA讀取(二代測序技術比較成熟)和穩(wěn)定性(活細胞DNA突變)等方面有較強的優(yōu)勢。

圖3 DNA信息存儲的載體Fig.3 The carrier of DNA-based information storage

盡管如此,越來越多科學家將目光投向了DNA體內(nèi)存儲?;罴毎幕蚪MDNA由于其耐久性和生物功能相容性,已成為信息存儲的另一潛在形式。與體外DNA存儲相比,體內(nèi)存儲利用了細胞自身DNA復制和校對的機制,也提供了微尺度隨機數(shù)據(jù)訪問的實用手段[47]。除此之外,極端環(huán)境微生物在信息存儲的能耗等方面有很大的發(fā)展空間。

對于DNA體內(nèi)存儲,研究人員首先將視線投向質(zhì)粒(圖3),因其操作簡便、編輯和寫入較簡單。質(zhì)粒DNA存儲可以追溯到1996年,Davis[40]在大腸桿菌質(zhì)粒中存儲了小維納斯女神“Microvenus”的圖片。此后,很多研究人員將文本、音樂、圖片信息存儲到了質(zhì)粒上。

但是存儲量和遺傳穩(wěn)定性問題限制了質(zhì)粒作為信息存儲載體的應用,基因組作為替代選擇成為了新型的體內(nèi)存儲方式。2010年的一項合成生物學里程碑式研究中,Venter團隊[61]通過化學合成法合成了整個支原體的基因組,并證實其具有生物活性和復制能力。此外,他們在該合成基因組中加入了很多“水印信息”,包括作者名字、研究所信息和詩句等。這也是基因組存儲信息的首次嘗試。2017年,Shipman等[46]通過CRISPR技術將“奔跑的馬”五幀視頻存儲到了群體細胞的基因組中,利用大腸桿菌傳代進行數(shù)據(jù)的復制,證明視頻可以在傳代中比較穩(wěn)定地保存下來。

基于體內(nèi)DNA存儲的信息保真和信息傳代潛力,研究人員嘗試利用DNA序列信息作為標簽,來跟蹤實驗結果、信息流動,甚至進行物流追蹤,該技術統(tǒng)稱為“DNA條形碼”(DNA barcoding)[62]。美國Springer教授提出了“BMS”技術,通過設計DNA條形碼進行組合,并且將其整合到枯草芽孢桿菌和釀酒酵母孢子的基因組中,通過噴灑轉移到接觸的物體上實現(xiàn)痕跡追蹤。DNA條形碼的識別,可以利用SHERLOCK、RPA、Cas13a和測序等方法實現(xiàn),從而進行食品等的物源追蹤[63],還可以結合CRISPR技術追蹤序列,研究腫瘤生長和癌癥演化等動態(tài)過程[64]。這些概念展示性工作提示了體內(nèi)DNA存儲與細胞傳感、細胞處理器等新型生物技術的可能接口。除了納米物聯(lián)網(wǎng)和疾病檢測,DNA存儲在不加干預的情況下,具有不可隨意改變和擦寫的性質(zhì),這使其天然適用于構建防篡改、防偽造和可追溯的“區(qū)塊鏈”數(shù)據(jù)結構。但從信息操作的實用角度來講,不可擦寫的存儲系統(tǒng)在應用領域將受到很大限制。在下文中,我們總結了人們針對DNA存儲體系中數(shù)據(jù)擦寫功能所做出的一些嘗試。

盡管迄今DNA體內(nèi)存儲均以短片段的形式呈現(xiàn),酵母人造染色體、大片段基因組操作等合成生物學最新進展完全可以應用于DNA存儲。長片段DNA體內(nèi)存儲適配于第三代單分子測序,可能實現(xiàn)DNA信息實時讀取。

3 DNA數(shù)據(jù)存儲的挑戰(zhàn)

3.1 數(shù)據(jù)安全

數(shù)據(jù)安全是信息儲存和傳輸領域的重要問題,它包括信息的完整性、可靠性和機密性等指標。雖然存儲于DNA分子上的信息具有動態(tài)穩(wěn)定性,但其擦寫、防偽等操作受限于生化反應的精確度而無法達到100%確定,這對于具體的應用具有兩面性,將在一段時間內(nèi)促進相關技術的迭代進步。

目前,合成生物學手段和基因編輯技術的發(fā)展和應用,使DNA分子的改寫成為可能。這既有利于DNA存儲走向更廣闊的應用場景,也對數(shù)據(jù)安全的保障提出了更高的要求。在細胞內(nèi)DNA存儲體系中,我們可以利用一些工具酶實現(xiàn)信息的擦除和重寫,例如位點特異性重組酶可以識別特定的DNA位點,進而翻轉、插入或者切除位點之間的一段DNA[65-66]。此外,在體外DNA存儲體系中,通過精心設計的生化反應,也可以實現(xiàn)信息“擦除”。2020年,Baym和Zhang課題組將真假兩種信息編碼在DNA溶液中,通過設計標記鏈并與溶液中的信息進行雜交來區(qū)分信息的真?zhèn)巍鎸嵭畔⒖膳c“真實標記”寡核苷酸進行雜交,而錯誤信息的標記鏈可以阻止DNA鏈的延伸和擴增,這樣保證只讀取真實信息。基于DNA雜交分子的溫度敏感性,作者發(fā)現(xiàn)在25°C下,DNA信息在存儲65天后可以穩(wěn)定地進行讀取,并且推測DNA在25°C下的半衰期超過15年,可以進行長期穩(wěn)定的信息存儲;但是在95°C下DNA雜交分子很快解離,僅加熱5 min,消息就會被永久擦除[67]。雖然目前受限于操作手段,人們對DNA存儲的信息擦寫研究并不深入,但是隨著技術的發(fā)展和進步,可能出現(xiàn)適用于幾大類存儲體系的較為通用的擦寫工具。

此外,信息科學中的加密編碼原則同樣適用于DNA存儲。Grass等[68]從人類DNA中生成了80 bit的強密匙,對存儲在DNA分子中的17 KB數(shù)據(jù)進行加密,并成功讀取和恢復了原始信息。DNA折紙也具備三維加密信息的潛能。上海交通大學左小磊課題組和中國科學院上海應用物理研究所樊春海課題組先后利用DNA折紙的精確定位與組裝能力,在存儲方面做出了初步嘗試[69-70]。在未來,DNA折紙的圖樣多樣性或可用于信息加密等信息安全領域。

3.2 讀寫速度和成本

隨著DNA合成技術的迅猛發(fā)展,人工合成DNA分子的成本持續(xù)下降。然而,如果要存儲大量的信息,需要合成的DNA分子數(shù)量也是龐大的,成為DNA分子信息存儲的主要開支。當前,使用陣列(高通量)合成DNA的成本約為每堿基0.0001美元。如果每個堿基存儲1 bit的信息,那么存儲1 TB的信息至少需要8億美元。相比之下,使用磁帶存儲同等規(guī)模數(shù)據(jù)的成本僅為16美元[49]。顯然,合成DNA的高昂成本削弱了DNA分子相比于傳統(tǒng)存儲介質(zhì)的競爭力,限制著DNA數(shù)據(jù)存儲進入大規(guī)模實用階段。

微陣列DNA合成技術更高效、快速,具有更高的成本效用,合成的速度可以達到每秒幾千堿基。第三代DNA合成技術以酶合成為基礎,雖然還處于發(fā)展初期,但有望大大減少DNA合成的時間和成本。Lee等[33]給出酶促合成法時間估計為每周期40 s,是化學合成法速度的6倍。化學合成法使用的亞磷酰胺試劑每周期的成本為0.626美元;而酶促合成法每周期的成本將比亞磷酰胺便宜1000倍以上。一旦酶反應系統(tǒng)被微型化,預計成本將再減少幾個數(shù)量級[31]。

自從1977年第一代DNA測序技術(Sanger法)出現(xiàn)以來,測序技術已獲得了巨大的發(fā)展,相比于最初的測序成本下降了100 000倍[35]。目前DNA存儲的主流方式是短片段信息存儲(oligo pool),最合適的讀取方式是二代測序。二代測序的核心思想是大規(guī)模平行測序,一次上樣可并行幾十萬到幾百萬條DNA分子的序列測定,這足夠滿足當前的DNA存儲規(guī)模的需求。但隨著信息量的不斷增加,二代測序的運行速度(含建庫、讀取等流程,一輪數(shù)天時間)僅能勉強滿足冷數(shù)據(jù)讀取的需求。

Helicos公司的Heliscope單分子測序儀、Pacific Biosciences公司的SMRT單分子測序技術和Oxford Nanopore Technologies公司的納米孔單分子技術和單細胞基因組測序技術[71-78],被統(tǒng)稱為三代測序技術,也被稱為“單分子測序技術”。在DNA信息存儲的應用范疇中,三代測序技術對于數(shù)據(jù)存儲量的擴大和實時讀取等目標的實現(xiàn)存在巨大的幫助。此外,三代測序除了消除對PCR擴增的依賴性外,更顯著地增加了讀取長度并提高了讀取速度,在長片段數(shù)據(jù)存儲上優(yōu)勢更大,有著廣泛的應用前景。其中的納米孔單分子技術,盡管目前錯誤率比其他生化測序平臺高,但是在測序通量、讀取長度、便攜性等方面獨具優(yōu)勢和發(fā)展?jié)摿?。例如Oxford Nanopore Technologies公司開發(fā)的三代測序系列產(chǎn)品,其DNA平均過孔速率為450 bp/s,袖珍便攜三代測序MinION有多達512個納米孔通道進行同時測序,而高通量臺式產(chǎn)品PromethION 48的數(shù)據(jù)通量為7.6 TB(72 h)量級,相當于29 MB/s的數(shù)據(jù)讀取速率。

隨著技術更迭和算法升級,三代測序或可用于體內(nèi)或體外穩(wěn)定化的長片段DNA存儲的信息讀取,并與當前傳統(tǒng)介質(zhì)的讀取速度(KB/s~GB/s)比肩。目前,已經(jīng)有一些DNA存儲工作嘗試使用三代測序進行數(shù)據(jù)讀?。?7,79]。

4 總結和展望

DNA因其普遍存在的耐久性和生物功能兼容性成為人工信息儲存的理想介質(zhì)。從數(shù)據(jù)穩(wěn)定性、傳輸、更迭、維護、保存等實用角度來講,它具備得天獨厚的優(yōu)勢,在如檔案文件存儲等特定的數(shù)據(jù)存儲領域有可能替代傳統(tǒng)存儲介質(zhì)。

在存儲形式上,體外存儲仍然是目前最常用的存儲形式,體外存儲利用短片段池(oligo pool)進行信息存儲,主要的讀取方式是二代測序技術。二代測序的核心思想是大規(guī)模平行測序,其特點是能一次并行幾十萬到幾百萬條DNA分子的序列測定,且一般讀取長度較短,適合體外短片段存儲的信息讀取。但是隨著信息量的不斷增加,二代測序不能滿足和適應其要求。三代測序技術盡管錯誤率更高,但是對于更大的數(shù)據(jù)量和實時讀取等目標有著巨大的應用潛力。相對應讀的速度更快,所以在長片段數(shù)據(jù)存儲上優(yōu)勢更大。此外,三代測序除了消除對PCR擴增的依賴性外,顯著地增加了讀取長度并提高了讀取速度,在DNA信息存儲領域有著廣泛的應用前景。

盡管如此,目前仍然存在一些問題影響DNA存儲的使用和推廣。首先是寫和讀的成本高,但隨著DNA合成和測序技術的改善,其成本和準確性有望得到進一步優(yōu)化,使其更好地適用于DNA存儲領域。反之,DNA存儲的快速發(fā)展也將帶動合成和測序技術的二次飛躍。

其次,在信息編碼和硬件體系上,DNA存儲也將提供持續(xù)的技術發(fā)展動能。編碼算法和DNA生化反應體系的聯(lián)合發(fā)展,將主要攻克隨機讀取、擦寫、信息加密等關鍵問題。例如隨機讀取問題,如何高效地從存儲池中讀取某一指定位置的文件是一個挑戰(zhàn)。目前研究者們正通過在特定位置加入特定的標記或是優(yōu)化檢索算法,以攻克這個難題。對于擦寫問題,新的工具和技術應用將使改寫信息成為可能,尤其是合成生物學和基因組編輯技術的最新進展已經(jīng)展示了在活細胞中靈活準確地改變遺傳或人工信息的可能性[80]。天然和工程DNA靶向酶和修飾酶,包括重組酶[81]、逆轉錄酶[82]等多功能變體,可以用作DNA存儲系統(tǒng)中的編寫模塊。而多樣的信息編碼方法和利用DNA三維結構等方法加密信息,可以保障DNA存儲的信息安全。這些研究有望把DNA存儲從冷數(shù)據(jù)檔案文件存儲的領域中釋放出來,使其觸及更廣泛的數(shù)據(jù)操作領域,例如動態(tài)數(shù)據(jù)存儲、新型加密、區(qū)塊鏈等。

最后,活細胞DNA存儲技術搭配先進的細胞微處理器技術,可以在小尺度范圍整合數(shù)據(jù)的存儲與決策,即數(shù)據(jù)“存”與“算”的一體化和邊緣化,這個愿景的實現(xiàn)將依賴于DNA存儲技術和細胞計算領域的巨大突破。在未來的超大數(shù)據(jù)時代,活細胞DNA存儲或能以醫(yī)療健康為中心進行廣泛的應用輻射,具備顛覆性技術的潛能。

猜你喜歡
存儲介質(zhì)堿基測序
生物測序走在前
外顯子組測序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
應用思維進階構建模型 例談培養(yǎng)學生創(chuàng)造性思維
HDFS數(shù)據(jù)動態(tài)分布設計與實現(xiàn)
中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
中草藥DNA條形碼高通量基因測序一體機驗收會在京召開
生命“字母表”迎來新成員
生命“字母表”迎來4名新成員
基因測序技術研究進展
一種使用存儲介質(zhì)驅動的方式
西乡县| 英山县| 敖汉旗| 安庆市| 长葛市| 铜鼓县| 财经| 万源市| 大连市| 岚皋县| 准格尔旗| 赤壁市| 湟中县| 海口市| 定兴县| 闽清县| 水城县| 台中市| 谢通门县| 句容市| 连江县| 永修县| 兰溪市| 渑池县| 蒙城县| 交口县| 高碑店市| 司法| 长顺县| 延津县| 定州市| 桐梓县| 项城市| 西吉县| 沂南县| 沾益县| 天气| 新沂市| 桦川县| 海丰县| 南充市|