国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DNA信息存儲:生命系統(tǒng)與信息系統(tǒng)的橋梁

2021-07-21 09:30韓明哲陳為剛宋理富李炳志元英進(jìn)
合成生物學(xué) 2021年3期
關(guān)鍵詞:存儲系統(tǒng)硬盤測序

韓明哲,陳為剛,宋理富,李炳志,元英進(jìn)

(1天津大學(xué),合成生物學(xué)前沿科學(xué)中心,系統(tǒng)生物工程教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072;2天津大學(xué)化工學(xué)院,天津 300072;3天津大學(xué)微電子學(xué)院,天津 300072)

信息存儲是文明傳承的基礎(chǔ)。人類是地球上最具智慧的生命體,從結(jié)繩記事開始,生命體外的數(shù)據(jù)存儲就成為了人類思想的延續(xù),記錄了燦爛文明。造紙與印刷術(shù)的發(fā)明,使得人類能夠存儲的數(shù)據(jù)量在幾百年內(nèi)獲得了大約5個(gè)數(shù)量級的提升[1];在計(jì)算機(jī)時(shí)代,尤其是近年來隨著信息技術(shù)的快速發(fā)展,人類生活的方方面面都逐漸實(shí)現(xiàn)數(shù)字化轉(zhuǎn)變,人類產(chǎn)生的數(shù)據(jù)爆發(fā)式增長。基于磁、光及集成電路的現(xiàn)代數(shù)據(jù)存儲介質(zhì)歷經(jīng)發(fā)展,存儲體積密度已經(jīng)可達(dá)到1010~1012bit/cm3[2]。與之相比,DNA存儲具有更高密度存儲潛力,如大腸桿菌染色體DNA的存儲體積密度據(jù)估算達(dá)約1019bit/cm3[3]。近年來,隨著合成生物學(xué)的快速發(fā)展,以高通量DNA合成技術(shù)[4]和人工合成染色體的工作為代表[5-6],標(biāo)志著人類對DNA的設(shè)計(jì)[7]、合成[8]、編輯[9]和讀取[10]能力已經(jīng)進(jìn)入到一個(gè)嶄新的時(shí)代。在此背景下,利用合成DNA進(jìn)行高密度信息存儲成為一個(gè)非常有前景的研究方向[11],得到了相關(guān)領(lǐng)域研究者、信息技術(shù)企業(yè)與生物科技企業(yè)的廣泛關(guān)注。2020年11月,微軟、西部數(shù)據(jù)等傳統(tǒng)信息技術(shù)企業(yè)與Twist Bioscience、Illumina等新興生物技術(shù)公司一道,共同宣布成立了第一個(gè)DNA數(shù)據(jù)存儲聯(lián)盟,將制定全面的行業(yè)路線圖,為經(jīng)濟(jì)高效的商業(yè)檔案存儲奠定基礎(chǔ)[12]。

1 DNA存儲數(shù)字信息

利用人工合成的脫氧核糖核酸(DNA)存儲數(shù)字信息,簡稱DNA信息存儲[13]。DNA用作信息存儲載體,具有存儲高密度、不受電磁干擾、長期高可靠和維護(hù)低成本等優(yōu)勢[13-16]。DNA作為天然的信息載體,以“A/T/C/G”數(shù)字信號的表示形式,存儲了億萬年來無數(shù)生物的遺傳信息,依托中心法則造就生命繁衍、進(jìn)化演化及生物多樣性。人類產(chǎn)生的海量信息,記錄在各類數(shù)字存儲介質(zhì),保存并得以延續(xù),支撐了文明的傳承與繁榮。利用DNA存儲數(shù)字信息連通了生物系統(tǒng)與信息系統(tǒng),發(fā)展了多種應(yīng)用模式,成為近年重要的研究熱點(diǎn)。

利用DNA存儲數(shù)字信息的原理和技術(shù)流程如圖1所示。其原理是:數(shù)字化信息在二進(jìn)制碼流、四進(jìn)制堿基序列和實(shí)際DNA片段之間的轉(zhuǎn)化與流動[3,13-14]。目前,基于此原理的技術(shù)流程主要包含兩個(gè)方面:①信息寫入,首先對文本、圖片或視頻等信息的二進(jìn)制碼流進(jìn)行編碼,得到A/T/C/G組成的堿基序列,隨后利用DNA合成技術(shù)將信息寫入對應(yīng)的DNA片段,并對其進(jìn)行多模式保存[17-18];②信息讀取,首先對制造的數(shù)據(jù)DNA片段進(jìn)行測序,隨后進(jìn)行識別、組裝、糾錯與解碼等,將存儲在DNA介質(zhì)中的數(shù)據(jù)還原為原始數(shù)字化信息,得到原始文本、圖片、聲音和視頻等。

圖1 DNA存儲的原理模型、技術(shù)流程和應(yīng)用模式Fig.1 The basic principle,technical work flow and storage modes of DNA information storage

2 DNA信息存儲的若干模式

依據(jù)DNA片段讀寫技術(shù)的特點(diǎn),類似傳統(tǒng)數(shù)據(jù)存儲,也可劃分為“硬盤”“光盤”“磁帶”等應(yīng)用模式?!癉NA硬盤”具有高通量讀寫特征,面向海量數(shù)據(jù)的高密度存儲;“DNA光盤”具有低成本快速復(fù)制特征,支持單寫多讀,面向數(shù)據(jù)的海量分發(fā);“DNA磁帶”具有體內(nèi)串行刻寫特征,面向數(shù)據(jù)或狀態(tài)的順時(shí)間記錄。以下將對各個(gè)存儲模式的特點(diǎn)和相關(guān)研究進(jìn)展進(jìn)行詳細(xì)介紹。

2.1 “DNA硬盤”模式

2012年哈佛大學(xué)George Church等在《科學(xué)》雜志發(fā)表研究成果[19],成功存儲和讀取了5.27 Mb包含文字、圖像和JavaScript程序的數(shù)字化信息,出錯率僅為百萬分之二。隨后在Johns Hopkins Magazine上首次提出“DNA硬盤”(DNA hard drive)[20]。該模式依托高通量DNA芯片合成技術(shù)和高通量二代測序技術(shù)來寫入和讀出數(shù)據(jù)。與傳統(tǒng)的硬盤類似,具有面向海量數(shù)據(jù)的高密度存儲潛質(zhì)。由此衍生的類似研究,可歸納為“DNA硬盤”。

“DNA硬盤”的數(shù)據(jù)端到端可靠性遠(yuǎn)不及傳統(tǒng)硬盤,需要解決DNA作為載體的數(shù)據(jù)可靠性問題[21]。目前商業(yè)硬盤的讀寫錯誤率低至10-15以下,而高通量合成寡核苷酸的錯誤率一般在1/2000到1/200[22-23],二代測序的錯誤率在1/1000到1/100[24]。為了解決這些錯誤對信息可靠性的影響,多個(gè)信息領(lǐng)域的信息編碼方法被引入到了“DNA硬盤”框架。歐洲分子生物學(xué)實(shí)驗(yàn)室的Goldman教授[25]通過添加四倍冗余和簡單的校驗(yàn)機(jī)制實(shí)現(xiàn)了數(shù)據(jù)的可靠恢復(fù),但是由于四倍冗余的設(shè)計(jì),該方法實(shí)現(xiàn)的邏輯密度(bit/nt)和成本控制都不理想。蘇黎世聯(lián)邦理工大學(xué)Grass團(tuán)隊(duì)[26]引入了里德-所羅門(RS)糾刪碼,解決了寡核苷酸鏈池中部分片段丟失以及片段內(nèi)堿基替代錯誤,在保證數(shù)據(jù)可靠恢復(fù)的同時(shí)使數(shù)據(jù)部分的邏輯密度超過了1 bit/nt。Erlich等[27]引入了噴泉碼,更好地適配海量片段化的存儲模式,將數(shù)據(jù)部分的邏輯密度進(jìn)一步提升到1.57 bit/nt。另一思路,Anavy等[28]和Choi等[29]分別使用了簡并堿基來拓展DNA的多進(jìn)制表示方法,將“硬盤”模式下的邏輯密度推升到了2 bit/nt以上,但是此方法也面臨需要更高測序覆蓋度(覆蓋度>150×)的問題。除此之外,在未來引入非天然堿基拓展存儲單元,可進(jìn)一步提升邏輯密度[30]。總而言之,在確保數(shù)據(jù)可靠性的前提下,逼近數(shù)據(jù)承載能力的極限是DNA信息存儲發(fā)展的趨勢[31]。

值得關(guān)注的是,“DNA硬盤”中合成與測序會引入堿基的插入和缺失錯誤(insertion/deletion,簡稱Indel),這有別于傳統(tǒng)存儲介質(zhì),處理較為困難[3]。針對該問題,Press等[32]提出了基于哈希編碼和貪婪窮舉解碼的編碼方案,該方案能夠在單分子拷貝的情況下糾正插入和缺失錯誤,但是需要較高的冗余度來實(shí)現(xiàn)糾錯,且解碼復(fù)雜度較高。Sabary等[33]提出了幾種動態(tài)的DNA重構(gòu)算法,可直接用于較高錯誤率下的DNA序列重建。天津大學(xué)Song等[34]設(shè)計(jì)了一個(gè)基于德布萊英圖(de Bruijn Graph)的DNA序列高魯棒重建算法,如圖2所示,可以從包含大量插入缺失和替代錯誤的多序列快速重建無錯誤的DNA片段序列。該方法可以從低質(zhì)量的PCR產(chǎn)物(序列長度完全錯誤)中可靠地讀取數(shù)據(jù),實(shí)現(xiàn)高魯棒讀取。

圖2 基于de Bruijn圖論的DNA序列重建算法[34]Fig.2 Algorithm of de Bruijn graph-based reconstruction of DNA strands[34]

為降低“DNA硬盤”寫入成本,提高寫入速度,2019年,Lee等[35]采用非阻斷型的末端脫氧核酸轉(zhuǎn)移酶(TdT)合成DNA,實(shí)現(xiàn)了一種專用于信息存儲的DNA酶法合成技術(shù)。2020年,Lee等[36]進(jìn)一步利用圖案化紫外光快速解離Co2+激活TdT,成功編碼了110位的數(shù)據(jù)信息,初步驗(yàn)證了在陣列表面實(shí)現(xiàn)大規(guī)模DNA并行合成的可行性。

為解決“DNA硬盤”多輪PCR造成的偏好性累積和部分DNA片段丟失的問題,Lin等[37]通過對原始文庫修飾并引入RNA逆轉(zhuǎn)錄過程,構(gòu)建了始終以原始文庫為模板的擴(kuò)增方法,在一定程度上降低了多次訪問對原始文庫的影響。Choi等[38]將原始文庫固定在具有二維碼編號的微盤上,實(shí)現(xiàn)了對文庫的原位(in situ)擴(kuò)增,經(jīng)過20輪擴(kuò)增未發(fā)現(xiàn)產(chǎn)物片段分布的明顯變化,顯著降低了擴(kuò)增帶來的偏好性,同時(shí)還通過二維碼實(shí)現(xiàn)了數(shù)據(jù)庫管理。天津大學(xué)Gao等[39]將原始文庫固定在磁珠上,通過等溫鏈置換擴(kuò)增技術(shù),實(shí)現(xiàn)了對文庫低偏好性、穩(wěn)定重復(fù)的擴(kuò)增。

“DNA硬盤”的應(yīng)用模式已實(shí)現(xiàn)了一定規(guī)模的存儲驗(yàn)證[40-47]。2018年,華盛頓大學(xué)和微軟公司的研究團(tuán)隊(duì)實(shí)現(xiàn)了200 MB的數(shù)據(jù)存儲和部分?jǐn)?shù)據(jù)文件的隨機(jī)訪問[40],并于2019年開發(fā)了原型設(shè)備,實(shí)現(xiàn)了“HELLO”的自動讀寫[41],同時(shí)還設(shè)計(jì)了DNA保存和訪問的微流控平臺[42];2019年,美國Catalog公司[43]利用獨(dú)創(chuàng)的DNA寫入技術(shù),存儲了16 GB的維基百科數(shù)據(jù),是目前最大規(guī)模的“DNA硬盤”。在國內(nèi),天津大學(xué)陳為剛等[44]采用LDPC碼與RS碼的乘積碼保證可靠性,采用27萬條的寡核苷酸池存儲超過3 MB數(shù)據(jù),存儲了兩段有歷史價(jià)值的音視頻片段以及13 000多漢字,實(shí)現(xiàn)了低樣本濃度、低測序覆蓋度的可靠讀出(圖3)。深圳華大生命科學(xué)研究院Ping等[45]設(shè)計(jì)的“陰-陽”編碼策略可調(diào)整均聚物長度或GC含量等以滿足不同用戶需求,實(shí)現(xiàn)了2.02 MB數(shù)據(jù)的存儲。

圖3 “DNA硬盤”模式示意圖[44]Fig.3 Schematic diagram of"DNA hard drive"[44]

2.2 “DNA光盤”模式

與“DNA硬盤”的體外存儲方式不同,一種生命體內(nèi)的DNA信息存儲模式也被提出,其特征類似光盤,本文歸納為“DNA光盤”[48]。該模式的主要特征是采用較長DNA片段,通過細(xì)胞體內(nèi)組裝完成寫入、借助細(xì)胞自身的快速低成本的DNA復(fù)制能力,快速且均一拷貝數(shù)據(jù)。雖然“CD母版”的制作成本較高,即合成與組裝成本較高,但是其類似CD的低成本大量拷貝,使得“母版”成本得以分?jǐn)?。受益于常用模式生物較低的突變率[49-50],“DNA光盤”亦可高保真拷貝,支持?jǐn)?shù)據(jù)長期傳代復(fù)制[51]。利用小型納米孔測序器件,有望實(shí)現(xiàn)數(shù)據(jù)快速讀出,便攜式“DNA光驅(qū)”呼之欲出。值得注意的是,納米孔測序錯誤率高達(dá)10%,并且包含難以處理的插入與缺失錯誤[52]。因此如何保證數(shù)據(jù)在納米孔測序下的可靠讀出,是一個(gè)值得研究的方向。

“DNA光盤”開始于早期細(xì)胞體內(nèi)存儲數(shù)字信息的概念驗(yàn)證,探索單個(gè)細(xì)胞內(nèi)存儲的數(shù)據(jù)量是個(gè)有價(jià)值的問題。概念驗(yàn)證多使用質(zhì)粒在大腸桿菌內(nèi)存儲數(shù)據(jù),編碼的DNA長度通常不超過1 kbp[53-59]。2010年,Venter等[60]在化學(xué)合成蕈狀支原體時(shí),第一次在原核生物基因組中嵌入了超過4 kbp的編碼DNA存儲外部信息。本文作者[48]從頭設(shè)計(jì)合成了一條254 886 bp的存儲專用染色體,其中數(shù)據(jù)編碼部分占95.27%,將單菌內(nèi)數(shù)據(jù)存儲DNA數(shù)量提升到了百kbp級,存儲了37.8 KB圖片、視頻以及文字,利用疊加編碼方案,有效克服三代測序的高錯誤率問題,實(shí)現(xiàn)了數(shù)據(jù)的可靠恢復(fù)。這項(xiàng)工作突破性地將單菌內(nèi)數(shù)據(jù)存儲DNA數(shù)量提升到百kbp級,初步打通了單細(xì)胞數(shù)據(jù)存儲容量這個(gè)限制“DNA光盤”模式存儲通量提升的關(guān)鍵因素(圖4)。

圖4 “DNA光盤”模式示意圖[48]Fig.4 Schematic diagram of"DNA CD"[48]

“DNA光盤”模式除了提高單細(xì)胞數(shù)據(jù)容量外,增加并行通量也是提升數(shù)據(jù)存儲容量的關(guān)鍵。Shipman等[61]通過CRISPR/CAS1-CAS2系統(tǒng)捕捉DNA小片段整合進(jìn)大腸桿菌群體的CRISPR序列中,分別編碼了494字節(jié)的21色圖片和2.6 KB的動畫短片。天津大學(xué)Hao等[62]構(gòu)建了攜帶不同短信息片段質(zhì)粒的大腸桿菌分布式混菌存儲系統(tǒng),在維持低成本的同時(shí)實(shí)現(xiàn)較大的體內(nèi)存儲通量,將445 KB的數(shù)字文件存儲在11 520個(gè)115 bp的合成DNA中。

2.3 “DNA磁帶”及其他模式

運(yùn)用動態(tài)基因組工程(dynamic genome engineering)[63]在生命體內(nèi)“書寫”DNA來記錄信息的新模式,一定程度上類似磁帶,本文稱之為“DNA磁帶”?!皶鴮憽卑▽μ囟―NA靶向插入、刪除、倒位和單堿基突變等操作,類似于在磁帶上磁化刻錄以記錄信息[64]。目前已經(jīng)驗(yàn)證的模型中,“書寫”過程的開啟信號可以是對抗生素或病毒的暴露、營養(yǎng)底物的改變和對光及特定誘導(dǎo)劑的響應(yīng)等[65-69]。起初“DNA磁帶”主要記錄細(xì)胞內(nèi)的特定事件或狀態(tài),Harries Wang團(tuán)隊(duì)[70]首次構(gòu)建了基于電刺激的“人-胞”輸入接口,利用電壓控制胞內(nèi)的氧化還原對狀態(tài),從而誘導(dǎo)CRISPR/Cas1-Cas2系統(tǒng)在特定位點(diǎn)插入不同的DNA序列,實(shí)現(xiàn)信息寫入。這使得未來半導(dǎo)體-生物接口的發(fā)展成為了可能。進(jìn)一步,得益于基因線路設(shè)計(jì)的發(fā)展,生物“邏輯門”可與“DNA磁帶”相結(jié)合,為生物細(xì)胞計(jì)算提供記錄。然而,“DNA磁帶”依然存在邏輯密度低、數(shù)據(jù)響應(yīng)延遲和精準(zhǔn)性較低等問題。此外,目前通常是基于菌群進(jìn)行記錄,通過加標(biāo)簽(barcode)對不同菌群進(jìn)行區(qū)分[70],隨機(jī)訪問的難度較大。

與“DNA磁帶”模式類似,為避免人工合成DNA產(chǎn)生的高昂成本,美國UIUC的Tabatabaei等[71]模仿古老的打孔卡存儲方式,以天然的DNA分子鏈(例如基因組DNA、克隆或PCR擴(kuò)增產(chǎn)物)為“卡紙”,以特定的酶為“打孔機(jī)”,建立了一種“打孔卡”DNA存儲方法。該方法通過在DNA磷酸骨架上預(yù)設(shè)位置“打孔”來表示二進(jìn)制數(shù)據(jù)中的“0”和“1”,從而避免了昂貴的DNA合成。與之相似,以天然M13噬菌體單鏈DNA為骨架,Chen等[72-73]在骨架上間隔插入帶有生物素標(biāo)記的支鏈DNA用以記錄信息,并通過納米孔測序檢測是否帶有標(biāo)記物來讀取數(shù)據(jù)的“0”和“1”。然而,這種基于天然DNA分子鏈的存儲技術(shù)沒有發(fā)揮DNA存儲密度大的優(yōu)勢。

除此之外,華盛頓大學(xué)和微軟公司的研究團(tuán)隊(duì)[74]也嘗試了對組裝后的寡核苷酸池進(jìn)行納米孔測序。上海交通大學(xué)Zhang等[75]利用DNA折紙技術(shù)實(shí)現(xiàn)信息的加解密,這種基于結(jié)構(gòu)的信息表示和加密方法,為保證重要信息的安全性提供了新的方案。

3 挑戰(zhàn)與展望

當(dāng)前DNA信息存儲的主要挑戰(zhàn)為單位信息存儲成本高,信息讀寫速度慢,無法高效對接現(xiàn)有信息系統(tǒng)。因此,DNA信息存儲當(dāng)前發(fā)展的重點(diǎn)是進(jìn)一步降低成本,提高讀寫速度,實(shí)現(xiàn)與現(xiàn)有信息系統(tǒng)的融合。

3.1 更低成本的信息寫入

目前,寡核苷酸池的商業(yè)合成價(jià)格大約為0.002美元/base,折合0.001美元/bit(約8.6×106美元/GB)[23,76],寫入成本較高,是硬盤的108倍[77],如圖5所示。美國情報(bào)高級研究計(jì)劃局(IARPA)分子信息存儲技術(shù)(MIST)項(xiàng)目的目標(biāo)是到2023年DNA信息寫入成本將降低至10-10美元/bit(約0.86美元/GB)[78]。

圖5 DNA信息存儲成本比較與預(yù)測Fig.5 Comparison and forecast of cost by DNA information storage

DNA信息存儲成本在未來有很大下降的潛力。首先,Twist Bioscience的首席技術(shù)官在2016年聲稱其合成成本已經(jīng)低于10-12美元/base[79]。但是,運(yùn)行維護(hù)、合成芯片、試劑耗材、質(zhì)量控制以及人工等其他成本造成了現(xiàn)有DNA信息寫入成本較高的現(xiàn)狀??梢詮膬?yōu)化合成反應(yīng)、改良芯片結(jié)構(gòu)、替換廉價(jià)耗材、優(yōu)化試劑分配量等多方面著手,有望大幅降低合成成本。其次,傳統(tǒng)上DNA合成主要用于生命科學(xué)研究,其技術(shù)指標(biāo)與DNA信息存儲的需求不匹配。面向DNA信息存儲的合成,可容忍合成步驟產(chǎn)生的更多錯誤,降低精度與純度要求,減少質(zhì)量控制成本,在保證數(shù)據(jù)準(zhǔn)確性而不是序列準(zhǔn)確性的基礎(chǔ)上提升合成的長度和通量,從而有望大幅降低合成成本[80]。再者,由于信息存儲領(lǐng)域市場規(guī)模巨大,隨著半導(dǎo)體器件、微納加工在DNA信息存儲領(lǐng)域的應(yīng)用,該領(lǐng)域的巨大投入將對DNA合成技術(shù)產(chǎn)生重大影響,DNA合成技術(shù)與裝備快速迭代升級,合成通量快速提升,成本有望快速下降。

3.2 更快速的數(shù)據(jù)讀取

DNA信息存儲的讀取依賴測序技術(shù),與磁、光、電等存儲相比,讀取速度較慢,如圖6所示。進(jìn)一步提升讀取速度,是DNA信息存儲發(fā)展的一個(gè)需求。DNA的測序技術(shù)與現(xiàn)有電、磁存儲技術(shù)的串行讀取不同,具有高并行讀取特點(diǎn),以Illumina為代表的二代測序技術(shù)可以同時(shí)讀取0.04億~11億個(gè)位點(diǎn)[81]。然而,每輪測序反應(yīng)和信號采集時(shí)間長達(dá)2.2~19 min[82],所有反應(yīng)所耗時(shí)間約占運(yùn)行時(shí)間的90%。通過高通量(也即空間并行度)彌補(bǔ)反應(yīng)時(shí)間較慢的缺陷,讀取速度可達(dá)5~500 KB/s[81](最大數(shù)據(jù)產(chǎn)出/最長運(yùn)行時(shí)間),但是需測序完全結(jié)束后才能獲取原始數(shù)據(jù)。三代納米孔測序已經(jīng)做到便攜化和低延遲數(shù)據(jù)生成,單通道測序速度約為450 bp/s(約112 B/s)[83],基 于MinION測序芯片(最多支持512通道同時(shí)讀取)的最高讀取速度約為56 KB/s(不包含電信號到堿基轉(zhuǎn)換時(shí)間)。而現(xiàn)有電、磁存儲技術(shù)通常每秒可讀取幾十到幾百兆字節(jié)數(shù)據(jù)?;诙鷾y序的數(shù)據(jù)讀取受化學(xué)反應(yīng)限制,較難突破性地降低反應(yīng)時(shí)間,可以通過進(jìn)一步增大通量滿足未來大規(guī)模冷數(shù)據(jù)讀取需求;基于三代納米孔測序的數(shù)據(jù)讀取,依然有較大潛力提升單孔讀取速度,如固相納米孔的發(fā)展有望在保證分辨率的前提下繼續(xù)提升讀取速度1~3個(gè)數(shù)量級[84],甚至在未來超越現(xiàn)有存儲的讀取速度。此外,提高并行化讀取的集成程度,構(gòu)建一體化、自動化的讀取專用設(shè)備也面臨很大挑戰(zhàn),需要機(jī)械、生化、信息、控制等的多學(xué)科協(xié)同解決。

圖6 DNA信息存儲讀取速度對比Fig.6 Comparison of reading rate for DNA information storage

3.3 DNA信息存儲與現(xiàn)代存儲系統(tǒng)的融合

依據(jù)DNA合成與讀取的技術(shù)發(fā)展現(xiàn)狀和特點(diǎn),DNA信息存儲有望率先在冷數(shù)據(jù)存儲方面獲得應(yīng)用[85]。圖7為DNA信息存儲在開放系統(tǒng)互聯(lián)(OSI)、模型中的映射關(guān)系以及存儲系統(tǒng)分等級架構(gòu)。DNA作為新介質(zhì),融入現(xiàn)代存儲系統(tǒng)的過程,也是信息存儲系統(tǒng)不斷演化完善的過程。

圖7 DNA信息存儲與現(xiàn)代存儲系統(tǒng)的融合Fig.7 Fusion of DNA information storage and information storage system

在物理層,造成DNA數(shù)據(jù)存儲不可靠的因素主要包括:合成、擴(kuò)增以及測序處理過程的非理想,體現(xiàn)在堿基的插入、缺失、替代(IDS)錯誤以及DNA分子或片段丟失等[86];按照信息理論研究范式,一旦建立了準(zhǔn)確的堿基錯誤模型,就可以設(shè)計(jì)匹配的信息編碼方法與數(shù)據(jù)恢復(fù)方法[31],設(shè)計(jì)有效的數(shù)據(jù)鏈路層。但是,由于DNA信息存儲信道的一些新特點(diǎn),例如包含Indel錯誤、信道容量尚無法準(zhǔn)確計(jì)算[87],值得深入研究[13,32,88]。中間各層是DNA信息存儲融入現(xiàn)代存儲系統(tǒng)的橋梁。傳統(tǒng)數(shù)據(jù)存儲領(lǐng)域的關(guān)鍵技術(shù),需要結(jié)合DNA介質(zhì)與DNA存儲的新特點(diǎn)進(jìn)行優(yōu)化設(shè)計(jì)。例如,目前糾刪碼已經(jīng)在基于寡核苷酸池的信息存儲模式得到了很好的應(yīng)用[27,40]。同時(shí),糾刪碼也廣泛應(yīng)用于存儲系統(tǒng)的中間各層,如何協(xié)調(diào)設(shè)計(jì)是一個(gè)非常有價(jià)值的問題。在應(yīng)用層,提供的用戶服務(wù)需要與DNA存儲特點(diǎn)相適配[89]。例如,數(shù)據(jù)檢索、聚類分析、數(shù)據(jù)挖掘、特征識別等,需要方便地讀取數(shù)據(jù),而現(xiàn)階段DNA信息存儲將大塊數(shù)據(jù)封裝于無法實(shí)時(shí)讀取的DNA介質(zhì)。因此,探索結(jié)合DNA信息存儲特點(diǎn)的“存算一體化”的處理引擎,設(shè)計(jì)跨層的直達(dá)DNA介質(zhì)的機(jī)制就顯得極為重要。

存儲系統(tǒng)的分等級架構(gòu)是存儲系統(tǒng)充分發(fā)揮作用的基礎(chǔ),DNA作為新的存儲介質(zhì),短期內(nèi)其技術(shù)特性與大容量冷數(shù)據(jù)歸檔存儲最為匹配。據(jù)預(yù)測,歸檔的冷數(shù)據(jù)比例高達(dá)60%[90],冷數(shù)據(jù)的DNA存儲展現(xiàn)出了巨大的發(fā)展?jié)摿?,有望平穩(wěn)融入現(xiàn)代數(shù)據(jù)存儲體系。

值得一提的是,DNA信息存儲也可能給傳統(tǒng)信息系統(tǒng)帶來安全方面的隱患。研究者可將計(jì)算機(jī)病毒信息存儲于DNA,通過DNA測序以及處理過程,訪問并進(jìn)入非合作方的計(jì)算機(jī)系統(tǒng),造成信息安全風(fēng)險(xiǎn)[91-92]。而DNA分子極小的物理尺度、特定條件下穩(wěn)定的物理性質(zhì)和無金屬特征的非電/磁存儲,為隱蔽數(shù)據(jù)傳遞提供了新途徑。將攜帶信息的DNA封裝為可打印材料,存儲到常見的生活物品中并隱蔽傳遞[26,93],可能造成敏感數(shù)據(jù)泄露。

3.4 總結(jié)

近年來,DNA信息存儲的基本原理、技術(shù)流程和應(yīng)用模式引起了研究者的廣泛關(guān)注。DNA信息存儲連接了生命系統(tǒng)與信息系統(tǒng),推動相關(guān)研究與應(yīng)用的發(fā)展。以“DNA硬盤”為主的體外存儲與電子信息系統(tǒng)耦合更多,拓展了現(xiàn)有基于磁、光、電的電子信息存儲系統(tǒng);以“DNA光盤”和“DNA磁帶”為主的體內(nèi)存儲與生命信息系統(tǒng)耦合度比較大,提供了細(xì)胞內(nèi)的信息存儲器或記錄器,為未來細(xì)胞計(jì)算或細(xì)胞通信的發(fā)展提供了更廣闊的空間。DNA信息存儲是一個(gè)新興的、多學(xué)科深度交叉融合的研究方向。進(jìn)一步推動其走向?qū)嵱没悦媾R很多挑戰(zhàn)。為應(yīng)對挑戰(zhàn),美歐的相關(guān)企業(yè)、大學(xué)與研究機(jī)構(gòu)已經(jīng)組成了DNA數(shù)據(jù)存儲聯(lián)盟,通過廣泛合作共同制定全面的行業(yè)路線圖,以推動DNA信息存儲的產(chǎn)業(yè)化發(fā)展。據(jù)高德納咨詢公司預(yù)測,到2024年,將有30%的數(shù)字業(yè)務(wù)進(jìn)行DNA存儲試驗(yàn)[94],以應(yīng)對指數(shù)級增長的數(shù)據(jù)存儲需求。面對未來的存儲需求,國內(nèi)也亟需布局和發(fā)展DNA信息存儲研究與應(yīng)用。本文從合成生物學(xué)與信息科學(xué)交叉融合的視角,對近年來DNA信息存儲的研究進(jìn)行了綜述與展望,希望能吸引更多研究者在該交叉框架下提出有價(jià)值的研究問題,推動DNA信息存儲的發(fā)展與應(yīng)用。

猜你喜歡
存儲系統(tǒng)硬盤測序
生物測序走在前
外顯子組測序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
HiFi級4K硬盤播放機(jī) 億格瑞A15
Egreat(億格瑞)A10二代 4K硬盤播放機(jī)
服務(wù)器更換硬盤后的同步問題
中草藥DNA條形碼高通量基因測序一體機(jī)驗(yàn)收會在京召開
基因測序技術(shù)研究進(jìn)展
天河超算存儲系統(tǒng)在美創(chuàng)佳績
基于Hadoop 的海量醫(yī)藥電商數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)與開發(fā)
高速信號采集及存儲系統(tǒng)的信號完整性研究分析
霍州市| 五峰| 浦江县| 阿勒泰市| 洞口县| 星子县| 昌邑市| 涞源县| 信宜市| 新巴尔虎右旗| 定安县| 界首市| 囊谦县| 灵璧县| 曲水县| 大同县| 定陶县| 昭苏县| 三门县| 琼海市| 松阳县| 延安市| 通化县| 织金县| 泊头市| 页游| 陕西省| 堆龙德庆县| 新巴尔虎左旗| 乡城县| 金阳县| 娄底市| 旌德县| 寿阳县| 盐边县| 九寨沟县| 眉山市| 绥中县| 绥阳县| 屏东县| 齐河县|