楊洋,樊春海,2
(1上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院,分子醫(yī)學(xué)研究院,上海 200127;2上海交通大學(xué)化學(xué)化工學(xué)院,上海 200240)
近二十年來人類在信息技術(shù)方面取得的進(jìn)步,尤其是互聯(lián)網(wǎng)和移動互聯(lián)技術(shù)的發(fā)展,帶來了前所未有的數(shù)據(jù)爆炸和信息存儲危機(jī)。在科研與社會服務(wù)層面,更高分辨率的天文觀測、醫(yī)學(xué)成像以及交通監(jiān)控正在不斷產(chǎn)生大量的圖像視頻類數(shù)據(jù)。社交網(wǎng)絡(luò)則是另一個重要場景,除了互動信息之外,個人化的照片與視頻創(chuàng)造和傳播呈現(xiàn)加速趨勢,預(yù)計(jì)到2030年全球網(wǎng)民比例將從2017年的51%增長至近乎全覆蓋,屆時(shí)數(shù)據(jù)產(chǎn)生的速度也將翻倍。全球數(shù)字化的這一發(fā)展趨勢使得數(shù)據(jù)量快速增長,據(jù)國際數(shù)據(jù)公司統(tǒng)計(jì),2018年人類產(chǎn)生的數(shù)據(jù)總量達(dá)到了33 ZB(1 ZB≈109TB),而到2025年這一數(shù)字將增長為驚人的175 ZB。面對快速增長的海量數(shù)據(jù),基于磁、光、電等的傳統(tǒng)介質(zhì)的存儲技術(shù)面臨功耗、體積以及使用壽命等限制,而DNA存儲提供了應(yīng)對數(shù)據(jù)存儲發(fā)展挑戰(zhàn)的新契機(jī)。
DNA因其極高的信息密度和非凡的穩(wěn)定性成為存儲系統(tǒng)的有力候選。首先,DNA的信息密度非常大,自然界中大部分生物的全部生命信息都存儲在DNA中,以人類為例,人體大約可以產(chǎn)生40萬種蛋白質(zhì),而它們需要在不同的發(fā)育階段,以不同的數(shù)量和速度在不同的細(xì)胞中被表達(dá)、使用和代謝。所有這些蛋白及其程序控制相關(guān)的信息都被存儲于僅僅23對染色體上。一個細(xì)胞中染色體所折疊的DNA全部拉直并連接雖然可以長達(dá)3 m,但其重量卻僅有10-11g。一方面理論上,1 g DNA可以存儲455 EB(1 EB≈106TB)的數(shù)據(jù)量,據(jù)此計(jì)算1億部高清電影如果存儲于DNA中,這些DNA只需要占據(jù)一塊橡皮的大小,而利用2T的硬盤來存儲的話則需要10萬個硬盤。另一方面,DNA存儲數(shù)據(jù)具有極高的穩(wěn)定性,不但動植物化石中保存的DNA可以歷經(jīng)千年保持可讀性,提純的DNA經(jīng)過濃縮與干燥,可在惰性氣體保護(hù)下保存至少百年的時(shí)間。而如果把攜載外部信息的DNA借由微生物進(jìn)行保存,其拷貝數(shù)可以以指數(shù)形式大量擴(kuò)增并代代相傳,相比承載與維持服務(wù)器機(jī)組工作所需的巨大機(jī)房和空調(diào)系統(tǒng),利用微生物攜載DNA用于信息存儲也是極其綠色節(jié)能的選擇。因此,越來越多的國家已經(jīng)開始將基于DNA的數(shù)據(jù)存儲列為戰(zhàn)略層面的發(fā)展方向,例如2021年1月,美國半導(dǎo)體產(chǎn)業(yè)協(xié)會(SIA)發(fā)布的《半導(dǎo)體10年計(jì)劃》,將DNA數(shù)據(jù)存儲列為未來海量數(shù)據(jù)存儲的重要選項(xiàng)。我國科技部也早在2018年即開展了基于DNA的信息存儲相關(guān)項(xiàng)目部署。在2021年3月份通過的國家“十四五”規(guī)劃綱要的第九章中更明確提出“推動生物技術(shù)和信息技術(shù)融合創(chuàng)新”的目標(biāo),為大力發(fā)展合成生物學(xué)及DNA信息存儲技術(shù)提供了政策引導(dǎo)。本文評述作者長期從事核酸分析、納米技術(shù)以及DNA編碼與計(jì)算相關(guān)的交叉學(xué)科研究并取得了顯著成果,將在下文中簡要綜述DNA信息存儲的歷史發(fā)展,對近期基于酵母的人工染色體構(gòu)建與DNA信息存儲的進(jìn)展工作稍作點(diǎn)評。
從1960年代蘇聯(lián)物理學(xué)家Mikhail Samiolvich Neiman首次提出關(guān)于DNA作為信息存儲物質(zhì)的設(shè)想[1],到1986年麻省理工學(xué)院的研究員Joe Davis將12個字母的詞組轉(zhuǎn)換為28個堿基對的DNA序列并插入大腸桿菌(E.coli)細(xì)胞中[2],DNA作為存儲材料的潛力早已為人所知。但存儲數(shù)據(jù)量和檢索讀出技術(shù)距離實(shí)用還有很遠(yuǎn)的距離。自1980年代以來不斷進(jìn)步的DNA固相合成技術(shù)快速發(fā)展,為大量數(shù)據(jù)的寫入提供了基礎(chǔ),與此同時(shí)DNA測序技術(shù)的迭代升級使得信息的高效讀取成為可能。近年來飛速發(fā)展的新一代測序技術(shù)(next generation sequencing,NGS)[3]提供了同時(shí)平行測序百萬條短DNA序列的平臺,利用NGS技術(shù),一個人的基因組可以在一天內(nèi)測序拼接完成,而傳統(tǒng)的桑格爾(Sanger)測序法[4]在一臺測序儀上完成這一工作則需要十年的時(shí)間。伴隨著整個分子生物學(xué)的發(fā)展,我們終于可以編寫、存儲、檢索和讀取大量的DNA序列。同時(shí),以DNA為媒介存儲信息的工作也不斷涌現(xiàn),存儲的數(shù)據(jù)量和數(shù)據(jù)類型都不斷增加。1999年,紐約大學(xué)Risca等[5]利用69個堿基對成功編碼和檢索了含有22個字母、數(shù)字和字符的消息。2012年,哈佛大學(xué)Church課題組在《科學(xué)》雜志發(fā)表論文,詳細(xì)介紹了如何使用DNA來存儲一本含由53 426個詞的書[6]。在存儲算法研究方面,簡單的二進(jìn)制向四進(jìn)制的轉(zhuǎn)換并不能最大程度地利用DNA的存儲能力,隨機(jī)產(chǎn)生的特殊的序列組成(例如連續(xù)的G序列或C序列)有可能給合成與測序帶來錯誤概率的積累,因檢索與糾錯需求帶來的信息冗余又會使得存儲密度大打折扣。因此,信息的編碼算法起到舉足輕重的作用。2017年Yaniv Erlich和Dina Zielinski開發(fā)了一種新型的“噴泉“碼算法,可以將凈信息密度提高到1.57 bit/bp,將DNA的實(shí)際容量提高到86%[7]。美國微軟公司(Microsoft)在DNA存儲領(lǐng)域一直推進(jìn)技術(shù)革新,2016年他們與華盛頓大學(xué)合作發(fā)表的一篇有關(guān)DNA數(shù)據(jù)存儲前景的文章描述了如何利用合成的DNA編寫和檢索三幅圖像[8];在2019年,他們進(jìn)一步開發(fā)了一套全自動的DNA存儲與讀取設(shè)備[9];同年,他們又利用納米孔技術(shù)實(shí)現(xiàn)了1.67 MB的信息讀?。?0]。從這一領(lǐng)域快速增長的文章(2018年、2019年每年在PubMed上統(tǒng)計(jì)DNA data/information storage的相關(guān)文章超過1000篇)和專利數(shù)量(WIPO關(guān)于DNA數(shù)據(jù)存儲的國際專利申請超過1 700余件)可以判斷,國際上關(guān)于DNA信息存儲的競爭在未來十幾年中還將持續(xù)白熱化。
2021年2月12日,天津大學(xué)元英進(jìn)教授團(tuán)隊(duì)帶領(lǐng)的跨學(xué)科團(tuán)隊(duì)于National Science Review上在線發(fā)表了以“An artificial chromosome for data storage”為題的研究論文(天津大學(xué)微電子學(xué)院青年教師陳為剛副教授、化工學(xué)院博士研究生韓明哲以及助理研究員周見庭為論文共同第一作者)。該工作中,研究者從頭編碼設(shè)計(jì)合成了一條長度為254 886 bp,專用于數(shù)據(jù)存儲的酵母人工染色體,存儲了兩張圖片及一段視頻,編碼覆蓋率超過95%,并實(shí)現(xiàn)了數(shù)據(jù)的穩(wěn)定復(fù)制與快速可靠讀出(圖1)。
圖1 設(shè)計(jì)與組裝攜載信息的人工染色體Fig.1 Design and assembly of the artificial chromosome that carriesdigital information
在存儲環(huán)節(jié),一方面該研究借助疊加偽隨機(jī)序列應(yīng)對三代測序的插入/刪除(insertion/deletion)錯誤,采用現(xiàn)代通信中常用的低密度奇偶校驗(yàn)(low-density parity-check,LDPC)碼糾正替代錯誤,實(shí)現(xiàn)了在高達(dá)10%錯誤率時(shí)的數(shù)據(jù)可靠恢復(fù)。另一方面,該染色體設(shè)計(jì)中,插入一定數(shù)量的酵母自主復(fù)制序列(autonomously replicating sequence,ARS),提升了染色體的穩(wěn)定性,保障了其高效組裝和穩(wěn)定復(fù)制(>100代復(fù)制仍可讀出)。該存儲模式中,數(shù)據(jù)邏輯密度(包含載體)為1.19 bit/bp,與目前文獻(xiàn)中指標(biāo)最高的四進(jìn)制編碼DNA噴泉方案相當(dāng)[8]。
在數(shù)據(jù)讀取環(huán)節(jié),該工作利用三代納米孔測序技術(shù)在大約10 min時(shí)間內(nèi)獲得足夠的原始讀段后,結(jié)合自主設(shè)計(jì)的生物信息學(xué)與糾錯譯碼混合流程,便可實(shí)現(xiàn)數(shù)據(jù)可靠恢復(fù),所需測序覆蓋度僅為16.8×。相比純粹利用合成DNA存儲再利用聚合酶鏈反應(yīng)(PCR)技術(shù)進(jìn)行備份的傳統(tǒng)做法,利用酵母菌存儲信息可以實(shí)現(xiàn)一次寫入,多次讀出,體現(xiàn)了極好的低成本與便攜性優(yōu)勢。
這一最新研究成果為DNA存儲技術(shù)提供了新穎的角度與方案,可以期待的是,通過進(jìn)一步降低合成成本和構(gòu)建多條人工染色體,人們能夠在酵母菌中存儲更多數(shù)據(jù)。隨著合成生物學(xué)領(lǐng)域的更多技術(shù)進(jìn)步,利用DNA和生命系統(tǒng)存儲與利用信息將會成為大勢所趨,然而相比于以硅基硬盤為基礎(chǔ)的電子化信息存儲,核酸/微生物硬盤的廣泛應(yīng)用還有賴于存儲密度的進(jìn)一步提高,合成組裝操作的進(jìn)一步簡化,存、檢、讀方案的全面整合以及全流程的自動化集成。以DNA存儲為核心的上述全鏈條的技術(shù)研發(fā)有望引領(lǐng)多學(xué)科的交互發(fā)展與共同進(jìn)步。