周廷堯,羅源,蔣興宇
(南方科技大學(xué)生物醫(yī)學(xué)工程系,廣東 深圳 518055)
隨著互聯(lián)網(wǎng)和人工智能等信息技術(shù)的高速發(fā)展,人類(lèi)產(chǎn)生的數(shù)據(jù)信息呈爆炸式增長(zhǎng)。據(jù)國(guó)際數(shù)據(jù)公司(IDC)發(fā)布最新全球DataSphere顯示,2020年創(chuàng)建和使用的數(shù)據(jù)量高達(dá)5.9×1022字節(jié),并且今后每年數(shù)據(jù)量將以26%的速度增長(zhǎng)?,F(xiàn)有的數(shù)據(jù)存儲(chǔ)體系主要有磁性存儲(chǔ)(磁盤(pán)、磁帶和機(jī)械硬盤(pán))、光學(xué)存儲(chǔ)(CD、DVD)和固體存儲(chǔ)(閃存芯片、DRAM芯片)[1]。這些存儲(chǔ)體系雖然近些年來(lái)得到了較大的發(fā)展,但其劣勢(shì)日益凸顯,如存儲(chǔ)密度有限、有效存儲(chǔ)時(shí)間短、生產(chǎn)設(shè)備能耗高、原材料硅的供應(yīng)量有限且易污染環(huán)境等,已無(wú)法滿足當(dāng)前海量數(shù)據(jù)爆炸式增長(zhǎng)的需求[2-3]。因此,迫切需要發(fā)展一種具有更好存儲(chǔ)性能的新技術(shù)與新方法。
DNA是一種古老的存儲(chǔ)介質(zhì),儲(chǔ)存著從微生物到人類(lèi)億萬(wàn)生命的海量遺傳信息。自20世紀(jì)60年代以來(lái),因DNA分子的存儲(chǔ)密度高、耗能低、壽命長(zhǎng)、無(wú)磨損等潛在優(yōu)勢(shì),人們?cè)虳NA分子作為存儲(chǔ)媒介的可行性展開(kāi)討論[4-8]。近年來(lái),隨著DNA合成技術(shù)和新一代測(cè)序技術(shù)的突破性發(fā)展,DNA數(shù)據(jù)存儲(chǔ)已成為當(dāng)前全球數(shù)據(jù)信息存儲(chǔ)技術(shù)的研究熱點(diǎn)。2012年,哈佛醫(yī)學(xué)院和約翰·霍普金斯大學(xué)合作利用DNA編碼了一整本6.58×105字節(jié)的巨著,使DNA存儲(chǔ)技術(shù)邁進(jìn)了一大步[9]。2013年,歐洲生物信息研究所科研團(tuán)隊(duì)[10]將包含5種類(lèi)型數(shù)據(jù)7.39×105字節(jié)的計(jì)算機(jī)文件(文本、PDF、照片、MP3和霍夫曼編碼)編碼到肉眼看不到DNA序列中,為大規(guī)模、長(zhǎng)期且不經(jīng)常訪問(wèn)的數(shù)字檔案信息提供一種實(shí)用的存儲(chǔ)技術(shù)。2016年,微軟研究院和華盛頓大學(xué)合作將超過(guò)2.0×108字節(jié)的數(shù)據(jù)信息編碼到DNA分子中,同時(shí),微軟公司已計(jì)劃于2020年建立基于DNA分子的數(shù)據(jù)存儲(chǔ)系統(tǒng)[11]。2017年,紐約基因組中心和哥倫比亞大學(xué)聯(lián)合開(kāi)發(fā)了一種高度可靠的DNA噴泉算法,該方法可接近每個(gè)核苷酸存儲(chǔ)的信息的理論最大值[12]。與此同時(shí),國(guó)內(nèi)外一些企業(yè)也陸續(xù)推出基于DNA數(shù)據(jù)存儲(chǔ)的商業(yè)化服務(wù)。
本文以DNA數(shù)據(jù)存儲(chǔ)技術(shù)為主線,闡述DNA數(shù)據(jù)存儲(chǔ)的基本理論和工作流程,重點(diǎn)介紹DNA保存的方法與策略、信息安全與數(shù)據(jù)加密的研究進(jìn)展,最后討論DNA數(shù)據(jù)存儲(chǔ)現(xiàn)階段面臨的主要挑戰(zhàn)及發(fā)展趨勢(shì)。
在自然界中,DNA是由4種堿基——腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鳥(niǎo)嘌呤(G)按照特定順序鍵合而成的大分子聚合物。通過(guò)A與T、C與G堿基互補(bǔ)配體的原則,可形成雙螺旋的DNA雙鏈分子結(jié)構(gòu),承載著億萬(wàn)生命的海量遺傳信息。DNA存儲(chǔ)技術(shù)即是以人工合成的DNA為存儲(chǔ)介質(zhì),按照一定編碼規(guī)則將文本文檔、圖片和聲音文件等數(shù)據(jù)轉(zhuǎn)化為DNA序列,進(jìn)行存儲(chǔ)并完整讀取的技術(shù)[13-14]。與傳統(tǒng)的存儲(chǔ)介質(zhì)相比,DNA數(shù)據(jù)存儲(chǔ)具有如下優(yōu)勢(shì)。首先,存儲(chǔ)密度高。根據(jù)Shannon信息的定義,單個(gè)核苷酸可存儲(chǔ)最大容量為0.25字節(jié);通過(guò)換算為物理密度可知,1 g DNA可理論上存儲(chǔ)4.6×1020字節(jié)的數(shù)據(jù)量,存儲(chǔ)密度比目前主流的存儲(chǔ)介質(zhì)(如磁帶、HDD或固態(tài)存儲(chǔ))高出多個(gè)數(shù)量級(jí)[15]。2019年,華盛頓大學(xué)報(bào)道文件存儲(chǔ)密度可達(dá)1.7×1019字節(jié)/g。以此推測(cè),大約10 kg DNA分子就可滿足2025年全球數(shù)據(jù)總量存儲(chǔ)要求(預(yù)計(jì)數(shù)據(jù)量為1.75×1023字節(jié)),所占體積與籃球大小相似[16]。其次,DNA數(shù)據(jù)存儲(chǔ)易復(fù)制。雖然DNA分子存儲(chǔ)的數(shù)據(jù)不需要經(jīng)常復(fù)制保存,如果需要,亦可輕松完成。DNA可利用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)進(jìn)行指數(shù)化復(fù)制,顯著提高了數(shù)據(jù)的復(fù)制效率[17]。此外,與當(dāng)前存儲(chǔ)在HDD上在線數(shù)據(jù)不同,DNA數(shù)據(jù)存儲(chǔ)不需要電力供應(yīng),耗能低,即可長(zhǎng)時(shí)間穩(wěn)定地保存數(shù)據(jù)信息[18]。
DNA數(shù)據(jù)存儲(chǔ)的基本工作流程主要包括將數(shù)據(jù)信息編碼為DNA序列(編碼),根據(jù)序列合成DNA分子(寫(xiě)入),組織這些DNA分子進(jìn)行長(zhǎng)期保存和數(shù)據(jù)加密(保存和加密),檢索和有選擇地訪問(wèn)(隨機(jī)訪問(wèn)),讀取DNA序列(讀出),將其轉(zhuǎn)換為數(shù)字信息(解碼)[19],如圖1所示。
圖1 DNA數(shù)據(jù)存儲(chǔ)的基本工作流程[主要包括編碼(i)、寫(xiě)入(ii)、保存和加密(iii)、隨機(jī)訪問(wèn)(iv)、讀出(v)與解碼(vi)]Fig.1 Major steps of DNA data storage[including encode(i),write(ii),store and encrypt(iii),random access(iv),read(v)and decode(vi)]
計(jì)算機(jī)中文本、圖片、音頻和視頻等信息文件的保存與處理均采用以0、1為基元的二進(jìn)制數(shù),需按照一定的編碼規(guī)則將其映射成以A、T、C、G四字符編碼的DNA序列。雖然每種類(lèi)型信息所用的模型有所差別,但其編碼過(guò)程大致相似,一般包括數(shù)據(jù)壓縮、引入糾錯(cuò)和轉(zhuǎn)換DNA序列三個(gè)過(guò)程。
根據(jù)編碼的DNA序列完整無(wú)誤地合成出來(lái),制備一系列人工DNA分子。目前,合成DNA分子的主要方法有芯片法[20]、PCR法[21]、柱式合成法[22]和酶促合成法[23]。
選擇合適的載體將合成DNA分子進(jìn)行保存。目前合成DNA保存方法主要是細(xì)胞外保存法和細(xì)胞內(nèi)保存法。將DNA分子包埋在特殊的基質(zhì)中隔絕空氣和水分,可有效延長(zhǎng)其保存時(shí)間[24]。在延長(zhǎng)DNA保存時(shí)間的同時(shí),增強(qiáng)信息存儲(chǔ)的安全性,也是DNA數(shù)據(jù)存儲(chǔ)重要的研究方向。本文將在后續(xù)部分重點(diǎn)介紹DNA保存方法的研究進(jìn)展,并簡(jiǎn)要總結(jié)信息安全與數(shù)據(jù)加密的最新研究成果。
隨機(jī)訪問(wèn)是用于計(jì)算機(jī)科學(xué)中選定信息的讀取,是DNA數(shù)據(jù)存儲(chǔ)可行性的一個(gè)關(guān)鍵特征。為了避免讀取整個(gè)存儲(chǔ)系統(tǒng),需要設(shè)計(jì)索引方法來(lái)提取特定的DNA序列。目前索引方法主要是基于PCR的引物擴(kuò)增[25]和基于修飾特定DNA序列的磁珠法[26]。
通過(guò)DNA測(cè)序儀器讀取DNA序列。DNA測(cè)序法主要有“大規(guī)模并行合成測(cè)序法”[27]“DNA納米球測(cè)序法”[28]和“納米孔測(cè)序法”[29]。前者技術(shù)成熟,錯(cuò)誤率低,但周期較長(zhǎng);后者技術(shù)在發(fā)展中,錯(cuò)誤率相對(duì)較高,但能夠?qū)崟r(shí)讀出。根據(jù)測(cè)定的DNA序列,設(shè)計(jì)解碼程序,轉(zhuǎn)換為二進(jìn)制數(shù)據(jù),最后還原成計(jì)算機(jī)文件。
與其他存儲(chǔ)介質(zhì)相比,DNA數(shù)據(jù)存儲(chǔ)一個(gè)巨大的優(yōu)勢(shì)在于可以長(zhǎng)久保存數(shù)據(jù)。近期考古學(xué)研究還可以對(duì)來(lái)自30萬(wàn)年前熊和人類(lèi)的線粒體DNA測(cè)序[30-31]。然而,天然未受保護(hù)的DNA是一種非常脆弱的生物分子,易水解或者被氧化,有著特征性的半衰期[32-33]。它們的半衰期與存儲(chǔ)溫度和DNA鏈長(zhǎng)密切相關(guān),低溫和防水環(huán)境可顯著提高其穩(wěn)定性,如常溫下30個(gè)堿基DNA半衰期有500年,而-5℃存儲(chǔ)DNA化石的半衰期可延長(zhǎng)至15.8萬(wàn)年[34]。為了更有效地進(jìn)行數(shù)據(jù)長(zhǎng)期存儲(chǔ),國(guó)內(nèi)外科研工作者發(fā)展了多種DNA保存的方法與策略,主要分為細(xì)胞外保存法和細(xì)胞內(nèi)保存法。
DNA溶液通常在室溫下可以穩(wěn)定3~6個(gè)月,4℃可以穩(wěn)定大約1年,而-20℃冷凍可以延長(zhǎng)至2年[35]。將DNA分子保存在溶液中的最大優(yōu)勢(shì)是可以隨機(jī)索引,可支持多次信息讀?。?5,36-37]。為防止樣品在運(yùn)輸、存儲(chǔ)、處理過(guò)程中發(fā)生降解,人們通常把DNA分子進(jìn)行凍干處理進(jìn)行保存。這樣不但適用于長(zhǎng)期穩(wěn)定保存樣本,并且能快速完整地回收樣本。通過(guò)評(píng)估商品化Biomatrica、自制海藻糖和聚乙烯醇3種材質(zhì)塑料孔板對(duì)DNA分子的穩(wěn)定效果,發(fā)現(xiàn)Biomatrica塑料孔板在室溫和56℃對(duì)DNA保護(hù)效果最佳;海藻糖孔板更適合對(duì)DNA短期56℃條件保存[38]。華盛頓大學(xué)科研人員[39]將脫水DNA斑點(diǎn)保存在玻璃上,研發(fā)一種基于數(shù)字微流控的可擴(kuò)展DNA數(shù)據(jù)存儲(chǔ)的方法(圖2)。脫水DNA的斑點(diǎn)可以密集地排列在微流控設(shè)備上,回收過(guò)程不受鄰近斑點(diǎn)影響。他們還將1.0×1012字節(jié)的數(shù)據(jù)存儲(chǔ)在DNA的單個(gè)斑點(diǎn)中,并使用此方法成功實(shí)現(xiàn)了檢索。另外,DNA還可以吸附存儲(chǔ)在一種特殊材質(zhì)濾紙中,可保護(hù)DNA分子在36個(gè)月內(nèi)不被降解[40]。最近,瑞士聯(lián)邦理工學(xué)院科學(xué)家發(fā)現(xiàn)堿土金屬鹽可增強(qiáng)干粉狀DNA的穩(wěn)定性,即使在相對(duì)濕度為50%、高DNA負(fù)載量(質(zhì)量分?jǐn)?shù)大于30%)情況下也具有顯著穩(wěn)定DNA的功能,可方便地進(jìn)行數(shù)據(jù)的隨機(jī)訪問(wèn)和信息讀?。?1]。
圖2 基于數(shù)字微流控的高密度干粉DNA數(shù)據(jù)存儲(chǔ)[(a)干粉DNA保存在玻璃板上;(b)將玻璃板置于數(shù)字微流控裝備上便于檢索數(shù)據(jù),插圖為一個(gè)斑點(diǎn)成像圖,比例尺為275μm;(c)夾在玻璃板與電極間的水滴被激活,并移動(dòng)到斑點(diǎn)DNA下進(jìn)行補(bǔ)水[39]]Fig.2 High density dehydrated DNA data storage with digital microfluidic retrieval[(a)Dehydrated DNA stored on glass cartridges;(b)Cartridge was loaded onto digital microfluidic device to retrieve data,and inset showed photo‐graph of an actual magnified spot,scale bar:275μm;(c)A water droplet sandwiched between cartridge and electrodes was actuated to move under spotted DNA for rehydration[39]]
DNA分子可以在骨骼殘骸或者沉積物中保存長(zhǎng)達(dá)數(shù)十萬(wàn)年之久,主要得益于外層密集的骨骼殘骸或者沉積物將DNA與環(huán)境中的水分和活性氧隔絕開(kāi)。受此啟發(fā),國(guó)內(nèi)外科研人員先后報(bào)道了一系列封裝DNA分子的方法,使DNA分子得到更好的保護(hù)。不同介質(zhì)保存DNA的情況見(jiàn)表1。DNA可包裹在二氧化硅顆粒中,模仿化石保護(hù)DNA免受侵蝕性環(huán)境(200℃、高濃度自由基)的影響,并利用氫氟酸對(duì)二氧化硅顆粒的刻蝕作用,可將DNA釋放出來(lái)進(jìn)行信息讀?。?2]。此外,借助同樣的方法將DNA封裝在二氧化硅顆粒,并采用糾錯(cuò)代碼來(lái)糾正與存儲(chǔ)相關(guān)的錯(cuò)誤。由于DNA對(duì)熱非常敏感,根據(jù)DNA衰敗激活能(120~155 kJ/mol)[32,44]和70℃下DNA衰減曲線,可推斷DNA保存在20℃的半衰期。通過(guò)加速老化試驗(yàn)(70℃和相對(duì)濕度50%)推測(cè),數(shù)據(jù)信息可以在多種環(huán)境條件下保存DNA數(shù)千年。即使在70℃存放一周,原始信息可以無(wú)差錯(cuò)地恢復(fù)[24]。但是這些方法存在著DNA負(fù)載量低的缺陷,只有0.7%,降低了DNA數(shù)據(jù)存儲(chǔ)密度。為了增加存儲(chǔ)密度,瑞士聯(lián)邦理工學(xué)院科研人員利用層層自組裝技術(shù),將DNA和陽(yáng)離子聚合物聚乙烯亞胺(PEI)交替包覆在磁性顆粒表面,并在最外層包裹一層硅殼,制備了一種高DNA負(fù)載的磁性納米顆粒。該方法大幅度提升了DNA存儲(chǔ)密度,密度最高可達(dá)155 ng/cm,質(zhì)量負(fù)載率為7.8%(不包裹硅)和3.4%(包裹硅)[43]。最近,瑞士聯(lián)邦理工學(xué)院與以色列科學(xué)家聯(lián)合開(kāi)發(fā)了一種信息存儲(chǔ)結(jié)構(gòu),可用于創(chuàng)建具有嵌入式存儲(chǔ)DNA信息編碼的材料[45]。他們?cè)O(shè)計(jì)了“萬(wàn)物DNA”框架體系,將用于3D打印兔子的信息編碼到DNA分子,封裝在160 nm硅球內(nèi)部,并進(jìn)一步分散在熱塑性聚酯中,用于兔子的3D打印。通過(guò)剪下兔子一小塊材料,提取、擴(kuò)增和測(cè)序,就可以獲取兔子3D打印信息,完美地復(fù)制五代兔子。這些包裹在二氧化硅顆粒中保存DNA的方法,通常不支持可逆的信息釋放與封裝,以及多次的信息讀取。除了二氧化硅納米顆粒,還利用其他材料如磷酸鈣和聚合物等進(jìn)行封裝保護(hù)[46-47],并且對(duì)DNA自組裝納米結(jié)構(gòu)可以實(shí)現(xiàn)精準(zhǔn)生物礦化[48-51]。例如,如圖3所示,上海交通大學(xué)樊春海院士團(tuán)隊(duì)[51]利用核酸框架結(jié)構(gòu)為模板和靜電吸附作用為驅(qū)動(dòng)力,成功地制備出幾何形狀高度可控的磷酸鈣納米晶體。由于外層磷酸鈣的隔絕保護(hù)作用,DNA的穩(wěn)定性大大增強(qiáng),同時(shí)保留核酸框架的結(jié)構(gòu)信息,有效增加其在細(xì)胞內(nèi)的轉(zhuǎn)運(yùn)效率,進(jìn)一步拓寬了DNA框架結(jié)構(gòu)的應(yīng)用范圍。與細(xì)胞內(nèi)保存法相比,細(xì)胞外保存法因成本低、耐久性好、可延展性等優(yōu)勢(shì)更具有實(shí)用性。
圖3 DNA框架結(jié)構(gòu)誘導(dǎo)合成磷酸鈣[51]Fig.3 Schematic Illustration for preparation of CaP templated by DNA-framework[51]
表1 不同DNA保存介質(zhì)的比較Tab.1 Comparison of different DNA storage media
與體外DNA保存法相比,細(xì)胞內(nèi)保存法可利用細(xì)胞內(nèi)高效的DNA復(fù)制、校對(duì)和長(zhǎng)鏈DNA修復(fù)機(jī)制,提供高效的隨機(jī)訪問(wèn)路徑和實(shí)時(shí)記錄生物事件[25,52]。天然和工程化的DNA靶向和修飾酶常被用作DNA數(shù)據(jù)存儲(chǔ)的寫(xiě)入工具。例如,天津大學(xué)元英進(jìn)教授團(tuán)隊(duì)[53]利用釀酒酵母體內(nèi)組裝系統(tǒng)對(duì)長(zhǎng)序列數(shù)據(jù)信息進(jìn)行組裝,可實(shí)現(xiàn)生物信息的低成本、高保真存儲(chǔ)。天津大學(xué)齊浩教授團(tuán)隊(duì)[54]發(fā)現(xiàn)攜帶大量寡核苷酸池的細(xì)菌混合培養(yǎng)物是一種穩(wěn)定的信息存儲(chǔ)媒介,能夠?qū)?.45×105字節(jié)的數(shù)據(jù)文件存儲(chǔ)在細(xì)菌內(nèi)。根據(jù)寫(xiě)入機(jī)制不同,目前報(bào)道的研究工作大致分為兩類(lèi)。一類(lèi)是利用重組酶進(jìn)行細(xì)胞內(nèi)數(shù)據(jù)存儲(chǔ)。借助重組酶,信息被儲(chǔ)存在一個(gè)特定的基因組位置[55-56]。例如,利用不同的重組酶在大腸桿菌內(nèi)存儲(chǔ)了1.375字節(jié)的記憶陣列,證實(shí)了重組酶可以分層并用于永久記錄轉(zhuǎn)錄邏輯門(mén)的瞬時(shí)狀態(tài)[57]。通過(guò)控制重組酶方向性,將可重寫(xiě)的信息數(shù)據(jù)存儲(chǔ)在活細(xì)胞中[58]。需要說(shuō)明的是,對(duì)于基于重組酶的DNA數(shù)據(jù)存儲(chǔ),在特定的位置需要一個(gè)特定的重組酶,因此,數(shù)據(jù)存儲(chǔ)的密度不高,且與宿主基因組的接口有限,最終導(dǎo)致數(shù)據(jù)寫(xiě)入效率比較低。另外一類(lèi)是利用CRISPR-Cas體系進(jìn)行DNA數(shù)據(jù)存儲(chǔ)[59-60]。其中,最受關(guān)注的是Cas9蛋白[61],它是一種可編程DNA切割酶,被用于定位由多個(gè)相同靶點(diǎn)組成的DNA地址[62-63]。這種方法除大規(guī)模記錄細(xì)胞譜系信息外,還可通過(guò)將Cas9表達(dá)與細(xì)胞信號(hào)耦合來(lái)記錄模擬信號(hào),如將非二進(jìn)制的基因突變(數(shù)據(jù)信息)記錄到DNA中[64]。各種其他核酸酶也具有類(lèi)似的功能,如CRISPR相關(guān)的核酸內(nèi)切酶Cpf1、鋅指蛋白核酸酶(ZFNs)以及類(lèi)轉(zhuǎn)錄激活因子效應(yīng)物核酸酶(TALENs)[65-69]。與上面介紹的基于重組酶的體系相比,此功能使模擬數(shù)據(jù)的存儲(chǔ)密度更高,同時(shí)具有更直接的與宿主生理學(xué)接口。目前細(xì)胞內(nèi)保存法還不能充分利用細(xì)胞基因組,而且還存在著由于遺傳不穩(wěn)定性而造成信息丟失的風(fēng)險(xiǎn)[70-71]。為了減少這種遺傳不穩(wěn)定性帶來(lái)錯(cuò)誤信息富集,德國(guó)漢堡工業(yè)大學(xué)[72]提出了一種用于活細(xì)胞正交信息編碼、具有錯(cuò)誤自我檢測(cè)功能的三基塊編碼方案(SED3B)。SED3B采用一種全新的方法在小數(shù)據(jù)基塊中添加錯(cuò)誤檢測(cè)的堿基,可與DNA分子固有的冗余部分相結(jié)合,進(jìn)行有效的糾錯(cuò)。試驗(yàn)結(jié)果表明,SED3B在大腸桿菌中編碼信息可連續(xù)復(fù)制超過(guò)12 000年,仍能提供可靠的數(shù)據(jù)結(jié)果。
在大數(shù)據(jù)時(shí)代,信息數(shù)據(jù)安全扮演著尤為重要的角色。信息加密技術(shù)可用于防范未經(jīng)授權(quán)的非法訪問(wèn)。密碼術(shù)和隱寫(xiě)術(shù)是信息加密常用的兩種策略,前者是使信息無(wú)法被外人理解,后者則是隱藏信息的存在[73-74]。傳統(tǒng)的密碼術(shù)和隱寫(xiě)術(shù)由于當(dāng)今數(shù)學(xué)和計(jì)算機(jī)技術(shù)的介入很容易被破解,失去原有的信息加密效果[75-76]。隨著生物學(xué)和信息學(xué)的發(fā)展,人們開(kāi)始利用生物分子尋求新型加密技術(shù)[77],如蛋白質(zhì)、適配體、細(xì)菌被用來(lái)保護(hù)信息安全[78-81]。然而,在這些研究中,信息安全很大程度上依賴于固定的生物分子反應(yīng)模式,一旦對(duì)手發(fā)現(xiàn)相關(guān)的解密方式,其安全性將受到嚴(yán)重的威脅。發(fā)展新型安全可靠的密碼體制,是信息安全和數(shù)據(jù)加密的研究重點(diǎn)和難點(diǎn)。
1994年,美國(guó)南加州大學(xué)利用DNA計(jì)算來(lái)解決一個(gè)NP完全問(wèn)題的試驗(yàn),標(biāo)志著信息時(shí)代進(jìn)入一個(gè)新階段[82]。DNA密碼是隨DNA計(jì)算發(fā)展而產(chǎn)生的一項(xiàng)新興技術(shù)[83-84],它主要是利用現(xiàn)代生物技術(shù),以DNA分子為載體,充分發(fā)揮DNA固有的高存儲(chǔ)密度和高并行性等優(yōu)勢(shì),從而實(shí)現(xiàn)加密、認(rèn)證和隱寫(xiě)等密碼學(xué)功能[85-88]。DNA密碼體系主要有3種方式。
(1)一次一密。1999年,美國(guó)杜克大學(xué)[89]利用映射替代和異或的方法提出了一次一密的密碼體系。映射替代法是根據(jù)定義的映射關(guān)系將一定長(zhǎng)度的DNA明文序列替換為對(duì)應(yīng)的DNA密文序列;而異或法是利用光刻技術(shù)和熒光標(biāo)記技術(shù)進(jìn)行DNA明文和密文序列的異或運(yùn)算。
(2)DNA隱寫(xiě)術(shù)。它的原理是利用大量的無(wú)關(guān)信息隱藏加密后的DNA信息,只有根據(jù)事前雙方約定的信息,才能找到正確的DNA鏈,并獲取隱藏的信息[87]。1999年,美國(guó)紐約西奈山醫(yī)學(xué)院[7]發(fā)明了一種基于DNA的密碼術(shù)策略來(lái)隱藏秘密消息,他們將第二次世界大戰(zhàn)中著名的一條信息隱寫(xiě)在DNA微點(diǎn)中,并利用PCR技術(shù)成功地將其提取出來(lái)。最近,上海交通大學(xué)樊春海院士研究團(tuán)隊(duì)[90]開(kāi)發(fā)了一套基于DNA折紙的分子加密系統(tǒng)。如圖4所示,發(fā)送者Alice首先將文本信息HEY按字母順序編碼成盲文圖案,然后進(jìn)一步加密為雜交若干個(gè)生物素修飾短鏈的骨架鏈。接收者Bob通過(guò)加入訂書(shū)鏈,將骨架鏈折疊為含有生物素化圖案的DNA納米結(jié)構(gòu)。再加入鏈酶親和素,使盲文圖案在原子力顯微鏡(AFM)下可識(shí)別讀出,最終獲得文本信息。該方法實(shí)現(xiàn)了加密術(shù)與隱寫(xiě)術(shù)的完美整合,大大超越當(dāng)前基于計(jì)算問(wèn)題加密協(xié)議的限制。同時(shí),還可通過(guò)對(duì)DNA折紙不同區(qū)域位點(diǎn)的定義以及DNA折紙間的特異性識(shí)別,實(shí)現(xiàn)完整性保護(hù)和訪問(wèn)控制的功能。
圖4 基于DNA折紙的分子加密系統(tǒng)工作流程[90]Fig.4 Workflow of DNA origamicryptography for secure information communication[90]
(3)PCR引物作為密鑰。該方法是基于DNA二元串對(duì)數(shù)據(jù)信息進(jìn)行編碼,然后混入大量相似DNA二元串,只有悉知PCR反應(yīng)中引物序列的接收方,才能提取正確的消息[88]。由于引物信息的泄露可能導(dǎo)致消息不安全,中國(guó)科學(xué)院上海生命科學(xué)研究院[91]最近通過(guò)將特定引物(真實(shí)密鑰)與非特定引物(假密鑰)混合或?qū)⒄鎸?shí)密鑰與3′-端冗余序列連接來(lái)開(kāi)發(fā)預(yù)密鑰,然后利用CRISPR/Cas12a技術(shù)切割假密鑰或去除3′-端冗余序列,從而產(chǎn)生用于信息提取的真實(shí)密鑰,可更好地保護(hù)DNA編碼數(shù)據(jù)的存儲(chǔ)和傳輸。此外,上海交通大學(xué)左小磊教授團(tuán)隊(duì)[92]將特異序列DNA包裹在碳納米管表面,研發(fā)了一種新型管狀核酸,利用形成的特征高度和距離的不同模式對(duì)碳納米管進(jìn)行二維編碼,并且可利用金納米顆粒進(jìn)行視覺(jué)解碼。
數(shù)據(jù)清除是保障信息安全重要的一環(huán),將數(shù)據(jù)快速?gòu)拇鎯?chǔ)設(shè)備中擦除,達(dá)到保護(hù)機(jī)密信息數(shù)據(jù)的目的。然而,DNA分子的良好化學(xué)穩(wěn)定性對(duì)DNA存儲(chǔ)中高度機(jī)密的數(shù)據(jù)清除提出了新的挑戰(zhàn)。
破壞DNA分子的傳統(tǒng)方法主要有使用紫外線照射[93]、DNase I[94]、>200℃的高溫[95-96]以及氧化劑等[97]。這些銷(xiāo)毀DNA分子方法各不相同,但一般難以在沒(méi)有專(zhuān)門(mén)設(shè)備以及在合理的時(shí)間內(nèi)完成。美國(guó)萊斯大學(xué)研究人員[98]報(bào)道了一種基于亞穩(wěn)定雜交的DNA數(shù)據(jù)存儲(chǔ)系統(tǒng),可通過(guò)簡(jiǎn)單的加熱過(guò)程快速永久擦除數(shù)據(jù)信息。如圖5所示,在該存儲(chǔ)系統(tǒng)中,每個(gè)文件地址都包含一個(gè)真實(shí)消息和至少一條錯(cuò)誤消息,并且真實(shí)信息通過(guò)與“真實(shí)標(biāo)記”寡核苷酸的雜交來(lái)區(qū)分。DNA雜交體的穩(wěn)定性對(duì)溫度非常敏感,只要溫度高于其解鏈溫度,DNA雜交體立即解離。原始真實(shí)信息通過(guò)加熱解離(95℃加熱5 min),將永遠(yuǎn)無(wú)法恢復(fù)。最近,美國(guó)北卡羅萊納州立大學(xué)[99]報(bào)道了一種由T7啟動(dòng)子和單鏈突出域(ss-dsDNA)組成的動(dòng)態(tài)DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)。該ss-dsDNA系統(tǒng)可通過(guò)從DNA轉(zhuǎn)錄信息而不破壞它來(lái)實(shí)現(xiàn)可重復(fù)的信息訪問(wèn),同時(shí),還可以進(jìn)行DNA數(shù)據(jù)存儲(chǔ)中文件的鎖定與解鎖、重命名以及刪除等操作,為具有多種功能的信息存儲(chǔ)奠定了堅(jiān)實(shí)的基礎(chǔ)。
圖5 基于亞穩(wěn)定雜交的DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)的原理[(a)圖片文件被編碼為DNA序列,可以在室溫下穩(wěn)定地長(zhǎng)時(shí)間保存,但是在暴露于95℃時(shí)會(huì)被永久快速擦除;(b)基于DNA雜交的真實(shí)信息編碼[98]]Fig.5 Metastable hybridization-based DNA data storage[(a)Image file was encoded as DNA sequences,which could be stored steadily at room temperature for long periods of time,but was permanently and quickly erased when exposed to 95℃.(b)Truthful information encoding based on DNA hybridization[98]]
以互聯(lián)網(wǎng)與全球化普及為重要標(biāo)志的信息革命正逐步改變?nèi)伺c數(shù)據(jù)間的相處方式,使人類(lèi)社會(huì)步入了大數(shù)據(jù)時(shí)代。爆炸式增長(zhǎng)的信息數(shù)據(jù)量與存儲(chǔ)空間和技術(shù)不足的矛盾也日益突出。因其存儲(chǔ)密度大、出錯(cuò)率低、能耗低等優(yōu)勢(shì),DNA作為極具發(fā)展?jié)摿Φ男乱淮鎯?chǔ)介質(zhì),有望替代當(dāng)今磁盤(pán)和光盤(pán)等主流存儲(chǔ)方式。近些年,DNA數(shù)據(jù)存儲(chǔ)技術(shù)的研發(fā)已取得較大進(jìn)展。本文以DNA數(shù)據(jù)存儲(chǔ)為主線,闡述了DNA數(shù)據(jù)存儲(chǔ)的基本理論和工作流程,重點(diǎn)綜述DNA保存方法與策略最新研究成果和信息安全與數(shù)據(jù)加密的研究進(jìn)展。如圖6所示,DNA數(shù)據(jù)存儲(chǔ)除了用于文件存檔和數(shù)據(jù)加密外,還被擴(kuò)展用于驗(yàn)證物品真實(shí)性的分子標(biāo)簽和生物計(jì)算[100]。如國(guó)際上多個(gè)研究小組開(kāi)發(fā)了一種基于DNA分子鑒定的方法,用于油品條形碼的標(biāo)簽[101],還應(yīng)用于含水層的環(huán)境示蹤[102]。
圖6 DNA數(shù)據(jù)存儲(chǔ)的主要工作流程及其應(yīng)用Fig.6 Process overview and applications of DNA Data Storage
目前,諸多研究進(jìn)展仍停留在實(shí)驗(yàn)室水平,主要原因如下:
首先,信息的寫(xiě)入和讀取成本仍然很高,存儲(chǔ)數(shù)據(jù)的效率太低。近期的研究發(fā)現(xiàn)創(chuàng)建存儲(chǔ)1.0×106字節(jié)的數(shù)據(jù)大約需要花費(fèi)3500美元[10,103-104]。盡管在過(guò)去10年中,DNA合成和測(cè)序成本下降了幾個(gè)數(shù)量級(jí),但DNA合成與測(cè)序技術(shù)本身存在的瓶頸問(wèn)題,導(dǎo)致成本降低的步伐有所放緩。此外,先進(jìn)的編碼和解碼算法同樣需要提升DNA合成與測(cè)序方面技術(shù)要求,才能實(shí)現(xiàn)產(chǎn)業(yè)級(jí)的DNA數(shù)據(jù)存儲(chǔ)。
其次,隨機(jī)訪問(wèn)是信息存儲(chǔ)另一個(gè)必需的功能。如何高效快速地從整個(gè)存儲(chǔ)系統(tǒng)中讀取某一數(shù)據(jù)文件是一個(gè)挑戰(zhàn)。通常使用特異性引物進(jìn)行PCR,以選擇性訪問(wèn)存儲(chǔ)在DNA中的某一特定的信息。美國(guó)華盛頓大學(xué)[25]利用強(qiáng)大的糾錯(cuò)碼和算法,可以獨(dú)立檢測(cè)35個(gè)文件,而不相互干擾和產(chǎn)生錯(cuò)誤。盡管這些技術(shù)復(fù)雜、緩慢且昂貴,但這些技術(shù)還是邁向DNA數(shù)據(jù)存儲(chǔ)隨機(jī)訪問(wèn)的第一步。
最后,雖然細(xì)胞外保存法和細(xì)胞內(nèi)保存法都取得了一定的研究進(jìn)展,但它仍然離便捷的實(shí)際應(yīng)用還有很長(zhǎng)的距離。兼顧存儲(chǔ)持久性與簡(jiǎn)易讀取數(shù)據(jù),擦除數(shù)據(jù)與信息重寫(xiě),自動(dòng)化集成化寫(xiě)入、儲(chǔ)存、讀取數(shù)據(jù)等方面,面臨著諸多挑戰(zhàn),還有很多技術(shù)難點(diǎn)有待突破。特別是,提升DNA數(shù)據(jù)存儲(chǔ)效率、存儲(chǔ)讀取高度集成自動(dòng)化以及數(shù)據(jù)加密新策略等將是今后DNA數(shù)據(jù)存儲(chǔ)研究的重要發(fā)展方向。DNA數(shù)據(jù)存儲(chǔ)憑借自身的獨(dú)特優(yōu)勢(shì)受到國(guó)內(nèi)外越來(lái)越多的科研工作者關(guān)注和重視,雖然現(xiàn)階段仍存在著一些難點(diǎn)和挑戰(zhàn),但大量科學(xué)試驗(yàn)表明DNA作為一種新型的數(shù)據(jù)存儲(chǔ)介質(zhì),無(wú)論是在存儲(chǔ)容量、持久性上,還是在可擴(kuò)展性上,都遠(yuǎn)勝于現(xiàn)有的存儲(chǔ)介質(zhì)。相信隨著合成生物學(xué)的不斷發(fā)展,這些挑戰(zhàn)和技術(shù)難題將逐步得到解決,DNA數(shù)據(jù)存儲(chǔ)將成為未來(lái)最有應(yīng)用潛力的新型存儲(chǔ)方式,引領(lǐng)人類(lèi)社會(huì)進(jìn)入更便捷、更智能的新時(shí)代。