国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新一代數(shù)據(jù)存儲介質(zhì)
——DNA

2020-03-02 14:33:40吳琦琨賴?yán)宋?/span>徐懷勝
關(guān)鍵詞:存儲介質(zhì)錯誤率堿基

吳琦琨, 賴?yán)宋模?徐懷勝, 寇 錚

(廣州大學(xué) 計算科技研究院, 廣東 廣州 510006)

隨著科學(xué)技術(shù)的快速發(fā)展,人類社會產(chǎn)生的數(shù)據(jù)量正在以指數(shù)級的速率增長[1-2],這對于目前的數(shù)據(jù)存儲介質(zhì)提出了更高的要求.當(dāng)前使用的存儲介質(zhì)主要有磁性介質(zhì)(例如磁帶、磁盤等)和光學(xué)介質(zhì)(例如光盤)[3],這些存儲介質(zhì)存在存儲時間不夠長、存儲密度不夠大和耗電量高等缺點(diǎn),無法滿足未來對于超大數(shù)據(jù)規(guī)模存儲量的需求.因此,許多科研工作者將目光轉(zhuǎn)向了DNA.作為遺傳信息的載體,DNA存儲了從微生物到人類的億萬生命的遺傳信息,本身就是一種優(yōu)良的存儲介質(zhì)[4],基于DNA的數(shù)據(jù)存儲具有存儲密度大、存儲時間長、能耗低以及高耐用性等優(yōu)勢,是一種有著巨大潛力的數(shù)據(jù)存儲方式.

DNA作為數(shù)據(jù)存儲介質(zhì)的想法最初來自于21世紀(jì)60年代Wiener和Neiman討論的“基因記憶”[5-7],但是受限于當(dāng)時的DNA測序和合成技術(shù),基于DNA的數(shù)據(jù)存儲未能實現(xiàn).1998年,Davis[8]在其開創(chuàng)性的藝術(shù)作品《微金星》中進(jìn)行了一次開創(chuàng)性的嘗試,先將一個圖像的像素信息轉(zhuǎn)換成一串二進(jìn)制序列,然后將信息編碼到一個28 bp的DNA分子中,最后通過DNA測序技術(shù),成功地恢復(fù)了原始圖像.1999年,Clelland等[9]提出了一種基于“DNA微點(diǎn)”的方法來存儲DNA分子中的信息.然而,這些早期的嘗試存儲的數(shù)據(jù)量太小并且缺乏通用性,無法擴(kuò)展到實際應(yīng)用中.直到2012年和2013年,Church等[10]和Goldman等[11]的開創(chuàng)性工作才使基于DNA的數(shù)據(jù)存儲重新興起.Church成功地在DNA分子中存儲了約0.65 Mb的數(shù)據(jù),而Goldman存儲了0.75 Mb的數(shù)據(jù).更振奮人心的是,這兩項研究中存儲的數(shù)據(jù)不僅包含文本,還包含圖像、聲音和PDF文件等,這極大地擴(kuò)展了基于DNA的數(shù)據(jù)存儲的適用性,使其距離實用階段更進(jìn)了一步.自Church和Goldman的開創(chuàng)性成果發(fā)表以來,大量的科研機(jī)構(gòu)和公司的研究人員也加入了DNA信息存儲的研究,創(chuàng)造了大量的研究成果,同時帶動了DNA信息存儲領(lǐng)域的飛速發(fā)展.

DNA存儲主要包括編碼/解碼、合成、存儲和測序等四個步驟:①通過編碼將二進(jìn)制0,1數(shù)據(jù)映射為堿基A,T,C,G序列;②通過各種技術(shù)合成特定的DNA序列;③可以選擇體內(nèi)或者體外存儲形式進(jìn)行保存;④想要讀取數(shù)據(jù)時,一般需要先使用特定的引物序列擴(kuò)增目標(biāo)DNA,然后對提取的目標(biāo)DNA進(jìn)行測序得到目標(biāo)DNA序列,再根據(jù)解碼規(guī)則將DNA序列還原為二進(jìn)制數(shù)據(jù).本文將以基于DNA的信息存儲為主題,介紹其一般流程,重點(diǎn)描述近年來在編碼、合成、存儲以及測序等方面的新進(jìn)展,并在最后分析DNA存儲目前面臨的挑戰(zhàn).

1 編碼/解碼

DNA編碼是通過一定的算法,將待存儲的信息以二進(jìn)制流的形式轉(zhuǎn)換為DNA 堿基序列,從而實現(xiàn)數(shù)據(jù)信息與DNA序列之間的關(guān)系轉(zhuǎn)換.在找到DNA編碼算法前有幾個不得不考慮的因素:①每一個DNA在被編碼時都要被有效利用到,這主要是由于DNA長鏈的成本一直居高不下,雖然合成DNA的成本每年都在下降,但是合成長鏈DNA仍然需要一筆不菲的開銷;②進(jìn)行糾錯設(shè)計,以免傳輸?shù)男畔⒉⒎前俜职僬_所造成的不準(zhǔn)確;③設(shè)計一個簡單而直接的數(shù)據(jù)檢索方式,不應(yīng)把大量時間放在檢索上.

報告表明每個堿基每個位置大概就會有1%的誤差,科學(xué)家在使用Illumina儀器對DNA序列測序時發(fā)現(xiàn)會出現(xiàn)約有1%的錯誤率.2019年Zhang等[12]提出了一種新方案用于DNA數(shù)據(jù)存儲的編碼,該方案采用四進(jìn)制哈夫曼編碼對原始二進(jìn)制流文件進(jìn)行壓縮并使用一種低冗余度的四元漢明碼用于糾錯,然后將其轉(zhuǎn)化為DNA序列,這種方案具有較高的存儲密度和良好的糾錯能力.2020年Zhang等[13]開發(fā)了一種基于Base64代碼的編碼算法,以減少均聚物的可能性并將CG含量控制在50%左右.編碼算法主要包括3個步驟:①將文本信息轉(zhuǎn)換為Base64代碼,其中包含64種不同的打印內(nèi)容;②重塑Base64代碼并將其轉(zhuǎn)換為兩組8位二進(jìn)制數(shù)據(jù),其中一組由特定代碼平衡;③將平衡碼和二進(jìn)制碼按照自定義的映射規(guī)則映射到DNA序列中.DNA序列中的均聚物和GC含量由平衡碼和定制的作圖規(guī)則控制,這樣就有效降低了測序錯誤率.這種方法既適用于文本和圖形信息的存儲,又適用于視頻和音頻文件的存儲,為實際的數(shù)字存儲和其他技術(shù)應(yīng)用提供了巨大的潛力.

2 DNA序列合成

到目前為止,用于DNA數(shù)據(jù)存儲的堿基主要是基于Caruthers等[14]的磷酰胺化學(xué)法,以單堿基精度合成DNA是一種高效且強(qiáng)大的合成方法,已經(jīng)發(fā)展了數(shù)十年之久[15-16].該方法使用保護(hù)單個核苷酸來防止長均聚物鏈的形成.用酸性溶液除去保護(hù)組,然后通過基于陣列控制的下一個堿基的沉積或保護(hù)基的局部去除,DNA合成可以并行進(jìn)行.但是這種有機(jī)合成極大地限制了合成DNA的質(zhì)量和數(shù)量.因此,科學(xué)家們便對酶促合成DNA這種方法產(chǎn)生了濃厚的興趣,酶促合成DNA既可以在水性環(huán)境下合成,還能以更低的試劑成本生成更長的DNA序列[17-19].酶促法合成DNA反應(yīng)條件較為溫和,還可以減少副產(chǎn)物的產(chǎn)生.2019年Lee等[20]利用一種不依賴于模板的DNA聚合酶——末端脫氧核苷酰轉(zhuǎn)移酶(TdT),在溫和條件下快速催化自然發(fā)生的核苷酸三磷酸連接,以此合成DNA并且應(yīng)用于DNA信息存儲中.2020年Tabatabaei等[21]通過使用現(xiàn)成天然DNA,使其避免高成本、讀寫延遲和錯誤率的問題.由于自然DNA的序列內(nèi)容是固定的,人們可以修改拓?fù)浣Y(jié)構(gòu)來編碼信息.通過使用DNA穿孔卡片,其中數(shù)據(jù)以缺口的形式寫入天然雙鏈DNA主干上的預(yù)定位置.該平臺可容納正交DNA片段上的并行缺口和酶促立足點(diǎn)的創(chuàng)建,從而實現(xiàn)單比特隨機(jī)訪問和內(nèi)存計算.本研究利用糠秕焦球菌(Pyrococcus furiosus Argonaute)將文件插入大腸桿菌基因組DNA的PCR產(chǎn)物中,然后通過高通量測序和比對準(zhǔn)確地重建編碼數(shù)據(jù).基于合成DNA的數(shù)據(jù)存儲導(dǎo)致較高的合成錯誤率,相比之下,使用天然DNA的方法具有較高的可靠性.

然而,不管是用什么樣的合成方法,如果合成的DNA序列較長,出現(xiàn)錯誤的幾率大大增加.幾篇有關(guān)DNA數(shù)據(jù)存儲的報告顯示,在合成和測序后大概1%的讀數(shù)在對應(yīng)位置上會有錯誤,有意思的是,磁性介質(zhì)存儲的錯誤率也約為1%[22-24].故需要一種糾錯方式來盡量減少合成錯誤帶來的誤差,如Press等[25]寫的HEDGES 糾錯碼,證明了以0.6%(每核苷酸1.2位)的碼率對DNA進(jìn)行大規(guī)模無錯誤恢復(fù)的可行性.Chen等[26]通過量化DNA存儲系統(tǒng)的分子偏倚來確定誤差的主要來源.

3 DNA保存

DNA的保存方式主要分為體內(nèi)存儲和體外存儲兩種.體內(nèi)存儲就是將合成的DNA鏈保存在細(xì)胞內(nèi)部,在細(xì)胞內(nèi)存儲數(shù)據(jù)[27].體外存儲則將可以合成的DNA鏈通過脫水、凍干、添加劑或者使用保護(hù)材料等其他方法進(jìn)行保存.2019年Newman等[28]設(shè)計了一種通過數(shù)字微流脫水來實現(xiàn)對DNA鏈的存儲,并且成功實現(xiàn)對數(shù)據(jù)的檢索,這種方法最大的好處是可以實現(xiàn)自動化DNA數(shù)據(jù)存儲.

受當(dāng)前技術(shù)能力的限制,合成大的DNA片段(通常超過千個核苷酸)是一個非常耗時和昂貴的過程.此外,在細(xì)胞內(nèi)高效轉(zhuǎn)化大DNA相對復(fù)雜.因此,到目前為止,體內(nèi)DNA儲存只在一個相對較小的規(guī)模上進(jìn)行了測試,不超過幾千個核苷酸,這遠(yuǎn)遠(yuǎn)小于體外存儲系統(tǒng).在存儲容量方面,大量短寡聚物池在擴(kuò)展性和合成成本方面具有優(yōu)勢.然而,DNA在細(xì)胞內(nèi)儲存具有長期穩(wěn)定、復(fù)制成本低等優(yōu)點(diǎn).2020年,Hao等[29]展示了一種活體DNA存儲技術(shù),使用攜帶大量DNA寡核苷酸的細(xì)菌細(xì)胞的混合培養(yǎng)作為存儲材料,以用于大規(guī)模數(shù)據(jù)存儲.最終以快速、經(jīng)濟(jì)的方式實現(xiàn)了總計445 kB數(shù)字文件的活體存儲,這是目前活體細(xì)胞中規(guī)模最大的檔案數(shù)據(jù)存儲,為利用體外合成能力和活細(xì)胞的生物能量、經(jīng)濟(jì)高效地進(jìn)行生物數(shù)據(jù)存儲鋪平了道路,并且對開發(fā)實用的冷數(shù)據(jù)存儲至關(guān)重要.

微生物細(xì)胞能夠合成具有許多先進(jìn)功能的DNA材料用于檔案信息存儲.與體外無細(xì)胞系統(tǒng)相比,活細(xì)胞的基因組維持機(jī)制保證了DNA分子的高保真復(fù)制,從而獲得更高的穩(wěn)定性和更長的存儲期.此外,DNA復(fù)制率比一般的體外復(fù)制方法(如PCR)高出幾個數(shù)量級.這些先進(jìn)的特性使活細(xì)胞成為一種極具吸引力的材料,可以低成本復(fù)制和傳播信息.

4 DNA測序

自1977年Sanger測序法發(fā)明以來,DNA測序已發(fā)展成為一項完備的技術(shù),其成本近年來下降了10萬倍[30].根據(jù)作用機(jī)制,DNA測序可分為三代:第一代測序、高通量測序/NGS和單分子測序.第一代DNA測序技術(shù)用的是1977年由Sanger等[31]開創(chuàng)的鏈終止法,其基于雙脫氧終止測序結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳.目前,第一代DNA測序仍被廣泛應(yīng)用.

第一代測序技術(shù)的主要特點(diǎn)是測序讀長可以達(dá)到1 000 bp,準(zhǔn)確性高達(dá)99.999%,但其測序成本高、通量低等方面的缺點(diǎn)嚴(yán)重影響了大規(guī)模的應(yīng)用.所以第一代測序技術(shù)并不是最理想的測序方法.經(jīng)過不斷的技術(shù)開發(fā)和改進(jìn),以Roche公司的454技術(shù)、illumina公司的Solexa、Hiseq技術(shù)和ABI公司的Solid技術(shù)為代表的第二代測序技術(shù)誕生了[32-35].第二代測序技術(shù)大大降低了測序的成本[36],同時還大幅提高了測序速度,并且保持了較高的準(zhǔn)確性,但是NGS的序列讀長方面比第一代測序技術(shù)要短很多[37].Illumina是當(dāng)今最廣泛的測序平臺,大多數(shù)的測序都是通過Illumina來測序,該系統(tǒng)采用的都是邊合成邊測序的方法.Illumina的測序技術(shù)每次只添加一個dNTP的特點(diǎn)能夠很好地解決均聚物長度的準(zhǔn)確測量問題,它的主要測序錯誤來源于堿基的替換,目前它的測序錯誤率在1.0%~1.5%之間,測序周期較短[30].當(dāng)前對DNA鏈進(jìn)行隨機(jī)測序有兩種流行的解決方案,即PCR擴(kuò)增和磁珠提取[38],Organick等[39]設(shè)計了一種基于PCR對大規(guī)模DNA數(shù)據(jù)進(jìn)行隨機(jī)訪問的方法.

第三代測序技術(shù)主要是指SMRT和納米孔單分子測序技術(shù),與前兩代相比,其最大的特點(diǎn)就是單分子測序,測序過程無需進(jìn)行PCR擴(kuò)增.其中PacBio SMRT技術(shù)其實也應(yīng)用了邊合成邊測序的思想[40],并以SMRT芯片為測序載體.SMRT技術(shù)的測序速度很快,每秒約10個dNTP.與此同時其測序錯誤率比較高,達(dá)到15.0%,但是它的出錯是隨機(jī)的,并不會像第二代測序技術(shù)那樣存在測序錯誤的偏向,因而可以通過多次測序來進(jìn)行有效的糾錯.牛津納米孔技術(shù)公司所開發(fā)的納米單分子測序技術(shù)與以往的測序技術(shù)皆不同,它是基于電信號而不是光信號的測序技術(shù)[41].納米孔測序的主要特點(diǎn)是:讀長很長,可以達(dá)到幾十kb甚至上百kb;錯誤率介于1.0%~4.0%,且是隨機(jī)錯誤而不會聚集在讀取的兩端;數(shù)據(jù)可實時讀?。煌亢芨?;初始DNA在測序過程中不被破壞;樣品制備簡單又便宜.

除了消除對PCR擴(kuò)增的依賴外,第三代測序還顯著地增加了讀長和讀取速度.盡管其成本和精度目前還不盡如人意,但隨著技術(shù)的進(jìn)一步發(fā)展,預(yù)計會有所提高,使其更適用于DNA信息存儲[42-47].

5 DNA數(shù)據(jù)存儲面臨的問題

如果要投入商業(yè)化運(yùn)作,DNA數(shù)據(jù)存儲目前最大的對手是磁性介質(zhì)存儲.從大規(guī)模工業(yè)化的角度來看,DNA數(shù)據(jù)存儲的合成和測序成本相比于磁性介質(zhì)存儲還是太高了,在2016年磁帶存儲的成本大約是$16/Tb[48],并且每年成本還以10%的速度下降.而每陣列的DNA合成成本大概需要0.000 1美元,相當(dāng)于1Tb需要花費(fèi)8億美元,這比磁帶高了7~8個數(shù)量級,如此高昂的成本令人對DNA數(shù)據(jù)存儲大規(guī)模應(yīng)用望而卻步.

DNA數(shù)據(jù)存儲還有一個較大的問題就是相對于磁性介質(zhì)存儲來說讀取速度慢,目前最新的測序技術(shù)——納米孔測序讀取DNA序列的速度只有每秒200 Kb[31,33-35],相對比磁性介質(zhì)幾十兆每秒的讀取速度來說延遲太高.由此可見,在短期內(nèi)DNA數(shù)據(jù)存儲比較適合用在檔案存儲這種對于讀取速度要求不是那么高的應(yīng)用方面.

6 結(jié)束語

本文簡單地介紹了編碼解碼、DNA序列合成、DNA保存以及測序的研究進(jìn)展,并且指出了DNA存儲面臨的問題.目前,DNA 存儲具有以下優(yōu)點(diǎn):成本低,穩(wěn)定可靠,可并行存取,具有信息相聯(lián)檢索, 數(shù)據(jù)快速訪問性和抗電磁干擾能力強(qiáng).相信隨著生物技術(shù)和計算技術(shù)的發(fā)展以及存儲應(yīng)用領(lǐng)域的擴(kuò)大,在不久的將來有望開發(fā)出實用的DNA 存儲系統(tǒng).如果DNA在數(shù)據(jù)存儲方面進(jìn)入商業(yè)應(yīng)用,它會對未來的存儲領(lǐng)域產(chǎn)生重大影響.

猜你喜歡
存儲介質(zhì)錯誤率堿基
限制性隨機(jī)試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
生命“字母表”迎來4名新成員
生命“字母表”迎來4名新成員
檔案館移動存儲介質(zhì)管理方法探討
一種使用存儲介質(zhì)驅(qū)動的方式
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
硬盤
CHIP新電腦(2015年3期)2015-04-02 11:28:15
永定县| 景东| 偏关县| 镇沅| 瓮安县| 库伦旗| 旌德县| 浦县| 从江县| 九寨沟县| 崇礼县| 邳州市| 利辛县| 白山市| 宣化县| 墨脱县| 巫溪县| 灵山县| 玉环县| 吉林省| 嘉峪关市| 雷波县| 通化市| 札达县| 莒南县| 博乐市| 漳平市| 天津市| 贵溪市| 云林县| 蒙阴县| 海南省| 玛多县| 泽州县| 湘乡市| 岗巴县| 时尚| 西乌珠穆沁旗| 修水县| 葫芦岛市| 乌海市|