瑪麗·帕蘭格
1971年夏,弗蘭克·扎帕在瑞士的蒙特勒賭場(chǎng)里表演。賭場(chǎng)里擠滿了觀眾,一個(gè)粉絲放了一把火,屋子里燃起了大火。扎帕像掄起斧頭一樣掄起了他的吉普森吉他,砸破賭場(chǎng)的窗戶,2000多名青少年尖叫著涌了出去。在日內(nèi)瓦湖邊酒店觀看的深紫樂(lè)隊(duì)隊(duì)員看到了火焰,用《水上煙霧》捕捉了這一刻,將其永久地蝕刻在蒙特勒爵士音樂(lè)節(jié)的歷史上。2013年,它成為聯(lián)合國(guó)教科文組織第一個(gè)視聽檔案《世界記憶》的一部分。
現(xiàn)在,《水上煙霧》又創(chuàng)造了歷史。2017年9月,它成為《世界記憶》檔案中首批以DNA形式存儲(chǔ)的作品之一,存儲(chǔ)后可以100%的精度回放。這個(gè)項(xiàng)目是華盛頓大學(xué)、微軟公司和基地設(shè)在舊金山的DNA制造公司Twist Bioscience的合作項(xiàng)目。
許多權(quán)威人士預(yù)測(cè),DNA成為存儲(chǔ)數(shù)據(jù)的最終方式只是一個(gè)時(shí)間問(wèn)題。這種方式緊湊、高效并富于彈性。畢竟,DNA已經(jīng)被調(diào)整了數(shù)十億年,成為遺傳信息的完美儲(chǔ)存庫(kù),永遠(yuǎn)不會(huì)過(guò)時(shí)——因?yàn)橹灰厍蛏嫌猩?,我們就?huì)對(duì)解碼DNA感興趣。Twist Bioscience的首席技術(shù)官員比爾·派克說(shuō):“大自然已經(jīng)對(duì)這種格式進(jìn)行了優(yōu)化?!?/p>
微軟、IBM和英特爾等公司都對(duì)這一領(lǐng)域表現(xiàn)出興趣。2017年4月,在由美國(guó)情報(bào)高級(jí)研究項(xiàng)目主辦的特邀專題研討會(huì)上,他們與其他行業(yè)、學(xué)術(shù)人員和政府專家一起討論了DNA在解決人類數(shù)據(jù)存儲(chǔ)危機(jī)中的實(shí)用潛力。
這是一個(gè)時(shí)時(shí)刻刻都在增大的問(wèn)題。根據(jù)IBM公司2016年?duì)I銷云報(bào)告,今天存在的數(shù)據(jù)中有90%是在過(guò)去兩年中創(chuàng)建的。我們每天都會(huì)生成2.5x1018字節(jié)的信息,分別來(lái)自高清視頻和照片、粒子物理學(xué)大數(shù)據(jù)、基因組測(cè)序、太空探測(cè)、衛(wèi)星和遙感,還有智囊團(tuán)、秘密監(jiān)視行動(dòng)和互聯(lián)網(wǎng)追蹤算法。
目前,所有這些數(shù)據(jù)都流入巨大的服務(wù)器農(nóng)場(chǎng),轉(zhuǎn)移到旋轉(zhuǎn)的硬盤驅(qū)動(dòng)器或最先進(jìn)的磁帶卷軸上。這些物理基板占據(jù)了很大的空間。
我們不妨用DNA來(lái)做比較。整個(gè)人類的基因組,一個(gè)由30億個(gè)DNA堿基對(duì)組成的代碼,或者用數(shù)據(jù)語(yǔ)言來(lái)說(shuō),3000兆字節(jié),都可以放入一個(gè)肉眼看不見的“包裹”——細(xì)胞核。1克DNA(指尖上一滴水的大?。┲辽倏梢韵喈?dāng)于233個(gè)重量超過(guò)150千克的電腦硬盤。如果把人體內(nèi)所有的遺傳信息(150澤字節(jié))都存儲(chǔ)在磁帶或硬盤驅(qū)動(dòng)器上,就需要一個(gè)巨大的設(shè)施。
還有耐久性問(wèn)題。在目前的存儲(chǔ)競(jìng)爭(zhēng)者中,磁帶壽命最長(zhǎng),為一二十年。硬盤、CD、DVD和閃存驅(qū)動(dòng)器不太可靠,通常有5年至10年就不行了。DNA已經(jīng)被證明可以存在幾千年而毫發(fā)無(wú)損。例如,2013年,科學(xué)家在阿拉斯加多年凍土中發(fā)現(xiàn)的70萬(wàn)年前的馬骨碎片的DNA,就重構(gòu)了一個(gè)早期馬的親緣基因組。
因此,如果將DNA數(shù)據(jù)檔案保存在干燥涼爽的地方,比如說(shuō)保存在北極附近的斯瓦爾巴德全球種子庫(kù)的一個(gè)架子上,這個(gè)DNA數(shù)據(jù)檔案就可以保存數(shù)萬(wàn)年而不需要維護(hù)。
因此,《水上煙霧》的DNA拷貝將存在很長(zhǎng)時(shí)間。那么,科學(xué)家是如何將一首歌變成分子的呢?首先,將數(shù)字音樂(lè)文件從一系列的1和0轉(zhuǎn)換成DNA的字母A、C、T和G的堿基,例如用A代表00、C代表01、T代表10、G代表11;然后將字母序列組合成帶有索引信息的DNA短語(yǔ),按照正確的順序排列。使用這些編碼序列,可以通過(guò)化學(xué)反應(yīng)制造逐個(gè)字母,然后將其保存在試管中。
檢索信息時(shí),用測(cè)序儀運(yùn)行DNA以讀取DNA堿基的確切順序;然后解碼產(chǎn)生原始的二進(jìn)制數(shù)據(jù);最后,這個(gè)音樂(lè)文件在瑞士洛桑的蒙特勒爵士音樂(lè)節(jié)中被零差錯(cuò)播放。
《水上煙霧》不是第一個(gè)被存儲(chǔ)為DNA的數(shù)字信息。2012年至2013年,由喬治·丘奇牽頭的哈佛大學(xué)研究小組以及由尤恩·伯尼和尼克·古爾德曼牽頭的歐洲生物信息學(xué)研究所的研究小組獨(dú)立存儲(chǔ)了DNA數(shù)字?jǐn)?shù)據(jù)。哈佛大學(xué)的樣本是一本50000詞的合成生物學(xué)圖書;歐洲生物信息學(xué)研究所的樣本包含一張彩色圖像、莎士比亞的154首十四行詩(shī)、馬丁·路德·金《我有一個(gè)夢(mèng)想》演講的片斷以及沃森和克里克1953年發(fā)表的有關(guān)DNA結(jié)構(gòu)的經(jīng)典論文。
目前,合成DNA每個(gè)字母的成本是10美分。TwistBioscience的首席執(zhí)行官艾米麗·勒普勞斯特估計(jì),只有每個(gè)字母的成本降至0.001美分,DNA存儲(chǔ)才可以真正與磁帶競(jìng)爭(zhēng)。大量的現(xiàn)金投入和豐厚的市場(chǎng)前景可能會(huì)提供必要的推動(dòng)力。
第二個(gè)障礙是技術(shù)性的:DNA合成和測(cè)序技術(shù)都可能帶入某些類型的錯(cuò)誤,所以將1和0翻譯成DNA字母的代碼時(shí)需要精心組合,以消除這些錯(cuò)誤。
計(jì)算機(jī)科學(xué)家已經(jīng)卷入并參加了這場(chǎng)爭(zhēng)斗。每年的電氣與電子工程師協(xié)會(huì)國(guó)際信息理論研討會(huì)(主程序員的一個(gè)會(huì)議)上,都有一個(gè)專門討論DNA存儲(chǔ)編碼的會(huì)議。
2016年4月,微軟和華盛頓大學(xué)的一個(gè)研究小組存儲(chǔ)了200兆字節(jié)的DNA,有OK Go搖滾樂(lè)隊(duì)的音樂(lè)視頻,有100多種語(yǔ)言的《世界人權(quán)宣言》,有古騰堡項(xiàng)目最受歡迎的100本圖書,還有農(nóng)作物的種子數(shù)據(jù)庫(kù),由Twist Bioscience合成,編碼方法采用了計(jì)算中使用的常見錯(cuò)誤糾正方案。他們還設(shè)計(jì)了一種方法來(lái)識(shí)別和排序特定的信息片段,而不必對(duì)整個(gè)記錄進(jìn)行排序。
華盛頓大學(xué)教授路易斯·塞澤說(shuō):“我們正在使用電腦知識(shí)——如何糾正記憶錯(cuò)誤,并將其應(yīng)用到自然界?!?img alt="" src="https://cimg.fx361.com/images/2018/05/23/qkimagesfdtsfdts201803fdts20180318-3-l.jpg"/>
2017年3月,哥倫比亞大學(xué)的雅尼夫·埃利克和紐約基因組中心的迪娜·杰林斯基使用新算法對(duì)6個(gè)數(shù)據(jù)文件的數(shù)據(jù)進(jìn)行了編碼,該算法能夠編碼更多的核苷酸數(shù)據(jù),并且仍然以100%的準(zhǔn)確性還原文件。他們的“DNA噴泉”技術(shù),可以在每克DNA上產(chǎn)生215拍字節(jié)(2.15億千兆字節(jié))的記錄。在這樣的密度下,人類記錄的所有數(shù)據(jù)都將能放入一個(gè)與兩輛皮卡車大小相當(dāng)?shù)娜萜髦小?/p>
因?yàn)闀鴮懞烷喿xDNA的速度還比較慢,所以早期的應(yīng)用程序?qū)?huì)被歸檔。微軟表示,公司計(jì)劃在3年內(nèi)建立一個(gè)原生商業(yè)DNA存儲(chǔ)系統(tǒng)。
想象一下,一體化的DNA數(shù)據(jù)系統(tǒng)并非遙不可及。二進(jìn)制數(shù)據(jù)在一端被輸入,合成為DNA并被存儲(chǔ),然后被提取、測(cè)序,并作為二進(jìn)制數(shù)據(jù)再次發(fā)送到另一端。塞澤說(shuō):“我們正在研究整合合成器(實(shí)際‘庫(kù)和閱讀器/定序器)架構(gòu),目標(biāo)是開發(fā)一個(gè)完整的系統(tǒng)。”
其他研究人員正在設(shè)法盡可能保持DNA穩(wěn)定。蘇黎世聯(lián)邦理工學(xué)院功能材料實(shí)驗(yàn)室的科學(xué)家羅伯特·格拉斯正在研究一種將DNA封裝在微小二氧化硅珠子中的方法。他說(shuō):“類似于骨骼化石,我們希望用合成的‘化石殼來(lái)保護(hù)包含信息的DNA?!睘榱藴y(cè)試珠子的耐久性,他們將其加熱到大約70℃并持續(xù)了一個(gè)星期,這相當(dāng)于在大約10℃的環(huán)境中保存2000年。
現(xiàn)在讓我們回到音樂(lè)上來(lái)。把聯(lián)合國(guó)教科文組織的《世界記憶》這樣的重要檔案按照一定格式保存下來(lái),即使在短期內(nèi)相對(duì)昂貴,也是一個(gè)好主意。塞澤說(shuō):“聯(lián)合國(guó)教科文組織的檔案為測(cè)試我們的方法提供了完美的實(shí)用案例?!?/p>
當(dāng)深紫樂(lè)隊(duì)寫“我們永遠(yuǎn)不會(huì)忘記/水上煙霧.空中之火”時(shí),他們并不知道現(xiàn)在發(fā)生的這些,但是,他們的創(chuàng)作現(xiàn)在得到了證實(shí)。