姜德杰 高停停
人類基因組中含有3 0億個(gè)字母,科學(xué)家一直都在爭論有多少字母具有功能性作用。有些字母對(duì)基因進(jìn)行編碼(即人類的遺傳信息),有些字母為細(xì)胞如何使用基因提供指令。但是與數(shù)量巨大的DNA 字母相比,這些已知字母序列的數(shù)量有限。長期以來,科學(xué)家一直在爭論其余的基因有沒有作用,如果有作用,其作用究竟有多大;甚至有科學(xué)家把那些不能對(duì)蛋白質(zhì)進(jìn)行編碼的基因稱作“垃圾DNA”。
現(xiàn)在,冷泉港實(shí)驗(yàn)室(CSHL)研究人員已經(jīng)研發(fā)出一種新型的計(jì)算方法,用來確定人類基因組中具有重要功能的字母。這個(gè)名為fitCons 的計(jì)算機(jī)程序利用進(jìn)化力量,對(duì)比了相關(guān)物種之間以及同一物種多個(gè)個(gè)體之間DNA 字母的不同。得到的結(jié)果令人吃驚:無論是亙古以來的物種,還是較近時(shí)期才把個(gè)體區(qū)別開來的人類自身,大自然“保存下來的基因組少得可憐。
“在模式生物中,比如真菌或蒼蠅,為確定某個(gè)特定基因發(fā)揮作用時(shí)需要DNA 序列中的哪些字母,科學(xué)家經(jīng)常會(huì)人為制造突變?!盋SHL 的亞當(dāng)·西格爾教授解釋說,“對(duì)人類我們不能做這樣的實(shí)驗(yàn)。但當(dāng)我們仔細(xì)一想便會(huì)覺得,大自然在物種進(jìn)化的過程中一直在大規(guī)模地做著類似的實(shí)驗(yàn)?;蚪M中的誘變是無序的,但是重要的字母都在自然選擇中被保存了下來,其余字母則可以自由改變卻不會(huì)對(duì)生物體產(chǎn)生不利后果?!?/p>
這一觀點(diǎn)成為他們分析的基礎(chǔ),但僅此一點(diǎn)還不夠。西格爾說“在過去的幾年中,像‘DNA 元件百科全書’計(jì)劃(E NC OD E) 這樣的大型研究聯(lián)盟為科學(xué)界提供了大量關(guān)于基因組功能的寶貴信息。其他團(tuán)隊(duì)完成了對(duì)大量人類個(gè)體和其他靈長類動(dòng)物基因序列的排序。這些體量巨大的數(shù)據(jù)集第一次為我們提供了廣泛而異常詳細(xì)的基因圖,不僅包括基因組的生化活動(dòng),還包括長期以來DNA 序列發(fā)生的變化?!?/p>
基于生化標(biāo)記組合,西格爾的團(tuán)隊(duì)開始整理ENCODE 聯(lián)盟的數(shù)據(jù)?!拔覀儾粏螁问褂肊NCODE 為我們提供的序列模式,以及關(guān)于基因組中DNA 讀取點(diǎn)及DNA 因生化標(biāo)記而變化的信息。”布拉德·古爾科說。他是康奈爾大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的博士生,同時(shí)也是該篇新論文的主要作者。這些生化標(biāo)記組合既顯示了基因組中數(shù)百種點(diǎn)位,也突顯了每個(gè)點(diǎn)位在基因組活動(dòng)中所起到的各不相同的潛在作用。
隨后,研究人員利用他們之前研發(fā)的名為I N S I G H T 的計(jì)算方法來分析各類點(diǎn)位的序列在長期或短期進(jìn)化中發(fā)生的變異。西格爾解釋說:“通常情況下,這種分析用來對(duì)比不同物種,比如人類、狗和老鼠等,這意味著研究人員在觀察相對(duì)較長時(shí)間內(nèi)序列的變化?!钡?,I N S I G H T 模式研究的是幾十個(gè)人類及其近親(如黑猩猩)的序列變化,這些變化為我們提供了較短時(shí)段內(nèi)的進(jìn)化圖譜。
科學(xué)家發(fā)現(xiàn),人類基因組中最多只有約7%的字母具有重要功能。西格爾說:“比例如此之小,令我們印象深刻。一些僅基于ENCODE 數(shù)據(jù)的分析辯稱,8 0%以上的基因組都具有功能性,但我們的進(jìn)化分析表明,事實(shí)并非如此。其他研究人員做出了類似的估計(jì),認(rèn)為只有一小部分基因組在長期的進(jìn)化過程中保存了下來。我們的分析表明,人類世系的功能性序列的新發(fā)現(xiàn)也無法解釋基于ENCODE 數(shù)據(jù)的計(jì)。我們認(rèn)為,大多數(shù)被ENCODE 認(rèn)定為‘有生化活性’的序列很可能在人類進(jìn)化的過程中并不重要?!?/p>
據(jù)西格爾所言,此項(xiàng)分析能讓研究人員更快地分離出引發(fā)疾病的序列。大多數(shù)全基因組研究涉及面極大,包含了成千上萬個(gè)與疾病關(guān)的字母?!拔覀兊姆治鲇兄诰_查明序列中哪些字母有可能起作用,因?yàn)樗鼈兌季哂猩钚圆⒃谶M(jìn)化中保存了下來?!蔽鞲駹栒f,“這為科學(xué)家了解疾病的基因基礎(chǔ)提供了強(qiáng)有力的資源?!?/p>