王丹丹,李晨鴻,徐海陽,蔡 蓉,朱 平
(江南大學 理學院,江蘇 無錫 214122)
隨著各種模式生物基因組計劃的相繼完成或全面實施,有關核酸、蛋白質的序列和結構等生物學數據呈指數增長,越來越多基因的結構和功能得到闡明,建立簡潔、專用性強和數據質量高的二級數據庫及分析系統(tǒng)已成為研究熱點之一[1-2]。
各類二級數據庫的建立是研究生物信息學的重要出發(fā)點。一般而言,生物信息一級數據庫的數據來源于原始實驗室的直接提交,而對一級數據庫的數據信息進行搜索、加工和整理成二級數據庫,已廣泛應用于生物信息學、生命科學等領域[3-5]。目前被公認是癌癥生物標志物的p53抑癌基因最初被認為是一種癌基因,隨著近十年研究的深入,p53作為抑癌基因的功能逐漸被揭示,對p53基因的研究也日益受到重視[6-7]。其中汪小霞等[8]揭示了EZH2與p53表達的正相關性以及EZH2蛋白在腫瘤中受p53基因調控的現象;MAKWANE等[9]通過聚合酶鏈反應單鏈構象多態(tài)性分析發(fā)現人類乳腺癌p53腫瘤抑制基因的外顯子5和7存在突變。p53基因突變與人類腫瘤的關系十分密切,已成為腫瘤發(fā)病的主要因素,而隨著生物醫(yī)學的發(fā)展,很多癌癥可以進行基因治療,因此,有必要建立一個關于p53基因的二級生物信息數據庫對p53基因進行深入分析研究。
在生物信息學中,基因序列比對已成為一種處理基因信息的基本方法,有利于發(fā)現生物序列的功能、結構和進化信息。目前,序列比對算法主要包括Smith-Waterman算法、BLAST算法和FASTA算法等[10-11]。Smith-Waterman算法敏感性強,但復雜度很高,運算速度較慢,后2種序列比對算法具有更高的運算速度,但敏感性較差。而一維細胞神經網絡(cellular neural network,CNN)[12-13]序列比對算法是一種新提出的序列比對算法,具有較低時間復雜度和良好的敏感性。本研究采用擬比對一維CNN序列比對算法應用于不同癌癥p53基因序列比對,并改善算法相似度評估公式,大大增強了序列比對結果的敏感性和可靠性。
本研究中主要針對p53癌癥基因的外顯子和內含子數據,構建一個二級生物信息數據庫。通過NCBI(National Center for Biotechnology Information)一級數據庫收集p53癌癥基因序列,經過解析與歸納將二級數據庫設計為包含p53信息、癌癥信息、樣本信息和參考文獻信息等4個部分,實現二級數據庫的信息查尋與使用,并通過Agent程序實現數據庫的自動更新和維護。采用改進相似度評估公式的CNN序列比對算法,增強了序列比對敏感性,使乳腺癌和非小細胞肺癌p53外顯子基因序列比對結果更可靠。
NCBI是國際主要生命科學信息服務機構之一,每天都有大量來自實驗室和測序機構發(fā)布的序列數據進入該數據庫,并保持與其他數據庫的數據交換和更新,因而匯集了當前所有公開的核酸和蛋白質序列,本二級數據庫的數據主要來源于NCBI維護的基因數據庫。
本研究中采用 p53、human、cancer、exon、intron等關鍵詞搜索一級數據庫,通過代理程序自動獲取數據庫Web信息資源,并對其進行檢索、歸納和轉換產生二級數據庫,其流程圖如圖1所示。
本二級數據庫目前已經收集了包括乳腺癌、非小細胞肺癌、胃癌、肝癌等16種癌癥的516條p53癌癥基因序列。
圖1 下載一級數據庫流程Fig.1 Download the flow chart of primary database
本研究所構建的二級數據庫主要過程見圖2。首先從NCBI一級數據庫中下載p53癌癥基因,并保存為網頁信息,然后使用XML Document類DOM模型創(chuàng)建、修改、遍歷XML文檔,運行后臺解析程序對XML文檔進行映射,實現批量導入數據。最后,采用XML技術將各種異構數據源數據轉換成XML公共數據模型格式,實現網絡數據資源和二級數據庫的數據交換,同時以GBseq XML格式獲取文本數據并構建本地二級數據庫。
圖2 構建二級數據庫的系統(tǒng)結構Fig.2 System architecture of the construction of secondary database
1.3.1 數據庫結構 本研究所構建的二級數據庫主頁包含了1個集合,這個集合包含各種癌癥子集合,每個子集合包含癌癥p53基因序列的外顯子或內含子信息。同時以圖片形式展示人體各部分癌癥位點,用戶可以點擊圖片進行瀏覽,也可通過關鍵字搜索查找p53基因序列編號,如果數據庫中有這一條序列則會自動跳轉到對應序列,如未能找到相應p53序列編號,則不顯示任何信息。
當用戶點擊某種癌癥圖片進入對應頁面,可以看到包括p53信息、癌癥信息、樣本信息、參考文獻信息等實體信息。用戶如對某個癌癥p53基因序列的詳細信息感興趣,可以點擊more按鍵詳細查看NCBI一級數據庫中這條序列的完整信息,同時也可鏈接到p53研究的原始文獻進一步閱讀,查看包括癌癥名稱、p53外顯子或內含子、樣本信息(樣本數、樣本來源)以及參考文獻信息(題目、發(fā)表年、PMID)等具體信息。
本二級數據庫的實體信息主要包括以下4個部分:(1)p53信息,主要包含p53基因序列在數據庫中編號(Accession)、p53某個外顯子或者內含子基因序列以及外顯子對應的蛋白質序列、每條序列的長度和起始子位置;(2)癌癥信息,主要包含癌癥的名稱、癌癥的分類;(3)樣本信息,主要包含樣本來源、樣本數、樣本類型、樣本的研究方法;(4)參考文獻信息,主要包含文獻題目、PMID、發(fā)表日期、備注等。
1.3.2 數據庫功能模塊 本數據庫系統(tǒng)分為5個模塊:第1個模塊為癌癥p53基因外顯子或內含子序列顯示系統(tǒng),包含了各種癌癥及癌癥部位顯示圖,用戶可以通過點擊癌癥圖片的方式,了解具體癌癥p53基因序列信息。
第2個模塊為數據庫介紹模塊,介紹了數據庫的基本內容,包括數據庫更新信息、數據統(tǒng)計信息、數據內容介紹。
第3個模塊為搜索系統(tǒng),用戶可以通過輸入癌癥p53序列編號,了解該p53序列是否被測序出來,是否在數據庫中,如果有,則數據庫會給出相應的序列信息,用戶可通過點擊的方式了解詳細信息。
第4個模塊為用戶數據提交系統(tǒng),作為一個大的整合型的數據庫,我們盡可能收集所有數據,如果用戶有新數據可以提交至我們的數據庫,將由后臺人員進行數據審查。
第5個模塊為數據共享,即作為一個公開的數據庫,數據是共享的,數據庫中的信息是以Excel表形式進行匯總,全面涵蓋了所存儲數據,用戶可以對數據進行下載使用。
二級數據庫的管理系統(tǒng)能夠有效減輕管理員的負擔,目前已經有多種不同環(huán)境下的數據庫管理系統(tǒng)。二級數據庫管理主要步驟包括增刪相應序列和編輯二級數據庫注釋信息、二級數據庫更新需與一級數據庫更新同步,主要包括修改序列條目、刪除冗余條目和加入新條目。
隨著一級數據庫中已有數據的不斷變更以及新數據的不斷加入,人工更新方式已難以滿足二級數據庫的實時有效更新,因此,需要采用一種自動獲取Web信息的方法實現二級數據庫自動更新。而SQL Server提供的企業(yè)級管理軟件能夠進行常規(guī)任務的自動化管理,管理員可以通過SQL Server提供的Agent服務實現數據庫的自動管理和更新。利用Agent服務在特定日期及時檢測一級數據庫中的版本信息,二級數據庫通過接收Agent服務消息并與二級數據庫對應的版本號進行比較,主動對二級數據庫進行更新,若版本號變動則自動下載更新該條目,通過匹配一級數據庫中有關p53基因信息條目的版本號,自動判斷該條目是否已在二級數據庫中存在,不存在則通過文本消息通知管理員添加該條目[3,14]。與人工更新方式相比,SQL Server Agent服務能夠高效地完成數據庫自動管理和更新。
一維CNN模型具有一個線性細胞排列結構,每個細胞最多有兩個相連細胞,這些特點可以有效地來進行兩條DNA序列比對。一維CNN與傳統(tǒng)CNN不同,因為它僅由兩個單獨的一維細胞神經網絡組成,一個固定的主子網絡,一個可移動的從子網絡,分別代表兩條DNA序列片段,其中網絡中每一個細胞都對應DNA序列中的堿基。算法中從子網絡隨時間以固定距離移動,計算主子網絡中每一個細胞在不同時刻的狀態(tài)值,最終將所得到的狀態(tài)值進行排列形成狀態(tài)矩陣,通過動態(tài)規(guī)劃方法產生一條全局比對最優(yōu)路徑。在這條路徑的引導下,通過在合適的位置插空使得兩條長度不同的DNA序列變成長度相同新的DNA序列,然后對這兩條DNA序列片段進行全局比對。
一維CNN計算公式如下:
其中,x1,i(t)表示主子網絡中細胞i在t時刻的狀態(tài),y1,i(t)表示從細胞i中接收到的反饋輸出,Ak,Bk分別是反饋模板A和控制模板B的系數,Ii,Rx和C是3個常量,y1,k(t)和u1,i(t)分別為細胞k在t時刻的輸出和相關輸入。
具體序列比對步驟如下:
Step1:設置CNN初始值,將DNA序列化為可計算的數字特征,最基本的特征{*,A,C,G,T}相應的量化為{0,-1,-0.5,0.5,1},“*”代表空格。
Step2:通過狀態(tài)選擇函數計算狀態(tài)矩陣,其中狀態(tài)選擇函數計算公式為:
Step3:根據狀態(tài)矩陣形成全局比對的路徑。通過最后的狀態(tài)逐步回溯到第1個狀態(tài),其中每個狀態(tài)選取規(guī)則為包含上1個狀態(tài)左上角2×2矩陣中的最大值。例如,狀態(tài)矩陣中的m行n列的狀態(tài)為(n,m)則其下 1 個狀態(tài)選取規(guī)則為在(n,m-1)、(n-1,m-1)、(n-1,m)中選取最大值,然后將其作為下 1個狀態(tài)值。
Step4:根據所選路徑對2條DNA序列進行全局比對,如果前后2個狀態(tài)橫坐標相差1,縱坐標相差0,則在第一條序列中插入1個空格,如果前后2個狀態(tài)橫坐標相差0,縱坐標相差1,則在第2條序列中插入1個空格,其他情況則序列保持不變。
Step5:計算2條序列比對的相似度評估。將CNN序列比對方法中的計算相似度公式改進為:
其中Nma為步驟4中2條序列匹配的個數,L(S1)、L(S2)分別為序列S1、S2的長度。假設兩序列S1、S2中S1長度較短,可知Nma∈{0,1,……,L(S1)},則由式(5)可以得出當兩序列匹配個數為零時,其最小相似度為零;當兩序列匹配個數達到最大,即較短序列的長度時,其相似度最大,該最大相似度與兩序列長度相關,當兩序列長度相同時,最大相似度為1,當兩序列長度相差較大時,最大相似度趨近于0.5。因此,改進后的相似度評估公式增強了序列比對敏感性,使得序列比對結果更可靠。
其中將公式(1)中的初始值取為C=1,Rx=1,I=0,A={0,0,0},B={0,1,-1},F={F1,F2,F3}={5,4,2}。
定義1:稱如上定義的CNN方法為擬比對CNN方法。
為了探討不同癌癥p53基因之間的區(qū)別和聯(lián)系,本研究以乳腺癌和非小細胞肺癌為例進行序列比對,分析這兩種癌癥之間的聯(lián)系與區(qū)別。分別對乳腺癌和非小細胞肺癌p53基因的Exon4、Exon5、Exon6、Exon7、Exon8和 Exon9進行擬比對 CNN 算法比對,其中乳腺癌的Exon4有15條,Exon5有28條,Exon6有27條,Exon7有38條,Exon8有39條,Exon9有50條;非小細胞肺癌的Exon4有13條,Exon5有 25條,Exon6有 20條,Exon7有 35條,Exon8有37條,Exon9有48條。
分別采用CNN方法、BLAST序列比對方法和擬比對CNN方法對2種癌癥p53基因同一外顯子序列進行比對,表1中擬比對CNN方法利用步驟5所給出的兩序列相似度評估公式(5)對Exon4、Exon5、Exon6、Exon7、Exon8、Exon9 的 DNA 序列進行全局比對,其中Mean為平均值,Std為標準差。
從表1中可以看出,擬比對CNN方法相比CNN方法和BLAST序列比對方法有較高的全局相似度,尤其當序列長度較長時擬比對CNN相比CNN和BLAST全局相似度提高較多。此外,采用擬比對CNN方法對兩種癌癥p53基因的外顯子序列比對相似度的標準差相對較小。表明擬比對CNN方法相比于其他兩種方法不僅具有較好的敏感性,而且其結果的可靠性良好。
從表1還可以看出,采用擬比對CNN方法對乳腺癌和非小細胞肺癌的p53基因外顯子進行比對,其結果有很大不同。其中Exon5相比于Exon4、Exon6、Exon7、Exon8 和 Exon9 而言相似度最低,只有55.34%,而Exon4的相似度最高,達到了99.75%,其他幾個外顯子也都超過了95%,這表明乳腺癌和非小細胞肺癌p53的Exon5序列突變存在較大差異。因此,在突變的p53外顯子中Exon5可以作為區(qū)別乳腺癌和非小細胞肺癌參考標準,而其他幾個p53癌癥基因外顯子難以作為區(qū)別乳腺癌和非小細胞肺癌的參考標準。
表1 擬比對CNN、CNN與BLAST方法的全局相似度比較Table1 Global similarity comparisons between quasi alignment CNN、CNN and BLAST algorithms
將擬比對CNN方法與CNN方法和BLAST序列比對方法對乳腺癌和肺癌的 Exon4、Exon5、Exon6、Exon7、Exon8、Exon9 序列比對時間進行比較,結果如表2所示。
由于擬比對CNN方法對2條p53基因序列進行比對,其時間復雜度為O(T)=O(m,n)≈O(m+n+1),而BLAST比對算法的時間復雜度為O(T)=O(m×n)較高,其中m、n分別為2條序列的長度,所以擬比對CNN方法有效降低了算法的時間復雜度。
從表2可以看出,就計算時間而言不論是較長的序列還是較短的序列擬比對CNN方法和CNN方法都比BLAST所需要的計算時間短很多,且就擬比對CNN方法本身而言序列總長度越長比對所需計算時間也越長。因此,采用擬比對CNN方法對基因序列進行比對有效提高了算法運算效率。
表2 擬比對CNN、CNN與BLAST方法的計算時間比較Table2 Computation time comparisons of the quasi alignment CNN、CNN and BLAST algorithms ms
本研究以癌癥生物標志物p53基因為對象,通過NCBI一級數據庫收集p53癌癥基因序列,經過解析與歸納將二級數據庫設計為包含p53信息、癌癥信息、樣本信息和參考文獻信息等4個部分,利用5個功能模塊更加有利于實現二級數據庫的信息查詢與使用。為了進一步提高CNN序列比對方法相似度的敏感性和可靠性,本文對相似度評估公式進行改進,并將其定義為擬比對CNN方法,有效提高了算法的性能。采用擬比對CNN方法對乳腺癌和非小細胞肺癌p53基因的外顯子序列進行比對分析,發(fā)現兩種癌癥p53基因的Exon5序列突變存在較大差異,可作為區(qū)別乳腺癌和非小細胞肺癌的參考標準。
后續(xù)將增加更多癌癥p53基因,以及加入某種癌癥的其他生物標志物比如乳腺癌的HER2、ER,結直腸癌的EGFR、KRAS等,使數據庫的內容更全面,實用性更強,應用性更廣。