張燕 廣州工商學院
生物信息學是一門交叉學科,綜合了數(shù)學、計算機科學、統(tǒng)計學、生物學等學科。隨著海量基因組數(shù)據(jù)的誕生,如何深入挖掘這些數(shù)據(jù)所蘊含的信息是一個亟待解決的問題。然而這些數(shù)據(jù)難以識別,數(shù)量過多,所涉及的處理與分析步驟多且繁瑣,傳統(tǒng)的數(shù)據(jù)處理方法無法使用,因此需要更高能力的數(shù)據(jù)計算分析和存儲能力。而云計算有高速計算能力、超大存儲量及應用特點,因此通過云存儲漸漸成為生物計算發(fā)展的趨勢。
基因組數(shù)據(jù)持有者廣泛而安全地使用數(shù)據(jù)是發(fā)揮數(shù)據(jù)價值、提供基于數(shù)據(jù)的作用的前提條件。現(xiàn)實中,有很多方式致力于解決此問題,如STATA,SPSS等基礎(chǔ)軟件,后出現(xiàn)了貝葉斯網(wǎng)絡、聚類分析等統(tǒng)計學方法。然而隨著基因組數(shù)據(jù)高通量的增長,準確運用數(shù)據(jù)、從而發(fā)現(xiàn)數(shù)據(jù)信息的復雜性也在不在增加,如何有效處理實驗中產(chǎn)生的海量數(shù)據(jù)引起了研究者們的廣泛注意。人們清楚地認識到對這些海量數(shù)據(jù)進行簡單處理是遠遠不夠的,必須有更有效的方法才能獲取更有價值的信息。本項目力圖解決分析海量數(shù)據(jù)時存在的問題,符合大數(shù)據(jù)時代的發(fā)展趨勢,有助于推動大數(shù)據(jù)分析技術(shù)的發(fā)展,具有現(xiàn)實意義。
通過對研究內(nèi)容和關(guān)鍵問題的分析,本項目提出了相應的研究方法和技術(shù)路線。對于大數(shù)據(jù)環(huán)境下的基因組數(shù)據(jù),本項目引入云計算平臺,通過該平臺分析基因組數(shù)據(jù)的相互關(guān)系,并預測。云計算平臺這幾年發(fā)展非常迅速,適合分析高通量數(shù)據(jù)。通過較成熟的理論基礎(chǔ)與技術(shù)平臺結(jié)合,可以得出準確結(jié)論。
基于國內(nèi)外文獻研究分析,2018年初開始研讀相關(guān)文獻,了解最新研究成果。且課題組成員具備完成課題的能力:團隊成員結(jié)構(gòu)合理,其中包括科研、教學經(jīng)驗豐富的教師;學歷層次高,絕大部分為碩士以上學歷;科研能力強,大部分成員主持或參與過科研項目,且發(fā)表了高質(zhì)量的科研論文。
云計算從提出到今天已經(jīng)有10多年的歷史,現(xiàn)在平臺建設(shè)日漸成熟,尤其隨著數(shù)據(jù)數(shù)量越來越繁多,種類越來越繁多,云計算已經(jīng)成為一種不可或缺的重要方式。
經(jīng)濟效益方面,則有以下幾種情況:
(1)準確、安全、有效地通過云計算平臺處理好基因組間的相互關(guān)系,可以進一步推進生物、醫(yī)學的發(fā)展,彌合基因組的關(guān)系預測在技術(shù)上的鴻溝。
(2)有效處理基因組的關(guān)系(基因測序)帶來了商業(yè)價值,提高了經(jīng)濟效益。本項目基于經(jīng)濟學的研究思路,使得基因關(guān)系更容易走向商業(yè)。在本領(lǐng)域有很多成功的例子:例如,2011年,華盛頓大學里26臺基因測序儀器中的一臺,以及一臺超級計算機,經(jīng)過幾周晝夜不停地運行,準確找出了沃特曼(一名白血病患者)的病因——一個正?;騀LT3表達過于活躍,刺激了沃特曼癌細胞的快速生長增殖;并找到一種可以抑制基因表達的新藥。這使得沃特曼成為第一個用此藥治療白血病的病人,且病情好轉(zhuǎn)。再例如,蓮的兩個子類:熱帶蓮(清邁野蓮)和溫帶蓮(中湖野生蓮),它們有不同地理來源(由太平洋分開),但保持相同染色體數(shù)目。通過基因組測序分析二者之間的關(guān)系,對了解蓮的基因多樣性和親緣關(guān)系,以及對種質(zhì)資源的育種和非原位保存有重要意義。因此,基于本項目的新的安全有效的基因測序必定帶來新的商業(yè)機會。
(3)有助于大數(shù)據(jù)戰(zhàn)略,帶來社會效益。大數(shù)據(jù)是建設(shè)智慧城市的基礎(chǔ),然而只有對大數(shù)據(jù)在“集大成”的基礎(chǔ)上重組分析,數(shù)據(jù)的價值才能不斷放大,成為“智慧”。
至于風險分析,由于基因組數(shù)據(jù)量多,導致可能選取不準確,從而影響實驗結(jié)果。
要達到的主要經(jīng)濟、技術(shù)指標為:準確對高通量基因組數(shù)據(jù)進行測序分析并預測,及時應用到白血病、乳腺癌等疾病的臨床診斷中,使得該技術(shù)及早造福社會,帶來經(jīng)濟效益。
云計算所具有的高速計算能力、高存儲量及使用特點很好地滿足了這些需求,因此融合云計算漸漸成為生物計算發(fā)展的趨勢[5]。本文介紹了云存儲基因組數(shù)據(jù)的可行性研究。