文/王琳
21世紀是科學技術迅猛發(fā)展的時代,大數(shù)據(jù)已走進我們的生活,在科學領域,爆發(fā)式增長的大數(shù)據(jù)為科研人員和社會發(fā)展帶來了巨大的價值,而科學大數(shù)據(jù)的處理分析是一項技術要求高、浩繁的大工程。然而現(xiàn)在常用的大數(shù)據(jù)處理軟件已不能滿足當今時代大數(shù)據(jù)處理的要求,因此研究以云分析為代表的大數(shù)據(jù)處理分析軟件就顯得尤為必要。
大數(shù)據(jù)逐步走進人們的視線,其也越來越彰顯其具備的優(yōu)勢,已被廣泛應用至電子商務、衛(wèi)星遙感、高能物理、現(xiàn)代新農業(yè)等領域,成為大國間博弈的心領域。大數(shù)據(jù)對人類日常生活及對當今世界的新理解的影響也更加明顯。而作為大數(shù)據(jù)重要分支領域的科學大數(shù)據(jù)因具有復雜性、綜合性、不可重復性、高維性及高度集成信息的內部特征及在數(shù)據(jù)內容、體量、分析等方面具有的傳統(tǒng)數(shù)據(jù)分析無法比擬的外部特征。且其研究方向從單一學科向多學科并跨學科的轉變,使得科學世界正因科學大數(shù)據(jù)的興起而發(fā)生變化。因此,盡快開發(fā)并使用與之匹配的分析服務系統(tǒng),給當今信息技術領域帶來了新的挑戰(zhàn)。
Matlab 因其在算法開發(fā)、數(shù)據(jù)分析、計算等領域提供了高級編程語言和交互式的環(huán)境,因此被廣泛用于眾多科學領域。R 語言、Weka是眾多免費的單機環(huán)境智能分析軟件的典型代表。R語言因可提供強大的統(tǒng)計分析功能,且用戶可根據(jù)自身需要安裝個性化擴展包而增強R功能,在統(tǒng)計分析和繪圖語言中用途廣泛?;?Java 語言運用的Weka 數(shù)據(jù)挖掘平臺因在可視化、拖拽式分析流程設計界面方面的強大功能,并在預處理和機器學習算法方面集成了大量數(shù)據(jù)。但因此類設計初衷為單機模式運行的軟件系統(tǒng),無法針對當前分布式存儲的科學大數(shù)據(jù)進行處理,因此在處理科學大數(shù)據(jù)方面存在先天不足。
在分布式環(huán)境下Hadoop Mahout、Spark MLlib是分析軟件的典型代表。通過使用這類代表性的軟件,分布式并行挖掘方面的問題已經被研究人員解決,并提供了具有代表性的可供參考的的機器學習算法和模型。隨著科技的發(fā)展,像Tensor Flow、CNTK等用于構建和訓練深度神經網絡模型并可用于分布式和異構計算的軟件也被廣大技術人員使用。但對于科研團隊的科學研究工作,此類軟件雖然在算法庫和計算平臺方面有一定的豐富度和高效性,但因編程開發(fā)程序的不足及系統(tǒng)配置的不完善,在分析較為復雜的科學問題上,存在先天性的不足。
當前,通過云平臺對大數(shù)據(jù)進行智能分析的云計算智能分析軟件的使用率逐步提升。高效實用機器服務的模式也被眾多云平臺廠商研究的熱點方向。但這些系統(tǒng)在平臺鎖定和特定開發(fā)語言方面存在不足,用戶無法自主性的對算法庫進行擴充。現(xiàn)如今,一些科學家攻克了技術難題,開發(fā)了具有瀏覽器架構模式的分析軟件,在數(shù)學建模,云數(shù)據(jù)計算和數(shù)字模擬方面具有革新性意義。這種軟件系統(tǒng)以云平臺部署為基礎,為特定需求的大數(shù)據(jù)分析進行高速處理,并提供能夠支持科學大數(shù)據(jù)分析服務的處理過程。
隨著時代的發(fā)展,人工智能等高新技術被應用到科學研究中的需求越來越強烈。當前,智能分析軟件不僅需要在相關領域提供基礎和傳統(tǒng)算法運算,還被廣泛應用于深度縱向學習、自然語言理解和構建生物圖譜等新型人工智能方向的集成應用。為現(xiàn)代社會解析生命秘密、高通量測序等龐大系統(tǒng)的數(shù)據(jù)提供基礎支持。
復雜數(shù)據(jù)的處理、分析以及對于靶向關鍵性數(shù)據(jù)的提取過程的軟件因開發(fā)成本高昂,技術難度大,仍處于開發(fā)完善的過程中。當前對于龐大大數(shù)據(jù)處理的迫切需求,使得大數(shù)據(jù)分析服務軟件急需在傳統(tǒng)式編程開發(fā)技術的基礎上,提供可視化的分析挖掘環(huán)境并為算法庫和模型提供高質量、可復制的計算模式并實現(xiàn)囊括集成數(shù)據(jù)源、設計流程與執(zhí)行和可視化等功能于一體的智能分析云軟件。
云服務類的大數(shù)據(jù)分析軟件不再像傳統(tǒng)軟件一樣需要在本地進行安裝,并需要定期升級維護,提高了軟件應用的效率。同時,云服務提供的瀏覽器可為深層數(shù)據(jù)挖掘與分析、流程化的操作和管理提供統(tǒng)一的門戶界面,增加軟件的便利性。此外,通過在線API的形式對模型、算法等數(shù)據(jù)源進行復制、共享使用的“功能及服務”型功能也被視為未來云服務分析軟件的重要特征。
因為分析模式在不同的科學領域范圍內的需求千差萬別,因此通用性、大眾化的大數(shù)據(jù)分析軟件顯然無法滿足對于特定領域進行研究并需要個性化處理的科學團隊的要求。傳統(tǒng)的大數(shù)據(jù)分析軟件因無法提供在分析流程、可視化等方面的個性化分析功能也不被采用。隨著科學研究的深入,理想的大數(shù)據(jù)云分析智能分析軟件應該囊括分析流程、可視化等方面的分析功能,并能針對不同的研究方向、不同的數(shù)據(jù)處理需求提供個性化的分析服務,這也是當前技術人員重點研究的方向。
本文在對當前常用大數(shù)據(jù)處理軟件分析的基礎上,提供了未來云分析服務性能優(yōu)化的技術方向,旨在為開發(fā)適用于現(xiàn)代社會發(fā)展的云分析服務的科學大數(shù)據(jù)開發(fā)軟件提供建議。