薛博召
摘要:云計(jì)算(cloud computing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,國(guó)內(nèi)外知名的大企業(yè)都在進(jìn)行云計(jì)算架構(gòu)的相關(guān)研究。谷歌、亞馬遜、阿里巴巴均在部署并架構(gòu)自己的云計(jì)算平臺(tái),云服務(wù)無(wú)疑將成為IT企業(yè)未來(lái)的主要贏利模式之一。該文主要對(duì)云計(jì)算的架構(gòu)技術(shù)進(jìn)行分析、研究,以便為企業(yè)構(gòu)建可靠、高效的云服務(wù)平臺(tái)提供技術(shù)參考。
關(guān)鍵詞:云計(jì)算;云計(jì)算架構(gòu);云計(jì)算服務(wù);
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)03-0072-02
目前“云計(jì)算”的定義有很多,對(duì)于到底什么是云計(jì)算,至少可以找到100種解釋。云計(jì)算技術(shù)可以把大量零散的低運(yùn)算能力單元集中起來(lái),形成強(qiáng)大的運(yùn)算能力,甚至可以達(dá)到每秒10萬(wàn)億次的運(yùn)算水平,如此強(qiáng)大的計(jì)算能力可以用來(lái)模擬核爆炸、預(yù)測(cè)氣候變化和市場(chǎng)發(fā)展趨勢(shì)。從易用性的角度,用戶無(wú)需了解云計(jì)算內(nèi)部的實(shí)現(xiàn)原理和方式,可以通過(guò)臺(tái)式機(jī)、筆記本、手機(jī)等方式直接接入數(shù)據(jù)中心,由數(shù)據(jù)中心提供所需的運(yùn)算、存儲(chǔ)等資源。
1 云計(jì)算架構(gòu)
目前大家比較公認(rèn)的云計(jì)算架構(gòu)主要?jiǎng)澐譃榛A(chǔ)設(shè)施層(IaaS)、平臺(tái)層(PaaS)和軟件服務(wù)層(SaaS)三個(gè)層次,如下圖1所示:
圖1 云計(jì)算架構(gòu)示意圖
IaaS(Infrastructure as a Service)是基礎(chǔ)設(shè)施層,主要包括服務(wù)器、網(wǎng)絡(luò)通信設(shè)備、存儲(chǔ)設(shè)備等,可以根據(jù)用戶需求提供計(jì)算能力、存儲(chǔ)能力或網(wǎng)絡(luò)能力等IT基礎(chǔ)設(shè)施類服務(wù),也就是能在基礎(chǔ)設(shè)施層面提供的服務(wù)。今天IaaS能夠得到推廣使用得益于虛擬化技術(shù)的發(fā)展、成熟,利用虛擬化技術(shù)能夠?qū)⒏鞣N計(jì)算設(shè)備統(tǒng)一虛擬化為虛擬資源池中的計(jì)算資源,將存儲(chǔ)設(shè)備統(tǒng)一虛擬化為虛擬資源池中的存儲(chǔ)資源,將網(wǎng)絡(luò)設(shè)備統(tǒng)一虛擬化為虛擬資源池中的網(wǎng)絡(luò)資源。當(dāng)用戶訂購(gòu)這些資源時(shí),數(shù)據(jù)中心管理者直接將訂購(gòu)的份額打包提供給用戶,對(duì)外提供基礎(chǔ)設(shè)施服務(wù)。
PaaS(Platform as a Service)平臺(tái)即服務(wù),如果以傳統(tǒng)計(jì)算機(jī)架構(gòu)中“硬件+操作系統(tǒng)/開(kāi)發(fā)工具+應(yīng)用軟件”的觀點(diǎn)來(lái)看待,那么云計(jì)算的平臺(tái)層應(yīng)該提供類似操作系統(tǒng)和開(kāi)發(fā)工具的功能。實(shí)際上也的確如此,PaaS定位于通過(guò)互聯(lián)網(wǎng)為用戶提供一整套開(kāi)發(fā)、運(yùn)行和運(yùn)營(yíng)應(yīng)用軟件的支撐平臺(tái)。微軟公司的Windows Azure和谷歌公司的GAE,可以算是目前PaaS平臺(tái)中最為知名的兩個(gè)產(chǎn)品了。
SaaS(Software as a Service)軟件即服務(wù),是利用互聯(lián)網(wǎng)就可以提供軟件服務(wù)的一種應(yīng)用模式。在該模式下,用戶無(wú)需將大量資金用于軟件、硬件以及開(kāi)發(fā)團(tuán)隊(duì)建設(shè),只需支付一定費(fèi)用,就能夠通過(guò)網(wǎng)絡(luò)享受到相應(yīng)的軟件服務(wù),而且整個(gè)系統(tǒng)的維護(hù)也由廠商負(fù)責(zé)。
2 云計(jì)算技術(shù)研究
2.1虛擬化技術(shù)
虛擬化,能夠?qū)⒁慌_(tái)計(jì)算機(jī)虛擬成多臺(tái)獨(dú)立的邏輯計(jì)算機(jī),每臺(tái)邏輯計(jì)算機(jī)可以運(yùn)行不同的操作系統(tǒng),運(yùn)行在不同邏輯計(jì)算機(jī)上的應(yīng)用程序之間互不影響,可以顯著提高計(jì)算機(jī)的利用效率。虛擬化可以通過(guò)多種方法實(shí)現(xiàn),下面就目前主流的方法進(jìn)行介紹:
1)完全虛擬,是指在虛擬服務(wù)器與底層硬件之間搭建一個(gè)抽象層hypervisor,hypervisor可以用來(lái)捕捉CPU指令,為指令訪問(wèn)硬件控制器和外設(shè)充當(dāng)中介。因此,通過(guò)完全虛擬化技術(shù)可以在虛擬服務(wù)器上安裝任何操作系統(tǒng),每個(gè)虛擬服務(wù)器都像是一臺(tái)獨(dú)立的物理服務(wù)器。完全虛擬的優(yōu)點(diǎn)是兼容各個(gè)版本的操作系統(tǒng),兼容性、通用性比較好,缺點(diǎn)是抽象層會(huì)占用一定的硬件資源,會(huì)帶來(lái)額外的資源開(kāi)銷。
2)準(zhǔn)虛擬,完全虛擬化的特點(diǎn)是處理器密集型,因?yàn)樗峭ㄟ^(guò)抽象層來(lái)管理每一個(gè)虛擬服務(wù)器,并讓虛擬服務(wù)器之間彼此獨(dú)立。減輕這種負(fù)擔(dān)的一種方式就是,改變客戶操作系統(tǒng),讓它以為自己運(yùn)行在虛擬環(huán)境下,能夠與抽象層協(xié)同工作。準(zhǔn)虛擬化的優(yōu)點(diǎn)是性能高,通過(guò)準(zhǔn)虛擬化處理過(guò)的服務(wù)器可與抽象層協(xié)同工作,其響應(yīng)能力幾乎可以等同于未經(jīng)過(guò)虛擬化處理的服務(wù)器。
3)系統(tǒng)虛擬,是指在操作系統(tǒng)層面增加虛擬服務(wù)器功能,與完全虛擬化和準(zhǔn)虛擬化相比,系統(tǒng)虛擬沒(méi)有抽象層,由主機(jī)操作系統(tǒng)自身負(fù)責(zé)在多個(gè)虛擬服務(wù)器之間分配硬件資源。另一個(gè)區(qū)別是,如果使用操作系統(tǒng)層虛擬化技術(shù),所有虛擬服務(wù)器只能運(yùn)行同一操作系統(tǒng)(但是每個(gè)實(shí)例可以有自己的應(yīng)用程序和用戶賬戶)。操作系統(tǒng)層虛擬化具有靈活性較差的缺點(diǎn),但是本機(jī)速度性能比較高。另外,由于所有虛擬服務(wù)器都使用單一、標(biāo)準(zhǔn)的操作系統(tǒng),所以與異構(gòu)環(huán)境相比要更容易管理一些。
2.2分布式并行架構(gòu)技術(shù)
隨著科學(xué)的發(fā)展,我們需要解決越來(lái)越多非常復(fù)雜的問(wèn)題,這些問(wèn)題通常需要相當(dāng)大的計(jì)算能力才能解決,有很多都是跨學(xué)科的、富有挑戰(zhàn)性的,且是人類亟待解決的問(wèn)題,比如:
1)解決復(fù)雜的數(shù)學(xué)難題,如:GIMPS(尋找最大梅森素?cái)?shù));
2)尋找更安全的密碼系統(tǒng),如:RC-72(密碼破解);
3)生物病理研究,例如:研究蛋白質(zhì)折疊、誤解、聚合及由此引起的相關(guān)疾??;
4)各類疾病藥物研究,如:United Devices(尋找治療癌癥的藥物);
5)信號(hào)處理,如:SETI@Home(在家尋找地外文明)等。
從上述實(shí)例可以看出,有些項(xiàng)目規(guī)模非常龐大,需要很大計(jì)算量,單純靠一臺(tái)電腦在一個(gè)能讓人接受的時(shí)間內(nèi)完成計(jì)算是絕對(duì)不可能的。分布式計(jì)算可以把一個(gè)需要非常巨大計(jì)算能力才能解決的問(wèn)題分解成許多小的組成部分,然后把這些分解后的任務(wù)分配給多個(gè)計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算機(jī)處理的結(jié)果綜合起來(lái)得到最終結(jié)果。
3 主流云計(jì)算框架
3.1 Hadoop
Hadoop是由Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop框架的核心是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供存儲(chǔ)服務(wù),MapReduce則為海量的數(shù)據(jù)提供計(jì)算服務(wù)。
HDFS(Hadoop分布式文件系統(tǒng))被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。其特點(diǎn)包括:
1)高容錯(cuò)性,整個(gè)HDFS系統(tǒng)可以由成百上千個(gè)存儲(chǔ)著文件數(shù)據(jù)片斷的服務(wù)器組成,每一臺(tái)服務(wù)器都很可能出現(xiàn)故障,當(dāng)其中某個(gè)服務(wù)器出現(xiàn)故障時(shí)不會(huì)對(duì)整個(gè)文件系統(tǒng)造成影響,HDFS仍然可以對(duì)外提供數(shù)據(jù)訪問(wèn)服務(wù)。正是因?yàn)檫@一特性,HDFS非常適合部署在廉價(jià)的機(jī)器上。
2)高吞吐量數(shù)據(jù)訪問(wèn),運(yùn)行在HDFS上的應(yīng)用程序必須通過(guò)流式訪問(wèn)數(shù)據(jù),它不是運(yùn)行在普通文件系統(tǒng)之上的普通程序。HDFS的設(shè)計(jì)適合批量處理,而非用戶交互,重點(diǎn)是提高數(shù)據(jù)吞吐量,而不是數(shù)據(jù)訪問(wèn)的反應(yīng)時(shí)間。
3)大數(shù)據(jù)集,典型的HDFS文件大小是GB或者TB級(jí)別。因此HDFS在設(shè)計(jì)上支持大文件,應(yīng)該有很高的聚合數(shù)據(jù)帶寬,一個(gè)HDFS集群可以支持?jǐn)?shù)百個(gè)節(jié)點(diǎn),支持千萬(wàn)級(jí)別的文件。
HDFS是一個(gè)的主從結(jié)構(gòu),一個(gè)HDFS集群包含一個(gè)名字節(jié)點(diǎn),它是一個(gè)管理文件命名空間和調(diào)節(jié)客戶端訪問(wèn)文件的主服務(wù)器,名字節(jié)點(diǎn)包含了每個(gè)文件的分割情況以及每個(gè)文件塊的映射表信息,用于接收用戶讀寫文件的請(qǐng)求。與名字節(jié)點(diǎn)不同,一個(gè)HDFS集群包含若干個(gè)數(shù)據(jù)節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)文件數(shù)據(jù)。HDFS的工作機(jī)制是在存儲(chǔ)文件之前,將文件分割成塊,除了最后一塊以外,所有塊的大小都相同,HDFS將文件塊分布存儲(chǔ)在不同數(shù)據(jù)節(jié)點(diǎn),為了保證高容錯(cuò)性,防止由于數(shù)據(jù)節(jié)點(diǎn)故障或者網(wǎng)絡(luò)故障等導(dǎo)致數(shù)據(jù)丟失或者無(wú)法訪問(wèn),HDFS將文件塊按照一定算法復(fù)制到多個(gè)數(shù)據(jù)節(jié)點(diǎn)。
MapReduce是用于并行處理大數(shù)據(jù)集的軟件框架。MapReduce的核心內(nèi)容是函數(shù)性編程中的map函數(shù)和reduce函數(shù),它通常由很多map實(shí)例和很多reduce實(shí)例組成。map函數(shù)對(duì)接收到的一組數(shù)據(jù)進(jìn)行轉(zhuǎn)換,輸出一個(gè)鍵/值對(duì)列表,其輸入域的每個(gè)元素也都是鍵/值對(duì)。reduce函數(shù)接收map函數(shù)生成的鍵/值對(duì)列表,然后以列表中的鍵作為唯一性標(biāo)識(shí),將具有相同鍵值的鍵值對(duì)進(jìn)行合并、計(jì)算,最終縮小輸入的鍵值對(duì)列表,達(dá)到數(shù)據(jù)凝練、抽取的目的。
3.2 NoSQL
NoSQL(Not Only SQL)泛指非關(guān)系型數(shù)據(jù)庫(kù),隨著Web2.0的發(fā)展,關(guān)系型數(shù)據(jù)庫(kù)在應(yīng)對(duì)大規(guī)模、高并發(fā)場(chǎng)景存在很多難以克服的問(wèn)題,為了應(yīng)對(duì)海量數(shù)據(jù)存儲(chǔ)和訪問(wèn)帶來(lái)的挑戰(zhàn),NoSQL應(yīng)運(yùn)而生。與關(guān)系型數(shù)據(jù)庫(kù)不同,NoSQL數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一的架構(gòu),為了應(yīng)對(duì)各種不同的場(chǎng)合、應(yīng)用場(chǎng)景,市場(chǎng)上衍生出很多不同類型的NoSQL數(shù)據(jù)庫(kù),比較主流的包括:Redis和MongoDB。
Redis是一個(gè)Key-Value存儲(chǔ)數(shù)據(jù)庫(kù),它支持string、list、set、zset、hash(哈希)等多種value類型。傳統(tǒng)數(shù)據(jù)庫(kù)將數(shù)據(jù)保存到硬盤,每次從硬盤獲取數(shù)據(jù)效率不高。為了保證數(shù)據(jù)訪問(wèn)效率,Redis將數(shù)據(jù)緩存在內(nèi)存中,然后將內(nèi)存中的數(shù)據(jù)周期性的寫入磁盤,此外還會(huì)將內(nèi)存數(shù)據(jù)修改操作追加到磁盤記錄文件,并且在此基礎(chǔ)上實(shí)現(xiàn)了master-slave(主從)同步。
MongoDB是基于分布式文件存儲(chǔ)的、介于關(guān)系型和非關(guān)系型之間的數(shù)據(jù)庫(kù),它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,內(nèi)部采用類似json的格式存儲(chǔ)數(shù)據(jù)(MongoDB稱之為bson格式)。由于其性能很高,也可以作為系統(tǒng)架構(gòu)中的緩存使用。此外MongoDB具備高伸縮性,可以構(gòu)建由數(shù)十、數(shù)百臺(tái)服務(wù)器組成的數(shù)據(jù)庫(kù)集群。
4 結(jié)束語(yǔ)
云計(jì)算作為近幾年IT行業(yè)討論的熱點(diǎn)話題,已經(jīng)由最初的概念炒作,變?yōu)槿缃駨V泛應(yīng)用的服務(wù)模式。本文主要從技術(shù)層面對(duì)云計(jì)算架構(gòu)以及常用的云計(jì)算框架技術(shù)進(jìn)行介紹,旨在剖析云計(jì)算服務(wù)構(gòu)建過(guò)程中可能用到的技術(shù),可以為企業(yè)構(gòu)建公有云或者私有云提供技術(shù)參考。
參考文獻(xiàn):
[1] 李舒磊.云計(jì)算及其架構(gòu)技術(shù)研究[J].中小企業(yè)管理與科技,2013(6).
[2] 孫健,賈曉菁. Google云計(jì)算平臺(tái)的技術(shù)架構(gòu)及對(duì)其成本的影響研究[J].電信科學(xué),2010(1).
[3] 王鵬, 董靜宜. 一種云計(jì)算架構(gòu)的實(shí)現(xiàn)方法研究[J].計(jì)算機(jī)工程與科學(xué),2009(S1).