匡華+王翔+王欣明+周尚勤+劉福蛟+趙淦森
【摘 要】
移動(dòng)通信運(yùn)營商面臨著越來越大的市場競爭。主要針對移動(dòng)通信運(yùn)營商的IT基礎(chǔ)設(shè)施建設(shè)和運(yùn)營的技術(shù)問題,陳述了利用云計(jì)算來構(gòu)造移動(dòng)通信運(yùn)營商辦公云平臺。給出了移動(dòng)運(yùn)營商辦公云的技術(shù)架構(gòu),并且從系統(tǒng)運(yùn)維的角度,討論了利用大數(shù)據(jù)技術(shù)對辦公云的運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析,實(shí)現(xiàn)對辦公環(huán)境的精細(xì)化管理、智能化和自動(dòng)化的運(yùn)維,進(jìn)而合理利用資源并提升用戶體驗(yàn)。
【關(guān)鍵詞】
辦公云 智能運(yùn)維 大數(shù)據(jù) 移動(dòng)通信
中圖分類號:TP392 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-1010(2014)-01-0061-04
近年來,云計(jì)算[1]、大數(shù)據(jù)和智慧城市成為了后互聯(lián)網(wǎng)時(shí)代標(biāo)志性的IT技術(shù)和應(yīng)用。云計(jì)算、大數(shù)據(jù)作為智慧城市的支撐,從技術(shù)和模式上為實(shí)現(xiàn)智慧城市打下了基礎(chǔ)。智慧城市在應(yīng)用上迎合了現(xiàn)代對城市精細(xì)化運(yùn)作的需求。在一定程度上,云計(jì)算成為了大數(shù)據(jù)和智慧城市的核心技術(shù)及使能技術(shù)。缺乏云計(jì)算的支撐,大數(shù)據(jù)和智能城市的實(shí)現(xiàn)將會(huì)面臨極大的技術(shù)與管理上的挑戰(zhàn)。
1 歷史發(fā)展推動(dòng)的技術(shù)變革
在后互聯(lián)網(wǎng)時(shí)代,人類社會(huì)面臨著越來越復(fù)雜的問題,需要越來越強(qiáng)大的計(jì)算系統(tǒng)來協(xié)助解決。由此,IT基礎(chǔ)設(shè)施的規(guī)模越來越大,形成了大量的規(guī)模在萬個(gè)節(jié)點(diǎn)以上的數(shù)據(jù)中心和集群系統(tǒng)。如此龐大的基礎(chǔ)設(shè)施,其管理成本和復(fù)雜度遠(yuǎn)遠(yuǎn)超越傳統(tǒng)小型數(shù)據(jù)中心的成本與復(fù)雜度。要有效地利用如此大規(guī)模的基礎(chǔ)設(shè)施,必須要有一個(gè)高效的方法,能夠?qū)Υ笠?guī)?;A(chǔ)設(shè)施以及相關(guān)的資源進(jìn)行自動(dòng)化的、動(dòng)態(tài)的管理和控制[2]。
同時(shí),復(fù)雜的問題和大規(guī)模的基礎(chǔ)設(shè)施,必然意味著更加復(fù)雜的計(jì)算以及更加大體量的數(shù)據(jù)[3]。當(dāng)前很多復(fù)雜的問題以及海量的數(shù)據(jù),都超越了單體高性能計(jì)算設(shè)備的能力。也就是說,目前已經(jīng)構(gòu)建的單體計(jì)算設(shè)備,其配備的計(jì)算能力、存儲能力或者數(shù)據(jù)處理能力難以應(yīng)對這些復(fù)雜問題或者如此體量的數(shù)據(jù)。
大規(guī)模、分布式基礎(chǔ)設(shè)施以及橫向擴(kuò)展的系統(tǒng)在這種情境下成為了一個(gè)必然的趨勢,由此推動(dòng)了云計(jì)算的形成。
2 云計(jì)算的本質(zhì)
巨型的IT基礎(chǔ)設(shè)施帶來多方面的挑戰(zhàn),從技術(shù)層面看,其挑戰(zhàn)有2個(gè):
(1)如何有效地管理和整合超大規(guī)模IT基礎(chǔ)設(shè)施,形成高效運(yùn)作、具有超大資源和能力的系統(tǒng)?
(2)如何高效地利用集群系統(tǒng)應(yīng)對復(fù)雜問題,特別是海量數(shù)據(jù)的處理?
從運(yùn)營層面看,其挑戰(zhàn)也有2個(gè):
(1)如何完成資源和能力的交付?
(2)如何實(shí)現(xiàn)資源和能力的高效運(yùn)轉(zhuǎn)與運(yùn)營?
云計(jì)算的形成,針對性地響應(yīng)了上述挑戰(zhàn):
在技術(shù)層面,云計(jì)算通過利用虛擬化技術(shù)等,管理IT基礎(chǔ)設(shè)施,構(gòu)造由中央管控、集中調(diào)配的資源池,實(shí)現(xiàn)IT資源的高效運(yùn)作[4];通過特定的應(yīng)用平臺或者框架,實(shí)現(xiàn)資源和任務(wù)的自動(dòng)管理與調(diào)度、透明的并行化處理等,支持對海量數(shù)據(jù)的存儲和處理。
在運(yùn)營層面,云計(jì)算通過按需索取的形式在運(yùn)營層面進(jìn)行資源分配,利用虛擬化服務(wù)的形式交付資源和能力。利用云計(jì)算,小規(guī)模企業(yè)可以避免大規(guī)?;A(chǔ)設(shè)施的投資門檻,以租賃的形式獲得大規(guī)?;A(chǔ)設(shè)施的使用權(quán),構(gòu)造自身的業(yè)務(wù)系統(tǒng);大規(guī)模企業(yè)可以通過基礎(chǔ)設(shè)施的集約化建設(shè)和集中管理,提升資源的利用效率。
3 運(yùn)營商辦公云架構(gòu)
結(jié)合移動(dòng)通信運(yùn)營商的業(yè)務(wù)背景,云計(jì)算可以支撐移動(dòng)通信運(yùn)營商的內(nèi)部辦公業(yè)務(wù)、通信業(yè)務(wù)、基礎(chǔ)設(shè)施管理業(yè)務(wù)以及增值業(yè)務(wù)等。
從內(nèi)部辦公業(yè)務(wù)角度看,移動(dòng)通信運(yùn)營商雇傭有大量的工作人員。這些工作人員的主要辦公都是基于信息化的手段,通過計(jì)算機(jī)和網(wǎng)絡(luò)實(shí)現(xiàn)無紙辦公與網(wǎng)絡(luò)協(xié)同。因此,移動(dòng)通信運(yùn)營商的辦公過程中,需要有大量的桌面辦公電腦支撐。由此帶來的問題有以下幾個(gè):
(1)大量、分散的桌面辦公設(shè)備的日常維護(hù)工作量大。桌面辦公電腦的配置、地理上的分散以及其數(shù)量帶來了大量的日常維護(hù)工作,日常的維護(hù)無法高效、自動(dòng)化地完成。
(2)分散的桌面電腦容易引起安全問題。桌面辦公設(shè)備的權(quán)限管控等難以完全統(tǒng)一實(shí)施;同時(shí),分散在桌面電腦上的數(shù)據(jù)的保護(hù),如私密性和完整性等,都難以開展;對于桌面電腦上的數(shù)據(jù)備份容災(zāi)就更難。
(3)大部分的桌面電腦的利用率低下。大部分桌面電腦主要是用來應(yīng)對辦公的文書處理、資料錄入和檢索等簡單信息化應(yīng)用,由此大部分桌面電腦的計(jì)算和存儲資源被大大地浪費(fèi)。
利用云計(jì)算,可以有效地解決上述問題,具體的架構(gòu)如圖1所示:
運(yùn)營商辦公云通過對物理資源進(jìn)行虛擬化處理,把物理資源構(gòu)造為兩個(gè)資源池[5]:一個(gè)是辦公虛擬機(jī)池,一個(gè)是虛擬服務(wù)器池。其中辦公虛擬機(jī)池主要承載終端辦公的計(jì)算業(yè)務(wù)和臨時(shí)存儲業(yè)務(wù),以及承載面向外部接入的應(yīng)用發(fā)布系統(tǒng);虛擬服務(wù)器池主要承載后臺業(yè)務(wù)系統(tǒng)。
4 辦公云的智能運(yùn)維
在運(yùn)營商辦公云中,資源的分配需要完成動(dòng)態(tài)的調(diào)整才能夠?qū)崿F(xiàn)高效的利用。運(yùn)營商辦公云需要對資源池內(nèi)各個(gè)獨(dú)立資源的使用情況進(jìn)行有效的監(jiān)控,了解該資源承載的用戶和系統(tǒng)的狀態(tài),并對這些狀態(tài)進(jìn)行實(shí)時(shí)的分析挖掘,然后根據(jù)相應(yīng)的決策模型進(jìn)行決策,形成相應(yīng)的調(diào)整方案,最終通過相應(yīng)的運(yùn)維接口來完成資源的調(diào)整。
智能自動(dòng)優(yōu)化方案貫穿監(jiān)控、分析、決策、運(yùn)維四大流程,涉及用戶狀態(tài)監(jiān)控、系統(tǒng)狀態(tài)監(jiān)控、運(yùn)維數(shù)據(jù)分析挖掘、資源自適應(yīng)調(diào)度模型、智能運(yùn)維模型、故障恢復(fù)模型和應(yīng)激式自動(dòng)化運(yùn)維等核心模塊。整體框架流程如圖2所示。
(1)用戶狀態(tài)監(jiān)控
在虛擬化平臺核心部件和資源池主機(jī)中部署用戶狀態(tài)監(jiān)控探針,實(shí)時(shí)采集與用戶狀態(tài)和用戶體驗(yàn)密切相關(guān)的資源信息,包括虛擬機(jī)的用戶登錄時(shí)間、使用時(shí)間、使用習(xí)慣、用戶資源性能指標(biāo)(CPU、內(nèi)存、磁盤I/O、網(wǎng)絡(luò)等)。endprint
采集的監(jiān)控?cái)?shù)據(jù)根據(jù)多個(gè)維度進(jìn)行分類(如用戶的級別或權(quán)限、資源所屬的集群、用戶接入模式等),方便形成不同維度的用戶狀態(tài)性能指標(biāo)基線。
(2)系統(tǒng)狀態(tài)監(jiān)控
在虛擬化平臺各個(gè)系統(tǒng)部件中部署系統(tǒng)狀態(tài)監(jiān)控探針,實(shí)時(shí)采集與系統(tǒng)狀態(tài)密切相關(guān)的資源和狀態(tài)信息,其中包括:
1)虛擬化平臺關(guān)鍵部件的性能監(jiān)控(CPU、內(nèi)存、存儲、網(wǎng)絡(luò)等核心參數(shù));
2)虛擬化平臺提供服務(wù)的各Windows應(yīng)用服務(wù)器的性能監(jiān)控(CPU、內(nèi)存、磁盤I/O、網(wǎng)絡(luò)等核心參數(shù))。
采集的監(jiān)控?cái)?shù)據(jù)根據(jù)多種維度進(jìn)行分類(如系統(tǒng)部件所屬的層次、按服務(wù)時(shí)段等),方便形成不同維度的系統(tǒng)狀態(tài)性能指標(biāo)基線。
(3)運(yùn)維數(shù)據(jù)分析挖掘
通過監(jiān)控模塊獲得的大量非結(jié)構(gòu)化運(yùn)維信息數(shù)據(jù),作為本模塊的輸入,然后進(jìn)行數(shù)據(jù)分析和挖掘,挖掘流程可以分成四個(gè)層次依次執(zhí)行。詳細(xì)層次結(jié)構(gòu)如表1所示。
根據(jù)運(yùn)維信息的級別,本模塊使用不同的響應(yīng)流程:
1)對于級別為“故障”、“錯(cuò)誤”類的運(yùn)維信息,本模塊會(huì)立即進(jìn)行相關(guān)數(shù)據(jù)檢測,在確認(rèn)非誤報(bào)的情況下,形成“故障”消息包,傳遞到?jīng)Q策模塊的故障恢復(fù)模型。
2)對于級別為“預(yù)警”類的用戶狀態(tài)運(yùn)維信息,本模塊會(huì)進(jìn)一步收集與用戶資源彈性調(diào)整相關(guān)的信息,形成“用戶預(yù)警”數(shù)據(jù)消息包,傳遞到?jīng)Q策模塊的資源自適應(yīng)調(diào)度模型。
3)對于級別為“預(yù)警”類的系統(tǒng)狀態(tài)運(yùn)維信息,本模塊會(huì)進(jìn)一步收集與資源彈性調(diào)整及資源精細(xì)化整合相關(guān)的信息,形成“系統(tǒng)預(yù)警”數(shù)據(jù)消息包,傳遞到?jīng)Q策模塊的智能運(yùn)維模型。
4)對于級別為“日志”類的狀態(tài)運(yùn)維信息,本模塊會(huì)將信息轉(zhuǎn)儲,并定期啟用海量數(shù)據(jù)分析引擎,對日志類狀態(tài)運(yùn)維信息進(jìn)行篩選過濾處理,主要實(shí)現(xiàn)以下需求:
◆運(yùn)維規(guī)律預(yù)測:根據(jù)對大量歷史數(shù)據(jù)的分析,可以對未來的系統(tǒng)運(yùn)行規(guī)律進(jìn)行預(yù)測,從而有針對性地在運(yùn)維策略上做出提前響應(yīng),輸出相關(guān)知識模型到智能運(yùn)維模型。
◆基線對比修正:對采集到的性能日志數(shù)據(jù)與當(dāng)前定義的基線進(jìn)行對比,如果發(fā)現(xiàn)平臺及系統(tǒng)狀態(tài)未能達(dá)到基線定義要求,可以觸發(fā)預(yù)警信號,通知人工對性能基線做出調(diào)整,或重新增加資源達(dá)到當(dāng)前定義的基線要求。
◆資源整合發(fā)起:在用戶空閑時(shí)段(例如晚上),對當(dāng)前系統(tǒng)及用戶行為的空閑規(guī)律進(jìn)行分析,當(dāng)閑置的資源達(dá)到特定條件(臨界值)時(shí),觸發(fā)資源調(diào)整回收的信號,通知對應(yīng)消息到?jīng)Q策模塊的智能運(yùn)維模型。
(4)資源自適應(yīng)調(diào)度模型
統(tǒng)一桌面云智能優(yōu)化需要建立一個(gè)自適應(yīng)資源調(diào)度模型,依據(jù)該模型,系統(tǒng)可以進(jìn)行資源分配決策,實(shí)現(xiàn)資源供給的自動(dòng)調(diào)整,以適應(yīng)用戶的業(yè)務(wù)負(fù)載和資源消耗的需求。
(5)智能運(yùn)維模型
云智能優(yōu)化需要建立一個(gè)智能運(yùn)維模型。依據(jù)該模型,系統(tǒng)可以根據(jù)狀態(tài)感知,在資源占用達(dá)到一定閾值時(shí)(如資源需求低谷,或局部資源占用過量導(dǎo)致其他用戶可能達(dá)不到性能基線要求時(shí)),對自身管理的資源進(jìn)行重新規(guī)劃和部署調(diào)整。其主要實(shí)現(xiàn)在保證當(dāng)前服務(wù)質(zhì)量的前提下,提高資源利用率。
(6)故障恢復(fù)模型
云智能優(yōu)化需要建立一個(gè)故障恢復(fù)模型。根據(jù)該模型,系統(tǒng)能夠在接收到各種“錯(cuò)誤”、“異常”類消息時(shí),使用既定的模式,執(zhí)行一系列的故障恢復(fù)動(dòng)作,最后對是否恢復(fù)做后續(xù)的跟蹤檢查。
(7)應(yīng)激式自動(dòng)化運(yùn)維
應(yīng)激運(yùn)維自動(dòng)化模塊主要是維護(hù)一個(gè)自動(dòng)化運(yùn)維腳本,以適應(yīng)各種虛擬化平臺或用戶資源的運(yùn)維需求。該模塊的主要任務(wù)是接收決策模塊的指令集,并執(zhí)行對應(yīng)的自動(dòng)化運(yùn)維動(dòng)作。
5 云計(jì)算在運(yùn)營商應(yīng)用的遠(yuǎn)景
本文僅從運(yùn)營商辦公云的角度來介紹云計(jì)算以及在運(yùn)營商辦公領(lǐng)域的應(yīng)用。實(shí)際上,云計(jì)算在通信領(lǐng)域有著更多的應(yīng)用,限于篇幅,本文不一一敘述。
筆者認(rèn)為,云計(jì)算在通信領(lǐng)域的應(yīng)用未來將著重在兩個(gè)方面:
(1)云計(jì)算作為基礎(chǔ)設(shè)施以及IT服務(wù)交付手段,協(xié)助運(yùn)營商完成業(yè)務(wù)系統(tǒng)以及增值服務(wù)的快速部署。特別是在移動(dòng)互聯(lián)網(wǎng)應(yīng)用中,運(yùn)營商需要承載數(shù)量龐大的應(yīng)用的后臺服務(wù),這些后臺服務(wù)需要具備充足的彈性并能夠抓緊市場時(shí)機(jī)進(jìn)行快速部署。云計(jì)算將是最主要的技術(shù)手段。
(2)云計(jì)算作為使能技術(shù),協(xié)助運(yùn)營商構(gòu)建大數(shù)據(jù)中心。移動(dòng)通信受益于其龐大的用戶群體、豐富的業(yè)務(wù)應(yīng)用以及完備的基礎(chǔ)設(shè)施,能夠持續(xù)不斷地產(chǎn)生大量有潛在價(jià)值的數(shù)據(jù),運(yùn)營商需要利用大數(shù)據(jù)技術(shù)充分挖掘利用這些數(shù)據(jù)來提升自身的競爭力。云計(jì)算將作為大數(shù)據(jù)的核心技術(shù)和承載平臺,推動(dòng)移動(dòng)通信的進(jìn)一步發(fā)展。
參考文獻(xiàn):
[1] Peter Mell, Timothy Grance. The NIST Definition of Cloud Computing[EB/OL]. (2012-04-27). http://csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf.
[2] 邢丘丹,蒲建華,嚴(yán)康. 淺析B2C電子商務(wù)的云計(jì)算解決方案[J]. 科技與管理, 2011,13(5): 48-51.
[3] Dillon T, Chen Wu, Chang E. Cloud Computing: Issues and Challenges[A]. 2010 24th IEEE International Conference on Advanced Information Networking and Applications(AINA). Perth, 2010: 27-33
[4] 鄧倩妮,陳全. 云計(jì)算及其關(guān)鍵技術(shù)[J]. 高性能計(jì)算發(fā)展與應(yīng)用, 2009(1): 2-6.
[5] Nurmi D, Wolsk R. The Eucalyptus Open-source Cloud-computing System[A]. 9th IEEE/ACM International Symposium on Cluster Computing and the Grid 2009(CCGRID'09). Shanghai, 2009: 124-131.
作者簡介
匡華:碩士畢業(yè)于北京郵電大學(xué),現(xiàn)任中國移動(dòng)通信集團(tuán)廣東有限公司信息系統(tǒng)部項(xiàng)目經(jīng)理、工程師,研究方向?yàn)樵朴?jì)算和大數(shù)據(jù),曾獲“2011年度中國移動(dòng)科技進(jìn)步及業(yè)務(wù)服務(wù)創(chuàng)新獎(jiǎng)”的科技進(jìn)步獎(jiǎng)三等獎(jiǎng)、“2010—2011年度廣東公司創(chuàng)新成果獎(jiǎng)”二等獎(jiǎng)等獎(jiǎng)項(xiàng)。
王翔:碩士畢業(yè)于長沙國防科技大學(xué)通信與電子系統(tǒng)專業(yè),現(xiàn)任廣州杰賽科技股份有限公司云計(jì)算研究與應(yīng)用中心副總經(jīng)理,一直從事軟件工程、項(xiàng)目管理、云計(jì)算應(yīng)用開發(fā)管理工作,曾主持多項(xiàng)電信運(yùn)營商云計(jì)算應(yīng)用集成項(xiàng)目,發(fā)表文章多篇。
王欣明:博士畢業(yè)香港大學(xué),IEEE和IEEE計(jì)算機(jī)學(xué)會(huì)學(xué)生成員,現(xiàn)任職于中山大學(xué)軟件學(xué)院,研究方向:軟件測試和分析、程序調(diào)試和軟件挖掘。endprint