吳麗
摘 要:本文探討了云計(jì)算的發(fā)展動(dòng)態(tài)和典型架構(gòu),并對(duì)云計(jì)算在中醫(yī)藥信息化中的應(yīng)用做了初步探討,最后提出了引入云計(jì)算需要重點(diǎn)關(guān)注的問題。
關(guān)鍵詞:云計(jì)算;中醫(yī)藥;信息化
1 引言
近年來(lái),云計(jì)算已經(jīng)成為IT行業(yè)的熱門技術(shù)和話題。由于其并行計(jì)算、海量數(shù)據(jù)存儲(chǔ)、擴(kuò)展性極強(qiáng)的特點(diǎn),逐步在多個(gè)領(lǐng)域得到蓬勃發(fā)展。筆者就如何在云計(jì)算環(huán)境下進(jìn)行中醫(yī)藥信息化建設(shè)進(jìn)行了探討。
2 云計(jì)算簡(jiǎn)介與典型架構(gòu)
2.1 云計(jì)算簡(jiǎn)介
云計(jì)算描述了一種基于互聯(lián)網(wǎng)的新的IT服務(wù)增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展而且經(jīng)常是虛擬化的資源。云運(yùn)算是繼上世紀(jì)80年代大型計(jì)算機(jī)架構(gòu)演進(jìn)到客戶端-服務(wù)器計(jì)算架構(gòu)之后的又一次計(jì)算架構(gòu)巨變。用戶不需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識(shí),也無(wú)需直接進(jìn)行控制,就可以在云計(jì)算平臺(tái)上完成海量計(jì)算和存儲(chǔ)任務(wù)的處理。
根據(jù)云計(jì)算中服務(wù)對(duì)象和提供者的關(guān)系,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義了不同的云計(jì)算部署模型,包括:公有云(Public Cloud)、私有云(Private Cloud)、社區(qū)云(Community Cloud)和混合云(Hybrid Cloud)。企業(yè)和科研單位既可以利用服務(wù)提供商提供的公有云服務(wù),,也可以通過(guò)云平臺(tái)構(gòu)建私有云。當(dāng)前業(yè)界有不少公司已經(jīng)提供公有云服務(wù),比如國(guó)外的Amazon、國(guó)內(nèi)的阿里巴巴和騰訊等,用戶可以根據(jù)計(jì)算、存儲(chǔ)需求來(lái)購(gòu)買公用云服務(wù)。此外,目前主流的云平臺(tái)包括VMware的vSphere、微軟的Windows Azure、Citrix的XenServer以及部分開源項(xiàng)目(比如KVM等),用戶可以根據(jù)自己的需求選擇不同的云平臺(tái)來(lái)構(gòu)建私有云。
隨著各行業(yè)數(shù)十年IT化的蓬勃發(fā)展,各種信息處理平臺(tái)積累了海量的歷史數(shù)據(jù),蘊(yùn)含了巨大的分析價(jià)值,這類數(shù)據(jù)通常稱為“大數(shù)據(jù)”。由于這些大數(shù)據(jù)存在數(shù)據(jù)集超大(常常可達(dá)TB甚至PB級(jí)別)、非結(jié)構(gòu)化(比如大量圖片)、異構(gòu)數(shù)據(jù)(多種數(shù)據(jù)比如文本、圖形、視頻混合)的特點(diǎn),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)應(yīng)用已經(jīng)難以滿足大數(shù)據(jù)處理的要求。而云計(jì)算利用大量通用計(jì)算、存儲(chǔ)資源支持并行、分布式計(jì)算的特點(diǎn),相對(duì)較好的滿足了大數(shù)據(jù)處理的要求。2003-2006年,Google陸續(xù)發(fā)表了三篇論文:《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》,分別解決了分布式文件系統(tǒng)、分布式數(shù)據(jù)處理、非關(guān)系型數(shù)據(jù)庫(kù)的關(guān)鍵技術(shù),極大促進(jìn)了大數(shù)據(jù)處理技術(shù)的發(fā)展,使得云計(jì)算首先在互聯(lián)網(wǎng)行業(yè)生根發(fā)芽,逐步拓展到其他行業(yè)。
2.2 典型云計(jì)算架構(gòu)
云計(jì)算對(duì)大數(shù)據(jù)的核心處理技術(shù)目前較為流行的是Map-Reduce架構(gòu),它是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。其核心思想是將海量的數(shù)據(jù)集合分解為多個(gè)子數(shù)據(jù)集,通過(guò)“Map(映射)”將子數(shù)據(jù)集和計(jì)算任務(wù)分解到各個(gè)計(jì)算節(jié)點(diǎn)上去,然后將計(jì)算結(jié)果通過(guò)“Reduce(化簡(jiǎn))”操作匯總到一起。當(dāng)前業(yè)界應(yīng)用較多的Map Reduce開源項(xiàng)目為Apache Hadoop,其發(fā)源于Yahoo,作為開源項(xiàng)目開放后很多互聯(lián)網(wǎng)公司首先在此項(xiàng)目上應(yīng)用,其后得到了很多擴(kuò)展,在大數(shù)據(jù)領(lǐng)域得到了蓬勃發(fā)展。
Hadoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動(dòng)。它實(shí)現(xiàn)了Map-Reduce架構(gòu)的編程范式:應(yīng)用程序被分割成許多小部分,而每個(gè)部分都能在集群中的任意節(jié)點(diǎn)上執(zhí)行或重新執(zhí)行。Hadoop還提供了分布式文件系統(tǒng),用以存儲(chǔ)所有計(jì)算節(jié)點(diǎn)的數(shù)據(jù),這為整個(gè)集群帶來(lái)了非常高的帶寬。Map-Reduce和分布式文件系統(tǒng)的設(shè)計(jì),使得整個(gè)框架能夠自動(dòng)處理節(jié)點(diǎn)故障,從而實(shí)現(xiàn)了高度可擴(kuò)展的分布式計(jì)算。
利用開源的云計(jì)算平臺(tái)(比如KVM等)、分布式處理軟件框架(比如Hadoop),企業(yè)和科研單位可以快速搭建具備海量數(shù)據(jù)處理、超強(qiáng)計(jì)算能力的云計(jì)算系統(tǒng),從而使得科研人員得以聚焦在自己的專業(yè)領(lǐng)域上,避免在底層系統(tǒng)的構(gòu)建、異常的處理方面浪費(fèi)時(shí)間,從而大大提升了效率。
3 中醫(yī)藥信息化中的云計(jì)算應(yīng)用與展望
中醫(yī)藥是我國(guó)的傳統(tǒng)醫(yī)學(xué),承載著幾千年來(lái)的中華民族優(yōu)秀傳統(tǒng)文化。中醫(yī)藥信息化是充分利用信息技術(shù)促進(jìn)中醫(yī)藥信息資源的開發(fā)、利用和共享。加快中醫(yī)藥信息化建設(shè),能夠提高中醫(yī)藥科學(xué)管理水平和創(chuàng)新能力,促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展,實(shí)現(xiàn)中醫(yī)藥的現(xiàn)代化。在中醫(yī)藥信息化的道路上,中醫(yī)臨床診斷系統(tǒng)、專家系統(tǒng)、中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)等都取得了不同程度的發(fā)展,而云計(jì)算的引入將大大提高中醫(yī)藥信息化建設(shè)的效率。下面就云計(jì)算在中醫(yī)藥信息化中的應(yīng)用做一些探討。
3.1 分布式數(shù)據(jù)挖掘系統(tǒng)
在幾千年的中醫(yī)藥發(fā)展歷程中,留下了許多珍貴的文獻(xiàn)資料,蘊(yùn)含豐富的科學(xué)內(nèi)容,通過(guò)數(shù)據(jù)挖掘技術(shù)可以找出隱含的有用信息和知識(shí)。目前已在中醫(yī)藥領(lǐng)域得到廣泛應(yīng)用,但現(xiàn)在一般采用的是基于文本或關(guān)系型數(shù)據(jù)庫(kù)的單機(jī)應(yīng)用,這種方式能支持的數(shù)據(jù)量級(jí)較小。而數(shù)據(jù)挖掘的準(zhǔn)確性,除了與算法的選擇相關(guān)外,還與數(shù)據(jù)集的“量”有較大關(guān)系,數(shù)據(jù)集的量越大,數(shù)據(jù)挖掘的準(zhǔn)確性越高。當(dāng)數(shù)據(jù)挖掘的數(shù)據(jù)集合超過(guò)一定程度、或者算法引入的因子過(guò)多時(shí),傳統(tǒng)的數(shù)據(jù)挖掘平臺(tái)和算法往往難以支撐數(shù)據(jù)挖掘程序的有效運(yùn)行。此時(shí)往往采用如下幾個(gè)做法:
(1)縮減數(shù)據(jù)集:在數(shù)據(jù)預(yù)處理階段按比例和一定規(guī)則(比如隨機(jī)采樣)對(duì)原始數(shù)據(jù)集采樣,形成新的數(shù)據(jù)集,作為數(shù)據(jù)挖掘的輸入數(shù)據(jù)。這種方式提高了數(shù)據(jù)挖掘算法的運(yùn)算效率,但損失了精確性。
(2)優(yōu)化算法:對(duì)算法優(yōu)化,比如采用不同的算法或者減少算法因子,這會(huì)提升數(shù)據(jù)挖掘計(jì)算的效率,但也損失了精度;
(3)提高硬件性能:比如采用更高計(jì)算能力、更大內(nèi)存的服務(wù)器,更高性能的數(shù)據(jù)倉(cāng)庫(kù)等,這將極大增加投資成本。服務(wù)器硬件性能的提升與投資非線性增長(zhǎng)關(guān)系,超出一定范圍后,計(jì)算性能提升1倍,則需投入資金可能高出N倍。
而基于云計(jì)算平臺(tái)構(gòu)建分布式的數(shù)據(jù)挖掘系統(tǒng),比如采用前文提到的Hadoop開源軟件框架,將數(shù)據(jù)挖掘程序和數(shù)據(jù)分布到多個(gè)不同的任務(wù)/數(shù)據(jù)節(jié)點(diǎn)上去,每個(gè)節(jié)點(diǎn)完成自己的挖掘任務(wù)后,反饋結(jié)果給匯總服務(wù)器,最后匯總數(shù)據(jù)結(jié)果。由于這種模式不需要對(duì)硬件提出額外要求,只需要根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)集和算法復(fù)雜度增加常規(guī)服務(wù)器即可,并且可以做到按需添加,避免閑時(shí)不用的浪費(fèi),極大降低了投資成本。
3.2 醫(yī)學(xué)數(shù)據(jù)的處理與存儲(chǔ)
在中醫(yī)藥醫(yī)療行業(yè)有大量的醫(yī)學(xué)數(shù)據(jù)需要處理和存儲(chǔ),這些醫(yī)學(xué)數(shù)據(jù)包括電子病歷、體檢記錄、醫(yī)學(xué)影像等,傳統(tǒng)的存儲(chǔ)模式分散在信息平臺(tái)的不同醫(yī)療系統(tǒng)中:電子病歷系統(tǒng)(EMR),醫(yī)學(xué)影像存儲(chǔ)與傳輸系統(tǒng)(PACS)、檢驗(yàn)信息系統(tǒng)(LIS)等。受限于傳統(tǒng)醫(yī)療系統(tǒng)在基礎(chǔ)架構(gòu)方面的限制,通常存在如下問題:
(1)大數(shù)據(jù)量:某醫(yī)院每天產(chǎn)生GB級(jí)以上的原始數(shù)據(jù),而由于傳統(tǒng)數(shù)據(jù)庫(kù)在大數(shù)據(jù)文件處理方面的限制,往往需要進(jìn)行轉(zhuǎn)換處理和歸檔存儲(chǔ),無(wú)法很好處理大數(shù)據(jù)的文件。
(2)異構(gòu)數(shù)據(jù):異構(gòu)數(shù)據(jù)(文本、圖像、語(yǔ)音、視頻等)無(wú)法很好的保存在同一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中。
(3)數(shù)據(jù)源分散:由于技術(shù)、組織和流程的限制,數(shù)據(jù)保存分散,分散在不同的數(shù)據(jù)源中,數(shù)據(jù)不能在存儲(chǔ)系統(tǒng)或不同磁盤之間自由流動(dòng),同時(shí)缺乏合理的備份恢復(fù)機(jī)制,并且安全保護(hù)可靠性弱。
這些醫(yī)學(xué)數(shù)據(jù)的處理和保存方面既需要高性能的計(jì)算能力,又需要海量的存儲(chǔ)資源。云計(jì)算技術(shù)中的分布式計(jì)算應(yīng)用可以將需要密集計(jì)算的數(shù)據(jù)轉(zhuǎn)換任務(wù)分布到大量通用的計(jì)算節(jié)點(diǎn)上并行完成,從而大大縮短了數(shù)據(jù)處理的時(shí)間,提高處理效率。對(duì)于海量醫(yī)學(xué)異構(gòu)數(shù)據(jù)的存儲(chǔ),可通過(guò)云存儲(chǔ)將海量數(shù)據(jù)分布式存儲(chǔ)到網(wǎng)絡(luò)中多個(gè)不同類型的存儲(chǔ)設(shè)備上,無(wú)需專用的存儲(chǔ)資源,并可保證系統(tǒng)的可靠性,降低了投資成本。同時(shí),云計(jì)算亦可以對(duì)平臺(tái)中各類應(yīng)用系統(tǒng)所需資源進(jìn)行合理調(diào)度,提高硬件利用效率,減少數(shù)據(jù)安全隱患,提高網(wǎng)絡(luò)運(yùn)行性能,并保障所有應(yīng)用系統(tǒng)的安全運(yùn)行。
3.3 中醫(yī)藥科研計(jì)算存儲(chǔ)平臺(tái)
在中醫(yī)藥科研中,有大量項(xiàng)目類似如數(shù)據(jù)挖掘、醫(yī)學(xué)圖像處理等,每個(gè)項(xiàng)目都需要考慮對(duì)數(shù)據(jù)進(jìn)行計(jì)算與存儲(chǔ)建模、設(shè)計(jì)和實(shí)現(xiàn),占用科研人員大量的寶貴時(shí)間。同時(shí),由于每個(gè)項(xiàng)目獨(dú)立計(jì)算和存儲(chǔ),也不利于硬件資源的共享和復(fù)用。通過(guò)云計(jì)算技術(shù)的引入構(gòu)建統(tǒng)一的分布式中醫(yī)藥科研計(jì)算和存儲(chǔ)平臺(tái),專業(yè)領(lǐng)域的科研人員直接使用云計(jì)算平臺(tái)提供的API實(shí)現(xiàn)計(jì)算和存儲(chǔ)功能,從而只需要關(guān)注本專業(yè)課題的研究,不需要關(guān)注具體的計(jì)算和存儲(chǔ)實(shí)現(xiàn)方案,提高了科研效率。同時(shí)由于多個(gè)項(xiàng)目共用科研計(jì)算存儲(chǔ)平臺(tái),達(dá)到了資源的復(fù)用,節(jié)約了大量的科研經(jīng)費(fèi),避免了硬件投資的浪費(fèi)。
4 中醫(yī)藥信息化中的云計(jì)算應(yīng)用重點(diǎn)問題探討
雖然云計(jì)算分布式處理、海量存儲(chǔ)的特點(diǎn)對(duì)需要大數(shù)據(jù)量、密集計(jì)算的數(shù)據(jù)處理有很大幫助,但距離廣泛應(yīng)用仍面臨部分問題需要解決,比如:
4.1 公有云、私有云的選擇
目前已有不少公有云運(yùn)營(yíng)商提供公有云服務(wù),公有云屏蔽云平臺(tái)的技術(shù)實(shí)現(xiàn)細(xì)節(jié),使得課題組研發(fā)人員可以聚焦于專業(yè)領(lǐng)域的問題解決上,提高了科研效率。同時(shí)公有云一般提供按資源(比如CPU、內(nèi)存、存儲(chǔ)空間等)、按時(shí)段(按日、月、年等)收費(fèi),研究人員可以在需要時(shí)按需申請(qǐng)。但公有云面臨不同服務(wù)提供商提供的服務(wù)質(zhì)量無(wú)法保證、通過(guò)公眾網(wǎng)絡(luò)訪問云系統(tǒng)面臨的潛在安全風(fēng)險(xiǎn)、以及網(wǎng)絡(luò)中斷導(dǎo)致的業(yè)務(wù)不可持續(xù)風(fēng)險(xiǎn)。
與公有云對(duì)比,私有云在安全、網(wǎng)絡(luò)中斷、服務(wù)質(zhì)量等方面的風(fēng)險(xiǎn)相對(duì)小一些,但面臨資源得不到充分利用、需要較強(qiáng)的技術(shù)團(tuán)隊(duì)支撐私有云平臺(tái)的運(yùn)行等問題。
在中醫(yī)藥信息化建設(shè)中,可以考慮采用“混合云”的模式,即公有云、私有云共存??蒲袉挝豢梢宰孕袠?gòu)建私有云平臺(tái),對(duì)于高安全性、高可靠性要求的計(jì)算、存儲(chǔ)任務(wù),放在私有云中運(yùn)行。對(duì)于突發(fā)的、安全要求不高、普通的中間過(guò)程計(jì)算任務(wù),可以充分利用公有云按需服務(wù)、容量大的特點(diǎn),采用公有云運(yùn)行。
4.2 云平臺(tái)的選擇
對(duì)于私有云平臺(tái)的搭建,則涉及到不同云平臺(tái)的選擇問題。目前主流的商用云平臺(tái)有VMware的vSphere、微軟的Hyper-V等,開源的平臺(tái)有XEN、KVM等。商用平臺(tái)應(yīng)用廣泛、應(yīng)用適應(yīng)性強(qiáng),有較好的技術(shù)服務(wù)支撐,但收費(fèi)亦較高。開源平臺(tái)費(fèi)用少,但需要較強(qiáng)的技術(shù)實(shí)力來(lái)保證云平臺(tái)的運(yùn)行和維護(hù)。
用戶可綜合投資經(jīng)費(fèi)、技術(shù)保障能力、應(yīng)用的平臺(tái)訴求、演進(jìn)需求等多維度因素,綜合評(píng)估后做出選擇。
4.3 云安全
由于云計(jì)算改變了傳統(tǒng)的計(jì)算模式,資源最大化的同時(shí),也帶來(lái)了潛在的安全風(fēng)險(xiǎn)。比如在公有云的使用中,賬戶的錯(cuò)誤安全策略、服務(wù)器DDOS攻擊、服務(wù)器端木馬都可能造成對(duì)業(yè)務(wù)造成影響。
這需要在將應(yīng)用部署到云平臺(tái)時(shí)充分評(píng)估,制定合理的安全策略、安全突發(fā)事件的應(yīng)急處理方案、定期安全審計(jì)等。必要時(shí),需要和云服務(wù)提供商一起討論、制定更為嚴(yán)格、有保證的云服務(wù)策略。
5 結(jié)語(yǔ)
云計(jì)算是新的計(jì)算和資源共享模式,具有極大的投資收益和便利性,已經(jīng)成為海量計(jì)算和存儲(chǔ)任務(wù)處理的主流技術(shù)方案。而中醫(yī)藥領(lǐng)域要得到長(zhǎng)遠(yuǎn)發(fā)展,必須對(duì)海量數(shù)據(jù)進(jìn)行保存、研究和規(guī)范化整理,通過(guò)充分利用云計(jì)算技術(shù),中醫(yī)藥科研人員可進(jìn)一步深化中醫(yī)藥診療信息化和科研信息化的建設(shè)工作。
[參考文獻(xiàn)]
[1]Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung.The Google File System.http://static.googleusercontent.com/media/research.google.com/en//archive/gfs-sosp2003.pdf.
[2]Jeffrey Dean and Sanjay Ghemawat.MapReduce:Simplified Data Processing on Large Clusters. http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf.
[3]高漢松,肖凌,許德瑋,桑梓勤.基于云計(jì)算的醫(yī)療大數(shù)據(jù)挖掘平臺(tái). 醫(yī)學(xué)信息學(xué)雜志.2013,(5):7-12.
[4]張杰敏.云計(jì)算實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)中心的模型分析.漳州師范學(xué)院學(xué)報(bào)(自然科學(xué)版).2011,(4):47-52.
[5]鄔啟明.Hadoop介紹及實(shí)戰(zhàn).http://wenku.baidu.com/view/53db8c19cc7931b765ce15af.htm1.[2013-04-18].
[6]趙修文,劉伍穎,王挺.基于本體的醫(yī)療信息搜索技.計(jì)算機(jī)工程與應(yīng)用.2010,46 (20):251—256.
[7]張惠然,戴佳筑,李芝龍,沈小龍.基于云計(jì)算平臺(tái)的醫(yī)療健康監(jiān)視系統(tǒng).上海大學(xué)學(xué)報(bào)(自然科學(xué)版)2013(2),35-38.
[8]李彭軍,陳光杰,郭文明.基于HDFS的區(qū)域醫(yī)學(xué)影像分布式存儲(chǔ)架構(gòu)設(shè)計(jì)[J].南方醫(yī)科大學(xué)學(xué)報(bào),2011,(3):495-498.