段飛, 段瓊
(陜西交通職業(yè)技術(shù)學(xué)院 1.繼續(xù)教育與國際交流學(xué)院, 2. 經(jīng)濟(jì)管理學(xué)院,西安 710018)
海量的商務(wù)領(lǐng)域信息特征復(fù)雜,管理和共享方式急需轉(zhuǎn)變當(dāng)前互聯(lián)網(wǎng)技術(shù)已經(jīng)在商業(yè)領(lǐng)域應(yīng)用了多年,積累了海量的數(shù)字資源,并開發(fā)了多種應(yīng)用服務(wù),海量的數(shù)字資源的特征如下。
1)多源異質(zhì)、冗余
海量的商務(wù)領(lǐng)域數(shù)字資源包含不同的異構(gòu)數(shù)據(jù)資源,可以稱之為多源異質(zhì)數(shù)據(jù),聚集了TB甚至PB級的海量數(shù)字資源。如從數(shù)據(jù)結(jié)構(gòu)來看包含非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)等,從數(shù)據(jù)語義來看包含數(shù)據(jù)聚合后的高層概括性數(shù)據(jù)及采集的原始底層數(shù)據(jù),其中原始底層數(shù)據(jù)存在巨大的語義缺乏及數(shù)據(jù)冗余,海量數(shù)據(jù)資源處理的需求會非常普遍[1]。
2)實時應(yīng)用需求
商務(wù)領(lǐng)域的數(shù)字資源信息是不斷變化的,同時數(shù)據(jù)之間存在聯(lián)系,并且用戶對這些數(shù)據(jù)進(jìn)行訪問時,由于訪問目的不同,因此,必須加強數(shù)據(jù)的管理,實現(xiàn)共享,并且在限定的時間內(nèi)獲得需要的數(shù)據(jù)結(jié)果。
3)可信、可靠需求
由于數(shù)字資源系統(tǒng)網(wǎng)絡(luò)的復(fù)雜性,因此,會有很多因素對數(shù)據(jù)資源的處理如數(shù)據(jù)聚集計算、資源采集、數(shù)據(jù)分析等產(chǎn)生影響,造成數(shù)據(jù)資源的利用效能不高,資源服務(wù)器的負(fù)載均衡效果不理想,穩(wěn)定性差,資源服務(wù)的軟硬件容錯能力低等,這些因素制約了數(shù)字資源的高效利用,因此,非常有必要采用一種新技術(shù)對商業(yè)領(lǐng)域的數(shù)字資源進(jìn)行集中管理和推送,建立信任保障機制,為用戶提供一種快捷、可靠的數(shù)字資源知識服務(wù)。
云計算在2007年被首次提出,是一種非常典型的網(wǎng)絡(luò)計算模式,其主要作用機制是在虛擬計算環(huán)境中運行大規(guī)模應(yīng)用的可用性及可伸縮性。隨著近幾年的發(fā)展,云計算已經(jīng)成為企業(yè)界和學(xué)術(shù)界關(guān)注和研究的熱點熱點[2],典型的云計算系統(tǒng)如Google Search、國內(nèi)的阿里云等,由大量的商用計算設(shè)備構(gòu)成數(shù)據(jù)中心,為用戶提供安全、可靠、便捷的基礎(chǔ)設(shè)施服務(wù)、平臺服務(wù)和軟件服務(wù)。云計算系統(tǒng)平臺提供了龐大的數(shù)據(jù)處理及應(yīng)用服務(wù)程序,有效解決了資源自動分配及任務(wù)自動劃分等關(guān)鍵問題。
一些新的研究結(jié)果顯示,當(dāng)前云計算正在逐漸應(yīng)用于不同領(lǐng)域的數(shù)字資源處理,處理數(shù)據(jù)規(guī)模一般達(dá)到TB、PB級,如基于微軟SQL Server的云數(shù)據(jù)處理平臺、敏感信息云處理平臺的構(gòu)建等。隨著云計算技術(shù)的發(fā)展,其可能成為解決海量數(shù)字化商業(yè)領(lǐng)域資源管理和共享的途徑。
云計算的核心問題之一為多源信息資源管理,包括多源信息資源的動態(tài)組織、優(yōu)化調(diào)度、資源描述、即時監(jiān)控等活動。云計算環(huán)境下的多源信息資源管理是通過虛擬化技術(shù)實現(xiàn)對底層資源的復(fù)雜性和異構(gòu)性的屏蔽,將分散的資源結(jié)合在一起,形成一個統(tǒng)一的巨型資源池。以此確保資源合理、高效的分配和使用[1]。此外,云計算環(huán)境下的多源信息資源管理如資源的描述、發(fā)現(xiàn)匹配等構(gòu)成了一個統(tǒng)一的整體,實現(xiàn)高效資源提取。
當(dāng)前多源信息資源管理方法還不夠完善,存在以下幾個問題:一是,多源信息資源的描述沒有統(tǒng)一的標(biāo)準(zhǔn),不利于資源的有效識別與提取;二是,在多源信息資源的發(fā)現(xiàn)與匹配方法上,不能實現(xiàn)跨平臺操作,不能滿足用戶的個性化服務(wù)需求。三是,由于不同的子資源分布在不同的服務(wù)器或者數(shù)據(jù)中心,因此,現(xiàn)有的多源信息資源優(yōu)化分配方法欠缺在考慮資源分配效率的同時,很難實現(xiàn)服務(wù)提供商自身的目標(biāo)實現(xiàn)。
在網(wǎng)絡(luò)環(huán)境下,各大服務(wù)供應(yīng)商都建立了自己的服務(wù)體系,在小范圍內(nèi)實現(xiàn)了區(qū)域資源的共享,可以選擇以直接或者間接的方式進(jìn)行交互,消除了信息孤島。當(dāng)前的信息資源服務(wù)方式有三種基于移動代理的服務(wù)模式、基于第三方平臺的服務(wù)模式、基于數(shù)據(jù)中心的服務(wù)模式。 通過上文的論述可知,云計算中的信息數(shù)量龐大,復(fù)雜不缺定,而基于移動代理的服務(wù)模式、基于第三方平臺的服務(wù)模式一個平臺僅由一個服務(wù)運營商提供,資源略顯單一,而基于信息中心的服務(wù)模式可以提供多源信息資源服務(wù),目前,各類大型搜索引擎如百度、谷歌等,都是基于信息中心的服務(wù)模式。如用戶使用百度搜索相關(guān)信息時,只需要在搜索模塊入口中輸入關(guān)鍵詞百度引擎將會向分布在各個云端信息發(fā)送請求,利用本體語義搜索及網(wǎng)絡(luò)爬蟲技術(shù)查詢、分析、篩選、匹配等,最后將搜索分析結(jié)果發(fā)送至用戶端。云計算環(huán)境下的多源信息服務(wù)模式如圖1所示。
由于云計算環(huán)境具有開放性及動態(tài)性的相關(guān)特征,因此,在該分布式環(huán)境中的多源信息資源十分復(fù)雜,因此,需要加入可信服務(wù)監(jiān)管機制,當(dāng)前一些電子商務(wù)領(lǐng)域的平臺運營商如天貓商城已經(jīng)加入了服務(wù)保障機制,但是這些保障措施缺乏獨立性,不能實現(xiàn)跨平臺服務(wù),不能有效的對整個服務(wù)過程進(jìn)行監(jiān)管。因此,本研究從安全角度出發(fā)提出了云環(huán)境下的第三方可信信息服務(wù)模式,通過第三方監(jiān)管機制對服務(wù)交易的雙方進(jìn)行約束,可以采用不同的安全策略,如虛擬機安全技術(shù)、容錯與恢復(fù)、數(shù)字水印、身份認(rèn)證、密鑰加密等技術(shù),第三方監(jiān)管機制可信保障原理流程如圖2所示。
圖1 云計算下的多源信息資源服務(wù)模式
圖2 第三方監(jiān)管機制自身可信保障原理流程[3]
可信第三方監(jiān)管的角色設(shè)計如下:一是,信息管理機制,通過第三方監(jiān)管對服務(wù)者發(fā)布的信息進(jìn)行審核、記錄等,限制虛假信息的發(fā)布及網(wǎng)絡(luò)謠言的傳播。二是,數(shù)據(jù)分析能力。通過第三方監(jiān)管對云計算環(huán)境下的多源信息服務(wù)過程中的大量數(shù)據(jù)進(jìn)行分析,從技術(shù)上保證服務(wù)過程的安全性,降低網(wǎng)絡(luò)欺詐行為的發(fā)生率。三是,監(jiān)管獎懲制度。建設(shè)監(jiān)管獎懲制度對對云計算環(huán)境下多源信息服務(wù)過程中不同參與者的行為進(jìn)行規(guī)范。
Hadoop是Apache軟件基金會旗下一個基于Java的開源分布式云計算平臺,可以被部署在廉價硬件上。Hadoop主要包括HDFS、MapReduce、Hbase、Zookeeper等核心組件。基于Hadoop的成本低、擴展性高、容錯性高、可靠性高,它可以實現(xiàn)底層分布式基礎(chǔ)架構(gòu)的透明化,用戶只需要簡單進(jìn)行配置就可以將計算機資源、網(wǎng)絡(luò)資源、存儲資源組織起來,從而搭建一個能用集群的計算和存儲能力處理海量數(shù)據(jù)的分布式計算平臺。本模型的目標(biāo)是利用Hadoop技術(shù)將大量的商業(yè)領(lǐng)域的信息資源進(jìn)行整合,構(gòu)建一個多源信息資源云服務(wù)平臺模型,為商業(yè)領(lǐng)域數(shù)字資源共享共建提供基于基礎(chǔ)設(shè)施、平臺和軟件3個層面的服務(wù)模式。基于第三方保障的多源商業(yè)信息資源服務(wù)總體架構(gòu)如圖3所示。
圖3 基于第三方保障的多源商業(yè)信息資源云服務(wù)總體架構(gòu)
(1)基礎(chǔ)架構(gòu)層。主要是為系統(tǒng)提供硬件服務(wù)集合,包括存儲設(shè)備、Hadoop服務(wù)器集群、服務(wù)器操作系統(tǒng)、網(wǎng)絡(luò)設(shè)備等。
(2)數(shù)據(jù)層。利用Hadoop平臺實現(xiàn)存儲設(shè)備的邏輯虛擬化,利用HDFS文件系統(tǒng)實現(xiàn)商業(yè)領(lǐng)域數(shù)據(jù)的分布式存儲和管理。利用MapReduce編程模型對多源信息數(shù)據(jù)進(jìn)行分割,形成大小固定的數(shù)據(jù)塊,然后根據(jù)HDFS的存儲機制將其在不同的數(shù)據(jù)節(jié)點上進(jìn)行冗余存儲,用戶通過Web瀏覽器提交查詢請求,平臺利用MapReduce編程模型對實現(xiàn)數(shù)據(jù)的清洗、排序、映射與歸納等分布式計算,然后將結(jié)果反饋給用戶。用戶的請求及返回的數(shù)據(jù)的真實性受到第三方可信監(jiān)管機制的監(jiān)管。
(3)用戶層。用戶通過Web形式訪問系統(tǒng),在第三方可信機制監(jiān)管之下通過不同API接口可進(jìn)入不同的用戶界面。
本文中設(shè)計的基于第三方可信保險機制的多源信息云服務(wù)模型部署在5臺普通的聯(lián)想工作站中,其中1臺為主節(jié)點服務(wù)器,4臺作為數(shù)據(jù)節(jié)點服務(wù)器,備用節(jié)點部署在其中1臺數(shù)據(jù)節(jié)點服務(wù)器上。工作站的配置:CPU:2.4GHZ intel(R)Xeon(R)E5645 12核;內(nèi)存16G;硬盤8T;操作系統(tǒng)Red Hat Enterprise Linux Server6.3;Java版本jdck1.6.0_24;集群平臺Hadoop2.2.0;分布式數(shù)據(jù)庫HBase0.96.0;系統(tǒng)開發(fā)環(huán)境eclipse10.0。搭建好后,以Web的方式查看。
采用Hadoop集群作為系統(tǒng)底層服務(wù)器,用戶使用多源信息云服務(wù)時,只需要輸入相關(guān)請求通過Web服務(wù)器即可獲取商業(yè)領(lǐng)域數(shù)字資源的瀏覽、檢索、分析等功能,如圖4所示。
Hadoop集群系統(tǒng)包括主節(jié)點 NameNode、備用節(jié)點 Secondary NameNode及多個數(shù)據(jù)節(jié)點 DataNode 組成[4]。主節(jié)點是集群的主控中心服務(wù)器,負(fù)責(zé)對全部的元數(shù)據(jù)、內(nèi)存、I/O 進(jìn)行集中管理,備用節(jié)點 Secondary NameNode 可以避免出現(xiàn)由于主節(jié)點宕機使云服務(wù)平臺無法運行的情況。Web 服務(wù)器為用戶提供訪問服務(wù)具體運行過程為:用戶向Web 服務(wù)器發(fā)出讀寫請求,主節(jié)點向數(shù)據(jù)節(jié)點發(fā)出讀寫指令,Web服務(wù)器直接和該數(shù)據(jù)節(jié)點服務(wù)器上的后臺程序進(jìn)行通信,對相關(guān)的數(shù)據(jù)塊進(jìn)行讀寫操作。該云服務(wù)模型的數(shù)據(jù)存儲采用HDFS分布式文件系統(tǒng)。
圖4 云服務(wù)模型的訪問實現(xiàn)
本研究分析了基于第三方可信保障機制的多源信息云服務(wù)模型,對當(dāng)前多源信息云服務(wù)存在的問題進(jìn)行了分析,并提出了第三方可信監(jiān)管,平臺的提出及在商業(yè)領(lǐng)域的應(yīng)用當(dāng)前只是處于一個設(shè)想階段,可能在具體實施過程中會存在一些問題,同時第三方監(jiān)管的選擇及具體的監(jiān)管機制仍然需要進(jìn)一步的研究,這也會成為當(dāng)前的重點研究問題。