尚鳳軍,談 婭
(1.重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶400065;2.重慶郵電大學(xué) 馬克思主義學(xué)院,重慶400065)
云計(jì)算為Internet用戶提供了一種數(shù)據(jù)管理方式,用戶通過(guò)云計(jì)算能夠存儲(chǔ)和保護(hù)數(shù)據(jù)?;谠朴?jì)算的云平臺(tái)技術(shù),能夠?qū)⒒祀s紛亂的大量城市信息作為數(shù)據(jù)進(jìn)行分析并存儲(chǔ),以達(dá)成構(gòu)建“和諧城市”的目標(biāo)[1]。重慶市由此推出的“城市云”概念,是城市IT設(shè)施中最重要的組成部分,它使建設(shè)“數(shù)字宜居城市”成為可能。同時(shí),城市云也為城市的公共設(shè)施服務(wù)建設(shè)以及可持續(xù)發(fā)展提供了可靠保障。構(gòu)建基于云計(jì)算的新聞媒體交互式平臺(tái)是促進(jìn)城市云建設(shè)的重點(diǎn)之一。
云計(jì)算是一種商業(yè)應(yīng)用,該服務(wù)具有超大規(guī)模、虛擬化、高可靠性、高可擴(kuò)展性、通用性等特點(diǎn)[2]。云計(jì)算的應(yīng)用數(shù)據(jù)和IT資源通過(guò)網(wǎng)絡(luò)提供給用戶使用,其用戶非常廣泛,如企業(yè)政府、學(xué)術(shù)機(jī)構(gòu)、個(gè)人等。它是按量計(jì)費(fèi)的商業(yè)模型,擁有簡(jiǎn)化的服務(wù)接口。代表性的云計(jì)算系統(tǒng)包括IBM、微軟、亞馬遜等。
目前,在各個(gè)新聞中心的IT基礎(chǔ)架構(gòu)中,應(yīng)用系統(tǒng)下的不同層面使用獨(dú)立的服務(wù)器,即分散式架構(gòu)。也就是說(shuō),計(jì)算、OS、中間件、數(shù)據(jù)庫(kù)、Web、ftp、域控制器等層面之間相互獨(dú)立[3]。此外,在現(xiàn)有的基礎(chǔ)之上,將來(lái)需逐步擴(kuò)展其他應(yīng)用,比如綜合分析等,以便構(gòu)造出更加完善的基礎(chǔ)架構(gòu)。利用云計(jì)算的先進(jìn)理念和先進(jìn)技術(shù),建立起一個(gè)為新聞行業(yè)提供基礎(chǔ)設(shè)施服務(wù)、應(yīng)用平臺(tái)級(jí)服務(wù)和應(yīng)用軟件級(jí)服務(wù)的公用信息網(wǎng)絡(luò)平臺(tái),實(shí)現(xiàn)管理媒體部門用戶8 000家、重點(diǎn)個(gè)人用戶100萬(wàn)個(gè),建立文字、攝影、音樂(lè)、音像、影視等新聞媒體庫(kù),實(shí)現(xiàn)大數(shù)量級(jí)媒體信息交互的目標(biāo)。
新聞云平臺(tái)包括基礎(chǔ)設(shè)施、管理平臺(tái)、虛擬化、新聞應(yīng)用四個(gè)子平臺(tái)(見(jiàn)圖1)。
圖1 新聞云平臺(tái)總體架構(gòu)示意圖
基礎(chǔ)設(shè)施平臺(tái)主要包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備,是云平臺(tái)的硬件支持系統(tǒng)。通過(guò)對(duì)基礎(chǔ)設(shè)施平臺(tái)的擴(kuò)展,可進(jìn)一步提高平臺(tái)承載能力,同時(shí)支持網(wǎng)絡(luò)熱備、負(fù)載均衡、異構(gòu)系統(tǒng)集成等關(guān)鍵技術(shù)研究。
虛擬化平臺(tái)主要通過(guò)虛擬化技術(shù)屏蔽底層的硬件差異,實(shí)現(xiàn)對(duì)計(jì)算和存儲(chǔ)、網(wǎng)絡(luò)和軟件、數(shù)據(jù)和用戶等資源的高效部署和管理,為用戶使用提供穩(wěn)定、良好的運(yùn)行環(huán)境。通過(guò)虛擬化平臺(tái)的建設(shè),將進(jìn)一步提高平臺(tái)的整體運(yùn)維能力,同時(shí)支持虛擬化、并行計(jì)算、分布式存儲(chǔ)等關(guān)鍵技術(shù)的研究。
云計(jì)算管理平臺(tái)實(shí)現(xiàn)對(duì)所有資源的集中管理、監(jiān)控和調(diào)度,同時(shí)提供完整的用戶計(jì)算資源申請(qǐng)、審批、調(diào)配的服務(wù)流程管理。
云平臺(tái)通過(guò)虛擬機(jī)方式提供新聞瀏覽、查詢、收藏、訂閱和信息門戶等服務(wù)。
云端服務(wù)為客戶端提供各種應(yīng)用服務(wù),能夠充分和多樣化地滿足用戶的需求,該應(yīng)用服務(wù)包含瀏覽、查詢、收藏和訂閱四個(gè)選項(xiàng)標(biāo)簽(見(jiàn)圖2)。
用戶在登陸云端的虛擬平臺(tái)之后可以按照自己的意愿和愛(ài)好來(lái)實(shí)時(shí)瀏覽和閱讀新聞事件。閱讀內(nèi)容包含摘要、重大新聞、熱圖、視頻、頭條、音頻和報(bào)種等。
(1)報(bào)種:用戶可以隨意閱讀諸如《重慶日?qǐng)?bào)》、《重慶晚報(bào)》、《重慶晨報(bào)》等不同的報(bào)紙;
(2)摘要:用戶選擇摘要瀏覽,目錄服務(wù)器返回摘要列表,以供用戶選擇自己實(shí)際想要的摘要作為閱讀內(nèi)容;
(3)重大新聞:用戶申請(qǐng)重大新聞瀏覽服務(wù),目錄服務(wù)器會(huì)返回帶有星級(jí)標(biāo)識(shí)的重大新聞列表,重大新聞標(biāo)識(shí)可由一星到五星分別用來(lái)表示新聞的重要性;
圖2 云平臺(tái)向用戶提供的應(yīng)用服務(wù)
(4)熱圖:根據(jù)用戶的請(qǐng)求,服務(wù)器返回與用戶輸入的關(guān)鍵詞有關(guān)的并且是當(dāng)下搜索最為頻繁的圖片,由于所有的圖片并非一定是用戶實(shí)際搜索想要的,也考慮到服務(wù)器的響應(yīng)速度和負(fù)載,所以此時(shí)返回縮略圖,用戶可以選擇自己感興趣的圖片進(jìn)而看到原圖;
(5)視頻:根據(jù)用戶的請(qǐng)求,服務(wù)器返回用戶搜索的視頻列表,有兩種類型以供用戶選擇:普通畫(huà)質(zhì)和高清畫(huà)質(zhì);
(6)音頻:根據(jù)用戶的請(qǐng)求,服務(wù)器返回按照用戶輸入的關(guān)鍵詞排序的音頻列表,有兩種類型以供用戶選擇:普通音質(zhì)和高音質(zhì);
(7)頭條:根據(jù)用戶輸入的關(guān)鍵詞,服務(wù)器將對(duì)新聞列表進(jìn)行排序,隨后返回對(duì)應(yīng)的頭條新聞列表。
除了實(shí)時(shí)閱讀之外,用戶還可以按照自己感興趣的內(nèi)容進(jìn)行選擇性查看。用戶可以按照八個(gè)關(guān)鍵詞形成的三種模式進(jìn)行查詢。三種模式為資源列表、形成文檔和聯(lián)合模式。八個(gè)關(guān)鍵詞分別是時(shí)間、地點(diǎn)、人物、事件、類型、摘要、標(biāo)簽和連接符。
(1)時(shí)間:用戶可以按照事件發(fā)生的時(shí)間進(jìn)行搜索;
(2)地點(diǎn):用戶可以按照事件發(fā)生的地點(diǎn)查詢;
(3)人物:事件中涉及的主要人物;
(4)事件:事件的總體概括;
(5)類型:用戶搜索的新聞媒體類型;
(6)摘要:用戶可以按照自己的需要查詢摘要中的有關(guān)信息;
(7)標(biāo)簽:用戶查詢時(shí)可以使用標(biāo)簽作為查詢關(guān)鍵詞,標(biāo)簽有五種,分別對(duì)應(yīng)不同的重要等級(jí)的新聞;
(8)連接符:連接同一新聞事件中不同新聞媒體的符號(hào),允許用戶搜索與當(dāng)前查看內(nèi)容為同一新聞事件的不同媒體類型。
根據(jù)不同用戶的需要,云服務(wù)向用戶提供收藏服務(wù)。在該服務(wù)中,允許用戶收藏前次瀏覽或者查詢過(guò)程中標(biāo)記過(guò)的書(shū)簽和關(guān)鍵字,同時(shí),系統(tǒng)會(huì)自動(dòng)保存用戶的瀏覽習(xí)慣,并借此自動(dòng)設(shè)置用戶的偏好。
可以根據(jù)用戶的不同需求,提供不同的訂閱服務(wù)。訂閱服務(wù)有三種類型:訂閱摘要、訂閱詳細(xì)內(nèi)容和自定義訂閱。
當(dāng)需要處理的數(shù)據(jù)來(lái)到數(shù)據(jù)處理中心,需要對(duì)其進(jìn)行三個(gè)步驟的處理(見(jiàn)圖3)。首先,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;其次,對(duì)數(shù)據(jù)所包含的同質(zhì)以及異質(zhì)新聞進(jìn)行處理;最后,建立索引表并分配給服務(wù)器存儲(chǔ)。
圖3 數(shù)據(jù)處理流程示意圖
在數(shù)據(jù)的預(yù)處理過(guò)程中,首先對(duì)數(shù)據(jù)進(jìn)行格式標(biāo)準(zhǔn)化。所謂格式標(biāo)準(zhǔn)化就是將各種格式的數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式;然后再搜索敏感關(guān)鍵字,對(duì)于多次出現(xiàn)敏感關(guān)鍵字的新聞數(shù)據(jù)進(jìn)行清理,刪除錯(cuò)誤的、負(fù)面的、不科學(xué)和不真實(shí)的數(shù)據(jù)。
對(duì)數(shù)據(jù)是否為同一新聞事件進(jìn)行判斷并處理,其過(guò)程如下:首先將預(yù)處理完成的數(shù)據(jù)進(jìn)行內(nèi)容比對(duì),設(shè)定相異閾值M,內(nèi)容相似度低于M的,則判定數(shù)據(jù)不是同一事件,然后對(duì)其建立索引并分布存儲(chǔ);設(shè)定相容閾值N,若不同數(shù)據(jù)之間相似度高于N,則判定數(shù)據(jù)重復(fù),刪除其中一個(gè),只保留另外一個(gè),將所有數(shù)據(jù)進(jìn)行判定之后,進(jìn)入下一步,建立索引。
為上一步處理的所有數(shù)據(jù)建立索引,將所有數(shù)據(jù)的索引形成索引表存放在目錄服務(wù)器中,用戶向目錄服務(wù)器遞交服務(wù)申請(qǐng),由目錄服務(wù)器負(fù)責(zé)返回服務(wù)申請(qǐng)和數(shù)據(jù)地址映射。數(shù)據(jù)索引以特征字符串的形式組織和排序,在目錄服務(wù)器形成索引表。特征字符串(其中數(shù)字為特征項(xiàng)長(zhǎng)度,沒(méi)有單位標(biāo)識(shí)的,默認(rèn)單位為字節(jié))的格式如圖4所示。
圖4 特征字符串的格式
特征字符串格式說(shuō)明:在字符串中,每個(gè)字符都有每個(gè)字符的含義,具體內(nèi)容如下:
(1)時(shí)間:長(zhǎng)度為8字節(jié),格式為:yyyymmdd,年份4位,月份2位,日期2位;
(2)地點(diǎn):長(zhǎng)度為20字節(jié),每2個(gè)字節(jié)為一個(gè)漢字,若地點(diǎn)字?jǐn)?shù)不足10字,則剩余字節(jié)加注結(jié)束標(biāo)志;
(3)人物:長(zhǎng)度為10字節(jié),每2個(gè)字節(jié)為一個(gè)漢字,若姓名字?jǐn)?shù)不足5字,則剩余字節(jié)加注結(jié)束標(biāo)志;
4)事件:長(zhǎng)度為20字節(jié),每2個(gè)字節(jié)為一個(gè)漢字,若事件字?jǐn)?shù)不足10字,則剩余字節(jié)加注結(jié)束標(biāo)志;
(5)摘要頭:長(zhǎng)度為1位,若為0則表示此項(xiàng)不是摘要頭,為1則表示是摘要頭;
(6)正文頭:長(zhǎng)度為1位,若為0則表示此項(xiàng)不是正文頭,為1則表示是正文頭,摘要頭和正文頭不能相同;
(7)連接符:長(zhǎng)度為4字節(jié),連接符表示是否有數(shù)據(jù)與當(dāng)前數(shù)據(jù)關(guān)系相連(即陳述的是同一新聞事件),相同新聞事件的不同媒體之間的連接符相同;
(8)標(biāo)簽:表示當(dāng)前新聞事件的重要程度,分為5個(gè)等級(jí);
(9)校驗(yàn)位:長(zhǎng)度為1位,用以校驗(yàn)特征字符串。
將所有條目的特征字符串整合、排序并映射到主機(jī)地址和存儲(chǔ)路徑,形成索引表,存放在目錄服務(wù)器,以便管理和用戶查詢(見(jiàn)表1)。
表1 索引表
考慮到新聞媒體的多樣化,對(duì)各種媒體確定唯一存儲(chǔ)格式并作為標(biāo)準(zhǔn)格式,以便于存儲(chǔ)和管理維護(hù),如圖5所示。
圖5 文件的存儲(chǔ)格式
為了便于用戶觀看,保證視頻資源的流暢,采用后綴為flv的流媒體格式。為了滿足不同用戶的需求,視頻分為一般畫(huà)質(zhì)和高清畫(huà)質(zhì)。
為了方便用戶,同時(shí)考慮到存儲(chǔ)空間的大小,采用后綴為mp3的壓縮格式,分為一般音質(zhì)和高音質(zhì)。
在所有圖片格式中,jpg格式圖片在同等畫(huà)質(zhì)下壓縮比更高、體積更小,便于網(wǎng)絡(luò)傳輸,其廣泛支持Internet標(biāo)準(zhǔn)的特性也使得它脫穎而出。
文本包括摘要、正文、頭條和評(píng)論等內(nèi)容。因?yàn)樵谟脩艚缑鏁?huì)有格式描述符,所以在存儲(chǔ)時(shí)就沒(méi)有必要加入更多的格式,所以采用txt格式的記事本文件可以最大限度地節(jié)約空間和加快傳輸速度。
該新聞客戶端是用Android編寫(xiě)的一個(gè)可以與云端進(jìn)行數(shù)據(jù)交互、提供實(shí)時(shí)更新新聞的一個(gè)新聞客戶端[4]??蛻舳烁?wù)器的通信主要是依據(jù)Http協(xié)議,它詳細(xì)規(guī)定了瀏覽器和萬(wàn)維網(wǎng)服務(wù)器之間互相通信的規(guī)則,通過(guò)因特網(wǎng)傳送萬(wàn)維網(wǎng)文檔的數(shù)據(jù)傳送協(xié)議[5]。本新聞客戶端引用A-pache公司提供的用于客戶端與服務(wù)器通信的Http封裝包。所使用的Android控件主要有Activity,ListView,Button,EditView 等。UI設(shè)計(jì)工具使用了Photoshop、Droiddraw等工具。手機(jī)客戶端構(gòu)架如圖6所示。
圖6 手機(jī)客戶端架構(gòu)示意圖
Http定義了與服務(wù)器交互的不同方法,最基本的方法有四種,分別是 get,post,put和 delete。URL全稱是資源描述符,我們可以這樣認(rèn)為:一個(gè)URL地址,它用于描述一個(gè)網(wǎng)絡(luò)上的資源,而Http中的 get,post,put,delete 就對(duì)應(yīng)著這個(gè)資源的查、改、增、刪四個(gè)操作。本客戶端使用了HttpGet和HttpPost兩種和服務(wù)器通信的方法。HttpGet用于客戶端不需要向服務(wù)器傳送數(shù)據(jù),而是直接取得服務(wù)器端的數(shù)據(jù),比如說(shuō)打開(kāi)新聞客戶端軟件,服務(wù)器直接把最近的熱點(diǎn)新聞推送到客戶端。Http-Post用于客戶端向服務(wù)器提交數(shù)據(jù),服務(wù)器接受并根據(jù)客戶端提交的數(shù)據(jù)返回相應(yīng)數(shù)據(jù)到客戶端。數(shù)據(jù)編碼統(tǒng)一采用GBK編碼。
服務(wù)器是用的虛擬在PC機(jī)上的Apache服務(wù)器,客戶端每一個(gè)種類的新聞?wù)埱髮?duì)應(yīng)在服務(wù)器上就有一個(gè)被發(fā)布的Servlet。服務(wù)器從數(shù)據(jù)庫(kù)取到相應(yīng)的數(shù)據(jù)后把數(shù)據(jù)拼湊成類似Json格式,通過(guò)HttpServle類的方法把數(shù)據(jù)以字符串的格式傳輸?shù)娇蛻舳耍?]??蛻舳嗽诮邮盏椒?wù)器傳輸過(guò)來(lái)的字符串后,通過(guò)生成JsonObject數(shù)據(jù)的方法把字符串轉(zhuǎn)換為Json格式的數(shù)據(jù)。Json格式數(shù)據(jù)如下所示:{“title”:張無(wú)忌,“time”:2014-03-27,“content”:譴責(zé)昆明暴力事件實(shí)施者},客戶端通過(guò)取得title,time,content三個(gè)標(biāo)簽就可以獲得它們所對(duì)應(yīng)的數(shù)據(jù)。
基于對(duì)項(xiàng)目?jī)?yōu)化的考慮,本新聞客戶端的所有圖片均使用外鏈圖片,服務(wù)器只需傳送圖片的URL到客戶端,客戶端根據(jù)URL通過(guò)Http協(xié)議從網(wǎng)絡(luò)上下載圖片,首先以字節(jié)的形式保存在數(shù)組中,然后通過(guò)BitmapFactory的DecodeByteArray方法將字節(jié)數(shù)據(jù)轉(zhuǎn)換為Bitmap格式的數(shù)據(jù),Bitmap格式的數(shù)據(jù)可以直接以圖片的方式顯示在Android界面上。
UI設(shè)計(jì)[7]小組把新聞客戶端的背景圖片完全設(shè)計(jì)好后,主界面使用TextView顯示導(dǎo)航,導(dǎo)航可包括娛樂(lè)、汽車、女性、政治、財(cái)經(jīng)、房產(chǎn)、游戲、科技和軍事等內(nèi)容。由于手機(jī)屏幕的限制,本客戶端使用HorizontalScrollView類實(shí)現(xiàn)可左右滑動(dòng)導(dǎo)航,使用ListView顯示新聞,ButtonView實(shí)現(xiàn)屏幕下方的各個(gè)按鈕等。其主界面如圖7所示。
圖7 手機(jī)主界面截圖
點(diǎn)擊新聞列表中的某一條新聞,就可顯示該新聞的詳細(xì)內(nèi)容。在主界面點(diǎn)擊放大鏡樣式的圖標(biāo)即可跳轉(zhuǎn)到搜索界面,將想要搜索的內(nèi)容上傳到云端,云端將相對(duì)應(yīng)的新聞返回并顯示到手機(jī)客戶端上。例如:在搜索框里輸入cloud computing,然后點(diǎn)擊搜索,就會(huì)顯示出云端與cloud computing相關(guān)的新聞。運(yùn)行截圖如圖8所示。
使用Hadoop云計(jì)算平臺(tái)[8],Hadoop包括兩大核心,即分布式存儲(chǔ)系統(tǒng)和分布式計(jì)算系統(tǒng)。其中分布式存儲(chǔ)系統(tǒng)采用HDFS進(jìn)行存儲(chǔ),HDFS是Hadoop的存儲(chǔ)云。主節(jié)點(diǎn)運(yùn)行文件管理進(jìn)程(namenode),從節(jié)點(diǎn)實(shí)現(xiàn)文件存儲(chǔ)進(jìn)程(datanode)。而分布式計(jì)算系統(tǒng)采用MapReduce進(jìn)行計(jì)算。MapReduce是Haodoop的計(jì)算云,主節(jié)點(diǎn)運(yùn)行任務(wù)管理進(jìn)程(jobtracker),從節(jié)點(diǎn)運(yùn)行任務(wù)執(zhí)行進(jìn)程(tasktracker)。
圖8 新聞搜索頁(yè)面截圖
新聞云測(cè)試平臺(tái)使用三臺(tái)PC搭建Hadoop環(huán)境,詳細(xì)內(nèi)容如表2所示。
表2 新聞云測(cè)試平臺(tái)
MySQL是輕量級(jí)數(shù)據(jù)庫(kù),因?yàn)榇鎯?chǔ)空間有限,所以對(duì)大數(shù)據(jù)的處理能力十分有限,就算是Oracle等世界頂尖級(jí)數(shù)據(jù)庫(kù)公司也力不從心,Hadoop應(yīng)運(yùn)而生,以價(jià)格優(yōu)勢(shì)以及超強(qiáng)的數(shù)據(jù)庫(kù)能力成為下一代數(shù)據(jù)庫(kù)解決方案。
Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架[9]。Hive提供SQL解析引擎,它將SQL語(yǔ)句轉(zhuǎn)譯成MapReduce,然后在Hadoop上執(zhí)行。Hive的表其實(shí)就是HDFS的目錄,按表名把文件夾分開(kāi)。Hive將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,目前只支持Mysql和Derby。
在Hive環(huán)境下建立數(shù)據(jù)庫(kù)并建表,與輕量級(jí)數(shù)據(jù)庫(kù)字段相對(duì)應(yīng)。通過(guò)Java程序?qū)ysql表中數(shù)據(jù)導(dǎo)出后上傳到Hadoop的Hive數(shù)據(jù)庫(kù)指定表的目錄下,就將此表導(dǎo)入到了剛才建立的數(shù)據(jù)庫(kù)中,對(duì)Hive執(zhí)行查詢并將結(jié)果保存到本地。這樣就將輕量級(jí)數(shù)據(jù)庫(kù)的表信息通過(guò)Hadoop處理并保存到了本地。在數(shù)據(jù)處理部分可以進(jìn)行例如輿情分析、數(shù)據(jù)清洗等工作。針對(duì)傳統(tǒng)機(jī)器內(nèi)存的限制和如今數(shù)據(jù)量不斷增大的問(wèn)題,這種云架構(gòu)打破了傳統(tǒng)的物理機(jī)瓶頸,只要增加廉價(jià)的運(yùn)算節(jié)點(diǎn)就可以不斷提高整個(gè)Hadoop架構(gòu)的處理能力。
整個(gè)瀏覽系統(tǒng)采用了J2EE的標(biāo)準(zhǔn),使用了Browser/Server架構(gòu),簡(jiǎn)化且規(guī)范了應(yīng)用系統(tǒng)的開(kāi)發(fā)與部署。前臺(tái)的頁(yè)面用Jsp完成,頁(yè)面設(shè)計(jì)用div+css+javascript的設(shè)計(jì)方式;后臺(tái)在Java環(huán)境下完成,使用Servlet和Javabean結(jié)構(gòu)。
用戶在瀏覽器中輸出信息,提交表單,確認(rèn)提交后,form表單將數(shù)據(jù)通過(guò)Http協(xié)議傳遞給Tomcat服務(wù)器中發(fā)布的Web項(xiàng)目,即Url中指定的Servlet。Tomcat容器將接收的表單數(shù)據(jù)交給Servlet,再由Servlet處理。Servlet調(diào)用相應(yīng)的處理類驗(yàn)證用戶信息,處理類操作數(shù)據(jù)庫(kù)返回驗(yàn)證信息,若驗(yàn)證成功Servlet將驗(yàn)證查詢數(shù)據(jù)庫(kù),并將生成的Jsp通過(guò)Http返回給客戶端瀏覽器,圖9為新聞云頁(yè)面。
圖9 新聞云首頁(yè)截圖
本文設(shè)計(jì)了一個(gè)基于云計(jì)算的新聞云平臺(tái),該平臺(tái)包括基礎(chǔ)設(shè)施、管理平臺(tái)、虛擬化、新聞應(yīng)用四個(gè)子平臺(tái),為客戶端提供瀏覽、查詢、收藏和訂閱等基本功能服務(wù)。對(duì)新聞數(shù)據(jù)進(jìn)行三個(gè)步驟的處理,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)所包含的同質(zhì)以及異質(zhì)新聞進(jìn)行處理和建立索引表,分配給服務(wù)器存儲(chǔ)。考慮到新聞媒體的多樣化,對(duì)各種不同媒體,確定唯一存儲(chǔ)格式作為標(biāo)準(zhǔn)格式,以便于存儲(chǔ)和管理維護(hù)。為驗(yàn)證方案的有效性,搭建了基于Hadoop的云平臺(tái),其中分布式存儲(chǔ)系統(tǒng)采用HDFS進(jìn)行存儲(chǔ),分布式計(jì)算系統(tǒng)采用MapReduce進(jìn)行計(jì)算,使用Hive提供SQL解析引擎,將SQL語(yǔ)句轉(zhuǎn)譯成MapReduce,然后在Hadoop上執(zhí)行,完成海量數(shù)據(jù)的檢索。同時(shí)設(shè)計(jì)了基于PC機(jī)和Android移動(dòng)終端的新聞云客戶端。
[1]王新喆,周成勝,徐穎.云環(huán)境下新聞出版綜合業(yè)務(wù)平臺(tái)的安全技術(shù)研究[J].計(jì)算機(jī)安全,2013(5):48-50.
[2]程聰.云計(jì)算商業(yè)服務(wù)模式的探討和分析[J].北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013(4):46-50.
[3]鄧衛(wèi)華.域控制器在高校圖書(shū)館局域網(wǎng)管理中的運(yùn)用[J].中國(guó)商界,2009(8):6.
[4]周陟.UI進(jìn)化論:移動(dòng)設(shè)備人機(jī)交互界面設(shè)計(jì)[M].北京:清華大學(xué)出版社,2010:23-56.
[5]王濤.HTTP協(xié)議技術(shù)淺析[J].中國(guó)新技術(shù)新產(chǎn)品,2013(22):14.
[6]CHUCH L.Hadoop實(shí)戰(zhàn)[M].北京:人民郵電出版社,2011:34-78.
[7]李剛.瘋狂Android講義[M].第2版.北京:電子工業(yè)出版社,2013:89-120.
[8]DAVID G,BRIAN T.HTTP 權(quán)威指南[M].北京:人民郵電出版社,2012:57-78.
[9]劉鵬.云計(jì)算[M].第2版.北京:電子工業(yè)出版社,2011:2-16.
重慶郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2014年4期