徐玉蓮 朱昌洪
摘 要: 為了提高的Web交互網(wǎng)絡環(huán)境下的信息獲取和引擎搜索能力,提出基于Android的大型Web交互網(wǎng)絡平臺設計方法。通過Web服務器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三種開源的底層計算框架下進行大型Web交互網(wǎng)絡平臺的服務系統(tǒng)設計,基于Android操作系統(tǒng)進行Web交互網(wǎng)絡平臺軟件開發(fā)。采用種子URL信息爬取方法進行互聯(lián)網(wǎng)上的信息搜索和網(wǎng)頁信息處理,并設計垃圾信息過濾模塊,提高信息識別的效率。測試結果表明,該平臺具有較好的Web信息爬取能力,信息召回率等測試指標表現(xiàn)較好。
關鍵詞: Android; Web交互網(wǎng)絡平臺; 信息爬取; 引擎搜索
中圖分類號: TN711?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2017)10?0046?04
Abstract: In order to improve information access and search engine capabilities in the Web interactive network environment, a design method of large?scale Web interactive network platform based on Android is proposed, in which Cloud?P2P information fusion model is established by means of the Web server, the service system of large?scale Web interactive network platform is designed under the three bottom open source calculation frameworks of Hadoop, MongoDB and Storm, and Web interactive network platform software is developed on the basis of Android operating system. The seed URL information crawling method is adopted to perform information search and Web information processing on the Internet, and design the spam filtering module to improve the efficiency of information identification. The test results show that the platform has a good performance of information recall and other test indicators.
Keywords: Android; Web interactive network platform; information crawling; engine search
0 引 言
在網(wǎng)絡信息化環(huán)境下,網(wǎng)絡特別是Internet為人們提供了無限的信息獲取資源[1],人們可以通過搜索引擎、網(wǎng)絡百科全書和網(wǎng)絡文獻進行大型Web交互網(wǎng)絡平臺優(yōu)化設計,提高自動化Web信息交互水平。傳統(tǒng)的C/S計算Web交互平臺在面對大規(guī)模PC構成的網(wǎng)絡信息交互時任務延遲,容易產(chǎn)生垃圾信息[2]。為了提供Web信息交互能力[3?4],在Android移動終端上進行網(wǎng)頁瀏覽,提高對網(wǎng)頁資源信息的調度和利用效率,降低垃圾信息的輸出,設計基于Android的大型Web交互網(wǎng)絡平臺[5]。
1 大型Web交互網(wǎng)絡平臺的總體設計構架
為了實現(xiàn)對移動Android用戶對網(wǎng)頁瀏覽的個性化需求,提高Web信息的交互能力,進行大型Web信息交互網(wǎng)絡平臺設計。本文設計的大型Web信息交互網(wǎng)絡平臺采用的是三層網(wǎng)絡結構,分別為數(shù)據(jù)層、分布式計算框架層和應用層。其中數(shù)據(jù)層建立在C/S計算模型下,為了推斷安全性意圖,采用瀏覽器/服務器模式構建Web信息交互的數(shù)據(jù)庫,在Cloud?P2P云平臺下建立云存儲數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)層的資源調度和信息訪問與流量預測。用戶通過本地客戶端界面構建知識規(guī)則庫,通過構建知識規(guī)則庫實現(xiàn)用戶與資源的數(shù)據(jù)共享及信息交互。
通過對Web交互的個性化特征的分析,保證系統(tǒng)的應用層中網(wǎng)絡與云存儲連接,提高對Web交互的云平臺信息爬取的及時性。通過集群部署、鏡像備份,配置個性化推薦程序,進行I/O接口驅動設計,實現(xiàn)對移動用戶在Android終端的層次結構網(wǎng)絡信息訪問辨識[6]。
系統(tǒng)的應用層是主要通過開放API實現(xiàn)資源分配、部署,將用戶提交的服務請求通過集群服務器端傳輸?shù)焦?jié)點的終端,結合泛知識云模型增強網(wǎng)絡持續(xù)提供服務的分類能力[7]。總體設計構架如圖1所示。
2 平臺設計與實現(xiàn)
2.1 Cloud?P2P信息融合模型
通過Web服務器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三種開源的底層計算框架下進行大型Web交互網(wǎng)絡平臺的服務系統(tǒng)設計。Cloud?P2P信息融合模型通過全局文件系統(tǒng)集合存儲資源虛擬化管理模塊,采用MISC_DYNAMIC總線技術建立標準應用接口[8]。在Cloud?P2P信息融合模型建立中,設計字符設備驅動程序,定義內核函數(shù)為register_blkdev(),在成功向系統(tǒng)注冊了設備驅動程序后,通過系統(tǒng)界面和應用程序模塊與大型Web交互網(wǎng)絡平臺的主節(jié)點連接,在模塊被加載到內核時,管理模塊通過調用request_irq()函數(shù)對該節(jié)點進行身份認證,向內核注冊模塊在線執(zhí)行數(shù)據(jù)存儲和業(yè)務訪問,加入Cloud?P2P計算環(huán)境中,通過集群部署,監(jiān)控模塊負責關心存儲系統(tǒng)是何種設備、分布在何地,全局文件系統(tǒng)的核心組件通過服務認證模塊執(zhí)行數(shù)據(jù)交換和節(jié)點控制。在資源分配、部署中組件計算模塊、網(wǎng)絡模塊、運算模塊、監(jiān)控模塊和用戶模塊,得到大型Web交互網(wǎng)絡平臺的Cloud?P2P信息融合模型模塊化結構如圖2所示。
2.2 基于Android操作系統(tǒng)的Web交互網(wǎng)絡平臺軟件開發(fā)
GFSI Cloud平臺中結合GCC編譯的方式進行Web信息收集和整理,建立主題樹模型執(zhí)行信息監(jiān)控,在Android客戶端的Web網(wǎng)站監(jiān)控列表中執(zhí)行信息更新,對上層的應用系統(tǒng)采用的交叉編譯以及使用標準GCC編譯的方式進行信息監(jiān)控、預警。Web交互網(wǎng)絡平臺軟件開發(fā)的第一步是進行信息爬取,為了提高網(wǎng)頁信息的主題相關性,采用種子URL信息爬取方法進行互聯(lián)網(wǎng)上的信息搜索和網(wǎng)頁信息處理,Web交互網(wǎng)絡平臺的信息爬取結構如圖3所示。
為了保證所采集網(wǎng)頁信息的關聯(lián)性,在E?Learning和Android系統(tǒng)中進行應用程序開發(fā),采用錨文本、鏈接結構進行編譯鏈接程序分析,生成腳本名為install?qt?x11.sh的open source的主題相關文件,在宿主機上進行編譯、仿真。在后續(xù)頁面判斷模型中構建QWT庫。運行make命令,開始建立主題相關樹,在網(wǎng)頁爬取過程中定期執(zhí)行樣本集合、模型的更新程序,編輯.Bashrc文件,將交叉編譯環(huán)境成功安裝到Android系統(tǒng)中,交叉編譯環(huán)境的Android移植過程如圖4所示。基于Android操作系統(tǒng)的Web交互網(wǎng)絡平臺的實現(xiàn)流程如圖5所示。
基于X86架構進行大型Web交互網(wǎng)絡平臺的程序開發(fā)過程,在軟件系統(tǒng)中可執(zhí)行代碼能在ARM上運行,為了提高信息交互能力以及存儲資源的吞吐性能,在命令行輸入arm?linux,引導加載程序(Boot loader)進行程序編譯,把編譯器路徑加入系統(tǒng)環(huán)境變量,得到程序加載的接口代碼為:
2.3 Web交互網(wǎng)絡平臺的應用服務部署
基于上述整體架構和基于Android操作系統(tǒng)的Web交互網(wǎng)絡平臺軟件開發(fā)的關鍵技術分析,進行應用服務部署。為了提高網(wǎng)頁信息的主題相關性,采用種子URL信息爬取方法進行互聯(lián)網(wǎng)上的信息搜索和網(wǎng)頁信息處理,并設計垃圾信息過濾模塊。首先根據(jù)Web交互網(wǎng)絡平臺的特點和后期信息分析的需要,建立本體模型,對Web交互網(wǎng)絡信息進行信息分配和事件分區(qū),從對象、區(qū)域、結果等概念集中成內容網(wǎng)頁,并通過檢索、展示等技術進行信息分配。Web交互網(wǎng)絡平臺的垃圾信息分類流程如圖6所示。
Web交互網(wǎng)絡平臺的應用服務部署中通過分析引擎進行系統(tǒng)的個性化推薦,使用post關鍵詞投遞收集到的網(wǎng)頁信息,Web交互網(wǎng)絡平臺中的網(wǎng)絡用戶可以從Android客戶終端瀏覽、檢索、下載信息,對當天的信息進行排序瀏覽、檢索和下載。通過上述分析,實現(xiàn)了基于Android的大型Web交互網(wǎng)絡平臺設計。
3 平臺性能測試分析
大型Web信息交互網(wǎng)絡平臺的仿真測試平臺搭建在Android開發(fā)系統(tǒng)上,用戶界面如圖7所示。
在性能分析中,測試Web交互網(wǎng)絡平臺進行網(wǎng)頁信息爬取召回率這一參量指標,得到結果如圖8所示。
分析上述實驗測試結果得知,采用本文設計的大型Web網(wǎng)絡交互平臺進行網(wǎng)頁信息獲取,數(shù)據(jù)的召回率較高,這是因為本文方法通過垃圾信息過濾,提高信息識別的效率。
4 結 語
本文提出了基于Android的大型Web交互網(wǎng)絡平臺設計方法,并進行了實驗分析。研究得知,該平臺具有較好的Web信息爬取能力,信息的召回率等測試指標表現(xiàn)較好、性能優(yōu)越。
參考文獻
[1] 楊照峰,王啟明,呂海蓮.基于任務延遲的云計算資源調度算法研究[J].計算機測量與控制,2014,22(2):499?502.
[2] 匡桂娟,曾國蓀.一種基于時分復用的云資源管理方法[J].同濟大學學報(自然科學版),2014,42(5):782?789.
[3] 陳小軍,方濱興,譚慶豐,等.基于概率攻擊圖的內部攻擊意圖推斷算法研究[J].計算機學報,2014,37(1):62?71.
[4] 張鳳荔,王丹,趙永亮,等.基于改進的TCM?KNN DoS檢測算法[J].電子科技大學學報,2014,43(1):76?81.
[5] 唐明董,姜葉春,劉建勛.用戶位置感知的Web服務網(wǎng)絡數(shù)據(jù)流量預測方法[J].小型微型計算機系統(tǒng),2012,33(12):2664?2667.
[6] 肖建,白裔峰,于龍.模糊系統(tǒng)結構辨識綜述[J].西南交通大學學報,2009,41(2):135?142.
[7] 馬軍,宋玲,韓曉暉,等.基于網(wǎng)頁上下文的Deep Web數(shù)據(jù)庫分類[J].軟件學報,2008,19(2):267?274.
[8] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining [J]. Knowledge and information systems, 2015, 42(3): 545?577.
[9] 馬衛(wèi).基于Android移動平臺的研究[J].計算機仿真,2016,33(1):218?222.