毛正標(biāo) 彭勇
摘 要: 針對傳統(tǒng)信息化處理平臺一直存在耗時高、平臺響應(yīng)滯后以及信息聚類精度低等問題。提出并設(shè)計(jì)了基于移動互聯(lián)的信息化智能處理平臺和平臺的物理架構(gòu)。該平臺由資訊服務(wù)模塊、信息推送模塊和智慧信息熱點(diǎn)發(fā)現(xiàn)模塊三大功能模塊構(gòu)成,分析了各功能模塊的操作流程,這些功能模塊協(xié)同運(yùn)作,實(shí)現(xiàn)信息的智能化處理。通過ICTCLAS分詞系統(tǒng)對新聞文本進(jìn)行分詞處理,完成對關(guān)鍵詞的采集,利用向量空間模型獲取新聞文本的知識描述模型,對新聞標(biāo)題詞頻進(jìn)行采集,得到K個原始聚類中心,通過匯總新聞標(biāo)題詞頻的改進(jìn)K?Means算法,對新聞特征向量實(shí)施話題聚類,得到熱點(diǎn)信息。實(shí)驗(yàn)結(jié)果說明,所設(shè)計(jì)的處理平臺具有較高的運(yùn)行效率和聚類精度,信息化處理性能強(qiáng)。
關(guān)鍵詞: 移動互聯(lián); 信息化處理; 智能處理; 聚類; K?Means算法
中圖分類號: TN929.5?34; TP311.5 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)20?0046?03
Abstract: Since there are many problems existing in the traditional information processing platform, such as high time consumption, delay platform response and low?precision information clustering, the intelligent information processing platform based on mobile Internet and physical architecture of the platform are proposed and designed. The platform consists of information service module, information push module and intelligence hot information finding module. The operation process of each function module is analyzed. These function modules operate collaboratively to realize informatization intelligent processing. The participle processing of news texts is conducted by ICTCLAS participle system to complete the acquisition of news text keywords. The vector space model is adopted to achieve the knowledge representation model of news texts, collect the word frequency of news titles, and get K numbers of original clustering centers. The improved K?Means algorithm for summarizing the news headlines frequency is used to execute the topic clustering of news feature vector and get hot information. The experimental results show that the designed processing platform has high operation efficiency, high clustering accuracy and strong informatization processing performance.
Keywords: mobile Internet; informatization processing; intelligent processing; clustering; K?Means algorithm
當(dāng)前的互聯(lián)網(wǎng)廣泛應(yīng)用在人們的生產(chǎn)和生活中,基于移動互聯(lián)網(wǎng)設(shè)計(jì)的軟件在不同行業(yè)中的應(yīng)用價值也逐漸提升。由于移動互聯(lián)的發(fā)展,我國無線網(wǎng)絡(luò)覆蓋區(qū)域逐漸提升,給商業(yè)、工業(yè)以及軍事領(lǐng)域中的無線互聯(lián)帶來了便捷性[1]。對移動互聯(lián)網(wǎng)絡(luò)中的信息實(shí)施高效、智能處理,能夠提升相應(yīng)領(lǐng)域信息交互以及管理的質(zhì)量。而傳統(tǒng)基于推理的信息化處理平臺,通過語義推理分析完成信息的分析,存在耗時高、平臺響應(yīng)滯后以及信息聚類精度低等問題,無法實(shí)現(xiàn)信息的智能化處理。
因此提出基于移動互聯(lián)的信息化智能處理平臺,采用移動互聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)用戶對信息的實(shí)時訪問[2],通過信息推送框架,對用戶不同調(diào)用申請自主配置合理的推送模式,完成信息的最優(yōu)控制。
1 基于移動互聯(lián)的信息化智能處理平臺設(shè)計(jì)
1.1 平臺物理架構(gòu)
設(shè)計(jì)基于移動互聯(lián)的信息化智能處理平臺包括服務(wù)器端和移動產(chǎn)品終端,系統(tǒng)的物理架構(gòu)如圖1所示。
圖1描述的信息化智能處理平臺中的用戶端通過智能手機(jī)和平板電腦,采用信號塔將信號傳遞到移動智能服務(wù)器端,移動智能服務(wù)器對信息進(jìn)行處理、分析、推送,并通過路由器同信息數(shù)據(jù)庫相連[3],完成信息的采集和存儲。
1.2 主要功能模塊設(shè)計(jì)
信息推送模塊主要負(fù)責(zé)完成信息的最新動態(tài)的推送,為用戶提供有價值的信息。本文基于MINA以及AndroidPN技術(shù),設(shè)計(jì)信息推送模塊。為了增強(qiáng)服務(wù)器推送的應(yīng)用性能,通過調(diào)度申請以及切換狀態(tài)方案,完成對服務(wù)器資源的有效分配[4?5],提高資源利用程度,減少能耗。信息推送模塊基于資訊服務(wù)模塊用戶偏好數(shù)據(jù),向客戶端推送有價值的信息。信息推送模塊的流程如圖2所示,詳細(xì)過程如下:endprint
(1) 對用戶興趣進(jìn)行研究。利用資訊服務(wù)模塊中用戶個性和行為關(guān)聯(lián)的數(shù)據(jù),建立用戶興趣庫,若有新信息被推送,則從庫內(nèi)采集同該條信息相關(guān)聯(lián)的用戶列表。
(2) 管理員對信息的接收者實(shí)施關(guān)聯(lián)配置[6],將信息發(fā)送給相應(yīng)的個人或群組。
(3) 依據(jù)信息推送服務(wù),用XMPP協(xié)議對信息組裝。
(4) 基于信息的重要度、接收用戶種類,獲取信息推送優(yōu)先級[7],得到相應(yīng)推送方案,增強(qiáng)服務(wù)器資源利用率。
(5) 通過MINA框架以及客戶端對信息傳遞的長連接進(jìn)行建立,基于該連接向客戶端應(yīng)用程序傳遞信息。
1.3 智慧信息熱點(diǎn)發(fā)現(xiàn)模塊
智慧信息熱點(diǎn)發(fā)現(xiàn)模塊將資訊模塊采集到新聞文本實(shí)施操作,采用改進(jìn)距離算法從新聞報(bào)道流內(nèi)采集到新事件和相關(guān)的報(bào)道,對固定時間內(nèi)受關(guān)注度最高和指定話題進(jìn)行檢測。智慧信息熱點(diǎn)發(fā)現(xiàn)模塊的結(jié)構(gòu)如圖3所示,從圖中可以看出其操作過程為:
(1) 通過ICTCLAS分詞系統(tǒng)對數(shù)據(jù)庫內(nèi)的新聞實(shí)施中文分詞預(yù)操作。
(2) 采用設(shè)置的閾值,在分詞操作后的文本內(nèi)采集可描述文本內(nèi)容的特征項(xiàng),使得文本維度減小。
(3) 依據(jù)空間向量模型與物元模型,把文本特征項(xiàng)轉(zhuǎn)換為文本知識描述模型進(jìn)行分析。
(4) 通過匯總新聞標(biāo)題詞頻的優(yōu)化K?Means算法,對新聞特征向量實(shí)施話題聚類。
2 實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文設(shè)計(jì)的基于移動互聯(lián)的信息化智能處理方法的性能,進(jìn)行如下實(shí)驗(yàn)數(shù)據(jù)分析。實(shí)驗(yàn)對比分析本文方法、K?Means方法以及Single?Pass方法的時間耗費(fèi)情況。實(shí)驗(yàn)過程是:從某大學(xué)的“校園動態(tài)”欄目(http://news.kxl.xlws.cn/reox/cofl.setgzws=22)內(nèi)采集2014年6月5日—2015年6月5日的新聞報(bào)道數(shù)據(jù),構(gòu)成樣本庫;再從樣本中采集不同篇數(shù)的文章當(dāng)成實(shí)驗(yàn)檢測對象。實(shí)驗(yàn)分別采用三種方法對檢測對象實(shí)施聚類分析,得到的時間消耗情況如圖4所示。
分析圖4可得,本文方法以及K?Means方法在100篇新聞樣本的時間大大低于Single?Pass方法,聚類時間較低,具有較高的運(yùn)行速率。實(shí)驗(yàn)對不同方法進(jìn)行信息聚類的精度實(shí)施對比,實(shí)驗(yàn)的檢測指標(biāo)如下:
如果用于測試的新聞樣本數(shù)量為n,針對某話題i,全部n個樣本中有a篇話題i存在關(guān)聯(lián)性的新聞報(bào)道,本文方法采用智慧信息熱點(diǎn)發(fā)現(xiàn)模塊檢測到屬于話題i的新聞是m篇,通過人工判斷,檢測到m篇中準(zhǔn)確屬于話題i的新聞存在b篇,則該算法漏掉正確新聞概率為:
式中:[CMin]是方法遺漏本屬于話題i新聞報(bào)道導(dǎo)致后果;[CFa]代表把和話題i無關(guān)新聞報(bào)道納入i中導(dǎo)致后果,在進(jìn)行實(shí)驗(yàn)過程中,需最大程度地將準(zhǔn)確新聞分配至話題i中,系統(tǒng)會將部分和話題i無關(guān)新聞分配其中,所以本節(jié)假設(shè)[CFa]干擾較低,[CMin]的干擾較高,并設(shè)置[CMin=1.0],[CFa=0.1];[PTraget]和[PNan-traget]是兩個根據(jù)以往經(jīng)驗(yàn)獲取系數(shù),實(shí)驗(yàn)分別設(shè)置它們的值是0.02和0.98;[(GDet)Nam]值越低說明方法精度越高。
實(shí)驗(yàn)基于上述設(shè)置內(nèi)容檢測本文方法、K?Means方法以及Single?Pass方法的[(GDet)Nam]值,如圖5所示。
分析圖5可得,隨著實(shí)驗(yàn)操作新聞樣品的篇數(shù)不斷增加,不同方法[(GDet)Nam]值也不斷提升,說明各方法聚類精度不斷降低。在新聞樣本是100篇的情況下,K?Means方法與 Single?Pass方法聚類精度相差不大;在新聞樣本是800篇情況下,Single?Pass方法聚類精度高于K?Means方法。主要是由于K?Means方法容易受到原始聚類中心干擾,如果檢測新聞樣本數(shù)較高,無法隨機(jī)采集合理的K個中心,本文方法采用的智慧信息熱點(diǎn)發(fā)現(xiàn)模塊能夠解決該問題,其[(GDet)Nam]值不會受到新聞樣本數(shù)量的干擾,有較高聚類精度,實(shí)現(xiàn)信息處理。
3 結(jié) 論
本文設(shè)計(jì)了基于移動互聯(lián)的信息化智能處理平臺,通過實(shí)驗(yàn)驗(yàn)證可得,所設(shè)計(jì)的處理平臺具有較高的運(yùn)行效率和聚類精度,信息化處理性能強(qiáng)。
參考文獻(xiàn)
[1] 李靜.移動互聯(lián)網(wǎng)下的智能會議系統(tǒng)的應(yīng)用研究[J].數(shù)碼世界,2016,11(4):41?42.
[2] 寧永強(qiáng),段敏燕,余重玲.互聯(lián)網(wǎng)街景安全保密信息處理平臺設(shè)計(jì)與實(shí)現(xiàn)[J].遙感信息,2016,31(3):76?81.
[3] 祝忠方,張新淼.基于Android的高校智能課堂系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].軟件導(dǎo)刊,2016,15(2):73?74.
[4] 王祝琳,陳典書,李玲.基于Hadoop云平臺個性化信息定制系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2016,34(2):271?277.
[5] 朱偉麗.移動互聯(lián)網(wǎng)時代信息素養(yǎng)教育的微策略[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2015,24(1):71?74.
[6] 徐毅.感染病毒后網(wǎng)絡(luò)自我保護(hù)控制中的最優(yōu)通信節(jié)點(diǎn)選擇[J].現(xiàn)代電子技術(shù),2016,39(18):65?68.
[7] 王志堅(jiān).基于大數(shù)據(jù)平臺的電力營銷信息化建設(shè)分析[J].內(nèi)蒙古電力技術(shù),2016,34(4):17?22.endprint