摘要:首先從糧食安全的分析入手,引入了糧食輿情信息挖掘的必要性和緊迫性,介紹了Web挖掘的應用情況,重點闡述了當前糧食輿情分析面臨的難點,提出了解決問題的方法,構建了糧食輿情分析系統(tǒng)的框架,說明了設計思路和各部分的主要功能。
關鍵詞:Web挖掘;文本分類;糧食輿情;輿情分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)10-2426-03
糧食是人類生存之本,糧食安全問題已經(jīng)成為世界范圍內關注的最重要的問題之一。糧食信息數(shù)據(jù)量大、市場供求信息不明確、技術保障不到位等因素對我國糧食安全敲響了警鐘。2009年初中國爆發(fā)了幾十年來最嚴重的一場旱災,國內市場充斥著糧食供應可能趨緊并有可能大量進口糧油產(chǎn)品,以及全球糧油價格將由中國的大量進口而出現(xiàn)暴漲等網(wǎng)絡言論并造成了一定的影響。
因此如何引入新的技術手段對糧食情報信息實現(xiàn)有效監(jiān)管,如何在海量的糧食網(wǎng)絡資源信息中,快速有效地挖掘蘊含有巨大潛在價值的糧情知識和信息,同時過濾掉大量無用的或不相關的糧情內容,準確地定位所需要的信息并自動分類,以保證糧食安全,已成為一項重要而迫切的研究課題。該文就基于Web挖掘在糧食情報分析中的應用進行了一些討論,并提出了一個基于Web挖掘的糧食輿情分析系統(tǒng)的框架。
1 糧食輿情系統(tǒng)模型設計
1.1 Web挖掘簡介和糧食輿情分析難點
Web挖掘是從大量Web文檔集D中發(fā)現(xiàn)隱含的模式W。如果將D看作輸入,P看作輸出,則Web文本挖掘的過程可看作從輸入到輸出的映射,即F:C→P。網(wǎng)絡輿情是公眾利用互聯(lián)網(wǎng)表達或傳播的對熱點事件和問題的看法和所持觀點的較有社會影響力的態(tài)度。利用Web挖掘技術進行主題追蹤的輿情分析成為近年研究的熱點。任海果研究了主題事件的追蹤技術,實現(xiàn)了對熱點事件的發(fā)現(xiàn)、演化和趨勢分析[1]。Federico Neri等研究了1000個關于意大利公共廣播服務意見的Facebook網(wǎng)貼,得到了觀眾關注度和興趣度,并在開源情報信息和Web挖掘中得到應用[2]。Wang等利用垂直搜索技術收集互聯(lián)網(wǎng)上關于食品質量和安全的網(wǎng)絡信息,搭建了食品安全的網(wǎng)絡輿情分析系統(tǒng),滿足了對食品安全網(wǎng)絡輿情的有效監(jiān)管[3]。但由于糧食信息的特殊性和復雜性[4],使得糧食輿情信息的采集不夠全面,現(xiàn)有分析系統(tǒng)的分析不夠深入,總體來說糧食網(wǎng)絡輿情挖掘扔存在著一下難點:
1) 糧食輿情影響因素復雜。糧食輿情受多種因數(shù)的影響,和糧食直接相關的有糧食產(chǎn)量、銷售價格、產(chǎn)地、供求關系等因數(shù),此外還有氣象條件、病蟲害的等間接影響著糧食安全,目前對糧食安全因素的挖掘不夠全面。
2) 糧食輿情信息的存儲位置和方式復雜,沒有統(tǒng)一的系統(tǒng)來采集各種形式的糧食信息。如糧食產(chǎn)業(yè)信息資源,如災害史、產(chǎn)量信息、氣象條件等,并發(fā)存儲在各家統(tǒng)計機構、管理機構、經(jīng)營機構的網(wǎng)絡環(huán)境中,并且沒有統(tǒng)一的數(shù)據(jù)表示形式,沒有開發(fā)出聯(lián)合采集各家機構和組織中糧食數(shù)據(jù)的采集或者存儲方法和策略,不利于糧食輿情信息的整合和關聯(lián)分析。
3) 糧食輿情信息牽涉面廣,沒有融合各方面信息處理方面的優(yōu)勢。在糧食信息處理方面,沒有實現(xiàn)統(tǒng)計學、模式識別、人工智能以及人工神經(jīng)網(wǎng)絡等多種分析方法融合的決策策略。
4) 沒有提出預測和預防模型?,F(xiàn)在的網(wǎng)絡輿情分析往往注重于熱點的發(fā)現(xiàn),沒有為熱點事件建立等級級別區(qū)分管理和提供預防,同時對于發(fā)現(xiàn)的災難事件,沒有定量的分析災害危害的嚴重程度和預警級別。
利于輿情分析技術實現(xiàn)對糧食輿情信息的監(jiān)控和管理成為一項緊迫的課題。為了解決以上問題,該文設計了一個糧食輿情分析架構模型。
1.2.2 輿情信息預處理模塊
輿情信息預處理模塊的主要功能是:對采集到的相關網(wǎng)頁進行去噪處理,如對廣告、注釋等噪聲數(shù)據(jù)進行清理,然后用統(tǒng)一的結構化的格式進行文本表示,然后利用分詞技術、特征提取技術、權重計算技術等進行特征選擇,構建糧食數(shù)據(jù)倉庫,利用分類器實現(xiàn)文本的分類。文本分類技術是整個預處理模塊的核心,其步驟描述如下:
本模型主要包括以下三個方面功能:
第一、通過對糧食輿情主題檢測進行熱點、敏感信息的發(fā)現(xiàn),并針對特定的糧食安全主體,如糧食價格、供求關系、氣象條件等各個主題跟蹤技術處理,同時設計融合各方面因素的分析策略,及時發(fā)現(xiàn)安全隱患,并提供預警信息。
第二、對特定糧食安全事件的公眾所持觀點和關注度的分析,掌握事件發(fā)生、發(fā)展和加強的可視化時間序列,開發(fā)基于區(qū)域性輿情的分別匯總,提供實時的空間和時間的網(wǎng)絡輿情趨勢信息保障,有利于決策者實施適當?shù)拇胧?/p>
第三、利用災害預測、分析和預防的決策系統(tǒng),對多發(fā)性的、危害嚴重的災害構建主動分析、及早預測和及時預警的機制,提供相關、相近主題的預防措施經(jīng)驗。同時針對災害引起的其他方面的問題進行關聯(lián)分析,比如旱災有可能引起局部供求關系失衡,災害的嚴重性導致價格波動的范圍等建立定量的數(shù)據(jù)分析方法發(fā)現(xiàn)彼此存在的聯(lián)系。
2 結論
利用Web挖掘技術實現(xiàn)對糧食信息的監(jiān)測,有利于充分海量的糧食網(wǎng)絡信息資源,能夠及時發(fā)現(xiàn)糧食熱點事件,為糧食安全提供預警服務。該文著重分析了當前糧食方面輿情分析系統(tǒng)存在的不足,提出了解決方案,構造了一個較完善的糧食輿情分析架構。通過各種算法的編碼和改進,實現(xiàn)本文所構建的系統(tǒng)是進一步研究的方向。
參考文獻:
[1] 任海果. 基于主題事件的輿情分析系統(tǒng)的設計與實現(xiàn)[D].北京:北京郵電大學,2012.
[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.
[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.
[4] 龍方. 新世紀中國糧食安全問題研究[J]. 湖南農業(yè)大學學報:社會科學版,2007 (3):7-14.
[5] 孫立偉,何國輝,吳禮發(fā). 網(wǎng)絡爬蟲技術的研究[J]. 電腦知識與技術,2010(15):4112-4115.
[6] 曾錫山,胡俊榮. WEB文本海量數(shù)據(jù)挖掘應用中的多點數(shù)據(jù)采集及處理問題研究[J]. 情報雜志,2010(8):131-135.
[7] 張豐.面向網(wǎng)格的海量時空數(shù)據(jù)訪問、集成與互操作研究[D].杭州:浙江大學,2007.