王朝霞 姜軍 馮炎
摘要:面對海量Web輿情信息數(shù)據(jù)資源,在前期探索其演化規(guī)律及影響因素研究基礎(chǔ)上,該文對Web輿情信息數(shù)據(jù)進行了特征分析,結(jié)構(gòu)化定義,設(shè)計了Web數(shù)據(jù)分析系統(tǒng)框架,并深入了相關(guān)技術(shù)研究,為把握Web數(shù)據(jù)發(fā)展態(tài)勢,科學管理互聯(lián)網(wǎng)數(shù)據(jù)信息提供了可行性依據(jù)。
關(guān)鍵詞:Web數(shù)據(jù);數(shù)據(jù)挖掘;文本分類;文本聚類
中圖分類號:G206 文獻標識碼:A 文章編號:1009-3044(2018)03-0022-03
1 概述
互聯(lián)網(wǎng)及相關(guān)技術(shù)地快速發(fā)展,產(chǎn)生了海量的網(wǎng)絡(luò)數(shù)據(jù)信息,面對千變?nèi)f化的網(wǎng)絡(luò)數(shù)據(jù)資源,單純采用傳統(tǒng)的手工檢索、收集、分析、處理方法,已經(jīng)無法滿足網(wǎng)絡(luò)數(shù)據(jù)管理需求。本文在已有的網(wǎng)絡(luò)信息演化階段、影響因素等研究基礎(chǔ)上[1],構(gòu)建了網(wǎng)絡(luò)數(shù)據(jù)模型,設(shè)計了網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)框架,并研究了技術(shù)路線,為快速抽取網(wǎng)絡(luò)數(shù)據(jù)信息,有效把握其發(fā)展態(tài)勢,方便實現(xiàn)科學管理提供了可行性依據(jù)。
2 相關(guān)研究述評
饒元等Web數(shù)據(jù)網(wǎng)絡(luò)分析主要從社區(qū)網(wǎng)絡(luò)分析、整體網(wǎng)絡(luò)分析和個體網(wǎng)絡(luò)中心開始,主要采用數(shù)據(jù)網(wǎng)絡(luò)分析手段、方法來解決系統(tǒng)分析的主要問題[2]。龐宇提出了網(wǎng)絡(luò)數(shù)據(jù)的特點及主要載體[3]。鄭琳提出了Web用戶評論中同階層人群的“抱團取暖”行為[4]。厚澤民等提出了基于潛在語義索引的改進算法[5]。安計勇等提出了改進的K均值文本聚類算法[6]。
3 Web數(shù)據(jù)模型研究
3.1 Web數(shù)據(jù)特征分析
Web數(shù)據(jù)來源于互聯(lián)網(wǎng),具備發(fā)布隨意、形式多樣、表達自由等特點,使得特征分析結(jié)果冗余度高,離散效果明顯,準確度差,難以科學把握其數(shù)據(jù)挖掘過程和結(jié)果分析。因此,對Web數(shù)據(jù)文本開展有效地預處理,去偽存真,消除冗余和關(guān)聯(lián)數(shù)據(jù),是確保Web數(shù)據(jù)挖掘質(zhì)量的關(guān)鍵所在,也是進一步開展數(shù)據(jù)分析、聚類研究的前提。
Web數(shù)據(jù)來源于互聯(lián)網(wǎng),在網(wǎng)民作用力下隨著互聯(lián)網(wǎng)信息的演化、影響因素的制約和內(nèi)驅(qū)力作用呈現(xiàn)出沿時間軸發(fā)展的趨勢,Web數(shù)據(jù)具備以下幾個關(guān)鍵特征:
1) Web數(shù)據(jù)所在文本數(shù)量規(guī)模大。據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心統(tǒng)計報告,廣大網(wǎng)民借助在線博客、微信、論壇、微博等社交工具開展社交討論。這是Web數(shù)據(jù)的廣泛來源。
2) Web數(shù)據(jù)涉及面廣,內(nèi)容復雜。Web數(shù)據(jù)幾乎涵蓋了政治、經(jīng)濟、文化、軍事、科技、藝術(shù)、醫(yī)療、生態(tài)、環(huán)保、養(yǎng)老、就業(yè)等所有重要領(lǐng)域,還包含了區(qū)域特點、風土人情及民眾生活的方方面面及社會百態(tài)。
3) 廣告信息多,真假難辨。非官方的Web頁面多數(shù)存在大量的廣告信息,以及不實信息帖子等,與Web數(shù)據(jù)主題無關(guān),需要對數(shù)據(jù)進行噪聲預處理,其質(zhì)量高低直接影響文本挖掘和數(shù)據(jù)分析結(jié)果。
4) Web數(shù)據(jù)分布的不均衡。Web用戶網(wǎng)上行為(發(fā)帖偏好、發(fā)帖時間、發(fā)帖內(nèi)容、發(fā)帖主題、態(tài)度觀點等)的不確定性、選擇載體的不確定性等因素決定了Web數(shù)據(jù)的分布不均。如:天涯論壇大多討論社會百態(tài),鐵血論壇主要針對軍事領(lǐng)域,小木蟲論壇科研技術(shù)數(shù)據(jù)居多。不同網(wǎng)民圍繞各自的興趣傾向訪問不同Web頁面,衍生出一系列的評論、轉(zhuǎn)帖、頂帖等行為數(shù)據(jù)。
5) Web用戶存在情緒傾向、行為偏好等個性特征。Web用戶大多數(shù)屬于普通用戶,十分關(guān)注生活所用、工作所需以及與自身利益相關(guān)的就業(yè)、環(huán)保、退休養(yǎng)老等熱點話題,個人情緒及行為偏好等相關(guān)數(shù)據(jù)在所難免地存在與Web數(shù)據(jù)中。
3.2 Web數(shù)據(jù)結(jié)構(gòu)化模型定義
在掌握Web數(shù)據(jù)結(jié)構(gòu)特征前提下,為了充分挖掘Web數(shù)據(jù),并能為數(shù)據(jù)分析、數(shù)據(jù)處理所用,本文對Web數(shù)據(jù)結(jié)構(gòu)化定義如下:
1) Web用戶主體結(jié)構(gòu)化模型定義
Web用戶作為互聯(lián)網(wǎng)的主體對象,多數(shù)情況需要信息注冊后才能獲得瀏覽內(nèi)容、回復評論及下載資料等行為允許。對Web用戶而言,不僅在互聯(lián)網(wǎng)產(chǎn)生靜態(tài)數(shù)據(jù)結(jié)構(gòu)信息,同時產(chǎn)生了動態(tài)操作行為、操作內(nèi)容以及和其他Web用戶之間建立的關(guān)聯(lián)關(guān)系等社會網(wǎng)絡(luò)信息。因此,本文對Web用戶主體結(jié)構(gòu)化模型定義包含三方面內(nèi)容:一是Web用戶靜態(tài)屬性信息,如:用戶名、性別、年齡、住址、URL、活躍等級、社會階層、社會影響力、社會知名度、學歷、收入、教育經(jīng)歷、工作經(jīng)歷、個人簡介、注冊日期、個性標簽等;二是Web用戶動態(tài)屬性信息,發(fā)表文章數(shù)、回復帖子數(shù)、Web頁面瀏覽愛好、在線時長、關(guān)注數(shù)、支持數(shù)、粉絲數(shù)、反對數(shù)、評論數(shù)、推薦數(shù)、情緒傾向、行為偏好、最后登錄時間等;三是行為關(guān)聯(lián)文本信息,如:標題、領(lǐng)域類別、文本內(nèi)容等;四是用戶關(guān)聯(lián)關(guān)系信息,如:關(guān)注我的Web用戶、被我關(guān)注的Web用戶,關(guān)系屬性等。其模型描述如圖1所示:
2) Web數(shù)據(jù)文本結(jié)構(gòu)化模型定義
眾所周知,Web頁面的數(shù)據(jù)文本內(nèi)容,本身就包含自身存在的靜態(tài)文本對象內(nèi)容和動態(tài)加載的新聞內(nèi)容,除此之外,還包含了不同的Web用戶參與回復、評論行為等動態(tài)描述內(nèi)容。由于Web頁面信息多、內(nèi)容復雜等特征,為達到噪聲預處理成效,提高內(nèi)容挖掘質(zhì)量,方便文本分類或聚類操作,本文對Web頁面數(shù)據(jù)屬性進行了抽象化描述。綜上,Web數(shù)據(jù)文本結(jié)構(gòu)化模型定義包含四反面的內(nèi)容:一是Web頁面文本的靜態(tài)屬性,如:URL、標題、內(nèi)容、標簽、發(fā)表時間、作者、領(lǐng)域;二是Web頁面文本的動態(tài)屬性,如:回復內(nèi)容、回復話題、回復時間、回復情感等;三是Web頁面文本的抽象屬性,如:特征詞、特征向量、聚類主題、表達情感、現(xiàn)實意義等;四是用戶關(guān)聯(lián)關(guān)系信息屬性,如:收藏者、推薦者、轉(zhuǎn)載者或回復者等用戶關(guān)系及用戶情感等。其模型描述如下:
4 Web數(shù)據(jù)分析系統(tǒng)設(shè)計
4.1 Web數(shù)據(jù)分析系統(tǒng)框架
Web數(shù)據(jù)分析系統(tǒng)的基本原理為根據(jù)管理員需求收集特定主題新聞或消息(即與Web頁面相關(guān)文本信息)并進行文本內(nèi)容預處理(凈化網(wǎng)頁噪聲、特定文本分詞、相關(guān)詞頻統(tǒng)計、文本特征選擇、文本特征提取算法等),然后將預處理文本結(jié)果入庫,利用挖掘算法開展數(shù)據(jù)分析,最終反饋出熱點搜索信息及其跟蹤事件等。本系統(tǒng)設(shè)計框架如圖3。
4.2 子模塊功能設(shè)計及技術(shù)分析
4.2.1 輸入輸出層
輸入層主要指論壇社區(qū)、博客、新聞網(wǎng)頁、微博、微信、搜索引擎等載體信息和相關(guān)數(shù)據(jù)源。數(shù)據(jù)源是指根據(jù)系統(tǒng)管理員需求所需要收集的相關(guān)數(shù)據(jù)信息,主要的信息采集范圍包括Web新聞頁面,互聯(lián)網(wǎng)信息及傳媒信息等。隨著互聯(lián)網(wǎng)用戶的突增猛漲,網(wǎng)絡(luò)媒體已經(jīng)滋生了與廣大Web用戶息息相關(guān)的重要信息平臺,如微信、微博、論壇、政府官方門戶網(wǎng)站等,人們可以從中獲取娛樂、生產(chǎn)、科研、消費、生活、社交等重要價值意義信息。
輸出層主要指系統(tǒng)前端展示,主要提供滿足管理員需求的一系列數(shù)據(jù)處理結(jié)果信息,如相關(guān)新聞排行榜、熱點話題統(tǒng)計信息、關(guān)鍵詞統(tǒng)計、情感傾向性和行為傾向性統(tǒng)計、數(shù)據(jù)統(tǒng)計報告自動生成和統(tǒng)計結(jié)果可視化展示等。
4.2.2 業(yè)務(wù)處理及擴展層
1) 數(shù)據(jù)采集及預處理
如果互聯(lián)網(wǎng)是一張大圖,那么網(wǎng)頁就是互聯(lián)網(wǎng)上一個個節(jié)點,不同網(wǎng)頁的鏈接關(guān)系則是鏈接節(jié)點的一條條邊,Web頁面數(shù)據(jù)采集就是以一個網(wǎng)頁為中心出發(fā)點,根據(jù)圖論的遍歷方法自動獲取其他頁面,形象地稱為網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲技術(shù)會通過采集模塊收集和返回頁面文檔中有價值的信息并保存到緩沖區(qū),將緩沖區(qū)數(shù)據(jù)進行預處理后保存到數(shù)據(jù)庫。Web數(shù)據(jù)的數(shù)據(jù)采集主要通過網(wǎng)頁之間的鏈接關(guān)系,獲取網(wǎng)頁資源源碼及其定位,并根據(jù)鏈接朝整個網(wǎng)絡(luò)方向擴散。Web數(shù)據(jù)分析系統(tǒng)根據(jù)用戶提出的用戶檢索需求,設(shè)定關(guān)鍵詞、主題及其關(guān)注關(guān)系目標,使用信息自動采集和人工干預相結(jié)合的方法完成Web數(shù)據(jù)采集任務(wù)。對于已經(jīng)定位的網(wǎng)絡(luò)資源,首先判斷抽取出的內(nèi)容是否已經(jīng)保存到歷史數(shù)據(jù)庫中,如果數(shù)據(jù)庫中已經(jīng)存在,并且數(shù)據(jù)庫中保存的資源沒有變化,則采用內(nèi)容去重方法忽略該資源開展下一個資源收集工作。如果數(shù)據(jù)庫中不存在該資源,則按照文本分類方法存儲到固定數(shù)據(jù)庫模塊中。
Web數(shù)據(jù)預處理任務(wù)是:將采集的網(wǎng)絡(luò)頁面進行數(shù)據(jù)清洗,分詞,分類,并形成新的格式化數(shù)據(jù)存儲到數(shù)據(jù)庫中。Web數(shù)據(jù)預處理是Web數(shù)據(jù)分析系統(tǒng)的技術(shù)準備及數(shù)據(jù)準備階段,主要對新收集的文本正文信息等進行預處理,如網(wǎng)頁格式轉(zhuǎn)換、重要信息過濾。對于新聞評論等內(nèi)容,濾除無關(guān)信息,保留用戶名、性別、年齡、住址、URL、活躍等級、社會階層等Web用戶主體結(jié)構(gòu)化和URL、標題、內(nèi)容、標簽、發(fā)表時間、作者、領(lǐng)域等Web數(shù)據(jù)文本結(jié)構(gòu)化內(nèi)容。
2) 數(shù)據(jù)處理
Web數(shù)據(jù)處理主要包括數(shù)據(jù)入庫、網(wǎng)頁快照、附件存儲等相關(guān)操作。Web數(shù)據(jù)入庫主要是將Web用戶主體結(jié)構(gòu)化信息和Web數(shù)據(jù)文本結(jié)構(gòu)化信息保存到數(shù)據(jù)庫中。數(shù)據(jù)庫操作只要包括算法知識庫、數(shù)據(jù)收集知識庫、向量特征庫及語義分析庫等。
3) 數(shù)據(jù)語義分析
主要針對Web數(shù)據(jù)預處理模塊所得數(shù)據(jù)進行數(shù)據(jù)挖掘,主要采用內(nèi)容分析、模式識別、自動摘要、文本聚類、主題檢索與跟蹤、情感傾向識別、趨勢分析等相關(guān)技術(shù)。該模塊是Web數(shù)據(jù)分析系統(tǒng)的核心模塊,是熱點跟蹤、科學發(fā)現(xiàn)功能的技術(shù)關(guān)鍵所在。
在系統(tǒng)實現(xiàn)過程,網(wǎng)頁信息分析方法建構(gòu)在向量空間模型理論基礎(chǔ)上,采用當前比較成熟的文本聚類、文本分類等數(shù)據(jù)挖掘技術(shù)。在信息處理過程,將多種數(shù)據(jù)挖掘算法有機結(jié)合在一起,進行可定制和可選擇的算法組織形式,對Web數(shù)據(jù)信息進行分析和挖掘,這就保證系統(tǒng)能根據(jù)管理員和實際應(yīng)用需要,進行策略調(diào)整和優(yōu)化,確保系統(tǒng)運行能達到最佳狀態(tài)。
4.2.3 相關(guān)技術(shù)分析
文本聚類:文本聚類是指將一組文本和文章信息開展相似性比較,比較結(jié)果相似的文本和文章歸為相同組的技術(shù)。聚類事先沒有約定類別數(shù)確定的類別,聚類不需要人工標注分類器。
文本分類:分類是事先定義好類別數(shù)固定的類別,采取分類器將把人工標注的預料訓練而得,屬于指導性學習,文本分類技術(shù)是數(shù)據(jù)挖掘的重要技術(shù)。
內(nèi)容分析法:內(nèi)容分析法讓研究者采用間接方式對人類行為開展研究。研究者通過直接或間接方式獲得相關(guān)信息,也可以通過書籍或網(wǎng)絡(luò)媒介得到。內(nèi)容分析法不受時空干擾,可以研究文獻記錄或歷史文檔鉆研,了解當前社會狀況。內(nèi)容分析法節(jié)時節(jié)源,缺點是重視資料次數(shù),忽略了易被忽略和少數(shù)內(nèi)容。
模式識別:就是采用計算機用數(shù)學方法研究模式判讀和自動處理。模式識別對現(xiàn)象和表征事物開展形式化的信息分析及處理技術(shù)(如文字的、邏輯的和數(shù)值的)。對現(xiàn)象或事件開展描述、辨認、解釋、分析等過程,是人工智能和信息科學組成部分。
自動摘要:就是自動利用計算機從原始文本自動提取文摘,文摘就是按照自動摘要將文本簡單連貫的短文。常用方法就是將文本作為句子自動摘要成線性序列。
主題檢測與跟蹤:就是在傳統(tǒng)檢測話題基礎(chǔ)上,從社會話題監(jiān)測和突發(fā)性檢測基礎(chǔ)上與跟蹤方法同時分析,最好展望跟蹤方法及檢測話題的發(fā)展趨勢。
情感傾向識別:主要針對Web用戶評論等主觀性情感及看法急劇增長,已分析判斷威脅和數(shù)據(jù)發(fā)展態(tài)勢為目的數(shù)據(jù)分析系統(tǒng),得到廣大Web用戶數(shù)據(jù)分析崛起,成為職能分析的核心技術(shù)之一。
趨勢分析:就是數(shù)據(jù)達到的效果,與財務(wù)報表的在不同時期的指標數(shù)據(jù)開展比較,從而確定現(xiàn)金流量、經(jīng)營成果、財務(wù)狀況的變化趨勢和規(guī)律的數(shù)據(jù)分析方法。
5 結(jié)束語及展望
互聯(lián)網(wǎng)存在的海量Web數(shù)據(jù),本文進行了結(jié)構(gòu)化定義、特征分析,設(shè)計了基于Web數(shù)據(jù)分析系統(tǒng)框架,同時對技術(shù)有所研究,下一步需要進行詳細地編碼實現(xiàn)。
參考文獻:
[1] 王朝霞,姜軍,高紅梅,等.Web數(shù)據(jù)“蝴蝶效應(yīng)”的預警機制研究——以群體性突發(fā)事件為例[J].新聞界,2015(16):59-64.
[2] 饒元,馮妮,宋明爽,員鵬,等.數(shù)據(jù)分析—基于內(nèi)容與結(jié)構(gòu)的網(wǎng)絡(luò)輿情分析報告(2015)[M].電子工業(yè)出版社, 2015:10-15.
[3] 龐宇.Web數(shù)據(jù)事件預防與應(yīng)對[M].中國法制出版社,15-26.
[4] 鄭琳.首席數(shù)據(jù)官:2013-2014Web數(shù)據(jù)響應(yīng)百例[M].電子工業(yè)出版社,2014:280-290.
[5] 侯澤民.一種改進的基于潛在語義索引的文本聚類算法[J].計算機與現(xiàn)代化,2014(7):24-27.
[6] 安計勇,高貴閣,史志強, 等.一種改進的K均值文本聚類算法[J].傳感器與微系統(tǒng),2015,5(34):131-133.