李 勇,劉戰(zhàn)東
(新疆師范大學(xué)網(wǎng)絡(luò)信息安全與輿情分析重點實驗室,新疆烏魯木齊830054)
隨著互聯(lián)網(wǎng)的廣泛使用,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。通過網(wǎng)絡(luò)來表達觀點、傳播思想,進而產(chǎn)生巨大的輿論壓力,達到任何部門、機構(gòu)都無法忽視的地步。網(wǎng)絡(luò)輿情是指通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點,主要通過論壇、微博、新聞跟貼、轉(zhuǎn)貼等實現(xiàn)并加以強化。網(wǎng)絡(luò)輿情形成迅速,對社會影響巨大,加強互聯(lián)網(wǎng)信息監(jiān)管的同時,組織力量開展信息匯集整理和分析,對于及時應(yīng)對網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意很有意義,已經(jīng)成為國家和政府了解疏導(dǎo)民意的重要手段[1]。
網(wǎng)絡(luò)輿情分析系統(tǒng)是針對一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,將民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度于網(wǎng)絡(luò)上表達出來的意愿集合,并進行計算機分析的系統(tǒng)統(tǒng)稱。網(wǎng)絡(luò)輿情分析系統(tǒng)一般包括熱點、敏感話題識別、輿情主題跟蹤、自動摘要、輿情趨勢分析、突發(fā)事件分析和輿情報警等功能[2]。
目前國內(nèi)已經(jīng)有市場化的網(wǎng)絡(luò)輿情分析系統(tǒng)產(chǎn)品,如方正智思輿情預(yù)警輔助決策支持系統(tǒng)、谷尼互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)等。但現(xiàn)有的輿情分析系統(tǒng)在采集、檢索和分析模塊中基本都是采用基于統(tǒng)計和關(guān)鍵詞的方法,沒有充分考慮詞語間的語義信息,忽略了語義理解,會造成網(wǎng)絡(luò)文本語義信息的損失,導(dǎo)致結(jié)果的不精確[3]。
近幾年,隨著語義網(wǎng)和本體技術(shù)的發(fā)展,本體概念被廣泛應(yīng)用到計算機領(lǐng)域特別是人工智能和知識工程研究中。本體的結(jié)構(gòu)可以定義為一個5元組O={C,R,F(xiàn),I,A},其中 C 是類或概念的集合,R 是關(guān)系的集合,F(xiàn)是函數(shù),表示該關(guān)系的前n-1個元素可以惟一確定第n個元素,I是實例,A表示本體公理。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域知識的共同理解,在不同層次的形式化模式上給出特定知識領(lǐng)域內(nèi)各種對象、對象特性以及對象之間可能存在的關(guān)系。采用統(tǒng)一本體中的概念和術(shù)語描述知識,可以使人機之間以及機器之間的交流被準(zhǔn)確描述和解釋,有利于知識交換和共享。目前,本體已經(jīng)被廣泛應(yīng)用于語義Web、智能信息檢索、自然語言處理、數(shù)字圖書館等領(lǐng)域[4]。
網(wǎng)絡(luò)輿情分析的目的是要從海量、動態(tài)、交互的網(wǎng)絡(luò)信息中及時識別、發(fā)現(xiàn)輿情,它既與自然語言處理技術(shù)密切相關(guān),也與信息組織和信息分析技術(shù)相聯(lián)系。借助領(lǐng)域本體對整個輿情分析過程進行指導(dǎo),通過本體對領(lǐng)域信息進行結(jié)構(gòu)上的預(yù)處理,使數(shù)據(jù)具有語義的內(nèi)涵,實現(xiàn)語義層次的處理,可以提高輿情分析的效果。網(wǎng)絡(luò)輿情分析的核心技術(shù)是網(wǎng)絡(luò)文本語義標(biāo)注和挖掘等技術(shù),目前國內(nèi)外一些學(xué)者對這些技術(shù)的研究已經(jīng)取得了不錯的成果,但把這些研究成果與技術(shù)進行集成應(yīng)用在網(wǎng)絡(luò)輿情分析領(lǐng)域的研究較少。
基于本體的網(wǎng)絡(luò)輿情分析基本流程是:(1)在領(lǐng)域?qū)<业闹笇?dǎo)下構(gòu)建輿情分析本體庫;(2)對獲取的網(wǎng)絡(luò)資源利用本體進行語義標(biāo)注,提取Web文本內(nèi)容語義特征庫;(3)對用戶的查詢詞進行基于本體的語義空間的擴展;(4)在本體的指導(dǎo)下對提取的Web內(nèi)容語義特征庫進行輿情分析,并將分析結(jié)果返回給用戶。
依據(jù)上述流程分析,基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)主要包括Web內(nèi)容獲取子系統(tǒng)、Web內(nèi)容語義標(biāo)注子系統(tǒng)、Web內(nèi)容輿情分析子系統(tǒng)和用戶交互子系統(tǒng)(圖1)。
圖1 基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)結(jié)構(gòu)Fig.1 Architecture of online public opinion analysis system based on ontology
Web內(nèi)容獲取子系統(tǒng)的主要任務(wù)是通過網(wǎng)絡(luò)爬蟲獲取相關(guān)網(wǎng)頁內(nèi)容,對其進行分句、分詞、詞性標(biāo)注、詞匯過濾,將預(yù)處理結(jié)果存儲到數(shù)據(jù)庫中,為基于本體的語義標(biāo)注做準(zhǔn)備。
在Web文本內(nèi)容語義標(biāo)注子系統(tǒng)中利用本體把所獲取的文本內(nèi)容表示成帶語義的信息,使得計算機可以直接處理。語義標(biāo)注的目的是建立文檔與領(lǐng)域本體的映射關(guān)系,通過預(yù)處理的文本都是非結(jié)構(gòu)化文本,系統(tǒng)直接采用本體指導(dǎo)Web內(nèi)容的語義標(biāo)注,通過提取文檔的特征詞,建立特征詞與本體概念的映射。
Web輿情分析子系統(tǒng)是核心,結(jié)合實際應(yīng)用,在本系統(tǒng)中主要涉及敏感話題識別、輿情主題跟蹤、輿情趨勢分析等關(guān)鍵功能。Web輿情分析實現(xiàn)的關(guān)鍵技術(shù)是Web內(nèi)容挖掘,涉及到數(shù)據(jù)挖掘中的分類、聚類、關(guān)聯(lián)預(yù)測等核心技術(shù)。
用戶交互子系統(tǒng)主要實現(xiàn)用戶和整個系統(tǒng)的交互功能。在系統(tǒng)中引入用戶查詢詞擴展技術(shù),構(gòu)造基于本體的查詢詞語義空間,可以最大限度地提高系統(tǒng)的查全率和查準(zhǔn)率。
領(lǐng)域?qū)<以诒倔w構(gòu)建方法學(xué)的指導(dǎo)下,構(gòu)建網(wǎng)絡(luò)輿情領(lǐng)域本體庫。Tom Gruber給出了設(shè)計本體的基本準(zhǔn)則:(1)明確性和客觀性,本體應(yīng)該有效地傳達所定義的術(shù)語內(nèi)涵;(2)一致性,即由本體推斷出來的概念定義應(yīng)該與本體中的概念定義一致;(3)可擴展性,指本體提供的共享詞匯集,應(yīng)該在不改變原義的前提下能夠單調(diào)地進行擴展;(4)最小編碼偏差,本體應(yīng)該處于知識的層次,而與特定的符號級編碼無關(guān);(5)最小本體承諾,一個本體在提供必須的共享知識條件下,要求有最小的本體承諾。
本體建立的方法目前沒有統(tǒng)一的標(biāo)準(zhǔn),一般都是參考軟件工程的方法。參考常用的本體開發(fā)方法后,在本系統(tǒng)中采用的本體建立方法如下:(1)確定輿情分析本體應(yīng)用的目的和范圍;(2)進行本體概念和關(guān)系的初步選取;(3)形式化表示及評價;(4)建立本體。
由于領(lǐng)域知識龐大而復(fù)雜,不可能對其進行全面建模,在實際系統(tǒng)中應(yīng)緊貼特定主題輿情分析的需要,選擇相關(guān)的領(lǐng)域建立領(lǐng)域本體庫[5]。如在分析騰訊與360客戶端“二選一”互聯(lián)網(wǎng)熱點事件時建立的領(lǐng)域本體示意圖(圖2)。
圖2 騰訊與360客戶端“二選一”事件領(lǐng)域本體示意圖Fig.2 Domain ontology of Tencent& 360 event
建立好的本體庫在網(wǎng)絡(luò)輿情分析系統(tǒng)中處于核心位置,為Web內(nèi)容語義標(biāo)注、輿情分析等提供基礎(chǔ)。構(gòu)造本體時是以 OWL來進行描述的,在對Web內(nèi)容進行語義標(biāo)注和基于語義的輿情分析過程中會頻繁地訪問本體中的概念、實例、屬性及各種關(guān)系,所以需要將本體存入數(shù)據(jù)庫,以實現(xiàn)對本體的快速訪問。在實際使用中可以采用圖形化的工具來構(gòu)建領(lǐng)域本體,如斯坦福大學(xué)開發(fā)的Protégé軟件,而且可以方便地與數(shù)據(jù)庫連接,實現(xiàn)領(lǐng)域本體的持久化。
語義標(biāo)注的目的是通過本體為網(wǎng)絡(luò)文本增加計算機可以理解的語義信息,也就是為本體中的概念尋找文本中的實例或者為本體中的實例尋找相匹配實例的過程。在輿情分析系統(tǒng)中可以采用如下方案來實現(xiàn)網(wǎng)絡(luò)文本內(nèi)容的語義標(biāo)注:
(1)網(wǎng)絡(luò)文檔特征詞提取。在傳統(tǒng)的空間向量模型文本表示方法中,特征選擇和權(quán)值計算忽略了文本的語義信息,所以在本系統(tǒng)中通過遍歷輿情分析本體庫進行文檔特征詞選擇,形成特征詞集合。
(2)基于輿情分析本體庫進行特征詞權(quán)值計算,形成文檔與領(lǐng)域本體的映射關(guān)系。文檔dj表示成特征向量:dj={(t1,w1j),…,(ts,wsj)},其中t1…ts表示經(jīng)過本體進行匹配后特征詞,w1j…wsj表示經(jīng)過在本體計算后得到的概念權(quán)值[6]。
采用這種方案不僅可以揭示文檔的隱含語義信息,而且能較準(zhǔn)確地劃分文檔與所屬類別,為輿情分析中的熱點話題發(fā)現(xiàn)提供基礎(chǔ)。
Web文本挖掘的目的是對文本內(nèi)容進行分析,發(fā)現(xiàn)有價值的模式和規(guī)則,并進行預(yù)測。而現(xiàn)有的文本挖掘都是基于語法層面,沒有進行語義層面的挖掘,準(zhǔn)確率不高。在輿情分析系統(tǒng)中,熱點、敏感話題發(fā)現(xiàn)主要是采用文本挖掘的聚類來實現(xiàn),在本系統(tǒng)中提出基于語義的熱點、敏感話題發(fā)現(xiàn),實現(xiàn)流程如下:(1)在上述語義標(biāo)注的結(jié)果上進行基于本體庫的文檔與文檔之間的語義相似度和相關(guān)度計算;(2)按照預(yù)設(shè)的閾值進行聚類處理,形成相應(yīng)的簇;(3)形成文檔集合的劃分后,再次利用上述基于本體的語義特征詞概念權(quán)值計算方法進行文檔集合的特征提取,從而形成輿情分析中的熱點、敏感話題,在本體庫的支持下進行情感傾向性分析。
在該過程中多次涉及到語義概念特征的相似度與相關(guān)度計算,對于概念的語義相似度[7]
其中:α(x)是以x為起點向上可達的結(jié)點集合;α(x)∩α(y)是以x和y為起點,向上可達的結(jié)點集合的交集;ρ∈[0,1]是可調(diào)參數(shù)。式(1)充分考慮了概念間的語義重合度、概念層次深度和相似度的不對稱性。
在領(lǐng)域本體中任意2個概念特征相關(guān)度
其中,ShortPath(x,y)表示從x到y(tǒng)的最短路徑距離,當(dāng)x和y不相通時該值為∞,λ為可調(diào)參數(shù)。
基于本體的查詢詞擴展方法的基本思想是:在用戶初始查詢的基礎(chǔ)上抽取概念來建立用戶查詢空間,以保證加入的擴展詞不再局限于相似度高或者同時出現(xiàn)概率高的詞,基于準(zhǔn)確性的考慮,對擴展詞進行分組查詢擴展并對查詢結(jié)果整合排序以提高查準(zhǔn)率[8]。也就是對查詢詞在領(lǐng)域本體中進行概念級別的語義擴展,按照不同權(quán)重的擴展查詢詞組提高用戶查詢的語義表達能力。
構(gòu)造基于本體的語義空間擴展流程見圖3。
圖3 基于本體的語義空間擴展流程Fig.3 Flowchart for ontology-based semantic space expansion
在進行查詢詞語義空間擴展后,如針對圖2所示的領(lǐng)域本體片段,騰訊與360客戶端“二選一”互聯(lián)網(wǎng)熱點事件屬于“互聯(lián)網(wǎng)科技熱點事件”概念的實例,可以從本體中提取出該實例的各種屬性,如時間、起因等,計算和相關(guān)概念的相似度與相關(guān)度后,還可以找到相關(guān)的人物或事件的演變結(jié)果,如“周鴻祎”、“工信部和公安部已介入360騰訊之爭”等,豐富了查詢語義信息。實際應(yīng)用中最經(jīng)常使用的擴展還是查詢概念的同義概念擴展、上下位概念擴展和概念與實例的擴展[9]。
在構(gòu)建網(wǎng)絡(luò)輿情分析系統(tǒng)中引入本體技術(shù),建立概念共享空間,可以有效地挖掘網(wǎng)絡(luò)內(nèi)容的語義信息,提高輿情分析的準(zhǔn)確率。本文中給出了基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)結(jié)構(gòu),并對系統(tǒng)實現(xiàn)中的本體應(yīng)用技術(shù)進行了一些實驗性的研究。由于在系統(tǒng)的實際使用中需要大型網(wǎng)絡(luò)輿情本體庫的支持,下一步的研究重點是結(jié)合自然語言處理、機器學(xué)習(xí)等技術(shù)提高網(wǎng)絡(luò)輿情分析領(lǐng)域本體的自動或半自動化構(gòu)建。
[1] 百度百科.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)[EB/OL].[2012-12-05].http://baike.baidu.com/view/2416058.htm.
[2] Goonie.Goonie 輿論情報專家[EB/OL].[2012-12-10].http://www.goonie.cn/.
[3] 陳憶金,曹樹金,陳少馳,等.網(wǎng)絡(luò)輿情信息監(jiān)測研究進展[J].圖書情報知識,2011,20(6):41-49.CHEN Yi-jin,CAO Shu-jin,CHEN Shao-chi,et al.Survey on online public opinion information monitoring[J].Document,Information & Knowledge,2011,20(6):41-49.
[4] 鄭慶華,劉均,田峰,等.Web知識挖掘[M].北京:科學(xué)出版社,2010.6.
[5] 王蘭成,徐震.基于本體的主題網(wǎng)絡(luò)輿情知識模型構(gòu)建研究[J].信息工程大學(xué)學(xué)報,2012,13(2):229-233.WANG Lan-cheng,XU Zhen.Research on ontology-based knowledge modeling of thematic networks of public opinion[J].Journal of Information Engineering University,2012,13(2):229-233.
[6] 時念云,楊晨.基于領(lǐng)域本體的語義標(biāo)注方法研究[J].計算機工程與設(shè)計,2007,28(24):5985-5987.SHI Nian-yun,YANG Chen.Towards domain ontologybased semantic annotation research[J].Computer Engineering and Design,2007,28(24):5985-5987.
[7] Andreasen T,Bulskov H,F(xiàn)rom Ontology over Similarity to Query Evaluation[C].Elsevier Science,2003.
[8] 甘建候,姜躍,夏幼明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011.
[9] 劉恒文.基于網(wǎng)絡(luò)語義挖掘的典情監(jiān)測預(yù)警研究[D].武漢:武漢理工大學(xué),2010.
西安石油大學(xué)學(xué)報(自然科學(xué)版)2014年1期