宋嘯天 姚家偉
鎮(zhèn)江市人民檢察院
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)在2017年1月發(fā)布了第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,其中指出截至2016年12月,我國(guó)網(wǎng)民規(guī)模達(dá)7.31億,手機(jī)網(wǎng)民規(guī)模達(dá)6.95億,占比達(dá)95.1%,增長(zhǎng)率連續(xù)3年超過(guò)10%。2017年5月,新浪微博發(fā)布2017年第一季度財(cái)報(bào),截至3月31日,微博月活躍用戶(hù)達(dá)3.4億,位居世界第一。
國(guó)內(nèi)在大數(shù)據(jù)分析領(lǐng)域的研究起步較晚,但是發(fā)展較快。中國(guó)社科院、人民日?qǐng)?bào)社和國(guó)內(nèi)多所大學(xué)于2006年就開(kāi)始了相關(guān)研究,此外國(guó)內(nèi)還有諸如中科點(diǎn)擊(北京)科技有限公司的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、紅麥聚信(北京)軟件技術(shù)有限公司的unotice輿情系統(tǒng)、南京綠色科技研究院的CCLA網(wǎng)絡(luò)輿情分析系統(tǒng)等多個(gè)輿情分析軟件,取得了較大的進(jìn)展。
微博是一種兼具流行和新興的社交方式,由于微博短文本中的語(yǔ)言表達(dá)較口語(yǔ)化,同時(shí)由于“未登錄詞”(沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞,如縮寫(xiě)詞匯、專(zhuān)有名詞、新增詞等)的存在,導(dǎo)致大數(shù)據(jù)分析的難度較大。本文針對(duì)以上問(wèn)題,首先對(duì)需要進(jìn)行預(yù)處理的微博文本內(nèi)容進(jìn)行了闡述,隨后提出了一種基于“未登錄詞”的識(shí)別算法,并設(shè)計(jì)了面向微博短文本的聚類(lèi)整合算法。
短文本通常具有錯(cuò)誤性大、時(shí)效性強(qiáng)、信息量少、詞語(yǔ)更新頻率快等特點(diǎn)。微博短文本除了具備以上共性特點(diǎn)外,還具備有語(yǔ)言符號(hào)化(以符號(hào)代替文字)、互動(dòng)性強(qiáng)、詞語(yǔ)省略等特點(diǎn)。所以,為了進(jìn)行微博短文本大數(shù)據(jù)的有效分析,需要首先對(duì)文本內(nèi)容進(jìn)行處理,處理流程如圖1所示。
圖1 微博短文本預(yù)處理流程示意圖
(1)標(biāo)點(diǎn)符號(hào)
在傳統(tǒng)的中文分詞方法中,會(huì)自動(dòng)刪除標(biāo)點(diǎn)符號(hào)后利用詞庫(kù)分詞。但是微博短文本與傳統(tǒng)文本不同,標(biāo)點(diǎn)符號(hào)往往摻雜著作者的情感要素,需要單獨(dú)進(jìn)行處理。例如:“?”一般表示疑惑或者疑問(wèn),“?!币话惚硎緹o(wú)感情的稱(chēng)述,“!”一般表示語(yǔ)氣加重或者驚訝。
(2)無(wú)用詞
在一篇微博短文本中,會(huì)出現(xiàn)一些沒(méi)有任何明確意義和具體含義的詞語(yǔ),本文將此類(lèi)詞語(yǔ)稱(chēng)為無(wú)用詞。由于無(wú)用詞的存在會(huì)極大的影響文本分析的效率和準(zhǔn)確率,因此應(yīng)當(dāng)在預(yù)處理過(guò)程中對(duì)無(wú)用詞進(jìn)行提取并刪除。無(wú)用詞主要包含亂碼、錯(cuò)誤詞匯等。
(3)表情符號(hào)
微博官方為了豐富交互的多樣性,加入了大量的表情符號(hào),這些表情符號(hào)有時(shí)甚至可以表達(dá)作者一整句話(huà)的內(nèi)涵。在微博的文本數(shù)據(jù)中,表情符號(hào)位于<img>標(biāo)簽的“title”屬性之中,且這些表情符號(hào)也有對(duì)應(yīng)的文字表示,例如:用“[doge]”表示,用“[攤手]”表示。為了更加精確的進(jìn)行微博短文本的處理,也需要將相關(guān)的表情符號(hào)單獨(dú)抽取出來(lái)進(jìn)行隱藏價(jià)值的分析。
(4)特殊符號(hào)
在微博的短文本制作過(guò)程中,可以用到“@”和“##”這兩個(gè)基本功能。其中,“@”表示作者希望位于“@”字符后的用戶(hù)關(guān)注此條微博內(nèi)容,“##”中間的詞語(yǔ)表示一個(gè)話(huà)題。由于“@”和“##”關(guān)聯(lián)的詞語(yǔ)無(wú)需進(jìn)行詞義分離,所以在分詞前應(yīng)將對(duì)應(yīng)內(nèi)容提取出來(lái),并在后期整理時(shí)參與文本分析。
但是,微博的詞語(yǔ)更新頻率較快,目前大多數(shù)分詞系統(tǒng)的詞庫(kù)無(wú)法做到100%的未登錄詞識(shí)別,這就導(dǎo)致分詞結(jié)果正確率會(huì)隨著未登錄詞占比的上升而下降。所以,本文針對(duì)微博短文的未登錄詞提出了一種智能的識(shí)別算法。
目前常見(jiàn)的UW(Unknown Word,未登錄詞)算法主要是基于統(tǒng)計(jì)的CRF(Conditional Random Field,條件隨機(jī)場(chǎng))、SVM(Support Vector Machine,支持向量機(jī))等方法?;谟斜O(jiān)督方法的基本原理如下:
(1)對(duì)比模型和樣本參數(shù)提取新詞,如HMM(Hidden Markov Model,隱馬爾可夫模型)和VA(Viterbi Algorithm,維特比算法);
(2)統(tǒng)計(jì)涉及新詞的詞句出現(xiàn)次數(shù),并根據(jù)閾值判斷新詞的使用程度,如獨(dú)立字概率方法。
而無(wú)監(jiān)督方法是當(dāng)循環(huán)統(tǒng)計(jì)中發(fā)現(xiàn)新詞的重復(fù)次數(shù)大于實(shí)驗(yàn)計(jì)算得出的標(biāo)準(zhǔn)值時(shí),則將新詞確認(rèn)為UW。
兩種方法的挖掘過(guò)程如圖2所示。
圖2 UW挖掘方法圖
在分析微博短文本的特點(diǎn)時(shí),可以直接提取“##”和“【】”中間的文本(話(huà)題文本)。微博正文則采用文本分詞法進(jìn)行劃分處理,UW的確認(rèn)步驟可簡(jiǎn)單的分為以下三步:
(1)確認(rèn)候選詞;
(2)通過(guò)計(jì)算MI(Mutual Information,互信息)方法篩選候選詞;
(3)確認(rèn)UW。
具體流程如圖3所示。
圖3 UW識(shí)別算法流程示意圖
其中,N-Gram是指一種N元的切詞方法,即將字符串分割為長(zhǎng)度為 N ( 2 ≤ N ≤ 5 ) 的子串,并得到分割詞匯,隨后通過(guò)篩選確認(rèn)較為重要的詞匯,最后在篩選詞中確認(rèn)候選詞。差異項(xiàng)的刪除過(guò)程可分為以下十步:
(1)匹配詞庫(kù)和切詞的結(jié)果;
(2)刪除已存在詞匯;
(3)刪除 H _ S T R 中 不存在于 B D _ S T R 中的詞匯;
(4)詞典遍歷;
(5)刪除舊詞;
(6)計(jì)算候選詞出現(xiàn)頻率;
(7)刪除出現(xiàn)頻率低于標(biāo)準(zhǔn)值的詞匯;
(8)利用MI技術(shù)和AS(Adjacent String,相鄰串)過(guò)濾候選詞;
(9)當(dāng)詞匯間包含PS(Public String,公共字串),例如“檢察機(jī)關(guān)公訴”和“察機(jī)關(guān)公訴處”,將以上兩個(gè)詞匯分別記做 A和 B,當(dāng)頻率計(jì)算時(shí)發(fā)現(xiàn) 和 均存在且頻率相同,則將A和B進(jìn)行組合為聯(lián)合詞匯 AB,即“檢察機(jī)關(guān)公訴處”,反之則刪除頻率詞匯;
(10)利用MI技術(shù)計(jì)算AB能否構(gòu)成UW。
當(dāng)算法的過(guò)濾層次越高時(shí),UW的識(shí)別準(zhǔn)確率也越高。當(dāng)詞庫(kù)本身不健全或是判斷范圍沒(méi)有覆蓋短文本全部?jī)?nèi)容時(shí),將導(dǎo)致識(shí)別準(zhǔn)確率有一定幅度的下降,但是本文提出的算法在計(jì)算速度和準(zhǔn)確率上仍有較好的保證。
在微博短文本大數(shù)據(jù)分析的框架體系內(nèi),文本聚類(lèi)是其中的一項(xiàng)基礎(chǔ)工作。微博短文本信息主題分散、長(zhǎng)度不一、沒(méi)有較為顯著的共性規(guī)律。為了在這些大量錯(cuò)綜復(fù)雜的文本信息中挖掘出具備價(jià)值的內(nèi)容,是聚類(lèi)算法需要參與其中的主要因素之一。
傳統(tǒng)的基于文檔主題生成模型(Latent Dirichlet Allocation,LDA)的K-MEANS算法可用于對(duì)文本模型進(jìn)行聚類(lèi)計(jì)算,算法框架如圖4所示。
圖4 LDA-K-MEANS算法框架示意圖
由于該算法的初始中心是通過(guò)隨機(jī)或主觀(guān)經(jīng)驗(yàn)的方法進(jìn)行設(shè)定,所以容易過(guò)早收斂,導(dǎo)致局部最優(yōu);并且該算法在分析詞匯間語(yǔ)義時(shí)會(huì)進(jìn)行降維處理,這就使得文本的完整性受到影響。對(duì)此,本文設(shè)計(jì)了一種新型的面向微博短文本的聚類(lèi)整合算法。主要從以下兩點(diǎn)進(jìn)行調(diào)整:
(1)調(diào)整初始中心
為了改進(jìn)傳統(tǒng)K-MEANS聚類(lèi)算法初始中心選取客觀(guān)性較弱的問(wèn)題,本文采取概率論理念對(duì)其加以改進(jìn)。在調(diào)整后的初始中心選取算法中,本文將數(shù)據(jù)文本的相關(guān)主題內(nèi)容表示為對(duì)應(yīng)的關(guān)系矩陣,不同的主題對(duì)應(yīng)的重要度也各不相同,重要度越高的主題越能反映文本的核心內(nèi)涵。該算法主要可分為以下三步:
1)選取重要程度和關(guān)聯(lián)程度較高的主題;2)根據(jù)主題詞進(jìn)行文本內(nèi)容預(yù)處理;
3)獲取收斂中心并作為聚類(lèi)文本的初始中心。
由于單一的主題詞沒(méi)有整體的評(píng)估價(jià)值,所以需要對(duì)主題詞的分布概率進(jìn)行總結(jié),并得出其在文本集合中的重要性。隨后對(duì)文本集合重要性由高至低排序并選取排名靠前的主題詞,運(yùn)用K-MEANS算法對(duì)文本集合進(jìn)行初始聚類(lèi),再計(jì)算被選取主題詞的相似度,得到對(duì)應(yīng)的中心點(diǎn),最后將這些中心點(diǎn)作為K-MEANS的初始中心點(diǎn)。
(2)調(diào)整相似度算法
傳統(tǒng)的K-MEANS算法中相似度的計(jì)算是基于“文本—主題”的語(yǔ)義關(guān)聯(lián)模型,但維度的降低將導(dǎo)致相似度的計(jì)算結(jié)果精確度較差。通過(guò)融合VSM(Vector Space Model,向量空間模型)的算法(L_VSM),可以在不損壞文本信息完整性的同時(shí)能夠在分析上挖掘出更深層次的關(guān)系,提升相似度算法準(zhǔn)確性。由于采取了線(xiàn)性融合的方式,使得其準(zhǔn)確率高于LDA算法和VSM算法,并且在計(jì)算過(guò)程中也保留了語(yǔ)義的關(guān)聯(lián)關(guān)系,使得面向微博短文本的聚類(lèi)整合算法準(zhǔn)確率較高、運(yùn)算速度較快。面向微博短文本的聚類(lèi)整合算法流程如圖5所示。
圖5 面向微博短文本的聚類(lèi)整合算法流程示意圖
通過(guò)后續(xù)的模擬仿真測(cè)試,本文提出的面向微博短文本的聚類(lèi)整合算法與LDA算法、VSM算法相比,其聚類(lèi)F-Measure值(一種評(píng)價(jià)分類(lèi)模型好壞的統(tǒng)計(jì)量)較高。初始中心杜絕了隨機(jī)選取過(guò)早收斂的問(wèn)題,符合微博短文本的實(shí)際分布情況。面向微博短文本的聚類(lèi)整合算法通過(guò)線(xiàn)性融合,在一定程度上緩解了LDA算法降維和VSM算法語(yǔ)義聯(lián)系弱帶來(lái)的影響,使得相似度計(jì)算的準(zhǔn)確率較高,有助于提升微博短文本的聚類(lèi)分析質(zhì)量及成效。
互聯(lián)網(wǎng)大數(shù)據(jù)的分析系統(tǒng)在國(guó)內(nèi)外已經(jīng)得到了較為廣泛的應(yīng)用,但是如何針對(duì)微博短文本進(jìn)行縱深的大數(shù)據(jù)分析,以及如何將分析得出的內(nèi)容更加有效的在社會(huì)發(fā)展中發(fā)揮出應(yīng)有的作用,仍是我們需要繼續(xù)深入研究的工作。由于微博在社交元素中擁有典型性,其用戶(hù)群體之間的關(guān)系也是潛移默化、盤(pán)根錯(cuò)節(jié)的,本文將以此為切入點(diǎn),在后續(xù)的研究中繼續(xù)開(kāi)展深入分析。