基于微博短文本的大數(shù)據(jù)分析方法探索與研究

2018-05-21 08:35:55宋嘯天姚家偉

江蘇通信 2018年1期

宋嘯天姚家偉

鎮(zhèn)江市人民檢察院

0 引言

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（China Internet Network Information Center，CNNIC）在2017年1月發(fā)布了第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》，其中指出截至2016年12月，我國(guó)網(wǎng)民規(guī)模達(dá)7.31億，手機(jī)網(wǎng)民規(guī)模達(dá)6.95億，占比達(dá)95.1%，增長(zhǎng)率連續(xù)3年超過(guò)10%。2017年5月，新浪微博發(fā)布2017年第一季度財(cái)報(bào)，截至3月31日，微博月活躍用戶(hù)達(dá)3.4億，位居世界第一。

國(guó)內(nèi)在大數(shù)據(jù)分析領(lǐng)域的研究起步較晚，但是發(fā)展較快。中國(guó)社科院、人民日?qǐng)?bào)社和國(guó)內(nèi)多所大學(xué)于2006年就開(kāi)始了相關(guān)研究，此外國(guó)內(nèi)還有諸如中科點(diǎn)擊（北京）科技有限公司的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、紅麥聚信（北京）軟件技術(shù)有限公司的unotice輿情系統(tǒng)、南京綠色科技研究院的CCLA網(wǎng)絡(luò)輿情分析系統(tǒng)等多個(gè)輿情分析軟件，取得了較大的進(jìn)展。

微博是一種兼具流行和新興的社交方式，由于微博短文本中的語(yǔ)言表達(dá)較口語(yǔ)化，同時(shí)由于“未登錄詞”（沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞，如縮寫(xiě)詞匯、專(zhuān)有名詞、新增詞等）的存在，導(dǎo)致大數(shù)據(jù)分析的難度較大。本文針對(duì)以上問(wèn)題，首先對(duì)需要進(jìn)行預(yù)處理的微博文本內(nèi)容進(jìn)行了闡述，隨后提出了一種基于“未登錄詞”的識(shí)別算法，并設(shè)計(jì)了面向微博短文本的聚類(lèi)整合算法。

1 微博短文本預(yù)處理

短文本通常具有錯(cuò)誤性大、時(shí)效性強(qiáng)、信息量少、詞語(yǔ)更新頻率快等特點(diǎn)。微博短文本除了具備以上共性特點(diǎn)外，還具備有語(yǔ)言符號(hào)化（以符號(hào)代替文字）、互動(dòng)性強(qiáng)、詞語(yǔ)省略等特點(diǎn)。所以，為了進(jìn)行微博短文本大數(shù)據(jù)的有效分析，需要首先對(duì)文本內(nèi)容進(jìn)行處理，處理流程如圖1所示。

圖1 微博短文本預(yù)處理流程示意圖

（1）標(biāo)點(diǎn)符號(hào)

在傳統(tǒng)的中文分詞方法中，會(huì)自動(dòng)刪除標(biāo)點(diǎn)符號(hào)后利用詞庫(kù)分詞。但是微博短文本與傳統(tǒng)文本不同，標(biāo)點(diǎn)符號(hào)往往摻雜著作者的情感要素，需要單獨(dú)進(jìn)行處理。例如：“？”一般表示疑惑或者疑問(wèn)，“?！币话惚硎緹o(wú)感情的稱(chēng)述，“！”一般表示語(yǔ)氣加重或者驚訝。

（2）無(wú)用詞

在一篇微博短文本中，會(huì)出現(xiàn)一些沒(méi)有任何明確意義和具體含義的詞語(yǔ)，本文將此類(lèi)詞語(yǔ)稱(chēng)為無(wú)用詞。由于無(wú)用詞的存在會(huì)極大的影響文本分析的效率和準(zhǔn)確率，因此應(yīng)當(dāng)在預(yù)處理過(guò)程中對(duì)無(wú)用詞進(jìn)行提取并刪除。無(wú)用詞主要包含亂碼、錯(cuò)誤詞匯等。

（3）表情符號(hào)

微博官方為了豐富交互的多樣性，加入了大量的表情符號(hào)，這些表情符號(hào)有時(shí)甚至可以表達(dá)作者一整句話(huà)的內(nèi)涵。在微博的文本數(shù)據(jù)中，表情符號(hào)位于＜img＞標(biāo)簽的“title”屬性之中，且這些表情符號(hào)也有對(duì)應(yīng)的文字表示，例如：用“[doge]”表示，用“[攤手]”表示。為了更加精確的進(jìn)行微博短文本的處理，也需要將相關(guān)的表情符號(hào)單獨(dú)抽取出來(lái)進(jìn)行隱藏價(jià)值的分析。

（4）特殊符號(hào)

在微博的短文本制作過(guò)程中，可以用到“@”和“##”這兩個(gè)基本功能。其中，“@”表示作者希望位于“@”字符后的用戶(hù)關(guān)注此條微博內(nèi)容，“##”中間的詞語(yǔ)表示一個(gè)話(huà)題。由于“@”和“##”關(guān)聯(lián)的詞語(yǔ)無(wú)需進(jìn)行詞義分離，所以在分詞前應(yīng)將對(duì)應(yīng)內(nèi)容提取出來(lái)，并在后期整理時(shí)參與文本分析。

但是，微博的詞語(yǔ)更新頻率較快，目前大多數(shù)分詞系統(tǒng)的詞庫(kù)無(wú)法做到100%的未登錄詞識(shí)別，這就導(dǎo)致分詞結(jié)果正確率會(huì)隨著未登錄詞占比的上升而下降。所以，本文針對(duì)微博短文的未登錄詞提出了一種智能的識(shí)別算法。

2 微博未登錄詞的識(shí)別算法研究

目前常見(jiàn)的UW（Unknown Word，未登錄詞）算法主要是基于統(tǒng)計(jì)的CRF（Conditional Random Field，條件隨機(jī)場(chǎng)）、SVM（Support Vector Machine，支持向量機(jī)）等方法?；谟斜O(jiān)督方法的基本原理如下：

（1）對(duì)比模型和樣本參數(shù)提取新詞，如HMM（Hidden Markov Model，隱馬爾可夫模型）和VA（Viterbi Algorithm，維特比算法）；

（2）統(tǒng)計(jì)涉及新詞的詞句出現(xiàn)次數(shù)，并根據(jù)閾值判斷新詞的使用程度，如獨(dú)立字概率方法。

而無(wú)監(jiān)督方法是當(dāng)循環(huán)統(tǒng)計(jì)中發(fā)現(xiàn)新詞的重復(fù)次數(shù)大于實(shí)驗(yàn)計(jì)算得出的標(biāo)準(zhǔn)值時(shí)，則將新詞確認(rèn)為UW。

兩種方法的挖掘過(guò)程如圖2所示。

圖2 UW挖掘方法圖

在分析微博短文本的特點(diǎn)時(shí)，可以直接提取“##”和“【】”中間的文本（話(huà)題文本）。微博正文則采用文本分詞法進(jìn)行劃分處理，UW的確認(rèn)步驟可簡(jiǎn)單的分為以下三步：

（1）確認(rèn)候選詞；

（2）通過(guò)計(jì)算MI（Mutual Information，互信息）方法篩選候選詞；

（3）確認(rèn)UW。

具體流程如圖3所示。

圖3 UW識(shí)別算法流程示意圖

其中，N-Gram是指一種N元的切詞方法，即將字符串分割為長(zhǎng)度為 N ( 2 ≤ N ≤ 5 ) 的子串，并得到分割詞匯，隨后通過(guò)篩選確認(rèn)較為重要的詞匯，最后在篩選詞中確認(rèn)候選詞。差異項(xiàng)的刪除過(guò)程可分為以下十步：

（1）匹配詞庫(kù)和切詞的結(jié)果；

（2）刪除已存在詞匯；

（3）刪除 H _ S T R 中不存在于 B D _ S T R 中的詞匯；

（4）詞典遍歷；

（5）刪除舊詞；

（6）計(jì)算候選詞出現(xiàn)頻率；

（7）刪除出現(xiàn)頻率低于標(biāo)準(zhǔn)值的詞匯；

（8）利用MI技術(shù)和AS（Adjacent String，相鄰串）過(guò)濾候選詞；

（9）當(dāng)詞匯間包含PS（Public String，公共字串），例如“檢察機(jī)關(guān)公訴”和“察機(jī)關(guān)公訴處”，將以上兩個(gè)詞匯分別記做 A和 B，當(dāng)頻率計(jì)算時(shí)發(fā)現(xiàn) 和均存在且頻率相同，則將A和B進(jìn)行組合為聯(lián)合詞匯 AB，即“檢察機(jī)關(guān)公訴處”，反之則刪除頻率詞匯；

（10）利用MI技術(shù)計(jì)算AB能否構(gòu)成UW。

當(dāng)算法的過(guò)濾層次越高時(shí)，UW的識(shí)別準(zhǔn)確率也越高。當(dāng)詞庫(kù)本身不健全或是判斷范圍沒(méi)有覆蓋短文本全部?jī)?nèi)容時(shí)，將導(dǎo)致識(shí)別準(zhǔn)確率有一定幅度的下降，但是本文提出的算法在計(jì)算速度和準(zhǔn)確率上仍有較好的保證。

3 面向微博短文本的聚類(lèi)整合算法

在微博短文本大數(shù)據(jù)分析的框架體系內(nèi)，文本聚類(lèi)是其中的一項(xiàng)基礎(chǔ)工作。微博短文本信息主題分散、長(zhǎng)度不一、沒(méi)有較為顯著的共性規(guī)律。為了在這些大量錯(cuò)綜復(fù)雜的文本信息中挖掘出具備價(jià)值的內(nèi)容，是聚類(lèi)算法需要參與其中的主要因素之一。

傳統(tǒng)的基于文檔主題生成模型（Latent Dirichlet Allocation，LDA）的K-MEANS算法可用于對(duì)文本模型進(jìn)行聚類(lèi)計(jì)算，算法框架如圖4所示。

圖4 LDA-K-MEANS算法框架示意圖

由于該算法的初始中心是通過(guò)隨機(jī)或主觀(guān)經(jīng)驗(yàn)的方法進(jìn)行設(shè)定，所以容易過(guò)早收斂，導(dǎo)致局部最優(yōu)；并且該算法在分析詞匯間語(yǔ)義時(shí)會(huì)進(jìn)行降維處理，這就使得文本的完整性受到影響。對(duì)此，本文設(shè)計(jì)了一種新型的面向微博短文本的聚類(lèi)整合算法。主要從以下兩點(diǎn)進(jìn)行調(diào)整：

（1）調(diào)整初始中心

為了改進(jìn)傳統(tǒng)K-MEANS聚類(lèi)算法初始中心選取客觀(guān)性較弱的問(wèn)題，本文采取概率論理念對(duì)其加以改進(jìn)。在調(diào)整后的初始中心選取算法中，本文將數(shù)據(jù)文本的相關(guān)主題內(nèi)容表示為對(duì)應(yīng)的關(guān)系矩陣，不同的主題對(duì)應(yīng)的重要度也各不相同，重要度越高的主題越能反映文本的核心內(nèi)涵。該算法主要可分為以下三步：

1）選取重要程度和關(guān)聯(lián)程度較高的主題；2）根據(jù)主題詞進(jìn)行文本內(nèi)容預(yù)處理；

3）獲取收斂中心并作為聚類(lèi)文本的初始中心。

由于單一的主題詞沒(méi)有整體的評(píng)估價(jià)值，所以需要對(duì)主題詞的分布概率進(jìn)行總結(jié)，并得出其在文本集合中的重要性。隨后對(duì)文本集合重要性由高至低排序并選取排名靠前的主題詞，運(yùn)用K-MEANS算法對(duì)文本集合進(jìn)行初始聚類(lèi)，再計(jì)算被選取主題詞的相似度，得到對(duì)應(yīng)的中心點(diǎn)，最后將這些中心點(diǎn)作為K-MEANS的初始中心點(diǎn)。

（2）調(diào)整相似度算法

傳統(tǒng)的K-MEANS算法中相似度的計(jì)算是基于“文本—主題”的語(yǔ)義關(guān)聯(lián)模型，但維度的降低將導(dǎo)致相似度的計(jì)算結(jié)果精確度較差。通過(guò)融合VSM（Vector Space Model，向量空間模型）的算法（L_VSM），可以在不損壞文本信息完整性的同時(shí)能夠在分析上挖掘出更深層次的關(guān)系，提升相似度算法準(zhǔn)確性。由于采取了線(xiàn)性融合的方式，使得其準(zhǔn)確率高于LDA算法和VSM算法，并且在計(jì)算過(guò)程中也保留了語(yǔ)義的關(guān)聯(lián)關(guān)系，使得面向微博短文本的聚類(lèi)整合算法準(zhǔn)確率較高、運(yùn)算速度較快。面向微博短文本的聚類(lèi)整合算法流程如圖5所示。

圖5 面向微博短文本的聚類(lèi)整合算法流程示意圖

通過(guò)后續(xù)的模擬仿真測(cè)試，本文提出的面向微博短文本的聚類(lèi)整合算法與LDA算法、VSM算法相比，其聚類(lèi)F-Measure值（一種評(píng)價(jià)分類(lèi)模型好壞的統(tǒng)計(jì)量）較高。初始中心杜絕了隨機(jī)選取過(guò)早收斂的問(wèn)題，符合微博短文本的實(shí)際分布情況。面向微博短文本的聚類(lèi)整合算法通過(guò)線(xiàn)性融合，在一定程度上緩解了LDA算法降維和VSM算法語(yǔ)義聯(lián)系弱帶來(lái)的影響，使得相似度計(jì)算的準(zhǔn)確率較高，有助于提升微博短文本的聚類(lèi)分析質(zhì)量及成效。

4 結(jié)語(yǔ)