鄭輝 崔延碩
摘要:該文基于馬爾科夫模型,從情景感知的方面入手,對文本情景進(jìn)行建模獲取文本的特性。通過對文章的結(jié)構(gòu)、語法、習(xí)慣用詞等方面的分析后建立的相應(yīng)情景感知模型,通過已建好模型可對文本進(jìn)行快速的分類或進(jìn)行文本相似情景的研究,從而為匿名作者識別、抄襲查重等提供重要參考。實(shí)驗結(jié)果表明,基于馬爾科夫模型的文本感知數(shù)據(jù)分類器的具有實(shí)際的參考意義。
關(guān)鍵詞:馬爾科夫模型;文本;分類器;情景感知
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)03-0212-02
Situational Awareness Data Text Classifier Based on Markov Model Research
ZHENG Hui, CUI Yan-shuo
(Chengdu University of Technology Institute of Information Science and Technology, Chengdu 610059, China)
Abstract: this article is based on markov model, from the aspects of scene perception, the text scene modeling for the characteristics of the text. Habit through the article the structure, grammar, words and so on after analyzing the corresponding scene perception model, through has the classification of the built model can be quick to text or text images of similar research, thus for anonymous authors provide a valuable reference for rechecking during the course of recognition, plagiarism, etc. The experimental results show that the sensory data text classifier based on markov model which has practical reference significance.
Key words: markov model; text; classifier; situational awareness
最早的文本分析是從20世紀(jì)70年代興起的,一開始用于論文抄襲檢測及知識產(chǎn)權(quán)保護(hù)。初期的算法主要是通過屬性計數(shù)法[1] 對字符串進(jìn)行相似度的匹配分析,但效率低下且錯誤率極高。之后Parker等人對算法進(jìn)行了改進(jìn),結(jié)合程序結(jié)構(gòu)度量和綜合屬性計數(shù)[2] 兩種方式對文本進(jìn)行分析,準(zhǔn)確率得到了一定的提高。但整體在效率上和準(zhǔn)確率上還需要進(jìn)一步的提高基于上述問題,本文提出一種改進(jìn)的文本識別方法,通過對馬爾可夫模型在文本情景感知中的實(shí)用性進(jìn)行擴(kuò)展研究,利用馬爾可夫模型設(shè)計并實(shí)現(xiàn)基于文本情景的文本分類器,通過對一定文本特征的提取,從而使用馬爾科夫模型生成的文本情景感知分類器,對匿名文本的作者進(jìn)行鑒別,從而能從數(shù)學(xué)方面進(jìn)行判斷是否和原作相似,或者判斷出文本作者。因此可以在文本訓(xùn)練集數(shù)據(jù)有限的條件下使文本分析效果大大加強(qiáng)。
1 馬爾科夫模型
馬爾可夫模型也稱為馬爾可夫過程是一類隨機(jī)過程[3]。定義主要由兩部分組成:一是事物所處的所有狀態(tài)個數(shù)有限,一種環(huán)境下只能有一種狀態(tài)。第二部分對應(yīng)狀態(tài)之間相互轉(zhuǎn)移的概率不變,而且馬爾可夫模型是一種和起始量無關(guān),和狀態(tài)路徑轉(zhuǎn)換無關(guān)的模型。轉(zhuǎn)移率[λij]是指單位時間內(nèi)從狀態(tài)i向狀態(tài)j轉(zhuǎn)移的期望次數(shù),當(dāng)轉(zhuǎn)移率為常數(shù)時,關(guān)系如下:
[P{X(t+Δt)=j|X(t)=i}=λijΔt+ο(Δt)]
上式中P為系統(tǒng)處于某一個狀態(tài)的概率,X(t)為系統(tǒng)在時刻t所處狀態(tài),[Ο(Δt)]為在[Δt]時間內(nèi)發(fā)生兩次以上狀態(tài)轉(zhuǎn)移的概率。當(dāng)[Δt]足夠小時,可得:
[P{X(t+Δt)=j|X(t)=i}≈λijΔtP{X(t+Δt)=i|X(t)=i}≈1-j=1,j≠inλijΔt]
[λij]可以形成矩陣如下:
[P(Δt)=λ11Δtλ12Δt…λ1nΔtλ12Δtλ22Δt…λ2nΔt???λn1Δtλn2Δt…λnnΔt]
由此便可以得出轉(zhuǎn)移密度矩陣如下:
[A=limΔt→0P(Δt)-IΔt=λ11-1λ12…λ1nλ21λ22-1…λ2n???λn1λn2…λnn-1]
上式中的I指單位矩陣,n為總的狀態(tài)數(shù)。
通常情況下,我們所需要的是平穩(wěn)狀態(tài)概率[pi] ,求解如下方程組即可。
[PA=0;pi=1]
上式中,P為各平穩(wěn)狀態(tài)概率[pi]組成的矩陣。由此便可以得到系統(tǒng)在各個狀態(tài)下的概率并求得系統(tǒng)其他的可靠性指標(biāo)。易知指定作者文本所能包含的狀態(tài)數(shù)是有限的,對于相同作者的文本狀態(tài)之間的轉(zhuǎn)移概率基本可認(rèn)為是常數(shù),因此本研究符合馬爾科夫模型的要求。
2 分類器的設(shè)計與實(shí)現(xiàn)
首先需要用一定量已知作者文本對該分類器進(jìn)行訓(xùn)練。訓(xùn)練后,將匿名文本統(tǒng)計結(jié)果與訓(xùn)練結(jié)果進(jìn)行比對??驁D如圖1:
圖1
3 實(shí)驗與分析
本系統(tǒng)采用J.K.羅琳的《哈利·波特》系列小說前六部作為模型的訓(xùn)練文本,以該系列第七部和馬爾克斯《百年孤獨(dú)》分別作為匿名文本進(jìn)行結(jié)果對比。我們?nèi)〕S迷~匯中的for統(tǒng)計目標(biāo),將結(jié)果導(dǎo)入到excel[38] 中,結(jié)果如圖2到3所示。
圖2 JK.羅琳哈利波特1-6馬爾科夫轉(zhuǎn)移概率統(tǒng)計
圖3 JK.羅琳哈利波特7馬爾科夫轉(zhuǎn)移概率統(tǒng)計
圖4 馬爾克斯百年孤獨(dú)馬爾科夫轉(zhuǎn)移概率統(tǒng)計
通過以上三個excel表的比對,我們可以明顯看出前兩張圖表的結(jié)構(gòu)非常類似,而且相應(yīng)單詞的概率組成相差不大,而圖4則和前兩張不管是在單詞的組成還是單詞的比率都有較大的區(qū)別?!豆锊ㄌ?》與前六部的方差為0.0368798678。《百年孤獨(dú)》和《哈利波特》前六部方差為0.115069262。通過標(biāo)準(zhǔn)差的比較可以很清楚地發(fā)現(xiàn)兩者之間有很大的差異性。因此可以判定《哈里波特7》的作者為Jk.羅琳,而百年孤獨(dú)不是。
4 總結(jié)
基于馬爾可夫模型的文本情景感知數(shù)據(jù)分類器在實(shí)現(xiàn)抄襲鑒定、古文獻(xiàn)作者鑒定等方面具有一定的參考價值和實(shí)際研究價值。但仍存在一定的缺點(diǎn)即識別率沒有達(dá)到理想的完全正確的要求,還不能投入到實(shí)際使用。此外雖然使用了大量的文本作為統(tǒng)計使用,但是作為得出結(jié)論的證據(jù)依然略顯單薄。因此整個系統(tǒng)還是需要在文本統(tǒng)計、分類器訓(xùn)練、系統(tǒng)運(yùn)行速度上進(jìn)行進(jìn)一步研究提高以整體性能。
參考文獻(xiàn):
[1] 于海英. 程序代碼相似度度量的研究與實(shí)現(xiàn)[J]. 計算機(jī)工程, 2010, 36(4): 45-46.
[2] 劉云中, 林亞平, 陳治平. 基于隱馬爾可夫模型的文本信息抽取[J]. 系統(tǒng)仿真學(xué)報, 2004, 16(3): 507-510.
[3] 童恩棟, 沈強(qiáng), 雷君, 等. 物聯(lián)網(wǎng)情景感知技術(shù)研究[J]. 計算機(jī)科學(xué), 2011, 38(4): 9-14.