摘 要現(xiàn)如今對文本情感分類的方法多種多樣,將語義理解與統(tǒng)計學(xué)方法相結(jié)合的機器學(xué)習(xí)算法是目前比較可取的方法之一。這種算法的步驟是,首先對文本中的情感詞匯進行匯總,作為特征應(yīng)用,通過統(tǒng)計學(xué)方法衡量出這些特征的初始權(quán)重,然后通過對文本語義結(jié)構(gòu)進行分析修改特征權(quán)重,最后應(yīng)用以Bayesian作為基本分類算法的Boosting算法對文本最終進行分類。實驗結(jié)果表明,基于語義理解的Bayesian分類算法的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)的高于基于統(tǒng)計學(xué)的Bayesian分類算法,這種算法的分類準(zhǔn)確率最高可以達到百分之九十。
【關(guān)鍵詞】語義理解 情感分類 Boosting算法
以情感為基礎(chǔ)開展的文本分類活動也就是文本情感分類,主要是在分類的過程當(dāng)中,分析文本當(dāng)中體現(xiàn)的情感傾向,并以此為基礎(chǔ)加以分類。它在眾多方面都有廣泛應(yīng)用,例如智能問答、商品推薦、股票預(yù)測以及報刊編輯等領(lǐng)域,都體現(xiàn)出潛在的應(yīng)用價值。在分析文本當(dāng)中語義傾向性的前提下,借助于判斷基準(zhǔn)詞同詞匯之間相似度的這一方法,來有效判斷詞匯體現(xiàn)出的感情傾向性。除此之外,通過分析詞匯當(dāng)中的語義傾,還能夠體現(xiàn)出新聞文本的態(tài)度。部分研究人員改進SO-PMI算法,并且嘗試應(yīng)用到文本的情感分類當(dāng)中,取得比較理想的成果,給了他人很多的新思路。以語義當(dāng)作基礎(chǔ)進行分類的方法,在很大程度上減少了樣本訓(xùn)練量,同時減輕對特定專業(yè)知識的依賴程度。當(dāng)前情況下,大量的研究人員在該領(lǐng)域嘗試進行研究,已經(jīng)有了很大的突破,但仍然存在一個問題,那就是還不能具體有效分析詞匯在傾向性方面的強度。在統(tǒng)計機器學(xué)習(xí)領(lǐng)域,有研究人員嘗試應(yīng)用機器學(xué)習(xí)技術(shù)來解決文本的情感分類難題,其中應(yīng)用比較廣泛的包括樸素貝葉斯算法以及最大熵技術(shù)等,來分類電影評論。為了把基于統(tǒng)計學(xué)技術(shù)的優(yōu)勢發(fā)揮到極致,但同時還不能過分的依賴于統(tǒng)計學(xué)方法,本篇文章利用自然的語言處理算法,介紹語義分析技術(shù)以及統(tǒng)計學(xué)技術(shù)綜合應(yīng)用的優(yōu)點,借助于分析語義并且確定特征權(quán)重,外加利用Bayesian算法進行情感分類。為了進一步減少文本在情感分類過程當(dāng)中的誤差,改進分類的效果,在此嘗試應(yīng)用Boosting算法到文本的情感分類當(dāng)中,實現(xiàn)基于語義的Boosting情感分類,進一步改進情感傾向性處理水平。
1 語義傾向性分析
語義傾向指的是某個詞匯同詞匯體現(xiàn)的概念詞之間主要內(nèi)涵的偏離程度,可以說是度量語言的重要標(biāo)尺。通常情況下應(yīng)用兩個不同的維度來分析特定詞匯的傾向性,也就是偏離方向的判斷以及偏離強度的判斷,這些度量方法在現(xiàn)實生活當(dāng)中已經(jīng)得到廣泛應(yīng)用。在文本情感分類環(huán)節(jié),偏離方向是判斷詞匯含義于貶義或者是褒義,具體而言就是確保文本可以更通俗易懂進行表達,因此也叫做情感方向。所謂偏離強度是指褒義程度或者是或貶義程度的大小,也叫做情感強度。分析語義的傾向性也就是分析不同詞語體現(xiàn)的情感傾向,來具體分析文檔整體上的情感傾向,在這其中需要測定的便就是情感強度以及情感方向。
2 Boosting算法
Boosting算法是由最早由Schapire提出,并且在發(fā)展過程當(dāng)中不斷有研究人員對其進行改進,是近些年應(yīng)用最為廣泛的學(xué)習(xí)算法之一,同時也是應(yīng)用最廣泛的,其所應(yīng)用的理念類似于合并不同的學(xué)習(xí)模型并完成輸出。因為這一算法簡單易用,除了調(diào)解迭代次數(shù)之外不需要調(diào)解其它的參數(shù),也不需要了解特定領(lǐng)域。只要數(shù)據(jù)足夠充分,就可以滿足預(yù)測的精度。如今,Boosting算法正漸漸的得到了人們重視,在圖像識別以及模式處理當(dāng)中得到應(yīng)用,并生成了一系列的分類器,不過每個分類器還依舊有著之前一個的影子,因此,為了減少錯誤率的累加,就給予上一次分類器錯誤分類的樣例更高的權(quán)重。
3 Bayesian—Boosting情感分類
通過采用的是Bayesian分類方法對情感特征進行選取及權(quán)重計算,首先要做的是對文本的特征空間有著非常清晰的界定,可以應(yīng)用特征來來替代文本。不過文本當(dāng)中的情感傾向主要是由文本當(dāng)中的情感詞來確定的,同其他的詞匯沒有太大的聯(lián)系。所以在情感分類的時候,特征空間需要篩選情感詞匯,而不需要囊括全部詞匯組成特征空間。目前而言對于這種算法的研究成果已經(jīng)在眾多的國家863計劃項目中出現(xiàn),在情感模塊當(dāng)中應(yīng)用效果理想。本文基于語義理解的學(xué)習(xí)方法,是文本進行情感分類的新思路。從理論角度而言,對詞匯進行褒貶的時候,僅僅依靠統(tǒng)計學(xué)措施無法實現(xiàn),必然會對情感分類的標(biāo)準(zhǔn)產(chǎn)生結(jié)構(gòu)性的影響,也就是說單純應(yīng)用語義理解計算來情感分類,也無法將機器學(xué)習(xí)的成果應(yīng)用的活靈活現(xiàn)。
通過語文理解對訓(xùn)練樣本集中300篇文本進行分類,然后選擇出感情傾向明顯的前150篇作為SVM的訓(xùn)練文本,之后進行三組數(shù)據(jù)分析,在特征選擇過程中分別判斷文檔頻率、X2統(tǒng)計法進行統(tǒng)計,如表1所示。
通過應(yīng)用統(tǒng)計學(xué)方法衡量出這些特征的初始權(quán)重,然后通過對文本語義結(jié)構(gòu)進行分析修改特征權(quán)重,最后應(yīng)用以Bayesian作為基本分類算法的Boosting算法對文本最終進行分類。實驗結(jié)果表明,基于語義理解的Bayesian分類算法的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)的高于基于統(tǒng)計學(xué)的Bayesian分類算法,這種算法的分類準(zhǔn)確率最高可以達到百分之九十。
綜上所述,本篇文章通過介紹語義理解以及統(tǒng)計學(xué)技術(shù)相結(jié)合起來進行文本分類的效果,可以實現(xiàn)理想的情感分類,讓我們對這種分類方法有了具體了解的同時還能夠解決文本的情感分類。Boosting集合不同分類算法,通過訓(xùn)練迭代來改進分類效果,最終能夠得到理想的分類器。
參考文獻
[1]翟璐.一種基于Boosting算法的新模型在銀行信用評級中的應(yīng)用[D].北京交通大學(xué),2016,6(20):39-40.
[2]Romano Y,Elad M.Boosting of Image Denoising Algorithms[J].Siam Journal on Imaging Sciences,2015,8(02):1187-1219.
[3]Wu J,Pan S,Zhu X,et al.Boosting for multi-graph classification.[J].IEEE Transactions on Cybernetics,2015,45(03):430.
[4]Schreiner T,Rasch B.Boosting Vocabulary Learning by Verbal Cueing During Sleep.[J].Cerebral Cortex,2015,25(11):4169.
[5]Korytkowski M,Rutkowski L,Scherer R.Fast image classification by boosting fuzzy classifiers[J].Information Sciences,2015,327(C):175-182.
[6]Liu L,Zou P,Zheng L,et al.Tamoxifen reduces fat mass by boosting reactive oxygen species[J].Cell Death & Disease,2015,6(06):e1586.
作者簡介
黃彬(1992-),男,長江大學(xué)計算機科學(xué)學(xué)院在讀研究生。主要研究方向為大數(shù)據(jù)技術(shù)。
作者單位
長江大學(xué)計算機科學(xué)學(xué)院 湖北省荊州市 434023