国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于NMF的Web評論情感分類方法研究

2016-11-02 23:04任靜劉立波
電腦知識與技術 2016年18期
關鍵詞:支持向量機

任靜 劉立波

摘要:Web評論研究技術中,其情感分析就是將評論的情感極性進行褒貶分類的過程。本文將非負矩陣分解(nonnegative matrix decomposition, NMF)和支持向量機(support vector machine,SVM)相結合,構造出一種基于NMF的支持向量機(NMF-SVM)分類算法。該算法利用NMF對初始的“詞—文檔”向量矩陣進行有效降維,提取潛在語義,最后利用支持向量機對重新構造的“詞-文本”向量模型進行情感分類。實驗結果證明,該分類算法的準確率優(yōu)于比傳統(tǒng)的SVM算法,具有一定應用價值。

關鍵詞:Web評論;情感極性分類;非負矩陣分解;支持向量機

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)18-0167-04

Sentiment Classifier Based on NMF for Web Comments

REN Jing,LIU Li-bo

(College of Information Engineering Ningxia University, Yinchuan 750021, China)

Abstract: The research technique of Web review, the sentiment analysis is regarded as a classification process for review's emotional polarity. A support vector machine (NMF-SVM) classification algorithm based on NMF has been put forward, for which combine NMF(nonnegative matrix decomposition) and SVM(support vector machine). The algorithm using NMF for initial word-document vector matrix to reduce the dimension effectively, and to extract the latent semantic, finally using support vector machine to emotion classification that word-document vector model has reconstructed. The experimental results show that the accuracy of the classification algorithm is superior to the traditional SVM algorithm.

Key words: web comments; emotional polarity classification; nonnegative matrix decomposition; support vector machine

隨著Web2.0時代的到來,為人們提供更加直觀的意見溝通、情感交流的平臺,它的出現(xiàn)不但打破傳統(tǒng)行業(yè)運作模式,而且在用戶體驗式思維有很大的沖擊。因此,越來越多的用戶喜歡在互聯(lián)網 (如博客和論壇)上,發(fā)表自己的觀點和分享自己的經驗,直接表達自己的各種情感,如喜怒哀樂支持和反對等。Web上用戶的評論信息在不斷增長,分布在網絡上的海量信息成為了潛在用戶計劃消費前不可缺少的信息參考和指導。例如,在各大門戶網站和論壇上出現(xiàn)某產品的評價和意見信息,直接影響潛在消費顧客的購買行為,也影響經營者、廠商了解用戶真實需求、自身產品、服務方面的不足。面對海量的網絡評論信息,僅靠純手工統(tǒng)計、分析、挖掘,根本不切合實際,因此,利用計算機幫助用戶快速完全地獲取和整理這些相關的評價信息是當務之急。

中文文本情感分析也稱意見挖掘,是對具有情感色彩的主觀性文本信息,進行識別、分析、處理、歸納等一系列過程。其價值體現(xiàn)在從大量文本信息中分析得到總結性的結論。目前對于Web評論的研究方面,Wei等人[1]分析產品評論中特征的提取和情感詞提取的方法。曹斌[2]通過數(shù)據挖掘算法,提取包含情感特征詞的旅游評論句子,判斷這些句子的情感傾向性,為用戶提供有價值的意見。肖芬[3]針對Web站點中的評論文本,通過產品屬性詞和評價詞的提取,挖掘出用戶對產品意見的極性。周城[4]利用文本分類技術和情感詞典技術兩種分析方法對中文Web評論進行情感傾向性分析。孫瑩[5]利用Web文本數(shù)據爬取的酒店評論信息,進行文本的數(shù)據挖掘,構建情感分類模型,最終對口碑進行情感分類,挖掘其中的商業(yè)價值。黃勝[6]從細粒度角度進行原始數(shù)據抽取、目標評價、詞典構建、傾向詞聯(lián)合等四個方面挖掘出Web評論文本的主觀性意見。彭浩等人[7]提出一種基于比較句的Web評論情感傾向性分析方法,實驗驗證,該方法能對對用戶情感傾向性做出有效判斷。徐凱[8]針對產品特征提取方面細致研究,有效識別用戶情感傾向,為用戶消費、廠商、企業(yè)提供有價值的信息。以上研究在Web評論文本的情感分類準確率有很大程度的提高,但是對文本特征空間較大、數(shù)據稀疏、有效特征較少問題上仍存在不足。

因此,本文基于傳統(tǒng)文本情感分類的研究方法,利用非負矩陣分解算法對原始數(shù)據進行數(shù)據降維,提取有效特征,即體現(xiàn)了語義特征,又對大規(guī)模的Web評論分類的效率和精度都有所提高,將情感詞集與待分類文檔的在語義上關聯(lián)起來,通過NMF重新構造的“詞-文檔”語義距離作為支持向量機(SVM)分類器的特征向量。實驗結果表明,本文提出的方法相比于傳統(tǒng)的SVM方法在分類準確度上有所提高。

1 相關理論

1.1 特征向量空間

目前SVM的文本分類,是根據文本內容將它們分類到目標類型的集合中,再利用初始文檔的“詞-文檔”向量空間模型作為分類器的輸入,通過標識好的訓練樣本集進行模型構建,最后輸入測試樣本集數(shù)據,獲取測試數(shù)據的分類結果。運用文本分類的方法對文本進行情感分類過程中,文本分類特征的選擇直接影響分類結果的好壞。

文本情感分析研究中,特征詞與文檔的間關系一般用向量空間模型(Vector Space Model,VSM)來表示,將數(shù)據向量化利于問題的后續(xù)處理。文本情感分類中最常見的特征向量空間模型是“詞-文檔”關系矩陣,關系矩陣中的特征值的好壞某種程度上決定了分類器的性能。特征值一般情況下對應特征詞在對應文檔中出現(xiàn)的次數(shù),常見的特征提取方法有DF(文檔頻率)、信息增益(IG)和互信息(MI)等[9],將“詞-文檔”之間的關系表示為向量空間。TF-IDF(詞頻-逆向文檔頻率)方法是最常見的詞頻統(tǒng)計方法之一,TF-IDF計算公式如下[9]:

利用詞-文檔逆向頻率方法,將每篇文檔表示成基于tf-idf權重向量,構建所有特征詞的向量空間,初始化“詞-文檔”向量空間模型。

1.2 NMF原理

NMF是近年來一種新型的基于語義的矩陣分解算法,它將一個大的非負矩陣分解為左右兩個小非負矩陣,使得分解后的兩個小矩陣相乘可還原得到大矩陣。由于分解前后的矩陣中元素都是非負值,因此原矩陣中的列向量可以解釋為對左矩陣中所有列向量(稱基向量)的加權和,而權重系數(shù)為右矩陣中對應列向量中的元素。一般情況下,構造文檔的“詞-文檔”關系矩陣,具有高維且稀疏的數(shù)據特性,而NMF算法不但可以降低矩陣維度,并且能夠挖掘出潛在的語義相關信息,很好地表達信息間局部相關性,具有更加直觀的語義解釋。另外,基于簡單迭代計算的NMF方法具有收斂速度快、左右非負矩陣存儲空間小、語義解釋性強的特點,適用于處理大規(guī)模數(shù)據、文本。

設為任意一個非負矩陣,NMF算法就是尋找兩個非負矩陣和,使X可以近似分解成兩個矩陣的乘積。即有:

2 基于NMF的情感傾向分類方法

基于NMF的情感傾向性分類方法的系統(tǒng)結構圖如下,總體上可以分為訓練過程和測試分類過程。

1)文本預處理:使用現(xiàn)有的分詞系統(tǒng),對參加訓練的評論文本數(shù)據進行中文分詞、去除停用詞等預處理工作;

2)選取特征詞集:通過對文檔中特征情感的詞篩選確定,特征詞的選取對分類器分類的準確性有一定的影響;

3)向量空間表示:利用“詞-文檔”關系矩陣,將文本數(shù)據進行數(shù)據量化。一般使用TF-IDF(文檔-逆向文檔頻率)方法,將各個文本集都轉換成對應的空間向量,構建出“詞-文檔”向量空間模型;

4)NMF特征變換:將初始“詞-文檔”向量空間模型進行特征轉換,構造出“詞-文檔”的向量空間模型;

5)訓練SVM分類器:根據已標注好的訓練樣本集對SVM進行訓練,得到分類器模型參數(shù),構造最佳的分類器。

2.1 情感特征詞集的選取

本文的情感特征詞集選取過程,依據中文分詞系統(tǒng),將評論文本中的詞性進行標注,具有情感表象的詞語一般都是句子中的名詞、副詞、形容詞等,將這類詞語作為情感特征詞的候選詞集,具體選擇步驟如下:

1)將評論文本集分詞后所有標注的形容詞、副詞和名詞詞語構成候選特征詞集。

2)結合知網情感分析常用詞語集詞典,對候選特征詞集進行篩選過濾,若候選特征詞包含在情感分析詞語集詞典中,則保留,否則,剔除該候選特征詞。

3)對過濾后的候選特征詞集,對DF值(文檔頻率)設置一定的閾值,過濾小于閾值部分的情感詞,篩選出具有很大信息量的特征情感詞集。詞DF值表示包含該詞的文檔總數(shù)。公式如下:

4)按照式(5)的計算方式,統(tǒng)計全部候選特征詞的DF值,篩選DF值大于某一預先設定值的詞,重新組建情感特征詞集。

情感特征詞集的選取過程中,既有效表示文檔的情感傾向特征,又在一定程度上降低數(shù)據稀疏問題。

2.2 基于NMF-SVM情感傾向性分類過程

由圖1中描述的NMF-SVM算法結構,整體分為兩部分:第一部分是利用已知樣本數(shù)據對SVM模型進行訓練;第二部分根據建立的模型進行測試數(shù)據分類,具體算法如下:

算法模型中,輸出參數(shù)為交叉驗證參數(shù)、懲罰因子參數(shù)和核函數(shù)參數(shù)。

算法中k值表示潛在語義維度,步驟1中,利用分詞工具和程序對中文文本進行分詞進行預處理,步驟2中,情感特征詞集利用2.1節(jié)中介紹的方法選取。步驟4中,通過TF-IDF(文檔-逆頻率)演算公式,計算出初始“詞-文檔”向量空間模型,用步驟5中的矩陣X表示。步驟7中,利用NMF方法將特征向量空間向低維語義空間映射,得到重塑的“詞-文檔”向量空間模型,步驟8是SVM分類器模型參數(shù)確定過程。

算法2 NMF-SVM模型分類算法

輸入:分類測試文本集

輸出:值

K為NMF過程中選取的潛在語義維度,Tab(d)為文本類別標識函數(shù)。步驟1中,利用分詞工具和程序對中文文本進行分詞進行預處理。步驟3通過TF-IDF(文檔-逆頻率)演算公式,計算情感特征詞在每個測試文檔中的TF-IDF值。步驟4中,構建情感特征詞與測試分類文本的“詞-文檔”的向量空間模型。步驟6中,利用NMF方法將特征向量空間向低維語義空間映射,得到重塑的“詞-文檔”向量空間模型。步驟7是利用訓練好的SVM模型分類器進行文本分類,得到測試文本集的情感分類結果。

3 實驗及分析

3.1 實驗環(huán)境及評價指標

在實驗中,運用Java語言編程,使用中科院譚松波老師整理的1000篇關于酒店類的論壇評論作為實驗語料,采用中科院的ICTC-LAS中文分詞系統(tǒng),SVM分類器采用臺灣大學林智仁老師的lib-svm Java版本。不同研究領域的情感特征詞集不同,文中的酒店評論情感特征詞集按照3.1節(jié)的方法獲取,其中C(ti)值選取為3。酒店類論壇評論的情感詞集共選取了40個情感特征詞如表1所示。

本實驗采用準確率、召回率、F值最為衡量Web評論文本分類算法的性能指標。

準確率(),也稱查準率,主要反映了情感分類器的準確度。它主要是指經過分類實驗之后,被正確分類的文本數(shù)目與返回結果的文本數(shù)目的比值,計算公式如下:

召回率(),也稱查全率,主要反映情感分類器的分析完全性。它主要是指經過分類實驗后,被正確分類的文本數(shù)目所占應該被判別為該類別的文本數(shù)目的比重,具體如公式所示:

由上述計算公式可以看出,準確率()和召回率()從兩個角度反映出分類效果,為準確評價文本分類的效果,將兩者綜合考慮,即構建F值對實驗結果進行評價,具體公式如下所示:

3.2 實驗結果分析

在對傳統(tǒng)的SVM情感分類方法和NMF-SVM情感分類方法進行對比實驗中,將1000篇酒店評論文檔(正負各為500篇)語料,隨機分成3份,其中2份作為樣本訓練集,另外1份作為測試數(shù)據,重復試驗3次,最終取3組平均值作為結果。

驗證過程采用統(tǒng)一試驗數(shù)據集,設SVM分類器的參數(shù):c=1,g=1/k,其中k為情感特征詞集,k=40。本文基于NMF-SVM算法模型所得到參數(shù):c=0.1,g=0.0768,基于NMF-SVM算法的Web評論文本情感分類的數(shù)據分析結果如表2所示。

本實驗中潛在語義維K值取10。從實驗結果表2分析可知,本文提出的NMF-SVM方法的分類比傳統(tǒng)SVM方法的準確率平均提高2.86%,最高準確率達到82.15%,最高召回率達到88.49%。通過同一數(shù)據集下的文本實驗對比分析,應用NMF算法對文本特征矩陣進行降維,重新構造潛在語義空間模型后,其分類效果比傳統(tǒng)的SVM方法更具優(yōu)勢,更有廣泛應用價值。

4 結束語

本文基于傳統(tǒng)文本情感分類的研究理論,對Web中文評論情感特征矩陣存在的數(shù)據高維和稀疏性問題,提出一種基于NMF的Web評論情感分類算法。算法通過文本情感特征詞集的篩選并與評論文本集間語義的關聯(lián),以“詞-文檔”關系矩陣作為SVM分類器的輸入向量,這一過程中既解決機器學習中存在的數(shù)據稀疏問題,又有效地保留了特征詞的語義信息。實驗結果表明,這種方法在Web評論情感分類的準確率較傳統(tǒng)的SVM方法有一定的提高,但非負矩陣分解(NMF)過程中k值選取,即語義維度的確定對分類效果可能會有一定影響,后續(xù)將會展開研究。

參考文獻:

[1] Wei Wei, Liu Hongyan, He Jun, et al. Extractiong Feature and Opinion Words Effectively from Chinese Product Reviews[C].In:Proceedings of the fifth International Conference on Fuzzy Systems and Knowledge Discovery(FSKD,2008).

[2] 曹斌. 互聯(lián)網上旅游評論的情感分析及其有用性研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2008.

[3] 肖芬. 面向Web文本的產品意見挖掘算法研究[D]. 北京:北京郵電大學,2009.

[4] 周城. 面向中文Web評論的情感分析技術研究[D]. 長沙:國防科學技術大學,2011.

[5] 孫瑩. 基于Web文本挖掘在企業(yè)口碑情感分類模型研究[D]. 武漢:華中師范大學,2013.

[6] 黃勝. Web評論文本的細粒度意見挖掘技術[D]. 北京:北京理工大學,2014.

[7] 彭浩,徐健,肖卓. 基于比較句的網絡用戶評論情感分析[J]. 現(xiàn)在圖書情報技術,2015(12):48-56..

[8] 徐凱. 基于產品特征的用戶評論情感傾向分析研究[D]. 合肥:合肥工業(yè)大學,2015.

[9] 黃章義,劉懷亮. 一種基于語義的中文文本特征降維技術研究[J]. 情報雜志,2011,12(30):123-126.

猜你喜歡
支持向量機
基于支持向量回歸機的電能質量評估
基于智能優(yōu)化算法選擇特征的網絡入侵檢測
基于改進支持向量機的船舶縱搖預報模型
基于支持向量機的金融數(shù)據分析研究
管理類研究生支持向量機預測決策實驗教學研究
无为县| 江川县| 邹城市| 永兴县| 汤阴县| 汉沽区| 聂拉木县| 兴安县| 凉山| 颍上县| 犍为县| 新野县| 聂拉木县| 北京市| 尉氏县| 怀集县| 新晃| 贵南县| 边坝县| 台湾省| 广河县| 华宁县| 禹州市| 五莲县| 建昌县| 洛扎县| 长汀县| 峨边| 三门峡市| 克山县| 乐山市| 沁源县| 新乡县| 宜良县| 丰宁| 固安县| 建德市| 吉安市| 响水县| 沙河市| 吴旗县|