唐 利
(安徽三聯(lián)學(xué)院,安徽合肥230601)
近些年來,隨著計算機的迅猛發(fā)展與信息化技術(shù)的日漸成熟,互聯(lián)網(wǎng)已逐漸在人們的生活、學(xué)習(xí)與工作中普遍開來并占據(jù)不可或缺的地位[1]。據(jù)統(tǒng)計,截止到2017年6月,中國的網(wǎng)絡(luò)普及率高達百分之五十四點三,這意味著中國目前有超過七點五億的網(wǎng)絡(luò)用戶使用互聯(lián)網(wǎng)進行娛樂、工作或?qū)W習(xí)[2]?;ヂ?lián)網(wǎng)普及的同時,也在慢慢改變著人們生活的方方面面,其中變化最為明顯的是娛樂休閑的方式。
經(jīng)過前期的網(wǎng)絡(luò)調(diào)研與大量的文獻查閱發(fā)現(xiàn),網(wǎng)絡(luò)電影評論的情感分析具有不可估量的市場前景。目前,相比于實體影院,選擇在線觀看電影的觀眾越來越多,并且這種方式已經(jīng)成為一種趨勢。網(wǎng)絡(luò)在線影院除了具備方便快捷、足不出戶便可點播觀看用戶想看的電影這方面的優(yōu)勢以外,還為廣大用戶提供了一個在線交流與評論的平臺[3],它沒有實體影院的種種約束,用戶可以隨時隨地發(fā)表自己對所觀看電影的評論,還可以與其他人對某部電影進行交流。而這一部分海量的信息數(shù)據(jù),相對于一些企業(yè)的推廣信息或宣傳廣告來說,更具真實性,更能代表用戶的主觀體驗感受,更容易被接受。相應(yīng)地,本課題主要針對這些數(shù)據(jù)進行挖掘分析,分析結(jié)果不僅可以為其他用戶提供較為可靠的參考,還可以幫助電影網(wǎng)站或制片公司更好地了解網(wǎng)絡(luò)觀眾的需求和某一類電影的前景,以輔助其對電影的制作的投放分配做出更加合理的決策來保證企業(yè)價值的最大化。
文本情感傾向性分類是近幾年來基于文本分類挖掘領(lǐng)域流行起來的研究課題,同時也是情感分析領(lǐng)域中很重要的一部分內(nèi)容。目前的文本情感傾向性分類,主要將一段包含感情色彩的文本作為研究對象,通過處理、分類和分析來判斷該段文本的情感傾向性??偟膩碚f,情感傾向性主要有兩種分類方法:一種將情感分為喜怒哀樂四種傾向[4];另一種是將情感傾向分為正面情感傾向、中性情感、負面情感傾向三種類型[5]、[6]。本文采用第二種分類方法來研究網(wǎng)絡(luò)電影評論文本的正負情感傾向。
目前研究的文本情感傾向性分類過程如下:首先進行訓(xùn)練語料庫與測試語料庫的收集與生成[7]、[8],訓(xùn)練語料庫的作用是生成分類模型,而測試語料庫是用來測試所生成的分類模型的分類效果如何。一般來說,要求測試語料庫和訓(xùn)練語料庫中要包含不同的數(shù)據(jù)集。然后進行的是訓(xùn)練語料庫文本的預(yù)處理、向量化、特征提取與選擇[9]、[10]、[11]。最后,處理后的訓(xùn)練語料庫通過三個不同算法分別進行三個不同分類模型的構(gòu)建與訓(xùn)練,再將測試語料庫的數(shù)據(jù)輸入分類模型,根據(jù)分類結(jié)果來評估分析不同分類模型的性能。
文本預(yù)處理的對象是文本中沒有實際意義的虛詞和不帶感情色彩中性詞語,使得到的結(jié)果便于計算機的處理與進一步分析。文本預(yù)處理工作主要包括中文文本分詞、去停用詞、詞性標注等。本課題研究過程中使用ICTCLAS3(Institute of computer technology,Chinese lexical analysis system)分詞系統(tǒng)[12]。
文本在經(jīng)過預(yù)處理之后形成的是詞語集,這些詞語表示的是中文文本的情感傾向性,詞語與情感傾向性的類別之間有著相對應(yīng)的關(guān)系,如何將這種關(guān)系表示成為計算機可以識別的文本表示模型,便于后面文本的分類處理,是文本向量化所要做的工作。本文采用的是向量空間模型,不僅形式簡單,而且準確率相對于其他方法來說較高。
特征提取是為了從文本中提取出可以和其他類別的文本相區(qū)別的數(shù)據(jù)項,從而選出最有效的特征。目前特征提取的算法有很多,如文檔頻率(Document Frequency,DF)、期望交叉熵(Excepted Cross Entropy,ECE)、信息增益(InformationGain,IG)[13]。本文采用的是信息增益算法,并將其作為特征提取的標準。
本課題關(guān)于網(wǎng)絡(luò)電影評論的情感傾向分類模型的建立過程包括海量網(wǎng)絡(luò)電影評論文本數(shù)據(jù)的收集、數(shù)據(jù)的規(guī)范化預(yù)處理、數(shù)據(jù)向量化及特征降維以及最終的主觀識別和情感極性分類。
新浪微博目前已經(jīng)成為網(wǎng)絡(luò)推廣、品牌宣傳、用戶交流的重要平臺,對于電影行業(yè)來說亦是如此。總的來說,本課題針對網(wǎng)絡(luò)電影評論的數(shù)據(jù)對象首先是新浪微博中微博電影模塊中來源于普通用戶的原創(chuàng)評論,不包括官方微博;其次,評論內(nèi)容應(yīng)該圍繞電影本身,而非個人情感表述。我們收集到的評論不僅工作量大而且不利于分類工作,為了能快速的收集網(wǎng)絡(luò)電影評論,我們將采用專業(yè)的數(shù)據(jù)抓取工具。
1.網(wǎng)絡(luò)電影評論樣本抓取程序
本課題采用的是專用的數(shù)據(jù)抓取工具MetaSeeker實現(xiàn)新浪微博電影網(wǎng)頁中電影評論數(shù)據(jù)的抓取。該工具是Gooseeker公司設(shè)計并推出的一種抓取網(wǎng)頁信息數(shù)據(jù)的插件,根據(jù)用戶的指定的需求,該工具可以實現(xiàn)網(wǎng)頁中目標信息的篩選和提取,最終以XML文件的形式提交給用戶。目前為止,火狐瀏覽器通過插件的方式支持MetaSeeker網(wǎng)頁數(shù)據(jù)抓取工具的使用。抽取的內(nèi)容如設(shè)定為普通用戶的原創(chuàng)非轉(zhuǎn)發(fā)評論內(nèi)容,包括評論用戶的用戶名、認證狀態(tài)和評論內(nèi)容,篩選條件包括電影名稱、時間、類型等,而不關(guān)注用戶評論內(nèi)容的轉(zhuǎn)發(fā)和收藏次數(shù)。
2.網(wǎng)絡(luò)電影評論樣本抓取結(jié)果解析
由于通過抓取工具是以30個XML文件的形式向用戶提交最后的抓取結(jié)果,我們需要將這30個文件進行解析處理,得到適合本課題研究的初步的數(shù)據(jù)形式。通過perl對結(jié)果文件進行自動處理,刪除掉@后的文字和連接以及標簽文字之后,生成一個包含三列內(nèi)容的結(jié)果文件。形式如表1所示:
表1 解析后結(jié)果文件樣式表
經(jīng)過初步整理后得到的電影評論總共 48736條,經(jīng)過進一步的篩選處理后,符合本課題研究內(nèi)容的評論數(shù)據(jù)最終有24923條。最后將評論的內(nèi)容存儲到TXT文本中,同時隨機抽取其中的2400條評論,將其作為情感傾向分類的樣本數(shù)據(jù)。對著2400條評論樣本進行手動分類,類別包括情感傾向為正面、負面、中性的評論以及噪聲評論,最終得到表2的樣本集統(tǒng)計:
表2 網(wǎng)絡(luò)電影評論數(shù)據(jù)樣本統(tǒng)計表
1.分詞和詞性標注
本課題采用的基礎(chǔ)訓(xùn)練語料庫來自于ICTCLAS3分詞系統(tǒng),該詞法分析系統(tǒng)是由中科院開發(fā),但是對于本課題的研究內(nèi)容來說是遠遠不夠的,因此在研究過程中還需添加電影行業(yè)相關(guān)的專業(yè)名詞以及目前流行的網(wǎng)絡(luò)詞語,將最后生成的新的語料庫作為本課題的詞典。
電影行業(yè)專業(yè)詞匯本課題采用的是百度的中文分詞詞庫和相關(guān)的細胞詞庫,還使用了已經(jīng)整理成型的電影名稱詞典、影視明星詞典;流行網(wǎng)絡(luò)詞語方面,使用的是目前發(fā)展相對成熟的搜狗輸入法的詞庫和其細胞詞庫。另外微博中還提供表情的功能,用戶評論中的表情在數(shù)據(jù)庫中會轉(zhuǎn)換成文字形式存儲,如鼓掌、大笑等。因此還需統(tǒng)計微博表情轉(zhuǎn)換后的詞匯,通過相應(yīng)的文本算法,將其連同以上詞庫及詞典導(dǎo)入到本課題的基礎(chǔ)語料庫中,形成適合本課題的非結(jié)構(gòu)化網(wǎng)絡(luò)電影評論語料庫,其中包括24735個流行網(wǎng)絡(luò)詞語、10276個電影評論相關(guān)詞匯、1250個表情詞匯。其中包括 18624個正面情感詞匯和17637個負面情感詞匯,將其作為對上一小節(jié)所整理的網(wǎng)絡(luò)電影評論文本數(shù)據(jù)的樣本集進行分詞和詞性標注的依據(jù)。
2.去除停用詞
本課題所涉及的停用詞主要包括通用停用詞和電影領(lǐng)域的停用詞。前者主要有一般文本中出現(xiàn)頻率比較高、但對于情感傾向貢獻值很小的修飾性詞語,如量詞(“一部”,/q)、代詞(“我”,/r)、介詞(“在”,/p)等。后者主要指的是一些電影的名稱以及專業(yè)詞語,這類詞語僅僅有指示作用,也可以停用。
本課題選擇通過計算信息增益的方法來進行特征選擇,最后所提取的特征結(jié)果中每一個特征對應(yīng)的是一個分詞,并得到最后的特征權(quán)值后,每一個特征向量可以表示一條電影評論內(nèi)容,如表3所示:
表3 一條網(wǎng)絡(luò)電影評論文本的特征向量表示
本課題采用N折交叉驗證的方式進行主觀性內(nèi)容識別檢驗評估。結(jié)合樣本的收集與手工分類過程可以知道,中性評價中對于課題研究的意義不是很大,情感分類過程中只針對正面情感的評論和負面情感的評論。該電影評論的情感傾向性分類是建立在樣本主觀識別的基礎(chǔ)上的,顯而易見,該過程中的識別率與最終的情感分類精確度以及分類效果是成正比的。
本課題的數(shù)據(jù)挖掘平臺采用的是Weka[14]平臺,它的一個很重要的組成部分就是分類器,包括了決策樹、貝葉斯分類等,而訓(xùn)練與檢測工作通過Java來實現(xiàn)。實驗過程中首先要對三種分類器進行訓(xùn)練、學(xué)習(xí),然后才可以利用其對測試集進行分類。其中貝葉斯分類器分類是線性可分的,故而不需要進行參數(shù)的設(shè)置,而其他兩種分類器則需要事先設(shè)置好參數(shù)。
本課題采用模型性能評價常用的評價指標:查全率(Recall)、查準率(Precision)和F1 測度(F1-Measure)。以下通過模擬分類結(jié)果建立矩陣來更清楚地表示查準率、查全率和F1測度的計算方法。
其中,查全率(O)和查準率(O)是代表客觀性評論的查全率和查準率,查全率(S)查準率(S)是代表主觀性評論的查全率和查準率。查全率和查準率反映了分類質(zhì)量的兩個不同方面,兩者必須綜合考慮。三種分類器分類的混淆矩陣在此不在贅述,表4是以上者三種分類器對測試數(shù)據(jù)進行主客觀分類的的結(jié)果性能評估:
表4 主客觀分類測試結(jié)果
從檢驗結(jié)果來看,文本算法結(jié)合三種分類器后進行主客觀分類的精確度都比較高,在百分之九十左右,說明通過文本算法結(jié)合三種分類器對網(wǎng)絡(luò)電影評論進行分類的方法是可行的。從精確度的角度來看,經(jīng)過文本算法初分類后,支持向量機的精確度最高,其次是決策樹,最后是樸素貝葉斯。主觀性評論分類中三個分類器的性能如圖1所示:
本課題中對于網(wǎng)絡(luò)電影評論的主觀判別結(jié)果分析時候,查準率要比F1測度更重要,查全率重要性最低。由上圖可知,盡管樸素貝葉斯的查全率最高,但是它的查準率并不是最高的,最高的分類器是支持向量機,針對網(wǎng)絡(luò)電影評論情感分類,文本算法結(jié)合SVM來作為該網(wǎng)絡(luò)電影評論的主觀識別分類器比較合適。
表5是三種分類器對網(wǎng)絡(luò)電影評論的正負情感傾向性進行極性分類所得到的各個評價指標的結(jié)果:
表5 網(wǎng)絡(luò)電影評論的正負情感傾向性分類結(jié)果
對于本課題的網(wǎng)絡(luò)電影評論文本的正負情感傾向性進行分類的時候,需要同時對具備正面和負面傾向性的評價有很好的識別度,所以此時每個分類的精確度以及相應(yīng)的F1測度的重要性是相同的,然后再查看的是查全率和查準率這兩個指標。F1測度的結(jié)果圖如2所示:
通過上圖三個分類器的F1值進行分析、對比之后,可以很直觀地看出支持向量機算法對于positive和Average這兩項都是具有最高值的,雖然樸素貝葉斯算法在negative時是最高的,但是它的精確度卻只有65.72%,決策樹雖然比較平衡,但是由之前的研究可知,在數(shù)據(jù)量極大的時候,其處理時間會增長很快,而支持向量機則相對穩(wěn)定。
總的來說,非結(jié)構(gòu)化的網(wǎng)絡(luò)電影評論文本的情感傾向性通過將文本算法與三種機器學(xué)習(xí)的分類器結(jié)合后可以進行有效的分類,本文不僅可以并識別出正負面情感,還可以識別出主觀情感。并且如上的實驗數(shù)據(jù)還顯示出,支持向量機的分類器對于本網(wǎng)絡(luò)電影評論的情感傾向性分類中有較好的效果,其中表現(xiàn)在準確率和F1測度值上,相較于其他兩種分類器,該分類器的表現(xiàn)穩(wěn)定均衡,效果突出。
關(guān)于網(wǎng)絡(luò)電影評論的情感傾向性的分類研究,對電影市場投放何種類型,投放比例等方面都有很重要的意義。通過我們的研究可以知道將文本情感分析與機器學(xué)習(xí)算法結(jié)合是可行的,并且能構(gòu)建出既減小工作量又提高準確率的算法模型。
這里,我們的主要工作是對網(wǎng)絡(luò)電影評論的情感傾向性進行分類研究。通過文本算法構(gòu)建適合本研究的新的情感詞典。最后,選用了三種目前運用比較普遍的情感分類模型,通過比較和深入地分析三種分類模型的分類結(jié)果,總結(jié)三種機器學(xué)習(xí)算法的優(yōu)劣,找到更適合網(wǎng)絡(luò)電影評論傾向性分類的模型。當(dāng)然這里的研究并不是完美無缺的,因為種種原因限制,使得本文還有提升的空間。在今后的研究中會針對以上提到的可提升之處進一步完善,使得該課題更加豐富、更加具備應(yīng)用價值。