国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python影評(píng)數(shù)據(jù)挖掘與分析
——以《你好,李煥英》為例

2021-10-25 03:43邵小青賈鈺峰章蓬偉
信息記錄材料 2021年10期
關(guān)鍵詞:你好,李煥英李煥英分詞

邵小青,賈鈺峰,章蓬偉,丁 娟

(新疆科技學(xué)院信息科學(xué)與工程學(xué)院 新疆 庫爾勒 841000)

1 引言

近年來,自然語言處理技術(shù)得到了以計(jì)算機(jī)科學(xué)為代表的自然科學(xué)領(lǐng)域到社會(huì)科學(xué)領(lǐng)域的廣泛關(guān)注,并且在新聞傳播、輿論管理、觀點(diǎn)分析等問題中展示了不容忽視的價(jià)值[1]。隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)上的數(shù)據(jù)分析僅僅靠人工篩選挖掘出有價(jià)值的信息是實(shí)現(xiàn)不了的,如何快速高效地從不規(guī)則、海量的文本中挖掘出有意義的信息并分析情感傾向性是自然語言處理(natural language processing,NLP)領(lǐng)域研究的熱點(diǎn)。NLP是人工智能領(lǐng)域的一個(gè)分支,主要是運(yùn)用自然語言處理和理解人類的語言,應(yīng)用包括機(jī)器翻譯、信息提取、文本分類、語音轉(zhuǎn)換等。本文通過Python語言編寫爬蟲程序自動(dòng)獲取數(shù)據(jù),篩選有價(jià)值的信息,對(duì)數(shù)據(jù)進(jìn)行挖掘來解決業(yè)務(wù)問題。對(duì)豆瓣影評(píng)數(shù)據(jù)進(jìn)行清洗與篩選,采用Python的類庫SnowNLP進(jìn)行影評(píng)數(shù)據(jù)的情感分析,將有價(jià)值的數(shù)據(jù)通過可視化技術(shù)展示出來,可以幫助用戶更高效便捷地獲取到有價(jià)值的信息,同時(shí)為媒體、電影市場(chǎng)、社交網(wǎng)站提供口碑及相關(guān)服務(wù)的幫助。

2 數(shù)據(jù)采集

登錄豆瓣電影《你好,李煥英》頁面,Python爬取解析網(wǎng)頁源碼,由于豆瓣電影短評(píng)總數(shù)只能顯示500條評(píng)論,爬取到數(shù)據(jù)500條。首先確定數(shù)據(jù)所在的url,《你好,李煥英》豆瓣影評(píng)的URL是https://movie.douban.com/subject/34841067/comments?start=20&limit=20,34841067為電影ID,start=20影評(píng)開始的頁面,limit=20是每頁評(píng)論數(shù)。使用requests庫發(fā)送網(wǎng)絡(luò)請(qǐng)求,url='https://movie.douban.com/subject/34841067/comments?status=P',headers={"User-Agent":Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/90.0.4430.72 Safari/537.36 Edg/90.0.818.42},查看文本內(nèi)容:response=requests.get(url=url,headers=headers)。使用xpath解析影評(píng)數(shù)據(jù),html_data=response.text,selector=parsel.Selector(html_data),comments_list=selector.xpath("http://span[@class='short']/text()").getall()。每條數(shù)據(jù)內(nèi)容有10個(gè)維度,數(shù)據(jù)保存結(jié)果見圖1。

圖1 影評(píng)數(shù)據(jù)

3 數(shù)據(jù)預(yù)處理

爬取到的電商評(píng)論數(shù)據(jù)集存在很多無意義或重復(fù)的數(shù)據(jù),如果不進(jìn)行數(shù)據(jù)清洗預(yù)處理,把這些數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計(jì)及情感分析等,會(huì)增加很大工作量,甚至影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性[2]。

去除重復(fù)、不完整、語義不清的數(shù)據(jù),獲取有效評(píng)論485條。借助jieba分詞對(duì)清洗后的每條評(píng)論進(jìn)行中文分詞,以哈爾濱工業(yè)大學(xué)停用詞詞典為基礎(chǔ)對(duì)停用詞進(jìn)行過濾,最后生成標(biāo)準(zhǔn)化的文本。

4 影評(píng)結(jié)果可視化

基于Matplotlib庫實(shí)現(xiàn)影評(píng)結(jié)果可視化,以《你好,李煥英》為例,影評(píng)餅狀圖見圖2,影評(píng)評(píng)分餅圖可相對(duì)直觀展示出影評(píng)星級(jí)比例;詞云圖見圖3,影評(píng)關(guān)鍵詞展示圖可展示出觀眾對(duì)《你好,李煥英》的熱點(diǎn)話題。其中,五星占41以上,一星占11%,影評(píng)情感反饋這是一部催淚感人的電影,僅有一小部分人認(rèn)為是爛片。從圖2、圖3可以初步判斷大多數(shù)觀眾對(duì)《你好,李煥英》這部電影持有喜愛和推薦的態(tài)度,值得觀賞。

圖2 影評(píng)評(píng)分餅圖

圖3 影評(píng)關(guān)鍵詞展示圖

5 影評(píng)情感傾向性分析

影評(píng)描述性可視化僅能在一定程度上展現(xiàn)觀眾對(duì)電影的情感傾向和關(guān)注話題,不能挖掘出評(píng)論蘊(yùn)藏的深層次情感。本文通過SnowNLP進(jìn)行影評(píng)的情感分析。現(xiàn)在自然語言處理庫基于英文的居多,而SnowNLP庫是Python中用于專門處理中文文本的類庫,功能豐富,能實(shí)現(xiàn)中文分詞、詞性標(biāo)注、情感分析、提取文本關(guān)鍵詞、提取文本摘要及計(jì)算文本相似度等[3]。它受到TextBlob的啟發(fā)而寫的,沒用NLTK,所有算法都是自己實(shí)現(xiàn)的,有自己訓(xùn)練好的字典,采用unicode編碼。通過閱讀SnowNLP源碼,情感判斷過程是首先讀取分類好的文本內(nèi)容,對(duì)文本進(jìn)行分詞,去除停用詞;計(jì)算每個(gè)詞出現(xiàn)的頻數(shù),計(jì)算文本的先驗(yàn)概率和后驗(yàn)概率,選擇概率較大的類別。本次數(shù)據(jù)分析操作步驟是首先按行讀取評(píng)論文本,循環(huán)遍歷通過sentiments方法,計(jì)算得到情感分?jǐn)?shù),生成情感分?jǐn)?shù)柱形圖以及波動(dòng)曲線圖。核心代碼如下:

line = source.readlines( )

sentimentslist = [ ]

for i in line:

s = SnowNLP(i)

sentimentslist.append(s.sentiments)

plt.hist(sentimentslist, bins = np.arange(0, 1, 0.01), facecolor = 'g')

plt.xlabel('Sentiments Probability')

plt.ylabel('Quantity')

plt.title('Analysis of Sentiments')

plt.show()

將sentiment情感分析縱坐標(biāo)區(qū)間從[0,1.0]變?yōu)閇-0.5,0.5],其中0以上表示積極情感,負(fù)數(shù)表示消極情感。如圖4、圖5所示,通過情感分布圖說明電影持喜愛和推薦的態(tài)度觀眾占絕大多數(shù),積極情感相對(duì)集中,電影值得一看。

圖4 情感分?jǐn)?shù)柱形圖

圖5 情感分?jǐn)?shù)波動(dòng)曲線圖

6 結(jié)語

大數(shù)據(jù)時(shí)代,人人是信息的締造者也是使用者,越來越多的企業(yè)都嘗試從數(shù)據(jù)中挖掘有價(jià)值的信息,來解決業(yè)務(wù)的問題。本文采用Python爬取數(shù)據(jù),基于SnowNLP對(duì)影評(píng)數(shù)據(jù)進(jìn)行情感分析,從而幫助用戶更高效便捷地獲取到有價(jià)值的信息,同時(shí)為媒體、電影市場(chǎng)、社交網(wǎng)站等提供口碑及相關(guān)服務(wù)的幫助,有一定的研究價(jià)值。本文對(duì)影評(píng)數(shù)據(jù)情感傾向性進(jìn)行挖掘分析,由于SnowNLP庫是基于商品評(píng)論訓(xùn)練好的模型,本次使用中沒有重新訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)分析的準(zhǔn)確率有待提高。下一步優(yōu)化算法,訓(xùn)練好數(shù)據(jù),提高數(shù)據(jù)分析的準(zhǔn)確率。

猜你喜歡
你好,李煥英李煥英分詞
你好,我的“李煥英”
《你好,李煥英》 觀后感
《你好,李煥英》:如果這就是TA想要的呢
你永遠(yuǎn)是我心中的女神
分詞在英語教學(xué)中的妙用
走進(jìn)《你好,李煥英》襄陽取景地
《你好,李煥英》的成功能否復(fù)制
《你好,李煥英》 定檔大年初一講述賈玲和母親的故事
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用