国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙層樹狀支持向量機(jī)的觀點(diǎn)挖掘與傾向分析

2021-08-09 10:27:12孫紅黎銓祺趙娜
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)挖掘

孫紅 黎銓祺 趙娜

摘 要: 本文通過進(jìn)行大量預(yù)處理工作,將經(jīng)過詞袋模型和Word2Vec兩種不同向量化方法處理后的文本數(shù)據(jù)分別輸入到SVM和LSTM模型中,訓(xùn)練出可以識(shí)別文本情感傾向的模型。進(jìn)而對(duì)新產(chǎn)生的評(píng)論進(jìn)行分類。根據(jù)實(shí)際數(shù)據(jù)量的傾斜狀況,基于傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)(SVM),本文提出雙層支持向量機(jī),采用2種不同的方法分別訓(xùn)練模型并預(yù)測(cè)。最后再使用深度學(xué)習(xí)算法長短時(shí)記憶模型(LSTM)再次訓(xùn)練并預(yù)測(cè),并對(duì)這3種方法做出比較和總結(jié)。結(jié)果顯示,雙層SVM比單層SVM的準(zhǔn)確度提高了8個(gè)百分點(diǎn);而LSTM比單層SVM低了2個(gè)百分點(diǎn),比雙層SVM低了接近10個(gè)百分點(diǎn)。

關(guān)鍵詞: 商品評(píng)論; 網(wǎng)絡(luò)爬蟲; SVM; LSTM; 情感分類; 數(shù)據(jù)挖掘

文章編號(hào): 2095-2163(2021)03-0044-04 中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A

【Abstract】In this paper, a large amount of preprocessing work is carried out, and the text data processed by the following two different vectorization methods as ?the word bag model and Word2Vec are input into the SVM and LSTM models, respectively to train a model that can recognize the emotional tendency of the text. Further the newly generated comments are classified. According to the tilt of the actual data volume, based on ?support vector machine (SVM) that is the traditional machine learning algorithm,this paper proposes a two-layer support vector machine,using two different methods to train the model and predict. Thus,the deep learning algorithm long-term memory model (LSTM) is used to train and predict again, and the three methods are compared and summarized. The results show that the accuracy of the two-layer SVM is 8 percentage points higher than that of the single-layer SVM; while the LSTM is two percentage points lower than the single-layer SVM, which is nearly 10 percentage points lower than the double-layer SVM.

【Key words】 product reviews; Web crawler; SVM; LSTM; emotion classification; data mining

0 引 言

根據(jù)2020年9月第47次的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,截至2020年6月,國內(nèi)網(wǎng)民規(guī)模達(dá)9.40億,相較于上半年增長了3 625萬,普及率達(dá)67.0%,較2020年上半年提升2.5個(gè)百分點(diǎn)?;ヂ?lián)網(wǎng)時(shí)代,人們普遍喜歡通過社交網(wǎng)絡(luò)分享自己的生活和表達(dá)自己的觀點(diǎn),比如在朋友圈中表達(dá)日常生活中的快樂或者憂郁等情緒;在某個(gè)新聞App上發(fā)表自己對(duì)某件事情的看法;在購物網(wǎng)站上發(fā)表對(duì)某物品的使用感受。因此,在互聯(lián)網(wǎng)中每天都會(huì)產(chǎn)生大量的用戶評(píng)論,并且儲(chǔ)存在互聯(lián)網(wǎng)數(shù)據(jù)庫中。如果能夠充分地利用并挖掘這些信息,必然可以實(shí)現(xiàn)多種有效目的。但是,如果僅通過人工來對(duì)這些數(shù)據(jù)進(jìn)行瀏覽和分析,則無疑會(huì)耗費(fèi)大量人力資源,并且不能保證結(jié)果的準(zhǔn)確性和可用性。這時(shí)就可以利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力來幫助人們快速并準(zhǔn)確地從這些海量主觀性文本中分析出有用的信息,這就是文本的情感分析技術(shù)。

本文主要研究的是網(wǎng)購商品評(píng)論的情感分析技術(shù),即從用戶評(píng)論中通過文本挖掘技術(shù)提取信息。如果用戶可以快速方便地從海量的主觀文本中找尋到自己所需要的信息來指導(dǎo)自己的消費(fèi),那么對(duì)于用戶的購物體驗(yàn)將會(huì)得到提升。

1 相關(guān)研究綜述

1.1 國內(nèi)外研究現(xiàn)狀

情感分析最早由Nasukawa等人[2]提出。而文本的情感分析也叫文本意見挖掘或文本觀點(diǎn)挖掘。更嚴(yán)格來說,兩者的側(cè)重點(diǎn)并不相同,文本意見挖掘根據(jù)給定的一段話中的文字或符號(hào)來判斷這段話是趨向正面、還是負(fù)面。而文本觀點(diǎn)挖掘更加偏重于理解這段文本真正的內(nèi)在含義。

1.2 情感分析研究現(xiàn)狀

本文最終定為文本意見挖掘,即判斷目標(biāo)文本表達(dá)了哪種情緒,分析后將情緒分為褒義、貶義兩類;此外,一些比較復(fù)雜的分析則可以根據(jù)人的一般情緒來做區(qū)分,但從本質(zhì)上來說都屬于文本分類的任務(wù)。根據(jù)訓(xùn)練方式的不同,文本分類又可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),對(duì)此擬做闡釋分述如下。

(1)無監(jiān)督學(xué)習(xí)。最大的特點(diǎn)在于不需要具有標(biāo)簽的數(shù)據(jù)集。所以,無監(jiān)督學(xué)習(xí)可以減少大量繁瑣的標(biāo)注工作。Turney[3]根據(jù)文本中的形容詞或副詞短語的平均語義傾向,對(duì)來自4個(gè)不同領(lǐng)域的文本進(jìn)行聚類。陶婭芝[4]使用基于Word2Vec的無監(jiān)督方法對(duì)某個(gè)品牌手機(jī)的評(píng)論進(jìn)行分類,避免大量的標(biāo)注工作。

(2)有監(jiān)督學(xué)習(xí)。需要大量已經(jīng)標(biāo)注好的數(shù)據(jù),并且需要建立數(shù)學(xué)模型在這些標(biāo)注好的數(shù)據(jù)中自動(dòng)學(xué)習(xí)出數(shù)據(jù)的內(nèi)在規(guī)律,從而根據(jù)這些內(nèi)在規(guī)律完成情感分析任務(wù)。Pang 等人[5] 將樸素貝葉斯、最大熵分類和支持向量機(jī)用于電影評(píng)論的情感分類。

有監(jiān)督學(xué)習(xí)往往需要用到已有標(biāo)注好的語料進(jìn)行訓(xùn)練,但是標(biāo)注數(shù)據(jù)的獲取卻是一個(gè)較為繁瑣的過程。而社交媒體網(wǎng)站就是一個(gè)天然的標(biāo)注語料庫,社交網(wǎng)絡(luò)上的語料往往帶有強(qiáng)烈的感情傾向,Bermingham等人[6]通過監(jiān)測(cè)分析社交網(wǎng)絡(luò)上公眾對(duì)選舉候選人的評(píng)論來預(yù)測(cè)政治選舉的最終結(jié)果。韓萍等人[7]使用一種基于自注意力機(jī)制的模型E-DiSAN來對(duì)社交網(wǎng)絡(luò)評(píng)論文本的情感進(jìn)行分類。但是,社交網(wǎng)站上通常沒有用戶的打分,只是一些帶有感情色彩的主觀性文本。而在這些文本中一般都夾雜著表達(dá)用戶心情的特殊表情符號(hào)。崔安頎[8]把特殊情感符號(hào)加入情感候選詞庫,作為其中一類情緒來進(jìn)行情感分析。當(dāng)然,如果采用這樣的標(biāo)注方法往往會(huì)伴隨著許多噪聲, Go等人[9]及Pak等人[10]在遠(yuǎn)程監(jiān)督的模型框架下,通過多重?cái)?shù)據(jù)預(yù)處理,達(dá)到了去除噪聲的效果。王義真等人[11]利用n-gram的特性、詞聚類的特征、詞性標(biāo)注的特征及否定的特征等構(gòu)建出基于SVM的高維度混合特征算法模型,將其運(yùn)用到短文本情感分類后,準(zhǔn)確率得到了較大的提升。此外,還有許多應(yīng)用于情感分析的方法,如SVM[12]、依存句法[13]、卷積神經(jīng)網(wǎng)絡(luò)[14]、情感詞典[15]等。

2 數(shù)據(jù)預(yù)處理

從目標(biāo)網(wǎng)站中爬取到的數(shù)據(jù)并不能直接放入模型中,需要對(duì)數(shù)據(jù)進(jìn)行清洗與預(yù)處理。過程包括獲取目標(biāo)網(wǎng)站URL、獲取對(duì)應(yīng)Jason頁面、編寫正則表達(dá)式、編寫網(wǎng)絡(luò)爬蟲、循環(huán)爬取評(píng)論數(shù)據(jù)等。并將爬取得到的數(shù)據(jù)轉(zhuǎn)化為可以輸入模型的數(shù)據(jù),具體步驟可分述如下。

步驟1 替換和去除特殊符號(hào)。如果某個(gè)特殊符號(hào)與文本內(nèi)容無關(guān),則將其剔除;若其與文本內(nèi)容有一定的關(guān)聯(lián),則選擇一個(gè)通用詞進(jìn)行代替,比如遇到“666”、“6”、“耐斯”等詞匯則使用“好”字將其代替。

步驟2 繁轉(zhuǎn)簡(jiǎn)。針對(duì)每個(gè)用戶的輸入法和地區(qū)的不同,某些評(píng)論可能會(huì)出現(xiàn)繁體字。

步驟3 長句截?cái)唷S捎趥鹘y(tǒng)支持向量機(jī)無法對(duì)超長句進(jìn)行分析,這里將長句截?cái)喑啥叹洹?/p>

步驟4 中文分詞。對(duì)上一個(gè)步驟截取的短句進(jìn)行分詞,并創(chuàng)建自定義詞典。進(jìn)行多次分詞并篩選錯(cuò)誤詞匯加入自定義詞表,最終得出一組比較完整的中文詞。

步驟5 將步驟4得到的詞匯進(jìn)行篩選,剔除出現(xiàn)次數(shù)不超過5次的詞匯,保留剩余詞匯作為詞袋。詞袋中根據(jù)每個(gè)詞出現(xiàn)的次數(shù)將詞按高到低進(jìn)行,從1開始給每個(gè)詞做上數(shù)字標(biāo)記。

步驟6 創(chuàng)建評(píng)論向量numpy矩陣,將步驟4得到的每條評(píng)論的詞條與詞袋中的詞進(jìn)行匹配,如果能匹配到,則用詞袋詞匯對(duì)應(yīng)的數(shù)字編號(hào)來替代。最終得到一條條數(shù)字串評(píng)論向量,將所有的數(shù)字串評(píng)論向量進(jìn)行拼接,限定長度,不足長度補(bǔ)0,求得一個(gè)數(shù)字串評(píng)論向量組成的numpy矩陣。

3 建立分析模型與訓(xùn)練

3.1 支持向量機(jī)

支持向量機(jī)(Support Vector Machine,SVM)是 Cortes 等人[16]在 20 世紀(jì)提出的用于解決分類問題的一種算法。SVM的應(yīng)用非常廣泛,并已在多個(gè)領(lǐng)域取得研究成果。石強(qiáng)強(qiáng)等人[17]通過增加情感詞典的種類、提高系統(tǒng)對(duì)網(wǎng)絡(luò)新興詞匯和特殊表情符號(hào)的識(shí)別,使用支持向量機(jī)模型對(duì)某些酒店的網(wǎng)站評(píng)論進(jìn)行情感分類。郝曉燕等人[18]分別使用支持向量機(jī)算法、KNN算法和最大熵模型進(jìn)行了基于特征詞布爾值的中文文本分類實(shí)驗(yàn)。

一個(gè)普通的 SVM 就是一條普通直線,這條直線用來完美劃分線性可分問題的2個(gè)類別,如圖 1所示。

通過引入核技巧將低維數(shù)據(jù)映射到高維空間可以提升模型的效果。類似于這種將某個(gè)特征空間的向量映射到另一個(gè)特征空間的函數(shù)就稱為核函數(shù)[16],由于在 SVM 優(yōu)化中,所有的運(yùn)算表達(dá)都是內(nèi)積,所以,這里可以把內(nèi)積運(yùn)算過程替換成核函數(shù),從而不必做優(yōu)化運(yùn)算。

3.2 雙層樹狀SVM

對(duì)單層普通的支持向量機(jī),結(jié)果顯示分類效果并不明顯。對(duì)數(shù)據(jù)進(jìn)行分析得出,原因是數(shù)據(jù)傾斜非常嚴(yán)重,爬取的數(shù)據(jù)包含的正、負(fù)、中性評(píng)論分布嚴(yán)重不均勻。正向評(píng)論數(shù)量為12 000條,中性評(píng)論數(shù)量為2 000條,負(fù)向評(píng)論數(shù)量為6 000條。

為了能夠有效緩解數(shù)據(jù)傾斜所帶來的問題,本文提出雙層支持向量機(jī)的方法,原理如圖2所示。

圖2中,首先將中性和負(fù)向評(píng)論作為一類,與正向評(píng)論進(jìn)行劃分。再對(duì)中性和負(fù)向評(píng)論進(jìn)行劃分。這樣在理論上就將數(shù)據(jù)傾斜帶來的誤差降低到最小。

先將中性和負(fù)向評(píng)論的標(biāo)簽置為0,與正向評(píng)論的標(biāo)簽1相區(qū)分。處理好的數(shù)據(jù)作為總的數(shù)據(jù)輸入,步驟同單層支持向量機(jī),引入KFold劃分?jǐn)?shù)據(jù),訓(xùn)練模型,驗(yàn)證模型。

4 結(jié)果對(duì)比與分析

設(shè)置好超參數(shù)后,使用之前分批處理過的京東商城和淘寶網(wǎng)的評(píng)論語料文本分別進(jìn)行訓(xùn)練和測(cè)試,得到數(shù)據(jù)見表1。

由表1的結(jié)果可以看出:雙層Tree-SVM表現(xiàn)效果最好,目前熱門的循環(huán)神經(jīng)網(wǎng)絡(luò)的表現(xiàn)要遜色于普通SVM。究其原因,分析后可知:

首先,普通SVM在分類性能上已經(jīng)相對(duì)比較成熟,對(duì)于這些特征明顯,特征數(shù)量眾多的文本,則能做出很好的區(qū)分。

其次,雙層Tree-SVM是專門針對(duì)這個(gè)實(shí)驗(yàn)數(shù)據(jù)集的特征(三分類數(shù)據(jù)分布不均,正向評(píng)論數(shù)量遠(yuǎn)遠(yuǎn)大于負(fù)向和中性評(píng)論的數(shù)量)而產(chǎn)生的。所以,能在普通SVM的基礎(chǔ)上,更好地切合這個(gè)數(shù)據(jù)集,從而表現(xiàn)出更佳的性能。

5 結(jié)束語

本文首先分析了Web 2.0 時(shí)代的到來對(duì)當(dāng)今社會(huì)產(chǎn)生的沖擊,以及網(wǎng)絡(luò)數(shù)據(jù)的發(fā)展態(tài)勢(shì)。然后,提出核心技術(shù):情感分析技術(shù)。簡(jiǎn)單介紹了部分經(jīng)典以及當(dāng)下流行的幾種情感分析的算法模型。進(jìn)而,分析數(shù)據(jù)獲取的方式,提出網(wǎng)絡(luò)爬蟲的概念,介紹幾種不同的網(wǎng)絡(luò)爬蟲框架,并分析爬取過程中可能出現(xiàn)的問題以及解決方法;根據(jù)實(shí)際情況編寫2套分別適用京東和天貓的網(wǎng)絡(luò)爬蟲,循環(huán)爬取網(wǎng)站評(píng)論數(shù)據(jù),進(jìn)行分批式存儲(chǔ)。在此基礎(chǔ)上,分析爬取的數(shù)據(jù),總結(jié)規(guī)律,根據(jù)實(shí)際數(shù)據(jù)情況,提出方法:普通支持向量機(jī)、雙層樹狀支持向量機(jī)(Tree-SVM)和長短時(shí)記憶模型(LSTM)。最后清洗數(shù)據(jù),主要包括中文分詞、去停用詞、文本向量化等,將數(shù)據(jù)輸入進(jìn)算法模型進(jìn)行訓(xùn)練并驗(yàn)證。通過多次訓(xùn)練和驗(yàn)證,雙層樹狀SVM在準(zhǔn)確率上表現(xiàn)為89.78%,與普通SVM相比高出8個(gè)百分點(diǎn);而LSTM的準(zhǔn)確率僅為79.46%,但這并不能表示LSTM在性能上就不如傳統(tǒng)機(jī)器學(xué)習(xí)方法,分析原因可能是數(shù)據(jù)量的不足,造成神經(jīng)網(wǎng)絡(luò)未能有效訓(xùn)練。

關(guān)于分詞方面,本文使用結(jié)巴分詞默認(rèn)的通用詞典,而對(duì)于一些手機(jī)評(píng)論中特有的詞語,比如“吃雞”、“打王者”、“王者榮耀”等則需要自行手動(dòng)添加進(jìn)去,由于研究時(shí)間有限,難免會(huì)有遺漏,而結(jié)巴分詞的新詞識(shí)別功能也只對(duì)2個(gè)字的詞語有效果。需要構(gòu)建出一個(gè)針對(duì)電子產(chǎn)品的用戶字典,更加準(zhǔn)確地分詞。再比如一些網(wǎng)絡(luò)上最近才出現(xiàn)的新興詞匯:“馬甲”、“水友”、“水軍”、“帶躺”、“躺贏”等等,這些詞往往具有很強(qiáng)的情感傾向,在今后的分析中可以做更進(jìn)一步改進(jìn)。

參考文獻(xiàn)

[1]中國互聯(lián)網(wǎng)絡(luò)信息中心. 第46 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R]. 北京:中共中央網(wǎng)絡(luò)安全和信息化委員會(huì)辦公室,2020.

[2] YI J,NASUKAWA T,BUNESCU R,et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques [C]//Third IEEE International Conference on Data Mining. Melbourne, FL, USA: IEEE,2003: 427-434.

[3] TURNEY P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA,USA:Association for Computational Linguistics,2002:417-424 .

[4] 陶婭芝. 基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法[J]. 科技風(fēng), 2019(12):92-93.

[5] PANG B,LEE L,VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques [C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics. ?New York: Association for Computational Linguistics,2002: 79-86.

[6] BERMINGHAM A,SMEATON A. On using Twitter to monitor political sentiment and predict election results[C]// Proceedings of the Workshop on Sentiment Analysis where AI meets Psychology (SAAIP 2011). Chiang Mai, Thailand:Asian Federation of Natural Language Processing,2011:2-10.

[7] 韓萍,孫佳慧,方澄,等. 基于情感融合和多維自注意力機(jī)制的微博文本情感分析 [J]. 計(jì)算機(jī)應(yīng)用,2019,39 (S1): 75-78.

[8] 崔安頎. 微博熱點(diǎn)事件的公眾情感分析研究[D]. 北京:清華大學(xué),2013.

[9] GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[R]. CS224n Project Report, Stanford: ?Digital Library Technologies Project,2009.

[10]PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]// International Conference on Language Resources and Evaluation(Lrec 2010). Valletta, Malta:dblp, 2010:1320-1326.

[11]王義真,鄭嘯,后盾,等. 基于SVM的高維混合特征短文本情感分類[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2018,28 (2):88-93.

[12]鄧君, 孫紹丹, 王阮,等. 基于Word2Vec和SVM的微博輿情情感演化分析[J]. 情報(bào)理論與實(shí)踐, 2020,43(8):112-119.

[13]梁曉敏,徐健. 輿情事件中評(píng)論對(duì)象的情感分析及其關(guān)系網(wǎng)絡(luò)研究 [J]. 情報(bào)科學(xué),2018,36 (2) : 37-42.

[14]陸敬筠, 龔玉. 基于自注意力的擴(kuò)展卷積神經(jīng)網(wǎng)絡(luò)情感分類[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2020,41(6):1645-1651.

[15]安璐,吳林. 融合主題與情感特征的突發(fā)事件微博輿情演化分析 [J]. 圖書情報(bào)工作,2017 (15) : 120-129.

[16]BENNETTK, DENIRIZ A. semi-supervised support vector machines[C]//Advances in Neural Information processing systems. Denver,Colo,USA:The MIT Press, 1999,2: 368-374.

[17]石強(qiáng)強(qiáng),趙應(yīng)丁,楊紅云. 基于SVM的酒店客戶評(píng)論情感分析[J]. 計(jì)算機(jī)與現(xiàn)代化,2017,17(3): 117-121.

[18]郝曉燕,常曉明. 中文文本分類研究[J]. 太原理工大學(xué)學(xué)報(bào),2006, 37(6): 710-713.

[19]HUANG Chenghui, YIN Jian, HOU Fang. A text similarity measurement combining word semantic information with TF-IDF method[J]. Chinese Journal of Computers, 2011, 34(5):856-864.

猜你喜歡
網(wǎng)絡(luò)爬蟲數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
屏边| 民权县| 彭州市| 根河市| 凭祥市| 年辖:市辖区| 蓝山县| 太和县| 长葛市| 定边县| 岳西县| 左贡县| 大余县| 永吉县| 绵阳市| 安平县| 农安县| 宣汉县| 黑龙江省| 青神县| 从江县| 岳阳县| 洛隆县| 桐梓县| 漯河市| 苏尼特右旗| 徐闻县| 仲巴县| 松溪县| 五峰| 武隆县| 镇远县| 文水县| 汤阴县| 清原| 蒙城县| 英德市| 留坝县| 文安县| 万全县| 克山县|