国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電商評(píng)論的情感分析研究

2020-08-14 10:00:33周艷聰白家文
關(guān)鍵詞:情感分析預(yù)處理

周艷聰 白家文

【摘? 要】隨著電商行業(yè)的快速發(fā)展,商家在網(wǎng)絡(luò)購(gòu)物平臺(tái)的競(jìng)爭(zhēng)越來(lái)越激烈。購(gòu)買者對(duì)購(gòu)買商品作出評(píng)價(jià),將同時(shí)為商家和其他購(gòu)買者提供大量參考信息,然而從大量的評(píng)價(jià)中篩選有意義的信息是非常困難的。論文對(duì)京東商城某品牌熱水器的評(píng)論數(shù)據(jù)進(jìn)行建模,對(duì)文本進(jìn)行預(yù)處理、中文分詞、停用詞過(guò)濾,通過(guò)建立LDA主題模型,實(shí)現(xiàn)對(duì)文本評(píng)論數(shù)據(jù)的傾向性判斷,從而為商家和購(gòu)買者提供有價(jià)值的信息。

【Abstract】With the rapid development of the e-commerce industry, the competition among merchants in online shopping platforms is increasingly fierce. Buyers' comments on purchased goods will provide merchants and other buyers with a lot of reference information. However, it is very difficult to filter meaningful information from a large number of comments. This paper modeled the comment data of a water heater of a brand in Jingdong Mall, preprocessed the text, segmented Chinese words and filtered stop words, and realized the bias judgment of the text comment data by establishing the LDA theme model, so as to provide valuable information for merchants and buyers.

【關(guān)鍵詞】用戶評(píng)論;預(yù)處理;中文分詞;LDA主題模型;情感分析

【Keywords】user comment; pretreatment; Chinese words segmentation; LDA theme model; emotion analysis

【中圖分類號(hào)】F724.6;TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2020)06-0130-02

1 引言

互聯(lián)網(wǎng)的快速發(fā)展,人類在網(wǎng)絡(luò)上的交互方式為大量網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生提供了可能。隨著電商的發(fā)展,購(gòu)買者通過(guò)淘寶、京東、亞馬遜等各種平臺(tái)購(gòu)買商品,并對(duì)商品進(jìn)行評(píng)論以表達(dá)對(duì)購(gòu)物體驗(yàn)及商品性能的滿意程度。對(duì)產(chǎn)品的評(píng)論數(shù)據(jù)進(jìn)行情感分析,進(jìn)而挖掘購(gòu)買者對(duì)商品的情感傾向,為其他購(gòu)買者提供參考,或挖掘出購(gòu)買者對(duì)商品的關(guān)注程度和情感傾向,以便企業(yè)能更好地提升商品及服務(wù)質(zhì)量。因此,高效、準(zhǔn)確地對(duì)互聯(lián)網(wǎng)電商評(píng)論數(shù)據(jù)進(jìn)行情感分析,對(duì)電商行業(yè)及購(gòu)買者本身有很大的幫助。但如何高效合理地從海量評(píng)價(jià)文本數(shù)據(jù)中提取有價(jià)值的信息,一直是眾多學(xué)者研究的課題。

凌潔等對(duì)電商平臺(tái)在線評(píng)論分析進(jìn)行了綜合研究,劉玉林等以情感傾向?yàn)榛A(chǔ)建立情感指數(shù),從多方面對(duì)評(píng)論數(shù)據(jù)進(jìn)行了多維度分析,景永霞等在評(píng)論分析中引入了LDA主題模型,并探討了其在課程評(píng)論中的應(yīng)用,李明等在商品評(píng)論情感傾向性方面進(jìn)行了分析研究。文獻(xiàn)分別在校園微博、汽車和電影評(píng)論等方面進(jìn)行了研究分析。本文將綜合應(yīng)用情感分析技術(shù)對(duì)某品牌熱水器評(píng)論數(shù)據(jù)進(jìn)行情感分析,以為商家和購(gòu)買者提供信息參考和相關(guān)支持。

2 評(píng)論數(shù)據(jù)處理

2.1 文本去重

本文采用京東商城某品牌空調(diào)產(chǎn)品評(píng)論數(shù)據(jù)。由于數(shù)據(jù)質(zhì)量參差不齊,如重復(fù)或不知所云等。這些評(píng)論數(shù)據(jù)不僅不能提供價(jià)值,還會(huì)造成不必要的麻煩。因此,在對(duì)評(píng)論數(shù)據(jù)進(jìn)行分析之前先要“文本去重”,把沒(méi)有價(jià)值的數(shù)據(jù)去掉。

某些電商平臺(tái)為了避免客戶長(zhǎng)時(shí)間不進(jìn)行評(píng)論,往往設(shè)置為超期后系統(tǒng)自動(dòng)好評(píng)。顯然這些評(píng)論沒(méi)有任何分析價(jià)值,而且這些評(píng)論大量重復(fù),必須去除。經(jīng)過(guò)去重處理后,共得到55400條評(píng)論。使用value_counts函數(shù)統(tǒng)計(jì)重復(fù)的評(píng)論,可以得到重復(fù)評(píng)論文本的重復(fù)數(shù)量,數(shù)量最大的評(píng)論文本是系統(tǒng)默認(rèn)評(píng)論。

2.2 文本分詞

在對(duì)評(píng)論文本進(jìn)行分析之前,最重要的一步是對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的分詞,分詞 是否準(zhǔn)確,將會(huì)影響后面的工作質(zhì)量。目前Python語(yǔ)言中的中文分析包“jieba”對(duì)評(píng)論文本進(jìn)行分詞,效果較好,在業(yè)內(nèi)應(yīng)用較廣泛。本文利用其對(duì)自定義詞典進(jìn)行分詞。

2.3 去除停用詞

在SEO中,為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。在自然語(yǔ)言處理中,停用詞一般不攜帶有價(jià)值的信息,選擇去除掉。從圖1可以看出,經(jīng)過(guò)停用詞過(guò)濾后,之前的“是”“的”等停用詞被去掉了,而且可以達(dá)到不錯(cuò)的去除效果。

2.4 特征提取

在文本處理中,特征選擇是關(guān)鍵步驟。一個(gè)好的特征選擇通常能夠達(dá)到滿意的分類效果。在特征提取中如果僅僅通過(guò)詞頻的方式來(lái)處理可能會(huì)得出錯(cuò)誤的分析結(jié)果。但如果在實(shí)際操作中把所有的詞語(yǔ)都作為特征詞選項(xiàng)的話,則會(huì)導(dǎo)致特征空間的維度過(guò)大沒(méi)有實(shí)際意義。本文首先從特征全集中采用某評(píng)價(jià)標(biāo)準(zhǔn)綜合篩選出特征子集,同時(shí)對(duì)特征子集進(jìn)行有效性驗(yàn)證,以此完成特征提取工作。

2.5 情感詞典的構(gòu)建

一個(gè)句子或是短語(yǔ)的情感傾向通常由句中的情感詞決定,一個(gè)好的情感詞典要能夠較好地囊括研究領(lǐng)域的情感詞,準(zhǔn)確判斷出相關(guān)文本的情感傾向,因此,構(gòu)建情感詞典是研究文本情感的基礎(chǔ)。本文將電商評(píng)論中的情感詞語(yǔ)作為特征項(xiàng)進(jìn)行相關(guān)的提取工作,然后把形成的情感詞典導(dǎo)入分詞系統(tǒng)中形成自定義詞典,設(shè)置好相關(guān)的分詞詞典的優(yōu)先選擇順序,大大提高了分詞結(jié)果的準(zhǔn)確性。

3 基于情感分析的LDA模型主題分析

在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域,主題模型是一種在一系列文檔中發(fā)現(xiàn)抽象主題的統(tǒng)計(jì)模型。一篇文檔如果有多個(gè)主題,則這些特定的可代表不同主題的詞語(yǔ)會(huì)反復(fù)出現(xiàn),此時(shí),運(yùn)用主題模型,能夠發(fā)現(xiàn)文本中使用詞語(yǔ)的規(guī)律,并且規(guī)律相似的文本聯(lián)系到一起,以尋求非結(jié)構(gòu)化的文本集中的有用信息。LDA模型作為其中的一種主題模型,屬于無(wú)監(jiān)督的生成式主題概率模型。

對(duì)本文數(shù)據(jù)進(jìn)行主題分析,提取的高頻特征詞有:“不錯(cuò)”“買”“好”“加熱”“便宜”“價(jià)格”“實(shí)惠”“熱水器”“好用”“保溫”。然后取得每個(gè)主題的特征詞并轉(zhuǎn)換為DataFrame格式,如表1所示。

由表1可以看出,主題一主要為熱水器售后服務(wù)安裝方面相關(guān)內(nèi)容,主題二主要為熱水器的質(zhì)量、價(jià)格、送貨相關(guān)方面,主題三主要為熱水器的安裝、加熱、保溫效果相關(guān)方面。綜上,主題特征詞的DataFrame格式非常清晰地展示了每個(gè)主題的關(guān)鍵點(diǎn)以及評(píng)論的情感傾向。而且,從表中可以看出,評(píng)論中關(guān)于“安裝”一詞的出現(xiàn)頻率較高,體現(xiàn)出顧客對(duì)于安裝這項(xiàng)售后服務(wù)的關(guān)心。而且?guī)煾?、安裝費(fèi)等詞相對(duì)出現(xiàn)頻率較高,表明客戶對(duì)安裝師傅及其費(fèi)用的關(guān)注度較高。關(guān)于產(chǎn)品性能“質(zhì)量”“加熱”等詞,客戶的反應(yīng)為“好”“加熱快”等正面評(píng)價(jià)。

基于客戶對(duì)產(chǎn)品的評(píng)論可以看出,客戶對(duì)商品的總體滿意度較高。商家售后服務(wù)的進(jìn)一步改進(jìn)可以從降低安裝費(fèi)用、加快送貨速度等方面入手。商家的進(jìn)一步發(fā)展策略可以定位為保障商品質(zhì)量的前提下,進(jìn)一步提高送貨速度,降低安裝費(fèi)用,公開(kāi)使用材料等,綜合提高售后服務(wù)水平,進(jìn)一步獲得客戶的認(rèn)可度,提高客戶粘性。

4 結(jié)論

本文針對(duì)京東商城某品牌熱水器的消費(fèi)者文本評(píng)論數(shù)據(jù)進(jìn)行建模,對(duì)評(píng)論文本進(jìn)行進(jìn)一步的預(yù)處理工作,完成了文本去重、中文分詞、停用詞過(guò)濾后、特征提取等工作,通過(guò)建立LDA主題模型的數(shù)據(jù)挖掘模型,實(shí)現(xiàn)了對(duì)文本評(píng)論數(shù)據(jù)的傾向性判斷以及關(guān)于主題的高頻特征詞提取,并且通過(guò)高頻詞的頻率分析,進(jìn)一步提煉客戶情感,從而為商家今后發(fā)展策略和其他客戶購(gòu)買產(chǎn)品提供進(jìn)一步的建議。由于中文語(yǔ)言表達(dá)方式的多樣性、句式的復(fù)雜性、各種不同的習(xí)慣用語(yǔ)以及網(wǎng)絡(luò)用語(yǔ)的層出不窮,還需要增強(qiáng)對(duì)復(fù)雜評(píng)論的處理能力,這也是本文下一步的努力方向。

【參考文獻(xiàn)】

【1】凌潔,劉玉林.電商平臺(tái)在線評(píng)論分析研究綜述[J].江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2019(6):38-41.

【2】劉玉林,管利榮.基于文本情感分析的電商在線評(píng)論數(shù)據(jù)挖掘[J].統(tǒng)計(jì)與信息論壇,2018(12):119-124.

【3】景永霞,茍和平,劉強(qiáng),等.基于主題模型的在線課程評(píng)論情感分析研究[J].蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,34(1):54-56,64.

【4】李明,胡吉霞,侯琳娜,等.商品評(píng)論情感傾向性分析[J].計(jì)算機(jī)應(yīng)用,2019,39(S2):15-19.

猜你喜歡
情感分析預(yù)處理
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評(píng)論情感屬性的動(dòng)態(tài)變化
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
文本觀點(diǎn)挖掘和情感分析的研究
絡(luò)合萃取法預(yù)處理H酸廢水
PMU數(shù)據(jù)預(yù)處理及壓縮算法
武平县| 同心县| 武川县| 即墨市| 溆浦县| 阿尔山市| 土默特右旗| 互助| 汝城县| 徐州市| 博乐市| 阜南县| 赫章县| 万宁市| 宁晋县| 安徽省| 临沧市| 维西| 孝义市| 四子王旗| 翁牛特旗| 会昌县| 延寿县| 阿尔山市| 娄烦县| 阿巴嘎旗| 凉城县| 灵武市| 象州县| 湘西| 洞头县| 合水县| 林州市| 西乌珠穆沁旗| 万荣县| 武鸣县| 五大连池市| 长沙市| 乌兰察布市| 莆田市| 桦川县|