陸晨晨 王昊 石斌 裘靖文
摘要:[目的/意義]電商用戶評論中蘊(yùn)含著大量有價值的信息,識別其中的用戶觀點,探索觀點分布的差異和規(guī)律,能夠為消費者、商家和平臺提供參考。[方法/過程] 首先,基于UIE模型,對家居、零食、手機(jī)3個行業(yè)中的用戶評論進(jìn)行觀點抽??;其次,基于商品特征庫和BERT模型,計算詞間語義相似度對觀點進(jìn)行泛化;最后,基于IPA模型,對用戶觀點進(jìn)行統(tǒng)計分析和可視化呈現(xiàn),為商家和平臺提供優(yōu)化建議。[結(jié)果/結(jié)論] 在觀點挖掘方面,模型在3個行業(yè)中均表現(xiàn)優(yōu)秀,觀點抽取的F1值分別為79.85%、83.28%和85.71%,證明該方法的有效性;在規(guī)律分析方面,發(fā)現(xiàn)手機(jī)行業(yè)的用戶觀點主要集中于性能、外觀和電池,但不同平臺和品牌的觀點分布存在明顯差異,并且用戶情感從初評到追評總體呈現(xiàn)出積極到消極的變化趨勢。
關(guān)鍵詞:用戶評論;細(xì)粒度情感分析;觀點挖掘;預(yù)訓(xùn)練語言模型;IPA分析
分類號:TP391
引用格式:陸晨晨, 王昊, 石斌, 等. 面向電商用戶評論的細(xì)粒度觀點挖掘及其分布規(guī)律探究[J/OL]. 知識管理論壇, 2024, 9(3): 253-268 [引用日期]. http://www.kmf.ac.cn/p/391/. (Citation: Lu Chenchen, Wang Hao, Shi Bin, et al. Research on Fine-grained Opinion Mining and Distribution Law of opinion for E-Commerce Customer Reviews[J/OL]. Knowledge Management Forum, 2024, 9(3): 253-268 [cite date]. http://www.kmf.ac.cn/p/391/.)
1? 引言/Introduction
在線評論是用戶對產(chǎn)品、服務(wù)感知的文本形態(tài),也是經(jīng)驗和想法分享傳播的一種形式,蘊(yùn)含著大量有價值的用戶觀點。電商評論中的用戶觀點是消費者視角下對產(chǎn)品、服務(wù)所持的看法或態(tài)度,產(chǎn)品、服務(wù)代表評價對象,看法和態(tài)度代表評價內(nèi)容和情感傾向。隨著網(wǎng)購的普及和直播帶貨的興起,相關(guān)電商平臺上積累了豐富的用戶評論,對這些評論進(jìn)行觀點挖掘可以為潛在消費者提供有價值參考,并為商家提供消費者對產(chǎn)品的反饋和需求,同時可以為平臺改善服務(wù)提供參考。
然而日益增長的海量用戶評論也帶來了信息過載的問題,如何挖掘出有價值的信息,是在線評論領(lǐng)域研究的熱點。目前,評論觀點抽取和情感分類主要采用規(guī)則模板[1-2]和機(jī)器學(xué)習(xí)[3-4]兩種方法?;谝?guī)則模板的方法,通過手動編寫規(guī)則或模板來匹配評論中的觀點,但需要專業(yè)知識和經(jīng)驗,且難以達(dá)到較高的準(zhǔn)確率,無法真實反映用戶的心聲和需求?;跈C(jī)器學(xué)習(xí)的方法,需要標(biāo)注大量數(shù)據(jù)且不易進(jìn)行跨行業(yè)遷移,而電商平臺包含多樣化的商品,不同行業(yè)之間用戶評論對象和習(xí)慣差異較大,很難訓(xùn)練出適用于各行業(yè)的通用模型。
隨著大型預(yù)訓(xùn)練語言模型的興起,從文本中精確挖掘細(xì)粒度知識對象的能力得到顯著提升,從語義層面識別細(xì)粒度知識元、提取內(nèi)容觀點成為可能,為在線評論的細(xì)粒度觀點抽取提供了新的研究思路和方法。此外,在電商領(lǐng)域的相關(guān)研究中,不少學(xué)者基于評論挖掘?qū)Σ煌脚_[5]、品牌[6-7]以及追加評論和初次評論[8-9]進(jìn)行了比較研究。因此,筆者提出兩個研究問題:①大型預(yù)訓(xùn)練語言模型結(jié)合微調(diào)的方法能否有效提升觀點抽取效果?②不同平臺、品牌以及追評和初評之間的用戶觀點分布存在哪些差異?為什么會產(chǎn)生這些差異?
筆者采用基于大型預(yù)訓(xùn)練語言模型結(jié)合微調(diào)的方法進(jìn)行用戶觀點抽取,選取手機(jī)、零食、家居3個行業(yè)的用戶評論進(jìn)行實驗,來驗證該方法的有效性;并以手機(jī)行業(yè)為例,對評論進(jìn)行細(xì)粒度觀點挖掘,探索其中的分布規(guī)律,比較不同平臺、品牌以及追評和初評之間的觀點分布,探討其中的分布差異及其原因。
2? 近期相關(guān)研究/Recent relevant research
在線評論的相關(guān)研究主要集中于電子商務(wù)[10]、醫(yī)療[11-12]、旅游[13]、在線教育[14]以及政務(wù)[15]等領(lǐng)域。其中,醫(yī)療、政務(wù)領(lǐng)域的研究主要關(guān)注評論主題及其情感,而電子商務(wù)領(lǐng)域由于其產(chǎn)品和服務(wù)的細(xì)粒度特性,相關(guān)研究更關(guān)注產(chǎn)品特征及其情感傾向的抽取[16],隨著知識圖譜研究的興起,產(chǎn)品特征對應(yīng)的觀點詞抽取[17-18]也逐漸受到關(guān)注,它解釋了情感產(chǎn)生的原因,并且可以和產(chǎn)品特征結(jié)合形成觀點摘要。因此,電商用戶評論的觀點抽取主要包括產(chǎn)品特征抽取、對應(yīng)觀點詞抽取以及特征—觀點對情感分類3個子任務(wù),在學(xué)術(shù)上稱為方面級情感三元組抽?。╝spect sentiment triplet extraction, ASTE[19])或觀點三元組抽?。╫pinion triplet extraction[20])。
自H. Y. Peng等[19]首次提出用一個序列標(biāo)注任務(wù)統(tǒng)一信息抽取和分類任務(wù),一次性實現(xiàn)ASTE任務(wù)以來,觀點三元組抽取就引起了研究者的關(guān)注[21-25]。深度學(xué)習(xí)方法憑借其出色的效果,成為該領(lǐng)域的熱點研究方法。H. Yan等[22]將預(yù)訓(xùn)練BERT運用到三元組抽取任務(wù)中,提出基于端到端的BARTAB模型,實現(xiàn)了基于統(tǒng)一任務(wù)的端到端的BART生成目標(biāo)序列;S. W. Chen等[23]將ASTE任務(wù)轉(zhuǎn)化為多輪機(jī)器閱讀理解任務(wù),并提出一個雙向機(jī)器閱讀理解框架;W. X. Zhang等[24]提出基于文本生成的GAS模型,該模型通過注釋樣式和提取樣式范式來描述目標(biāo)句子,使用統(tǒng)一的生成模型來解決多重4種子任務(wù);Y. J. Lu等[25]提出通用信息抽取UIE(universal information extraction)模型,實現(xiàn)實體抽取、關(guān)系抽取、事件抽取、情感分析等任務(wù)的統(tǒng)一建模,在ASTE任務(wù)的4個數(shù)據(jù)集中均達(dá)到了SOTA(state-of-the-art)水平。
觀點泛化指將具體、個別的觀點擴(kuò)大為一般的觀點,目前常用的方法主要有基于LDA(Latent Dirichlet allocation)的主題挖掘模型[26-27]以及基于語義相似度的分類模型[28-30]。LDA模型可以挖掘出評論文本中的評論—主題和主題—關(guān)鍵詞映射,實現(xiàn)關(guān)鍵詞的聚類;基于語義相似度的方法主要采用Word2Vec和BERT[31]等模型,將抽取出來的特征詞轉(zhuǎn)換為詞向量,并根據(jù)特征詞庫以及向量距離進(jìn)行分類和聚類。泛化后的特征觀點需要進(jìn)一步分析,在線評論領(lǐng)域常用的用戶觀點分析模型有IPA(importance-performance analysis)[32]和Kano[33]模型。IPA模型使用重要性和績效來創(chuàng)建一個二維矩陣,將產(chǎn)品屬性劃分到4個象限中[28,34];Kano模型認(rèn)為產(chǎn)品不同屬性的用戶滿意度隨需求被滿足情況的變化應(yīng)是非線性的,根據(jù)用戶滿意度與需求被滿足之間的關(guān)系,將產(chǎn)品屬性分為5類[34-35]。
筆者選取實驗效果最好的UIE模型進(jìn)行觀點三元組抽??;同時,由于LDA模型無法抽取細(xì)粒度的產(chǎn)品特征,只能得到若干個主題及其關(guān)鍵詞,不適合電商領(lǐng)域的觀點泛化,故筆者采用基于BERT和商品特征庫的觀點泛化方法;最后,Kano模型在評論數(shù)據(jù)中無法得到需求不被滿足時的用戶滿意度變化情況,更適用于問卷數(shù)據(jù),而IPA模型的分類較為簡單,其重要性和績效維度都可以從評論數(shù)據(jù)中挖掘得到,因此筆者使用IPA模型對泛化后的觀點進(jìn)行分析,探究用戶觀點的分布規(guī)律與差異。
3? 數(shù)據(jù)與方法/Data and methodology
3.1? 研究框架
本文的研究框架見圖1,主要包括3個模塊。①觀點抽?。菏紫龋胮ython爬蟲獲取電商用戶評論文本并進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作;隨后從預(yù)處理后的評論語料中隨機(jī)選取部分并標(biāo)注,進(jìn)行UIE模型微調(diào),提升其在垂類行業(yè)下的性能;最后應(yīng)用性能最佳的UIE模型提取出用戶評論中的觀點三元組<評價特征(F);對應(yīng)觀點詞(O);情感傾向(S)>。②觀點泛化:首先,爬取商品靜態(tài)信息并匹配出商品參數(shù),結(jié)合高頻評價特征詞構(gòu)建商品特征庫;隨后,利用BERT計算評價特征詞與商品特征庫中各詞的語義相似度,進(jìn)行特征詞的過濾和分類,形成商品特征體系;最后,利用BERT將觀點詞進(jìn)行詞向量表示,并通過K-Means算法進(jìn)行聚類,將三元組泛化為<粗粒度屬性(F1);細(xì)粒度特征(F2);評價特征(F);中心觀點詞(C);情感傾向(S)>。③觀點分析:根據(jù)泛化后的結(jié)果計算用戶關(guān)注度和用戶滿意度,通過IPA模型對用戶觀點進(jìn)行分析,并探索其在行業(yè)、平臺、品牌、追評視角下的深度挖掘與應(yīng)用。
3.2? 數(shù)據(jù)來源與預(yù)處理
筆者選取淘寶、京東、抖音、拼多多4個平臺作為研究對象,進(jìn)行商品數(shù)據(jù)的采集。商品數(shù)據(jù)包括商品靜態(tài)信息和用戶評論數(shù)據(jù),商品靜態(tài)信息由商品所屬行業(yè)類目、商品參數(shù)組成,用戶評論數(shù)據(jù)包括初次評語內(nèi)容、初次評語時間、追加評語內(nèi)容、追加評語時間、店鋪名、商品ID等字段。為了驗證本文觀點抽取方法的通用性,筆者參考淘寶的商品分類體系,選取差異較大的家居、零食、手機(jī)3個熱門行業(yè)進(jìn)行數(shù)據(jù)采集,共獲得商品371個,原始評論文本1 004 047條,數(shù)量分布如表1所示:
數(shù)據(jù)預(yù)處理工作包括重復(fù)評論、垃圾評論和低質(zhì)量評論的過濾。重復(fù)評論分為相同用戶的近似評論以及不同用戶的相同評論,筆者將同一用戶在同一商品下的相同評論定義為重復(fù)評論進(jìn)行過濾;電商評論中的垃圾評論主要指系統(tǒng)默認(rèn)評價,如“此用戶沒有填寫評論!”“該用戶覺得商品不錯”等,該類評價內(nèi)容沒有實際意義,將其進(jìn)行過濾;低質(zhì)量評論通常具有重復(fù)字符多、中文字符少等特征,筆者將重復(fù)字符占比大于80%的評論過濾,由于過少字符的評論往往不包括完整的用戶觀點,筆者將中文字符小于5的評論過濾。
3.3? 基于UIE的觀點抽取
筆者采用PaddleNLP開源的UIE模型進(jìn)行觀點三元組抽取。該模型在相關(guān)數(shù)據(jù)集上取得了最優(yōu)的實驗表現(xiàn)[25],UIE基于ERNIE 3.0[36]預(yù)訓(xùn)練語言模型,是PaddleNLP訓(xùn)練并開源的首個中文通用信息抽取模型,實現(xiàn)了實體抽取、關(guān)系抽取、事件抽取、情感分析等信息抽取任務(wù)的統(tǒng)一建模,并使得不同任務(wù)之間具備良好的遷移能力。
觀點三元組抽取屬于實體抽取、關(guān)系抽取、情感分類的復(fù)合任務(wù),UIE提供相應(yīng)的Schema來實現(xiàn)三元組抽取任務(wù)。在UIE中構(gòu)造Schema為{‘評價特征: [‘觀點詞, ‘情感傾向[正向,負(fù)向]]},Schema會生成prompt指導(dǎo)模型完成相應(yīng)的信息抽取任務(wù),從用戶評論中提取出
UIE還提供模型微調(diào)(fine-tune)功能,只需要標(biāo)注少量數(shù)據(jù)就可以提升模型在細(xì)分場景下的性能。電商平臺包含各行業(yè)的商品,不同行業(yè)之間用戶評論對象和習(xí)慣差異較大,筆者通過微調(diào)來提升模型觀點抽取的效果。首先從預(yù)處理后的評論集中隨機(jī)選取部分,使用數(shù)據(jù)標(biāo)注平臺doccano進(jìn)行數(shù)據(jù)標(biāo)注;隨后將標(biāo)注數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集,并構(gòu)造一定的負(fù)例數(shù)據(jù)來提升模型微調(diào)效果;最后使用訓(xùn)練集對預(yù)訓(xùn)練模型的參數(shù)進(jìn)行更新,并在驗證集中檢驗效果,選擇訓(xùn)練過程中性能最佳的模型進(jìn)行用戶評論的觀點抽取。
3.4? 基于語義相似度的觀點泛化
抽取出來的觀點三元組中包含許多無意義的評價特征,并且許多特征詞和觀點詞都表達(dá)著相同的語義,因此為了更好地了解用戶對產(chǎn)品和服務(wù)中特定主題的看法和態(tài)度,需要將具體的評價特征詞進(jìn)行過濾和分類,對觀點詞進(jìn)行聚類,最終得到<粗粒度屬性(F1);細(xì)粒度特征(F2);評價特征(F);中心觀點詞(C);情感傾向(S)>。
(1)商品特征庫構(gòu)建。各個行業(yè)由于其商品特征的差異,需要單獨構(gòu)建商品特征庫,商品特征庫包括粗粒度屬性和細(xì)粒度特征。首先,參照淘寶、京東等主流電商平臺的相關(guān)參數(shù)設(shè)置,并結(jié)合行業(yè)高頻評價特征詞,來初步構(gòu)建商品特征庫;隨后將
(2)評價特征分類。根據(jù)商品特征庫,利用BERT計算其余評價特征詞與商品特征庫中各詞的語義相似度,設(shè)定閾值為α,將評價特征詞歸類到相似度最高的評價維度下,對評價特征完成過濾與分類,形成最終的商品特征體系。定義詞Wa與Wb之間的語義相似度如公式(1)所示,其中K表示詞向量的維度,Vai為Va詞向量的第i個向量值。
公式(1)
(3)評價觀點聚類。不同的觀點詞可能表達(dá)相同的語義,例如物流維度下的“發(fā)貨神速”和“發(fā)貨迅速”都表達(dá)了發(fā)貨速度快,因此為了得到高頻的觀點摘要,需要將表達(dá)相似的觀點詞聚為一類,消除這些觀點詞之間的語義重復(fù)。筆者利用BERT將觀點詞進(jìn)行詞向量表示,通過K-Means算法完成觀點詞的聚類,并將距離聚類中心最近的詞作為中心觀點詞來集中表示這一類觀點詞。
3.5? 基于IPA的觀點分析
為了從具體的數(shù)據(jù)中抽象出一般的分布規(guī)律,筆者提出用戶關(guān)注度和滿意度兩個指標(biāo)對泛化后的觀點進(jìn)行量化和統(tǒng)計分析。用戶關(guān)注度反映評論的產(chǎn)品或服務(wù)要素,用戶滿意度反映評論的內(nèi)容和情感傾向,兩者較好地概括了用戶觀點,具體計算公式如下:
(1)用戶關(guān)注度計算。根據(jù)抽取的觀點三元組以及前文構(gòu)建的商品特征體系,可以計算出各屬性的占比作為用戶關(guān)注度I。假設(shè)R表示觀點集合,N表示觀點總數(shù),Rni定義見公式(2),Ii表示第i個屬性的用戶關(guān)注度,計算方法見公式(3)。
公式(2)
公式(3)
(2)用戶滿意度計算。根據(jù)觀點中的情感傾向(正向、負(fù)向),可以計算出各屬性中正向情感的占比作為用戶滿意度P。假設(shè)R為觀點集合,Mi表示屬性i下的觀點總數(shù),Rim定義見公式(4)。Pi表示第i個屬性的用戶滿意度,計算方法見公式(5)。
公式(4)
公式(5)
(3)IPA模型。該模型由J. A. Martilla, J. C. James于1977年提出[32],其基本思想是通過比較用戶對不同屬性重要性和績效的感知來優(yōu)化產(chǎn)品和服務(wù)。用戶關(guān)注度量化了用戶對各屬性的重視程度,用戶滿意度量化了各屬性的績效表現(xiàn),這兩個指標(biāo)分別對應(yīng)了IPA模型中的重要性和績效維度。因此,筆者基于用戶關(guān)注度和滿意度數(shù)據(jù)構(gòu)建IPA模型,將產(chǎn)品屬性劃分到4個象限中,為商家和平臺提供各產(chǎn)品和服務(wù)屬性的優(yōu)化建議。從圖3中可以看出,第一象限中的屬性重要性和滿意度表現(xiàn)均較高,為產(chǎn)品的優(yōu)勢,在后續(xù)經(jīng)營活動中應(yīng)當(dāng)繼續(xù)保持;第二象限為重要性低而滿意度高的屬性,是產(chǎn)品的機(jī)會點,企業(yè)應(yīng)當(dāng)抓住這類屬性進(jìn)行優(yōu)化,滿足用戶意想不到的需求,使商品在同類商品中脫穎而出;位于第三象限的產(chǎn)品屬性有著較低重要性和滿意度,屬于劣勢屬性,在資源充足的情況下,可以考慮發(fā)展此類屬性;第四象限中屬性重要性高而滿意度低,是產(chǎn)品的威脅屬性,應(yīng)當(dāng)重點改進(jìn)。
4? 觀點挖掘?qū)嶒炁c分析/Opinion mining experiment and analysis
筆者以家居、零食、手機(jī)3個行業(yè)為例進(jìn)行觀點抽取的實驗。由于手機(jī)產(chǎn)品參數(shù)的分類體系較為明確和細(xì)粒度化,更適合構(gòu)建多維度的商品特征體系,因此筆者以手機(jī)行業(yè)為例,進(jìn)行觀點泛化以及后續(xù)的觀點分析。手機(jī)行業(yè)數(shù)據(jù)包括京東、淘寶、抖音、拼多多4個平臺和Apple、華為、小米、OPPO、vivo、榮耀6個品牌的用戶評論,評論時間范圍取2020年12月1日至2022年11月30日,最終采集到商品靜態(tài)信息150條、用戶評論數(shù)據(jù)371 204條,數(shù)據(jù)預(yù)處理后,得到有效用戶評論數(shù)據(jù)307 699條。
4.1? 觀點抽取結(jié)果
首先隨機(jī)從各行業(yè)評論中選取50條按照評論觀點抽取任務(wù)模版進(jìn)行標(biāo)注;隨后將標(biāo)注數(shù)據(jù)轉(zhuǎn)換為模型微調(diào)所需的prompt形式,按照8:1:1的比例將數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集,設(shè)置最大負(fù)例比例negative_ratio為5;最后對預(yù)訓(xùn)練模型進(jìn)行微調(diào),具體參數(shù)設(shè)置如下:batch size=16, epochs=70, learning rate=1e-5, max seq length=512。
觀點抽取實驗的評價指標(biāo)為精確率、召回率和F1值。在家居、零食、手機(jī)行業(yè)進(jìn)行實驗研究,實驗結(jié)果見表2。其中,0-shot表示無訓(xùn)練數(shù)據(jù)直接進(jìn)行預(yù)測,few-shot表示模型微調(diào)后再預(yù)測。可以發(fā)現(xiàn),3個行業(yè)在微調(diào)后的精確率、召回率和F1值均有顯著提高,其中F1值分別提高7.85%、5.17%和4.01%。
以性能提升最高的家居行業(yè)為例,展示模型微調(diào)過程,結(jié)果見圖4??梢钥闯觯孩匐S著訓(xùn)練輪次的增加,模型性能得到了一定的提升,相較于微調(diào)前,精確率從78.52%提升至82.61%,召回率從66.48%增加到77.27%,這表明更多的評論觀點被模型識別并召回;②F1值給出了模型精確率和召回率的綜合評估,因此筆者選取微調(diào)過程中F1值最高的模型作為最優(yōu)模型來進(jìn)行最終的觀點抽?。虎蹖⑹謾C(jī)行業(yè)中最優(yōu)模型的參數(shù)保存到model_best文件夾中,并對預(yù)處理后的307 699條評論進(jìn)行觀點抽取,最終得到觀點三元組616 668個。
4.2? 觀點泛化結(jié)果
得到手機(jī)行業(yè)的觀點三元組后,為了對評價特征進(jìn)行分類和過濾,需要構(gòu)建手機(jī)商品特征庫。首先,參照淘寶、京東等主流電商平臺以及太平洋電腦網(wǎng)和中關(guān)村在線中手機(jī)產(chǎn)品的相關(guān)參數(shù)設(shè)置,并結(jié)合高頻評價特征詞,初步構(gòu)建商品特征庫。手機(jī)商品的粗粒度屬性主要劃分為外觀、屏幕、性能、攝像頭、電池、硬件、網(wǎng)絡(luò)與通信、價格、品控、服務(wù)10個維度,其中每個維度下的細(xì)粒度特征見表3。詞頻數(shù)前400的評價特征詞所構(gòu)成的觀點三元組占據(jù)總量的90.7%,從中選出能較好代表和描述產(chǎn)品特征的詞匯,筆者通過人工篩選的方式將評價特征詞劃分到相應(yīng)的細(xì)粒度特征詞下,共獲得312個代表詞匯,最終形成包含粗粒度屬性、細(xì)粒度特征和代表詞匯3個維度的商品特征庫。
基于手機(jī)商品特征庫,使用BERT模型將評價特征詞向量化并計算其與特征庫中各詞匯向量的余弦距離作為語義相似度,并按照相似度的高低對評價特征詞進(jìn)行分類和過濾。例如,對于“待機(jī)”這一特征詞,分別計算其與特征庫中各詞的相似度,得到相似度排前3的特征詞為“續(xù)航”“電池容量”“充電”,相似度分別為0.953、0.891、0.910,因此將“待機(jī)”劃分到“續(xù)航”這一細(xì)粒度特征下。同時,為了過濾無實際意義的特征詞,筆者將最大相似度的閾值設(shè)為0.9。最終獲得由10個粗粒度屬性、36個細(xì)粒度特征以及8 843個評價特征詞構(gòu)成的多維商品特征體系(見表4)。使用商品特征體系對抽取出來的616 668個
5? 用戶觀點分布規(guī)律分析/Analysis of user opinion distribution patterns
5.1? 行業(yè)總體觀點分布
基于用戶關(guān)注度和滿意度計算,可以得到觀點三元組集合中各個屬性的正向、負(fù)向觀點數(shù)以及正向觀點占比,結(jié)果見圖5。在用戶關(guān)注度方面,可以看出:①最受用戶關(guān)注的手機(jī)屬性是性能,占比19.15%,其次是外觀和電池,分別占16.09%和15.91%,手機(jī)的好用、好看、耐用屬性是用戶能直接感受到的屬性,因此在購買前和使用時更容易受到用戶的關(guān)注,對這類屬性的優(yōu)化能夠吸引和鎖定用戶;②用戶對網(wǎng)絡(luò)與通信的關(guān)注度最低,僅占2.45%,這可能與用戶對手機(jī)的需求逐漸從基礎(chǔ)的通信功能轉(zhuǎn)向游戲、看劇、辦公等功能有關(guān)。
在用戶滿意度方面,可以看出:①網(wǎng)絡(luò)與通信是手機(jī)行業(yè)中用戶滿意度最低的屬性,該屬性下的10 293個觀點中有3 434個(約33%)顯露出負(fù)面情感傾向;其次是電池屬性,共包括66 768個觀點,其中表達(dá)負(fù)面情感的共19 645個,占比29%;②其余屬性的用戶滿意度都在85%以上,其中外觀的滿意度最高,達(dá)到了97%,這可能是因為用戶對外觀這類屬性在購買前就能較好地感知,用戶往往會選擇自己喜歡的外觀,因此外觀的用戶滿意度通常較高。
對滿意度最低的電池和網(wǎng)絡(luò)與通信屬性下的對應(yīng)觀點詞進(jìn)行聚類,得到負(fù)面觀點摘要(見圖6)??梢园l(fā)現(xiàn),“耗電快”“續(xù)航一般”是用戶對電池的主要負(fù)面評價;“信號差”“通信質(zhì)量差”是網(wǎng)絡(luò)與通信屬性的主要痛點。基于上述分析,根據(jù)IPA模型,可以得出電池屬性的用戶關(guān)注度高并且滿意度較低,被劃分到威脅改進(jìn)區(qū),是手機(jī)行業(yè)未來需要重點優(yōu)化的屬性;網(wǎng)絡(luò)與通信用戶關(guān)注度和滿意度均較低,位于次劣發(fā)展區(qū),在資源充足的情況下,可以考慮優(yōu)化該屬性。
5.2? 基于平臺的觀點分布分析
為了評估各平臺評論的信息質(zhì)量,筆者根據(jù)平均字符數(shù)、平均觀點數(shù)、觀點平均所占字符數(shù)3個指標(biāo)進(jìn)行對比分析,結(jié)果見表5。可以看出:①京東平臺評論的平均字符數(shù)和觀點數(shù)都明顯高于其他平臺,這也許與各平臺對優(yōu)質(zhì)評價的定義不同有關(guān),京東需60字和2張圖片,淘寶需40字和2張圖片,抖音僅需20字和1張圖片;? ?②抖音平臺評論的平均字符數(shù)和觀點數(shù)均為最低,但平均19個字符就包含1個觀點,是4個平臺中最優(yōu)秀的,這可能與抖音的評價指引機(jī)制有關(guān),其評論界面會顯示“服務(wù)怎么樣?性價比高嗎”等類似標(biāo)語。通過進(jìn)一步研究,發(fā)現(xiàn)京東和抖音都有評價官機(jī)制,成為評價官可獲得神券、免費試用等權(quán)益。因此,各平臺可以通過獎勵激勵、評價指引等方式來提高評論的信息質(zhì)量。
基于用戶滿意度計算,對服務(wù)屬性下物流、包裝、客服和售后4個細(xì)粒度特征進(jìn)行分析,比較各個平臺服務(wù)屬性的用戶滿意度,結(jié)果見圖7。可以發(fā)現(xiàn):①在各項服務(wù)特征中,京東均有著較為明顯的優(yōu)勢,而拼多多的用戶滿意度均為最低。這可能與商家經(jīng)營方式有關(guān),京東大部分商家為京東自營,而拼多多沒有自營商家,并且主要以價格優(yōu)勢吸引用戶,為了更低的價格,商家更有可能壓縮其服務(wù)質(zhì)量。②售后服務(wù)的用戶滿意度差距最大,京東(88%)最高,其次是淘寶(47%)、抖音(38%)、拼多多(26%),這可能與倉儲模式和售后機(jī)制有關(guān),京東有自營的倉庫,能夠做到品質(zhì)溯源、快速退換貨等,并且其為消費者提供“放心購”,提供價保、先退款后退貨、上門換新等免費的售后服務(wù)。這說明在各項服務(wù)中售后服務(wù)是各平臺需要重點優(yōu)化的方向之一。
結(jié)合上述分析,京東和拼多多在各項服務(wù)的用戶滿意度上均存在較大差異,淘寶和抖音總體上滿意度接近,但在客服和售后上存在差異,且均與京東差距明顯。
5.3? 基于品牌的觀點分布分析
基于IPA模型,通過關(guān)注度和滿意度的計算可以得到各品牌在電池、價格等7個產(chǎn)品核心屬性上的觀點分布情況,結(jié)果見圖8??梢园l(fā)現(xiàn)各品牌的同類屬性分布較為集中但又存在差異,故從屬性維度對各品牌進(jìn)行比較分析,具體為:①從電池屬性看,各個品牌均落于威脅改進(jìn)區(qū),應(yīng)重點改進(jìn),其中vivo的滿意度最高、小米的關(guān)注度最高;②從價格屬性看,華為和蘋果的關(guān)注度和滿意度均較低,說明這兩個品牌的用戶對價格的感知度較低,其他品牌均落于機(jī)會優(yōu)化區(qū),應(yīng)利用價格優(yōu)勢吸引目標(biāo)用戶;③從屏幕屬性看,各品牌均落于機(jī)會優(yōu)化區(qū),是產(chǎn)品優(yōu)化的機(jī)會點,其中vivo和蘋果的滿意度較高;④從攝像頭屬性看,vivo在關(guān)注度和滿意度上都明顯高于其他品牌,可見攝像頭是vivo手機(jī)的優(yōu)勢屬性,應(yīng)當(dāng)繼續(xù)保持,小米落于威脅改進(jìn)區(qū),應(yīng)重視該屬性的優(yōu)化改進(jìn);
⑤從外觀屬性看,各品牌的滿意度均較高,皆位于優(yōu)勢保持區(qū),其中蘋果的用戶關(guān)注度最高,說明其用戶相比其他品牌更在意外觀;⑥從網(wǎng)絡(luò)與通信屬性看,只有vivo落于機(jī)會優(yōu)化區(qū),應(yīng)抓住這一屬性進(jìn)行優(yōu)化,使產(chǎn)品在行業(yè)中脫穎而出,其余品牌均落于次劣發(fā)展區(qū),在資源充足的情況下應(yīng)發(fā)展該屬性,其中蘋果的滿意度明顯低于其他品牌;⑦從性能屬性看,各品牌的關(guān)注度均較高,其中vivo、榮耀、蘋果、OPPO的滿意度較高,落于優(yōu)勢保持區(qū),小米、華為的滿意度較低,落于威脅改進(jìn)區(qū),應(yīng)重點關(guān)注。值得注意的是,vivo在各屬性上的滿意度均為最高,是用戶口碑最好的手機(jī)品牌,其背后的原因值得探索學(xué)習(xí)。
5.4? 基于初評與追評的觀點分布對比
追加評論是消費者使用一段時間、在初次評論后再次發(fā)表的評論,能夠更真實地反映消費者的使用體驗。對觀點泛化后的
(1)屬性維度變化分析?;谏唐诽卣黧w系中的粗粒度屬性分類以及用戶關(guān)注度和滿意度的計算,可以得到初評和追評中各屬性的分布情況。①屬性關(guān)注度變化分析。在初評中,用戶關(guān)注度最高的屬性為性能、外觀和電池,占比分別為18.13%、15.65%和14.90%;而在追評中,性能、電池和服務(wù)最受消費者關(guān)注,占比分別為22.5%、18.02%和10.57%。可以發(fā)現(xiàn)從初評到追評,性能和電池的用戶關(guān)注度略有上升,而外觀的關(guān)注度則明顯降低,從15.65%降至10.24%,這可能與用戶的使用體驗有關(guān),隨著使用時間的增加,手機(jī)的性能和續(xù)航可能逐漸降低,用戶會對這類屬性有更深的感受和新的體驗;此外,服務(wù)在追評中受到較多關(guān)注,客服和售后可能是驅(qū)動用戶進(jìn)行追加評論的一大因素,商家和平臺應(yīng)重視購買后的客服和售后服務(wù)。②屬性滿意度變化分析。在初評和追評中,各屬性的用戶滿意度變化情況見圖9??梢园l(fā)現(xiàn),追評中各屬性的用戶滿意度均低于初評,其中降幅最大的兩個屬性是網(wǎng)絡(luò)與通信和性能,占比分別為52%和44%,降幅最小的是外觀,占比僅為5%。這表明隨著使用的深入,網(wǎng)絡(luò)通信和性能更加影響使用體驗,是用戶較為核心的需求,而外觀的重要性則逐漸降低。因此,基于各屬性關(guān)注度和滿意度的變化分析,商家應(yīng)使用外觀等外在屬性來抓住用戶,通過優(yōu)化性能、電池和網(wǎng)絡(luò)通信等內(nèi)在屬性來留住用戶。
(2)用戶維度變化分析。篩選初評和追評中都包含至少一個觀點的用戶ID,共獲得9 541個用戶的初追評。①用戶關(guān)注變化分析。對同一用戶在初評和追評中的評價屬性流動情況進(jìn)行分析,結(jié)果見圖10??梢园l(fā)現(xiàn),同屬性之間的流動占比較大,但總體呈現(xiàn)出[外觀]→[性能、電池]的流動方向。這與上文的分析結(jié)果一致,用戶在先前關(guān)注屬性的基礎(chǔ)上,關(guān)注點逐漸從外在屬性轉(zhuǎn)向內(nèi)在屬性。②用戶情感變化分析。同屬性間的流動代表用戶在初評和追評中都評價了某一屬性,對其中的情感傾向變化進(jìn)行分析,發(fā)現(xiàn)同向變化占比86.24%,正向到負(fù)向占比10.33%,負(fù)向到正向僅占3.43%。這說明用戶對同一屬性前后的情感變化以同向為主,并且負(fù)向情感很少能轉(zhuǎn)換為正向情感,經(jīng)統(tǒng)計僅有13.61%的初評負(fù)向觀點在追評中轉(zhuǎn)換為正向觀點,因此商家、客服應(yīng)重視初評中的負(fù)向觀點,針對性解決用戶的問題,提高負(fù)向情感向正向轉(zhuǎn)換的比率。此外,正向到負(fù)向的觀點變化解釋了用戶產(chǎn)生負(fù)面情感的原因。例如從初評“服務(wù)好,客服態(tài)度佳”到追評“黑屏死機(jī),用了半個月就不行了,客服說要自費,客服服務(wù)差,就是個擺設(shè)”解釋了用戶對客服產(chǎn)生負(fù)面情感的原因。商家、平臺應(yīng)更加關(guān)注這類觀點變化,有的放矢地解決用戶的訴求與痛點。
結(jié)合上述分析,初評到追評中的用戶情感總體呈積極到消極的變化趨勢,并且用戶關(guān)注點逐漸從外在屬性轉(zhuǎn)向內(nèi)在屬性。
6? 結(jié)論與展望/Conclusions and prospects
筆者針對電商用戶評論設(shè)計了一套細(xì)粒度觀點挖掘和分析的技術(shù)實現(xiàn)方法?;陬A(yù)訓(xùn)練語言模型結(jié)合微調(diào)的觀點抽取方法,在家居、零食、手機(jī)3個行業(yè)中進(jìn)行實驗,F(xiàn)1值分別達(dá)到了79.85%、83.28%、85.71%,證明了該方法的有效性和通用性;基于商品特征庫的觀點泛化方法,對手機(jī)行業(yè)的用戶觀點完成分類與聚類,對于其他行業(yè),也可以使用該方法構(gòu)建出商品特征庫以實現(xiàn)觀點泛化。此外,筆者以手機(jī)行業(yè)為例,對用戶觀點進(jìn)行規(guī)律和差異分析,得出如下結(jié)論:性能、外觀和電池是最受用戶關(guān)注的屬性,而電池和網(wǎng)絡(luò)與通信的用戶滿意度較低;不同品牌、平臺的用戶對其產(chǎn)品、服務(wù)的觀點分布均存在顯著差異,對這些差異進(jìn)行分析能夠為商家和平臺提供優(yōu)化方向;初評和追評中的用戶情感總體呈積極到消極的變化趨勢,并且用戶關(guān)注點逐漸從外在屬性轉(zhuǎn)向內(nèi)在屬性。
本研究仍然存在一定不足,后續(xù)的研究可以從以下方向開展:①在觀點抽取階段實現(xiàn)了自動化和跨領(lǐng)域抽取,但在觀點泛化階段還需要人工構(gòu)建商品特征庫,后續(xù)要考慮自動構(gòu)建方法;②本文使用的觀點抽取方法不能有效識別隱式觀點,后續(xù)可考慮基于屬性聚類、依賴關(guān)系分析等方法進(jìn)行隱式觀點的抽取;③在線評論中不僅有文本的信息,還有圖片、視頻等視覺方面的信息,在后續(xù)研究中可以利用多模態(tài)情感分析來提升模型的性能。
參考文獻(xiàn)/References:
[1] HU M, LIU B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on knowledge discovery and data mining. New York: Association for Computing Machinery, 2004, 168-177.
[2] 周知, 方正東.融合依存句法與產(chǎn)品特征庫的用戶觀點識別研究[J]. 情報理論與實踐, 2021, 44(7): 111-117. (ZHOU Z, FANG Z D. Research on user opinion recognition based on dependency syntax and product feature thesaurus[J]. Information studies: theory & application, 2021, 44(7): 111-117.)
[3] 睢國欽, 那日薩, 彭振.基于深度學(xué)習(xí)和CRFs的產(chǎn)品評論觀點抽取方法[J]. 情報雜志, 2019, 38(5): 177-185. (SUI G Q, NA R S, PENG Z. Approach to extracting opinion from products reviews based on deep learning and CRFs[J]. Journal of intelligence, 2019, 38(5): 177-185.)
[4] 張詩林.基于Bi-LSTM和CRF的中文網(wǎng)購評論中商品屬性提取[J]. 計算機(jī)與現(xiàn)代化, 2019, 282(2): 93-97. (ZHANG S L. Commodity attributes extracting in Chinese shopping reviews based on Bi-LSTM and CRF[J]. Computer and modernization, 2019, 282(2): 93-97.)
[5] 李亞琴.電子商務(wù)平臺用戶在線評論比較研究[J]. 現(xiàn)代情報, 2017, 37(7): 79-83. (LI Y Q. Comparative research on online consumer reviews of e-commerce platforms[J]. Journal of modern information, 2017, 37(7): 79-83.)
[6] 曹喆, 郭慧蘭, 吳江, 等. 元宇宙的理想與現(xiàn)實:基于評論挖掘的VR產(chǎn)品用戶感知研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(1): 49-62. (CAO Z, GUO H L, WU J, et al. The ideal and reality of metaverse: user perception of VR products based on review mining[J]. Data analysis and knowledge discovery, 2023, 7(1): 49-62.)
[7] 王克勤, 劉朝明.基于在線評論的重要度績效競爭對手分析的產(chǎn)品設(shè)計改進(jìn)方法[J]. 計算機(jī)集成制造系統(tǒng), 2022, 28(5): 1496-1506. (WANG K Q, LIU C M. Product design improvement based on importance performance competitor analysis of online reviews[J]. Computer integrated manufacturing systems, 2022, 28(5): 1496-1506.)
[8] 石文華, 龔雪, 張綺, 等. 在線初次評論與在線追加評論的比較研究[J]. 管理科學(xué), 2016, 29(4): 45-58. (SHI W H, GONG X, ZHANG Q, et al. A comparative study on the first-time online reviews and appended online reviews[J]. Journal of management science, 2016, 29(4): 45-58.)
[9] 張艷豐, 王羽西, 彭麗徽, 等. 基于文本挖掘的在線用戶追加評論內(nèi)容情報研究——以京東商城手機(jī)評論數(shù)據(jù)為例[J]. 現(xiàn)代情報, 2020, 40(9): 96-105. (ZHANG Y F, WANG Y X, PENG L H, et al. Research on information of online users additional comments based on text mining——take the mobile phone review data of Jingdong mall as an example[J]. Journal of modern information, 2020, 40(9): 96-105.)
[10] 史麗麗, 林軍, 朱桂陽.基于混合神經(jīng)網(wǎng)絡(luò)的中文在線評論產(chǎn)品特征提取及消費者需求分析[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(10): 63-73. (SHI L L, LIN J, ZHU G Y. A hybrid neural network for product feature extraction and customer requirements analysis on Chinese online reviews[J]. Data analysis and knowledge discovery, 2023, 7(10): 63-73.)
[11] 韓璽, 蔣佩瑤, 韓文婷, 等. 醫(yī)生在線評價信息特征的影響因素研究:社會資本和社會交換理論的視角[J]. 信息資源管理學(xué)報, 2023, 13(1): 78-90. (HAN X, JIANG P Y, HAN W T, et al. Influencing factors of doctors online rating information characteristics: based on social capital theory and social exchange theory[J]. Journal of information resources management, 2023, 13(1): 78-90.)
[12] 余佳琪, 趙豆豆, 劉蕤.在線健康社區(qū)慢性病患者評論主題情感協(xié)同挖掘研究——以甜蜜家園為例[J/OL]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(10): 95-108. (YU J Q, ZHAO D D, LIU R. A topic-sentiment collaborative data mining on the chronic disease patients reviews in online health community —an evidence from “Sweet Homeland”[J]. Data analysis and knowledge discovery, 2023, 7(10): 95-108.)
[13] 孫寶生, 敖長林, 王菁霞, 等. 基于網(wǎng)絡(luò)文本挖掘的生態(tài)旅游滿意度評價研究[J]. 運籌與管理, 2022, 31(12): 165-172. (SUN B S, AO C L, WANG J X, et al. Evaluation of ecotourism satisfaction based on online text mining[J]. Operations research and management science, 2022, 31(12): 165-172.)
[14] 邰楊芳.健康教育類在線課程的用戶需求及評價挖掘分析[J]. 中國大學(xué)教學(xué), 2023(S1): 100-113. (TAI Y F. User demand and evaluation mining analysis of health education online courses[J]. China university teaching, 2023(S1): 100-113.)
[15] 李冠, 趙毅.基于在線評論的政府?dāng)?shù)據(jù)開放平臺用戶增量需求研究[J]. 數(shù)字圖書館論壇, 2022(12): 37-46. (LI G, ZHAO Y. Research on user incremental demand of government data open platform based on online comments[J]. Digital library forum, 2022(12): 37-46.)
[16] 肖宇晗, 林慧蘋.基于CWSA方面詞提取模型的差異化需求挖掘方法研究——以京東手機(jī)評論為例[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(1): 63-75. (XIAO Y H, LIN H P. Mining differentiated demands with aspect word extraction: case study of smartphone reviews[J]. Data analysis and knowledge discovery, 2023, 7(1): 63-75.)
[17] 丁晟春, 侯琳琳, 王穎.基于電商數(shù)據(jù)的產(chǎn)品知識圖譜構(gòu)建研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(3): 45-56. (DING S C, HOU L L, WANG Y. Product knowledge map construction based on the e-commerce data[J]. Data analysis and knowledge discovery, 2019, 3(3): 45-56.)
[18] 李葉葉, 李賀, 沈旺, 等. 基于多源異構(gòu)數(shù)據(jù)挖掘的在線評論知識圖譜構(gòu)建[J]. 情報科學(xué), 2022, 40(2): 65-73, 98. (LI Y Y, LI H, SHEN W, et al. Construction of online comment knowledge graph based on multi-source heterogeneous data mining[J]. Information science, 2022, 40(2): 65-73, 98.)
[19] PENG H Y, XU L, BING L D, et al. Knowing what, how and why: a near complete solution for aspect-based sentiment analysis[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(5): 8600-8607.
[20] ZHANG C, LI Q, SONG D, et al. A multi-task learning framework for opinion triplet extraction[C]// Findings of the Association for Computational Linguistics: EMNLP 2020, Online: Association for Computational Linguistics, 2020, 819-828.
[21] XU L, CHIA Y K, BING L D. Learning span-level interactions for aspect sentiment triplet extraction[C]// Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th international joint conference on natural language processing (Volume 1: Long Papers). Online: Association for Computational Linguistics, 2021: 4755-4766.
[22] YAN H, DAI J Q, JI T, et al. A Unified generative framework for aspect-based sentiment analysis[C]// Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th international joint conference on natural language processing (Volume 1: Long Papers). Online: Association for Computational Linguistics, 2021: 2416-2429.
[23] CHEN S W, WANG Y, LIU J, et al. Bidirectional machine reading comprehension for aspect sentiment triplet extraction[J]. arXiv, 2021: arxiv.org/abs/2103.07665.
[24] ZHANG W X, LI X, DENG Y, et al. Towards generative aspect-based sentiment analysis[C]// Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th international joint conference on natural language processing (Volume 2: Short Papers). Online: Association for Computational Linguistics, 2021: 504-510.
[25] LU Y J, LIU Q, DAI D, et al. Unified structure generation for universal information extraction[C]// Proceedings of the 60th annual meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin: Association for Computational Linguistics, 2022: 5755–5772.
[26] 吳江, 侯紹新, 靳萌萌, 等. 基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J]. 情報學(xué)報, 2017, 36(11): 1183-1191. (WU J, HOU S X, JIN M M, et al. LDA feature selection based text classification and user clustering in Chinese online health community[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(11): 1183-1191.)
[27] 單曉紅, 孔維嘉, 王蕊.社交媒體數(shù)據(jù)驅(qū)動的老年人智能化需求研究[J]. 情報理論與實踐, 2022, 45(8): 23-30. (SHAN X H, KONG W J, WANG R. Research on the intelligent needs of the elderly driven by social media data[J]. Information studies: theory & application, 2022, 45(8): 23-30.)
[28] 吳江, 李秋貝, 胡忠義, 等. 基于IPA模型的鄉(xiāng)村旅游景區(qū)游客滿意度分析[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(7): 89-99. (WU J, LI Q B, HU Z Y, et al. Analysis on tourist satisfaction of rural tourism attractions based on IPA model[J]. Data analysis and knowledge discovery, 2023, 7(7): 89-99.)
[29] 葉佳鑫, 熊回香, 孟璇.基于細(xì)粒度評論挖掘的在線圖書相似度計算研究[J]. 情報科學(xué), 2023, 41(1): 166-173. (YE J X, XIONG H X, MENG X. Online book similarity calculation based on fine-grained review mining[J]. Information science, 2023, 41(1): 166-173.)
[30] 肖寒瓊, 張馨遇, 肖宇晗, 等. 基于方面詞的用戶消費心理畫像方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2022, 6(6): 22-31. (XIAO H Q, ZHANG X Y, XIAO Y H, et al. Creating consumer psychology portrait with aspect words[J]. Data analysis and knowledge discovery, 2022, 6(6): 22-31.)
[31] DEVLIN J, CHANG M-W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv, 2019: arxiv.org/abs/1810.04805.
[32] MARTILLA J A, JAMES J C. Importance-performance analysis[J]. Journal of marketing, 1977, 41(1): 77-79.
[33] KANO N, SERAKU N, TAKAHASHI F, et al. Attractive quality and must-be quality[J]. Journal of the Japanese Society for Quality Control, 1984, 14(2): 39-48.
[34] 黃官偉, 邵立軻.基于在線評論與IPA-Kano模型的酒店服務(wù)質(zhì)量管理研究[J]. 上海管理科學(xué), 2021, 43(6): 12-17. (HUANG G W, SHAO L K. Research on hotel service quality management based on online reviews and IPA-Kano model[J]. Shanghai management science, 2021, 43(6): 12-17.)
[35] 李賀, 曹陽, 沈旺, 等. 基于LDA主題識別與Kano模型分析的用戶需求研究[J]. 情報科學(xué), 2021, 39(8): 3-11, 36. (LI H, CAO Y, SHEN W, et al. User demand based on LDA subject identification and Kano model analysis[J]. Information science, 2021, 39(8): 3-11, 36.)
[36] SUN Y, WANG S, FENG S, et al. ERNIE 3.0: large-scale knowledge enhanced pre-training for language understanding and generation[J]. arXiv, 2021: arxiv.org/abs/2107.02137.
作者貢獻(xiàn)說明/Author contributions:
陸晨晨:負(fù)責(zé)模型構(gòu)建和實驗設(shè)計,論文起草、撰寫與修改;
王? 昊:確定研究思路,指導(dǎo)實驗,提出論文框架,指導(dǎo)論文修改;
石? 斌:指導(dǎo)論文修改;
裘靖文:指導(dǎo)論文修改。
Research on Fine-grained Opinion Mining and Distribution Law of opinion for E-Commerce Customer Reviews
Lu Chenchen1,2? Wang Hao1,2? Shi Bin1,2? Qiu Jingwen1,2
1School of Information Management, Nanjing University, Nanjing 210023
2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023
Abstract: [Purpose/Significance] E-commerce customer reviews contain a wealth of valuable information. By identifying user opinions and analyzing the distribution patterns and differences, this research aims to provide insights for consumers, businesses, and platforms. [Method/Process] Firstly, based on the UIE model, user opinions were extracted from customer reviews in the three industries of furniture, snack, and mobile phone. Secondly, based on the product feature thesaurus and BERT model, the semantic similarity between words was calculated to generalize and filter opinions. Finally, based on the IPA model, statistical analysis and visualization of user opinions were conducted to provide optimization suggestions for businesses and platforms. [Result/Conclusion] In terms of opinion mining, the model performs well across all three industries with the F1 values of 79.85%, 83.28%, and 85.71% respectively, which confirms the effectiveness of the method. In the mobile phone industry, regularity analysis indicates user attention mainly focuses on performance, appearance, and battery, but significant differences in opinion distribution are observed among various platforms and brands. Moreover, user satisfaction generally shows a shifting trend of positive to negative from initial reviews to follow-up reviews.
Keywords: customer reviews? ? fine-gained sentiment analysis? ? opinion mining? ? pre-trained language model? ? IPA analysis
Fund Project(s): This work is supported by the Fundamental Research Funds for the Central Universities “Data Engineering and Knowledge Service Jiangsu Provincial University Key Laboratory Project”(Grant No. 0108-14370323).
Author(s): Lu Chenchen, master candidate; Wang Hao, professor, PhD, doctoral supervisor, corresponding author, E-mail: ywhaowang@nju.edu.cn; Shi Bin, master candidate; Qiu Jingwen, doctoral candidate.
Received: 2023-08-10? ? Published: 2024-06-12
基金項目:本文系中央高校基本科研業(yè)務(wù)費專項資金資助項目“數(shù)據(jù)工程和知識服務(wù)江蘇省高校重點實驗室項目”(項目編號:0108-14370323)研究成果之一。
作者簡介:陸晨晨,碩士研究生;王昊,教授,博士,博士生導(dǎo)師,通信作者,E-mail: ywhaowang@nju.edu.cn;石斌,碩士研究生;裘靖文,博士研究生。
收稿日期:2023-08-10? ? ? ? 發(fā)表日期:2024-06-12