●許 凡,施國良(河海大學商學院,南京211100)
基于文本挖掘的企業(yè)微博評論關(guān)注點研究
●許凡,施國良(河海大學商學院,南京211100)
[關(guān)鍵詞]文本挖掘;微博;微博評論
[摘要]以樂蜂網(wǎng)新浪官方微博為研究對象,利用文本挖掘技術(shù)對樂蜂網(wǎng)微博評論進行分析,找出用戶的關(guān)注點以及對這些關(guān)注點進行影響力強弱程度分析,最終提取出29個關(guān)注點,為企業(yè)了解用戶興趣、需求、能力等提供幫助,給企業(yè)在微博營銷、建立用戶口碑方面提供一些建議,增進企業(yè)與用戶交流與合作,促進網(wǎng)絡(luò)資源的挖掘與利用。
目前,很多企業(yè)正在使用社會化媒體作為客戶服務(wù)工具,傾聽客戶的問題并及時解決。企業(yè)不僅對社會化媒體上消費者的聲音和市場信息越來越感興趣,而且將社會化媒體作為有前途的市場營銷策略應用工具之一。[1]據(jù)新浪微博與CIC聯(lián)合發(fā)布的《2012企業(yè)微博白皮書》顯示,截至2012年2月底,共有130565家企業(yè)開通新浪微博。其中,包括143家世界500強企業(yè),207家中國500強企業(yè),1060家外國企業(yè)等。[2]微博等社交媒體的出現(xiàn)和流行,使客戶能更加積極主動地獲取和傳播有關(guān)產(chǎn)品和服務(wù)的評價信息,[3]也為企業(yè)提供及時獲取可靠產(chǎn)品評論的新渠道。因此,企業(yè)將微博作為一個平臺,拉近與用戶的距離,進行更多的互動交流,企業(yè)利用微博評論進行分析,幫助企業(yè)更好地了解用戶需求,發(fā)現(xiàn)自身優(yōu)勢劣勢,更好地對抗競爭對手,贏得市場。
關(guān)于微博評論,國外學者對這方面的研究較多。Sotiriadis[4]等人以Twitter為例,運用概念模型描述了旅游消費者如何利用評論進行旅游決策,并檢驗了其對旅游決策的影響;Mimi Zhang[5]等人研究了企業(yè)如何通過口碑交流平臺(Twitter)實現(xiàn)企業(yè)與消費者之間的互動,得出了企業(yè)在Twitter上的參與程度會直接與消費者在線口碑交易參與相關(guān)的結(jié)果。Jansen, B[6]等人研究了在Twitter上的口碑傳播,發(fā)現(xiàn)大約有五分之一的推文包含品牌、產(chǎn)品或服務(wù),約有五分之一是表達某種情緒,積極情緒超過一半,消極情緒的推文僅占三分之一。他們認為Twitter是一個能為企業(yè)開拓其整體品牌戰(zhàn)略的潛在平臺,是能夠關(guān)注經(jīng)濟和競爭情報來源的關(guān)鍵應用程序。微博作為社會化媒體的一種形式,擁有海量的數(shù)量,從中挖掘出有價值的信
息,需要信息技術(shù)和社會學方法的支撐。
微博評論是中文微博非常重要的特點之一,它與微博轉(zhuǎn)發(fā)共同組成評價熱點主題的兩個重要指標。[7]微博評論與一般網(wǎng)絡(luò)評論的主要區(qū)別在于,網(wǎng)絡(luò)評論僅僅是消費者針對產(chǎn)品本身發(fā)表自己的觀點、看法,而微博評論涉及方面更廣,針對企業(yè)微博評論而言,可能會包含用戶對企業(yè)活動、產(chǎn)品、物流、競爭對手等方面評價,但具體涉及哪些方面,需要通過后面的實驗進行探究。
(1)同一評論包含多方面評價。同一條評論下會涉及與企業(yè)相關(guān)的多個方面進行評價,如:“曬單啦,甩不掉的4D面膜,最愛的保加利亞玫瑰三件套,眼毛膏用的是倩碧的,剛到貨就涂上了,嘻嘻,快遞很給力,很喜歡,包裝也好贊。”在這條評論中,“曬單”屬于企業(yè)微博活動,“4D面膜”、“保加利亞玫瑰三件套”、“倩碧”屬于品牌,評論內(nèi)容涉及“活動”、“品牌”、“快遞”、“包裝”這幾個方面。因此,在對此類微博評論進行處理的時候,需要將同一評論中所涉及的特征按特征分類提取,而不是將所有特征作為一個整體進行提取。
(2)微博評論觀點明確。微博評論的觀點傾向很明確,一般而言,用戶會通過微博評論表達自己的主觀感受。因此,評論觀點中涉及的評價會有明確的情緒傾向。比如,好評或者差評、積極情緒或消極情緒。如上一例子中,“甩不掉”、“最愛”、“嘻嘻”、“很給力”、“很喜歡”、“好贊”這些極性詞都反映了用戶的積極情緒,整體評價是好評。當然,一條評論中也會涉及多種情緒,在本文中將用戶在微博評論中使用的極性詞分為:好評、中評、差評。
(3)評論中隱藏特征。在微博評論中不會明確提出評價的具體特征,但是通過評論內(nèi)容可以確定評價特征。如:“剛用靜佳的東西沒多久,但是真心覺得不錯,包裝漂亮而且效果也很好?!逼渲?,“東西不錯”并沒有明確提到是什么特征,但通過理解可以當作是對產(chǎn)品“整體”評價,像這類評論往往只有觀點極性詞。因此,在處理這類微博評論的時候需要為評論添加默認的特征,不能忽略這樣的評論。
(4)評論中咨詢問題。微博評論中會出現(xiàn)用戶向企業(yè)客服提出各種方面的疑問,這是企業(yè)與用戶之間進行互動,用戶將問題表達在微博評論中,等待企業(yè)客戶去解答。如:“樂蜂網(wǎng),想請問一下,25歲,眼周圍有細紋,用什么眼霜比較好呢?謝謝”這條評論中包含用戶對“美妝護膚品”的咨詢。
(5)評論中有企業(yè)客服代表與用戶的互動。微博評論中不僅有用戶的評論,還有企業(yè)客服代表的回復,企業(yè)客服代表會根據(jù)用戶提出的疑問有選擇性地作回應,這就是企業(yè)與用戶的互動行為,同時,也是微博評論與一般網(wǎng)絡(luò)評論的區(qū)別之一。如:“親愛滴蜂寶貝~實在是抱歉了,因為小蜜蜂家最近的活動太給力了,導致訂單量爆增~所以在配送方面有些延遲~還請寶貝多多諒解~不過寶貝放心,小蜜蜂已經(jīng)在加快速度打包發(fā)貨了。”這條評論是由于用戶在微博評論里反映物流太慢,企業(yè)客服作出相應的回復。
3.1研究對象選擇
選擇樂蜂網(wǎng)企業(yè)官方微博評論數(shù)據(jù)為研究對象,艾瑞數(shù)據(jù)[8]顯示,2011年樂蜂網(wǎng)的銷售額為6.3億,位居化妝品垂直B2C首位,2012年4月,樂蜂網(wǎng)融資4000萬美元,在資本推動下其發(fā)展明顯加快;樂蜂網(wǎng)基于明星達人和傳統(tǒng)媒體資源優(yōu)勢,定位于服務(wù)化專業(yè)平臺。樂蜂網(wǎng)除了兼有成熟品牌外,自主研發(fā)的品牌也占有很大比例。因此,以樂蜂網(wǎng)微博評論作為研究對象,對同行業(yè)的其他電商品牌更有指導意義。
3.2研究時間選取
利用Google Trends決定研究時間的選取。將“樂蜂網(wǎng)”輸入到Google Trends,搜索2013年全年熱度關(guān)鍵詞隨時間變化趨勢,可以明顯看出,3月份左右達到最高峰,可見3月份是最活躍時期,進一步推斷3月份是化妝品電商行業(yè)最忙碌的月份。因此,將采集2013年3月1日至2013年3月31日期間樂蜂網(wǎng)新浪官方微博的微博評論作為分析數(shù)據(jù)。
3.3數(shù)據(jù)來源
實驗數(shù)據(jù)來自樂蜂網(wǎng)新浪官方微博數(shù)據(jù),利用火狐瀏覽器的兩個插件metastudio和datascaper來爬取新浪微博數(shù)據(jù),共抽取2013年3月1日至3月31日的微博評論2108條。評論采集結(jié)束后,并不能直接用于分析,還需要對采集的評論進行進一步處理,除去廣告評論、重復評論和無效評論共121條,預處理后最終確定1987條微博評論用于后續(xù)分析。
3.4實驗過程
(1)中文分詞。中文分詞的目的是為了后續(xù)更好地進行觀點提取,本研究采用中科院開發(fā)的ICTCLAS系統(tǒng)[9]進行中文分詞處理,通過ICTCLAS對評論進行分詞,將分詞結(jié)果保存至TXT文本。
(2)特征提取。特征提取在本文中就是指關(guān)注點的提取,由于微博評論涉及方面較廣,因此,本文將采用企業(yè)網(wǎng)站首頁的商品分類提取商品特征。同時,結(jié)合波特價值鏈提取企業(yè)活動特征。
表1 部分極性詞
(3)極性詞提取。極性詞提取是指提取評論中表達用戶觀點的詞,本文通過人工手動提取極性詞,主要包括四種類型,分別是正面詞、負面詞、否定詞和中性詞,表1列舉了本文提取的部分極性詞。
(4)觀點提取和傾向性判斷。是指提取評論中評論者所表達的觀點及確定評論的情感傾向性,最終提取的觀點模式為〈(特征詞,極性詞),觀點傾向〉,本文的觀點傾向性分為好評、中評和差評。采用GATE軟件中的GATE Developer對評論中的特征以及極性詞進行標注,根據(jù)GATE軟件運行結(jié)果,參照觀點評論提取模式手動提取評論觀點,并判斷評論傾向性。
(5)統(tǒng)計結(jié)果。計算出各類特征的評論總數(shù)以及各自的好評數(shù)、中評數(shù)和差評數(shù)。
4.1實驗結(jié)果描述
本文最終提取的關(guān)注點共有29個,將提取的關(guān)注點進行整理后形成表2。
4.2觀點強弱程度分析
對以上29個關(guān)注點進行強弱程度比較,分析出用戶在哪些關(guān)注點上關(guān)注的程度較高,哪些次之,哪些關(guān)注點幾乎不影響用戶行為。采用觀點關(guān)注度和觀點一致性將關(guān)注點分為四種,分別為強關(guān)注點、亞關(guān)注點、弱關(guān)注點和非關(guān)注點。
按照實驗結(jié)果,分別對本文高低關(guān)注度、高低一致性和四種關(guān)注點進行定義。
定義一:以評論比例作為判斷高低關(guān)注度的指標,評論比例大于1%屬于高關(guān)注度,評論比例小于1%則為低關(guān)注度。如,以“美妝工具”和“網(wǎng)站體驗”兩個指標為例,“美妝工具”的評論數(shù)量為1,評論比例為0.06%,屬于低關(guān)注度;“網(wǎng)站體驗”的評論數(shù)量為30,評論比例為1.76%,屬于高關(guān)注度。
定義二:以好評、中評和差評比例作為判斷高低一致性的指標,這三種比例中只要有其中一項大于80%,即為高一致性,若其中一項小于80%,則為低一致性。以“淘寶”和“效率”兩個因素為例,“淘寶”的好評、中評、差評比例分別為75%、25%、0%,因此,“淘寶”為低一致性;“效率”的好評、中評、差評比例分別為86%、14%、0%,因此,效率為高一致性。
表2 關(guān)注點的觀點傾向性及觀點比例
定義三:強關(guān)注點是指同時具有高關(guān)注度和高一致性,即評論比例大于1%且好評、中評、差評比例只要有其中之一大于80%的關(guān)注點。
定義四:亞關(guān)注點是指同時具有高關(guān)注度和低一致性。即評論比例大于1%且好評、中評、差評比例只要有其中之一小于80%的關(guān)注點。
定義五:弱關(guān)注點是指同時具有低關(guān)注度和高一致性。即評論比例小于1%且好評、中評、差評比例只要有其中之一大于80%的關(guān)注點。
定義六:非關(guān)注點是指同時具有低關(guān)注度和低一致性。即評論比例小于1%且好評、中評、差評比例只要有其中之一小于80%的關(guān)注點。
通過對這些關(guān)注點進行分析,根據(jù)關(guān)注點給用戶帶來的參考意義以及對用戶行為產(chǎn)生的影響進行分類,最終結(jié)果如表3所示。
表3 關(guān)注點分類
4.3分析與討論
(1)強關(guān)注點會對用戶行為起決定性作用。很顯然,訂單和送貨都是和用戶購買產(chǎn)品的產(chǎn)品配送有關(guān),如果用戶在決定購買產(chǎn)品時關(guān)注點在訂單、送貨上,由于差評比例較高,可能會作出放棄購買的決策;如果用戶的關(guān)注點集中于產(chǎn)品整體、李靜、工作人員、價格等,就可能作出購買產(chǎn)品的決定。這里要說明的是李靜是樂蜂網(wǎng)的創(chuàng)始人,對于李靜的評價全為好評,可見廣大用戶對樂蜂網(wǎng)的認同感。
(2)亞關(guān)注點對用戶行為影響僅次于強關(guān)注點。雖然亞關(guān)注點也能對用戶行為起一定的決定作用,但是與強關(guān)注點相比而言,影響程度會相對較弱,有時可能會誤導用戶的決策。亞關(guān)注點起決定作用是因為其高關(guān)注度,但由于其低一致性的特點使用戶不能對一些信息作出明確判斷,因此引發(fā)的用戶行為可能會猶豫。如獎、營銷活動、公關(guān)活動是趨于差評的,且這些都與企業(yè)組織的活動有關(guān)。當用戶的關(guān)注點在這些時,就可能會產(chǎn)生放棄參加活動的決策。競爭行為趨于差評,表明用戶對企業(yè)進行的競爭行為不滿,可能會影響用戶對企業(yè)的整體評價和看法,進而對企業(yè)發(fā)表負面評論。售后服務(wù)和購物體驗趨于差評的,如果用戶的關(guān)注點集中于此,就可能使用戶作出放棄購買產(chǎn)品的決策。彩妝香水是趨于好評的,但是這種好評的傾向性沒有強關(guān)注點的傾向性強烈,如果用戶對此比較關(guān)注,可能會對彩妝香水之類的產(chǎn)品產(chǎn)生好感,進而可能會有購買該類產(chǎn)品的決策。在亞關(guān)注點中給用戶帶來最大困擾的是好評和差評傾向比例差不多的。比如上圖中的聚美優(yōu)品,該關(guān)注點的好評差評對半分,使用戶很難判斷該關(guān)注點的真實情況,如果用戶的關(guān)注點在這類上就可能會使用戶作出錯誤決策。
(3)弱關(guān)注點對用戶行為的影響是比較低的。雖然該類關(guān)注點的一致性比例較高,觀點傾向性很明顯,但是關(guān)注度比較低,一般用戶很少去關(guān)注,同時該類關(guān)注點的評論數(shù)量也較少。時尚女裝傾向于差評,如果用戶關(guān)注到此因素,可能也不會使用戶放棄購買行為,因為弱關(guān)注點對用戶的參考價值不大,對用戶行為的參考意義也不明顯。
(4)非關(guān)注點對用戶行為的影響最小。非關(guān)注點的關(guān)注度不高,一致性也不高,如果用戶關(guān)注點在淘寶、包裝、瘦身保養(yǎng)上,幾乎不會影響用戶行為決策,對用戶的參考意義也最小。
[參考文獻]
[1]丁振國,等.基于序列模式挖掘的社交網(wǎng)絡(luò)用戶行為分析[J].現(xiàn)代情報,2013(3):56-60.
[2]新浪微博與cic聯(lián)合發(fā)布.2012年企業(yè)微博白皮書[R].北京:2012.
[3]Henning-Thurau,T.The impact of new media on customer relationships[J].Journal of Service Research, 2010,3(13):311-330.
[4]Sotiriadis M D,van Zyl C.Electronic word-of-mouth and online reviews in tourism services:the use of twitter by tourists[J].Electronic Commerce Research,2013, 1 (31):103-124.
[5]Zhang M,etal.Businessengagementon Twitter:apath analysis[J].Electron Markets,2011,21:161-175.
[6]Jansen B J,et al.Twitter power:Tweets as electronic word of mouth[J].Journal of the American Society for Information Science,2009,11(60):2169-2188.
[7]唐曉波,王洪艷.基于潛在語義分析的微博主題挖掘模型研究[J].圖書情報工作,2012(24):114-119.
[8]艾瑞咨詢.化妝品垂直B2C兩強格局形成[EB/OL]. [2013-12-11].http://www.iresearch.com.cn.
[9]中國電子商務(wù)研究中心.2011年度中國B2C電子商務(wù)市場調(diào)查報告[R].杭州:2011.
[收稿日期]2014-10-14 [責任編輯]李金甌
[作者簡介]許凡(1989-),女,河海大學商學院碩士研究生,研究方向:企業(yè)競爭情報;施國良(1966-),男,副教授,碩士生導師,河海大學商學院管理科學與信息管理系副主任,研究方向:企業(yè)競爭情報。
[文章編號]1005-8214(2015)08-0045-04
[文獻標志碼]A
[中圖分類號]G252.8