■藺秀媛 許柏鳴(通訊作者) 南京林業(yè)大學(xué)家居與工業(yè)設(shè)計(jì)學(xué)院
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,電商購(gòu)物給人們的消費(fèi)帶來(lái)了極大便利,網(wǎng)購(gòu)評(píng)論文本也成了反映消費(fèi)者滿(mǎn)意度的重要評(píng)價(jià)依據(jù)。但消費(fèi)者網(wǎng)購(gòu)評(píng)論這一重要市場(chǎng)反饋信息很少被家具企業(yè)系統(tǒng)地、有條理地拿來(lái)作為消費(fèi)者滿(mǎn)意度的評(píng)價(jià)依據(jù),家具企業(yè)更多的還是采用電話回訪或入戶(hù)調(diào)研等方式進(jìn)行滿(mǎn)意度評(píng)估,這些傳統(tǒng)方式耗時(shí)耗力且回收的有效信息少,不能夠及時(shí)、有效地獲取到最新的消費(fèi)者滿(mǎn)意度意見(jiàn)。
因此,本文通過(guò)文本挖掘相關(guān)方法和手段對(duì)家具網(wǎng)購(gòu)評(píng)論進(jìn)行文本信息中滿(mǎn)意度特征的抽提和研究,能夠有效幫助家具行業(yè)、企業(yè)快速精準(zhǔn)地獲取消費(fèi)者滿(mǎn)意度關(guān)注點(diǎn),從而幫助企業(yè)打造品牌核心競(jìng)爭(zhēng)力,對(duì)促進(jìn)家具行業(yè)、企業(yè)在消費(fèi)者滿(mǎn)意度方面的發(fā)展有較大的現(xiàn)實(shí)意義。
文本挖掘是綜合性較強(qiáng)的學(xué)術(shù)領(lǐng)域,它借助計(jì)算機(jī)技術(shù)從半結(jié)構(gòu)化或非結(jié)構(gòu)化文本信息中獲取潛在或有價(jià)值的信息,從中提取出結(jié)構(gòu)化的文本信息進(jìn)行研究。文本挖掘基于統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和模式識(shí)別等技術(shù),將文本數(shù)據(jù)進(jìn)行高度自動(dòng)化分析,具備廣闊應(yīng)用場(chǎng)景。目前,文本挖掘挖已應(yīng)用于電子通信、法律稅務(wù)、客戶(hù)服務(wù)和社交媒體等專(zhuān)業(yè)領(lǐng)域。
本文根據(jù)網(wǎng)購(gòu)評(píng)論文本特點(diǎn),得出適用于本文的文本挖掘流程,主要包括以下四個(gè)步驟:(1) 文本數(shù)據(jù)采集,獲取網(wǎng)購(gòu)評(píng)論文本數(shù)據(jù)并儲(chǔ)存。(2) 數(shù)據(jù)預(yù)處理,通過(guò)數(shù)據(jù)清洗、中文分詞、去除停用詞等操作,將不符合要求的數(shù)據(jù)進(jìn)行剔除。(3) 文本分析,利用TF-IDF 算法、共現(xiàn)語(yǔ)義網(wǎng)絡(luò)等技術(shù),通過(guò)詞頻統(tǒng)計(jì)、建立共詞矩陣等方法,挖掘出評(píng)論文本中隱含的文本特征。(4) 結(jié)果可視化,利用詞云圖、共現(xiàn)語(yǔ)義網(wǎng)絡(luò)圖將文本挖掘結(jié)果可視化,更直觀展示研究結(jié)果。
文本數(shù)據(jù)來(lái)源于電商主流購(gòu)物網(wǎng)站,選擇實(shí)木床品類(lèi)中銷(xiāo)量前30 名的產(chǎn)品作為評(píng)論文本數(shù)據(jù)的研究對(duì)象,采集內(nèi)容包括評(píng)論的具體內(nèi)容、追評(píng)內(nèi)容、評(píng)論時(shí)間及評(píng)價(jià)類(lèi)型,總計(jì)爬取評(píng)論42794 條。
該部分主要包括數(shù)據(jù)清洗、中文分詞、去除停用詞三部分操作。數(shù)據(jù)清洗主要進(jìn)行空值、重復(fù)數(shù)據(jù)和無(wú)價(jià)值數(shù)據(jù)的剔除,以提高數(shù)據(jù)可使用價(jià)值。中文分詞選用Jieba 分詞進(jìn)行中文分詞處理。去停用詞部分結(jié)合哈爾濱工業(yè)大學(xué)停用詞表和百度停用詞表等常用停用詞表,根據(jù)實(shí)木床產(chǎn)品消費(fèi)者評(píng)論文本實(shí)際情況,加入部分家具領(lǐng)域停用詞,得到適用于本研究的停用詞表。通過(guò)上述操作,為后續(xù)消費(fèi)者滿(mǎn)意度文本特征分析奠定數(shù)據(jù)基礎(chǔ)。
詞頻-逆向文件頻率(TF-IDF)算法是目前關(guān)鍵詞抽取中使用最多的方法之一,該算法能夠?qū)ΤS们覜](méi)有意義的高頻詞進(jìn)行有效規(guī)避,目前被眾多學(xué)者在文本處理研究中加以應(yīng)用。TF-IDF 公式如式下:
其中,TF表示詞頻,IDF是逆文檔頻率,j為具體節(jié)點(diǎn),i為特征。本研究根據(jù)TF-IDF 計(jì)算結(jié)果,提取出實(shí)木床產(chǎn)品排名前30 名的特征詞,特征詞排名及頻次如表1 所示。
表1 實(shí)木床網(wǎng)購(gòu)評(píng)論特征詞頻次
運(yùn)用TF-IDF 算法提取的關(guān)鍵特征詞前30 名中,大多關(guān)鍵詞都對(duì)應(yīng)實(shí)木床產(chǎn)品的某一特征或消費(fèi)者的購(gòu)買(mǎi)體驗(yàn),準(zhǔn)確率較高。高頻詞主要突出了實(shí)木床產(chǎn)品質(zhì)量、做工、外觀設(shè)計(jì)、材質(zhì)、氣味等方面,這些方面是網(wǎng)購(gòu)用戶(hù)最為在意的。為了更加直觀方便地了解消費(fèi)者評(píng)論中關(guān)于實(shí)木床產(chǎn)品討論的焦點(diǎn),本文利用Python 中的WordCloud 進(jìn)行關(guān)鍵詞數(shù)據(jù)的可視化,在詞云圖中顯示權(quán)重為前200 的特征詞,可視化效果如圖1 所示。
圖1 可視化效果
詞云圖可以對(duì)消費(fèi)者網(wǎng)購(gòu)評(píng)論文本中出現(xiàn)頻率較高的特征詞予以視覺(jué)化展現(xiàn),更加直觀清晰地突出了消費(fèi)者關(guān)注的焦點(diǎn)特征,其中詞頻越高權(quán)重越大的詞字號(hào)越大。
共詞語(yǔ)義網(wǎng)絡(luò)分析能統(tǒng)計(jì)出一對(duì)詞語(yǔ)在文本中同時(shí)出現(xiàn)的頻率,可用于挖掘文本特征之間的關(guān)聯(lián)關(guān)系,揭示文本信息內(nèi)容的關(guān)聯(lián)和特征項(xiàng)所隱含的意義,若一起出現(xiàn)的頻率越高,則這對(duì)詞語(yǔ)之間的聯(lián)系越緊密。本文使用ROST CM6 軟件探究消費(fèi)者在實(shí)木床評(píng)論中高頻特征詞之間的關(guān)聯(lián),共詞矩陣如表2 所示,共現(xiàn)語(yǔ)義網(wǎng)絡(luò)如圖2所示。
圖2 實(shí)木床在線評(píng)論共現(xiàn)語(yǔ)義網(wǎng)絡(luò)
表2 實(shí)木床在線評(píng)論共詞矩陣
從共詞矩陣和共現(xiàn)語(yǔ)義網(wǎng)絡(luò)中可以看出,質(zhì)量、服務(wù)、做工、物流、態(tài)度、款式、材質(zhì)等高頻特征詞之間具有較強(qiáng)的關(guān)聯(lián)關(guān)系。共詞矩陣中,消費(fèi)者重點(diǎn)關(guān)注的特征詞互相之間共現(xiàn)次數(shù)很高,如“質(zhì)量”與“滿(mǎn)意”達(dá)到了3508 次共現(xiàn),“質(zhì)量”與“服務(wù)”達(dá)到了2494 次共現(xiàn)。共現(xiàn)語(yǔ)義網(wǎng)絡(luò)中,“質(zhì)量”“外觀”“物流”“做工”“氣味”“服務(wù)”等核心特征詞作為網(wǎng)絡(luò)的結(jié)點(diǎn),通過(guò)與其他特征詞結(jié)點(diǎn)的溝通和共現(xiàn)次數(shù)構(gòu)成相互間的語(yǔ)義關(guān)系,形成一個(gè)彼此相互聯(lián)系的網(wǎng)絡(luò),從而體現(xiàn)出網(wǎng)購(gòu)消費(fèi)者購(gòu)買(mǎi)實(shí)木床產(chǎn)品過(guò)程中的焦點(diǎn),是企業(yè)需要重點(diǎn)關(guān)注的內(nèi)容,具體分析如下。
(1) 以“質(zhì)量”為節(jié)點(diǎn):與“質(zhì)量”關(guān)聯(lián)的詞最多,有“滿(mǎn)意”“值得”“結(jié)實(shí)”“服務(wù)”“物流”等詞語(yǔ),由此可見(jiàn)消費(fèi)者對(duì)質(zhì)量最為看重,除了產(chǎn)品本身質(zhì)量,對(duì)服務(wù)質(zhì)量、物流質(zhì)量等也較為關(guān)注。
(2) 以“做工”為節(jié)點(diǎn):與“做工”關(guān)聯(lián)的詞有“結(jié)實(shí)”“精細(xì)”“水平”“質(zhì)量”等,說(shuō)明消費(fèi)者對(duì)實(shí)木床做工的耐用性、精細(xì)度、質(zhì)量等方面較為注重。
(3) 以“服務(wù)”為節(jié)點(diǎn):與“服務(wù)”關(guān)聯(lián)的詞有“態(tài)度”“耐心”“購(gòu)買(mǎi)”“安裝”等,說(shuō)明消費(fèi)者在網(wǎng)購(gòu)從購(gòu)買(mǎi)到安裝的全流程中都很注重服務(wù)相關(guān)的內(nèi)容,并且尤為關(guān)注服務(wù)態(tài)度。
本文以實(shí)木床消費(fèi)者網(wǎng)購(gòu)評(píng)論文本數(shù)據(jù)為研究對(duì)象,從滿(mǎn)意度文本詞頻特征和特征關(guān)聯(lián)兩部分進(jìn)行了實(shí)木床消費(fèi)者滿(mǎn)意度分析及可視化呈現(xiàn)。研究發(fā)現(xiàn),消費(fèi)者關(guān)注的重點(diǎn)主要圍繞質(zhì)量、做工、外觀設(shè)計(jì)、材質(zhì)、氣味等方面,并且互相之間存在關(guān)聯(lián)關(guān)系。相比于傳統(tǒng)的電話回訪、入戶(hù)調(diào)研等滿(mǎn)意度評(píng)估方式,文本挖掘的方式既節(jié)約調(diào)研成本和時(shí)間成本,又具備數(shù)據(jù)新穎、及時(shí)、真實(shí)等特點(diǎn)。因此,合理高效地運(yùn)用網(wǎng)購(gòu)評(píng)論數(shù)據(jù),從中挖掘消費(fèi)者關(guān)注的重點(diǎn),是今后家具領(lǐng)域消費(fèi)者滿(mǎn)意度研究的方向,本研究以期能為今后家具行業(yè)、家具企業(yè)在消費(fèi)者滿(mǎn)意度研究方面提供分析思路。