国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

產(chǎn)品用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用——基于產(chǎn)品特征的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

2015-04-11 05:31:00吉順權(quán)
現(xiàn)代情報(bào) 2015年6期
關(guān)鍵詞:競(jìng)爭(zhēng)情報(bào)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

吉順權(quán) 周 毅

(蘇州大學(xué)社會(huì)學(xué)院,江蘇?蘇州 215123)

產(chǎn)品用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用——基于產(chǎn)品特征的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

吉順權(quán)周毅

(蘇州大學(xué)社會(huì)學(xué)院,江蘇?蘇州 215123)

〔摘要〕在總結(jié)用戶評(píng)論相關(guān)研究的基礎(chǔ)上,提出關(guān)聯(lián)規(guī)則理論在用戶評(píng)論挖掘中的作用,包括可以用來挖掘產(chǎn)品的優(yōu)劣勢(shì)特征及其程度大小,以及挖掘影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征。提出了基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型,包含確定用戶評(píng)論情報(bào)源及其采集、數(shù)據(jù)預(yù)處理及其產(chǎn)品特征提取、數(shù)據(jù)結(jié)構(gòu)化處理及其關(guān)聯(lián)規(guī)則分析和產(chǎn)品優(yōu)劣勢(shì)特征及其關(guān)鍵特征的對(duì)比分析四個(gè)模塊。最后通過實(shí)驗(yàn)論證了這一模型的價(jià)值。

〔關(guān)鍵詞〕企業(yè);用戶評(píng)論;產(chǎn)品特征;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;競(jìng)爭(zhēng)情報(bào)

產(chǎn)品用戶評(píng)論是用戶從自我體驗(yàn)或自我感知角度對(duì)某產(chǎn)品的優(yōu)點(diǎn)、缺點(diǎn)、性能、價(jià)值、使用滿意度等方面所發(fā)表的意見或態(tài)度,從用戶角度反映產(chǎn)品特征的優(yōu)劣。隨著交互網(wǎng)絡(luò)和電子商務(wù)的發(fā)展與成熟,關(guān)于產(chǎn)品的用戶評(píng)論數(shù)量正在急劇增長(zhǎng),作為開放的信息資源,用戶評(píng)論逐漸受到電商賣家、產(chǎn)品企業(yè)和同行競(jìng)爭(zhēng)企業(yè)的關(guān)注?;谟脩粼u(píng)論的口碑營(yíng)銷、產(chǎn)品特征分析、產(chǎn)品企業(yè)自我分析與定位、同行競(jìng)爭(zhēng)企業(yè)分析與發(fā)展等功能促使用戶評(píng)論成為新的情報(bào)源。作為新的情報(bào)源,產(chǎn)品用戶評(píng)論中包含豐富多樣的產(chǎn)品信息和用戶使用感受,幫助產(chǎn)品企業(yè)從用戶視角了解自己產(chǎn)品的優(yōu)勢(shì)和劣勢(shì),進(jìn)而提高產(chǎn)品性能,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)[1-2]。而且產(chǎn)品用戶評(píng)論有助于從本質(zhì)上認(rèn)識(shí)產(chǎn)品特點(diǎn)及對(duì)企業(yè)的影響,為企業(yè)競(jìng)爭(zhēng)情報(bào)研究提供相關(guān)的理論支撐[3]。

關(guān)聯(lián)規(guī)則由美國IBM Almaden Research Center的Rabesh Agrawal等人于1993年提出,反映一個(gè)事物與其他事物之間的相互依賴性或相互關(guān)聯(lián)性,從而達(dá)到認(rèn)識(shí)事物客觀規(guī)律[4],利用這一方法對(duì)產(chǎn)品用戶評(píng)論進(jìn)行數(shù)據(jù)挖掘,可以快速發(fā)現(xiàn)用戶評(píng)論中有價(jià)值的信息,對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)工作的開展具有重要意義。

1 用戶評(píng)論相關(guān)研究

目前關(guān)于用戶評(píng)論(或產(chǎn)品評(píng)論)的研究較少,從1996-2014年相關(guān)發(fā)文量才100多篇(CNKI以“用戶評(píng)論”或“產(chǎn)品評(píng)論”為篇名檢索結(jié)果),但近三年來發(fā)文量占總發(fā)文量的80%,所以,關(guān)于用戶評(píng)論的研究正處于發(fā)展階段,而且逐漸成為眾多學(xué)者關(guān)注的研究熱點(diǎn)。用戶評(píng)論相關(guān)研究主要集中在理論探討和實(shí)踐技術(shù)兩個(gè)方面。在理論探討上,主要包括用戶評(píng)論的特點(diǎn)、價(jià)值、信息源和在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用等方面,尤其是關(guān)于用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用研究,已涉及行業(yè)監(jiān)測(cè)、用戶研究、競(jìng)爭(zhēng)對(duì)手分析、企業(yè)戰(zhàn)略制定等多個(gè)領(lǐng)域[3,5]。在實(shí)踐技術(shù)上,主要包括用戶評(píng)論特征提取和用戶情感分析兩個(gè)方面。用戶評(píng)論產(chǎn)品特征提取主要是對(duì)提取算法進(jìn)行利用和改進(jìn),如自組織映射(SOM)屬性識(shí)別[6]、FP增長(zhǎng)算法[7]、CRF挖掘方法[8]等。

理論探討和實(shí)踐技術(shù)是用戶評(píng)論研究的兩大重要領(lǐng)域,理論探討在宏觀上論證用戶評(píng)論的價(jià)值和構(gòu)建企業(yè)競(jìng)爭(zhēng)情報(bào)模型,為具體實(shí)踐操作提供理論指導(dǎo),實(shí)踐技術(shù)在微觀上論證利用用戶評(píng)論價(jià)值的可行性,為理論創(chuàng)新提供技術(shù)支撐。理論探討中的基于用戶評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)模型構(gòu)建和實(shí)踐技術(shù)中的用戶評(píng)論特征提取算法優(yōu)化是目前用戶評(píng)論研究的熱點(diǎn)問題。

2 用戶評(píng)論中產(chǎn)品特征關(guān)聯(lián)規(guī)則挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)中的作用

從用戶評(píng)論相關(guān)研究中可以發(fā)現(xiàn),用戶評(píng)論研究已形成由理論到實(shí)踐的跨學(xué)科研究體系,不但強(qiáng)調(diào)了用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)中的價(jià)值,而且提供了產(chǎn)品特征提取和情感分析的技術(shù)支撐。然而,在應(yīng)用中,關(guān)于產(chǎn)品優(yōu)劣勢(shì)特征的重要性大小以及關(guān)鍵產(chǎn)品特征的挖掘仍然處于薄弱環(huán)節(jié),而基于用戶評(píng)論的產(chǎn)品特征關(guān)聯(lián)規(guī)則挖掘則可以彌補(bǔ)這一薄弱環(huán)節(jié)。

產(chǎn)品特征關(guān)聯(lián)規(guī)則挖掘涉及的主要參數(shù)有支持度、概率和規(guī)則重要性[9]。支持度(support)是用來衡量一個(gè)項(xiàng)集出現(xiàn)的頻率,它是用來對(duì)項(xiàng)集的限制,而非對(duì)規(guī)則的限制。概率又是關(guān)聯(lián)規(guī)則的可信度(confidence),表示用戶對(duì)某些規(guī)則感興趣,但這些規(guī)則必須是高概率,而非小概率,最小概率對(duì)項(xiàng)集沒有影響,對(duì)規(guī)則生成有影響。規(guī)則的重要性Importance(X?Y)=log(p(Y X)/p(Y not X)),描述了規(guī)則的關(guān)聯(lián)性大小,如果Importance=0,表示X和Y沒有關(guān)聯(lián)性;如果Importance>0,表示X和Y正相關(guān),X為真時(shí),Y的概率會(huì)上升;如果Importance<0,表示X和Y負(fù)相關(guān),X為真時(shí),Y的概率會(huì)下降。

產(chǎn)品的用戶評(píng)論形式多樣、內(nèi)容豐富,蘊(yùn)藏著重要的商業(yè)價(jià)值,對(duì)企業(yè)開展競(jìng)爭(zhēng)情報(bào)工作具有重要作用。用戶評(píng)論內(nèi)容不但體現(xiàn)了用戶從自我體驗(yàn)或自我感知角度對(duì)產(chǎn)品某些特征的積極評(píng)價(jià)和消極評(píng)價(jià),而且包含了用戶對(duì)產(chǎn)品的整體評(píng)價(jià),如用戶評(píng)論中的星級(jí)評(píng)價(jià)和分?jǐn)?shù)評(píng)價(jià)機(jī)制。因此,對(duì)用戶評(píng)論中的產(chǎn)品特征與評(píng)價(jià)進(jìn)行提取并形成記錄,再運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,尋找概率高、規(guī)則重要性為正且較大的規(guī)則,從而挖掘出用戶所認(rèn)為的優(yōu)勢(shì)特征和劣勢(shì)特征,以及這些特征的重要性大小。并利用用戶評(píng)論的總體評(píng)價(jià),發(fā)現(xiàn)影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征。

2.1挖掘產(chǎn)品的優(yōu)劣勢(shì)特征及其程度大小

用戶評(píng)論雖然形式多樣,但其內(nèi)容基本都含有對(duì)產(chǎn)品的優(yōu)勢(shì)特征和劣勢(shì)特征的評(píng)價(jià)。有的用戶評(píng)論將優(yōu)勢(shì)和劣勢(shì)評(píng)價(jià)分開,由多條評(píng)論文本組成,如中關(guān)村網(wǎng)上的產(chǎn)品評(píng)價(jià);有的用戶評(píng)論沒有詳細(xì)劃分,用戶直接評(píng)論,一條評(píng)論文本中既包含了優(yōu)勢(shì)特征也包含了劣勢(shì)特征,如淘寶網(wǎng)上的產(chǎn)品評(píng)論。對(duì)這些用戶評(píng)論中的產(chǎn)品特征進(jìn)行提取,同一ID的用戶評(píng)論形成優(yōu)勢(shì)特征和劣勢(shì)特征兩條記錄,優(yōu)勢(shì)特征形成“Feature A,F(xiàn)eature B…?Positive”形式的記錄,劣勢(shì)特征形成“Feature A,F(xiàn)eature C…?Negative”形式的記錄。然后,通過關(guān)聯(lián)規(guī)則Apriori算法對(duì)產(chǎn)品各優(yōu)勢(shì)特征和劣勢(shì)特征的分量和概率進(jìn)行計(jì)算,挖據(jù)出概率高、重要性大的產(chǎn)品特征,并顯示其重要性的大小,從而發(fā)現(xiàn)多個(gè)產(chǎn)品之間優(yōu)勢(shì)特征和劣勢(shì)特征的差異,幫助企業(yè)從用戶反饋的評(píng)論信息中重新了解產(chǎn)品的特性、功能和用戶的喜好。

2.2挖掘影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征

用戶評(píng)論中除了包含用戶對(duì)產(chǎn)品優(yōu)勢(shì)特征和劣勢(shì)特征的評(píng)價(jià)外,還包括用戶對(duì)產(chǎn)品的整體評(píng)價(jià),一般以總結(jié)性語言、產(chǎn)品評(píng)分以及星級(jí)評(píng)價(jià)來體現(xiàn)。用戶對(duì)產(chǎn)品的整體評(píng)價(jià)以用戶對(duì)產(chǎn)品優(yōu)勢(shì)特征和劣勢(shì)特征的評(píng)價(jià)為基礎(chǔ),受優(yōu)勢(shì)特征和劣勢(shì)特征的多少及重要性大小影響,但并不存在必然聯(lián)系,而關(guān)鍵特征則會(huì)直接影響用戶的最終評(píng)價(jià)。關(guān)鍵特征可能與挖掘產(chǎn)品優(yōu)劣勢(shì)特征中的最大重要性特征一致,也可能不一致,具體要看產(chǎn)品特征關(guān)聯(lián)規(guī)則挖掘的結(jié)果。

在挖掘產(chǎn)品優(yōu)劣勢(shì)特征及其重要性大小時(shí),同一ID的用戶評(píng)論形成兩條記錄,而挖掘影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征時(shí),同一ID的用戶評(píng)論形成一條記錄,其中包含了優(yōu)勢(shì)特征和劣勢(shì)特征,但最后產(chǎn)品的整體評(píng)價(jià)結(jié)果“Positive”或“Negative”以用戶的評(píng)分或星級(jí)評(píng)價(jià)來確定,最終形成“Feature A?Positive,F(xiàn)eature B?Positive,F(xiàn)eature C?Negative…?Positive”或者“Feature A?Positive,F(xiàn)eature B?Positive,F(xiàn)eature C?Negative…?Negative”形式的記錄。然后再進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘出影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征。產(chǎn)品的關(guān)鍵特征是產(chǎn)品的核心競(jìng)爭(zhēng)力,改善、提高產(chǎn)品關(guān)鍵特征的性能,是企業(yè)提高產(chǎn)品競(jìng)爭(zhēng)優(yōu)勢(shì)的最佳途徑。

3 基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型

有學(xué)者認(rèn)為,競(jìng)爭(zhēng)情報(bào)系統(tǒng)的根本任務(wù)是以戰(zhàn)略目標(biāo)為導(dǎo)向?qū)Ω?jìng)爭(zhēng)數(shù)據(jù)進(jìn)行有效的收集、存儲(chǔ)、處理和維護(hù),并不斷尋找和發(fā)現(xiàn)環(huán)境中可能影響企業(yè)生存和發(fā)展的先兆信息[10],而除此之外,對(duì)企業(yè)自身產(chǎn)品數(shù)據(jù)的收集和分析也是企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的重要任務(wù)。鑒于此,筆者以用戶評(píng)論為情報(bào)源,提出基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型,該模型的功能設(shè)計(jì)是對(duì)自身產(chǎn)品和競(jìng)爭(zhēng)對(duì)手產(chǎn)品進(jìn)行用戶評(píng)論數(shù)據(jù)搜集分析,并利用關(guān)聯(lián)規(guī)則進(jìn)行用戶評(píng)論數(shù)據(jù)挖掘,通過對(duì)比分析尋找產(chǎn)品各個(gè)特征在用戶心中的地位,以及發(fā)現(xiàn)影響產(chǎn)品研發(fā)與設(shè)計(jì)上的核心問題,進(jìn)而幫助企業(yè)全面了解自己產(chǎn)品和競(jìng)爭(zhēng)對(duì)手產(chǎn)品的競(jìng)爭(zhēng)形勢(shì)。

基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型包括4個(gè)模塊,分別是確定用戶評(píng)論情報(bào)源及其采集、數(shù)據(jù)預(yù)處理及其產(chǎn)品特征提取、數(shù)據(jù)結(jié)構(gòu)化處理及其關(guān)聯(lián)規(guī)則分析和產(chǎn)品優(yōu)劣勢(shì)特征及其關(guān)鍵特征的對(duì)比分析,如圖1所示。

圖1 基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型

3.1確定用戶評(píng)論情報(bào)源及其采集

在數(shù)字時(shí)代,網(wǎng)絡(luò)是所有信息傳遞、加工和處理的最好載體,正成為競(jìng)爭(zhēng)情報(bào)的一個(gè)主要來源[11],而用戶評(píng)論不僅包含了產(chǎn)品信息,更體現(xiàn)了用戶需求和用戶滿意度,而且在獲取方面更加方便與廉價(jià),所以用戶評(píng)論逐漸成為競(jìng)爭(zhēng)情報(bào)的重要來源。

作為重要的情報(bào)源,如何確定要采集的用戶評(píng)論是進(jìn)行產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的首要問題,用戶評(píng)論的來源主要有產(chǎn)品評(píng)測(cè)網(wǎng)、產(chǎn)品論壇網(wǎng)、電子商務(wù)網(wǎng)以及各大社交平臺(tái),每一個(gè)網(wǎng)站上的用戶評(píng)論都是有價(jià)值的情報(bào)信息,然而在選擇用戶評(píng)論情報(bào)源時(shí)需注意幾點(diǎn)問題:(1)網(wǎng)站是否具有權(quán)威性。網(wǎng)站權(quán)威性越高,其產(chǎn)品介紹越詳細(xì)精準(zhǔn),用戶評(píng)論才會(huì)更加全面精確。(2)用戶評(píng)論質(zhì)量是否具有保障。由于網(wǎng)絡(luò)水軍的存在,用戶評(píng)論的質(zhì)量也參差不齊,而用戶評(píng)論的質(zhì)量將直接影響關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的結(jié)果,所以只有高質(zhì)量的用戶評(píng)論情報(bào)源才能分析得出全面可靠的產(chǎn)品特征信息。(3)不同產(chǎn)品的用戶評(píng)論信息來源要一致。由于不同信息來源的評(píng)論機(jī)制不一樣,所以無法進(jìn)行對(duì)比分析。只有選擇同一信息來源的不同產(chǎn)品的用戶評(píng)論進(jìn)行數(shù)據(jù)挖掘,才能將挖掘結(jié)果進(jìn)行對(duì)比分析。而不同信息來源的用戶評(píng)論可以單獨(dú)進(jìn)行數(shù)據(jù)挖掘與對(duì)比分析,從而達(dá)到相互驗(yàn)證的效果。

在確定用戶評(píng)論情報(bào)源后,需對(duì)用戶評(píng)論中的相關(guān)數(shù)據(jù)進(jìn)行采集,具體采集信息需根據(jù)網(wǎng)站用戶評(píng)論內(nèi)容格式和企業(yè)需求來確定。

3.2數(shù)據(jù)預(yù)處理及其產(chǎn)品特征提取

已采集的用戶評(píng)論內(nèi)容是自然語言,具有多樣性、模糊性和不一致性,無法直接分析,需對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理以及產(chǎn)品特征提取。

數(shù)據(jù)預(yù)處理的目的是提取有效的用戶評(píng)論內(nèi)容,將內(nèi)容缺失、重復(fù)、異常的數(shù)據(jù)記錄進(jìn)行剔除,保證數(shù)據(jù)內(nèi)容的有效性。在用戶評(píng)論數(shù)據(jù)預(yù)處理完成后,利用相關(guān)工具或算法對(duì)用戶評(píng)論內(nèi)容進(jìn)行產(chǎn)品特征的提取和用戶態(tài)度的分析,其方法有ICTCLAS分詞法、自組織映射(SOM)屬性識(shí)別、FP增長(zhǎng)算法、CRF挖掘方法等,可以根據(jù)需要選擇。其目的是將用戶評(píng)論中涉及產(chǎn)品的優(yōu)勢(shì)特征和劣勢(shì)特征信息進(jìn)行提取分類,若用戶態(tài)度無法直接獲取,還需進(jìn)行用戶情感分析。

3.3數(shù)據(jù)結(jié)構(gòu)化處理及其關(guān)聯(lián)規(guī)則分析

由于產(chǎn)品特征的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘包括兩個(gè)方面,一方面是挖掘產(chǎn)品特征的優(yōu)劣勢(shì)及其重要性大??;另一方面是挖掘影響用戶對(duì)產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征。所以,在數(shù)據(jù)結(jié)構(gòu)化處理過程中需進(jìn)行兩個(gè)方面的處理:

(1)將產(chǎn)品特征進(jìn)行優(yōu)勢(shì)特征和劣勢(shì)特征的分類,即用戶評(píng)論中產(chǎn)品特征為優(yōu)勢(shì)時(shí),其對(duì)應(yīng)的觀點(diǎn)為“Positive”,產(chǎn)品特征為劣勢(shì)時(shí),其對(duì)應(yīng)的觀點(diǎn)為“Negative”,其數(shù)據(jù)結(jié)構(gòu)化樣式如表1所示。

表1 數(shù)據(jù)結(jié)構(gòu)化樣式(一)

(2)在產(chǎn)品優(yōu)勢(shì)特征和劣勢(shì)特征分類的基礎(chǔ)上,加入用戶對(duì)產(chǎn)品的整體評(píng)價(jià),整體評(píng)價(jià)的觀點(diǎn)“Positive”或“Negative”以評(píng)分或星級(jí)評(píng)價(jià)為判斷依據(jù),其數(shù)據(jù)結(jié)構(gòu)化樣式如表2所示。

表2 數(shù)據(jù)結(jié)構(gòu)化樣式(二)

在數(shù)據(jù)結(jié)構(gòu)化處理完成后,將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到Business Intelligence Development Studio、SAS等數(shù)據(jù)挖掘工具,利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘部署,得到相關(guān)規(guī)則、規(guī)則重要性以及規(guī)則的概率等結(jié)果。

為了保證數(shù)據(jù)挖掘的有效性,需要從數(shù)據(jù)和挖掘方法兩方面提供相應(yīng)保障措施。在數(shù)據(jù)上,需保證其時(shí)效性。在數(shù)字時(shí)代,產(chǎn)品(尤其是數(shù)字產(chǎn)品)的更新?lián)Q代速度逐步加快,用戶評(píng)論有效性的時(shí)間逐漸縮短,及時(shí)采集分析用戶評(píng)論數(shù)據(jù)是保證數(shù)據(jù)挖掘有效性的首要措施。在挖掘方法上要選擇正確的參數(shù)設(shè)置,保證挖掘規(guī)則的科學(xué)有效,也可以通過多次挖掘,論證挖掘規(guī)則的正確性。

3.4產(chǎn)品優(yōu)劣勢(shì)特征及其關(guān)鍵特征的對(duì)比分析

在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘得出的規(guī)則中,選取概率高、重要性大的規(guī)則進(jìn)行分析,發(fā)現(xiàn)優(yōu)勢(shì)特征、劣勢(shì)特征和關(guān)鍵特征。同時(shí)在多個(gè)產(chǎn)品之間進(jìn)行對(duì)比分析,發(fā)現(xiàn)自己產(chǎn)品和競(jìng)爭(zhēng)產(chǎn)品的差異,為產(chǎn)品定位和企業(yè)決策做參考。

產(chǎn)品優(yōu)勢(shì)特征和劣勢(shì)特征的對(duì)比分析可以全方位了解自己產(chǎn)品和競(jìng)爭(zhēng)對(duì)手產(chǎn)品之間的差異,發(fā)現(xiàn)自己與競(jìng)爭(zhēng)對(duì)手的擅長(zhǎng)點(diǎn)和薄弱點(diǎn),為今后產(chǎn)品設(shè)計(jì)作參考。同時(shí),通過優(yōu)劣勢(shì)的對(duì)比發(fā)現(xiàn)用戶在產(chǎn)品某一特征上的偏好,根據(jù)規(guī)則概率的大小了解用戶偏好的覆蓋面,間接進(jìn)行了用戶需求(偏好)的調(diào)查。

產(chǎn)品關(guān)鍵特征的對(duì)比分析可以發(fā)現(xiàn)產(chǎn)品推出后成功或者失敗的關(guān)鍵點(diǎn)。任何一個(gè)產(chǎn)品都不可能毫無瑕疵,也不可能得到每一位用戶的認(rèn)可,所以產(chǎn)品很有可能是因?yàn)槟骋惶卣鞯某晒Χ晒Γ灿锌赡苁且蚰骋惶卣鞯氖《?,如價(jià)格、做工、性能等特征。所以,關(guān)鍵特征的對(duì)比分析有助于企業(yè)快速掌握產(chǎn)品行業(yè)用戶最為關(guān)心的核心部分,若關(guān)鍵特征為優(yōu)勢(shì),則代表產(chǎn)品的核心能夠抓住用戶需求,可以在今后產(chǎn)品研發(fā)上持續(xù)利用;若關(guān)鍵特征為劣勢(shì),則代表產(chǎn)品的核心并不能使用戶滿意,在產(chǎn)品研發(fā)上需特別改進(jìn)。

4 實(shí)驗(yàn)研究

實(shí)驗(yàn)以Business Intelligence Development Studio為數(shù)據(jù)挖掘工具,以中關(guān)村在線中手機(jī)小米3和錘子T1的用戶評(píng)論為數(shù)據(jù)挖掘?qū)Ρ妊芯繉?duì)象,設(shè)計(jì)兩種類型的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型,一類是用來挖掘產(chǎn)品的優(yōu)勢(shì)特征和劣勢(shì)特征;另一類是用來挖掘影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征。在中關(guān)村在線小米3和錘子T1產(chǎn)品中的點(diǎn)評(píng)區(qū)里以默認(rèn)排序選擇前20條用戶的評(píng)論作為具體的數(shù)據(jù)采集對(duì)象,選擇默認(rèn)排序的目的是保證所采集的小米3和錘子T1評(píng)論盡可能在時(shí)間區(qū)域和熱度高低上保持一致性,從而保證對(duì)比研究的有效性。

4.1用戶評(píng)論數(shù)據(jù)確定與采集

由于中關(guān)村在線手機(jī)專區(qū)是我國目前規(guī)模較大的電子產(chǎn)品在線評(píng)測(cè)、評(píng)論網(wǎng)站,具有一定的可信任性,而且中觀村在線手機(jī)專區(qū)的評(píng)論信息格式較為規(guī)范,如圖2所示,方便采集和分析,所以確定中關(guān)村在線手機(jī)專區(qū)中的小米3和錘子T1點(diǎn)評(píng)區(qū)中的用戶評(píng)論為采集對(duì)象。利用數(shù)據(jù)采集器對(duì)網(wǎng)頁中的用戶評(píng)論內(nèi)容進(jìn)行采集,采集結(jié)果如表3所示。

圖2 中關(guān)村在線手機(jī)專區(qū)用戶評(píng)論采集示例

序號(hào)用戶名標(biāo) 題優(yōu) 點(diǎn)缺 點(diǎn)總 結(jié)評(píng)分時(shí)間1的方法是否錘子手機(jī)熱賣左右手是我最愛的地方…就是賣的太便宜 我感覺要是賣5000…外觀和系統(tǒng) 設(shè)計(jì)細(xì)節(jié) 很喜歡 惟一遺憾的是現(xiàn)在…5?2014/5/2310∶522種致遠(yuǎn)就是蟲叔呀很少人感覺到老羅的用心良苦…細(xì)節(jié)決定成敗,著重用戶體驗(yàn)可以說是國產(chǎn)機(jī)中的業(yè)界良心…電池續(xù)航雖然不錯(cuò)但是估計(jì)年輕人是不夠用的…中國人被性價(jià)比慣壞了,其實(shí)很多機(jī)器在變成國行之后為了…4.72014/5/235∶273yyh116177647個(gè)人對(duì)錘子手機(jī)的個(gè)人看法先說配置:一部手機(jī)的良好體驗(yàn)離不開配置的支持…手機(jī)下面三個(gè)實(shí)體鍵不是本人喜歡的…手機(jī)很出色,亮點(diǎn)也很多??梢钥闯鲥N子做了很多市場(chǎng)調(diào)查…52014/5/2111∶37……………………

4.2用戶評(píng)論數(shù)據(jù)預(yù)處理和產(chǎn)品特征提取

對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,剔除重復(fù)、無效、異常的數(shù)據(jù),并對(duì)得到的數(shù)據(jù)進(jìn)行分詞處理,提取產(chǎn)品相關(guān)特征,如表4所示。

表4 用戶評(píng)論中小米3特征提取(部分)

4.3數(shù)據(jù)結(jié)構(gòu)化處理及其關(guān)聯(lián)規(guī)則分析

將經(jīng)過特征提取后的用戶評(píng)論數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,形成與關(guān)聯(lián)規(guī)則挖掘需求相一致的結(jié)構(gòu)化數(shù)據(jù),如表5和表6所示。

表5 第一類型的用戶評(píng)論結(jié)構(gòu)化數(shù)據(jù)表(部分)

表6 第二類型的用戶評(píng)論結(jié)構(gòu)化數(shù)據(jù)表(部分)

在數(shù)據(jù)結(jié)構(gòu)化處理結(jié)束后,將得到的4張表格(每個(gè)產(chǎn)品需進(jìn)行兩種類型的數(shù)據(jù)挖掘,一共兩個(gè)產(chǎn)品)導(dǎo)入到SQL Server 2008數(shù)據(jù)庫中,利用Business Intelligence Development Studio進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘。在Business Intelligence Development Studio中建立Analysis Services項(xiàng)目,并與SQL Server 2008數(shù)據(jù)庫進(jìn)行連接,然后通過連接數(shù)據(jù)庫中4張關(guān)于小米3和錘子T1用戶評(píng)論的數(shù)據(jù)表建立數(shù)據(jù)源,然后再建立包含這4張數(shù)據(jù)表對(duì)象的數(shù)據(jù)源視圖。

在數(shù)據(jù)源和數(shù)據(jù)源視圖建立完成之后,新建本次研究的數(shù)據(jù)挖掘結(jié)構(gòu)。在數(shù)據(jù)挖掘技術(shù)選擇中選擇Microsoft關(guān)聯(lián)規(guī)則,同時(shí)選擇需要進(jìn)行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)源視圖。在挖掘結(jié)構(gòu)建立完成之后,便可以讓Business Intelligence Development Studio通過關(guān)聯(lián)規(guī)則的算法對(duì)已建立的挖掘結(jié)構(gòu)進(jìn)行部署和處理,之后便可以瀏覽關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘結(jié)果。

4.4實(shí)驗(yàn)產(chǎn)品優(yōu)劣勢(shì)特征及其關(guān)鍵特征的對(duì)比分析

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘得出的規(guī)則較多,為了得到概率高、重要性大的規(guī)則,筆者對(duì)最小概率和最低重要性進(jìn)行了相關(guān)設(shè)置,以過濾意義不大的規(guī)則。

4.4.1產(chǎn)品的優(yōu)劣勢(shì)特征及其重要性分析

圖3、圖4是小米3和錘子T1用戶評(píng)論第一類型關(guān)聯(lián)規(guī)則挖掘得出的結(jié)果,按重要性由大到小排序。從圖中可以發(fā)現(xiàn),小米3手機(jī)最大的優(yōu)勢(shì)特征是“硬件配置”(0.398),其它比較重要的優(yōu)勢(shì)特征有“價(jià)格”(0.309)和“屏幕”(0.265)。小米3手機(jī)的最大劣勢(shì)特征是“散熱”(0.449),其它比較重要的劣勢(shì)特征是“電池”(0.380)。而錘子T1手機(jī)最大的優(yōu)勢(shì)特征是“硬件配置”(0.489),其它比較重要的優(yōu)勢(shì)特征是音質(zhì)(0.294)。錘子T1手機(jī)最大的劣勢(shì)特征是“價(jià)格”(0.360)。

圖3 小米3手機(jī)特征關(guān)聯(lián)規(guī)則和依賴關(guān)系網(wǎng)絡(luò)

圖4 錘子T1手機(jī)特征關(guān)聯(lián)規(guī)則和依賴關(guān)系網(wǎng)絡(luò)

通過對(duì)比小米3和錘子T1的手機(jī)特征,可以發(fā)現(xiàn)兩款手機(jī)在特征上的差異性,是企業(yè)需要收集的重要情報(bào)。圖5顯示的是高重要性規(guī)則結(jié)果,在優(yōu)勢(shì)特征上,小米3優(yōu)勢(shì)特征有硬件配置、價(jià)格、屏幕、系統(tǒng)軟件等,錘子T1優(yōu)勢(shì)特征有硬件配置、音質(zhì)、系統(tǒng)軟件、外觀設(shè)計(jì)和配件設(shè)置等,錘子T1手機(jī)的優(yōu)勢(shì)特征多于小米3,而且同樣的優(yōu)勢(shì)特征中,錘子T1的優(yōu)勢(shì)特征重要性也略高于小米3。在劣勢(shì)特征上,小米3劣勢(shì)特征有散熱和電池,錘子T1劣勢(shì)特征只有價(jià)格。所以,從產(chǎn)品特征挖掘結(jié)果看,錘子T1的優(yōu)勢(shì)明顯高于小米3,說明錘子T1在功能特征上更能迎合用戶的需求。

圖5 小米3和錘子T1手機(jī)特征對(duì)比圖圖表來源:筆者根據(jù)挖掘結(jié)果規(guī)則繪制

4.4.2影響產(chǎn)品整體評(píng)價(jià)的關(guān)鍵特征分析

圖6是小米3和錘子T1用戶評(píng)論第二類型關(guān)聯(lián)規(guī)則挖掘得出的結(jié)果,按重要性由大到小排序。

影響小米3整體評(píng)價(jià)的3條最重要的規(guī)則分別是“系統(tǒng)軟件=Positive->Opinion=Positive”(0.465)、“硬件配置=Positive->Opinion=Positive”(0.368)、“系統(tǒng)軟件=Positive,硬件配置=Positive->Opinion=Positive”(0.301)。所以,影響小米3整體評(píng)價(jià)的關(guān)鍵特征是“系統(tǒng)軟件”和“硬件配置”,而且作為優(yōu)勢(shì)特征的“系統(tǒng)軟件”和“硬件配置”決定了用戶對(duì)小米3的積極認(rèn)可。并且在其它關(guān)聯(lián)規(guī)則中同樣可以發(fā)現(xiàn)“系統(tǒng)軟件”和“硬件配置”對(duì)小米3整體評(píng)價(jià)的重要影響,如“電池=Negative,系統(tǒng)軟件=Positive->Opinion=Positive”(0.239)、“價(jià)格=Negative,硬件配置=Positive->Opinion=Positive”(0.239)、“外觀設(shè)計(jì)=Negative,系統(tǒng)軟件=Positive->Opinion=Positive”(0.239)、“拍照=Negative,硬件配置=Positive->Opinion=Positive”(0.239)、“拍照=Negative,系統(tǒng)軟件=Positive->Opinion=Positive”(0.239),這些規(guī)則說明了小米3的一些劣勢(shì)特征對(duì)小米3整體評(píng)價(jià)的影響不大。

影響錘子T1整體評(píng)價(jià)的四條最重要的規(guī)則分別是“價(jià)格=Negative->Opinion=Negative”(0.380)、“外觀設(shè)計(jì)=Negative,價(jià)格=Negative->Opinion=Negative”(0.322)、“外觀設(shè)計(jì)=Negative->Opinion=Negative”(0.322)、“系統(tǒng)軟件=Positive->Opinion=Positive”(0.301)。所以影響錘子T1整體評(píng)價(jià)的關(guān)鍵特征有“價(jià)格”、“外觀設(shè)計(jì)”、“系統(tǒng)軟件”。然而“價(jià)格”、“外觀設(shè)計(jì)”作為劣勢(shì)特征直接影響了用戶對(duì)錘子T1的消極評(píng)價(jià),“系統(tǒng)軟件”雖然作為優(yōu)勢(shì)特征對(duì)錘子T1的整體評(píng)價(jià)也有較強(qiáng)影響,但其重要性不及“價(jià)格”和“外觀設(shè)計(jì)”。而且在其它特征關(guān)聯(lián)規(guī)則中也證明了“價(jià)格”和“外觀設(shè)計(jì)”對(duì)錘子T1的決定性影響,如“圖像=Positive,價(jià)格=Negative->Opinion=Negative”(0.222)、“音質(zhì)=Positive,價(jià)格=Negative->Opinion=Negative”(0.222)、“音質(zhì)=Positive,外觀設(shè)計(jì)=Negative->Opinion=Negative”(0.222)、“圖像=Positive,外觀設(shè)計(jì)=Negative->Opinion=Negative”(0.222)。

綜上,在整體評(píng)價(jià)上,小米3以優(yōu)勢(shì)關(guān)鍵特征“系統(tǒng)軟件”獲得用戶的好評(píng),而錘子T1以劣勢(shì)關(guān)鍵特征“價(jià)格”失去用戶的好評(píng),所以,關(guān)鍵特征的優(yōu)劣是能否獲得用戶好評(píng)的核心。

小米3和錘子T1的優(yōu)劣勢(shì)特征分析和關(guān)鍵特征分析的結(jié)果對(duì)比驗(yàn)證了基于產(chǎn)品特征的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)中的價(jià)值。第一,在產(chǎn)品優(yōu)劣勢(shì)特征及其重要性大小挖掘中,發(fā)現(xiàn)了小米3和錘子T1各自產(chǎn)品的優(yōu)勢(shì)特征和劣勢(shì)特征數(shù)量的多少和特征的重要性大小,而且通過共同特征和差異特征的對(duì)比分析,從用戶體驗(yàn)角度全面了解了兩個(gè)產(chǎn)品的細(xì)節(jié)特征,以及它們?cè)谟脩粜闹械牟罹?,為產(chǎn)品細(xì)節(jié)設(shè)計(jì)提供用戶偏好的數(shù)據(jù)支撐。第二,在產(chǎn)品關(guān)鍵特征挖掘中,實(shí)驗(yàn)結(jié)果顯示,產(chǎn)品是否能夠獲得好評(píng),受產(chǎn)品關(guān)鍵特征影響,與優(yōu)劣勢(shì)特征的多少?zèng)]有必然的聯(lián)系,而且產(chǎn)品關(guān)鍵特征并不一定是重要性最大的優(yōu)勢(shì)特征或劣勢(shì)特征。產(chǎn)品關(guān)鍵特征受用戶格外關(guān)注,能夠影響用戶對(duì)產(chǎn)品的整體評(píng)價(jià)。然而在產(chǎn)品被推出時(shí),關(guān)鍵特征并不明確,只有在用戶充分體驗(yàn)產(chǎn)品之后才能逐漸顯現(xiàn)。所以,關(guān)鍵特征不具有預(yù)見性,只能夠通過數(shù)據(jù)挖掘發(fā)現(xiàn),并為產(chǎn)品的重新定義與銷售策略提供指導(dǎo),為今后產(chǎn)品的定位、設(shè)計(jì)、決策提供數(shù)據(jù)支撐。

圖6 影響小米3和錘子T1整體評(píng)價(jià)的手機(jī)特征關(guān)聯(lián)規(guī)則(圖左:小米3,圖右:錘子T1)

5 結(jié) 語

基于產(chǎn)品特征關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)應(yīng)用模型,對(duì)企業(yè)開展競(jìng)爭(zhēng)情報(bào)工作、進(jìn)行產(chǎn)品定位、制定戰(zhàn)略決策具有重要意義,尤其是產(chǎn)品關(guān)鍵特征的挖掘,對(duì)企業(yè)決策具有重要參考價(jià)值。隨著用戶評(píng)論價(jià)值的發(fā)現(xiàn),以及大數(shù)據(jù)環(huán)境下用戶生成內(nèi)容(微博、朋友圈等社交媒體信息)價(jià)值的利用,以網(wǎng)絡(luò)用戶生成內(nèi)容為情報(bào)源的企業(yè)競(jìng)爭(zhēng)情報(bào)研究將成為學(xué)界和業(yè)界研究的熱點(diǎn)問題,競(jìng)爭(zhēng)情報(bào)模型的優(yōu)化設(shè)計(jì)和用戶內(nèi)容提取及分析算法的改進(jìn)將成為今后企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)構(gòu)建所關(guān)注的重點(diǎn)問題。

參考文獻(xiàn)

[1]Hu M,Liu B.Mining and summarizing customer reviews[C]∥Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,New York:ACM Press,2004:168-177.

[2]Popescu A M,Etzioni O.Extracting product features and opinions from review[C]∥Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005:339-346.

[3]周珍妮,黃曉斌.網(wǎng)絡(luò)用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)研究中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2012,(5):15-20.

[4]況莉莉.Microsoft關(guān)聯(lián)規(guī)則在高校圖書館中的應(yīng)用[J].宿州學(xué)院學(xué)報(bào),2011,(5):109-113.

[5]施國良,程楠楠.Web環(huán)境下產(chǎn)品評(píng)論挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用[J].情報(bào)雜志,2011,(11):10-14,51.

[6]余傳明.從用戶評(píng)論中挖掘產(chǎn)品屬性——基于SOM的實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2009,(5):61-66.

[7]王永,張勤,楊曉潔.中文網(wǎng)絡(luò)評(píng)論中產(chǎn)品特征提取方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(12):70-73.

[8]呂品,鐘珞,蔡敦波,等.基于CRF的中文評(píng)論有效性挖掘產(chǎn)品特征[J].計(jì)算機(jī)工程與科學(xué),2014,(2):359-366.

[9]Zhao Hui Tang,Jamie MacLennan.數(shù)據(jù)挖掘原理與應(yīng)用——SQL Server 2005數(shù)據(jù)庫[M].鄺祝芳,焦賢龍,高升,譯.北京:清華大學(xué)出版社,2007:191-205.

[10]劉慶紅,李碩,王晰巍.Web集成環(huán)境下企業(yè)競(jìng)爭(zhēng)情報(bào)模型構(gòu)建研究[J].情報(bào)科學(xué),2006,(11):1713-1717.

[11]王軍.網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)源的開發(fā)利用[J].情報(bào)科學(xué),2004,(5):574-577.

(本文責(zé)任編輯:馬卓)

Application of Product User Review in Research on Enterprise Competitive Intelligence——Association Rules Data Mining Based on Product Features

Ji ShunquanZhou Yi

(School of Society,Soochow University,Suzhou 215123,China)

〔Abstract〕On the basis of summarizing the research on user reviews,this paper put forward the significance of mining user reviews with association rules.It included mining the positive features and the negative features of the products,and mining the key features which affect the overall evaluation of products.And then this paper put forward the model of enterprise competitive intelligence which based on the association rules data mining from product features.It contained four modules of user review searching and collecting,data preprocessing and features extracting,data structured processing and association rules data mining,and positive and negative features analyzing and key features analyzing.In the end,this paper demonstrated the value of the model by experiment.

〔Key words〕enterprise;user reviews;product features;association rules;data mining;competitive intelligence

〔中圖分類號(hào)〕G203;TP391;G250.25

〔文獻(xiàn)標(biāo)識(shí)碼〕A

〔文章編號(hào)〕1008-0821(2015)06-0114-08

DOI:10.3969/j.issn.1008-0821.2015.06.021

作者簡(jiǎn)介:吉順權(quán)(1990-),男,碩士研究生,研究方向:網(wǎng)絡(luò)信息資源開發(fā)利用。

基金項(xiàng)目:“十二五”江蘇省高校重點(diǎn)專業(yè)建設(shè)專項(xiàng)——圖書情報(bào)與檔案管理(項(xiàng)目編號(hào):58315312)的階段性成果之一。

收稿日期:2015-03-09

·企業(yè)情報(bào)工作·

猜你喜歡
競(jìng)爭(zhēng)情報(bào)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
區(qū)域科技創(chuàng)新體系中的產(chǎn)業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)構(gòu)建與思考
面向企業(yè)管理創(chuàng)新的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制研究
商情(2016年42期)2016-12-23 16:37:44
戰(zhàn)略管理理論的演進(jìn)與競(jìng)爭(zhēng)情報(bào)研究
企業(yè)招投標(biāo)中的競(jìng)爭(zhēng)情報(bào)保障
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
微山县| 修水县| 青田县| 丰顺县| 策勒县| 美姑县| 株洲市| 张北县| 沐川县| 沛县| 云林县| 老河口市| 大连市| 来宾市| 芜湖县| 临武县| 莫力| 科尔| 新河县| 巴彦淖尔市| 安岳县| 轮台县| 城步| 洛扎县| 天水市| 长子县| 耿马| 富顺县| 铜山县| 额济纳旗| 平利县| 兴山县| 阿拉尔市| 凤山县| 吉林市| 开江县| 盘山县| 虞城县| 天等县| 班戈县| 商洛市|