蔣楷丞,李艷婷*
(1.上海交通大學(xué)中國(guó)質(zhì)量發(fā)展研究院,上海 200240;2.上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240)
汽車產(chǎn)業(yè)是中國(guó)的重要支柱產(chǎn)業(yè)之一,隨著中國(guó)經(jīng)濟(jì)發(fā)展進(jìn)入新常態(tài),國(guó)家貿(mào)易形勢(shì)發(fā)生巨大變化,準(zhǔn)確地預(yù)測(cè)汽車銷量,無(wú)論是對(duì)政府從宏觀上整體掌控汽車行業(yè)的發(fā)展態(tài)勢(shì)和行業(yè)現(xiàn)狀,還是對(duì)生產(chǎn)銷售企業(yè)從微觀上研究市場(chǎng)行情、制定產(chǎn)銷計(jì)劃和庫(kù)存計(jì)劃都有著至關(guān)重要的作用。
自汽車行業(yè)興起以來(lái),汽車銷售預(yù)測(cè)便一直受到很多學(xué)者關(guān)注。Fantazzini等[1]使用多元模型對(duì)德國(guó)10個(gè)汽車品牌的汽車月度銷量進(jìn)行了預(yù)測(cè)。Landwehr等[2]將汽車設(shè)計(jì)質(zhì)量相關(guān)指標(biāo)納入預(yù)測(cè)模型,用以提高汽車預(yù)測(cè)準(zhǔn)確度。為提高汽車銷量的預(yù)測(cè)準(zhǔn)確度,學(xué)者通常會(huì)在模型中加入相關(guān)的宏觀經(jīng)濟(jì)指標(biāo)作為解釋變量,如國(guó)民生產(chǎn)總值、失業(yè)率和股市的變化指標(biāo)等。Wang等[3]使用基于自適應(yīng)網(wǎng)絡(luò)的模糊推理系統(tǒng),通過(guò)大量宏觀經(jīng)濟(jì)指標(biāo)來(lái)估算臺(tái)灣的新車銷量。Sangasoongsong等[4]在向量誤差修正模型(vector error correction model,VECM)中加入消費(fèi)者物價(jià)指數(shù)、失業(yè)率、汽油價(jià)格和新房開工數(shù)4個(gè)經(jīng)濟(jì)指標(biāo),有效提升了模型預(yù)測(cè)準(zhǔn)確率。實(shí)證分析表明,汽車銷量與國(guó)家部分宏觀經(jīng)濟(jì)指標(biāo)存在長(zhǎng)期均衡關(guān)系,將宏觀經(jīng)濟(jì)指標(biāo)加入預(yù)測(cè)模型能輔助銷量預(yù)測(cè)。
近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)上評(píng)論的興起,網(wǎng)絡(luò)口碑評(píng)論已經(jīng)發(fā)展成為消費(fèi)者購(gòu)買決策的重要參考依據(jù),對(duì)產(chǎn)品銷量有著重要影響,因此網(wǎng)上的口碑?dāng)?shù)據(jù)也逐漸作為解釋變量加入預(yù)測(cè)模型。Fan等[5]利用樸素貝葉斯(naive Bayes,NB)算法的情感分析方法,從汽車論壇的在線評(píng)論內(nèi)容中提取情感指標(biāo),并將其整合到模型的仿制系數(shù)中,有效提高了年度汽車預(yù)測(cè)精度。Pai等[6]綜合推文和股票數(shù)據(jù)以及歷史銷量數(shù)據(jù),使用最小二乘支持向量回歸(least squares support vector regression,LSSVR)對(duì)美國(guó)月度汽車總銷量進(jìn)行預(yù)測(cè)。劉業(yè)政等[7]通過(guò)口碑評(píng)論提取某些汽車品牌的情感極性來(lái)對(duì)這些汽車品牌月度銷量進(jìn)行預(yù)測(cè)。
在現(xiàn)有研究中,一方面,大多數(shù)學(xué)者對(duì)評(píng)論情感在汽車銷量預(yù)測(cè)上的應(yīng)用還不夠完善,有的學(xué)者使用通用的情感詞典對(duì)評(píng)論進(jìn)行情感提取,情感提取準(zhǔn)確度相對(duì)不高,隨后直接使用評(píng)論情感值對(duì)汽車銷量進(jìn)行預(yù)測(cè),缺乏對(duì)消費(fèi)者感知情感和評(píng)論有用性進(jìn)行研究,導(dǎo)致結(jié)果可能存在誤差;另一方面,現(xiàn)有的汽車銷量預(yù)測(cè)研究主要集中在國(guó)家總體汽車銷量或者是某一類車型銷量,如SUV汽車、新能源汽車銷量預(yù)測(cè),相對(duì)而言較為宏觀,缺乏針對(duì)具體車型銷量的預(yù)測(cè)研究,難以為企業(yè)制定排產(chǎn)和銷售計(jì)劃提供有效情報(bào)數(shù)據(jù)。
為此,提出考慮線上評(píng)論的感知情感和宏觀經(jīng)濟(jì)指標(biāo)的銷量預(yù)測(cè)模型,用于提升單一車型銷量預(yù)測(cè)準(zhǔn)確度,為相關(guān)企業(yè)的制定產(chǎn)銷計(jì)劃和發(fā)展戰(zhàn)略提供支撐。
提出的考慮評(píng)論感知情感和宏觀經(jīng)濟(jì)環(huán)境的汽車銷量預(yù)測(cè)模型主要包括以下3個(gè)階段:第一階段為將口碑評(píng)論文本量化為評(píng)論感知情感指數(shù);第二階段為對(duì)宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇;第三階段為結(jié)合三類數(shù)據(jù)構(gòu)建了預(yù)測(cè)模型,對(duì)車型銷量進(jìn)行預(yù)測(cè)。整個(gè)銷量預(yù)測(cè)模型框架如圖1所示。
網(wǎng)上口碑評(píng)論數(shù)據(jù)是典型的文本數(shù)據(jù),進(jìn)行感知情感指數(shù)計(jì)算需要用到文本情感分析技術(shù)。目前的情感分析技術(shù)可以分為兩類:一類是有監(jiān)督的,通過(guò)標(biāo)注預(yù)料進(jìn)行訓(xùn)練,提取特征,從而進(jìn)行情感傾向性分析,主要是基于機(jī)器學(xué)習(xí)方法,這種方法的優(yōu)點(diǎn)是情感的獲取相對(duì)客觀,但是對(duì)訓(xùn)練語(yǔ)料的依賴程度較高,需要大量的標(biāo)注語(yǔ)料;另一類是無(wú)監(jiān)督的,主要是基于情感詞典的方法,由詞典中情感詞的傾向性來(lái)決定語(yǔ)料的情感。
評(píng)論正文沒(méi)有特定的句式結(jié)構(gòu),用詞規(guī)范程度不高,存在很多專業(yè)詞匯,且缺少標(biāo)注預(yù)料用于提取相關(guān)特征,可使用無(wú)監(jiān)督的方法,構(gòu)建領(lǐng)域情感詞典來(lái)提取情感極性。適用于無(wú)監(jiān)督的方法。據(jù)此,構(gòu)建了領(lǐng)域?qū)S性~典,結(jié)合大連理工情感詞典對(duì)口碑評(píng)論進(jìn)行情感分?jǐn)?shù)提取,提高了情感提取的準(zhǔn)確度,其后依據(jù)消費(fèi)者對(duì)正負(fù)評(píng)論內(nèi)容感知的差異,基于前景理論計(jì)算消費(fèi)者感知情感,再依據(jù)消費(fèi)者對(duì)評(píng)論描述的歸因作用,將口碑評(píng)論文本量化為評(píng)論感知情感指數(shù),用于下一步的模型預(yù)測(cè)。
1.1.1 汽車領(lǐng)域情感詞典構(gòu)建
目前已有研究機(jī)構(gòu)構(gòu)建了一些通用情感詞典供學(xué)者研究應(yīng)用,如大連理工大學(xué)的情感詞匯本體庫(kù)[8],但是由于不同領(lǐng)域通常具有領(lǐng)域特征詞匯,同一個(gè)情感詞匯在不同領(lǐng)域的情感表達(dá)也存在差異,基礎(chǔ)情感詞典往往會(huì)表現(xiàn)出領(lǐng)域適應(yīng)性的問(wèn)題,因此在特定的領(lǐng)域,需要結(jié)合該領(lǐng)域的專有情感詞典進(jìn)行情感分析,以提高準(zhǔn)確度。
圖1 預(yù)測(cè)模型框架圖Fig.1 A framework of forecast model
情感詞典的自動(dòng)構(gòu)建方法主要分為以下兩類[9]:①基于知識(shí)庫(kù)的方法是通過(guò)詞和詞、詞義和詞義之間的關(guān)系,對(duì)通用的情感詞典進(jìn)行擴(kuò)展,來(lái)構(gòu)造新的情感詞典[10];②基于語(yǔ)料庫(kù)的方法則是依據(jù)語(yǔ)料庫(kù)中詞間關(guān)系或句式關(guān)系等來(lái)確定候選情感詞的情感極性,從而構(gòu)建詞典,特定領(lǐng)域的情感詞典通常是基于語(yǔ)料庫(kù)來(lái)進(jìn)行構(gòu)建[11]。
在基于語(yǔ)料庫(kù)的方法中,點(diǎn)互信息(pointwise mutual information,PMI)[12]的方法在所有可用的自動(dòng)識(shí)別方法中有著精度較高、對(duì)各種類型的識(shí)別對(duì)象廣泛適用和語(yǔ)言適用范圍廣等優(yōu)點(diǎn),被廣泛應(yīng)用[13]。
點(diǎn)互信息方法主要思想是根據(jù)候選詞和正、負(fù)基準(zhǔn)詞在搜索引擎中共現(xiàn)的頻次來(lái)計(jì)算候選詞的情感傾向。借用點(diǎn)互信息方法的思想,根據(jù)汽車評(píng)論的實(shí)際特點(diǎn),將評(píng)論中的“最滿意”文本作為正向文檔,“最不滿意”文本作為負(fù)向文檔,通過(guò)候選情感詞在正負(fù)文檔中出現(xiàn)的頻次來(lái)計(jì)算其情感強(qiáng)度。候選詞w的情感極性Score(w)計(jì)算公式為
(1)
(2)
Score(w)=PMI(w,positive)-
PMI(w,negative)
(3)
式中:C(w,positive)、C(w,negative)分別表示候選詞在正、負(fù)向文檔中出現(xiàn)的頻次;C(w)表示詞語(yǔ)出現(xiàn)的總次數(shù);C(positive)、C(negative)分別表示正、負(fù)向文檔數(shù)。
為保證汽車領(lǐng)域?qū)S忻~的分詞準(zhǔn)確性,在使用結(jié)巴分詞工具對(duì)評(píng)論正文進(jìn)行分詞和詞性標(biāo)注前,在分詞詞庫(kù)中加入搜狗汽車領(lǐng)域細(xì)胞詞庫(kù)(https://pinyin.sogou.com/dict/),引入了汽車領(lǐng)域?qū)S性~匯。去除分詞結(jié)果中的停用詞后,本文將較大可能作為情感詞的形容詞、名詞、副詞和動(dòng)詞加入到候選情感詞典[14],再通過(guò)上文介紹的點(diǎn)互信息方法來(lái)計(jì)算候選詞的情感極性??紤]情感詞出現(xiàn)頻次較小的時(shí)候,點(diǎn)互信息的方法可能會(huì)造成情感極性判斷出現(xiàn)誤差,故舍棄在正負(fù)文本中出現(xiàn)總頻率小于5的情感詞,生成最終的汽車領(lǐng)域情感詞典。
構(gòu)建的汽車領(lǐng)域?qū)S星楦性~典共有情感詞2 382個(gè),其中正面情感詞1 288個(gè),負(fù)面情感詞1 094個(gè),部分情感詞分?jǐn)?shù)如表1所示。
1.1.2 評(píng)論感知情感提取
評(píng)論感知情感在基于詞典的方法提取評(píng)論的情感后,還需要考慮正負(fù)面情感帶來(lái)的感知差異,使用前景理論進(jìn)行調(diào)整計(jì)算得出。
表1 部分情感詞示例Table 1 Examples of the emotional words
采用大連理工情感詞匯本體庫(kù)[8]作為通用情感詞典,將其與本文構(gòu)建的領(lǐng)域情感詞典合并去重,并通過(guò)最大最小值方法將情感極性調(diào)整到[-2,2]區(qū)間,生成本文用于情感提取的詞典。隨后通過(guò)匹配句子中的情感詞獲取該句子最初始的情感分?jǐn)?shù)。
句子的情感不僅由情感詞確定,還會(huì)受到副詞的削弱或者增強(qiáng)、否定詞的反轉(zhuǎn)等影響。例如,“喜歡”是肯定的,但如果前面加上“不”一詞則變?yōu)榉穸?。所以,?duì)于單條評(píng)論,需要通過(guò)計(jì)算評(píng)論中情感詞的極性分?jǐn)?shù)、程度副詞及否定詞的調(diào)整影響來(lái)獲得單個(gè)句子的情感分?jǐn)?shù)。使用的是HowNet程度副詞和否定詞詞典,并且按照文獻(xiàn)[15]中的方法,根據(jù)否定詞和程度副詞的位置進(jìn)行調(diào)整,程度副詞調(diào)整分?jǐn)?shù)如表2所示。
實(shí)際生活中,消費(fèi)者瀏覽商品評(píng)論的時(shí)候,對(duì)正面的評(píng)論內(nèi)容往往不會(huì)很在意,相反,對(duì)負(fù)面的評(píng)論內(nèi)容會(huì)非常敏感??崧岢龅那熬袄碚揫16]能夠很好地對(duì)這個(gè)現(xiàn)象作出解釋:人們對(duì)損失和獲得的敏感程度不同,損失的痛苦要遠(yuǎn)遠(yuǎn)大于獲得的快樂(lè),其價(jià)值函數(shù)如圖2所示。這種感知差異會(huì)在很大程度上會(huì)影響消費(fèi)者的決策行為:在購(gòu)物時(shí),評(píng)價(jià)中的負(fù)面描述往往會(huì)對(duì)消費(fèi)者造成更大的觸動(dòng)和影響。
表2 程度副詞調(diào)整分?jǐn)?shù)Table 2 Degree adverb adjustment score
圖2 前景理論價(jià)值函數(shù)圖Fig.2 Prospect theory value function chart
1.1.3 感知情感指數(shù)計(jì)算
考慮到消費(fèi)者對(duì)評(píng)論的有用性感知,以及評(píng)論的傳播廣度等因素影響,基于歸因理論和評(píng)論瀏覽情況設(shè)計(jì)計(jì)算感知情感指數(shù),用以準(zhǔn)確量化評(píng)論對(duì)銷量的影響。
歸因指?jìng)€(gè)體通過(guò)分析他人或自己的外在行為表現(xiàn)以推論和解釋其原因的過(guò)程。在商品評(píng)論中,在考慮是否接受評(píng)論者發(fā)布的評(píng)價(jià)時(shí),消費(fèi)者會(huì)對(duì)評(píng)價(jià)信息進(jìn)行推測(cè),以作為接受評(píng)論與否的重要依據(jù)[17]:當(dāng)評(píng)論的信息內(nèi)容被歸因于出自客觀(產(chǎn)品)因素時(shí),消費(fèi)者認(rèn)為評(píng)論可信度更高,感知有用性越強(qiáng);相反,如果評(píng)論被歸因?yàn)橹饔^(個(gè)人)因素,則評(píng)論感知有用性弱。
通過(guò)評(píng)論中顯示的購(gòu)買時(shí)間和評(píng)論時(shí)間的間隔來(lái)量化歸因傾向性帶來(lái)的評(píng)論感知有用性變化。通常,對(duì)于物質(zhì)產(chǎn)品,如本文的汽車,人們認(rèn)為購(gòu)買和評(píng)論時(shí)間間隔越長(zhǎng),對(duì)產(chǎn)品的了解程度越高,則評(píng)論越客觀。所以設(shè)計(jì)如下分段函數(shù)來(lái)表征歸因感知有用性Gti,可表示為
(4)
式(4)中:θ為有用性調(diào)整因子,取值范圍為[0,1];Pti為月份t第i條評(píng)論的購(gòu)車和評(píng)論間隔的月份;K1、K2為購(gòu)買和評(píng)論間隔月份參數(shù),月份參數(shù)K1取值范圍為[1,5],月份參數(shù)K2取值范圍為[3,9],且K2-K1≥1。式(4)意義如下:購(gòu)買和評(píng)論時(shí)間間隔小于K1,認(rèn)為其評(píng)論比較主觀,對(duì)消費(fèi)者影響程度較??;K1<時(shí)間間隔<K2,對(duì)消費(fèi)者影響程度一般;當(dāng)時(shí)間間隔大于K2,則認(rèn)為其評(píng)論比較客觀,影響程度大。
此外,感知情感指數(shù)的計(jì)算還需要考慮到評(píng)論的傳播范圍。通常,單條評(píng)論的瀏覽人數(shù)越多,評(píng)論人數(shù)和點(diǎn)贊人數(shù)越多,則其對(duì)銷量造成的影響越大[18]。因此,所設(shè)計(jì)的口碑指數(shù)計(jì)算公式為
(5)
宏觀經(jīng)濟(jì)指標(biāo)反映了當(dāng)前經(jīng)濟(jì)的運(yùn)行發(fā)展?fàn)顩r,對(duì)汽車行業(yè)上下游乃至消費(fèi)端有著重要的影響?,F(xiàn)存有大量可獲得宏觀經(jīng)濟(jì)指標(biāo),但其中只有部分指標(biāo)能夠用于汽車銷量預(yù)測(cè)。選擇經(jīng)濟(jì)指標(biāo)旨在改善對(duì)汽車銷量的預(yù)測(cè),因此必須選擇足夠數(shù)量的經(jīng)濟(jì)指標(biāo)來(lái)揭示汽車銷量與經(jīng)濟(jì)指標(biāo)之間的結(jié)構(gòu)關(guān)系[ 4]。故在選擇候選經(jīng)濟(jì)指標(biāo)時(shí)考慮以下三個(gè)屬性來(lái)構(gòu)建候選經(jīng)濟(jì)指標(biāo)庫(kù):表征汽車消費(fèi)者支付價(jià)格變化的指標(biāo);影響汽車行業(yè)大大小小的細(xì)分市場(chǎng)的需求行為的指標(biāo);代表國(guó)民經(jīng)濟(jì)和經(jīng)濟(jì)周期變化的指標(biāo)。
初步選擇的候選經(jīng)濟(jì)指標(biāo)庫(kù)中部分具有很強(qiáng)的共線性,且各經(jīng)濟(jì)指標(biāo)對(duì)銷量影響不同,需要對(duì)指標(biāo)作進(jìn)一步選擇。套索模型在回歸優(yōu)化函數(shù)中增加一個(gè)偏置項(xiàng)——L1范數(shù),以減少共線性的影響,從而減少模型誤差,并且L1范數(shù)傾向于產(chǎn)生稀疏系數(shù),能夠?qū)δP椭械淖兞窟M(jìn)行選擇。因此本文選用帶L1范數(shù)的套索模型對(duì)宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇。在傳統(tǒng)的套索模型中,需要根據(jù)預(yù)測(cè)結(jié)果對(duì)參數(shù)α進(jìn)行調(diào)參,這里僅對(duì)宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行選擇,所以采用交叉驗(yàn)證(cross-validation,CV)的方式選擇目標(biāo)損失函數(shù)評(píng)估最優(yōu)的模型和參數(shù),省去調(diào)參的過(guò)程。模型目標(biāo)損失函數(shù)為
(6)
基于計(jì)算得出的評(píng)論感知情感指數(shù)、篩選出的宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量,構(gòu)建線性回歸模型對(duì)銷量進(jìn)行預(yù)測(cè):
(7)
表3 預(yù)測(cè)模型輸入變量表及其含義Table 3 List of forecast model input variables and their meanings
模型輸入自變量較多,容易在擬合過(guò)程中造成過(guò)擬合現(xiàn)象,為了增強(qiáng)模型泛化能力,防止過(guò)擬合,并增強(qiáng)模型的解釋性,故在誤差損失函數(shù)中引入L1范數(shù)α‖w‖1。
現(xiàn)使用平均絕對(duì)誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean squared error,RMSE)評(píng)判4個(gè)模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,其數(shù)學(xué)表達(dá)式分別為
(8)
(9)
選用數(shù)據(jù)類型包括有汽車月度銷量、網(wǎng)上汽車評(píng)論以及相關(guān)宏觀經(jīng)濟(jì)指標(biāo)。其中汽車月度銷量數(shù)據(jù)來(lái)自搜狐汽車網(wǎng)(http://db.auto.sohu.com/home/),網(wǎng)上汽車評(píng)論數(shù)據(jù)來(lái)自汽車之家(https://www.autohome.com.cn/),宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)來(lái)自國(guó)家統(tǒng)計(jì)局(http://data.stats.gov.cn/)。
收集車型比較經(jīng)典、歷史銷量數(shù)據(jù)較為完整的卡羅拉、邁騰和捷達(dá)三款車型2015年3月—2019年2月,共48個(gè)月銷量數(shù)據(jù),在模型中將前36個(gè)月數(shù)據(jù)用作訓(xùn)練,后12個(gè)月數(shù)據(jù)用作測(cè)試。汽車銷量數(shù)據(jù)如圖3所示。
圖3 車型銷量Fig.3 Model sales
汽車之家作為China Webmaster 綜合排名第一的汽車行業(yè)網(wǎng)站,其數(shù)據(jù)具有較高的可信度和參考度,是眾多消費(fèi)者購(gòu)車前的重要參考信息來(lái)源,故選取汽車之家上的相關(guān)車型數(shù)據(jù)進(jìn)行研究??紤]到口碑評(píng)論對(duì)汽車銷量帶來(lái)的影響可能存在較長(zhǎng)的滯后性,因此選擇2014年3月—2019年2月,即往前延伸一年的評(píng)論數(shù)據(jù)進(jìn)行研究。共爬取了3個(gè)車型的11 794條數(shù)據(jù),其中卡羅拉6 263條,捷達(dá)2 258條,邁騰3 273條。單條評(píng)論數(shù)據(jù)包括有口碑的發(fā)表時(shí)間、購(gòu)買時(shí)間、對(duì)該車最滿意的點(diǎn)、最不滿意的點(diǎn)、評(píng)論正文、瀏覽人數(shù)、評(píng)論人數(shù)和支持人數(shù)等內(nèi)容。單條評(píng)論示例如圖4所示。
依據(jù)3個(gè)屬性來(lái)對(duì)大量的宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行初步選擇,共選擇了工業(yè)品出廠價(jià)格指數(shù)、制造業(yè)采購(gòu)經(jīng)理人指數(shù)、全國(guó)居民消費(fèi)價(jià)格指數(shù)和貨幣等47個(gè)指標(biāo),構(gòu)成候選經(jīng)濟(jì)指標(biāo)庫(kù)。同樣,考慮到宏觀經(jīng)濟(jì)指標(biāo)對(duì)汽車銷量影響的滯后性,選擇的數(shù)據(jù)時(shí)間跨度前移1個(gè)月,為2015年2月—2019年1月。
2.2.1 汽車評(píng)論處理
針對(duì)單條評(píng)論文本,先根據(jù)標(biāo)點(diǎn)符號(hào),將文本分成多個(gè)句段,再對(duì)每個(gè)句段進(jìn)行情感提取和調(diào)整加和,得到該評(píng)論的感知情感,其后再根據(jù)式(5)計(jì)算得到車型該月的感知情感指數(shù)。計(jì)算得出的卡羅拉感知情感指數(shù)走勢(shì)如圖5所示。
從圖5可以看出,2015年2月的評(píng)論評(píng)分較低,閱讀了瀏覽人數(shù)較多的幾條評(píng)論,其情感值基本都偏負(fù)面,其部分描述為“剛開始的時(shí)候容易滅火”“有點(diǎn)小顛簸的時(shí)候發(fā)飄”“異響那是通病了”“玻璃縫隙太大”,感知情感指數(shù)計(jì)算較為準(zhǔn)確。
圖4 單條評(píng)論內(nèi)容示例Fig.4 An example of the comment content
圖5 卡羅拉感知情感指數(shù)Fig.5 Corolla perceived emotion index
2.2.2 宏觀經(jīng)濟(jì)指標(biāo)處理
候選經(jīng)濟(jì)指標(biāo)庫(kù)中小部分宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)存在少量缺失值,因缺失值較少,且基于宏觀經(jīng)濟(jì)指標(biāo)變化趨勢(shì)較為穩(wěn)定的原因,使用線性插值的方法對(duì)缺失值進(jìn)行填補(bǔ)。在加入模型之前,使用最大最小值方法將其轉(zhuǎn)換到[0,1]區(qū)間,轉(zhuǎn)換后的部分宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)如圖6所示。隨后通過(guò)套索方法對(duì)參數(shù)數(shù)據(jù)進(jìn)行篩選。最終加入模型中的宏觀經(jīng)濟(jì)指標(biāo)如圖6所示。
考慮到模型預(yù)測(cè)準(zhǔn)確度,在進(jìn)行各車型銷量的最終預(yù)測(cè)之前,需要對(duì)口碑情感計(jì)算過(guò)程中的參數(shù)進(jìn)行優(yōu)化選擇。采用卡羅拉車型數(shù)據(jù)作為輸入,以MAPE為評(píng)價(jià)標(biāo)準(zhǔn),對(duì)參數(shù)進(jìn)行選擇。各參數(shù)預(yù)設(shè)如下:a=0.7、b=0.8、φ=2;θ=0.5、K1=2、K2=5,隨后對(duì)各參數(shù)在取值范圍內(nèi)的值進(jìn)行討論。
圖6 宏觀經(jīng)濟(jì)指標(biāo)Fig.6 Macroeconomic indicators
首先對(duì)評(píng)論感知情感計(jì)算過(guò)程中的三個(gè)參數(shù)進(jìn)行討論,參數(shù)a、b的取值范圍為[0,1],設(shè)定步長(zhǎng)為0.1,分別將其代入到評(píng)論感知情感計(jì)算過(guò)程,隨后按步驟進(jìn)行預(yù)測(cè),從圖7(a)、圖7(b)明顯看出當(dāng)a=0.7時(shí),MAPE取得最小值;b=0.8時(shí),MAPE取得最小值。參數(shù)φ為大于等于1的常數(shù),故設(shè)定為[1,3],步長(zhǎng)同樣為0.1,MAPE在φ=2.0時(shí)取的最小值,結(jié)果如圖7(c)所示。
圖7 MAPE與a、b、φ和θ的關(guān)系Fig.7 Relationship between MAPE and a,b,φ and θ
隨后對(duì)感知情感指數(shù)計(jì)算過(guò)程中的參數(shù)的取值進(jìn)行討論,θ的取值范圍為[0,1],設(shè)定步長(zhǎng)為0.1,代入到模型中進(jìn)行計(jì)算,當(dāng)θ=0.5的時(shí)候預(yù)測(cè)的MAPE值最小,結(jié)果如圖7(d)所示。對(duì)計(jì)算過(guò)程中的K1、K2進(jìn)行討論,K1取值范圍為[1,5],K2取值范圍為[3,9],取值均為整數(shù),且K2-K1≥1,結(jié)果如圖8所示。從圖8可以看出,當(dāng)K1>2時(shí),預(yù)測(cè)的MAPE顯著增大;當(dāng)K2>5時(shí),預(yù)測(cè)的MAPE顯著變小。因此,得出如下結(jié)論:消費(fèi)者認(rèn)為,當(dāng)購(gòu)買和評(píng)論的時(shí)間間隔小于2個(gè)月時(shí),評(píng)論者對(duì)購(gòu)買的汽車了解不足,其評(píng)論有用性較弱;當(dāng)時(shí)間間隔大于等于2個(gè)月,小于5個(gè)月時(shí),評(píng)論者對(duì)汽車了解一般,其評(píng)論有用性一般;當(dāng)時(shí)間間隔大于等于5個(gè)月時(shí),評(píng)論者對(duì)汽車了解充分,其評(píng)論有用性較強(qiáng)。
圖8 MAPE與K1、K2取值關(guān)系Fig.8 Relationship between MAPE and K1,K2
通過(guò)對(duì)各參數(shù)進(jìn)行充分的討論,對(duì)感知情感指數(shù)計(jì)算過(guò)程中的參數(shù)作出如下賦值:a=0.7、b=0.8、φ=2、θ=0.5、K1=2、K2=5。
為了驗(yàn)證感知情感指數(shù)和宏觀經(jīng)濟(jì)指標(biāo)的加入對(duì)模型預(yù)測(cè)準(zhǔn)確度的提升,構(gòu)建了僅使用歷史銷量變量的模型(M1)、使用感知情感指數(shù)和歷史銷量的模型(M2)、使用宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量的模型(M3)以及使用上述提到所有變量的模型(M4)共4個(gè)模型來(lái)進(jìn)行對(duì)比研究。3個(gè)車型的預(yù)測(cè)結(jié)果如表4所示。
從預(yù)測(cè)結(jié)果可以看出,與僅使用歷史銷量的M1模型相比,添加了感知情感指數(shù)變量的M2模型,其3個(gè)車型預(yù)測(cè)的MAPE和RMSE都明顯減少。同樣,添加了宏觀經(jīng)濟(jì)指標(biāo)變量的M3模型,相較于M1,預(yù)測(cè)準(zhǔn)確度也有所提升。添加了情感評(píng)分和宏觀經(jīng)濟(jì)指標(biāo)的預(yù)測(cè)模型即M4模型,預(yù)測(cè)準(zhǔn)確度得到進(jìn)一步增強(qiáng),與M1模型相比,預(yù)測(cè)結(jié)果最好的卡羅拉車型MAPE從13.02%減少到7.96%,RMSE從4 259減少到2 774,其他兩個(gè)車型的MAPE也下降了約4%,RMSE下降了1 000左右??_拉車型銷量的擬合結(jié)果和預(yù)測(cè)結(jié)果如圖9所示。
圖9 卡羅拉模型預(yù)測(cè)結(jié)果Fig.9 Corolla models forecast results
通過(guò)構(gòu)造汽車領(lǐng)域的專用詞典,基于前景理論和歸因理論構(gòu)建了感知情感指數(shù),結(jié)合宏觀經(jīng)濟(jì)指標(biāo)和歷史銷量數(shù)據(jù),建立了回歸模型對(duì)汽車銷量進(jìn)行滾動(dòng)預(yù)測(cè)。
表4 各車型預(yù)測(cè)結(jié)果Table 4 Forecast results for each model
(1)實(shí)例研究證明,加入口碑?dāng)?shù)據(jù)和宏觀經(jīng)濟(jì)指標(biāo)能夠有效提高了具體車型的銷量預(yù)測(cè)準(zhǔn)確度,證實(shí)了在線評(píng)論和國(guó)家宏觀經(jīng)濟(jì)環(huán)境對(duì)汽車銷售有著重要影響,在模型中加入相關(guān)解釋變量能夠有效增強(qiáng)預(yù)測(cè)準(zhǔn)確度。
(2)在感知情感指數(shù)計(jì)算過(guò)程中獲得如下啟示:在潛在消費(fèi)者進(jìn)行決策的時(shí)候,汽車在線評(píng)論中的負(fù)面情感對(duì)潛在消費(fèi)者決策帶來(lái)的影響要大于正面情感;在潛在消費(fèi)者看來(lái),購(gòu)車時(shí)間與評(píng)論發(fā)表時(shí)間間隔在2~5個(gè)月的評(píng)論更具有可信度。
(3)本文模型在銷量波動(dòng)大的節(jié)點(diǎn)預(yù)測(cè)效果不佳。在時(shí)間序列模型上,灰色預(yù)測(cè)模型、支持向量回歸(support vector regression,SVR)、反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)等方法已經(jīng)得到廣泛應(yīng)用,在后續(xù)的研究中,可以根據(jù)數(shù)據(jù)特性考慮運(yùn)用組合預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。所使用的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)僅來(lái)自一家汽車網(wǎng)站,難以完整表征整個(gè)網(wǎng)絡(luò)對(duì)該車型的口碑情感,后續(xù)可以考慮基于多源數(shù)據(jù)來(lái)計(jì)算網(wǎng)絡(luò)情感指數(shù)。