国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)文本情感分析的消費(fèi)情感指數(shù)構(gòu)建

2018-08-15 12:44:12朱述政喻燕君
統(tǒng)計(jì)與信息論壇 2018年8期
關(guān)鍵詞:信心消費(fèi)者文本

劉 苗,李 蔚,朱述政,喻燕君,劉 揚(yáng),紀(jì) 宏

(1.中央財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,北京 100081;2.首都經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100081)

一、引 言

20世紀(jì)30年代,凱恩斯建立消費(fèi)函數(shù)理論,奠定了消費(fèi)者行為研究的理論基礎(chǔ),此后,消費(fèi)者預(yù)期在消費(fèi)總量等宏觀經(jīng)濟(jì)指標(biāo)中的先行性被大量理論和實(shí)證研究證明。消費(fèi)者信心指數(shù)(Consumer Confidence Index,簡(jiǎn)稱 CCI)作為反映消費(fèi)信心強(qiáng)弱的指標(biāo),綜合反映并量化消費(fèi)者對(duì)當(dāng)前經(jīng)濟(jì)形勢(shì)、就業(yè)狀況、物價(jià)水平、生活狀況、購房和投資等方面的看法和預(yù)期,是消費(fèi)者預(yù)期的重要度量方法。20世紀(jì)40年代,美國(guó)密歇根大學(xué)首先提出消費(fèi)者信心指數(shù)的概念,創(chuàng)立了密歇根消費(fèi)者信心指數(shù)(MCSI),成為分析和預(yù)測(cè)美國(guó)宏觀經(jīng)濟(jì)的重要先行指標(biāo)。隨后,歐美和亞洲的一些發(fā)達(dá)國(guó)家相繼編制了本國(guó)的消費(fèi)者信心指數(shù),如英國(guó)、法國(guó)、日本等。1997年,中國(guó)國(guó)家統(tǒng)計(jì)局景氣監(jiān)測(cè)中心開始編制中國(guó)消費(fèi)者信心指數(shù),該指數(shù)以計(jì)算機(jī)輔助電話訪問的方式進(jìn)行調(diào)查,按月公布指數(shù),每季度發(fā)布一次《中國(guó)消費(fèi)者信心監(jiān)測(cè)報(bào)告》。2009年,中央財(cái)經(jīng)大學(xué)、首都經(jīng)濟(jì)貿(mào)易大學(xué)、香港城市大學(xué)、澳門科技大學(xué)以及臺(tái)北輔仁大學(xué)5所高校聯(lián)合發(fā)起并編制兩岸暨港澳消費(fèi)者信心指數(shù)①即原“兩岸四地消費(fèi)者信心指數(shù)”。2017年第4季度起修訂了指數(shù)名稱。(China Consumer Confidence Index,簡(jiǎn)稱CCCI),CCCI主要采用電話調(diào)查、網(wǎng)絡(luò)調(diào)查等方法展開。截止目前,CCCI累計(jì)發(fā)布30余次,受到了社會(huì)和媒體廣泛關(guān)注。隨著各機(jī)構(gòu)消費(fèi)者信心指數(shù)的持續(xù)發(fā)布,消費(fèi)者信心指數(shù)的作用和影響力不斷增強(qiáng),成為國(guó)家宏觀經(jīng)濟(jì)決策和相關(guān)行業(yè)規(guī)范制定的重要依據(jù)。

在兩岸暨港澳消費(fèi)者信心指數(shù)調(diào)查研究的過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)一些問題。如:電話調(diào)查的樣本在年齡等分布上呈現(xiàn)明顯的左偏趨勢(shì)(中老年受訪者較多),網(wǎng)絡(luò)調(diào)查對(duì)象的回答質(zhì)量很難控制等。因此,研究團(tuán)隊(duì)一方面加強(qiáng)了在調(diào)查方案設(shè)計(jì)、調(diào)查方案實(shí)施中的質(zhì)量控制,另一方面嘗試大數(shù)據(jù)挖掘方法對(duì)問題進(jìn)行新的詮釋。本文從網(wǎng)絡(luò)文本數(shù)據(jù)角度出發(fā),嘗試找到網(wǎng)絡(luò)文本中反映的消費(fèi)者態(tài)度和信心,并首次提出消費(fèi)者情感指數(shù)概念,用以綜合衡量網(wǎng)絡(luò)文本中消費(fèi)者的信心狀況。用該情感指數(shù)作為消費(fèi)者信心指數(shù)的有力支撐,期望從多維度、多視角更全面地刻畫消費(fèi)者信心。為了保證研究的連貫性和可比性,消費(fèi)情感指數(shù)的構(gòu)建延續(xù)消費(fèi)者信心指數(shù)構(gòu)建的6個(gè)維度。從經(jīng)濟(jì)發(fā)展、就業(yè)狀況、物價(jià)水平、生活狀況、購房和投資6方面出發(fā),收集自2011年至2017年每季度6個(gè)相關(guān)主題的互聯(lián)網(wǎng)新聞文本,訓(xùn)練文本模型,標(biāo)定新聞文本情感標(biāo)簽,并用積極、中性或消極情感標(biāo)簽數(shù)合成該季度消費(fèi)情感指數(shù),將所得結(jié)果與傳統(tǒng)方式計(jì)算的消費(fèi)者信心指數(shù)進(jìn)行比較,探索消費(fèi)情感指數(shù)與消費(fèi)者信心指數(shù)之間的關(guān)系。

二、文獻(xiàn)綜述

(一)傳統(tǒng)消費(fèi)者信心指數(shù)研究

密歇根大學(xué)調(diào)查與研究中心首先提出了消費(fèi)者信心指數(shù)概念。1978年以后,密歇根大學(xué)消費(fèi)者信心指數(shù)改為月度調(diào)查并按月發(fā)布,采用電話調(diào)查的方式,每月對(duì)超過500名成年人進(jìn)行訪問,收集有關(guān)消費(fèi)者信心、當(dāng)前個(gè)人財(cái)務(wù)狀況、國(guó)家經(jīng)濟(jì)狀況以及預(yù)期個(gè)人財(cái)務(wù)狀況、國(guó)家經(jīng)濟(jì)狀況的看法,通過對(duì)肯定及否定答案計(jì)數(shù),用所得數(shù)據(jù)計(jì)算消費(fèi)者信心指數(shù)。信心指數(shù)取值范圍在0到200之間,0表示消費(fèi)者最沒有信心,100表示中立,200表示最有信心。0~100和100~200兩個(gè)區(qū)間分別表示消費(fèi)者信心的消極和積極狀態(tài)。分值越高表示消費(fèi)者對(duì)當(dāng)前及未來市場(chǎng)越樂觀。消費(fèi)占美國(guó)國(guó)內(nèi)生產(chǎn)總值的三分之二,因此,消費(fèi)信心指數(shù)研究對(duì)美國(guó)經(jīng)濟(jì)有重要影響。除了作為反映市場(chǎng)預(yù)期的先行指標(biāo),密歇根大學(xué)消費(fèi)者信心指數(shù)能通過與市場(chǎng)預(yù)期的比較影響美元,進(jìn)而影響市場(chǎng)。消費(fèi)者信心指數(shù)的研究也隨之推廣開來,一些國(guó)家如英國(guó)、加拿大、日本等開始編制本國(guó)的消費(fèi)者信心指數(shù)。

國(guó)家統(tǒng)計(jì)局景氣監(jiān)測(cè)中心于1997年12月開始研究編制中國(guó)的消費(fèi)者信心指數(shù)。該指數(shù)編制參考了國(guó)際上消費(fèi)者信心指數(shù)的編制方式,主要分為現(xiàn)狀指數(shù)和預(yù)期指數(shù)兩個(gè)部分。但在具體編制方式以及預(yù)期時(shí)間的選擇上有所不同。在調(diào)查方式上采用問卷調(diào)查的方式,具體由派員面訪、郵寄訪問及電話訪問構(gòu)成。由于面訪難度和成本增加,這種訪問方式在收集數(shù)據(jù)的效率和數(shù)據(jù)的質(zhì)量上都難以保證,因此由計(jì)算機(jī)輔助電話訪問(CATI)的問卷調(diào)查方式逐步被推廣,成為獲取數(shù)據(jù)的主要途徑。

兩岸暨港澳消費(fèi)者信心指數(shù)在編制方法上,重點(diǎn)參考了密歇根大學(xué)和國(guó)家統(tǒng)計(jì)局的指數(shù)編制方法。團(tuán)隊(duì)成員結(jié)合內(nèi)地及港澳臺(tái)情況對(duì)兩岸暨港澳消費(fèi)者信心指數(shù)進(jìn)行了分析,調(diào)查中采用電話調(diào)查與網(wǎng)絡(luò)問卷調(diào)查相結(jié)合的方式[1]。調(diào)查內(nèi)容涵蓋消費(fèi)者對(duì)經(jīng)濟(jì)形勢(shì)、就業(yè)狀況、物價(jià)水平、生活狀況、購房和投資6個(gè)方面的現(xiàn)狀滿意程度及未來3個(gè)月預(yù)期情況,每個(gè)分指數(shù)分為現(xiàn)狀指數(shù)與預(yù)期指數(shù),6項(xiàng)分指數(shù)均由現(xiàn)狀指數(shù)和預(yù)期指數(shù)加權(quán)構(gòu)成,共同反映并合成總指數(shù)。調(diào)查方式為計(jì)算機(jī)輔助電話訪問(CATI)和網(wǎng)絡(luò)調(diào)查,每季度發(fā)布一次。

表1 消費(fèi)者信心指數(shù)研究對(duì)照表

傳統(tǒng)的消費(fèi)者信心指數(shù)構(gòu)建主要依賴于問卷調(diào)查的形式,調(diào)查內(nèi)容涵蓋反映消費(fèi)者消費(fèi)信心的6個(gè)方面。調(diào)查對(duì)象涵蓋不同年齡、不同職業(yè)、不同收入的人群,調(diào)查結(jié)果有重要參考意義,但調(diào)查方式仍存在一定局限。例如,電話調(diào)查和網(wǎng)絡(luò)調(diào)查的拒訪率逐年增高,調(diào)查人群有偏等。這都給信心指數(shù)的編制帶來了一定的困難。近年來,隨著互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展,網(wǎng)絡(luò)媒體普及,人們利用新媒體獲取信息、發(fā)表觀點(diǎn)的意愿不斷增強(qiáng),網(wǎng)絡(luò)新聞成為消費(fèi)者觀點(diǎn)和市場(chǎng)趨勢(shì)的風(fēng)向標(biāo),起到了一定的引導(dǎo)作用,因此,本文希望利用網(wǎng)絡(luò)新聞文本構(gòu)造消費(fèi)情感指數(shù),綜合反映媒體和輿論對(duì)市場(chǎng)以及消費(fèi)者消費(fèi)信心的影響。

(二)基于互聯(lián)網(wǎng)大數(shù)據(jù)的消費(fèi)者信心指數(shù)研究

相較于傳統(tǒng)消費(fèi)者信心指數(shù)數(shù)據(jù)收集方法,互聯(lián)網(wǎng)搜算數(shù)據(jù)獲取更加快捷,數(shù)據(jù)量可觀,可以保證數(shù)據(jù)獲取效率及數(shù)據(jù)質(zhì)量。Nicola等采用Google搜索的熱度變化來構(gòu)造美國(guó)消費(fèi)者信心指數(shù),該研究認(rèn)為搜索量反映需求變化,而需求變化反映消費(fèi)者的購買力,從而能替代消費(fèi)者信心指數(shù)[2]。同時(shí),本文發(fā)現(xiàn)該指數(shù)與密歇根大學(xué)消費(fèi)者信心指數(shù)高度相關(guān),且趨勢(shì)領(lǐng)先了3個(gè)季度。Dees等用數(shù)據(jù)驗(yàn)證了美國(guó)和歐洲一些國(guó)家利用消費(fèi)者信心指數(shù)來預(yù)測(cè)消費(fèi)支出的合理性[3]。Gurgur等在 2016年通過Google趨勢(shì)提供的網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)造了土耳其消費(fèi)者信心指數(shù),構(gòu)造的基于谷歌的指數(shù)(GBI)與官方發(fā)布的消費(fèi)者信心指數(shù)高度相關(guān),且在短期和長(zhǎng)期趨勢(shì)上均對(duì)消費(fèi)者信心指數(shù)有預(yù)期作用[4];Rawley等在密歇根消費(fèi)者信心指數(shù)研究的基礎(chǔ)上,通過“Recession”等詞的谷歌搜索量變化來代替?zhèn)鹘y(tǒng)問卷調(diào)查的方式,認(rèn)為相關(guān)詞的搜索量代表了消費(fèi)者對(duì)市場(chǎng)信心的反應(yīng)以及對(duì)未來經(jīng)濟(jì)的預(yù)期[5]。結(jié)果顯示這些詞的搜索量與失業(yè)率、股指等指數(shù)高度相關(guān)。孫毅等通過網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)消費(fèi)者信心指數(shù)進(jìn)行構(gòu)建,并發(fā)現(xiàn)基于互聯(lián)網(wǎng)搜索行為的消費(fèi)者信心指數(shù)領(lǐng)先經(jīng)濟(jì)景氣指數(shù)6個(gè)月[6]。劉偉江等利用谷歌網(wǎng)絡(luò)搜索數(shù)據(jù),采用時(shí)差相關(guān)分析法確定與消費(fèi)者信心有關(guān)的網(wǎng)絡(luò)搜索關(guān)鍵詞的相關(guān)系數(shù)和領(lǐng)先階數(shù),并合成了消費(fèi)者預(yù)期搜索指數(shù)和消費(fèi)者滿意搜索指數(shù),研究表明,網(wǎng)絡(luò)搜索數(shù)據(jù)與消費(fèi)者信心指數(shù)之間具有顯著相關(guān)關(guān)系[7]。本文參考了該研究中搜索關(guān)鍵詞設(shè)計(jì)。

袁銘利用購物網(wǎng)站用戶搜索量數(shù)據(jù)對(duì)CPI進(jìn)行了分析和預(yù)測(cè)。在合理選擇關(guān)鍵詞以及對(duì)數(shù)據(jù)進(jìn)行季節(jié)調(diào)整和假日處理的基礎(chǔ)上建立全國(guó)與城鎮(zhèn)CPI的及時(shí)預(yù)測(cè)模型[8]。實(shí)證研究表明,搜索變量與CPI具有顯著的因果關(guān)系。本文用文本挖掘方法從互聯(lián)網(wǎng)文本本身的情感傾向出發(fā),以文本的情感分析為計(jì)算基礎(chǔ),構(gòu)建消費(fèi)情感指數(shù)。

以上研究結(jié)果一致說明,基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的消費(fèi)者信心指數(shù)預(yù)測(cè),具備消費(fèi)者行為理論的基礎(chǔ),此外基于搜索研究的方法可提高預(yù)測(cè)的效率,滿足更高的時(shí)效性要求。本文基于互聯(lián)網(wǎng)新聞文本本身的情感分析,能夠從互聯(lián)網(wǎng)新聞文本直接或間接獲得消費(fèi)者的主觀感受,再通過文本情感分析將文本數(shù)據(jù)轉(zhuǎn)化為情感指標(biāo),對(duì)消費(fèi)者信心指數(shù)進(jìn)行預(yù)測(cè)。文本情感分析亦稱為意見挖掘,屬于自然語言處理的一個(gè)分支,是指對(duì)包含用戶的觀點(diǎn)、喜好、情感等的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。在商品和網(wǎng)絡(luò)新聞監(jiān)控、信息預(yù)測(cè)等領(lǐng)域有巨大的應(yīng)用價(jià)值。

利用文本情感分析構(gòu)建消費(fèi)情感指數(shù),目前主要采用基于機(jī)器學(xué)習(xí)的研究方法,其準(zhǔn)確度受到文本表示、降維方法、文本分類方法等多方面的制約。Deerwester等提出了潛語義分析的方法,在文本降維及文本表示上提升了文本分類的效果[9]。Lee等提出了非負(fù)矩陣分解方法,在文本和圖像分類領(lǐng)域取得了較大的進(jìn)展[10]。本文也利用了該方法進(jìn)行文本的處理。Pang等最早使用樸素貝葉斯和支持向量機(jī)等機(jī)器學(xué)習(xí)模型對(duì)電影評(píng)論文本進(jìn)行情感識(shí)別[11]。Kimitaka等提出一種集支持向量機(jī)、最大信息熵和score的多分類器分類方法,將3種方法單獨(dú)使用的輸出結(jié)果作為支持向量機(jī)新的特征變量進(jìn)行分類,結(jié)果要優(yōu)于其他的方法[12]。梁軍和何炎祥等人基于多層神經(jīng)網(wǎng)絡(luò)架構(gòu)分析微博文本的情感傾向,利用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等得到較高的分類和預(yù)測(cè)精度[13-14]。通過上述多項(xiàng)情感分類算法的比較研究,發(fā)現(xiàn)采用支持向量機(jī)和深度神經(jīng)網(wǎng)絡(luò)等算法對(duì)文本的情感極性分類表現(xiàn)很好。

以上研究對(duì)本研究的開展起到了重要的啟示作用。在數(shù)據(jù)收集方面,本文首先獲得大量網(wǎng)頁新聞文本,保證了搜索數(shù)據(jù)的公正性、客觀性、高效性;在指數(shù)測(cè)算方面,同時(shí)考慮互聯(lián)網(wǎng)搜索量數(shù)據(jù)及互聯(lián)網(wǎng)新聞文本數(shù)據(jù),數(shù)據(jù)類型不但有定性數(shù)據(jù),還有數(shù)值變量輔助;在情感分析方面,本文首次采用情感分析法構(gòu)建指數(shù),并結(jié)合以往研究中表現(xiàn)較好的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比研究,并利用深度學(xué)習(xí)算法進(jìn)行深入挖掘。本文在充分吸收前人研究成果的同時(shí),在消費(fèi)情感指數(shù)的構(gòu)建方面進(jìn)行了大膽的探索。

三、消費(fèi)情感指數(shù)建立

消費(fèi)者信心指數(shù)主要體現(xiàn)消費(fèi)者對(duì)于經(jīng)濟(jì)發(fā)展、就業(yè)狀況、物價(jià)水平、生活狀況、購房和投資6方面的信心情況。本文保留傳統(tǒng)消費(fèi)者信心指數(shù)構(gòu)建的6個(gè)維度,搜集反映6個(gè)維度情感情況的互聯(lián)網(wǎng)新聞文本,利用文本情感分析方法對(duì)文本的情感傾向進(jìn)行判斷,構(gòu)建基于深度學(xué)習(xí)框架的深度神經(jīng)網(wǎng)絡(luò)模型,得到互聯(lián)網(wǎng)新聞文本的情感標(biāo)簽,進(jìn)而得到6個(gè)分指數(shù)并合成總指數(shù),然后用該指數(shù)作為以網(wǎng)民為代表的消費(fèi)者信心的衡量值。

(一)互聯(lián)網(wǎng)新聞文本源數(shù)據(jù)的獲取

互聯(lián)網(wǎng)新聞文本數(shù)量巨大,首先要篩選能夠反映消費(fèi)者信心6個(gè)維度的新聞文本。在項(xiàng)目開展的幾年中,項(xiàng)目組嘗試抓取了不同網(wǎng)頁結(jié)構(gòu)的文本。2015年,團(tuán)隊(duì)抓取國(guó)內(nèi)權(quán)威媒體機(jī)構(gòu)、權(quán)威學(xué)者的相關(guān)主題,例如新華網(wǎng)、人民日?qǐng)?bào)等,但是發(fā)現(xiàn)這些文本中體現(xiàn)的消費(fèi)傾向(用詞謹(jǐn)慎,態(tài)度很難用計(jì)算機(jī)有效評(píng)估)和消費(fèi)觀點(diǎn)差異(中性、積極偏多,消極較少)并不明顯。尤其是像經(jīng)濟(jì)發(fā)展分指數(shù),得到的結(jié)果往往并不能很好地反映消費(fèi)者個(gè)體間的態(tài)度差異。此外這種類型的文本獲取渠道,需要對(duì)6個(gè)主題的權(quán)威媒體發(fā)布、6個(gè)主題方面的專家進(jìn)行分別統(tǒng)計(jì),然后再逐一進(jìn)行數(shù)據(jù)抓取方案的設(shè)計(jì)和實(shí)施。給研究的初期工作帶來很大的麻煩。2016年,抓取了知名論壇貼吧中的文本數(shù)據(jù),從文本情感分析的角度來看,計(jì)算機(jī)可以更加準(zhǔn)確地估計(jì)和預(yù)測(cè)文本的態(tài)度傾向,而且從論壇和貼吧的數(shù)據(jù)來看,消極態(tài)度的文本類型更多,可以更加全面地反映消費(fèi)者的主觀感受。但是這種方法更加適合特定的分指數(shù),如投資分指數(shù),在經(jīng)濟(jì)發(fā)展分指數(shù)上很難套用這種分析模式。最后,通過梳理相關(guān)文獻(xiàn),結(jié)合專家經(jīng)驗(yàn)和搜索量等信息確定最終的搜索關(guān)鍵詞。然后利用搜索引擎確定互聯(lián)網(wǎng)文本來源,通過Python編寫爬蟲程序,按照設(shè)定好的網(wǎng)頁規(guī)則,自動(dòng)從網(wǎng)絡(luò)上獲取文本信息。

本文中數(shù)據(jù)獲取分為搜索引擎確定、關(guān)鍵詞選取和文本爬取3個(gè)部分,具體過程如下:通過比較中國(guó)大陸地區(qū)各家搜索引擎的市場(chǎng)占比,本文選用占據(jù)市場(chǎng)份額79.58%①數(shù)據(jù)來源于《中國(guó)搜索引擎市場(chǎng)季度監(jiān)測(cè)分析2017年第1季度》。的百度作為研究中的搜索引擎。同時(shí)設(shè)立關(guān)鍵詞選取標(biāo)準(zhǔn)如下:

(1)關(guān)鍵詞搜索得到的文本內(nèi)容與情感指數(shù)高度相關(guān)。

(2)所得文本有較清晰的情感區(qū)分度。

(3)搜索結(jié)果中的無關(guān)內(nèi)容如廣告和娛樂新聞,占比應(yīng)該在合理范圍內(nèi)。

基于上述標(biāo)準(zhǔn),經(jīng)過多次嘗試選取消費(fèi)情感6個(gè)方面關(guān)鍵詞見表2。

表2 關(guān)鍵詞表

在關(guān)鍵詞選擇步驟,結(jié)合消費(fèi)研究和專家經(jīng)驗(yàn),初步擬定6個(gè)分指數(shù)的關(guān)鍵詞表之后,我們?cè)诎俣壬线M(jìn)行測(cè)試,發(fā)現(xiàn)很多關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁搜索結(jié)果為商業(yè)廣告,如“購房”和“房地產(chǎn)”等詞,搜索結(jié)果多為樓盤或者房地產(chǎn)中介的租房或賣方鏈接。因此刪補(bǔ)了部分詞表,這里不一一列出。關(guān)鍵詞表確定后,按照搜索量對(duì)相關(guān)新聞進(jìn)行排序,即可獲得文本數(shù)據(jù)②本文通過Python中的Beautiful Soup4模塊和re模塊進(jìn)行數(shù)據(jù)抓取。抓取過程中根據(jù)時(shí)間限定不同設(shè)置不同URL,且要設(shè)置cookie記錄和相鄰兩次抓取的間隔時(shí)間,以模擬人的訪問,便于提高數(shù)據(jù)抓取效率。。當(dāng)今社會(huì)網(wǎng)民閱讀習(xí)慣日漸趨于快餐式,新聞標(biāo)題的關(guān)注度和輿論導(dǎo)向性遠(yuǎn)高于新聞文本內(nèi)容本身,出現(xiàn)了“標(biāo)題黨”等現(xiàn)象,因此,本研究在抓取過程中突出了對(duì)新聞標(biāo)題的分析。另一方面,在后續(xù)技術(shù)分析中,新聞標(biāo)題③在前期的測(cè)試研究中發(fā)現(xiàn),在分指數(shù)的情感標(biāo)簽預(yù)測(cè)中,使用新聞全文和使用標(biāo)題得到的結(jié)果差異非常小。出于其對(duì)吸引力和明確性的高要求,往往比正文內(nèi)容有更明確的情感傾向,可以增加研究中情感分類的準(zhǔn)確性,有利于指數(shù)構(gòu)建。本研究中2011年至2017年情感指數(shù)6方面數(shù)據(jù)信息見表3。

(二)互聯(lián)網(wǎng)新聞文本預(yù)處理

由于抓取到的源數(shù)據(jù)是摻雜著標(biāo)點(diǎn)、特殊符號(hào)、及對(duì)文本含義無意義的語助詞和語氣詞的完整中文語句,不能直接被計(jì)算機(jī)理解,在做分析前需進(jìn)行文本預(yù)處理。文本預(yù)處理主要分為分詞、刪除停用詞和文本向量化處理。

文本分詞目前常用算法主要分三類:一是基于詞典匹配的方法,如正向最大匹配法、逆向最大匹配法等。這些方法通過文本與詞典一一匹配來識(shí)別詞語;二是基于統(tǒng)計(jì)的分詞算法,常用算法有隱馬爾可夫(HMM)模型,即基于動(dòng)態(tài)規(guī)劃去尋找最大概率的分詞路徑;三是基于理解的分詞方法,該方法要用到句法分析、語義分析的技術(shù),試圖通過讓機(jī)器理解語言含義來進(jìn)行分詞,實(shí)現(xiàn)更為復(fù)雜。本研究中采用基于統(tǒng)計(jì)的分詞方法④通過Python中jieba分詞包處理。,通過隱馬爾可夫(HMM)模型的Viterbi算法得到分詞結(jié)果。

刪除停用詞指過濾文本中的特殊字符和對(duì)文本含義無意義的詞語。例如“的”、“啊”一類的語氣語助詞,這些詞對(duì)文本情感傾向判定無意義,卻在文本向量表示時(shí)由于占據(jù)較大比重而對(duì)后續(xù)分析造成干擾,降低情感分類的準(zhǔn)確性。另一方面,抓取的新聞標(biāo)題除標(biāo)題主體內(nèi)容外,還附帶發(fā)布網(wǎng)站的名稱,如“新浪財(cái)經(jīng)”等,這同樣會(huì)對(duì)標(biāo)題內(nèi)容分析造成干擾,需要通過停詞表篩除。同時(shí),根據(jù)分詞文本主題不同,停詞表需要進(jìn)行針對(duì)性地修改來提高準(zhǔn)確性。

因此,研究中用到的停詞表在《哈工大停用詞表》的基礎(chǔ)上,根據(jù)6個(gè)不同方面文本的具體需求進(jìn)行修改。文本分詞去除了常見的停用詞。本研究中文本向量化采用one-hot-representation,用稀疏方式儲(chǔ)存詞-文檔矩陣。矩陣維度為t×n,t代表文本個(gè)數(shù),n代表詞語個(gè)數(shù)。用詞-文檔稀疏矩陣直接進(jìn)行分類是不可取的,由于維度過高及矩陣過于稀疏將導(dǎo)致分類精度低,因此向量需先降維。矩陣降維采用非負(fù)矩陣分解(NMF)的方法,分解后應(yīng)用于分類算法的文檔向量也非負(fù),因此可以用非負(fù)矩陣分解(NMF)方法降維。經(jīng)過NMF分解,文檔矩陣作為原始詞-文檔向量的替代應(yīng)用到分類算法。

(三)互聯(lián)網(wǎng)文本情感分類

經(jīng)過降維處理后文本向量可用于后續(xù)分類處理。要計(jì)算每季度的消費(fèi)情感指數(shù),我們需要將每季度6個(gè)方面的文本內(nèi)容先分類,給每條文本打上積極、中性或者消極的標(biāo)簽,再分別統(tǒng)計(jì)標(biāo)簽數(shù)進(jìn)行指數(shù)計(jì)算。前面的比較研究中,發(fā)現(xiàn)支持向量機(jī)、隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò)的算法在情感標(biāo)注過程中表現(xiàn)較好。因此本文中分類采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,機(jī)器學(xué)習(xí)方面采用建立隨機(jī)森林等模型,深度學(xué)習(xí)方面采用神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)已標(biāo)記文本①每個(gè)主題下人工標(biāo)記5 000條文本作為訓(xùn)練學(xué)習(xí)樣本,之后均采用自適應(yīng)學(xué)習(xí)得到情感標(biāo)簽。,得到模型后,再對(duì)未標(biāo)記文本做預(yù)測(cè),獲取最終標(biāo)簽。標(biāo)簽方法為,“1”表示積極,“-1”表示消極,“0”表示中性。另外,本研究抓取的文本按季度排列,為防止時(shí)間對(duì)文本樣本的影響,保證標(biāo)記樣本有良好的代表性,在選取樣本文本時(shí),采用系統(tǒng)抽樣的方法,保證每個(gè)季度都有文本入樣。模型建立過程中,共采用以下兩大類方法:

第一大類選用機(jī)器學(xué)習(xí)中精度較高的分類算法。本文采用支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)和AdaBoost XGBoost算法②計(jì)算通過Python機(jī)器學(xué)習(xí)庫sklearn包中函數(shù)實(shí)現(xiàn)。,分別訓(xùn)練6個(gè)方面數(shù)據(jù),通過交叉驗(yàn)證得到平均準(zhǔn)確度。支持向量機(jī)(SVM)算法平均準(zhǔn)確度為0.846,隨機(jī)森林(n=50)算法平均準(zhǔn)確度為0.872,隨機(jī)森林算法準(zhǔn)確度較高。

第二類模型基于深度學(xué)習(xí)框架,構(gòu)建多層神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)情感標(biāo)簽③深度學(xué)習(xí)網(wǎng)絡(luò)基于keras庫搭建。。將文本的詞向量(word2vec結(jié)果)作為總輸入,情感的3類標(biāo)簽作為輸出,因?yàn)槟繕?biāo)任務(wù)為文本的多分類任務(wù),激活函數(shù)方面主要選用 tanh、Sigmoid、Relu、SoftMax 函數(shù)進(jìn)行激活,在搭建多層網(wǎng)絡(luò)過程中,主要基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 加 Max-Pooling,并結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network,RNN)&(Long Short-Term Memory)LSTM進(jìn)行測(cè)試。訓(xùn)練數(shù)據(jù)得到預(yù)測(cè)準(zhǔn)確性高達(dá)95%。卷積層用了3層,并分別使用maxpooling進(jìn)行降參,在卷積層使用的主要激活函數(shù)為 relu、tanh,Dropout為 0.2,最后利用了全連接形式,激活函數(shù)選擇了softmax。損失函數(shù)為 adam、Epoch=16、Batch_size為 128。

(四)消費(fèi)情感指數(shù)計(jì)算

消費(fèi)情感指數(shù)由“經(jīng)濟(jì)發(fā)展”、“就業(yè)狀況”、“物價(jià)水平”、“生活狀況”、“購房”和“投資”6項(xiàng)分指數(shù)合成??傊笖?shù)取100為中值,分別加上6方面得分記為該季度消費(fèi)情感指數(shù)。每方面得分計(jì)算方式如下:以“購房”2017年第1季度為例,該類別下文本總數(shù)為1 512條,其中被標(biāo)記為“1”的文本共477條,標(biāo)記為“-1”的文本共136條,其余文本標(biāo)記為“0”,因此“購房”方面在 2017年第 1季度的得分為:

即計(jì)算所有有正向、負(fù)向情感傾向文本的得分均值。這種計(jì)算方法忽略了被標(biāo)記為0的大多數(shù)文本,有效排除廣告等無意義文本在情感指數(shù)計(jì)算中的影響。對(duì)于重復(fù)性文本,本研究中沒有剔除,因?yàn)橹貜?fù)性文本在一定程度上表明該觀點(diǎn)傳播范圍廣、大眾接受度高、有代表性。

四、實(shí)證分析

(一)消費(fèi)情感指數(shù)分析

消費(fèi)者信心指數(shù)可分為經(jīng)濟(jì)發(fā)展指數(shù)、就業(yè)指數(shù)、物價(jià)指數(shù)、生活指數(shù)、購房指數(shù)和投資指數(shù)6個(gè)分指數(shù)。本文基于網(wǎng)絡(luò)新聞文本,通過對(duì)6個(gè)維度新聞標(biāo)題的正負(fù)情感傾向判斷,得到互聯(lián)網(wǎng)新聞文本的情感標(biāo)簽,進(jìn)而得到6個(gè)分指數(shù)?;谏鲜鲇?jì)算方法,每個(gè)分指數(shù)得分將在-1到1之間波動(dòng),把每個(gè)季度6方面得分算術(shù)相加,再加上100分的基礎(chǔ)分,得到每季度消費(fèi)情感分?jǐn)?shù)。按照上述方法,基于隨機(jī)森林算法和神經(jīng)網(wǎng)絡(luò)模型分別計(jì)算出2011年至2017年第1季度的消費(fèi)情感指數(shù)。計(jì)算結(jié)果顯示,兩種方法計(jì)算得到的消費(fèi)情感指數(shù)趨勢(shì)相似,且基于神經(jīng)網(wǎng)絡(luò)的消費(fèi)情感指數(shù)略高,2013年至2017年第1季度指數(shù)在98至102間徘徊,在2016年第3季度起穩(wěn)定在100以上,表示當(dāng)時(shí)消費(fèi)者對(duì)當(dāng)前及未來經(jīng)濟(jì)發(fā)展的樂觀心態(tài)。圖1以折線圖的形式展示消費(fèi)情感指數(shù)。

圖1 基于互聯(lián)網(wǎng)新聞文本的消費(fèi)情感指數(shù)圖

圖1中顯示的是由多層神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林訓(xùn)練得到的基于互聯(lián)網(wǎng)新聞文本的消費(fèi)情感指數(shù)。從圖中可以看出,兩條曲線變化趨勢(shì)基本一致,指數(shù)取值區(qū)間為94至106,調(diào)查時(shí)間為2011年第1季度至2017年第1季度。分段來看,2011年至2012年第2季度,情感指數(shù)整體處于下降區(qū)間,反映民眾對(duì)經(jīng)濟(jì)發(fā)展向好信心不足。自2012年第3季度起,指數(shù)強(qiáng)勢(shì)反彈,在經(jīng)歷2013年初的小幅震動(dòng)后,回升趨勢(shì)繼續(xù)延續(xù),指數(shù)波動(dòng)上升至2015年第2季度,達(dá)到5年來最高值,體現(xiàn)消費(fèi)者對(duì)經(jīng)濟(jì)發(fā)展抱有積極樂觀的心態(tài)。2015年第2季度,伴隨股市斷崖式下跌,多地房?jī)r(jià)超越歷史最高水平,經(jīng)濟(jì)下行壓力凸顯,消費(fèi)者信心大幅下滑,指數(shù)再次進(jìn)入下降通道。2016年隨著中國(guó)大陸經(jīng)濟(jì)平穩(wěn)運(yùn)行,情感指數(shù)回暖上行,總體穩(wěn)定在較高水平。

(二)與傳統(tǒng)消費(fèi)者信心指數(shù)比較

本文選用國(guó)家統(tǒng)計(jì)局景氣監(jiān)測(cè)中心的消費(fèi)者信心指數(shù)(CCI)以及兩岸暨港澳消費(fèi)者信心指數(shù)大陸消費(fèi)者信心指數(shù)(CCCI)作為情感指數(shù)比較的指標(biāo)。計(jì)算情感指數(shù)與傳統(tǒng)消費(fèi)者信心指數(shù)間相關(guān)系數(shù)見表4。

表4 情感指數(shù)與信心指數(shù)的相關(guān)系數(shù)表

從結(jié)果來看,基于多層神經(jīng)網(wǎng)絡(luò)的情感指數(shù)與國(guó)家統(tǒng)計(jì)局信心指數(shù)相關(guān)性為0.653,與大陸消費(fèi)者信心指數(shù)相關(guān)性為0.590,基于隨機(jī)森林算法的情感指數(shù)與國(guó)家統(tǒng)計(jì)局信心指數(shù)有較高相關(guān)性,為0.671,這說明情感指數(shù)具有一定的可靠性,且基于多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的結(jié)果更穩(wěn)定,更接近傳統(tǒng)信心指數(shù)的走勢(shì)。通過折線圖觀察更為直觀,如下圖。

圖2 情感指數(shù)與統(tǒng)計(jì)局消費(fèi)者信心指數(shù)比較圖

圖3 情感指數(shù)與大陸消費(fèi)者信心指數(shù)比較圖

圖2為兩類情感指數(shù)與國(guó)家統(tǒng)計(jì)局景氣中心消費(fèi)者信心指數(shù)比較圖。由于計(jì)算方式不同,情感指數(shù)數(shù)值波動(dòng)較小,為了更直觀地展現(xiàn)趨勢(shì)變化,將情感指數(shù)繪制在次坐標(biāo)軸,景氣中心指數(shù)繪制在主坐標(biāo)軸。從圖形來看,指數(shù)整體趨勢(shì)相近,基于隨機(jī)森林的情感指數(shù)在2011—2013年間趨勢(shì)貼合度更高,基于多層神經(jīng)網(wǎng)絡(luò)的情感指數(shù)在2015—2017年趨勢(shì)更接近。從細(xì)節(jié)來看,兩類情感指數(shù)都在2012年第2季度及2013年第2季度提前景氣中心信心指數(shù)一個(gè)季度企穩(wěn)并進(jìn)入上升通道,體現(xiàn)情感指數(shù)的局部先行性。

圖3表示兩類情感指數(shù)與兩岸暨港澳消費(fèi)者信心指數(shù)中大陸地區(qū)消費(fèi)者信心指數(shù)比較圖。根據(jù)圖3可以看出,伴隨2014—2015年房地產(chǎn)及股市投資市場(chǎng)的火熱,大陸地區(qū)消費(fèi)者信心指數(shù)迎來大幅躍升,隨后保持在高位運(yùn)行,體現(xiàn)消費(fèi)者對(duì)經(jīng)濟(jì)發(fā)展樂觀積極的心態(tài)。與之相比,情感指數(shù)整體波動(dòng)較平緩,其中基于多層神經(jīng)網(wǎng)絡(luò)得到的情感指數(shù)變化趨勢(shì)更接近大陸地區(qū)消費(fèi)者信心指數(shù)。

在相關(guān)性方面,消費(fèi)情感指數(shù)與傳統(tǒng)指數(shù)編制方法在團(tuán)隊(duì)近幾年的測(cè)試中均表現(xiàn)出較強(qiáng)的關(guān)系,在不同文本類型的測(cè)試中(特定門戶網(wǎng)站文本和論壇貼吧文本),這種相關(guān)系數(shù)都達(dá)到約0.7,結(jié)果比較一致。

在先行性方面,此次計(jì)算的消費(fèi)情感指數(shù)與傳統(tǒng)指數(shù)編制方法并未表現(xiàn)出明顯的先行性。在這里給出研究前期基于論壇和貼吧文本情感分析的結(jié)果,如圖4所示,其中實(shí)線給出的是消費(fèi)情感指數(shù),虛線是國(guó)家統(tǒng)計(jì)局的CCI指數(shù),這個(gè)結(jié)果中的指數(shù)先行性有更明顯的體現(xiàn),領(lǐng)先趨勢(shì)在1~2個(gè)月??傮w來看,相較傳統(tǒng)指數(shù)編制方法來說,基于文本情感分析方法得到的結(jié)果先行性優(yōu)勢(shì)并不明顯。

通過圖形分析可得,情感指數(shù)存在局部先導(dǎo)性,尤其在趨勢(shì)轉(zhuǎn)換的節(jié)點(diǎn),情感指數(shù)往往在領(lǐng)先傳統(tǒng)消費(fèi)者信心指數(shù)1個(gè)季度后企穩(wěn),提前進(jìn)入上升趨勢(shì)。這種趨勢(shì)先行在一定程度上反映了媒體對(duì)公眾的導(dǎo)向作用,網(wǎng)絡(luò)媒體由于其受眾面廣,在集結(jié)民眾聲音和反映消費(fèi)者情緒的同時(shí)逆向影響消費(fèi)者對(duì)趨勢(shì)的判斷,兩者間相互作用解釋了情感指數(shù)與傳統(tǒng)消費(fèi)者信心指數(shù)的趨勢(shì)相近性及趨勢(shì)先行性。

圖4 基于論壇貼吧數(shù)據(jù)的消費(fèi)情感指數(shù)與消費(fèi)者信心指數(shù)比較圖

五、結(jié)論及不足

本文通過文本情感分析和深度學(xué)習(xí)的方法,運(yùn)用互聯(lián)網(wǎng)新聞文本構(gòu)建了消費(fèi)情感指數(shù)。該指數(shù)參考了兩岸暨港澳消費(fèi)者信心指數(shù)(CCCI)的編制方式,由6個(gè)分指數(shù)構(gòu)成,每季度測(cè)算1次。與傳統(tǒng)方式得到的指數(shù)相比,情感指數(shù)數(shù)據(jù)獲取更靈活,計(jì)算更便捷,且利用了互聯(lián)網(wǎng)信息集中和時(shí)效性強(qiáng)的特點(diǎn),減少傳統(tǒng)消費(fèi)者信心指數(shù)調(diào)查工作量,可節(jié)約人力、物力成本。由于互聯(lián)網(wǎng)新聞的高度總結(jié)性及廣泛傳播性,指數(shù)短期趨勢(shì)變化更明顯,能靈敏捕捉消費(fèi)者信心的變化。研究結(jié)果表明,基于互聯(lián)網(wǎng)文本情感分析得到的情感指數(shù)與傳統(tǒng)消費(fèi)者信心指數(shù)高度相關(guān),說明了該指數(shù)計(jì)算方法的可靠性,在反映消費(fèi)者對(duì)經(jīng)濟(jì)發(fā)展現(xiàn)狀及未來預(yù)期的看法時(shí),體現(xiàn)了網(wǎng)絡(luò)媒體及輿論對(duì)消費(fèi)者情緒的影響,不失成為消費(fèi)者信心指數(shù)測(cè)算方法的良好補(bǔ)充。

本研究存在一些局限性。數(shù)據(jù)獲取自2011年開始,整體尚不足一個(gè)經(jīng)濟(jì)周期,一定程度上使得指數(shù)說服力不足。同時(shí)隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們的上網(wǎng)習(xí)慣和互聯(lián)網(wǎng)使用人群的分布變革迅速,互聯(lián)網(wǎng)用語日新月異,針對(duì)時(shí)間維度的變化尚未出現(xiàn)更好的分析,這可能對(duì)數(shù)據(jù)穩(wěn)定性造成一定影響。因此,情感指數(shù)在發(fā)揮其可靠性和先導(dǎo)性等優(yōu)勢(shì)的同時(shí),也需要進(jìn)一步改進(jìn),后期可從適當(dāng)增加搜索引擎、關(guān)鍵詞數(shù)量、探索互聯(lián)網(wǎng)文本用語習(xí)慣變化等維度繼續(xù)提高結(jié)果準(zhǔn)確性。

猜你喜歡
信心消費(fèi)者文本
消費(fèi)者網(wǎng)上購物六注意
信心和山
文苑(2020年10期)2020-11-22 03:28:43
Study Of ShiJie Control Thought
在808DA上文本顯示的改善
恢復(fù)信心比給豬刷臉更重要
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
知識(shí)付費(fèi)消費(fèi)者
悄悄偷走消費(fèi)者的創(chuàng)意
悄悄偷走消費(fèi)者的創(chuàng)意
KX5的耐心與信心
汽車觀察(2016年3期)2016-02-28 13:16:38
海城市| 佛教| 北票市| 华安县| 视频| 佳木斯市| 清河县| 揭阳市| 乐平市| 万全县| 福清市| 云阳县| 额济纳旗| 贡觉县| 海兴县| 察雅县| 新宾| 石柱| 三江| 永年县| 五原县| 鸡东县| 嘉善县| 浑源县| 金塔县| 平原县| 长子县| 成都市| 靖江市| 策勒县| 桐梓县| 开平市| 张北县| 会同县| 额尔古纳市| 曲阳县| 芦溪县| 宁远县| 会东县| 渭源县| 班戈县|