国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)數(shù)據(jù)的消費(fèi)者信心指數(shù)滾動(dòng)預(yù)測(cè)研究

2021-11-29 10:43朱建霖李挽瀾
關(guān)鍵詞:網(wǎng)絡(luò)新聞信心建模

孫 景,朱建霖,李挽瀾,高 哲

(西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710061)

投資、出口和消費(fèi)是拉動(dòng)中國(guó)經(jīng)濟(jì)增長(zhǎng)的三駕馬車。受新冠肺炎疫情的影響,世界經(jīng)濟(jì)遭遇重創(chuàng),國(guó)際貿(mào)易受到影響。2020年5月14日,中共中央政治局常務(wù)委員會(huì)會(huì)議首次提出“深化供給側(cè)結(jié)構(gòu)性改革,充分發(fā)揮我國(guó)超大規(guī)模市場(chǎng)優(yōu)勢(shì)和內(nèi)需潛力,構(gòu)建國(guó)內(nèi)國(guó)際雙循環(huán)相互促進(jìn)的新發(fā)展格局”。中國(guó)是人口大國(guó),蘊(yùn)含著有無(wú)限可能的消費(fèi)市場(chǎng),通過(guò)提升消費(fèi)者信心拉動(dòng)消費(fèi),以國(guó)內(nèi)新需求替代外部需求滯納產(chǎn)能,才能真正實(shí)現(xiàn)經(jīng)濟(jì)內(nèi)循環(huán),保持GDP的持續(xù)增長(zhǎng)。消費(fèi)者信心指數(shù)(Consumer Confidence Index,CCI)是預(yù)測(cè)經(jīng)濟(jì)走勢(shì)和消費(fèi)傾向的指標(biāo),它綜合反映并量化消費(fèi)者對(duì)當(dāng)前及未來(lái)經(jīng)濟(jì)形勢(shì)、收入水平及收入預(yù)期的判斷,以及消費(fèi)心理狀態(tài)的主觀感受等,是衡量市場(chǎng)經(jīng)濟(jì)條件下居民消費(fèi)動(dòng)向的重要參數(shù)。及時(shí)準(zhǔn)確地統(tǒng)計(jì)和預(yù)測(cè)消費(fèi)者信心指數(shù),對(duì)預(yù)判消費(fèi)及宏觀經(jīng)濟(jì)形勢(shì)、調(diào)整宏觀經(jīng)濟(jì)政策都具有重要的現(xiàn)實(shí)意義。

20世紀(jì)40年代,美國(guó)密歇根大學(xué)調(diào)查研究中心的Katona[1]最早提出了消費(fèi)者信心指數(shù)的概念與方法。中國(guó)國(guó)家統(tǒng)計(jì)局于1997年開(kāi)始在全國(guó)范圍內(nèi)開(kāi)展消費(fèi)者信心指數(shù)的調(diào)查與編制。目前,中國(guó)消費(fèi)者信心指數(shù)編制基于消費(fèi)者電話問(wèn)卷調(diào)查展開(kāi)。該調(diào)查每月進(jìn)行一次,通過(guò)電話問(wèn)卷調(diào)查收集居民對(duì)經(jīng)濟(jì)環(huán)境與家庭收支的看法,問(wèn)題涉及受訪者對(duì)經(jīng)濟(jì)現(xiàn)狀的看法、對(duì)未來(lái)生活的預(yù)期、對(duì)國(guó)民經(jīng)濟(jì)的估測(cè)等方面。然而,消費(fèi)者調(diào)查需要經(jīng)過(guò)問(wèn)卷設(shè)計(jì)、樣本抽取、調(diào)查訪問(wèn)、數(shù)據(jù)整理匯編等多個(gè)環(huán)節(jié),耗費(fèi)較多的時(shí)間與人力物力資源,難以及時(shí)更新,其準(zhǔn)確性與時(shí)效性面臨挑戰(zhàn)。

互聯(lián)網(wǎng)時(shí)代,人們每天都會(huì)使用網(wǎng)絡(luò)并產(chǎn)生大量數(shù)據(jù),而這些數(shù)據(jù)為科學(xué)研究提供了新的數(shù)據(jù)來(lái)源。互聯(lián)網(wǎng)的產(chǎn)生與應(yīng)用為了解消費(fèi)者心理與行為提供了新的途徑,為提高消費(fèi)者信心指數(shù)預(yù)測(cè)準(zhǔn)確性與時(shí)效性提供了大量的優(yōu)質(zhì)數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)種類繁多,本文將以互聯(lián)網(wǎng)數(shù)據(jù)的兩個(gè)典型代表:網(wǎng)絡(luò)搜索關(guān)鍵詞指數(shù)數(shù)據(jù)和網(wǎng)絡(luò)新聞文本數(shù)據(jù)為依據(jù),對(duì)消費(fèi)者信心指數(shù)進(jìn)行預(yù)測(cè)。

一、文獻(xiàn)綜述

國(guó)內(nèi)外學(xué)者在利用網(wǎng)絡(luò)搜索數(shù)據(jù)和網(wǎng)絡(luò)新聞數(shù)據(jù)預(yù)測(cè)經(jīng)濟(jì)及消費(fèi)者信心指數(shù)方面已經(jīng)做了一些研究。

在利用網(wǎng)絡(luò)搜索數(shù)據(jù)和新聞媒體數(shù)據(jù)進(jìn)行經(jīng)濟(jì)預(yù)測(cè)的相關(guān)研究中,Ettredge等[2]利用網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測(cè)失業(yè)率,并發(fā)現(xiàn)與美國(guó)官方發(fā)布的失業(yè)率之間存在顯著的正相關(guān)。Guzman[3]提出了一種基于谷歌搜索元數(shù)據(jù)的通脹搜索指數(shù),能對(duì)通貨膨脹率進(jìn)行有效預(yù)測(cè)。Smith[4]根據(jù)“經(jīng)濟(jì)危機(jī)”“金融危機(jī)”和“衰退”等關(guān)鍵詞的谷歌搜索量變化來(lái)預(yù)測(cè)外匯市場(chǎng)的波動(dòng)。Choi等[5]利用谷歌趨勢(shì)數(shù)據(jù)預(yù)測(cè)當(dāng)下經(jīng)濟(jì)活動(dòng),指出經(jīng)濟(jì)學(xué)家、投資人、財(cái)經(jīng)記者每月都在關(guān)注政府發(fā)布的經(jīng)濟(jì)運(yùn)行情況報(bào)告,但這些報(bào)告的發(fā)布普遍滯后。而谷歌每天都在產(chǎn)生大量與經(jīng)濟(jì)發(fā)展相關(guān)的搜索數(shù)據(jù),而與此相關(guān)的搜索行為與當(dāng)下的經(jīng)濟(jì)活動(dòng)之間必然存在不容忽視的關(guān)系,或許可以對(duì)預(yù)測(cè)當(dāng)下的經(jīng)濟(jì)活動(dòng)起到非常重要的作用。在此基礎(chǔ)上,文章還舉例說(shuō)明了如何利用谷歌趨勢(shì)預(yù)測(cè)美國(guó)零售業(yè)、汽車、住房和旅游銷售情況等。Thorsrud[6]將挪威主要商業(yè)報(bào)紙分解成若干個(gè)新聞主題,對(duì)GDP進(jìn)行季度預(yù)測(cè),預(yù)測(cè)效果最多可提升15%。

我國(guó)研究者張崇等[7]發(fā)現(xiàn)網(wǎng)絡(luò)搜索數(shù)據(jù)與居民消費(fèi)價(jià)格指數(shù)(CPI)之間存在一定的先行滯后關(guān)系。他們建構(gòu)的模型具有很強(qiáng)的時(shí)效性,比國(guó)家統(tǒng)計(jì)局的數(shù)據(jù)發(fā)布提前一個(gè)月左右,而且與傳統(tǒng)的預(yù)測(cè)方法相比,模型還具備一定的轉(zhuǎn)折點(diǎn)預(yù)測(cè)能力。彭庚等[8]利用網(wǎng)絡(luò)搜索數(shù)據(jù),采用改進(jìn)的逐步回歸方法分層建立了三個(gè)模型來(lái)預(yù)測(cè)失業(yè)率。結(jié)果發(fā)現(xiàn),三個(gè)模型的擬合優(yōu)度均在90%以上,說(shuō)明網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)經(jīng)濟(jì)、社會(huì)問(wèn)題可以進(jìn)行有效的預(yù)測(cè)。董倩等[9]基于百度搜索數(shù)據(jù)對(duì)全國(guó)16個(gè)城市的二手房?jī)r(jià)格和新房?jī)r(jià)格進(jìn)行了擬合和預(yù)測(cè),結(jié)果發(fā)現(xiàn)網(wǎng)絡(luò)搜索數(shù)據(jù)不但能很好地預(yù)測(cè)房?jī)r(jià)指數(shù),而且比官方數(shù)據(jù)發(fā)布提前了兩周,具有很強(qiáng)的時(shí)效性。薛曄等[10]建立決策樹(shù)—BP神經(jīng)網(wǎng)絡(luò)模型,在百度指數(shù)的基礎(chǔ)上加入了上證綜合指數(shù)、國(guó)際油價(jià)、人民幣兌換美元匯率等指標(biāo),對(duì)月度通貨膨脹綜合指數(shù)進(jìn)行預(yù)測(cè),短期預(yù)測(cè)效果良好,預(yù)測(cè)結(jié)果可靠性有明顯的提高。

在利用網(wǎng)絡(luò)搜索數(shù)據(jù)和新聞媒體數(shù)據(jù)預(yù)測(cè)消費(fèi)者信心指數(shù)的相關(guān)研究中,Alsem等[11]發(fā)現(xiàn)新聞媒體中的經(jīng)濟(jì)形勢(shì)評(píng)論會(huì)對(duì)消費(fèi)者信心產(chǎn)生短期影響。Penna等[12]使用谷歌趨勢(shì)數(shù)據(jù)構(gòu)建了美國(guó)消費(fèi)者情緒指數(shù),發(fā)現(xiàn)其與密歇根大學(xué)發(fā)布的消費(fèi)者情緒指數(shù)以及美國(guó)咨商局發(fā)布的消費(fèi)者信心指數(shù)具有高度相關(guān)性,且在時(shí)間上領(lǐng)先,可以預(yù)測(cè)另外兩種指數(shù)。Vosen等[13]利用與消費(fèi)相關(guān)的谷歌趨勢(shì)數(shù)據(jù)建立的消費(fèi)月度指標(biāo)成果預(yù)測(cè)了美國(guó)消費(fèi)者信心指數(shù),其預(yù)測(cè)效果優(yōu)于調(diào)查數(shù)據(jù)。

我國(guó)研究者孫毅等[14]利用八個(gè)行業(yè)相關(guān)商品的百度指數(shù)數(shù)據(jù)構(gòu)建了消費(fèi)者信心指數(shù),并領(lǐng)先于宏觀經(jīng)濟(jì)景氣一致指數(shù)6個(gè)月,對(duì)社會(huì)商品零售總額的長(zhǎng)期趨勢(shì)判斷更加準(zhǔn)確,對(duì)短期波動(dòng)的預(yù)測(cè)精度更高。劉偉江等[15]通過(guò)搜集與消費(fèi)者信心指數(shù)構(gòu)成相關(guān)的中國(guó)臺(tái)灣地區(qū)關(guān)鍵詞搜索量,運(yùn)用主成分分析方法合成搜索指數(shù)并對(duì)該地區(qū)消費(fèi)者信心指數(shù)進(jìn)行預(yù)測(cè),研究表明搜索指數(shù)與消費(fèi)者信心指數(shù)之間存在長(zhǎng)期穩(wěn)定協(xié)整關(guān)系,模型擬合程度高、時(shí)效性強(qiáng)且具備轉(zhuǎn)折點(diǎn)預(yù)測(cè)的能力。董現(xiàn)壘等[16]利用百度指數(shù)數(shù)據(jù)對(duì)我國(guó)消費(fèi)者信心指數(shù)進(jìn)行了預(yù)測(cè),取得較好的效果。劉偉江等[17]利用網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)生成了網(wǎng)絡(luò)消費(fèi)者信心指數(shù)(WCCI),以規(guī)模以上企業(yè)工業(yè)增加值(IP)作為測(cè)量經(jīng)濟(jì)增長(zhǎng)的量化指標(biāo),其研究表明WCCI與IP之間存在顯著的動(dòng)態(tài)相關(guān)關(guān)系。劉苗等[18]利用百度搜索采集了約17萬(wàn)條新聞,并通過(guò)文本挖掘獲取新聞的情感傾向,以此為基礎(chǔ)構(gòu)建了新聞消費(fèi)者信心指數(shù)。新聞消費(fèi)者信心指數(shù)與傳統(tǒng)消費(fèi)者信心指數(shù)的相關(guān)性較高,且對(duì)消費(fèi)短期趨勢(shì)的判斷更加明顯。唐曉彬等[19]基于機(jī)器學(xué)習(xí)長(zhǎng)短時(shí)間記憶神經(jīng)網(wǎng)絡(luò)模型,結(jié)合相關(guān)網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建預(yù)測(cè)模型對(duì)我國(guó)消費(fèi)者信心指數(shù)長(zhǎng)、中、短期進(jìn)行了預(yù)測(cè),預(yù)測(cè)結(jié)果表明引入網(wǎng)絡(luò)搜索數(shù)據(jù)能夠提高神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)性能與預(yù)測(cè)精度。國(guó)內(nèi)外針對(duì)利用互聯(lián)網(wǎng)數(shù)據(jù)預(yù)測(cè)消費(fèi)者信心指數(shù)的研究表明,互聯(lián)網(wǎng)數(shù)據(jù)本身具有樣本量大、時(shí)效性強(qiáng)、精準(zhǔn)度高、獲取成本低等優(yōu)點(diǎn),利用互聯(lián)網(wǎng)數(shù)據(jù)可以提高預(yù)測(cè)的時(shí)效性和準(zhǔn)確性。

無(wú)論是網(wǎng)絡(luò)搜索行為還是網(wǎng)絡(luò)新聞都具有時(shí)效性強(qiáng)的特點(diǎn),通過(guò)以往研究中的特征關(guān)鍵詞“靜態(tài)”篩選方法都難以滿足消費(fèi)者信心指數(shù)預(yù)測(cè)建模準(zhǔn)確性需求。本文將挖掘網(wǎng)絡(luò)新聞?wù)Z義特征關(guān)鍵詞并獲取相應(yīng)的百度搜索指數(shù)作為消費(fèi)者信心指數(shù)預(yù)測(cè)建模的數(shù)據(jù)基礎(chǔ),通過(guò)時(shí)間窗口的設(shè)置與滑動(dòng),滾動(dòng)篩選預(yù)測(cè)建模的關(guān)鍵詞解釋變量,使變量選擇更具時(shí)效性,利用多種機(jī)器學(xué)習(xí)及回歸方法建立提前1~4個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)模型,根據(jù)準(zhǔn)確率對(duì)預(yù)測(cè)模型進(jìn)行篩選,通過(guò)分析比較宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)在預(yù)測(cè)建模中的表現(xiàn),給出不同類型數(shù)據(jù)在消費(fèi)者信心指數(shù)預(yù)測(cè)建模中的應(yīng)用建議。

二、機(jī)理分析

消費(fèi)者信心指數(shù)是反映消費(fèi)者信心強(qiáng)弱的指標(biāo)。消費(fèi)者信心既受宏觀經(jīng)濟(jì)因素的影響,也受消費(fèi)者個(gè)體的微觀因素影響。宏觀經(jīng)濟(jì)發(fā)展形勢(shì)向好,居民收入水平提高,社會(huì)消費(fèi)品日益增多,才能保持或提升消費(fèi)者信心。經(jīng)濟(jì)運(yùn)行、消費(fèi)結(jié)構(gòu)、物價(jià)水平、貨幣政策等宏觀因素都能對(duì)消費(fèi)者信心指數(shù)產(chǎn)生影響。宏觀經(jīng)濟(jì)指標(biāo)是否達(dá)到消費(fèi)者的預(yù)期水平,會(huì)影響消費(fèi)者對(duì)現(xiàn)狀的滿意程度和對(duì)未來(lái)的預(yù)期。此外,宏觀經(jīng)濟(jì)的發(fā)展?fàn)顩r會(huì)影響消費(fèi)者的消費(fèi)需求,從而影響消費(fèi)者信心。個(gè)人收入、消費(fèi)態(tài)度、投資策略、家庭開(kāi)支與經(jīng)濟(jì)預(yù)期等是影響消費(fèi)者信心的個(gè)體微觀因素,這些因素會(huì)直接影響消費(fèi)者的消費(fèi)情緒及消費(fèi)行為。

網(wǎng)絡(luò)新聞具有更新快、內(nèi)容全等特點(diǎn),它突破了傳統(tǒng)媒介的束縛,讓人們更便捷地接觸新事物,傳播熱門話題。隨著移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)新聞受眾不斷增多,網(wǎng)絡(luò)新聞內(nèi)容對(duì)大眾情緒、社會(huì)心理的影響力不斷增強(qiáng)。網(wǎng)絡(luò)搜索行為不僅與人們的現(xiàn)實(shí)需求與客觀環(huán)境相關(guān),還受到人們對(duì)事物的主觀認(rèn)知與心理偏好的影響。而消費(fèi)者信心也受客觀因素與主觀因素的影響。消費(fèi)者在產(chǎn)生消費(fèi)需求、開(kāi)展信息收集與購(gòu)買決策時(shí),往往會(huì)閱讀網(wǎng)絡(luò)新聞和使用搜索引擎。消費(fèi)者可以通過(guò)財(cái)經(jīng)類新聞了解經(jīng)濟(jì)運(yùn)行、消費(fèi)結(jié)構(gòu)、物價(jià)水平、貨幣政策等宏觀經(jīng)濟(jì)形勢(shì)與政策。在購(gòu)買商品時(shí),消費(fèi)者也會(huì)通過(guò)搜索引擎查找合適的產(chǎn)品,判斷商品的購(gòu)買時(shí)機(jī)與價(jià)格是否合理等。此外,當(dāng)消費(fèi)者遇到就業(yè)、收入以及投資理財(cái)?shù)认嚓P(guān)問(wèn)題時(shí),也可以通過(guò)網(wǎng)絡(luò)搜索引擎獲取相關(guān)信息。因此,瀏覽網(wǎng)絡(luò)新聞或搜索網(wǎng)絡(luò)信息已經(jīng)成為消費(fèi)者判斷宏觀經(jīng)濟(jì)形勢(shì)、輔助消費(fèi)決策的重要手段。無(wú)論是消費(fèi)者信心指數(shù)的宏觀影響因素還是微觀影響因素的變動(dòng),都可以通過(guò)以網(wǎng)絡(luò)新聞數(shù)據(jù)與搜索引擎數(shù)據(jù)為代表的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行捕獲,并通過(guò)關(guān)鍵詞搜索指數(shù)的形式體現(xiàn)出來(lái)?;ヂ?lián)網(wǎng)數(shù)據(jù)與消費(fèi)者信心指數(shù)的關(guān)聯(lián)機(jī)理如圖1所示。

圖1 互聯(lián)網(wǎng)數(shù)據(jù)與消費(fèi)者信心指數(shù)的關(guān)聯(lián)機(jī)理

三、數(shù)據(jù)獲取與預(yù)處理

為了收集與消費(fèi)者信心指數(shù)預(yù)測(cè)有關(guān)的互聯(lián)網(wǎng)數(shù)據(jù),本文首先基于微觀因素分析,確定若干個(gè)重要的初始關(guān)鍵詞數(shù)據(jù)。然后以初始關(guān)鍵詞為基礎(chǔ),采集相關(guān)的網(wǎng)絡(luò)新聞數(shù)據(jù),形成網(wǎng)絡(luò)新聞?wù)Z料庫(kù),并對(duì)網(wǎng)絡(luò)新聞文本數(shù)據(jù)進(jìn)行分詞處理,通過(guò)TF-IDF值詞匯重要性度量,篩選網(wǎng)絡(luò)新聞熱點(diǎn)詞,通過(guò)建立詞向量模型從網(wǎng)絡(luò)新聞中篩選初始關(guān)鍵詞的近似詞,通過(guò)百度搜索引擎需求圖譜得到初始關(guān)鍵詞的相關(guān)詞,將初始關(guān)鍵詞及以上三類拓展關(guān)鍵詞合并,形成網(wǎng)絡(luò)關(guān)鍵詞庫(kù),并獲取每個(gè)關(guān)鍵詞的日均百度指數(shù)數(shù)據(jù)。最后對(duì)數(shù)據(jù)進(jìn)行缺失值填補(bǔ)、異常值處理和頻率轉(zhuǎn)換等預(yù)處理?;ヂ?lián)網(wǎng)數(shù)據(jù)的獲取與預(yù)處理流程如圖2所示。

圖2 互聯(lián)網(wǎng)數(shù)據(jù)的獲取與預(yù)處理流程

(一)初始關(guān)鍵詞的確定

基于互聯(lián)網(wǎng)數(shù)據(jù)與消費(fèi)者信心指數(shù)的關(guān)聯(lián)機(jī)理分析,本文考慮了個(gè)人收入、消費(fèi)態(tài)度、投資策略、家庭開(kāi)支、經(jīng)濟(jì)預(yù)期共五個(gè)微觀因素,確定了“收入”“就業(yè)”“購(gòu)物”“消費(fèi)”“投資”“物價(jià)”“經(jīng)濟(jì)”7個(gè)初始關(guān)鍵詞。

(二)網(wǎng)絡(luò)新聞數(shù)據(jù)的獲取與預(yù)處理

作為國(guó)家重點(diǎn)新聞網(wǎng)站,人民網(wǎng)以新聞報(bào)道的權(quán)威性、及時(shí)性和多樣性為特色,能全面反映我國(guó)社會(huì)經(jīng)濟(jì)的現(xiàn)實(shí)情況,因此本文以人民網(wǎng)新聞作為網(wǎng)絡(luò)新聞數(shù)據(jù)的數(shù)據(jù)源。首先,采集人民網(wǎng)與“收入”“就業(yè)”“購(gòu)物”“消費(fèi)”“投資”“物價(jià)”“經(jīng)濟(jì)”7個(gè)初始關(guān)鍵詞有關(guān)的網(wǎng)絡(luò)新聞共計(jì)7 134篇,采集的數(shù)據(jù)包括新聞的時(shí)間、標(biāo)題與新聞內(nèi)容文本,并根據(jù)這些數(shù)據(jù)建立網(wǎng)絡(luò)新聞?wù)Z料庫(kù)。其次,對(duì)新聞文本數(shù)據(jù)進(jìn)行分詞處理,詞匯是中文語(yǔ)言表達(dá)含義的基礎(chǔ),因此分詞也是進(jìn)行中文文本處理的必要環(huán)節(jié),本文所使用的分詞工具為python開(kāi)源工具jieba分詞。最后,利用TF-IDF值度量詞匯重要性,在分詞結(jié)果中篩選出網(wǎng)絡(luò)新聞熱點(diǎn)詞,形成網(wǎng)絡(luò)新聞熱點(diǎn)詞庫(kù)。本文篩選了網(wǎng)絡(luò)新聞?wù)Z料庫(kù)中TF-IDF權(quán)重較大的100個(gè)詞匯作為網(wǎng)絡(luò)新聞熱點(diǎn)詞。

(三)初始關(guān)鍵詞的近似詞篩選

除了網(wǎng)絡(luò)新聞熱點(diǎn)詞,在網(wǎng)絡(luò)新聞?wù)Z料庫(kù)篩選出與7個(gè)初始關(guān)鍵詞近似程度較高的詞匯,作為初始關(guān)鍵詞近似詞,加入網(wǎng)絡(luò)關(guān)鍵詞庫(kù)。為了度量詞匯間的近似度,本文構(gòu)建了詞向量模型,基于語(yǔ)義對(duì)網(wǎng)絡(luò)新聞文本詞匯進(jìn)行向量化表示,并通過(guò)計(jì)算初始關(guān)鍵詞向量與其他詞匯向量的余弦距離,衡量網(wǎng)絡(luò)新聞文本詞匯與初始關(guān)鍵詞的近似程度,并針對(duì)每個(gè)初始關(guān)鍵詞,選取與其最接近的10個(gè)網(wǎng)絡(luò)新聞文本詞匯,作為初始關(guān)鍵詞的近似詞。本文采用python開(kāi)源工具gensim中的Word2Vec詞向量模型實(shí)現(xiàn)新聞文本詞匯的向量化表示。在Word2Vec詞向量模型訓(xùn)練中,設(shè)定的參數(shù)見(jiàn)表1。

表1 Word2Vec詞向量模型參數(shù)

經(jīng)訓(xùn)練后,可以得到在網(wǎng)絡(luò)新聞?wù)Z料庫(kù)中出現(xiàn)4次以上的新聞文本詞匯的向量化表示,每個(gè)詞匯對(duì)應(yīng)一個(gè)400維向量,可以通過(guò)余弦距離判斷兩個(gè)詞匯之間的近似程度。本文首先從詞向量訓(xùn)練結(jié)果中獲取7個(gè)初始關(guān)鍵詞的400維詞向量,其次計(jì)算每個(gè)初始關(guān)鍵詞與其他網(wǎng)絡(luò)新聞文本詞匯之間的余弦距離,最后選取余弦距離值較大的前10個(gè)網(wǎng)絡(luò)新聞文本詞匯作為初始關(guān)鍵詞近似詞,加入網(wǎng)絡(luò)關(guān)鍵詞庫(kù)。

(四)基于需求圖譜的初始關(guān)鍵詞相關(guān)詞獲取

通過(guò)百度指數(shù)平臺(tái)自帶“需求圖譜”的相關(guān)檢索詞進(jìn)行關(guān)鍵詞拓展。本文根據(jù)百度指數(shù)平臺(tái)的“需求圖譜”與“關(guān)鍵詞相關(guān)性分類”,圍繞“收入”“就業(yè)”“購(gòu)物”“消費(fèi)”“投資”“物價(jià)”“經(jīng)濟(jì)”7個(gè)初始關(guān)鍵詞拓展了70個(gè)關(guān)鍵詞作為需求圖譜相關(guān)詞,加入網(wǎng)絡(luò)關(guān)鍵詞庫(kù)。

(五)網(wǎng)絡(luò)關(guān)鍵詞百度搜索指數(shù)的獲取與預(yù)處理

通過(guò)理論分析與關(guān)鍵詞拓展,獲取了初始關(guān)鍵詞、網(wǎng)絡(luò)新聞熱點(diǎn)詞、初始關(guān)鍵詞近似詞、初始關(guān)鍵詞相關(guān)詞共四類關(guān)鍵詞,形成網(wǎng)絡(luò)關(guān)鍵詞庫(kù),再利用網(wǎng)絡(luò)爬蟲(chóng)獲取關(guān)鍵詞日均百度指數(shù)。

由于互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生機(jī)制復(fù)雜多變,數(shù)據(jù)質(zhì)量參差不齊,可能存在缺失值、異常值情況,因此本文根據(jù)關(guān)鍵詞百度指數(shù)缺失率情況,丟棄缺失率高于5%的數(shù)據(jù),并對(duì)剩余關(guān)鍵詞日均百度指數(shù)缺失數(shù)據(jù)利用拉格朗日插值法進(jìn)行填補(bǔ)。

由于消費(fèi)者信心指數(shù)數(shù)據(jù)是月度數(shù)據(jù),因此要對(duì)作為消費(fèi)者信心指數(shù)預(yù)測(cè)變量的網(wǎng)絡(luò)關(guān)鍵詞數(shù)據(jù)進(jìn)行頻率轉(zhuǎn)換,即將關(guān)鍵詞日均百度指數(shù)轉(zhuǎn)換為月均百度指數(shù)。假設(shè)M月有m天,關(guān)鍵詞X在M月的日均百度指數(shù)為x1,x2,…,xm,則其在M月的月均百度指數(shù)為(x1+x2+…+xm)/m。

(六)對(duì)關(guān)鍵詞月均百度指數(shù)的異常值進(jìn)行處理

通過(guò)標(biāo)準(zhǔn)差與平均值之比計(jì)算每個(gè)關(guān)鍵詞的月均百度指數(shù)變異系數(shù)。統(tǒng)計(jì)結(jié)果表明,網(wǎng)絡(luò)關(guān)鍵詞庫(kù)中的關(guān)鍵詞月均百度指數(shù)變異系數(shù)均低于4,且大部分關(guān)鍵詞低于3,數(shù)據(jù)離散程度并不高,可以采用均值加減3倍標(biāo)準(zhǔn)差作為正常值的上下界。對(duì)超出上下界的做異常值處理,即超出上界的用上界值替換,超出下界的用下界值替換。

四、變量篩選機(jī)制設(shè)計(jì)

本文將以網(wǎng)絡(luò)關(guān)鍵詞百度指數(shù)作為解釋變量,消費(fèi)者信心指數(shù)作為被解釋變量建立回歸模型以實(shí)現(xiàn)對(duì)消費(fèi)者信心指數(shù)的預(yù)測(cè)。隨著時(shí)間的推移,要在不同的預(yù)測(cè)時(shí)點(diǎn)篩選出不同的預(yù)測(cè)建模解釋變量。無(wú)論是網(wǎng)絡(luò)新聞熱點(diǎn)詞還是網(wǎng)絡(luò)關(guān)鍵詞搜索量都會(huì)隨時(shí)間的變化而變化,作為候選解釋變量的許多關(guān)鍵詞與某些時(shí)點(diǎn)的消費(fèi)者信心的相關(guān)性較弱,不宜作為解釋變量;部分關(guān)鍵詞百度指數(shù)之間可能存在多重共線性,要通過(guò)關(guān)鍵詞取舍來(lái)消除此類問(wèn)題;如果將網(wǎng)絡(luò)關(guān)鍵詞庫(kù)的所有關(guān)鍵詞作為解釋變量,維度過(guò)高無(wú)法建模,因此也需要對(duì)關(guān)鍵詞進(jìn)行篩選。由此可見(jiàn),從網(wǎng)絡(luò)關(guān)鍵詞庫(kù)中篩選解釋變量是滾動(dòng)預(yù)測(cè)建模的必要環(huán)節(jié),解釋變量篩選機(jī)制如圖3所示。

圖3 解釋變量篩選機(jī)制

作為候選解釋變量,網(wǎng)絡(luò)關(guān)鍵詞庫(kù)中關(guān)鍵詞與消費(fèi)者信心指數(shù)均有一定的相關(guān)性,稱為特征變量。本文使用滾動(dòng)預(yù)測(cè)方法,在每一個(gè)預(yù)測(cè)時(shí)點(diǎn)分別建立提前1個(gè)月、2個(gè)月、3個(gè)月和4個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)模型,因此從網(wǎng)絡(luò)關(guān)鍵詞庫(kù)中篩選解釋變量的過(guò)程中,也需要采用窗口滑動(dòng)的模式,分別生成4個(gè)解釋變量集合。為了提升預(yù)測(cè)精度,不僅要考慮特征變量的當(dāng)期數(shù)據(jù)與消費(fèi)者信心指數(shù)歷史數(shù)據(jù)之間的相似程度,還要考慮特征變量滯后1~11期的數(shù)據(jù)與消費(fèi)者信心指數(shù)歷史數(shù)據(jù)之間的相似程度。因此,需要將特征變量滯后期數(shù)據(jù)也加入解釋變量的篩選,并篩選出與消費(fèi)者信心指數(shù)歷史數(shù)據(jù)相似性最高的滯后期數(shù)據(jù)作為該特征變量的數(shù)據(jù)參與建模。

在特征變量的相似性檢驗(yàn)過(guò)程中,本文分別通過(guò)皮爾森相關(guān)系數(shù)、K-L信息量、均值哈希與差值哈希等方法檢驗(yàn)領(lǐng)先1~4個(gè)月的消費(fèi)者信心指數(shù)歷史數(shù)據(jù)與特征變量的當(dāng)期及滯后1~11期數(shù)據(jù)的相似程度,并將相似度高的特征變量選為建模解釋變量。通過(guò)特征變量相似性檢驗(yàn)篩選解釋變量的具體步驟如下:(1)計(jì)算特征變量與消費(fèi)者信心指數(shù)歷史值之間的皮爾森相關(guān)系數(shù),并將相關(guān)性最高的3個(gè)特征變量選為預(yù)測(cè)建模解釋變量。(2)進(jìn)一步計(jì)算剩余特征變量與消費(fèi)者信心指數(shù)間的K-L信息量,并將K-L信息量絕對(duì)值最小的前3個(gè)特征變量選為預(yù)測(cè)建模解釋變量。(3)分別針對(duì)均值哈希值和差值哈希值進(jìn)一步計(jì)算剩余特征變量與消費(fèi)者信心指數(shù)間的漢明距離,并分別篩選出漢明距離最小的2個(gè)特征變量作為預(yù)測(cè)建模解釋變量。通過(guò)以上步驟篩選出10個(gè)預(yù)測(cè)建模解釋變量。

除了將相似性檢驗(yàn)排名靠前的10個(gè)特征變量選入預(yù)測(cè)建模解釋變量,還需要將部分與消費(fèi)者信心指數(shù)相似程度較高,但未選入預(yù)測(cè)模型解釋變量的特征變量通過(guò)隨機(jī)森林進(jìn)行建模,得到變量重要性程度。在皮爾森相關(guān)系數(shù)分析、K-L信息量分析、均值哈希分析、差值哈希分析中任意一種相似性檢驗(yàn)排名在前10名的變量,才有機(jī)會(huì)加入隨機(jī)森林模型。隨機(jī)森林將隨機(jī)生成特征變量子集構(gòu)建決策樹(shù),通過(guò)不同決策樹(shù)的表現(xiàn)判斷各個(gè)特征變量的重要性程度。本文通過(guò)隨機(jī)森林篩選出重要性程度最高的2個(gè)特征變量加入預(yù)測(cè)建模解釋變量。在建立每一個(gè)消費(fèi)者信心指數(shù)預(yù)測(cè)模型時(shí),都需要先通過(guò)以上機(jī)制篩選出12個(gè)解釋變量。

五、預(yù)測(cè)模型的建立與選擇

本文以國(guó)家統(tǒng)計(jì)局公布的消費(fèi)者信心指數(shù)為預(yù)測(cè)目標(biāo),基于上文所述的變量篩選機(jī)制從網(wǎng)絡(luò)關(guān)鍵詞庫(kù)中滾動(dòng)篩選解釋變量,通過(guò)多種機(jī)器學(xué)習(xí)方法建立消費(fèi)者信心指數(shù)預(yù)測(cè)模型,對(duì)2015年3月—2018年5月的消費(fèi)者信心指數(shù)進(jìn)行預(yù)測(cè)。滾動(dòng)預(yù)測(cè)的每個(gè)時(shí)間窗口長(zhǎng)度為24個(gè)月,初始窗口為2013年3月—2015年2月,結(jié)束窗口為2016年5月—2018年4月,共39個(gè)時(shí)間窗口,提前1~4個(gè)月滾動(dòng)預(yù)測(cè)了2015年3月—2018年5月共39期消費(fèi)者信心指數(shù)。

在python的sklearn模塊中提供了多種函數(shù)用來(lái)支持模型的建立與評(píng)估,本文選取了袋裝樹(shù)回歸、隨機(jī)森林回歸、極端隨機(jī)樹(shù)回歸、梯度提升樹(shù)回歸、自適應(yīng)提升樹(shù)回歸、多層感知機(jī)回歸、支持向量回歸、嶺回歸、Lasso回歸、彈性網(wǎng)回歸、主成分回歸、偏最小二乘回歸等共12類方法建立消費(fèi)者信心指數(shù)預(yù)測(cè)模型,這12類模型的類型、名稱和sklearn建模函數(shù)見(jiàn)表2。

表2 模型類型、名稱和sklearn建模函數(shù)

本文采用均方誤差(Mean-square Error,MSE)評(píng)價(jià)模型的預(yù)測(cè)效果。MSE對(duì)預(yù)測(cè)誤差的極大、極小值反應(yīng)靈敏,能夠度量預(yù)測(cè)的精度,MSE值越低,模型的精度越高。為了更好地比較不同模型的預(yù)測(cè)效果,本文對(duì)部分類別的模型設(shè)置了多組超參數(shù),并建立多個(gè)模型進(jìn)行實(shí)驗(yàn)。超參數(shù)是指根據(jù)不同建模算法的具體要求所設(shè)定的參數(shù)。在每一次建模過(guò)程中,一般需要設(shè)定一組超參數(shù),有些模型是敏感于超參數(shù)組合設(shè)定的,如果超參數(shù)組合設(shè)定不恰當(dāng),會(huì)使得模型的性能下降。本文利用網(wǎng)格搜索法確定超參數(shù),在充分理解每一種模型及超參數(shù)預(yù)含義的基礎(chǔ)上,結(jié)合樣本數(shù)量與預(yù)實(shí)驗(yàn)效果,確定每個(gè)超參數(shù)的取值范圍、個(gè)數(shù)及具體數(shù)值,并通過(guò)窮舉法對(duì)模型中的多個(gè)超參數(shù)值進(jìn)行組合實(shí)驗(yàn),根據(jù)模型的MSE值最終選出最優(yōu)的超參數(shù)組合及模型。例如,通過(guò)分析判斷模型M有k1和k2兩個(gè)超參數(shù)需要設(shè)置,利用網(wǎng)格搜索法分別為k1和k2確定n1和n2個(gè)有代表性的具體參數(shù)值,則模型M的實(shí)驗(yàn)超參數(shù)組合總數(shù)為n1×n2個(gè),即可以訓(xùn)練出n1×n2個(gè)模型,最終選出最優(yōu)的超參數(shù)組合及模型。本文在建模實(shí)驗(yàn)過(guò)程中為12類模型設(shè)定的超參數(shù)情況見(jiàn)表3,未說(shuō)明的超參數(shù)均取sklearn模塊默認(rèn)值。

表3 消費(fèi)者信心指數(shù)預(yù)測(cè)模型超參數(shù)設(shè)定

根據(jù)MSE值,對(duì)提前1~4個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)模型前12名進(jìn)行了排序,結(jié)果見(jiàn)表4。

表4 消費(fèi)者信心指數(shù)預(yù)測(cè)模型MSE值

實(shí)驗(yàn)結(jié)果表明,提前1~4個(gè)月表現(xiàn)最好的預(yù)測(cè)模型分別是自適應(yīng)提升樹(shù)回歸模型(AdaB)、Lasso回歸模型(Lasso)和多層感知機(jī)回歸模型(MLPR),預(yù)測(cè)模型的均方誤差值分別是8.146、8.048、8.192和5.989。另外,極端隨機(jī)樹(shù)回歸模型(ET)在所有提前期的預(yù)測(cè)表現(xiàn)中都是最差的,不建議使用該方法進(jìn)行建模。

各模型在不同提前期下預(yù)測(cè)的MSE值比較,如圖4所示??傮w來(lái)講,自適應(yīng)提升樹(shù)回歸模型(AdaB)、多層感知機(jī)回歸模型(MLPR)和Lasso回歸模型(Lasso)預(yù)測(cè)誤差值相對(duì)較小。自適應(yīng)提升樹(shù)回歸模型在提前1~2個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)中表現(xiàn)最好,其次是Lasso回歸模型。在提前3~4個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)中多層感知機(jī)回歸模型和Lasso回歸模型表現(xiàn)最好,其次是自適應(yīng)提升樹(shù)回歸模型。

圖4 各模型在不同提前期下預(yù)測(cè)的MSE值比較

大部分預(yù)測(cè)模型出現(xiàn)了預(yù)測(cè)提前期數(shù)越多模型的MSE值越低的情形。整體上看,提前4個(gè)月的預(yù)測(cè)模型精度要明顯高于其他提前期的預(yù)測(cè)精度。由于微觀因素的變動(dòng)需要一定的時(shí)間才能傳導(dǎo)至宏觀層面,因此網(wǎng)絡(luò)搜索行為對(duì)消費(fèi)者信心指數(shù)的影響具有一定的滯后性。

六、預(yù)測(cè)模型比較

傳統(tǒng)的消費(fèi)者信心指數(shù)預(yù)測(cè)往往是以相關(guān)的經(jīng)濟(jì)指標(biāo)作解釋變量構(gòu)建模型。為了比較互聯(lián)網(wǎng)大數(shù)據(jù)與宏觀經(jīng)濟(jì)數(shù)據(jù)對(duì)消費(fèi)者信心指數(shù)的預(yù)測(cè)能力,本文分別以互聯(lián)網(wǎng)大數(shù)據(jù)、宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)和二者綜合數(shù)據(jù)為依據(jù)建立消費(fèi)者信心指數(shù)預(yù)測(cè)模型。影響消費(fèi)者信心的宏觀經(jīng)濟(jì)因素主要包括經(jīng)濟(jì)運(yùn)行、消費(fèi)結(jié)構(gòu)、物價(jià)水平、貨幣政策、經(jīng)濟(jì)景氣調(diào)查、國(guó)際貿(mào)易等方面。依據(jù)這些宏觀經(jīng)濟(jì)因素,本文選取了國(guó)家統(tǒng)計(jì)局公布的19個(gè)宏觀經(jīng)濟(jì)指標(biāo),具體見(jiàn)表5。

表5 本文選取的宏觀經(jīng)濟(jì)指標(biāo)

在建立消費(fèi)者信心指數(shù)預(yù)測(cè)模型時(shí),將僅使用互聯(lián)網(wǎng)數(shù)據(jù)建立的模型名加上前綴“b_”,即B類模型;將僅使用宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)建立的模型名加上前綴“m_”,即M類模型;將使用二者綜合數(shù)據(jù)建立的模型名加上前綴的“mb_”,即MB類模型。不同類別模型的預(yù)測(cè)結(jié)果均能反映真實(shí)消費(fèi)者信心指數(shù)時(shí)間序列趨勢(shì)。3類最優(yōu)模型提前4個(gè)月對(duì)消費(fèi)者信心指數(shù)的預(yù)測(cè)結(jié)果如圖5所示。

本文統(tǒng)計(jì)了各類預(yù)測(cè)模型在3種數(shù)據(jù)集下提前1~4期預(yù)測(cè)消費(fèi)者信心指數(shù)的MSE值及排名,并篩選出不同數(shù)據(jù)集下提前1~4期預(yù)測(cè)的最優(yōu)模型,結(jié)果見(jiàn)表6。

比較結(jié)果表明,在提前1個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù)時(shí),使用宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)的主成分回歸模型(m_PCAR)表現(xiàn)明顯比使用其他兩類數(shù)據(jù)更出色;而在提前4個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù)時(shí),使用互聯(lián)網(wǎng)數(shù)據(jù)的多層感知機(jī)回歸模型(b_MLPR)表現(xiàn)最好;在提前2~3個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù)時(shí),使用綜合數(shù)據(jù)的多層感知機(jī)回歸模型(mb_MLPR)有更好的表現(xiàn),但預(yù)測(cè)精度相對(duì)較低。在使用宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)的所有預(yù)測(cè)模型中,主成分回歸模型(m_PCAR)在提前1個(gè)月預(yù)測(cè)時(shí)精度最高,隨著預(yù)測(cè)期限跨度增加,自適應(yīng)提升樹(shù)回歸模型(m_AdaB)和多層感知機(jī)回歸模型(m_MLPR)也有較好的表現(xiàn),但模型預(yù)測(cè)精度有所下降。在使用互聯(lián)網(wǎng)數(shù)據(jù)的所有預(yù)測(cè)模型中,多層感知機(jī)回歸模型(b_MLPR)在提前4期預(yù)測(cè)消費(fèi)者信心指數(shù)時(shí)表現(xiàn)突出,在其他提前期的預(yù)測(cè)中,自適應(yīng)提升樹(shù)回歸模型(b_AdaB)和Lasso回歸模型(b_Lasso)都有所表現(xiàn)。

七、結(jié)語(yǔ)

瀏覽網(wǎng)絡(luò)新聞或搜索網(wǎng)絡(luò)信息已經(jīng)成為消費(fèi)者判斷宏觀經(jīng)濟(jì)形勢(shì)、輔助消費(fèi)決策的重要手段。本文提取人民網(wǎng)新聞中的特征關(guān)鍵詞,以百度搜索關(guān)鍵詞指數(shù)數(shù)據(jù)為基礎(chǔ),采用滑動(dòng)時(shí)間窗口動(dòng)態(tài)篩選解釋變量,運(yùn)用多種機(jī)器學(xué)習(xí)方法建立消費(fèi)者信心指數(shù)預(yù)測(cè)模型。結(jié)果表明,自適應(yīng)提升樹(shù)回歸模型在提前1~2個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)中表現(xiàn)最好,其次是Lasso回歸模型。在提前3~4個(gè)月的消費(fèi)者信心指數(shù)預(yù)測(cè)中多層感知機(jī)回歸模型和Lasso回歸模型表現(xiàn)最好,其次是自適應(yīng)提升樹(shù)回歸模型。提前4個(gè)月的預(yù)測(cè)模型精度要明顯高于其他提前期的預(yù)測(cè)精度。

本文通過(guò)比較宏觀經(jīng)濟(jì)指標(biāo)歷史數(shù)據(jù)、網(wǎng)絡(luò)關(guān)鍵詞搜索指數(shù)數(shù)據(jù)、二者綜合數(shù)據(jù)三個(gè)數(shù)據(jù)集下的預(yù)測(cè)模型發(fā)現(xiàn),相對(duì)于宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)而言,網(wǎng)絡(luò)關(guān)鍵詞搜索指數(shù)數(shù)據(jù)可以更早地“感知”消費(fèi)者信心的變化。在預(yù)測(cè)短期消費(fèi)者信心指數(shù)時(shí),應(yīng)當(dāng)以宏觀經(jīng)濟(jì)指標(biāo)歷史數(shù)據(jù)為主,而預(yù)測(cè)時(shí)間跨度增長(zhǎng)時(shí),為了吸納更多微觀因素變動(dòng)信息,可以引入網(wǎng)絡(luò)關(guān)鍵詞搜索指數(shù)對(duì)預(yù)測(cè)模型進(jìn)行補(bǔ)充。如果提前1個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù),建議選擇使用宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)的主成分回歸模型(m_PCAR);在提前2~3個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù)時(shí),使用綜合數(shù)據(jù)的多層感知機(jī)回歸模型(mb_MLPR)有更好的表現(xiàn);提前4個(gè)月預(yù)測(cè)消費(fèi)者信心指數(shù),建議選擇使用互聯(lián)網(wǎng)數(shù)據(jù)的多層感知機(jī)回歸模型(b_MLPR)。

本研究旨在探索基于互聯(lián)網(wǎng)大數(shù)據(jù)并利用大數(shù)據(jù)技術(shù)與方法進(jìn)行消費(fèi)者信心指數(shù)預(yù)測(cè)的有效性和時(shí)效性。研究結(jié)果表明,利用互聯(lián)網(wǎng)數(shù)據(jù)建立的機(jī)器學(xué)習(xí)模型確實(shí)能更早地預(yù)測(cè)消費(fèi)者信心指數(shù),且具有較高的預(yù)測(cè)準(zhǔn)確率。然而,互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)測(cè)也存在以下幾個(gè)方面的問(wèn)題:(1)大數(shù)據(jù)方法的基本思想是通過(guò)海量數(shù)據(jù)發(fā)現(xiàn)事物之間的相關(guān)關(guān)系而非因果關(guān)系,與傳統(tǒng)預(yù)測(cè)模型相比許多大數(shù)據(jù)模型中變量的可解釋性相對(duì)較差;(2)互聯(lián)網(wǎng)大數(shù)據(jù)的復(fù)雜性和多變性會(huì)直接影響模型的穩(wěn)定性,因此本研究的滾動(dòng)預(yù)測(cè)也是為了探求解決此類問(wèn)題的方法;(3)由于互聯(lián)網(wǎng)數(shù)據(jù)本身的片面性,其預(yù)測(cè)準(zhǔn)確性也會(huì)受到制約。因此,在統(tǒng)計(jì)數(shù)據(jù)完備的情況下,使用經(jīng)過(guò)檢驗(yàn)的傳統(tǒng)預(yù)測(cè)模型如多元線性回歸模型、ARMA模型等更加嚴(yán)謹(jǐn)和穩(wěn)定。

除了本文研究的網(wǎng)絡(luò)新聞和網(wǎng)絡(luò)搜索數(shù)據(jù)外,還可以嘗試將社交媒體、電商交易和招聘求職等互聯(lián)網(wǎng)數(shù)據(jù)引入大數(shù)據(jù)預(yù)測(cè)模型,以期進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確率。為了優(yōu)化傳統(tǒng)預(yù)測(cè)模型,可以將互聯(lián)網(wǎng)數(shù)據(jù)合成的相關(guān)變量引入模型,并檢驗(yàn)其是否能夠提高消費(fèi)者信心指數(shù)預(yù)測(cè)準(zhǔn)確性。

猜你喜歡
網(wǎng)絡(luò)新聞信心建模
信心滿滿
比黃金更重要的,是重拾信心
基于FLUENT的下?lián)舯┝魅S風(fēng)場(chǎng)建模
加強(qiáng)網(wǎng)絡(luò)新聞的監(jiān)督與管理
網(wǎng)絡(luò)新聞?wù)Z篇中的主位與主位推進(jìn)模式特征研究
《符號(hào)建模論》評(píng)介
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
信心和山
Study Of ShiJie Control Thought
求距求值方程建模
开封县| 罗江县| 清水县| 富裕县| 七台河市| 克什克腾旗| 武邑县| 梧州市| 广灵县| 尤溪县| 大关县| 阜平县| 于都县| 壤塘县| 伊宁市| 青浦区| 德化县| 栾川县| 阳朔县| 荣昌县| 金川县| 万源市| 合山市| 沙洋县| 彰武县| 吉木萨尔县| 海城市| 南川市| 七台河市| 红原县| 苏尼特左旗| 海晏县| 招远市| 兰州市| 南丰县| 临沧市| 东兰县| 叶城县| 晋中市| 河北省| 子洲县|