伴隨著宏觀經(jīng)濟理論的發(fā)展,宏觀經(jīng)濟預測成為實證分析的另一個重要方面,經(jīng)濟模型分析應(yīng)用的一個重要方面,傳統(tǒng)宏觀經(jīng)濟預測方法的核心思想是通過特定的模型與方法技術(shù)發(fā)現(xiàn)統(tǒng)計數(shù)據(jù)的內(nèi)在規(guī)律,并且利用這種規(guī)律預測未來。
綜合現(xiàn)有的宏觀經(jīng)濟預測分析方法和應(yīng)用現(xiàn)狀,宏觀預測模型主要可以分為兩種類型:基于理論驅(qū)動的結(jié)構(gòu)模型和基于數(shù)據(jù)驅(qū)動的時序模型。
基于理論驅(qū)動的結(jié)構(gòu)模型主要是以宏觀經(jīng)濟理論為基礎(chǔ),構(gòu)建數(shù)理分析模型,然后“統(tǒng)計化”,形成經(jīng)濟計量模型,利用統(tǒng)計數(shù)據(jù)進行參數(shù)估計,并以此分析宏觀經(jīng)濟變量之間的數(shù)量關(guān)系以及對關(guān)注變量進行預測,這類模型計算過程復雜,能分析和預測領(lǐng)域眾多,具有很好的經(jīng)濟解釋性。
基于數(shù)據(jù)驅(qū)動的時序模型主要是指不依賴任何經(jīng)濟理論,純粹依靠數(shù)據(jù)的內(nèi)在規(guī)律進行建模。這類模型不強調(diào)內(nèi)在的經(jīng)濟理論邏輯,更多關(guān)注變量本身的變化特征和在時間維度上的延續(xù)性,并利用這種數(shù)據(jù)內(nèi)在的變化模式預測未來。
傳統(tǒng)的宏觀經(jīng)濟預測模型,經(jīng)過長期的發(fā)展、更新和改進,建模方法相對完備,無論是理論驅(qū)動建模還是數(shù)據(jù)驅(qū)動建模,在宏觀經(jīng)濟預測領(lǐng)域都發(fā)揮著重要作用。但無論是基于經(jīng)濟理論的模型還是基于數(shù)據(jù)驅(qū)動的模型都嚴重依賴經(jīng)濟系統(tǒng)規(guī)律的延續(xù)性?,F(xiàn)有的宏觀經(jīng)濟預測模型應(yīng)用有效性基本的邏輯是通過歷史數(shù)據(jù)發(fā)現(xiàn)經(jīng)濟運行的基本規(guī)律,通過歷史數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律來預測未來經(jīng)濟情況。
經(jīng)濟運行規(guī)律在短時間內(nèi)發(fā)生變化的可能性較小,但會隨著時間間隔的增加,偏離原有的經(jīng)濟運行規(guī)律的可能性和程度會越來越大,因此,傳統(tǒng)宏觀經(jīng)濟預測模型方法的有效性很大程度上依賴于使用的數(shù)據(jù)是否足夠“好”。但傳統(tǒng)宏觀預測分析過程中使用的統(tǒng)計數(shù)據(jù)存在較為嚴重的問題,這也是導致宏觀經(jīng)濟模型預測分析存在較大“偏誤”的重要原因,也是傳統(tǒng)宏觀經(jīng)濟預測分析過程中存在的根本性問題。
傳統(tǒng)的統(tǒng)計數(shù)據(jù)主要存在五個方面的缺陷。(1)滯后性。宏觀統(tǒng)計數(shù)據(jù)需要在經(jīng)濟運行發(fā)生后,通過相關(guān)部門統(tǒng)計匯總,這個過程需要較長時間,一般統(tǒng)計的數(shù)據(jù)指標都是滯后一年或者滯后一個季度的數(shù)據(jù)。(2)統(tǒng)計誤差。統(tǒng)計數(shù)據(jù)需要人為搜集并匯總,這個過程人為參與程度較深,并且時間較長,過程較為復雜,很難確保整個過程準確無誤,這樣匯總性的數(shù)據(jù)一般存在較大的統(tǒng)計誤差,使用這種存在統(tǒng)計誤差的數(shù)據(jù)做預測,會進一步增大預測誤差。(3)數(shù)據(jù)獲取成本高。傳統(tǒng)數(shù)據(jù)收集過程較為復雜,需要耗費大量的人力和物力投入,數(shù)據(jù)獲取的成本相對較高。(4)樣本量較少。由于統(tǒng)計樣本和獲取數(shù)據(jù)成本是成反比的,隨著統(tǒng)計樣本量的增加,統(tǒng)計成本也會急速增加,因此,一般會在統(tǒng)計樣本和統(tǒng)計成本之間做一個平衡。例如,居民消費者價格指數(shù)(CPI)的統(tǒng)計,采用的是抽樣調(diào)查方法抽選確定調(diào)查網(wǎng)點,按照“定人、定點、定時”的原則,直接派人到調(diào)查網(wǎng)點采集原始價格,一共涵蓋了8.3萬多家價格數(shù)據(jù),但相對于全國整體的市場數(shù)量,這個樣本量不到整體的1%。(5)顆粒度不夠。現(xiàn)有的宏觀統(tǒng)計指標相對來講,都是整體性的宏觀指標,例如,CPI指標,涵蓋了食品煙酒、衣著、居住、生活用品及服務(wù)、交通和通信、教育文化和娛樂、醫(yī)療保健、其他用品和服務(wù)等 8大類、262個基本分類的商品與服務(wù)價格,但是,這樣整體性的指標很難為分類行業(yè)的經(jīng)濟決策做具體性的指導。例如,童裝價格的指數(shù)就無從知曉。
正是由于傳統(tǒng)的統(tǒng)計數(shù)據(jù)存在上述根本性問題,導致了宏觀經(jīng)濟預測分析過程中,難以做出實時和有效的預測。這也是當前傳統(tǒng)宏觀經(jīng)濟分析和預測存在的瓶頸性問題。
隨著科技技術(shù)進步,特別是計算機和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人類社會積累的各種各樣的數(shù)據(jù)信息越來越多,形成了海量的數(shù)據(jù)信息,一般稱為“大數(shù)據(jù)”。數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)領(lǐng)域,成為重要的生產(chǎn)要素。人們對大數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)力增長和消費盈余浪潮的到來。大數(shù)據(jù)的產(chǎn)生也對宏觀經(jīng)濟預測和分析產(chǎn)生了重大的影響。要分析大數(shù)據(jù)在宏觀經(jīng)濟預測領(lǐng)域的應(yīng)用和發(fā)展,首先需要明確大數(shù)據(jù)概念和特點,以及與傳統(tǒng)數(shù)據(jù)的區(qū)別,才能準確有效的把握分析的方向。關(guān)于大數(shù)據(jù)的具體概念還沒有形成統(tǒng)一的觀點,可以從不同的專家和學者的定義中發(fā)現(xiàn)其特點。
綜合國內(nèi)外專家和學者對“大數(shù)據(jù)”的描述和定義,發(fā)現(xiàn)能視為“大數(shù)據(jù)”的數(shù)據(jù)具有四大特點。(1)數(shù)據(jù)量巨大。傳統(tǒng)的模型方法收集和應(yīng)用的數(shù)據(jù)在KB級、MB級數(shù)據(jù)量,而大數(shù)據(jù)的信息量在GB級以上,甚至是TB級、PB級、EB級別的數(shù)據(jù)信息。(2)傳統(tǒng)計算機在可接受的時間內(nèi)無法處理。傳統(tǒng)計算機計算能力有限,面對巨量的數(shù)據(jù),無法有效勝任分析處理工作。(3)數(shù)據(jù)信息多樣性。傳統(tǒng)的統(tǒng)計數(shù)據(jù)一般為截面數(shù)據(jù),時間序列數(shù)據(jù)或面板數(shù)據(jù),歸結(jié)起來都是結(jié)構(gòu)化的數(shù)據(jù)信息,然而大數(shù)據(jù)的數(shù)據(jù)信息擴展了范圍,包含文本、圖片、語音、視頻、網(wǎng)絡(luò)搜索、日志信息、URL等。(4)高價值,但價值密度低。一堆無用的,對增強認識事物的能力無幫助的數(shù)據(jù)是不能稱之為“大數(shù)據(jù)”的,高價值體現(xiàn)在“大數(shù)據(jù)”蘊含的信息能夠提供傳統(tǒng)數(shù)據(jù)不能提供的精準信息,但是,由于數(shù)據(jù)量巨大,單個樣本或數(shù)據(jù)單元提供的價值信息降低,只能通過海量的數(shù)據(jù)分析才能提取出來完整的價值信息。
以互聯(lián)網(wǎng)平臺積累為代表的大數(shù)據(jù)做宏觀經(jīng)濟預測有其獨特的優(yōu)勢。(1)及時性。通過互聯(lián)網(wǎng)平臺積累起來的數(shù)據(jù),就存儲在網(wǎng)絡(luò)空間中,交易的數(shù)據(jù)、價格等一切信息在交易發(fā)生時,即刻在網(wǎng)絡(luò)中留下痕跡,可以被一定的方法和技術(shù)提取出來,用于處理和分析問題,不存在時間滯后性。(2)精準性。網(wǎng)絡(luò)平臺提供的數(shù)據(jù),在事件發(fā)生時按照實際的發(fā)生情況記錄信息,減少了人為的操作,提供了相對原始的數(shù)據(jù),而非人為搜集后經(jīng)過處理后數(shù)據(jù)信息,因而更加準確。(3)相對低成本。由于網(wǎng)絡(luò)大數(shù)據(jù)均在事件或交易發(fā)生時,自動被記錄下來,無需人為調(diào)查和搜集,通過技術(shù)方法提取出來加以整理得到,能夠極大程度上降低獲取數(shù)據(jù)的成本。(4)顆粒度高。傳統(tǒng)的數(shù)據(jù)搜集過程為了降低成本,會盡量搜集總體數(shù)據(jù),而非細化的搜集數(shù)據(jù)信息。網(wǎng)絡(luò)大數(shù)據(jù)時代,提取總體數(shù)據(jù)信息和單獨搜集某一類別的數(shù)據(jù)的區(qū)別并不大,可以在不顯著增加成本的前提下,提供更加詳細和更加有意義的數(shù)據(jù)信息。(5)樣本量大。通過利用互聯(lián)網(wǎng)大數(shù)據(jù)信息,可以獲取總體或者接近全體的樣本信息,并非通過統(tǒng)計抽樣的方式來獲取樣本信息從而來推斷總體信息。在這樣的大數(shù)據(jù)支持下,用于計算的樣本量是海量的,并且能極大地接近全樣本,直接獲取最為真實而全面的統(tǒng)計指標信息。
通過上述關(guān)于大數(shù)據(jù)概念和特點的分析,可以發(fā)現(xiàn),大數(shù)據(jù)并不是對傳統(tǒng)宏觀預測模型方法的革新,而是對傳統(tǒng)模型宏觀經(jīng)濟分析預測方法的補充和改進。通過對傳統(tǒng)統(tǒng)計分析方法使用數(shù)據(jù)方面的改進,從而突破傳統(tǒng)方法的根本局限,從而提高模型的預測效果和應(yīng)用范圍。
傳統(tǒng)宏觀經(jīng)濟預測方法經(jīng)過幾十年的發(fā)展,模型多種多樣,較為全面,能對各種各樣情況下的數(shù)據(jù)結(jié)構(gòu)進行分析和預測,但由于使用的數(shù)據(jù)存在種種缺點,導致無法進一步提高模型預測的效果,存在根本性的瓶頸問題。而最近發(fā)展起來的大數(shù)據(jù)以及大數(shù)據(jù)相關(guān)技術(shù),無論是爬蟲技術(shù),還是分布式儲存技術(shù),亦或者是云計算等,都是圍繞大數(shù)據(jù)獲取、保存和應(yīng)對超大型數(shù)據(jù)的計算問題而發(fā)展起來的技術(shù)方法,而真正能成為大數(shù)據(jù)獨有的宏觀預測模型的技術(shù)方法卻較為缺乏。并且,大數(shù)據(jù)在分析經(jīng)濟問題時,更多的是采用描述性的方式,較少采用結(jié)構(gòu)性的方法,缺乏經(jīng)濟理論支撐。
通過大數(shù)據(jù)技術(shù)和方法,獲取及時性的數(shù)據(jù),結(jié)合傳統(tǒng)的宏觀預測和分析模型,既能有效利用經(jīng)濟理論解釋經(jīng)濟問題,又能通過大數(shù)據(jù)獲取的數(shù)據(jù)信息突破傳統(tǒng)統(tǒng)計數(shù)據(jù)存在的問題,有效提高宏觀經(jīng)濟預測和分析的效果,為宏觀經(jīng)濟預測和分析帶來新的突破。
另外,由于大數(shù)據(jù)的及時性,突破了傳統(tǒng)統(tǒng)計數(shù)據(jù)的滯后性問題,例如可以通過傳感器收集每天的全部商品交易數(shù)據(jù),直接計算當月的通貨膨脹率,這樣得到的數(shù)據(jù)會是實時的,并且是近乎全樣本數(shù)據(jù),當月數(shù)據(jù)計算當月的CPI,也就突破了利用歷史規(guī)律來預測過程中的“盧卡斯批判”引發(fā)的問題。
由于大數(shù)據(jù)的獨特性,也造成傳統(tǒng)的處理方法難以直接應(yīng)對大數(shù)據(jù)的分析,需要新的技術(shù)方法來處理和分析經(jīng)濟大數(shù)據(jù)。當前,利用大數(shù)據(jù)分析宏觀經(jīng)濟問題已經(jīng)取得一定的成果,但遠遠不夠,受到的局限較大。
傳統(tǒng)的統(tǒng)計和計量模型使用的數(shù)據(jù)是通過統(tǒng)計和調(diào)研得到的數(shù)據(jù),都是直接用于處理和分析的結(jié)構(gòu)化數(shù)據(jù)信息。但是,經(jīng)濟大數(shù)據(jù)信息更多的是隱藏在網(wǎng)絡(luò)之中,需要提取出來。現(xiàn)有可以用作宏觀經(jīng)濟預測分析的大數(shù)據(jù)獲取來源主要有三種。(1)利用百度指數(shù)和Google Trends等互聯(lián)網(wǎng)公司提供的數(shù)據(jù)信息。這種方式在當前的宏觀經(jīng)濟問題研究中使用較多,數(shù)據(jù)獲取難度相對較小。(2)利用“網(wǎng)絡(luò)爬蟲”技術(shù)定制數(shù)據(jù)信息。這種方式優(yōu)勢是可以根據(jù)宏觀預測的目的有針對性地設(shè)計程序,從互聯(lián)網(wǎng)絕大部分網(wǎng)站提取需要的數(shù)據(jù)信息,不受平臺局限;缺點是技術(shù)難度較大,學習成本較高。(3)企業(yè)大數(shù)據(jù)。企業(yè)數(shù)據(jù)較為完備,并且數(shù)據(jù)質(zhì)量較好,但存在一個“數(shù)據(jù)壁壘”問題?;舅衅髽I(yè)都將數(shù)據(jù)視為企業(yè)的私有資產(chǎn),不公開,數(shù)據(jù)難以獲取,購買成本較高。
在宏觀經(jīng)濟模型中,由于大數(shù)據(jù)價值密度低的問題,往往需要通過大數(shù)據(jù)挖掘技術(shù),獲得足夠多的數(shù)據(jù)信息,這包括多維度上的數(shù)據(jù)信息,因而解釋變量會大大增加,因此研究中會出現(xiàn)高維數(shù)據(jù)問題,即因可得信息過多,往往會出現(xiàn)和被解釋變量相關(guān)的解釋變量數(shù)量過多,產(chǎn)生所謂的“維數(shù)災難”。
構(gòu)成大數(shù)據(jù)信息類型來源多樣,網(wǎng)絡(luò)日志、音頻、圖片、URL、文本、地理位置信息等。其中大約只有10%屬于結(jié)構(gòu)化數(shù)據(jù),其余90%的數(shù)據(jù)信息均是非結(jié)構(gòu)化數(shù)據(jù)。宏觀經(jīng)濟預測分析,離不開對非結(jié)構(gòu)化數(shù)據(jù)的處理。網(wǎng)絡(luò)輿情信息等更多的都是文本信息,這些信息的處理均要求使用新的數(shù)據(jù)處理技術(shù),當前這方面應(yīng)用發(fā)展還較為初級。
絕大多數(shù)情況下,傳統(tǒng)的計量模型宏觀經(jīng)濟預測,均假設(shè)解釋變量與被解釋變量之間呈現(xiàn)某種確定的函數(shù)關(guān)系,但通過不同渠道獲取的大數(shù)據(jù)資源,很難直接假定與宏觀經(jīng)濟指標之間是確定的某種函數(shù)關(guān)系,實際過程中,大數(shù)據(jù)解釋變量和宏觀經(jīng)濟變量之間只存在相關(guān)關(guān)系,不存在因果關(guān)系。這更難以利用傳統(tǒng)的計量模型來處理。
噪聲數(shù)據(jù)是指獲取的對研究目的沒有價值的信息。噪聲數(shù)據(jù)問題的存在,導致兩個方面的嚴重后果。(1)增加了成本。由于數(shù)據(jù)中大量噪聲數(shù)據(jù)的存在,增加了數(shù)據(jù)處理的過程和難度,相應(yīng)的研究分析成本大幅度增加。(2)增加了研究結(jié)論的誤差。由于沒有識別出噪聲數(shù)據(jù),導致研究問題過程中將加入大量無價值數(shù)據(jù)信息,給研究結(jié)論帶來不確定性,增加了結(jié)果的誤差,導致研究結(jié)論無價值,甚至會得到錯誤的結(jié)論。
當前大數(shù)據(jù)宏觀經(jīng)濟研究過程中,數(shù)據(jù)來源范圍越來越廣泛,數(shù)據(jù)的搜集手段在擴展,數(shù)據(jù)搜集能力在增強,但搜集來的大量數(shù)據(jù)并非均與研究目的直接相關(guān)聯(lián)。因此,在實際研究過程中,識別出與研究目的最相關(guān)的數(shù)據(jù)信息十分重要。當前利用大數(shù)據(jù)做宏觀經(jīng)濟預測和分析的研究中,大部分直接使用Google 或百度指數(shù),對此問題的討論較少。但隨著未來相關(guān)問題研究的深入和細致,噪聲數(shù)據(jù)的處理,將會是一個探討的重點。通過一系列的技術(shù)手段,獲得網(wǎng)絡(luò)或者其他來源的大數(shù)據(jù)后,均會處理成結(jié)構(gòu)化數(shù)據(jù)用于分析和預測。
本文通過專家學者對“大數(shù)據(jù)”概念的定義,總結(jié)出能夠定義為“大數(shù)據(jù)”信息的四個特點:數(shù)據(jù)量巨大;傳統(tǒng)計算機難以計算處理;包含非結(jié)構(gòu)化數(shù)據(jù);信息密度低。在此“大數(shù)據(jù)”的特點上,宏觀經(jīng)濟領(lǐng)域的“大數(shù)據(jù)”相對于傳統(tǒng)的調(diào)查統(tǒng)計數(shù)據(jù)做預測分析具有以下五個方面的優(yōu)勢:及時性;精準性;容易細分;數(shù)據(jù)成本相對低和樣本量巨大。
綜合截至當前學者們利用經(jīng)濟“大數(shù)據(jù)”做宏觀經(jīng)濟分析和預測研究成果,主要集中在失業(yè)率、通貨膨脹、社會宏觀消費、房地產(chǎn)市場、選舉問題、社會輿論分析以及GDP 預測等方面。當前國內(nèi)在失業(yè)率、社會宏觀消費、選舉問題,以及GDP 預測方面研究較為缺乏。
雖然專家和學者已經(jīng)將“大數(shù)據(jù)”廣泛應(yīng)用到宏觀經(jīng)濟預測分析當中,但還需在以下幾個方面進行擴展,這也是未來“大數(shù)據(jù)”在宏觀經(jīng)濟預測方向發(fā)展的重要方向?,F(xiàn)階段,應(yīng)用“大數(shù)據(jù)”來做宏觀經(jīng)濟預測和分析的研究主要是將Google Trends和百度指數(shù)等互聯(lián)網(wǎng)公司提供的數(shù)據(jù)來分析經(jīng)濟問題。這些數(shù)據(jù)均受制于自己的平臺,例如,百度指數(shù)獲取的數(shù)據(jù)只記錄百度用戶在百度搜索引擎上進行搜索的搜索量數(shù)據(jù),這些數(shù)據(jù)信息受局限性大,而且數(shù)據(jù)相對單一。另外,占網(wǎng)絡(luò)數(shù)據(jù)信息量90%的非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)階段較少用于做宏觀經(jīng)濟預測,這個是未來宏觀經(jīng)濟預測數(shù)據(jù)的重要來源。應(yīng)用經(jīng)濟“大數(shù)據(jù)”做宏觀經(jīng)濟預測時面臨的幾個方面的問題:維度災難;非結(jié)構(gòu)化數(shù)據(jù);非線性關(guān)系和噪聲問題。這些問題雖然在當前存在一些解決方案和模型,但是,均無法較好地滿足宏觀經(jīng)濟預測分析的要求,需要積極探索新的解決方案。