沈鋮
關(guān)鍵詞:大數(shù)據(jù) ?計(jì)量經(jīng)濟(jì)學(xué) ?機(jī)器學(xué)習(xí) ?預(yù)測
歷史上,經(jīng)濟(jì)學(xué)家一直在處理電子表格中顯示的數(shù)據(jù),如果電子表格中有超過100萬行數(shù)據(jù),那就需要將其存儲(chǔ)在諸如MySQL之類的關(guān)系數(shù)據(jù)庫中。由于計(jì)算機(jī)中介交易的興起,許多公司發(fā)現(xiàn)有必要開發(fā)每天處理數(shù)十億筆交易的系統(tǒng)。例如,谷歌已經(jīng)完成過30萬億次網(wǎng)址抓取,平均每天超過200億次,每個(gè)月響應(yīng)1000億個(gè)搜索查詢。雖然為了方便學(xué)習(xí)與交流,這些工具可以在一臺(tái)計(jì)算機(jī)上運(yùn)行,但一般真正的用途是應(yīng)用于大型計(jì)算機(jī)集群,例如亞馬遜、谷歌、微軟和其他云計(jì)算提供商的計(jì)算機(jī)群。公司可以通過租賃而非購買來獲取數(shù)據(jù)存儲(chǔ)和處理的能力,將以前處理大數(shù)據(jù)的固定成本轉(zhuǎn)變?yōu)榭勺兂杀荆档土颂幚泶髷?shù)據(jù)的門檻。
一般而言,如果提取的數(shù)據(jù)量非常大,可以選擇一個(gè)子樣本進(jìn)行統(tǒng)計(jì)分析。一旦數(shù)據(jù)集被提取出來,通常需要進(jìn)行一些附帶著數(shù)據(jù)統(tǒng)一和數(shù)據(jù)清理任務(wù)的探索性數(shù)據(jù)分析,這是一門只有通過實(shí)踐才能學(xué)會(huì)的藝術(shù)。
統(tǒng)計(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)中的數(shù)據(jù)分析可以分為四大類:預(yù)測、總結(jié)、估算、假設(shè)檢驗(yàn)。在大數(shù)據(jù)處理中,與預(yù)測相關(guān)聯(lián)的技術(shù)一般是機(jī)器學(xué)習(xí);而和總結(jié)相關(guān)的技術(shù)一般為數(shù)據(jù)挖掘,比如挖掘其中有趣的模型。計(jì)量經(jīng)濟(jì)學(xué)家、統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘?qū)<乙话愣荚趯ふ铱梢詮臄?shù)據(jù)中提取的深刻見解。機(jī)器學(xué)習(xí)專家通常主要關(guān)注開發(fā)高性能計(jì)算機(jī)系統(tǒng),這些系統(tǒng)能夠在具有挑戰(zhàn)性的計(jì)算約束條件下提供有用的預(yù)測。應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)的大部分內(nèi)容是檢測和總結(jié)數(shù)據(jù)中的關(guān)系,最常用的總結(jié)工具是(線性)回歸分析。機(jī)器學(xué)習(xí)提供了一套可以有效地總結(jié)數(shù)據(jù)中的各種非線性關(guān)系的工具。這些工具是現(xiàn)在最為常見也是最為普遍的,因?yàn)樗鼈兪桥c實(shí)際經(jīng)濟(jì)情況最符合的。
預(yù)測的目的通常是獲得良好的樣本外預(yù)測。大多數(shù)人從經(jīng)驗(yàn)中可以知道,構(gòu)建一個(gè)在樣本內(nèi)工作良好但在樣本外失敗的預(yù)測非常容易。機(jī)器學(xué)習(xí)專家將這種現(xiàn)象稱為“過度擬合”現(xiàn)象,并提出了幾種解決方法。
首先,選擇較為簡單的模型。由于簡單的模型更適合樣本外預(yù)測,機(jī)器學(xué)習(xí)專家提出了各種方法來否認(rèn)過于復(fù)雜的模型,在機(jī)器學(xué)習(xí)世界中,這被稱為“正則化”。同樣的,經(jīng)濟(jì)學(xué)家也傾向于選擇簡單的模型。
其次,測試-訓(xùn)練循環(huán)和交叉驗(yàn)證。為了訓(xùn)練、測試和驗(yàn)證,將數(shù)據(jù)劃為不同的集合。使用訓(xùn)練數(shù)據(jù)來評(píng)價(jià)模型,使用驗(yàn)證數(shù)據(jù)來選擇模型,使用測試數(shù)據(jù)來評(píng)估所選模型的性能。
最后,利用調(diào)優(yōu)參數(shù)。如果我們對(duì)模型的復(fù)雜性有一個(gè)直觀的數(shù)值,我們可以將它看作一個(gè)參數(shù),可以“優(yōu)化”它以產(chǎn)生最佳的樣本預(yù)測。即使沒有合適的調(diào)優(yōu)參數(shù),也應(yīng)當(dāng)謹(jǐn)慎的報(bào)告已有參數(shù)所反映出擬合程度的好壞,因?yàn)檫@個(gè)參數(shù)反映的是樣本外性能,更具有參考意義。
計(jì)量經(jīng)濟(jì)學(xué)和機(jī)器學(xué)習(xí)之間在許多領(lǐng)域都存在著有效的結(jié)合。其中最為重要的領(lǐng)域是因果關(guān)系預(yù)測。當(dāng)我們想要評(píng)估某些處理方式的因果影響時(shí),需要將有干預(yù)的結(jié)果與不加干預(yù)可能發(fā)生的情況進(jìn)行比較,但大多數(shù)情況下不加干預(yù)所產(chǎn)生的反事實(shí)是無法觀測到的,因此必須通過某種模型來預(yù)測。你對(duì)反事實(shí)的預(yù)測模型越好,就越能估計(jì)出因果關(guān)系。比如經(jīng)濟(jì)學(xué)家經(jīng)常在外界干預(yù)發(fā)生時(shí)利用它預(yù)測接下來的經(jīng)濟(jì)類數(shù)據(jù)走勢,再根據(jù)預(yù)測做出相關(guān)應(yīng)對(duì)。
由于計(jì)算機(jī)已經(jīng)滲透了經(jīng)濟(jì)交易系統(tǒng),大數(shù)據(jù)只會(huì)越來越大。為小型數(shù)據(jù)集開發(fā)的數(shù)據(jù)處理工具和方法將越來越不足以應(yīng)付新的問題。機(jī)器學(xué)習(xí)的研究人員已經(jīng)開發(fā)出了處理大數(shù)據(jù)集的工具、研究出了處理大數(shù)據(jù)時(shí)特有的方法,未來也會(huì)有越來越多的相關(guān)技術(shù)出現(xiàn),對(duì)此有興趣的人應(yīng)該盡早意識(shí)到對(duì)學(xué)習(xí)這方面技術(shù)的投資。
[1]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[N].軟件學(xué)報(bào), 2014(9):1889-1908.