張大力 林大川 鄭一帆
摘 ?要:以溫州市房地產(chǎn)市場(chǎng)為研究對(duì)象,基于2011年1月至2020年12月間相關(guān)關(guān)鍵字的百度指數(shù)搜索數(shù)據(jù)和溫州新建商品房銷售價(jià)格,通過(guò)文本提取獲取初始關(guān)鍵字,并二次拓展關(guān)鍵詞庫(kù),后續(xù)使用相關(guān)時(shí)差分析篩選先行且具有相關(guān)性的關(guān)鍵字,再利用隨機(jī)森林遞歸消除篩選出關(guān)鍵字,并根據(jù)篩選出的關(guān)鍵字建立隨機(jī)森林模型,分析并預(yù)測(cè),預(yù)測(cè)誤差率在2.989%。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;隨機(jī)森林;溫州房地產(chǎn);網(wǎng)絡(luò)搜索
中圖分類號(hào):TP311 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)05-0134-04
Market Research Based on Web Search Data and Random Forest Model
—Take Wenzhou Commercial Housing Market as an Example
ZHANG Dali1, LIN Dachuan2, ZHENG Yifan2
(1.Zhejiang college of Security Technology, Wenzhou ?325024, China; 2.College of Life Sciences, Zhejiang University, Hangzhou ?310027, China)
Abstract: This paper takes the real estate market in Wenzhou as the research object, based on the Baidu index search data of relevant keywords from January 2011 to December 2020 and the sales price of new commercial houses in Wenzhou, and obtains the initial keywords through text extraction, and expands the key thesaurus twice. It uses the relevant time difference to analyze and screen the first and relevant keywords, and uses the recursive elimination of random forest to screen the keywords, and establishes the random forest model according to the selected keywords for analysis and prediction. The prediction error rate is 2.989%.
Keywords: Web crawker; random forest; Wenzhou real estate; Web search
0 ?引 ?言
房地產(chǎn)市場(chǎng)是人民關(guān)注重點(diǎn),它的穩(wěn)定有序發(fā)展影響著地方經(jīng)濟(jì)和人民生活幸福。溫州地處東南,是東南沿海重要的商貿(mào)城市和區(qū)域中心城市。2011年溫州市房?jī)r(jià)位列全國(guó)第一,超過(guò)北京、上海等城市,但2021年溫州房?jī)r(jià)較十年前下降30%,溫州房地產(chǎn)市場(chǎng)的發(fā)展吸引著全國(guó)目光。大起伏的房?jī)r(jià),對(duì)城市發(fā)展造成不可估量的傷害。目前針對(duì)溫州地區(qū)房地產(chǎn)市場(chǎng)相關(guān)研究較少,且時(shí)間久遠(yuǎn)。對(duì)溫州地區(qū)房地產(chǎn)市場(chǎng)進(jìn)行研究,能夠?qū)刂莘康禺a(chǎn)市場(chǎng)穩(wěn)定有序發(fā)展提供支持,以保證今后樓市的平穩(wěn)、健康發(fā)展。同時(shí)隨著互聯(lián)網(wǎng)的普及率日益增加,購(gòu)房者買房前會(huì)往往會(huì)通過(guò)互聯(lián)網(wǎng)全面地搜索和了解信息,因此網(wǎng)絡(luò)搜索數(shù)據(jù)能體現(xiàn)用戶的需求和預(yù)期。搜索行為會(huì)在搜索平臺(tái)留下相關(guān)記錄,可以利用搜索關(guān)鍵字的數(shù)據(jù)來(lái)發(fā)現(xiàn)用戶的行為與房地產(chǎn)市場(chǎng)表現(xiàn)的規(guī)律。
至2021年12月,我國(guó)網(wǎng)民規(guī)模數(shù)量達(dá)到10.11億,互聯(lián)網(wǎng)的普及率還在逐年增加。網(wǎng)民中使用最高的應(yīng)用為搜索引擎、網(wǎng)絡(luò)新聞等。其中搜索引擎的使用率,占比最高的是百度引擎,占我國(guó)互聯(lián)網(wǎng)搜索引擎使用率的81.26%。百度在2011年開始發(fā)布百度指數(shù)??紤]到百度引擎在我們網(wǎng)民中使用率高,本文將使用百度指數(shù)中關(guān)鍵字搜索數(shù)據(jù),通過(guò)尋找搜索數(shù)據(jù)與溫州市房地產(chǎn)價(jià)格之間的關(guān)系,從而建立模型,對(duì)溫州市房地產(chǎn)市場(chǎng)價(jià)格進(jìn)行預(yù)測(cè)分析。
目前對(duì)于網(wǎng)絡(luò)搜索數(shù)據(jù)和房地產(chǎn)的研究,主要經(jīng)歷了以下階段,先是網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)其他經(jīng)濟(jì)領(lǐng)域的研究。劉穎,呂本富[1]運(yùn)用時(shí)差相關(guān)性分析法和Granger因果關(guān)系檢驗(yàn)法,研究網(wǎng)絡(luò)關(guān)鍵詞搜索量與上證指數(shù)的關(guān)系。任樂(lè)[2]通過(guò)證明了北京市搜索數(shù)據(jù)與月旅游客流量之間關(guān)系,并構(gòu)建北京市旅游客流量預(yù)測(cè)模型。網(wǎng)絡(luò)搜索數(shù)據(jù)與房地產(chǎn)市場(chǎng)的研究起步較晚,Wu L和Brynjolfsson E[3]引入Google提供的房屋搜索指數(shù)探求房屋搜索指數(shù)與商品房的銷量?jī)r(jià)格的關(guān)系。Van Dijk D W[4]等使用互聯(lián)網(wǎng)搜索數(shù)據(jù)來(lái)研究房地產(chǎn)市場(chǎng)的價(jià)格和流動(dòng)性動(dòng)態(tài)。國(guó)內(nèi)搜索數(shù)據(jù)的研究主要利用百度指數(shù)的搜索量數(shù)據(jù)。董倩[5]以百度搜索指數(shù)為數(shù)據(jù)基礎(chǔ),使用計(jì)量模型對(duì)16個(gè)城市的二手房?jī)r(jià)格和新房?jī)r(jià)格進(jìn)行了擬合和預(yù)測(cè),預(yù)測(cè)的月度房地產(chǎn)價(jià)格能夠比官方數(shù)據(jù)發(fā)布提前約兩周時(shí)間。唐一丁[6]運(yùn)用聚類分析對(duì)百度搜索指標(biāo)關(guān)鍵詞進(jìn)行篩選和優(yōu)化后,通過(guò)主成分分析合成宏觀和微觀指標(biāo),建立北京新建住宅價(jià)格指數(shù)與網(wǎng)絡(luò)搜索數(shù)據(jù)間的回歸模型。盧小溪[7]分析房地產(chǎn)交易量與基于百度搜索關(guān)鍵詞構(gòu)建的網(wǎng)絡(luò)搜索指數(shù)之間的關(guān)系,并得出百度搜索數(shù)據(jù)更適用于商品房成交量的短期預(yù)測(cè),能夠提高預(yù)測(cè)的時(shí)效性。
當(dāng)前國(guó)內(nèi)研究房地產(chǎn)價(jià)格預(yù)測(cè)研究中主要存在以下問(wèn)題:(1)數(shù)據(jù)大多為時(shí)效性較低的統(tǒng)計(jì)數(shù)據(jù),研究網(wǎng)絡(luò)搜索數(shù)據(jù)與房?jī)r(jià)關(guān)系的較少。(2)部分網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測(cè)房?jī)r(jià)研究時(shí),僅考慮了二者之間的相關(guān)程度,忽視了時(shí)間序列數(shù)據(jù)的時(shí)滯性。(3)網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵字篩選較為主觀。(4)較多研究預(yù)測(cè)房地產(chǎn)價(jià)格時(shí)較使用計(jì)量經(jīng)濟(jì)模型?;诖?,本文將選取溫州市作為研究對(duì)象,利用網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測(cè)溫州房地產(chǎn)價(jià)格。通過(guò)選取溫州地區(qū)2011年1月至2020年12月的百度指數(shù)的相關(guān)搜索詞的數(shù)據(jù),利用時(shí)差相關(guān)分析,篩選出與溫州新房銷售價(jià)格先行且相關(guān)的關(guān)鍵詞,再利用隨機(jī)森林遞歸消除等降維方法,篩選得到最終的關(guān)鍵字?jǐn)?shù)據(jù);以2011年1月至2017年12月的數(shù)據(jù)作為訓(xùn)練集,2018年1月至2020年12月的數(shù)據(jù)作為訓(xùn)練集,利用隨機(jī)森林模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,通過(guò)優(yōu)化獲取最優(yōu)模型,并用模型對(duì)溫州房地產(chǎn)價(jià)格進(jìn)行預(yù)測(cè)。
1 ?變量描述與模型構(gòu)建
1.1 ?論基礎(chǔ)
房產(chǎn)存在價(jià)值高,流通性慢的特點(diǎn),因此消費(fèi)者產(chǎn)生購(gòu)房需求后,會(huì)慎重考慮并獲取盡可能多的信息。消費(fèi)者對(duì)信息的收集方向反饋消費(fèi)者對(duì)房地產(chǎn)市場(chǎng)行為預(yù)期。同時(shí)房地產(chǎn)參與主體,面對(duì)外部政策變化都存在形成時(shí)間過(guò)程?;ヂ?lián)網(wǎng)絡(luò)搜索關(guān)鍵詞變化一定程度上反映了房地產(chǎn)市場(chǎng)所有參與者的行為預(yù)期,市場(chǎng)參與者的消費(fèi)或者供給行為會(huì)對(duì)市場(chǎng)價(jià)格進(jìn)行影響。該理論如圖1所示。
1.2 ?變量與數(shù)據(jù)對(duì)象
1.2.1 ?研究對(duì)象
國(guó)家統(tǒng)計(jì)局從2011年1月份開始發(fā)布70個(gè)大中城市的新建商品房?jī)r(jià)格指數(shù),分別包括新建住宅銷售價(jià)格指數(shù)和新建商品住宅銷售價(jià)格。本文選取國(guó)家統(tǒng)計(jì)局發(fā)布的2011年1月至2020年12月的溫州新建商品房銷售住宅銷售價(jià)格作為研究對(duì)象。原始數(shù)據(jù)來(lái)自國(guó)家統(tǒng)計(jì)局官方發(fā)布的月度數(shù)據(jù)。
1.2.2 ?數(shù)據(jù)描述
百度指數(shù)是通過(guò)記錄用戶在百度搜索引擎上搜索的關(guān)鍵詞,收集檢索痕跡,統(tǒng)計(jì)不同搜索關(guān)鍵字信息在不同地區(qū)每日的檢索量,反映了相關(guān)關(guān)鍵詞在不同地區(qū)、不同時(shí)間段的相對(duì)關(guān)注度和趨勢(shì)。網(wǎng)絡(luò)搜索數(shù)據(jù)的獲取與處理,通過(guò)百度指數(shù)的服務(wù)實(shí)現(xiàn)。在百度指數(shù)輸入關(guān)鍵詞,可獲得該詞的搜索量,該搜索量為相對(duì)數(shù)據(jù),反映該詞匯在該地區(qū)相對(duì)關(guān)注度。獲取的網(wǎng)絡(luò)關(guān)鍵字的百度指數(shù)需要換算成月度數(shù)據(jù)。
1.2.3 ?解釋變量
解釋變量是與溫州新房?jī)r(jià)格相關(guān)的搜索關(guān)鍵字?jǐn)?shù)據(jù)。利用以下方法進(jìn)行網(wǎng)絡(luò)搜索關(guān)鍵字選擇。使用NLPIR系統(tǒng)對(duì)爬蟲獲得的百度、新浪網(wǎng)、騰訊新聞網(wǎng)、網(wǎng)易新聞等網(wǎng)站中搜索到的與溫州房?jī)r(jià)關(guān)聯(lián)度高的新聞進(jìn)行關(guān)鍵詞提取,刪去重復(fù)和無(wú)用的詞匯。同時(shí)結(jié)合運(yùn)用文獻(xiàn)研究法,參考相關(guān)類似研究所選的初步關(guān)鍵詞,并結(jié)合溫州地區(qū)網(wǎng)絡(luò)搜索數(shù)據(jù)的實(shí)際情況進(jìn)行關(guān)鍵詞的選取,并確定初始關(guān)鍵詞庫(kù),共有7個(gè)關(guān)鍵字,分別為:房?jī)r(jià)、房地產(chǎn)、溫州樓市、商品房、房貸、房源、土地出讓。
為確保后續(xù)對(duì)數(shù)據(jù)的篩選和優(yōu)化,構(gòu)建科學(xué)合理的初始數(shù)據(jù)庫(kù),可以減少后續(xù)工作量。因此要確保拓展的網(wǎng)絡(luò)搜索數(shù)據(jù)足夠豐富,范圍廣泛。使用常見(jiàn)的網(wǎng)絡(luò)搜索數(shù)據(jù)拓展辦法,例如長(zhǎng)尾挖掘法、二次搜索法和熱詞推薦等方法對(duì)初始關(guān)鍵詞庫(kù)進(jìn)行拓展。拓展后共獲得129個(gè)網(wǎng)絡(luò)搜索數(shù)據(jù)作為初始的語(yǔ)料庫(kù),如圖2所示。
初始關(guān)鍵詞 拓展關(guān)鍵字 共計(jì)數(shù)目
房?jī)r(jià) 商品房?jī)r(jià)格,房?jī)r(jià)走勢(shì),房?jī)r(jià)走勢(shì)圖,房?jī)r(jià)網(wǎng),房?jī)r(jià)點(diǎn)評(píng)網(wǎng),房?jī)r(jià)走勢(shì)最新消息,房?jī)r(jià)上漲,房?jī)r(jià)下跌,房?jī)r(jià)收入比,暴跌,未來(lái)房?jī)r(jià)走勢(shì),房?jī)r(jià)會(huì)跌嗎,房?jī)r(jià)計(jì)算器,二手房?jī)r(jià)格,房?jī)r(jià)排行,房?jī)r(jià)評(píng)估,經(jīng)濟(jì)適用房?jī)r(jià)格,房?jī)r(jià)調(diào)控,房?jī)r(jià)漲幅,人民幣貶值對(duì)房?jī)r(jià)的影響,租房,房租,價(jià)格,人口 25
房地產(chǎn) 房地產(chǎn)發(fā)展趨勢(shì),房天下,搜房網(wǎng),房地產(chǎn)網(wǎng)站,房地產(chǎn)泡沫,投資性房地產(chǎn),房產(chǎn)投資,房地產(chǎn)交易,房地產(chǎn)中介,房地產(chǎn)開發(fā)商,房地產(chǎn)價(jià)格,房地產(chǎn)走勢(shì),房地產(chǎn)新政,房地產(chǎn)崩盤,樓市,房地產(chǎn)市場(chǎng),房產(chǎn)中介,網(wǎng)簽,溫州房產(chǎn)網(wǎng),炒房,買房政策,限購(gòu)政策、二手房市場(chǎng)、開發(fā) 25
溫州樓市 溫州樓市最新消息、溫州樓市新聞、溫州樓市論壇、溫州樓市泡沫、萬(wàn)科、樓市調(diào)控、溫州房?jī)r(jià)、二線城市 9
商品房 商品房買賣合同、商品房銷售管理辦法、商品房預(yù)售許可證、公寓、小產(chǎn)權(quán)房、房改房、樣板房、公租房、商品房買賣、商品房政策、商住房、商住樓、商住兩用房、住宅房和商品房有啥區(qū)別、商品房產(chǎn)權(quán)是多少年、商品房銷售網(wǎng)上管理系統(tǒng) 18
房貸 房貸利率,房貸計(jì)算,房貸計(jì)算器,房貸提前還款計(jì)算器,房貸利率計(jì)算器,房貸利息,首付,首付比例,買房首付,二手房首付,二手房貸款,二手房貸款流程,公積金房貸計(jì)算器,小產(chǎn)權(quán)房能貸款嗎,銀行房貸,房貸收入證明,房貸首付,房貸政策,房貸利率上調(diào),房貸利息抵個(gè)稅,公積金貸款,公積金,降息,利率 25
房源 房源app、房源網(wǎng)、房源信息一般在哪里看、房源信息發(fā)布平臺(tái)、房源詳情模板通用、房源查詢、58同城、房源信息網(wǎng)、房源信息、房源標(biāo)題、套內(nèi)使用面積、鏈家網(wǎng)、租房網(wǎng)站、樓盤查詢 15
土地出讓 土地出讓金、土地出讓金征收標(biāo)準(zhǔn)、土地出讓流程、土地出讓金征收新政策、土地出讓方式、土地出讓金評(píng)估費(fèi)怎么算、土地買賣、土地出讓年限、土地招拍掛、土地招標(biāo)、土地報(bào)批 12
1.2.4 ?變量篩選
通過(guò)網(wǎng)絡(luò)爬蟲技術(shù),對(duì)129個(gè)關(guān)鍵字?jǐn)?shù)據(jù)對(duì)應(yīng)的百度指數(shù)數(shù)據(jù)進(jìn)行爬取,并對(duì)數(shù)據(jù)進(jìn)行以月度為單位進(jìn)行匯總。網(wǎng)絡(luò)搜索數(shù)據(jù)與房地產(chǎn)價(jià)格均為時(shí)間序列數(shù)據(jù),搜索行為與購(gòu)買行為之間存在一定的時(shí)間差,只有搜索關(guān)鍵字領(lǐng)先于住宅市場(chǎng)價(jià)格的關(guān)鍵詞才具有研究?jī)r(jià)值。從相關(guān)性和領(lǐng)先性這兩個(gè)指標(biāo)進(jìn)行考慮,通過(guò)時(shí)差相關(guān)分析進(jìn)行篩選出與溫州新房銷售價(jià)格具有先行關(guān)系且相關(guān)性強(qiáng)的關(guān)鍵字。時(shí)差相關(guān)分析的數(shù)學(xué)表達(dá)式為:
式中時(shí)間序列yi為第i期的溫州新房銷售價(jià)格;y為溫州新房銷售價(jià)格的平均值;時(shí)間序列xi為有某個(gè)搜索關(guān)鍵字的網(wǎng)絡(luò)搜索數(shù)據(jù);x為有關(guān)房地產(chǎn)價(jià)格的網(wǎng)絡(luò)搜索數(shù)據(jù)的平均值;l為時(shí)差數(shù)。篩選出l值小于0的關(guān)鍵字,l值小于0代表網(wǎng)絡(luò)搜索關(guān)鍵詞的搜索量變化相溫州新房?jī)r(jià)格變化具有提前性??紤]到現(xiàn)實(shí)需求,買房需求產(chǎn)生到做出決策大約是在兩個(gè)季度內(nèi)完成,因此關(guān)鍵字領(lǐng)先值l最多為8期。同時(shí)考慮rl值的大小。相關(guān)系數(shù)rl值的范圍是-1~1的數(shù),其絕對(duì)值越大證明相關(guān)性越大,篩選出相關(guān)系數(shù)絕對(duì)值大于0.4的所對(duì)應(yīng)的網(wǎng)絡(luò)關(guān)鍵字?jǐn)?shù)據(jù)。通過(guò)時(shí)差分析法,篩選出的具有先前并有較強(qiáng)相關(guān)性的關(guān)鍵字共有15個(gè),分別為:房?jī)r(jià)走勢(shì)、房天下、房地產(chǎn)崩盤、網(wǎng)簽、炒房、買房政策、商品房買賣、商住樓、商住房、房貸利率計(jì)算器、二手房首付、房貸首付、房貸政策、房源、土地出讓。結(jié)果如圖3所示。
通過(guò)時(shí)差相關(guān)分析法篩選出15個(gè)關(guān)鍵字,后續(xù)使用的模型是隨機(jī)森林模型,屬于機(jī)器學(xué)習(xí)模型,故未進(jìn)行平穩(wěn)性檢驗(yàn)、協(xié)整檢驗(yàn)等。但觀察現(xiàn)有樣本數(shù)據(jù)集,可知數(shù)據(jù)樣本量級(jí)不夠多,直接對(duì)15個(gè)關(guān)鍵字進(jìn)行擬合,容易出現(xiàn)過(guò)度解釋的現(xiàn)象,導(dǎo)致預(yù)測(cè)效果降低。因此需要對(duì)關(guān)鍵字更進(jìn)一步的篩選。此處結(jié)合隨機(jī)森林算法中重要性排序與隨機(jī)森林下的遞歸特征消除方法對(duì)15個(gè)關(guān)鍵字進(jìn)行篩選。
首先利用隨機(jī)森林算法對(duì)關(guān)鍵詞的重要性進(jìn)行排序,計(jì)算原理為:(1)對(duì)所有決策樹根據(jù)袋外數(shù)據(jù)計(jì)算袋外數(shù)據(jù)誤差,記為errorobb1。(2)對(duì)所有樣本的特征加入噪聲干擾,再次計(jì)算此時(shí)袋外數(shù)據(jù)誤差,記為errorobb2,則特征的重要性可表示為:。使用Python先創(chuàng)建模型后,調(diào)用feature_importances_直接獲取15個(gè)關(guān)鍵字在隨機(jī)森林模型中的重要性,結(jié)果如圖4所示。
根據(jù)重要性排序結(jié)果,篩選重要性系數(shù)大于0.05以上的關(guān)鍵字參數(shù)可知為有9個(gè)關(guān)鍵字參數(shù):商住房、房貸計(jì)算機(jī)、房貸政策、商住樓、炒房、網(wǎng)簽、房貸首付、房?jī)r(jià)走勢(shì)和房源。同時(shí)綜合考慮隨機(jī)森林下的遞歸特征消除法(RF-RFE算法篩選)。以下為RF-RFE算法的思路[8]:(1)首先使用隨機(jī)森林中feature_importances參數(shù)對(duì)現(xiàn)有特征的重要性進(jìn)行排列,重新排列特征順序后,遞歸消除,依次進(jìn)行減少1個(gè)特征數(shù)量,重新計(jì)算模型的精度。(2)在特征依次減少的過(guò)程中,對(duì)模型的精度進(jìn)行可視化選擇,以參數(shù)數(shù)量作為自變量,模型進(jìn)度精度為因變量。(3)選擇最優(yōu)的參數(shù)變量和參數(shù)數(shù)量,根據(jù)預(yù)測(cè)精準(zhǔn)度進(jìn)行選擇最優(yōu)參數(shù)的個(gè)數(shù)并篩選出特征。四、進(jìn)行重復(fù)交叉驗(yàn)證,保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性。運(yùn)行RF-RFE算法得到運(yùn)行結(jié)果如圖5所示。
可知在4個(gè)關(guān)鍵字的情況下,預(yù)測(cè)效果最優(yōu)。4個(gè)關(guān)鍵字分別為:房?jī)r(jià)走勢(shì)、炒房、商住房、房貸計(jì)算器。觀察RF-RFE算法關(guān)鍵字運(yùn)行結(jié)果圖,可知RF-RFE方法在關(guān)鍵字精準(zhǔn)篩選過(guò)程中確實(shí)可以提高模型預(yù)測(cè)的精準(zhǔn)性。結(jié)合隨機(jī)森林變量重要性排序和遞歸特征消除方法進(jìn)行變量的篩選,最終選擇的關(guān)鍵字變量為:房?jī)r(jià)走勢(shì)、炒房、商住房、房貸計(jì)算器。
2 ?模型建立與分析
2.1 ?隨機(jī)森林模型
隨機(jī)森林是一種經(jīng)典集成學(xué)習(xí)算法。隨機(jī)森林模型具有以下優(yōu)點(diǎn):(1)泛化能力高,如果存在較大部分的數(shù)據(jù)缺失,也能保持較好的預(yù)測(cè)準(zhǔn)確度。(2)訓(xùn)練速度快,學(xué)習(xí)過(guò)程迅速(3)對(duì)數(shù)據(jù)的平衡能力強(qiáng),能處理分布不均衡的樣本數(shù)據(jù)。(4)能處理高維度數(shù)據(jù),模型訓(xùn)練效果好。
隨機(jī)森林模型在訓(xùn)練階段,使用bootstrap采樣從輸入訓(xùn)練數(shù)據(jù)集中采集多個(gè)不同的子訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練多個(gè)不同決策樹;在預(yù)測(cè)處理回歸問(wèn)題時(shí)隨,機(jī)森林將內(nèi)部多個(gè)決策樹的預(yù)測(cè)結(jié)果取平均得到最終的結(jié)果。
文中隨機(jī)森林回歸模型的工作流程如圖6所示。首先對(duì)樣本進(jìn)行測(cè)試集和訓(xùn)練集的劃分,設(shè)定0.8的比例劃分樣本。然后在隨機(jī)森林模型中輸入訓(xùn)練集,使用機(jī)器學(xué)習(xí)中GridSearchCV篩選出最優(yōu)參數(shù),構(gòu)建隨機(jī)森林回歸樹。最后對(duì)模型進(jìn)行效果的預(yù)測(cè),代入測(cè)試集數(shù)據(jù),每個(gè)回歸樹都會(huì)得出預(yù)測(cè)值,最終預(yù)測(cè)結(jié)果為n個(gè)回歸樹預(yù)測(cè)結(jié)果的平均值。最后對(duì)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果進(jìn)行比較,對(duì)預(yù)測(cè)效果進(jìn)行評(píng)估。
2.2 ?模型評(píng)價(jià)指標(biāo)
使用RMSE(均方根誤差)和MPE(平均相對(duì)誤差)衡量模型的效果,模型的穩(wěn)定性由RMSE判定,平均相對(duì)誤差是相對(duì)誤差的絕對(duì)值的均值,能直觀地看出預(yù)測(cè)效果的優(yōu)劣。兩個(gè)評(píng)級(jí)指標(biāo)的數(shù)值都是越小越好,兩個(gè)指標(biāo)的公式為:
2.3 ?實(shí)證分析
將樣本數(shù)據(jù)按照比例劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集的時(shí)間區(qū)間為2011年1月至2018年1月,測(cè)試集的時(shí)間區(qū)間為2018年1月至2020年12月,以訓(xùn)練集來(lái)建立模型,以檢驗(yàn)集來(lái)檢驗(yàn)?zāi)P偷目煽啃?。將?shù)據(jù)導(dǎo)入到Python編程語(yǔ)言中,導(dǎo)入機(jī)器學(xué)習(xí)庫(kù)skearn中Random Forest Regressor實(shí)現(xiàn)隨機(jī)森林建模的過(guò)程。同時(shí)使用機(jī)器學(xué)習(xí)中Grid Search CV進(jìn)行最優(yōu)參數(shù)的篩選,得到最優(yōu)的參數(shù)為:n_estimators=500,bootstrap=True,random_state=0,max_depth=15,min_samples_leaf=1,min_samples_split=2。通過(guò)運(yùn)行程序?qū)τ?xùn)練集進(jìn)行擬合,同時(shí)計(jì)算出該模型的RMSE和MPE,結(jié)果如圖7所示。
從表可看出隨機(jī)森林模型預(yù)測(cè)精度較高,在測(cè)試集中均方根誤差在0.137 3萬(wàn)元,預(yù)測(cè)誤差率在2.989%。可得出結(jié)論,使用4個(gè)網(wǎng)絡(luò)搜索關(guān)鍵字?jǐn)?shù)據(jù)并結(jié)合隨機(jī)森林模型的預(yù)測(cè)模型,對(duì)溫州市新房市場(chǎng)價(jià)格有較好的預(yù)測(cè)效果,相對(duì)于傳統(tǒng)的計(jì)量模型具有一定的先前行。
3 ?結(jié) ?論
本文提出的網(wǎng)絡(luò)搜索關(guān)鍵詞的確定方法有較好的篩選作用,并結(jié)合隨機(jī)森林模型對(duì)溫州市新房市場(chǎng)價(jià)格預(yù)測(cè)具有一定的指導(dǎo)性。對(duì)溫州地域關(guān)鍵字網(wǎng)絡(luò)搜索數(shù)據(jù)與溫州新房?jī)r(jià)格數(shù)據(jù)的時(shí)差相關(guān)分析發(fā)現(xiàn),網(wǎng)絡(luò)關(guān)鍵字搜索數(shù)據(jù)與人的經(jīng)濟(jì)行為存在一定的相關(guān)關(guān)系,溫州市新房購(gòu)房者在購(gòu)買新房時(shí)會(huì)關(guān)注商住房、房貸利率、房?jī)r(jià)走勢(shì)、房貸政策、房貸首付等信息。將網(wǎng)絡(luò)搜索關(guān)鍵字與隨機(jī)森林模型相結(jié)合的溫州新房?jī)r(jià)格預(yù)測(cè)模型具有較好的預(yù)測(cè)效果,可領(lǐng)先官方數(shù)據(jù)公布,可監(jiān)控溫州地域百度搜索關(guān)鍵字?jǐn)?shù)據(jù)的實(shí)時(shí)變化對(duì)溫州新房市場(chǎng)進(jìn)行監(jiān)控,有很好的預(yù)警效果和時(shí)效性。
參考文獻(xiàn):
[1] 劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索對(duì)股票市場(chǎng)的預(yù)測(cè)能力:理論分析與實(shí)證檢驗(yàn) [J].經(jīng)濟(jì)管理,2011,33(1):172-180.
[2] 任樂(lè),崔東佳.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的國(guó)內(nèi)旅游客流量預(yù)測(cè)研究——以北京市國(guó)內(nèi)旅游客流量為例 [J].經(jīng)濟(jì)問(wèn)題探索,2014(4):67-73.
[3] BERACHA E,WINTOKI M B. Forecasting Residential Real Estate Price Changes from Online Search Activity [J].Journal of Real Estate Research,2013,35(3):283-312.
[4] VAN DIJK D W,F(xiàn)RANCKE M K. Internet Search Behavior,Liquidity and Prices in the Housing Market [J].Real Estate Economics,2018,46(2):368-403.
[5] 董倩,孫娜娜,李偉.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價(jià)格預(yù)測(cè) [J].統(tǒng)計(jì)研究,2014,31(10):81-88.
[6] 唐一丁.網(wǎng)絡(luò)搜索數(shù)據(jù)在預(yù)測(cè)房地產(chǎn)價(jià)格指數(shù)中的應(yīng)用研究 [D].長(zhǎng)春:吉林大學(xué),2016:57.
[7] 盧小溪.基于網(wǎng)絡(luò)搜索的商品房成交量預(yù)測(cè)效果研究 [D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2019.
[8] 褚桂健.基于網(wǎng)絡(luò)搜索數(shù)據(jù)與隨機(jī)森林模型的房地產(chǎn)價(jià)格指數(shù)預(yù)測(cè)研究 [D].重慶:重慶交通大學(xué),2018.
作者簡(jiǎn)介:張大力(1995.02—),男,漢族,浙江溫州人,助教,碩士研究生,研究方向:大數(shù)據(jù)技術(shù)與應(yīng)用、金融大數(shù)據(jù);林大川(2000.12—)男,漢族,浙江溫州人,本科在讀,研究方向:生物信息;鄭一帆(2000.11—),男,漢族,浙江杭州人,本科在讀,研究方向:信息資源管理。