李帥文 劉繼
關(guān)鍵詞:房地產(chǎn);網(wǎng)絡(luò)輿情;情感指數(shù);最大互信息
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言(Introduction)
隨著互聯(lián)網(wǎng)的發(fā)展,大量的文本評(píng)論信息走進(jìn)研究者的視野,成為反映房地產(chǎn)關(guān)注者情感表達(dá)的重要方式?,F(xiàn)有的研究將文本評(píng)論的情感極性(積極或消極)作為反映市場(chǎng)狀態(tài)的指標(biāo),而本文通過(guò)研究發(fā)現(xiàn),文本評(píng)論所蘊(yùn)含的情緒得分不能直接用于衡量百度指數(shù)的變化,此外文本評(píng)論信息屬于非結(jié)構(gòu)化的數(shù)據(jù),具備非線性、非平穩(wěn)性的特征[1],所以以往的量化投資方法應(yīng)用于房地產(chǎn)價(jià)格研究并不適用。
近年來(lái),越來(lái)越多的研究者嘗試使用深度學(xué)習(xí)解決基于時(shí)序數(shù)據(jù)的房地產(chǎn)波動(dòng)問(wèn)題。但是,每天會(huì)產(chǎn)生很多的房地產(chǎn)評(píng)論信息,利用深度學(xué)習(xí)只能得到單個(gè)文本的情感極性,因此單一使用深度學(xué)習(xí)得到文本情感用于衡量百度地產(chǎn)指數(shù)走勢(shì)是有一定缺陷的。
針對(duì)上述問(wèn)題,本文提出在深度學(xué)習(xí)模型的基礎(chǔ)上構(gòu)建情感指數(shù),通過(guò)情感指數(shù)將深度學(xué)習(xí)得到的文本情感進(jìn)行每日量化,從而估計(jì)其對(duì)于百度地產(chǎn)指數(shù)的影響。
2 相關(guān)研究工作(Related research work)
現(xiàn)有的對(duì)房地產(chǎn)市場(chǎng)輿情的研究可以分為兩類:一類是基于數(shù)值分析;另一類是基于傳統(tǒng)數(shù)學(xué)方法從多角度解讀影響房地產(chǎn)價(jià)格波動(dòng)的因素。
為了能直接利用數(shù)值、數(shù)據(jù),盡可能地了解數(shù)據(jù)背后的規(guī)則,張愛(ài)琳等[2]收集包頭市2015—2019年的年平均房?jī)r(jià)數(shù)據(jù),用其構(gòu)建預(yù)測(cè)房地產(chǎn)價(jià)格波動(dòng)的GM(1,1)模型,從而預(yù)測(cè)包頭市房地產(chǎn)未來(lái)3年的價(jià)格變化趨勢(shì)。劉洋等[3]發(fā)現(xiàn)應(yīng)用幾何布朗運(yùn)動(dòng)模型研究房地產(chǎn)價(jià)格變化有一定的優(yōu)勢(shì)。幾何布朗運(yùn)動(dòng)模型僅單一考慮房地產(chǎn)價(jià)格數(shù)值信息,未考慮影響房地產(chǎn)價(jià)格變化的直接因素和間接因素。柳冬等[4]在進(jìn)行房地產(chǎn)價(jià)格預(yù)測(cè)時(shí),首先對(duì)影響房地產(chǎn)價(jià)格的因素進(jìn)行分析,然后選取房地產(chǎn)行業(yè)的熱點(diǎn)問(wèn)題,利用多種方法分析我國(guó)房地產(chǎn)市場(chǎng)價(jià)格的變化趨勢(shì)。趙怡爽[5]通過(guò)多元因子分析,從12個(gè)影響指標(biāo)中挑選出重要性排名前兩位的影響指標(biāo),運(yùn)用層次分析方法將上述指標(biāo)進(jìn)行加權(quán)賦值,得到最終綜合分?jǐn)?shù),進(jìn)而預(yù)測(cè)未來(lái)房地產(chǎn)價(jià)格變動(dòng)。邵為爽等[6]利用數(shù)據(jù)挖掘理論,將屬性約簡(jiǎn)算法使用到房地產(chǎn)價(jià)格影響因素提取上,從而將降維后的數(shù)據(jù)放入網(wǎng)絡(luò)訓(xùn)練并預(yù)測(cè)房地產(chǎn)價(jià)格走勢(shì)。這些方法都是基于影響房地產(chǎn)價(jià)格的因素,利用經(jīng)濟(jì)模型對(duì)房地產(chǎn)價(jià)格進(jìn)行預(yù)測(cè)。多元因子分析和層次分析方法皆在基礎(chǔ)模型上加入了其他影響因素。
隨著對(duì)影響因素的研究逐漸深入,研究者發(fā)現(xiàn)文本情感信息對(duì)房地產(chǎn)價(jià)格的預(yù)測(cè)有非常重要的影響。因此,融合文本信息的房地產(chǎn)價(jià)格預(yù)測(cè)模型應(yīng)運(yùn)而生。
何平等[7]通過(guò)構(gòu)建投資者情緒指數(shù),提取股民文本評(píng)論情緒用于研究股民的情感變化是否會(huì)影響股票市場(chǎng)價(jià)格波動(dòng)。姜富偉等[8]通過(guò)專屬情感詞典計(jì)算媒體文本情緒指數(shù),發(fā)現(xiàn)媒體文本情緒指數(shù)具有代表性作用,可以作為預(yù)測(cè)股票價(jià)格變動(dòng)的參考依據(jù)。由上述研究可知,文本情緒表達(dá)會(huì)間接干預(yù)經(jīng)濟(jì)變化。由于傳統(tǒng)情感分析方法在文本情感分類任務(wù)中耗時(shí)多且效率較低,繆亞林等[9]利用CNN和雙向GRU(門控循環(huán)單元)提取文本內(nèi)在特征信息,然后通過(guò)單層GRU降維,使用激活函數(shù)進(jìn)行情感分類。BEHERA等[10]提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)與CNN結(jié)合,發(fā)現(xiàn)CNN-BiLSTM混合模型兼具LSTM和CNN的優(yōu)點(diǎn),可以使文本分類任務(wù)預(yù)測(cè)效果更好。上述研究驗(yàn)證了深度學(xué)習(xí)在文本情感計(jì)算中的優(yōu)越性,隨后研究人員提出深度學(xué)習(xí)文本情感分類和金融預(yù)測(cè)聯(lián)合模型。例如,JIN等[11]提出了一種基于LSTM的股票市場(chǎng)預(yù)測(cè)模型,該模型考慮了投資者的情緒傾向。
這些現(xiàn)有的基于房地產(chǎn)的研究和利用文本信息預(yù)測(cè)股票走勢(shì)及提供股票投資建議,讓我們有了基于深度學(xué)習(xí)提取文本情感,將其運(yùn)用于地產(chǎn)行業(yè)的想法。
3 投資者情感指數(shù)與地產(chǎn)走勢(shì)相關(guān)性分析模型(Correlation analysis model of investorsentiment index and real estate trend)
為了高效提取特征,提高預(yù)測(cè)精度,本文將CNN和B i L STM網(wǎng)絡(luò)融入一個(gè)統(tǒng)一的框架之中,提出了一個(gè)名為CNN-BiLSTM的情感分析模型。該模型可以充分利用文本信息,自動(dòng)學(xué)習(xí)和提取其內(nèi)存特征。CNN-BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)模型如圖1所示。
在此模型中,首先通過(guò)Word2Vec(詞向量)模型訓(xùn)練好詞向量,其次使用CNN提取輸入文本的局部特征,再次利用雙向循環(huán)網(wǎng)絡(luò)提取上下文總體文本特征,在通過(guò)Softmax分類得到情感極性后,利用自定義情緒指數(shù)計(jì)算每天的情感得分,最后將其與地產(chǎn)百度指數(shù)做相關(guān)性分析。
3.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN模型主要是由卷積層和池化層構(gòu)成,卷積之前需要利用文本輸入層提取文本特征,最后通過(guò)全連接層得到文本分類結(jié)果。在文本分類任務(wù)中,將文本訓(xùn)練得到的詞向量傳遞給輸入層,然后通過(guò)卷積層提取詞語(yǔ)內(nèi)部特征。卷積核的選取可以根據(jù)研究者的需求進(jìn)行設(shè)置,然后通過(guò)池化進(jìn)行運(yùn)算,對(duì)文本特征做進(jìn)一步處理,提取主要特征信息,將獲得的信息全部傳輸?shù)饺B接層,通過(guò)激活函數(shù)得到文本分類結(jié)果[12]。
設(shè)輸入詞向量為X,卷積神經(jīng)網(wǎng)絡(luò)使用卷積核提取文本信息,從而更好地獲得字詞之間的語(yǔ)義內(nèi)涵,其運(yùn)算過(guò)程如下:
式(1)中, ?表示卷積運(yùn)算,W和b表示權(quán)重和偏置,f (·)表示激活函數(shù)。把提取到的信息放入池化層,通過(guò)運(yùn)算得到主要信息,運(yùn)算過(guò)程如下:
最后將結(jié)果進(jìn)行全連接運(yùn)算。
4 實(shí)證分析(Empirical analysis)
4.1 實(shí)驗(yàn)過(guò)程
房地產(chǎn)的價(jià)格走勢(shì)是一個(gè)二分類問(wèn)題,市場(chǎng)參與主體如果持積極客觀的態(tài)度,看好市場(chǎng)未來(lái)發(fā)展,那么就可以判定房地產(chǎn)價(jià)格走勢(shì)極大概率會(huì)上升;反之則判定為下降。
本文實(shí)驗(yàn)主要由三個(gè)部分構(gòu)成,過(guò)程示意圖如圖3所示。
步驟一,分別爬取百度指數(shù)和房地產(chǎn)評(píng)論數(shù)據(jù),對(duì)百度指數(shù)和房地產(chǎn)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,得到百度指數(shù)和房地產(chǎn)評(píng)論數(shù)據(jù)庫(kù)。
步驟二,對(duì)評(píng)論數(shù)據(jù)進(jìn)行人工標(biāo)注后,利用混合CNNBiLSTM建立評(píng)論情感分類模型。
步驟三,將預(yù)測(cè)部分評(píng)論數(shù)據(jù)輸入“步驟二”得到評(píng)論情感分值,利用自定義情緒指數(shù)計(jì)算每日最終情感得分,分析其與百度指數(shù)的相關(guān)性。
4.2 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理
本實(shí)驗(yàn)文本數(shù)據(jù)是相關(guān)房地產(chǎn)交易網(wǎng)頁(yè)中2020年1月初至2021年11月末有關(guān)新疆房地產(chǎn)評(píng)論文本數(shù)據(jù),首先經(jīng)過(guò)人工篩選剔除文本噪聲,其次對(duì)文本進(jìn)行標(biāo)簽標(biāo)注,可以獲得11 961條有效數(shù)據(jù)用來(lái)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。在本實(shí)驗(yàn)中,研究人員將2020年1月初至2021年5月末共計(jì)9 468條數(shù)據(jù)用來(lái)訓(xùn)練模型,將2021年6月初至2021年11月末共計(jì)2 492條數(shù)據(jù)用來(lái)做預(yù)測(cè)分析。由于正負(fù)樣本不均衡,因此在此處采用下采樣方法做特殊出口。在構(gòu)建詞向量階段,由于缺乏新疆地域性房地產(chǎn)詞典,所以對(duì)文本進(jìn)行分詞處理時(shí),將搜狗網(wǎng)房地產(chǎn)11個(gè)詞庫(kù)做合并處理,構(gòu)建基礎(chǔ)分詞詞典,在詞基礎(chǔ)上利用結(jié)巴分詞,將人工篩選出的108條詞匯和根據(jù)TF-IDF(詞頻-逆文檔頻率)提取到的前2 000條詞匯添加到分詞詞典,從而完成新疆地區(qū)房地產(chǎn)詞典的構(gòu)建。
4.3 實(shí)驗(yàn)參數(shù)設(shè)置
本實(shí)驗(yàn)中,Keras(人工神經(jīng)網(wǎng)絡(luò)庫(kù))被用作神經(jīng)網(wǎng)絡(luò)的框架,并使用Python編程語(yǔ)言實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)實(shí)現(xiàn)過(guò)程需要環(huán)境配置,實(shí)驗(yàn)性能也需要預(yù)定義相關(guān)超參數(shù),環(huán)境配置與具體參數(shù)分別如表1和表2所示,其中Null表示該參數(shù)不需要設(shè)置。
4.4 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
為了直觀、定量地分析所提模型和情感指數(shù)性能,本實(shí)驗(yàn)中采用準(zhǔn)確率(Acc)、精準(zhǔn)率(P)、召回率(R)和F1四類評(píng)價(jià)指標(biāo)測(cè)度分類模型。下面給出了4類指標(biāo)對(duì)應(yīng)的計(jì)算公式,其中Acc衡量了模型分類準(zhǔn)確性,R代表召回率,P代表精準(zhǔn)率,F(xiàn)是精確率和召回率的調(diào)和平均數(shù),當(dāng)參數(shù)α =1時(shí)F就是F1測(cè)度。
上式中:TP表示預(yù)測(cè)的正向文本語(yǔ)料實(shí)際為正例;FP表示預(yù)測(cè)的正向文本語(yǔ)料實(shí)際為負(fù)例;TN表示預(yù)測(cè)的負(fù)向文本語(yǔ)料實(shí)際為負(fù)例;FN表示預(yù)測(cè)的負(fù)向文本語(yǔ)料實(shí)際為正例。
4.5 情感分類器實(shí)驗(yàn)結(jié)果
為了驗(yàn)證CNN-BiLSTM模型在文本情感分類的有效性,本文選擇五個(gè)對(duì)比模型(SVM、LSTM、TextCNN、BiLSTM、BiLSTM+Attention)與本文所提模型進(jìn)行測(cè)試效果對(duì)比,其對(duì)比結(jié)果如表3所示。
從表3中可以看出,基于CNN-BiLSTM模型對(duì)房地產(chǎn)文本分類的準(zhǔn)確率為93.38%,基于BiLSTM和BiLSTM+Attention模型的分類性能次之,基于SVM模型的分類效果最差。因此,本文選擇CNN-BiLSTM模型計(jì)算地產(chǎn)評(píng)論情感極性。
4.6 相關(guān)性分析
在CNN-BiLSTM模型得到情感極性后,通過(guò)本文設(shè)計(jì)的情感指數(shù)求得地產(chǎn)評(píng)論每日的情感得分(score)。首先為了驗(yàn)證本文提出指標(biāo)是符合實(shí)際的,則需要找出能夠代表新疆烏魯木齊房地產(chǎn)市場(chǎng)發(fā)展以及市場(chǎng)態(tài)度的指標(biāo)測(cè)試指數(shù)。百度指數(shù)是由搜索百度引擎提出的,是基于互聯(lián)網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)搜索量的一個(gè)指標(biāo)。搜索量的數(shù)目可以體現(xiàn)投資者對(duì)市場(chǎng)的關(guān)注度,從而反映市場(chǎng)情緒變化。因此,選取百度指數(shù)作為檢驗(yàn)指標(biāo),接著將計(jì)算出的情感得分和百度地產(chǎn)指數(shù)通過(guò)MIC分析相關(guān)性,得到MIC結(jié)果是23.08%,相關(guān)性較弱,繪制出的折線圖如圖4所示。
從圖4可以看出,情緒指數(shù)和百度指數(shù)走勢(shì)大致相同,但是MIC的結(jié)果和預(yù)想目標(biāo)不太一致。通過(guò)移動(dòng)平均值對(duì)數(shù)據(jù)做平滑處理,消除一部分噪聲。在對(duì)情緒指數(shù)和百度指數(shù)分別做30日的日均線,將情緒指數(shù)滯后5天,重新計(jì)算最大信息系數(shù)和繪制折線圖,繪制的折線圖如圖5所示。
計(jì)算得到MIC系數(shù)為67.84%,表現(xiàn)出較強(qiáng)相關(guān)性,從圖5中也可以看出情緒指數(shù)和百度指數(shù)趨勢(shì)基本一致,說(shuō)明研究人員利用深度學(xué)習(xí)模型分析情感指數(shù)與百度指數(shù)具有較好的性能。根據(jù)市場(chǎng)情緒走勢(shì),2021年7月,新疆烏魯木齊市投資者情緒高漲,樓市話題度較熱,其中2021年9月市場(chǎng)情緒指數(shù)和百度指數(shù)出現(xiàn)反常情況,這與市場(chǎng)大環(huán)境低迷等情況有關(guān)。2021年,住房和城鄉(xiāng)建設(shè)部提出把發(fā)展保障性租賃住房作為“十四五”住房建設(shè)重點(diǎn)任務(wù),并且提出“三孩”配套支持政策落地:實(shí)施差異化租賃和購(gòu)買房屋優(yōu)惠政策,城市價(jià)值不斷凸顯導(dǎo)致情緒高漲,然而近年受某些因素的影響,幾乎所有行業(yè)受到?jīng)_擊,導(dǎo)致市場(chǎng)投資者情緒趨于悲觀趨勢(shì),反映出投資者對(duì)房地產(chǎn)市場(chǎng)的擔(dān)憂?,F(xiàn)階段國(guó)家和房地產(chǎn)企業(yè)拿出各種促銷活動(dòng),吸引投資者眼球,使投資者對(duì)房地產(chǎn)關(guān)注度有所上升。
5 結(jié)論(Conclusion)
本文在構(gòu)建情緒指數(shù)的基礎(chǔ)上,引入深度學(xué)習(xí)提取文本情感極性分析房地產(chǎn)價(jià)格走勢(shì),采用新疆烏魯木齊市房地產(chǎn)行業(yè)文本語(yǔ)料和百度地產(chǎn)指數(shù)對(duì)模型進(jìn)行驗(yàn)證,結(jié)果表明,通過(guò)CNN-BiLSTM模型提取的文本極性,通過(guò)構(gòu)建量化情感指數(shù)計(jì)算得到某一日情感得分,將其與百度指數(shù)擬合,最大互信息值為67.84%,相關(guān)程度非常高,并且對(duì)市場(chǎng)效應(yīng)進(jìn)行分析,通過(guò)移動(dòng)平滑可以讓二者走勢(shì)基本吻合。此模型既可以保證文本情感和房地產(chǎn)價(jià)格有較強(qiáng)的相關(guān)性,又可以保障二者走勢(shì)的可視化趨于一致,市場(chǎng)決策者可以根據(jù)此模型研究結(jié)論,通過(guò)實(shí)時(shí)測(cè)度房地產(chǎn)評(píng)論輿情走勢(shì),為數(shù)字經(jīng)濟(jì)下市場(chǎng)決策者提供智力支持。
作者簡(jiǎn)介:
李帥文(1997-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)智能分析,文本挖掘.
劉 繼(1974-),男,博士,教授.研究領(lǐng)域:數(shù)據(jù)智能分析,文本挖掘.