邵凱旋,吳映涵,梅 鋼
(中國地質(zhì)大學(xué)(北京),北京 100083)
近年來,隨著經(jīng)濟(jì)的高速發(fā)展和人民生活質(zhì)量的不斷上升,社會(huì)對空氣質(zhì)量的關(guān)注度日益增高??諝赓|(zhì)量是健康和生活的重要影響因素之一。局部環(huán)境空氣質(zhì)量除了受局地大氣污染物排放的直接影響,也受局地氣象要素及氣候變化的影響。有研究表明,在污染源排放相對穩(wěn)定的條件下,氣象條件對空氣質(zhì)量起主導(dǎo)作用。研究氣象要素與大氣污染物的關(guān)系,并將氣候變化與其結(jié)合起來,預(yù)測未來各氣象要素變化對各大氣污染物的潛在影響,對我國節(jié)能減排政策的制定具有一定的指導(dǎo)意義。對同一地區(qū)而言,由于天氣狀況等自然條件的不斷改變極其他因素的影響,在同一地點(diǎn)對同一來源的污染物的監(jiān)測結(jié)果也可能出現(xiàn)很大差異。北京作為我國首都,在國家發(fā)展中扮演著極其重要的角色,其空氣質(zhì)量問題也常常受到全國人民的普遍關(guān)注。
機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析的方法,作為人工智能的一個(gè)分支,它可以自動(dòng)化構(gòu)建分析模型。它的理念是,系統(tǒng)僅需要最小的人工干預(yù)就可以從數(shù)據(jù)中學(xué)習(xí),識(shí)別模式并且做出決策。機(jī)器學(xué)習(xí)的種類有很多,隨機(jī)森林便是一種非常簡便且易于使用的算法。作為一種監(jiān)督學(xué)習(xí)算法,隨機(jī)森林具有很強(qiáng)的抗干擾能力,可用于許多不同的領(lǐng)域。它能夠處理具有很多特征的高維度數(shù)據(jù),并在大多數(shù)情況下避免了過擬合問題,近年來越來越多地應(yīng)用于人們?nèi)粘I畹母鱾€(gè)方面。隨機(jī)森林可以用多種編程語言實(shí)現(xiàn)。Julia作為一種新興的編程語言,擁有著簡潔的語法,優(yōu)良的運(yùn)行速度,強(qiáng)大的元編程能力,可以輕松使用Python,R,C/C++和Java多種語言中的庫,極大地?cái)U(kuò)展了Julia語言的使用范圍。除此之外,它還可以調(diào)用其他許多成熟的高性能基礎(chǔ)代碼。與其他編程語言相比,Julia非常易用,可以大幅減少需要寫的代碼行數(shù),并有著更豐富的工具包和庫等,它不僅解決了許多傳統(tǒng)編程語言問題,還為機(jī)器學(xué)習(xí)和人工智能提供了強(qiáng)大的深度學(xué)習(xí)工具。
在世界范圍內(nèi)的許多國家環(huán)境問題越來越受到政府和公民的重視,國內(nèi)外的許多學(xué)者都對空氣質(zhì)量的預(yù)測問題進(jìn)行了多方面的分析與研究。周兆媛等[1]使用主成分分析的方法將多個(gè)氣象要素簡化為兩個(gè)主成分并進(jìn)行線性回歸分析,根據(jù)回歸系數(shù)得到了氣象要素與空氣質(zhì)量的相關(guān)關(guān)系;祁曉雨等[2]使用數(shù)據(jù)分析和挖掘的方法對北京六種大氣污染物濃度和五種氣象因子的數(shù)據(jù)集進(jìn)行分析,通過擬合發(fā)現(xiàn)相較于單一氣象因子,多種氣象因子組合對大氣污染物濃度的影響更加顯著,并分析了相同的氣象因子對不同污染物的不同影響;任才溶等[3]在構(gòu)建基于氣象參數(shù)的隨機(jī)森林預(yù)測模型時(shí)使用K-Means算法對訓(xùn)練樣本進(jìn)行聚類,對不同的聚類使用不同的分類模型,將每個(gè)模型的結(jié)果匯總得到最終的PM2.5等級預(yù)測結(jié)果;Efnan等[4]通過從空氣質(zhì)量數(shù)據(jù)中提取統(tǒng)計(jì)特征并將其輸入線性和非線性分類器,提出了一種適用于大范圍地理區(qū)域的空氣質(zhì)量預(yù)測模型;Paulo等[5]提出了一種基于隨機(jī)游走的時(shí)間序列預(yù)測體系,在不依托于其他外部信息的條件下,僅用過去的污染物濃度變化預(yù)測未來的污染物濃度;此外,神經(jīng)網(wǎng)絡(luò)也是用于空氣質(zhì)量預(yù)測的常見方法之一,鮑慧[6]等使用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,通過研究往年空氣污染物濃度的變化規(guī)律,建立基于時(shí)間序列的網(wǎng)絡(luò)模型,得到了較好的預(yù)測結(jié)果,但神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置缺乏一定的理論依據(jù),且搜索過程具有一定的隨機(jī)性,無法確保最優(yōu)解的得出。
在上述研究和分析中,國內(nèi)外學(xué)者采用神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、隨機(jī)森林等多種方法對空氣質(zhì)量預(yù)測問題進(jìn)行了研究,但也存在著統(tǒng)計(jì)分析方法較單一、因子選擇具有一定的主觀性和隨機(jī)性、多重因素綜合作用的影響考慮不足等問題。本文采用準(zhǔn)確度高、針對性強(qiáng)、綜合多因素的隨機(jī)森林算法對空氣質(zhì)量預(yù)測問題進(jìn)行了研究。在對空氣質(zhì)量和氣象條件之間的關(guān)系進(jìn)行研究的基礎(chǔ)上,本文選擇合適的特征作為依據(jù),使用Julia語言建立隨機(jī)森林預(yù)測模型,借助易于得到的實(shí)時(shí)氣象條件數(shù)據(jù),通過算法得到空氣質(zhì)量相關(guān)數(shù)據(jù),在應(yīng)用程序進(jìn)行預(yù)測的同時(shí),本文對預(yù)測準(zhǔn)確度與節(jié)點(diǎn)特征和決策樹數(shù)目的關(guān)系進(jìn)行了研究,在對兩個(gè)參數(shù)進(jìn)行調(diào)整后得到了較好的預(yù)測結(jié)果,對得到更加客觀準(zhǔn)確的空氣質(zhì)量及空氣質(zhì)量的預(yù)測有較為重要的意義。
本文所采用的數(shù)據(jù)為2017年1月至2018年1月北京市朝陽區(qū)奧體中心空氣質(zhì)量監(jiān)測站的實(shí)時(shí)空氣質(zhì)量監(jiān)測數(shù)據(jù)及其對應(yīng)的氣象條件數(shù)據(jù)。其中,空氣質(zhì)量數(shù)據(jù)包括該監(jiān)測站點(diǎn)測得的PM2.5,PM10,NO2,CO,O3,SO2每小時(shí)內(nèi)的濃度值;氣象條件數(shù)據(jù)包括該地區(qū)每小時(shí)內(nèi)的氣溫、氣壓、濕度、風(fēng)向、風(fēng)速及天氣狀況。在本文中,為便于研究空氣質(zhì)量與天氣狀況之間的聯(lián)系,以如下關(guān)系表示不同的天氣狀況:1=“Sunny/clear”;2=“Rain”;3=“Fog”;4=“Haze”;5=“Snow”;6=“Dust”;7=“Sand”。
北京市朝陽區(qū)空氣質(zhì)量監(jiān)測站和氣象站位置見圖1。
在日常生活中,人們通常習(xí)慣于根據(jù)大氣污染物的濃度對空氣質(zhì)量的優(yōu)劣進(jìn)行評價(jià),并將其劃分為優(yōu)、良、輕度污染、中度污染、重度污染、嚴(yán)重污染等多個(gè)等級。根據(jù)我國發(fā)布的空氣質(zhì)量指數(shù)的評級規(guī)定[7],本文根據(jù)表1所示的空氣質(zhì)量指數(shù)及對應(yīng)各項(xiàng)污染物濃度的參考值,將空氣質(zhì)量數(shù)據(jù)的具體數(shù)值劃分為6個(gè)等級,并以字母A~字母F表示,用以代表各項(xiàng)污染物的嚴(yán)重程度,從而通過分類提高使用隨機(jī)森林對空氣質(zhì)量進(jìn)行預(yù)測的實(shí)用性和可操作性。
表1 空氣質(zhì)量指數(shù)及各項(xiàng)污染物質(zhì)量濃度參照表 μg/m3
本文采用基于Julia語言的隨機(jī)森林算法對空氣質(zhì)量預(yù)測問題進(jìn)行研究。在對數(shù)據(jù)進(jìn)行簡單處理的基礎(chǔ)上,本文通過空氣質(zhì)量與時(shí)間因子和氣象條件的相關(guān)性的分析對特征因子的選擇進(jìn)行了探究,并將選擇出的適當(dāng)?shù)奶卣饕蜃幼鳛閰?shù)輸入到隨機(jī)森林模型中進(jìn)行空氣質(zhì)量預(yù)測的應(yīng)用研究。在隨機(jī)森林中,每一個(gè)決策樹的“種植”和“生長”都大致包含以下幾個(gè)步驟:
1)假設(shè)原始訓(xùn)練集中的樣本個(gè)數(shù)為N,然后通過有放回地重復(fù)多次抽樣獲得這N個(gè)樣本,這樣的抽樣結(jié)果將作為我們生成決策樹的訓(xùn)練集。
2)設(shè)有M個(gè)輸入變量,在每一棵樹每個(gè)節(jié)點(diǎn)都將隨機(jī)抽取m(m 3)每棵決策樹都最大限度地生長且不進(jìn)行任何修剪。 4)將生成的多棵分類樹組成隨機(jī)森林來預(yù)測新的數(shù)據(jù)(在分類時(shí)采用多數(shù)投票,在回歸時(shí)采用平均)。 在應(yīng)用程序進(jìn)行預(yù)測的同時(shí),本文對預(yù)測準(zhǔn)確度與節(jié)點(diǎn)特征和決策樹數(shù)目的關(guān)系進(jìn)行了研究,并對其預(yù)測結(jié)果進(jìn)行了分析討論。 在本節(jié)中,本文首先對大氣污染物與各氣象條件和時(shí)間因子的相關(guān)性進(jìn)行了分析,之后采用選擇出的特征值對隨機(jī)森林預(yù)測模型進(jìn)行了訓(xùn)練,最后應(yīng)用經(jīng)訓(xùn)練的模型進(jìn)行預(yù)測并對預(yù)測結(jié)果準(zhǔn)確度進(jìn)行了分析。 3.1.1 氣象因子的相關(guān)性分析 在人們通常的認(rèn)識(shí)中,陰雨天氣往往比晴朗天氣更容易出現(xiàn)空氣污染較為嚴(yán)重的情況。顯然,空氣質(zhì)量與氣象條件之間確實(shí)存在著一定的聯(lián)系,某些氣象條件可能會(huì)在污染物的流通擴(kuò)散等過程中發(fā)揮著復(fù)雜而顯著的作用[8]。然而,衡量某地區(qū)氣象條件的內(nèi)容通常是復(fù)雜多樣的。使用隨機(jī)森林方法進(jìn)行預(yù)測的主要工作原理是在構(gòu)建和應(yīng)用隨機(jī)森林預(yù)測模型之前,如果不對空氣質(zhì)量和氣象條件之間內(nèi)在聯(lián)系進(jìn)行分析并得出基本的認(rèn)識(shí),直接進(jìn)行計(jì)算可能會(huì)帶有一定的主觀性和偶然性。因此,本文對大氣污染物與各氣象條件進(jìn)行了相關(guān)性分析,從而幫助評價(jià)和修改預(yù)測模型。 以PM2.5與氣溫、風(fēng)速等各氣象條件之間的相關(guān)性分析為例,表2給出了使用SPSS求得的PM2.5與各氣象條件之間相關(guān)系數(shù)的具體數(shù)值,圖2為根據(jù)PM2.5與各氣象條件數(shù)據(jù)繪制的散點(diǎn)圖。通過圖表并結(jié)合Pearman相關(guān)系數(shù)的計(jì)算可以看出,除天氣狀況以外,PM2.5與各氣象條件之間并無明顯的線性相關(guān)關(guān)系。 表2 PM2.5與各氣象因子相關(guān)系數(shù)表 結(jié)合Spearman相關(guān)系數(shù)進(jìn)行分析,可見氣象因子與濕度和天氣狀況之間存在相對明顯的正相關(guān)關(guān)系,而與風(fēng)速之間存在相對明顯的負(fù)相關(guān)關(guān)系。據(jù)此可以推斷較大的風(fēng)速在一定程度上有利于PM2.5的擴(kuò)散,從而使其觀測值降低;而濕度較大時(shí),空氣中含量較高的水蒸氣可能有利于PM2.5的凝結(jié),且水蒸氣的存在可能造成PM2.5的觀測值偏大的誤差。同時(shí),天氣狀況在很多方面與PM2.5的擴(kuò)散和沉積等過程有著密切聯(lián)系[9-10]。雖然相關(guān)系數(shù)顯示風(fēng)向與PM2.5濃度相關(guān)性很低,但結(jié)合散點(diǎn)圖可以明顯看出PM2.5濃度較高值均大致集中在三個(gè)方向,可推斷該結(jié)果是在對應(yīng)方向的上風(fēng)向上存在排放量較大的企業(yè)或更密集的交通網(wǎng)等因素的影響下造成的。 此外,相關(guān)系數(shù)計(jì)算顯示出PM2.5與溫度之間存在著一定的正相關(guān)關(guān)系。而在其他研究中,北方地區(qū)在冬季往往處于采暖季,且由于氣溫較低往往容易出現(xiàn)逆溫層,對PM2.5的擴(kuò)散產(chǎn)生不利影響。這與其研究結(jié)果和日常生活中溫度回暖,空氣質(zhì)量狀況與供暖季相比有所改觀的認(rèn)識(shí)存在著一定的差異。通過對PM2.5變化的具體時(shí)間段進(jìn)行分析可以看出,其年度峰值出現(xiàn)在五一小長假期間,在假期末尾PM2.5升高尤為明顯,可推斷由于假期出行及返程等因素的影響下,出現(xiàn)了溫度較高時(shí)PM2.5濃度也存在明顯升高的現(xiàn)象。此外,本文數(shù)據(jù)主要來源于奧體中心空氣質(zhì)量監(jiān)測站,反映空氣質(zhì)量變化的地區(qū)范圍有限,也在一定程度上影響了此處結(jié)果的出現(xiàn)。 通過對PM2.5與其他大氣污染物之間的相關(guān)性進(jìn)行分析(見表3),可以看出PM2.5在很大程度上與其他大氣污染物存在著一定的相關(guān)性,PM2.5與各氣象條件的相關(guān)性分析對其他大氣污染物的分析而言同樣具有一定的參考價(jià)值,進(jìn)而幫助選擇合適的因子用于預(yù)測并對模型進(jìn)行評價(jià)和改進(jìn)(見圖3)。 表3 PM2.5與其他大氣污染物相關(guān)系數(shù)表 3.1.2 時(shí)間因子的相關(guān)性分析 在應(yīng)用氣象條件對空氣質(zhì)量進(jìn)行預(yù)測的過程中,考慮到氣象條件在時(shí)間上往往存在一定的周期變化規(guī)律,本文同樣對大氣污染物與時(shí)間或季節(jié)的相關(guān)性進(jìn)行了研究。以PM2.5為例,其一年內(nèi)的觀測數(shù)據(jù)與不同季節(jié)一天中的觀測數(shù)據(jù)隨時(shí)間的變化曲線如圖4~圖6所示。 由圖4~圖6可以看出,PM2.5濃度與時(shí)間具有較為明顯的相關(guān)性,其按季節(jié)劃分的變化規(guī)律較為明顯。其中,PM2.5在1 d內(nèi)各時(shí)刻平均濃度的季節(jié)性差異較大,在該站點(diǎn)的觀測數(shù)據(jù)中,春季平均濃度最高,夏季平均濃度最低。而在1 d中的某些時(shí)刻,不同季節(jié)PM2.5濃度變化值的大小具有較明顯的同步改變現(xiàn)象。例如,在15:00~16:00這一時(shí)間段內(nèi),秋、冬、春三個(gè)季節(jié)的PM2.5濃度均存在明顯升高,夏季PM2.5濃度存在明顯降低。PM2.5濃度值不僅與季節(jié)和月份有關(guān),在同一天的不同時(shí)段同樣存在著一定變化規(guī)律。 通過以上分析可以看出,大氣污染物濃度與時(shí)間之間同樣具有較為明顯的相關(guān)性。為了得到更加準(zhǔn)確的預(yù)測結(jié)果,本文在應(yīng)用氣象因子預(yù)測空氣質(zhì)量的過程中同樣將時(shí)間因子作為預(yù)測的參考特征之一納入了考慮范圍,從而進(jìn)一步提高預(yù)測結(jié)果的可靠性。 3.2.1 數(shù)據(jù)準(zhǔn)備 在對數(shù)據(jù)進(jìn)行分析之前的數(shù)據(jù)收集階段,盡管數(shù)據(jù)集已經(jīng)被進(jìn)行初步處理,但在分析的過程中依然存在很多問題。例如,在進(jìn)行相關(guān)性分析時(shí)得到的圖2中可以明顯看到,在龐大繁雜的數(shù)據(jù)中,大氣污染物濃度較高的數(shù)據(jù)只占很小的一部分。目前現(xiàn)有的學(xué)習(xí)算法一般建立在各類數(shù)據(jù)數(shù)量相差不大的前提下。而在本文的數(shù)據(jù)集中,空氣質(zhì)量較好的數(shù)據(jù)和較差的數(shù)據(jù)所占比例很不平衡,這便導(dǎo)致了在隨機(jī)森林學(xué)習(xí)和訓(xùn)練的過程中,在空氣質(zhì)量較好的方面能夠搜集到的數(shù)據(jù)和規(guī)律要比空氣質(zhì)量較差的大的多,這便導(dǎo)致了在應(yīng)用隨機(jī)森林進(jìn)行預(yù)測的過程中,得到的結(jié)果更容易偏向于空氣質(zhì)量較好的等級。數(shù)據(jù)集中不同等級的空氣質(zhì)量數(shù)據(jù)分布不均勻使預(yù)測結(jié)果產(chǎn)生了一定的誤差。目前解決這類問題的主要方法有欠采樣方法(undersampling)、過采樣方法(Oversampling)及組合方法(Combination)等。本文采用過采樣方法,通過復(fù)制或內(nèi)插的方式,將人工合成的樣本整合到原始樣本中,從而提高空氣質(zhì)量較差數(shù)據(jù)的樣本容量,改善數(shù)據(jù)類別不平衡帶來的影響。 3.2.2 模型構(gòu)建 根據(jù)空氣質(zhì)量與氣象因子和時(shí)間因子的相關(guān)性分析,本文不放回地隨機(jī)選擇經(jīng)過欠采樣后的2017年1月~2018年1月北京市朝陽區(qū)奧體中心空氣質(zhì)量監(jiān)測站的實(shí)時(shí)空氣質(zhì)量監(jiān)測數(shù)據(jù)及其對應(yīng)的氣象條件的部分?jǐn)?shù)據(jù)作為測試集,并將其余數(shù)據(jù)作為訓(xùn)練集,選擇氣溫、氣壓、濕度、風(fēng)向、風(fēng)速、時(shí)間及天氣狀況作為特征值,并將其對應(yīng)的空氣質(zhì)量等級輸入模型進(jìn)行訓(xùn)練,按照“特征數(shù)量(number of features)=2、決策樹的數(shù)量(number of trees)=15、分段抽樣比例(ratio of subsampling)=0.5”的初始參數(shù)構(gòu)建隨機(jī)森林。 3.2.3 模型應(yīng)用 將測試集中的氣象條件數(shù)據(jù)輸入經(jīng)過訓(xùn)練的隨機(jī)森林預(yù)測模型之后,各項(xiàng)空氣污染物指標(biāo)預(yù)測的準(zhǔn)確率如表4所示。 表4 大氣污染物預(yù)測結(jié)果準(zhǔn)確率表 在對隨機(jī)森林進(jìn)行訓(xùn)練的過程中,每次節(jié)點(diǎn)隨機(jī)分割時(shí)選擇的特征屬性是從原始的輸入因子中選取的,而隨機(jī)森林最終的預(yù)測結(jié)果是根據(jù)多棵決策樹的綜合預(yù)測結(jié)果得到的,因此,對隨機(jī)森林模型的預(yù)測性能影響最大的兩個(gè)參數(shù)分別是節(jié)點(diǎn)分割時(shí)選擇的特征屬性和決策樹的數(shù)量[11]。為進(jìn)一步優(yōu)化模型,以得到更好的預(yù)測效果,本文使用控制變量的方法,對兩個(gè)參數(shù)變化時(shí)的模型預(yù)測準(zhǔn)確度的變化進(jìn)行了探索[12-13]。以PM2.5為例,圖7給出了當(dāng)節(jié)點(diǎn)分割時(shí)選擇的特征屬性數(shù)目分別為2~5時(shí)隨機(jī)森林模型預(yù)測結(jié)果準(zhǔn)確度隨決策樹數(shù)量不同而變化的曲線。 分析圖7中的曲線可以看出,當(dāng)決策樹的數(shù)量在30以上時(shí),隨機(jī)森林的預(yù)測精度的變化趨于穩(wěn)定。通過研究節(jié)點(diǎn)特征和決策樹數(shù)目對隨機(jī)森林預(yù)測精度的影響,可以幫助選擇合適的參數(shù)對模型進(jìn)行改進(jìn)。 經(jīng)過模型構(gòu)建和應(yīng)用時(shí)對其預(yù)測性能與節(jié)點(diǎn)屬性數(shù)目和決策樹數(shù)量兩個(gè)參數(shù)之間關(guān)系的研究,同時(shí)考慮到預(yù)測準(zhǔn)確度和運(yùn)算速度兩方面對程序的影響,本文最終采用特征數(shù)量為2,決策樹數(shù)量為30作為隨機(jī)森林預(yù)測模型構(gòu)建時(shí)的參數(shù)。其各等級的預(yù)測結(jié)果情況及準(zhǔn)確率見圖8。 本文基于隨機(jī)森林算法研究了北京市氣象條件與空氣質(zhì)量變化關(guān)系的相關(guān)性。通過以上研究發(fā)現(xiàn):1)空氣質(zhì)量與溫濕狀況、風(fēng)速風(fēng)向及天氣情況等氣象因子之間存在一定的相關(guān)關(guān)系;2)北京市空氣質(zhì)量存在明顯的季節(jié)性變化,受浮塵天氣等因素的影響,春季空氣污染物濃度最高;3)各空氣污染物之間存在較明顯的相關(guān)性;4)在一定范圍內(nèi),隨機(jī)森林預(yù)測精度與決策樹數(shù)量成正相關(guān)。同時(shí),對預(yù)測結(jié)果進(jìn)行分析,PM2.5等級為優(yōu)(A)的數(shù)據(jù)預(yù)測準(zhǔn)確度最好,但其預(yù)測結(jié)果中包含的其他等級的種類也最多;PM2.5等級為輕度污染(C)的數(shù)據(jù)預(yù)測結(jié)果準(zhǔn)確度相對較差,由此可見在該組數(shù)據(jù)中,PM2.5等級為輕度污染時(shí)其氣象條件的特征性相對較差,在程序的不斷優(yōu)化中應(yīng)對預(yù)測存在偏差的C類數(shù)據(jù)與氣象條件的關(guān)系進(jìn)行進(jìn)一步探索,通過增加C類典型樣本加強(qiáng)隨機(jī)森林的訓(xùn)練或根據(jù)多次測試得出的誤差概率對C類結(jié)果進(jìn)行補(bǔ)償?shù)确绞綔p小誤差。該模型不僅可用于PM2.5的預(yù)測,在對其他大氣污染物的預(yù)測中同樣具有良好的表現(xiàn),對得到更加客觀準(zhǔn)確的空氣質(zhì)量及空氣質(zhì)量的預(yù)測有較為重要的意義。采用該方法具有較強(qiáng)的針對性,但為保證較好的預(yù)測結(jié)果,對訓(xùn)練集的特征性要求較高,在對其他地區(qū)的空氣質(zhì)量進(jìn)行預(yù)測時(shí)應(yīng)重新選擇數(shù)據(jù)集對該模型進(jìn)行訓(xùn)練,對較大地理區(qū)域范圍內(nèi)空氣質(zhì)量的預(yù)測結(jié)果的準(zhǔn)確性和普適性有待進(jìn)一步研究。3 隨機(jī)森林預(yù)測模型的建立
3.1 特征值選取及相關(guān)性分析
3.2 模型的建立及應(yīng)用
4 結(jié)論