?;劬?,於志文,於志勇,安琦,郭斌
1. 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西 西安 710072;2. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350108
隨著社會(huì)經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,空氣質(zhì)量越來(lái)越被大家所關(guān)注??諝庖恢笔蔷S護(hù)人類及生物生存的保護(hù)膜,對(duì)人類及生物生存起著重要作用。但隨著工業(yè)及交通運(yùn)輸業(yè)的不斷發(fā)展,大量的有害物質(zhì)被排放到空氣中,空氣質(zhì)量每況愈下,由其導(dǎo)致的酸雨和全球變暖問(wèn)題都在破壞著人類的自然環(huán)境和生態(tài)系統(tǒng)。在循環(huán)經(jīng)濟(jì)、綠色經(jīng)濟(jì)、經(jīng)濟(jì)與環(huán)境可持續(xù)發(fā)展的趨勢(shì)下,為了了解空氣污染變化趨勢(shì),掌握及時(shí)、準(zhǔn)確、全面的空氣質(zhì)量信息,需要對(duì)空氣質(zhì)量進(jìn)行精準(zhǔn)預(yù)測(cè),準(zhǔn)確獲取城市中每個(gè)位置的空氣質(zhì)量成為一項(xiàng)必不可少的研究工作,可為監(jiān)控空氣污染狀況、制定治理措施提供依據(jù)。但由于空氣質(zhì)量監(jiān)測(cè)站需占用大量空間且成本高昂,僅能在少數(shù)位置部署,因此選取哪些位置對(duì)空氣質(zhì)量進(jìn)行采樣,從而最大限度地推測(cè)其他位置的空氣質(zhì)量,是一項(xiàng)具有挑戰(zhàn)的工作?;诳諝赓|(zhì)量數(shù)據(jù)不足的情況,本文選用克里金(Kriging)插值并結(jié)合主動(dòng)學(xué)習(xí)的思想,提出用于空氣質(zhì)量指數(shù)推測(cè)的Kriging模型。
目前,對(duì)同一地區(qū)的未來(lái)某時(shí)的空氣質(zhì)量指數(shù)以及污染物濃度預(yù)測(cè)已經(jīng)有很多研究工作了,然而對(duì)同一時(shí)刻,指定地區(qū)的空氣質(zhì)量推測(cè)還沒(méi)有很好的探索。空氣質(zhì)量具有空間自相關(guān)性,因此一個(gè)簡(jiǎn)單的方法是使用Kriging模型進(jìn)行空間插值預(yù)測(cè)。在用Kriging方法建模的過(guò)程中,標(biāo)記樣本數(shù)量的多少直接關(guān)系到模型的精度[1],當(dāng)標(biāo)記樣本較少時(shí),通常難以構(gòu)建可靠的模型。在傳統(tǒng)的監(jiān)督學(xué)習(xí)環(huán)境中,應(yīng)該提供大量的訓(xùn)練樣例來(lái)構(gòu)建具有良好泛化能力的模型。需要指出的是,這些訓(xùn)練樣例應(yīng)該加上標(biāo)簽,而在許多實(shí)際的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用中,通常只有少數(shù)標(biāo)記訓(xùn)練示例是可用的,在實(shí)際應(yīng)用中,空氣質(zhì)量監(jiān)測(cè)站占用了大量的空間且成本高昂,對(duì)于大多數(shù)位置而言,并沒(méi)有任何空氣質(zhì)量數(shù)據(jù)。為了提高預(yù)測(cè)精度,提出一種基于主動(dòng)學(xué)習(xí)的Kriging(active-learning Kriging,ALK)插值方法,用于推測(cè)給定的任意位置的空氣質(zhì)量指數(shù)。本文的主要工作如下:
● 提高對(duì)給定的任意位置的空氣質(zhì)量指數(shù)預(yù)測(cè)的準(zhǔn)確度;
● 提出了一個(gè)基于主動(dòng)學(xué)習(xí)的Kriging插值模型,該模型通過(guò)選取少數(shù)位置對(duì)空氣質(zhì)量進(jìn)行采樣,能最大限度地提升推測(cè)其他位置的空氣質(zhì)量的準(zhǔn)確度;
● 使用我國(guó)43個(gè)城市的數(shù)據(jù)來(lái)評(píng)估提出的模型,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文預(yù)測(cè)框架的通用性和有效性,并提高了預(yù)測(cè)精度。
目前,一些關(guān)于分析和預(yù)測(cè)空氣質(zhì)量的研究工作已達(dá)到對(duì)大氣環(huán)境質(zhì)量進(jìn)行預(yù)測(cè)預(yù)警的作用。這些研究工作采用了不同的方法對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)。在環(huán)境科學(xué)方面,現(xiàn)有的空氣質(zhì)量預(yù)測(cè)方法通常基于經(jīng)典的離散模型,如高斯煙羽(Gaussian plume)模型、與監(jiān)管街道峽谷相關(guān)的模型(operational street canyon模型)和計(jì)算流體動(dòng)力學(xué)(computational fluid dynamics)模型[2]。近年來(lái),一些統(tǒng)計(jì)模型(如線性回歸模型、回歸樹模型[3]和神經(jīng)網(wǎng)絡(luò)模型[4])已被應(yīng)用于大氣科學(xué),實(shí)時(shí)預(yù)測(cè)空氣質(zhì)量。宋宇辰等人[5]和祝翠玲等人[6]運(yùn)用時(shí)間序列法和反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)法建立模型,預(yù)測(cè)空氣質(zhì)量,對(duì)SO2、NO2和可吸入顆粒物的濃度值進(jìn)行預(yù)測(cè)與分析;鄭宇等人[7]使用數(shù)據(jù)驅(qū)動(dòng)的方法預(yù)測(cè)未來(lái)48 h的空氣質(zhì)量監(jiān)測(cè)站的讀數(shù),該數(shù)據(jù)驅(qū)動(dòng)的方法考慮了當(dāng)前的氣象數(shù)據(jù)、天氣預(yù)報(bào)、監(jiān)測(cè)站空氣質(zhì)量數(shù)據(jù)以及該監(jiān)測(cè)站周圍幾百公里其他監(jiān)測(cè)站的空氣質(zhì)量數(shù)據(jù);林開春等人[8]和孟倩[9]提出基于隨機(jī)森林的空氣質(zhì)量指數(shù)預(yù)測(cè)模型和空氣質(zhì)量等級(jí)分類預(yù)測(cè)方法。蘇靜等人[10]和楊錦偉等人[11]應(yīng)用灰色理論模型預(yù)測(cè)空氣質(zhì)量變化趨勢(shì),對(duì)未來(lái)10年的污染因子濃度進(jìn)行了預(yù)測(cè);閆妍等人[12]提出了一種基于神經(jīng)網(wǎng)絡(luò)的環(huán)境空氣質(zhì)量的預(yù)測(cè)方法,他們運(yùn)用BP人工神經(jīng)網(wǎng)絡(luò)的多層神經(jīng)網(wǎng)絡(luò)對(duì)西安市大氣污染物濃度的實(shí)測(cè)值進(jìn)行了訓(xùn)練學(xué)習(xí),建立了模型,并用此模型對(duì)污染物濃度進(jìn)行了預(yù)測(cè)和預(yù)報(bào)。
然而,所有先前研究工作的有效性和可用性都是基于已有的監(jiān)測(cè)站數(shù)據(jù),從時(shí)間序列的自相關(guān)性預(yù)測(cè)未來(lái)某個(gè)時(shí)間的空氣質(zhì)量污染物濃度。如果某地沒(méi)有空氣質(zhì)量監(jiān)測(cè)站,想要預(yù)測(cè)該位置的空氣質(zhì)量仍然是一個(gè)難題。本文嘗試?yán)每臻g插值的方法來(lái)解決這個(gè)問(wèn)題,并提出一個(gè)基于主動(dòng)學(xué)習(xí)的Kriging插值模型,以使用最少的數(shù)據(jù)達(dá)到高精度預(yù)測(cè)的目標(biāo)。
空氣質(zhì)量指數(shù)(air quality index,AQI)是政府機(jī)構(gòu)向公眾傳達(dá)空氣污染程度的指標(biāo)。在環(huán)境監(jiān)測(cè)部門每天發(fā)布的空氣質(zhì)量報(bào)告中,包含各種污染物的濃度值,但對(duì)于大多數(shù)人而言,這些抽象的數(shù)據(jù)并沒(méi)有很具體的意義,無(wú)法從這些數(shù)據(jù)中判斷出當(dāng)前的空氣質(zhì)量到底處在什么水平。于是根據(jù)環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)和各項(xiàng)污染物對(duì)人體健康、生態(tài)、環(huán)境的影響,將常規(guī)監(jiān)測(cè)的幾種空氣污染物濃度簡(jiǎn)化為單一的概念性指數(shù)值,即AQI,通過(guò)這一數(shù)值,人們可以一目了然地判斷出空氣質(zhì)量的高低。
參與空氣質(zhì)量評(píng)價(jià)的主要污染物為細(xì)顆粒物、可吸入顆粒物、SO2、NO2、O3等。具體來(lái)說(shuō),空氣監(jiān)測(cè)站會(huì)監(jiān)測(cè)并記錄空氣質(zhì)量數(shù)據(jù),從中可以獲得PM2.5、PM10、SO2、NO2、O3污染物的濃度信息,通過(guò)計(jì)算可以獲得AQI,計(jì)算式如下:
其中,I為空氣質(zhì)量指數(shù),即 AQI;C為污染物濃度;Cl、Ch為該污染物濃度限值,Il、Ih為對(duì)應(yīng)的 AQI限值,4個(gè)數(shù)均為常量,可查閱表1獲得。
本文用AQI來(lái)描述空氣質(zhì)量的好壞,目標(biāo)是識(shí)別AQI與空間位置之間的關(guān)系,并建立有效的模型,當(dāng)給定指定地區(qū)的空間位置時(shí),即可預(yù)測(cè)該位置的空氣質(zhì)量指數(shù)。
圖1展示了預(yù)測(cè)空氣質(zhì)量指數(shù)的ALK模型的框架。首先從原始數(shù)據(jù)集中獲取污染物濃度數(shù)據(jù)以及空氣監(jiān)測(cè)站數(shù)據(jù),并將其提取為兩個(gè)特性:AQI、監(jiān)測(cè)站空間位置(經(jīng)度、緯度)。之后用算法建立這些因素之間的關(guān)系,其中,輸入值是地理位置信息,輸出值是相應(yīng)的AQI。最后,利用歷史數(shù)據(jù)集,驗(yàn)證提出的預(yù)測(cè)模型是否能夠有效地預(yù)測(cè)指定位置的AQI。
本節(jié)將對(duì)基于主動(dòng)學(xué)習(xí)的克里金插值模型以及相關(guān)知識(shí)進(jìn)行詳細(xì)介紹。
表1 空氣質(zhì)量指數(shù)及對(duì)應(yīng)的污染物濃度限值
圖1 框架概述
空間插值問(wèn)題就是在已知空間上若干離散點(diǎn)的某一屬性值的條件下,估計(jì)空間上任意一點(diǎn)(x,y)的這一屬性值的問(wèn)題??死锝鸩逯捣ㄓ址Q空間自協(xié)方差最佳插值法。它首先考慮的是空間屬性在空間位置的變異分布,確定一個(gè)對(duì)待插點(diǎn)的屬性值有影響的距離范圍,然后用此范圍內(nèi)的采樣點(diǎn)來(lái)估計(jì)待插點(diǎn)的屬性值[13]。該方法在數(shù)學(xué)上可對(duì)研究的對(duì)象提供一種最佳線性無(wú)偏估計(jì)(某點(diǎn)處的確定值),它在考慮了信息樣品的形狀、大小、與待估計(jì)塊段之間的空間位置等幾何特征以及品位的空間結(jié)構(gòu)之后,為達(dá)到線性、無(wú)偏和最小估計(jì)方差的估計(jì),對(duì)每一個(gè)樣品賦予一定的系數(shù),最后進(jìn)行加權(quán)平均來(lái)估計(jì)塊段品位。其基本插值步驟如下。
步驟1 計(jì)算半方差,衡量各點(diǎn)之間的空間相關(guān)程度,其計(jì)算式為:
其中,h為各監(jiān)測(cè)之間的距離,n為由h分開的成對(duì)樣本的數(shù)量,z(xi)為點(diǎn)xi的屬性值。
步驟2 建立空間變異函數(shù),將不同距離的半方差值都計(jì)算出來(lái)后,找出與之?dāng)M合得最好的理論變異函數(shù)模型,可用于擬合的模型包括高斯模型、線性模型、指數(shù)模型等。
步驟3 利用擬合的模型估算未知點(diǎn)的屬性值,計(jì)算式為:
其中,z0為未標(biāo)記樣本的 AQI估計(jì)值,zxi為標(biāo)記樣本點(diǎn)xi的 AQI值,s為用來(lái)估算未知點(diǎn)的已知樣本點(diǎn)的數(shù)目,λxi為在估計(jì)z0時(shí)的zxi的權(quán)值系數(shù)。λxi由計(jì)算式(4)計(jì)算:
其中,γ(xi,xj)為已知樣本點(diǎn)xi和xj之間的變異函數(shù)值,μ為拉格朗日常數(shù),γ(xi,x)為未知樣本點(diǎn)與其他已知樣本點(diǎn)xi之間的變異函數(shù)值。
4.2.1 主動(dòng)學(xué)習(xí)
在使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法訓(xùn)練模型的時(shí)候,往往是訓(xùn)練樣本規(guī)模越大,模型的效果就越好。但在現(xiàn)實(shí)生活的很多場(chǎng)景中,標(biāo)記樣本的獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家進(jìn)行人工標(biāo)注,時(shí)間成本和經(jīng)濟(jì)成本都很大。而且,如果訓(xùn)練樣本的規(guī)模過(guò)于龐大,訓(xùn)練時(shí)間也會(huì)比較長(zhǎng)。在人類的學(xué)習(xí)過(guò)程中,通常利用已有的經(jīng)驗(yàn)學(xué)習(xí)新的知識(shí),同時(shí)依靠獲得的知識(shí)總結(jié)和積累經(jīng)驗(yàn),經(jīng)驗(yàn)與知識(shí)不斷交互。機(jī)器學(xué)習(xí)模擬人類學(xué)習(xí)的過(guò)程,利用已有的知識(shí)訓(xùn)練出模型,獲取新的知識(shí),并通過(guò)不斷積累的信息修正模型,以得到更加準(zhǔn)確、有用的新模型。因此,本文根據(jù)主動(dòng)學(xué)習(xí)算法獲得需要進(jìn)行標(biāo)注的數(shù)據(jù),之后將這些數(shù)據(jù)送到專家那里進(jìn)行標(biāo)注,再將這些數(shù)據(jù)加入訓(xùn)練樣本集中對(duì)模型進(jìn)行訓(xùn)練,以提高模型的精確度。這個(gè)過(guò)程叫作主動(dòng)學(xué)習(xí)。
主動(dòng)學(xué)習(xí)在每一輪的訓(xùn)練過(guò)程中反復(fù)運(yùn)用監(jiān)督學(xué)習(xí)方法,得到上一輪標(biāo)記結(jié)果中最有價(jià)值的樣例,并主動(dòng)采樣其真實(shí)標(biāo)簽,將結(jié)果一起加入當(dāng)前的訓(xùn)練樣本集中,不斷訓(xùn)練。本文將主動(dòng)學(xué)習(xí)理論應(yīng)用于克里金插值模型,得到基于主動(dòng)學(xué)習(xí)的克里金插值模型。ALK算法流程如圖2所示,步驟如下。
圖2 基于主動(dòng)學(xué)習(xí)的克里金模型算法流程
步驟1 確定標(biāo)記與未標(biāo)記樣本集,初始化克里金插值模型參數(shù),本文克里金插值模型采用指數(shù)函數(shù)。
步驟2 使用標(biāo)記樣本訓(xùn)練克里金模型,并對(duì)未標(biāo)記樣本集進(jìn)行插值估算。
步驟3 從插值結(jié)果中選擇滿足置信度要求的未標(biāo)記樣本及其主動(dòng)采樣獲得的真實(shí)標(biāo)簽,將加入插值模型的標(biāo)記樣本集中,并從未標(biāo)記樣本集中去除該樣本。
步驟4 重新訓(xùn)練克里金插值模型,直至訓(xùn)練出一定數(shù)量的未標(biāo)記樣本為止。
4.2.2 基于置信度的計(jì)算方法
在基于置信度的主動(dòng)學(xué)習(xí)算法中,置信度被用于從若干未標(biāo)記樣本中選取最有價(jià)值的訓(xùn)練結(jié)果,在模型學(xué)習(xí)過(guò)程中,每一輪選取的未標(biāo)記樣本都會(huì)對(duì)插值模型的精度產(chǎn)生影響,在主動(dòng)學(xué)習(xí)中,選定的最有價(jià)值的未標(biāo)記樣本會(huì)主動(dòng)標(biāo)記真實(shí)標(biāo)簽,因此通常選擇模型學(xué)習(xí)中最不確定的未標(biāo)記樣本,因?yàn)樗鼘?duì)學(xué)習(xí)模型來(lái)說(shuō)是最有價(jià)值的[14]。本文采用了Kriging模型中的均方差(mean-square error,MSE)[15]作為置信度評(píng)判的指標(biāo),考慮了以下兩種置信度計(jì)算方法。
● MSE1-MSE2:如果在未標(biāo)記樣本中存在一條數(shù)據(jù),當(dāng)其加入標(biāo)記樣本時(shí),使得插值模型的均方差變大且變大的幅度最大或使插值模型的均方差變小且變小的幅度最小,則這條數(shù)據(jù)為置信度最低的未標(biāo)記樣本,置信度V使用以下計(jì)算式計(jì)算:
其中,yi是第i個(gè)標(biāo)記在原插值模型上的MSE,是第i個(gè)標(biāo)記樣本在新插值模型上的 MSE,這里的新插值模型指的是加入一條未標(biāo)記樣本后訓(xùn)練的模型,加入的未標(biāo)記樣本的標(biāo)簽是由原插值模型預(yù)測(cè)的結(jié)果。當(dāng)V最小時(shí),此未標(biāo)記樣本為本次循環(huán)中置信度最低的樣本。
● MSE:直接選擇ALK模型對(duì)未標(biāo)記樣本的預(yù)估值與實(shí)際值誤差最大的點(diǎn)為置信度最低的未標(biāo)記樣本。
在這一部分中,首先對(duì)數(shù)據(jù)集進(jìn)行了描述。然后,評(píng)估本文提出的ALK模型的性能。最后,展示了該模型應(yīng)用于空氣質(zhì)量指數(shù)預(yù)測(cè)的結(jié)果。
在這項(xiàng)研究中,主要使用空氣質(zhì)量數(shù)據(jù)。數(shù)據(jù)集包含從2014年5月到2015年4月43個(gè)城市共437個(gè)空氣監(jiān)測(cè)站的空氣質(zhì)量數(shù)據(jù),每條空氣質(zhì)量數(shù)據(jù)包含特定時(shí)間各個(gè)污染物濃度的信息。表2為數(shù)據(jù)集中某空氣監(jiān)測(cè)站的空氣質(zhì)量記錄,其中station_id是空氣監(jiān)測(cè)站的ID,time是該條空氣質(zhì)量監(jiān)測(cè)的時(shí)間,其余分別為PM2.5、PM10、NO2、CO、O3、SO2的濃度信息。本文主要關(guān)注空氣質(zhì)量指數(shù),因此從空氣質(zhì)量數(shù)據(jù)中提取除CO之外的5種污染物濃度信息,并計(jì)算AQI。
表3為某空氣監(jiān)測(cè)站的數(shù)據(jù),其中station_id是空氣監(jiān)測(cè)站的ID,name_chinese、name_english分別為空氣監(jiān)測(cè)站的中文名稱與英文名稱,latitude、longitude分別為空氣監(jiān)測(cè)站的經(jīng)度和緯度,district_id為監(jiān)測(cè)站對(duì)應(yīng)的街道ID。需要從空氣監(jiān)測(cè)站記錄數(shù)據(jù)中提取空間位置信息,用于訓(xùn)練模型。對(duì)監(jiān)測(cè)站點(diǎn)的緯度和經(jīng)度使用聚類算法,將437個(gè)站點(diǎn)分為兩個(gè)簇(簇1和簇2),然后將整合提取到的所有特征用于訓(xùn)練模型。
表2 空氣質(zhì)量記錄
表3 空氣監(jiān)測(cè)站點(diǎn)記錄
本文實(shí)驗(yàn)將監(jiān)測(cè)站點(diǎn)隨機(jī)分為兩組(標(biāo)記樣本集與未標(biāo)記樣本集),分別使用克里金插值、基于主動(dòng)學(xué)習(xí)的克里金插值和普通機(jī)器學(xué)習(xí)回歸樹方法對(duì)未標(biāo)記站點(diǎn)集進(jìn)行空間插值分析。為了驗(yàn)證模型精度,通過(guò)平均絕對(duì)百分誤差(MAPE)對(duì)插值結(jié)果進(jìn)行評(píng)估。MAPE值越小,代表模型的精度越高,其計(jì)算式如下:
本文采用了以下兩種方法計(jì)算MAPE。
● 方法一:直接采用測(cè)試數(shù)據(jù)計(jì)算MAPE。
● 方法二:將每個(gè)簇整個(gè)空間劃分為40×40的網(wǎng)格,對(duì)每個(gè)格子進(jìn)行插值,選取與測(cè)試點(diǎn)最近的格子,計(jì)算MAPE。
本實(shí)驗(yàn)選取一天24 h的數(shù)據(jù),使用傳統(tǒng)的克里金插值建模,并對(duì)數(shù)據(jù)進(jìn)行測(cè)試,測(cè)試結(jié)果如圖3、圖4所示。結(jié)果表明,方法一和方法二的預(yù)測(cè)誤差相差不大,因此兩種方法預(yù)測(cè)出的結(jié)果可以相互驗(yàn)證,接下來(lái)實(shí)驗(yàn)將選用方法一計(jì)算誤差。
圖3 簇1兩種計(jì)算誤差方法對(duì)比
圖4 簇2兩種計(jì)算誤差方法對(duì)比
本節(jié)首先對(duì)MSE1-MSE2和MSE兩種置信度計(jì)算方法進(jìn)行對(duì)比,之后選擇結(jié)果更優(yōu)的置信度計(jì)算方法指導(dǎo)采樣訓(xùn)練ALK模型,并與隨機(jī)采樣的Kriging模型進(jìn)行比較。本實(shí)驗(yàn)還將流形適應(yīng)實(shí)驗(yàn)設(shè)計(jì)(manifold adaptive experimental design,MAED)主動(dòng)學(xué)習(xí)算法[16]與克里金插值和傳統(tǒng)機(jī)器學(xué)習(xí)方法回歸樹結(jié)合,訓(xùn)練模型。
如圖5、圖6所示,分別使用兩種基于置信度的計(jì)算方法建立ALK模型,實(shí)驗(yàn)結(jié)果表明,用MSE方法訓(xùn)練的克里金模型的誤差更低,因此之后的研究中使用此方法訓(xùn)練克里金模型,并進(jìn)行比較。
首先,對(duì)于模型性能,本實(shí)驗(yàn)將數(shù)據(jù)集中25%的隨機(jī)子集作為測(cè)試集,模型在剩余75%的數(shù)據(jù)集中進(jìn)行訓(xùn)練,訓(xùn)練集分為兩部分,一部分是已知AQI的,一部分是未知、等待抽樣的。預(yù)測(cè)AQI的目標(biāo)是估計(jì)一個(gè)地區(qū)在時(shí)間窗內(nèi)的空氣質(zhì)量的變化,而這種變化不能被直接地觀測(cè)到。因此,在每個(gè)時(shí)間段中訓(xùn)練模型,得到空氣質(zhì)量指數(shù)的估計(jì)值,然后將估計(jì)值與測(cè)試數(shù)據(jù)進(jìn)行比較。
當(dāng)規(guī)定20個(gè)采樣點(diǎn)時(shí),結(jié)果表明ALK模型所選樣本對(duì)空間的覆蓋率更大,可以更好地對(duì)空間數(shù)據(jù)進(jìn)行插值。
均方根誤差(RMSE)是一種常用的測(cè)量模型預(yù)測(cè)值和實(shí)際觀察值的差值的方法。經(jīng)計(jì)算,使用克里金插值法與基于主動(dòng)學(xué)習(xí)的Kriging插值法的插值精度提升對(duì)比見表4。由表4可知,基于主動(dòng)學(xué)習(xí)的克里金插值相對(duì)于傳統(tǒng)的克里金插值性能有所提升。前者使用主動(dòng)學(xué)習(xí)算法主動(dòng)采樣預(yù)測(cè)結(jié)果最差的未標(biāo)記樣本的正確標(biāo)簽,由于該樣本對(duì)學(xué)習(xí)模型來(lái)說(shuō)是最有價(jià)值的,因此將這條數(shù)據(jù)加入訓(xùn)練集后可以使模型更好地學(xué)習(xí),從而提高精確度。
圖5 簇1基于置信度的兩種計(jì)算方法對(duì)比
圖6 簇2基于置信度的兩種計(jì)算方法對(duì)比
表4 插值精度提升百分比
以克里金插值為基礎(chǔ)數(shù)據(jù)推測(cè)算法,3種采樣算法對(duì)模型性能的改善如圖7、圖8所示,相對(duì)于隨機(jī)采樣算法(Random),MAED主動(dòng)采樣算法并沒(méi)有明顯提升模型性能且結(jié)果不穩(wěn)定,而筆者提出的以MSE為評(píng)估指標(biāo)的主動(dòng)采樣算法則可以穩(wěn)定地提升預(yù)測(cè)精度。由于MAED算法選取的監(jiān)測(cè)站點(diǎn)不一定有數(shù)據(jù),因此當(dāng)采樣數(shù)量少時(shí),MAED算法選擇的有數(shù)據(jù)的樣本數(shù)可能達(dá)不到訓(xùn)練模型要求的樣本數(shù),因此在圖7中最右側(cè)該結(jié)果為空。
圖7 簇1不同標(biāo)記樣本數(shù)量的預(yù)測(cè)結(jié)果
圖8 簇2不同標(biāo)記樣本數(shù)量的預(yù)測(cè)結(jié)果
當(dāng)標(biāo)記數(shù)據(jù)數(shù)量少,未標(biāo)記數(shù)量多時(shí),以MSE為評(píng)估指標(biāo)的主動(dòng)采樣算法的預(yù)測(cè)精度更優(yōu),如圖9、圖10所示,在相同誤差下,以MSE為評(píng)估指標(biāo)的主動(dòng)采樣算法需要的樣本點(diǎn)明顯少于隨機(jī)采樣算法。此外,還將本文提出的算法與普通機(jī)器學(xué)習(xí)回歸樹算法(RegressionTree)進(jìn)行了比較,結(jié)果表明,以MSE為評(píng)估指標(biāo)的主動(dòng)采樣算法使用最少且最有價(jià)值的數(shù)據(jù)達(dá)到了更好的預(yù)測(cè)結(jié)果,節(jié)約了人工標(biāo)記數(shù)據(jù)的經(jīng)濟(jì)成本與時(shí)間成本。
圖9 簇1相同誤差下所需的標(biāo)記樣本數(shù)
圖10 簇2相同誤差下所需的標(biāo)記樣本數(shù)
本文研究了如何利用已有的空氣質(zhì)量數(shù)據(jù)、監(jiān)測(cè)站點(diǎn)數(shù)據(jù)預(yù)測(cè)指定位置的空氣質(zhì)量指數(shù)。筆者提出了基于主動(dòng)學(xué)習(xí)的克里金插值模型,在只有少量標(biāo)記樣本時(shí),該模型可以有效地提高克里金插值法的預(yù)測(cè)精度。實(shí)際數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,筆者提出的模型比傳統(tǒng)方法更有效。本文未考慮氣象等因素對(duì)空氣質(zhì)量指數(shù)的影響,未來(lái)不僅要對(duì)插值方法進(jìn)行深入研究,還要考慮時(shí)間自相關(guān)性以及跨域數(shù)據(jù)等因素,以進(jìn)一步提高插值精度。