劉宇通,王汶
(中國人民大學(xué) 環(huán)境學(xué)院,北京 100872)
花粉過敏又叫枯草熱,表現(xiàn)為流鼻涕、打噴嚏、鼻眼癢以及咳嗽等癥狀,一旦疾病發(fā)作,將年年反復(fù),嚴(yán)重影響人們生活質(zhì)量和日常工作[1]?;ǚ圻^敏如果不采取及時治療,很容易惡化為氣管炎、鼻咽炎、肺炎等呼吸系統(tǒng)疾病[2]。據(jù)美國衛(wèi)生研究院變態(tài)反應(yīng)研究報告,中國的花粉過敏癥發(fā)病率為0.5%~1%,而高發(fā)病區(qū)達到5%,花粉過敏在我國逐漸引起人們的重視,完善的花粉過敏監(jiān)測體系對幫助花粉過敏患者做好預(yù)防、避免接觸花粉過敏原有重要的作用。美國和一些歐洲國家對花粉監(jiān)測已經(jīng)形成較為完善的體系[3],但在我國,僅北京、天津、南京等少數(shù)省市氣象部門進行花粉觀測預(yù)報業(yè)務(wù),其余省市缺少花粉濃度數(shù)據(jù)?;ǚ圻^敏人群就醫(yī)數(shù)據(jù)存儲在公共衛(wèi)生或醫(yī)療部門,然而這些部門各自的數(shù)據(jù)大多不互通[4-5],且個人病例具有隱私性,所以針對我國花粉過敏的監(jiān)測與研究受到諸多限制。
目前,針對花粉過敏空間分布特征及影響因素的研究主要依賴于監(jiān)測和調(diào)查數(shù)據(jù)。趙筱揚等[6]實測了昆明市區(qū)大氣花粉種類及含量并進行分析,發(fā)現(xiàn)花粉過敏具有明顯的地區(qū)性和季節(jié)性;吳慧等[7]利用花粉觀測點的花粉濃度數(shù)據(jù)分析了近57年海南省花粉過敏天數(shù)的時空分布特征及與氣象條件的關(guān)系;歐陽志云等[8]對北京五環(huán)以內(nèi)的花粉致敏植物進行了調(diào)查,給出了其分布格局?;诒O(jiān)測和調(diào)查數(shù)據(jù)的花粉過敏研究高度受限于數(shù)據(jù)的可獲得性。此外,實測花粉對設(shè)備技術(shù)和人力物力投入的高要求使其無法應(yīng)用于大范圍花粉監(jiān)測,而且實測花粉數(shù)據(jù)局限在某一地點,無法反映整個區(qū)域內(nèi)的花粉分布情況。Samuel等[9]指出,美國國家過敏局只有48個臺站統(tǒng)計美國各地的花粉,鑒于臺站數(shù)量和各州數(shù)據(jù)傳播的限制,花粉過敏監(jiān)測會受到時空角度的影響。
遙感數(shù)據(jù)具有覆蓋范圍廣、獲取處理方便等特點,可以進行地表的大范圍觀測。研究人員探索利用遙感數(shù)據(jù)對過敏花粉進行觀測,提供了空間上大范圍研究花粉過敏的可行性。Stein等[10]利用MODIS-NDVI監(jiān)測挪威樺樹的開花周期,與分布在挪威各地的十個Burkard采樣器采集的白樺花粉濃度進行對比,經(jīng)過分析發(fā)現(xiàn)MODIS-NDVI監(jiān)測的樺樹開花時間和年累積樺樹花粉總和顯示出5%或更高的顯著值,從而說明遙感可有效監(jiān)測挪威全國的樺樹釋放花粉周期,還可以揭示僅靠Burkard采樣器不易發(fā)現(xiàn)的區(qū)域花粉濃度差異。Murat等[11]在獲得MODIS遙感影像的增強型植被指數(shù)(enhanced vegetation index,EVI)基礎(chǔ)上加工得到了EVI2指數(shù),使用神經(jīng)網(wǎng)絡(luò)建立EVI2和美國東海岸城市實測花粉數(shù)量的模型,并應(yīng)用IQVIA公司發(fā)布的花粉過敏指數(shù)作為驗證,整個東海岸結(jié)果的R2范圍為0.530~0.966,說明遙感是預(yù)測花粉變化的可靠手段。而目前國內(nèi)對于花粉過敏的研究較少用到遙感手段。
此外,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及網(wǎng)絡(luò)大數(shù)據(jù)的披露,我們可以采用間接的渠道彌補我國花粉數(shù)據(jù)不足的情況。當(dāng)授粉季節(jié)來臨時,各地區(qū)花粉過敏者患病率會升高,依據(jù)常理“花粉過敏”的相關(guān)搜索規(guī)模會在網(wǎng)絡(luò)上擴大,研究者可以通過搜索引擎數(shù)據(jù)迅速獲得搜索“花粉過敏”等相關(guān)信息人群的時空分布,從而為大范圍監(jiān)測花粉過敏提供全新的手段。
本研究以致敏花粉植被種類豐富多樣且花粉濃度數(shù)據(jù)較完整的北京市為例,首先,探究了“花粉過敏”搜索強度與花粉濃度之間的關(guān)系,為輿情大數(shù)據(jù)用于大范圍花粉過敏監(jiān)測提供依據(jù);然后,利用遙感可以大范圍監(jiān)測產(chǎn)生致敏花粉的植被信息的特點,通過遙感產(chǎn)品獲得用來定性和定量評價植被覆蓋及其生長狀況的植被指數(shù),以及影響花粉濃度和花粉傳播的溫度和降水等數(shù)據(jù),運用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)建立花粉過敏輿情數(shù)據(jù)與植被指數(shù)、溫度、降水之間的非線性花粉過敏監(jiān)測模型。從而基于輿情和遙感數(shù)據(jù)實現(xiàn)大范圍花粉過敏的監(jiān)測,為花粉過敏人群做好花粉預(yù)防工作提供科學(xué)依據(jù),有利于降低我國花粉過敏患者的發(fā)病率。
在分析了影響花粉濃度和人群花粉過敏情況的主要因素基礎(chǔ)上,本研究獲取了花粉濃度、花粉過敏百度指數(shù)、增強型植被指數(shù)EVI、日均溫度和日均降水?dāng)?shù)據(jù)。數(shù)據(jù)種類及來源如表1所示。
花粉過敏輿情數(shù)據(jù)來源于關(guān)鍵詞“花粉過敏”、地區(qū)“北京”、時間范圍“2017—2019年”、時間分辨率為每天的百度指數(shù)。在中國,對于生活日常信息的搜索,人們使用最廣泛的搜索引擎是百度,百度公司以海量網(wǎng)民行為大數(shù)據(jù)為基礎(chǔ)開發(fā)了百度指數(shù)數(shù)據(jù)分析平臺,該平臺可以統(tǒng)計某個關(guān)鍵詞在計算機端和移動端的百度搜索頻次的加權(quán)和,本研究獲取“花粉過敏”的搜索規(guī)模。
本文采用氣象局實測的花粉濃度數(shù)據(jù)驗證花粉過敏百度指數(shù)與其之間的相關(guān)性。北京市是全國為數(shù)不多花粉濃度數(shù)據(jù)較完整的城市,北京市氣象局聯(lián)合北京同仁醫(yī)院會在北京花粉期(4—9月)測定每日花粉實況及花粉濃度預(yù)報。本研究獲取了北京市2017—2019年共三年的花粉期每天實測花粉濃度數(shù)據(jù)。
作為花粉來源,植被是影響花粉過敏的重要因素,授粉的數(shù)量和時間取決于致敏花粉植被的生長和開花。致敏花粉植被類型多樣,其生長和分布情況通常通過實地調(diào)查獲取。在致敏植被數(shù)據(jù)缺失的情況下,遙感植被指數(shù)可以用于反映植被總體的生長態(tài)勢和季相特征。本研究通過遙感產(chǎn)品獲取的增強型植被指數(shù)EVI監(jiān)測植被情況。與其他植被指數(shù)相比,EVI受飽和度的影響較小,因此對于監(jiān)測植被結(jié)構(gòu)的季節(jié)性、年際和長期變化更為有效。本文依托MODIS陸地3級標(biāo)準(zhǔn)數(shù)據(jù)產(chǎn)品MOD13Q1獲取EVI遙感影像,空間分辨率250 m,根據(jù)MODIS植被指數(shù)算法,只有高質(zhì)量的、無云的濾波數(shù)據(jù)被用來進行合成,因此時間分辨率為16天,范圍尺度選擇覆蓋全北京的h26v04、h26v05行列號,時間尺度選擇2017—2019年。
溫度和降水也是影響致敏花粉傳播的重要因素[12]。Peternel等[13]的研究表明,溫度下降時,空氣中致敏花粉的濃度會暫時減少,解釋了氣溫升高導(dǎo)致晚春花粉量增加的原因。Gottardini等[14]研究報道,大量或長期降水可顯著降低空氣中致敏花粉濃度,因為帶著雨滴的花粉會在重力作用下落到地上。美國國家海洋和大氣管理局根據(jù)NOAA/AVHR遙感數(shù)據(jù)計算和發(fā)布全球的溫度及降水?dāng)?shù)據(jù),本研究選取北京市2017—2019年逐日的日均溫度和日均降水?dāng)?shù)據(jù)。
表1 數(shù)據(jù)種類及來源
本文首先剔除花粉濃度、花粉過敏百度指數(shù)、日均溫度、日均降水的缺失值;然后對MOD13Q1遙感影像進行預(yù)處理,并計算EVI平均值;接下來,選取2017—2019年4—9月逐日的花粉濃度和花粉過敏百度指數(shù),采用相關(guān)分析法研究二者之間的相關(guān)關(guān)系,通過相關(guān)性檢驗的花粉過敏百度指數(shù)用于下一步研究;建立花粉過敏預(yù)測的人工神經(jīng)網(wǎng)絡(luò)模型,因為日均溫度和日均降水是逐日數(shù)據(jù),而EVI是16天合成數(shù)據(jù),在本研究中認(rèn)為16天內(nèi)逐日的 EVI相同;最后利用EVI、日均溫度、日均降水對花粉過敏百度指數(shù)進行預(yù)測,并對模型進行評估。研究方案如圖1所示。
圖1 研究方案
1)MOD13Q1遙感影像處理。由于 MODIS 對地球觀測的視野幾何特性、地球表面的曲率、地形起伏和探測器運動中的抖動等因素的共同影響,MOD13Q1遙感影像會產(chǎn)生幾何畸變[15],所以首先對MOD13Q1影像進行幾何校正。本研究的研究區(qū)域為北京市,MODIS覆蓋全北京的行列號為h26v04、h26v05兩幅影像,所以要先對h26v04、h26v05兩幅影像進行圖像鑲嵌,再用北京市的矢量圖進行裁剪,裁剪后的北京市EVI遙感影像如圖2所示。將北京市的EVI求取均值,用于接下來的研究。
注:該圖基于自然資源部標(biāo)準(zhǔn)地圖服務(wù)下載的審圖號為GS(2019)3333號的標(biāo)準(zhǔn)地圖制作,底圖無修改。圖2 北京市EVI遙感影像
2)花粉濃度與花粉過敏百度指數(shù)相關(guān)性檢驗。相關(guān)分析法可以判斷兩個變量間有沒有關(guān)系、有什么樣的關(guān)系及關(guān)系的大致強度等。地區(qū)花粉濃度的升高會使當(dāng)?shù)鼗ǚ圻^敏者發(fā)病率隨之升高,花粉過敏的輿情搜索規(guī)模會隨之?dāng)U大。本研究將北京市的花粉濃度與北京市花粉過敏百度指數(shù)進行相關(guān)性檢驗,并按式(1)計算相關(guān)系數(shù)r,從而驗證花粉過敏百度指數(shù)能否顯著代表北京地區(qū)的花粉濃度,進而將其應(yīng)用于下一步研究。
(1)
3)人工神經(jīng)網(wǎng)絡(luò)建模。隨著人工智能的發(fā)展,采用機器學(xué)習(xí)的方法對花粉過敏監(jiān)測進行建模具有可行性。Liu等[17]就曾使用機器學(xué)習(xí)的方法估算了俄克拉荷馬州塔爾薩大氣中豚草花粉的濃度。人工神經(jīng)網(wǎng)絡(luò)是一種常用的非線性數(shù)據(jù)建模工具,人工神經(jīng)網(wǎng)絡(luò)可以通過機器學(xué)習(xí)對輸入和輸出變量間復(fù)雜的關(guān)系進行建模,而且無需輸入和輸出變量間關(guān)系的先驗知識。因此,本文以EVI、日均溫度、日均降水作為人工神經(jīng)網(wǎng)絡(luò)的輸入,通過相關(guān)性檢驗的花粉過敏百度指數(shù)作為人工神經(jīng)網(wǎng)絡(luò)的輸出,建立花粉過敏監(jiān)測模型。
首先按式(2)對建模數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。
(2)
式中:i為樣本編號;zi為標(biāo)準(zhǔn)化值;xi為輸入變量,即EVI、日均溫度、日均降水;x為輸入變量的均值;s為輸入變量的標(biāo)準(zhǔn)差。因為EVI、日均溫度、日均降水的量綱和數(shù)值量級不一樣,如果直接使用原始數(shù)據(jù)值,它們對花粉過敏百度指數(shù)的影響程度不一樣,建立的模型不具有可靠性。通過標(biāo)準(zhǔn)化處理,ANN在學(xué)習(xí)參數(shù)的時候,EVI、日均溫度、日均降水對參數(shù)的影響程度一樣。
人工神經(jīng)網(wǎng)絡(luò)的處理過程主要通過激活函數(shù)實現(xiàn),本研究采用的激活函數(shù)為tanh函數(shù),即f(x)=tanh(x)。雖然sigmoid函數(shù)是最常使用的激活函數(shù),但考慮到2017—2019年三年的花粉期花粉過敏百度指數(shù)數(shù)據(jù)量有限,sigmoid函數(shù)存在梯度下降導(dǎo)致人工神經(jīng)網(wǎng)絡(luò)過擬合的情況,因此本研究選用梯度更大的tanh函數(shù),函數(shù)如式(3)所示。
(3)
式中:x同式(2);e為自然常數(shù),約等于2.718。人工神經(jīng)網(wǎng)絡(luò)的損失函數(shù)用來估計模型的損失,以便在下次評估時更新權(quán)重以減少損失,本研究中選擇回歸建模默認(rèn)優(yōu)選的均方誤差(mean squared error,MSE)函數(shù),如式(4)所示。
(4)
4)花粉過敏監(jiān)測模型的評估。通過人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練建立花粉過敏監(jiān)測模型后,總數(shù)據(jù)量25%的測試數(shù)據(jù)用來評估模型的可靠性。將模型的預(yù)測值與真實的測試數(shù)據(jù)進行回歸,觀察預(yù)測值與真實值的吻合情況,并使用決定系數(shù)R2(式(5))和均方誤差MSE作為度量標(biāo)準(zhǔn),描述花粉過敏監(jiān)測模型預(yù)測結(jié)果是否準(zhǔn)確。
(5)
圖3 人工神經(jīng)網(wǎng)絡(luò)建模及評估步驟
經(jīng)過相關(guān)分析,北京市2017—2019年三年的花粉過敏百度指數(shù)與實測花粉濃度散點圖和擬合直線如圖4所示。由圖4可知,花粉濃度增加,花粉過敏百度指數(shù)隨之增加,兩個變量的觀測點分布在一條直線周圍,有較明顯的線性正相關(guān)關(guān)系。根據(jù)式(1)計算得到的相關(guān)系數(shù)如表2所示。表2中,每一年的相關(guān)系數(shù)均超過60%,說明花粉過敏百度指數(shù)與花粉濃度的線性關(guān)系顯著。由此證明了當(dāng)空氣中花粉濃度升高時,花粉過敏的輿情搜索規(guī)模會在網(wǎng)絡(luò)上擴大的推斷,從而可以用花粉過敏百度指數(shù)數(shù)據(jù)代表各地區(qū)的花粉濃度,并作為人工神經(jīng)網(wǎng)絡(luò)建模的輸出量。
圖4 花粉濃度與花粉過敏百度指數(shù)的相關(guān)關(guān)系
表2 花粉濃度與花粉過敏百度指數(shù)的相關(guān)系數(shù)
使用人工神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)建模,因為輸入量較少,只有EVI、日均溫度、日均降水三個變量,所以建立一層中間隱藏層可達到較好的效果。tanh函數(shù)建立的花粉過敏監(jiān)測模型如圖5所示。圖5顯示,人工神經(jīng)網(wǎng)絡(luò)隱含層包含兩個神經(jīng)元,訓(xùn)練過程執(zhí)行了13 528步,結(jié)束條件為誤差函數(shù)的絕對偏導(dǎo)數(shù)小于0.01。
圖5 花粉過敏監(jiān)測模型
圖5中黑線表示每一層神經(jīng)元與其相關(guān)權(quán)重直接的關(guān)系,藍色線表示擬合過程中,每一步被添加到藍色線上的誤差項,這些誤差項可以表示一個誤差區(qū)間。從花粉過敏監(jiān)測模型可知,隱藏層的截距為-1.14、-1.03,第1個隱藏神經(jīng)元的權(quán)重預(yù)測分別為-0.09(EVI)、-0.3(日均溫度)、1.42(日均降水),第2個隱藏神經(jīng)元的權(quán)重預(yù)測分別為-0.16(EVI)、-0.39(日均溫度)、1.28(日均降水)。隱藏層對花粉過敏百度指數(shù)的權(quán)重預(yù)測分別為-7.3和7.38。因此,只要模型輸入每天相應(yīng)的EVI、日均溫度、日均降水,即可輸出預(yù)測的花粉過敏百度指數(shù),從而監(jiān)測花粉過敏的嚴(yán)重程度,接下來需要評估花粉過敏監(jiān)測模型的可靠性。
本研究應(yīng)用預(yù)留的總數(shù)據(jù)量25%的訓(xùn)練數(shù)據(jù)對花粉過敏監(jiān)測模型進行評估。將測試數(shù)據(jù)中的EVI、日均溫度、日均降水作為花粉過敏監(jiān)測模型的輸入,模型自主輸出結(jié)果與測試數(shù)據(jù)中真實花粉過敏百度指數(shù)進行回歸比較。同時建立EVI、日均溫度、日均降水和花粉過敏百度指數(shù)的多元線性回歸模型,也將多元線性回歸模型的預(yù)測輸出值與真實花粉過敏百度指數(shù)進行回歸比較。兩種模型的比較結(jié)果如圖6所示。從圖6可以看出,由人工神經(jīng)網(wǎng)絡(luò)模型所預(yù)測的花粉過敏百度指數(shù)比多元線性回歸模型所擬合出來的結(jié)果更加靠近擬合曲線,人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測值的準(zhǔn)確率更高。由式(4)可知,花粉過敏監(jiān)測模型的MSE為8.41,而花粉過敏百度指數(shù)關(guān)于EVI、日均溫度、日均降水的線性回歸模型的MSE為17.61;由式(5)可知,花粉過敏監(jiān)測模型的R2為72.82%,高于線性回歸模型的R2為50.55%,可見人工神經(jīng)網(wǎng)絡(luò)的擬合度比線性模型更優(yōu),且MSE比線性回歸模型的MSE低很多,因此人工神經(jīng)網(wǎng)絡(luò)模型更為可靠。評估結(jié)果表明應(yīng)用人工神經(jīng)網(wǎng)絡(luò)花粉過敏監(jiān)測模型,EVI、日均溫度、日均降水能較準(zhǔn)確地預(yù)測北京市花粉過敏百度指數(shù)。因為百度指數(shù)覆蓋全國,從而有望應(yīng)用此模型進行大范圍的花粉過敏監(jiān)測,服務(wù)于花粉過敏患病人群做好花粉過敏預(yù)防工作。
圖6 神經(jīng)網(wǎng)絡(luò)和線性模型預(yù)測結(jié)果
本文創(chuàng)新性地基于百度指數(shù)輿情大數(shù)據(jù)反演花粉濃度。本文驗證了花粉過敏百度指數(shù)和真實花粉濃度間的相關(guān)系數(shù)值達到統(tǒng)計學(xué)顯著標(biāo)準(zhǔn),因此,使用百度指數(shù)反演花粉濃度具有較高的可信度。百度指數(shù)大尺度可以覆蓋全國,小尺度可以精確到各市,并且在時間上具有連續(xù)性,從而有望利用百度指數(shù)輿情大數(shù)據(jù)代表各段時間全國各地致敏花粉的嚴(yán)重程度,為從時空角度研究花粉過敏人群情況提供了全新的手段。
從花粉過敏監(jiān)測模型的結(jié)果看,對于同一地區(qū),日平均溫度高、降水量多時,花粉過敏百度指數(shù)較低。表明高溫和降水影響了植被的傳粉過程,導(dǎo)致人群花粉過敏的情況有所減輕。因此,對于溫度較低、干燥等天氣,花粉過敏患者應(yīng)該減少出門頻率,并提前做好預(yù)防措施。
本文基于輿情和遙感數(shù)據(jù)建立的花粉過敏監(jiān)測模型,能夠反映花粉過敏情況與植被指數(shù)、溫度、降水之間的非線性關(guān)系。通過該模型對花粉過敏進行監(jiān)測,不僅可以幫助花粉相關(guān)工作人員分析花粉過敏預(yù)防機制,為相關(guān)決策提供支持,更可以幫助花粉過敏患者做好預(yù)防、避免接觸花粉過敏原,進而降低全國各地區(qū)花粉過敏患者的病發(fā)率,帶來社會效益,還可以減少在花粉過敏上的經(jīng)費損耗,具有一定的經(jīng)濟價值。
然而花粉過敏監(jiān)測模型也存在有待完善之處。本文以北京市數(shù)據(jù)為例建立了花粉過敏情況與植被指數(shù)、溫度、降水之間的監(jiān)測模型,但北京為暖溫帶半濕潤半干旱季風(fēng)氣候,在北京的花粉期有很多天沒有降水,因此可能導(dǎo)致得出模型的局限性。因此若做進一步研究完善,可以選擇南方多雨地區(qū)作為對照補充。此外,雖然溫度和降水是影響空氣中花粉濃度的最主要的氣象因素,但花粉濃度還可能受到相對濕度、風(fēng)速等氣象因素的影響,不過增加模型的變量輸入,可能會增加人工神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù),使花粉過敏監(jiān)測模型的網(wǎng)絡(luò)更為復(fù)雜,增加影響因素是否會得到更有效的模型有待進一步的研究。
本文以致敏花粉為研究對象,針對解決我國花粉過敏情況愈加嚴(yán)重問題的需求,基于百度指數(shù)和遙感數(shù)據(jù)進行研究,采用人工神經(jīng)網(wǎng)絡(luò)建立花粉過敏監(jiān)測模型,服務(wù)于花粉過敏患病人群做好花粉過敏預(yù)防工作。研究表明,人工神經(jīng)網(wǎng)絡(luò)建立的花粉過敏監(jiān)測模型精度達72.82%,可以較好地解釋花粉過敏與植被指數(shù)、溫度、降水之間的非線性關(guān)系。遙感數(shù)據(jù)能夠用于預(yù)測花粉濃度和花粉過敏情況,由于遙感數(shù)據(jù)可以獲取全球各地的植被信息,即獲取致敏花粉最重要的影響因素,因此遙感數(shù)據(jù)的運用有助于實現(xiàn)空間上大范圍花粉過敏監(jiān)測,為花粉過敏監(jiān)測和空間分析提供了理論基礎(chǔ)。不足之處是北京市降水量的稀少可能導(dǎo)致花粉過敏監(jiān)測模型的局限性,選擇南方多雨地區(qū)繼續(xù)研究并增加其他影響花粉濃度的氣候因素,優(yōu)化花粉過敏監(jiān)測模型,將是下一步要進行的工作。