吳嘉欣,林凱榮,2,3,劉梅先,2,3,黃利燕
(1.中山大學(xué) 土木工程學(xué)院,廣東 珠海 519082; 2.廣東省海洋土木工程重點(diǎn)實(shí)驗(yàn)室,廣東 珠海 519082;3.廣東省華南地區(qū)水安全調(diào)控工程技術(shù)研究中心,廣東 珠海 519082)
近幾十年以來(lái),隨著全球氣候變化以及不斷加快的城鎮(zhèn)化進(jìn)程,城市洪澇災(zāi)害愈加頻繁,造成了巨大損失[1,2]。因此,研究城市洪澇災(zāi)害的成災(zāi)機(jī)理以及相關(guān)防災(zāi)減災(zāi)技術(shù),在當(dāng)前氣候與城鎮(zhèn)變化條件下顯得尤為重要。目前,評(píng)估洪澇災(zāi)害的方法主要包括物理模型、數(shù)值模型和經(jīng)驗(yàn)方法[3]。物理模型運(yùn)算復(fù)雜且需要大量觀測(cè)數(shù)據(jù)驗(yàn)證,在應(yīng)用中受到較大的限制[4],數(shù)值模型則可通過(guò)大量水文、地形等數(shù)據(jù)來(lái)模擬實(shí)際過(guò)程,因此很大程度上已取代物理模型[5],隨著GIS和遙感的發(fā)展,經(jīng)驗(yàn)?zāi)P烷_(kāi)始應(yīng)用于在洪澇災(zāi)害評(píng)價(jià)中[6]。定量的方法依賴(lài)于數(shù)據(jù),定性的方法受限于專(zhuān)家,半定量的多準(zhǔn)則決策方法(Multi-Cri‐teria Decision-Making,MCDM)由于結(jié)合兩者的優(yōu)點(diǎn)得到廣泛的應(yīng)用[3],MCDM主要分為層次分析法、網(wǎng)絡(luò)分析方法、模糊邏輯法、逼近理想值排序法等[7],它可以從致災(zāi)因子、孕災(zāi)環(huán)境以及城市本身的承載能力[8]的角度進(jìn)行綜合分析。如Zhong等[9]結(jié)合云信息擴(kuò)散模型與層次分析法,建立山洪災(zāi)害風(fēng)險(xiǎn)評(píng)估模型;Lin[10]等提出一種基于改進(jìn)層次分析法和最大似然聚類(lèi)的山洪綜合風(fēng)險(xiǎn)評(píng)估法,以廣東省為例驗(yàn)證了該方法的可靠性;黃國(guó)如等[1]從危險(xiǎn)性、易損性角度選取指標(biāo)建構(gòu)評(píng)估體系,對(duì)珠三角地區(qū)城鎮(zhèn)化前后城市洪澇風(fēng)險(xiǎn)進(jìn)行分析。
需要指出的是,經(jīng)驗(yàn)?zāi)P驮u(píng)估的準(zhǔn)確性取決于洪澇影響因子的選取。然而,在選取影響因子和構(gòu)建指標(biāo)體系時(shí),經(jīng)常依賴(lài)于專(zhuān)家知識(shí)和專(zhuān)業(yè)文獻(xiàn)。由于不同學(xué)者對(duì)災(zāi)害的認(rèn)知和定義不同[8],相關(guān)評(píng)估方法尚未形成統(tǒng)一的標(biāo)準(zhǔn),指標(biāo)評(píng)估體系的客觀性和一致性均受到限制。降雨作為洪澇災(zāi)害最直接的驅(qū)動(dòng)因素,洪災(zāi)的發(fā)生與一定時(shí)段內(nèi)降雨總量有關(guān),時(shí)段內(nèi)的降雨量對(duì)災(zāi)害評(píng)估起決定性作用,但目前尚未確定哪個(gè)指標(biāo)是評(píng)估洪澇災(zāi)害的最佳指標(biāo)?;诖?,本文以沿海城市——廣東省湛江市赤坎區(qū)為例,提出了一個(gè)基于k-means聚類(lèi)和Apriori算法的城市洪澇災(zāi)害成因分析框架,采用Apriori算法來(lái)分析洪澇災(zāi)害的成災(zāi)機(jī)制,選取降雨、高程、坡度、不透水率和距河距離等因素作為指標(biāo)[11,12],探索赤坎區(qū)洪澇災(zāi)害成災(zāi)機(jī)制。
以廣東省湛江市赤坎區(qū)為研究區(qū)域(圖1)。湛江市位于廣東省西南部,赤坎區(qū)是湛江市的中心城區(qū),區(qū)域面積6 205 hm2,地勢(shì)由西北向東南傾斜,最高海拔43 m,平均海拔19 m,西部、北部為崗丘起伏的臺(tái)地地區(qū),東南部為低平的海積平原和島嶼。區(qū)境內(nèi)有8條河溪,多年平均降雨量為1 596 mm。赤坎區(qū)作為湛江市中心城區(qū),城鎮(zhèn)建設(shè)用地多,占全區(qū)土地總面積的63.16%,加之其地處湛江灣西北岸,屬于臺(tái)風(fēng)、風(fēng)暴潮多發(fā)地,極易引發(fā)洪澇災(zāi)害。如2015年10月4日臺(tái)風(fēng)“彩虹”從湛江坡頭區(qū)登陸,赤坎區(qū)降雨量達(dá)300 mm,多處遭遇洪水侵襲,直接經(jīng)濟(jì)損失0.64億元。
圖1 研究區(qū)域Fig.1 Maps of the study area
不同持續(xù)時(shí)間降雨數(shù)據(jù)來(lái)源于廣東省水文站、雨量站共440站的長(zhǎng)序列雨量資料。DEM數(shù)據(jù)來(lái)源于中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心的遙感影像數(shù)據(jù),分辨率為30 m×30 m。土地利用數(shù)據(jù)來(lái)自地理檢測(cè)云平臺(tái)土地資源類(lèi)數(shù)據(jù)集(分辨率30 m)。歷史洪水資料來(lái)自廣東省洪災(zāi)調(diào)查數(shù)據(jù)。1、3、6、12和24 h多年平均最大降雨通過(guò)ArcGIS克里金插值得到,不透水率基于土地利用類(lèi)型重新賦值[13],距河距離的指標(biāo)使用歐幾里得公式計(jì)算。
采用k-means聚類(lèi)方法對(duì)各風(fēng)險(xiǎn)指標(biāo)進(jìn)行分組,其作用是將大數(shù)據(jù)劃分成有意義的幾組(簇),具有“組內(nèi)差異小,組外差異大”的特點(diǎn)。使用Apriori算法對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘之前,需將連續(xù)指標(biāo)進(jìn)行離散。k-means聚類(lèi)算法是根據(jù)觀測(cè)距離將x劃分為k個(gè)維度,具體步驟為:
(1)隨機(jī)抽取k個(gè)樣本作為初始質(zhì)心g=1,2,…,k)。
(2)將每個(gè)樣本點(diǎn)分配到離它們最近的質(zhì)心,生成k個(gè)簇。
(3)對(duì)于每個(gè)簇,計(jì)算所有被分到該簇的樣本點(diǎn)xi的平均值作為新的質(zhì)心,目的是樣本點(diǎn)到其所在簇的質(zhì)心距離最小。對(duì)于離散指標(biāo),如不透水率,則按原屬性分為4類(lèi)。對(duì)于連續(xù)指標(biāo),如降雨指標(biāo)、高程、坡度等,使用歐幾里得距離作為計(jì)算公式將其分成4類(lèi):
(4)重復(fù)以上步驟,當(dāng)質(zhì)心的位置不再發(fā)生變化時(shí),迭代停止,聚類(lèi)完成。
各風(fēng)險(xiǎn)指標(biāo)按以上流程進(jìn)行聚類(lèi),洪澇災(zāi)害等級(jí)圖根據(jù)赤坎區(qū)收集的洪澇災(zāi)害清單,通過(guò)不同淹沒(méi)深度對(duì)市民日常生活的影響[14],將其劃為4個(gè)等級(jí)(表1),其空間分布見(jiàn)圖2,各指標(biāo)分類(lèi)結(jié)果見(jiàn)表2,風(fēng)險(xiǎn)指標(biāo)空間分布見(jiàn)圖3。
表1 赤坎區(qū)城市洪澇等級(jí)劃分Tab.1 Classification of urban flood in Chikan district
表2 洪澇災(zāi)害等級(jí)與風(fēng)險(xiǎn)指標(biāo)分類(lèi)Tab.2 Classification of flood hazards and the risk indicators
圖2 赤坎區(qū)洪澇災(zāi)害分布圖Fig.2 Distribution of urban flood in Chikan district
圖3 各風(fēng)險(xiǎn)指標(biāo)空間分布Fig.3 Spatial distribution of the risk indictors
關(guān)聯(lián)規(guī)則已在商業(yè)、醫(yī)學(xué)和災(zāi)害管理等領(lǐng)域得到廣泛應(yīng)用,關(guān)聯(lián)規(guī)則挖掘是一種重要的數(shù)據(jù)挖掘方式[15],如基于多候選項(xiàng)集的Apriori算法,基于模式增長(zhǎng)的FP-growth算法和基于垂直格式的Eclat算法。關(guān)聯(lián)規(guī)則暗示兩個(gè)事件之間可能存在的很強(qiáng)關(guān)系,是一種非監(jiān)督學(xué)習(xí)算法。關(guān)聯(lián)規(guī)則表示為:“A→B”,假設(shè)I為數(shù)據(jù)庫(kù)中所有項(xiàng)的集合,D為數(shù)據(jù)庫(kù)中所有事務(wù)的集合,其中A∈I,B∈I,且A∩B=?,即事務(wù)集D是I的一個(gè)非空子集,并且A、B均包含于D中;其中,A是關(guān)聯(lián)規(guī)則的前件,B是關(guān)聯(lián)規(guī)則的后件,“A→B”稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則?!癆→B”是否構(gòu)成強(qiáng)關(guān)聯(lián)規(guī)則主要取決于支持度和置信度。
支持度是A和B在數(shù)據(jù)集I中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重P(A∪B),它可以表示為:
置信度是A發(fā)生的條件下,B發(fā)生的概率,是一種條件概率P(B|A),A對(duì)B的置信度為:
Apriori算法采用一種水平搜索的迭代方法來(lái)縮小搜索空間,通過(guò)設(shè)置一組最小支持度(minSup)和最小置信度(min‐Conf),從而生成頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則,主要分為兩個(gè)步驟:
(1)頻繁項(xiàng)集的產(chǎn)生。
這一步的目標(biāo)是發(fā)現(xiàn)滿(mǎn)足minSup的所有項(xiàng)集,稱(chēng)為頻繁項(xiàng)集。
(2)關(guān)聯(lián)規(guī)則的產(chǎn)生。
從第一步產(chǎn)生的頻繁項(xiàng)集中提取所有滿(mǎn)足minConf的規(guī)則,稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。
研究所提出的流程(圖4)主要分為3個(gè)過(guò)程:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和關(guān)聯(lián)規(guī)則挖掘,其中關(guān)鍵在于關(guān)聯(lián)規(guī)則挖掘。首先,整理降雨、高程和洪澇災(zāi)害等數(shù)據(jù),初步獲取各風(fēng)險(xiǎn)指標(biāo);將風(fēng)險(xiǎn)指標(biāo)進(jìn)行離散化處理并分組;設(shè)置一組合適的關(guān)聯(lián)規(guī)則閾值(minSup和minConf)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,先識(shí)別最佳降雨指標(biāo),再提取洪澇成因強(qiáng)關(guān)聯(lián)規(guī)則。由于部分災(zāi)害等級(jí)事件發(fā)生較少,原閾值無(wú)法獲取各等級(jí)災(zāi)害的強(qiáng)關(guān)聯(lián)規(guī)則,需要對(duì)小概率事件進(jìn)行抽樣,重新設(shè)置關(guān)聯(lián)規(guī)則閾值,對(duì)其進(jìn)行深層次的分析,獲得研究區(qū)域洪澇成災(zāi)機(jī)制。
圖4 基于Apriori算法和k-means聚類(lèi)的分析框架Fig.4 Framework based on Apriori algorithm and k-means clustering
根據(jù)表1各指標(biāo)構(gòu)建數(shù)據(jù)庫(kù)(database 1),初設(shè)關(guān)聯(lián)規(guī)則閾值進(jìn)行規(guī)則提取,多次試驗(yàn)并調(diào)整閾值[16,17],直至提取到滿(mǎn)意的結(jié)果,剔除明顯不存在因果關(guān)系的關(guān)聯(lián)規(guī)則。當(dāng)minSup=0.19,minConf=0.42時(shí),可挖掘到較為滿(mǎn)意的結(jié)果,如表3所示。
表3 多降雨指標(biāo)的關(guān)聯(lián)規(guī)則 %Tab.3 Association rules for multiple rainfall indices
其中,規(guī)則1支持度為33.29%,置信度為55.35%,表明包含PD-2(多年平均最大24 h降雨為167.50~167.87 mm)和H2(中度內(nèi)澇)的洪澇事件占33.29%,在PD-2的前提下,發(fā)生H2的概率為55.35%;對(duì)于規(guī)則2~11,關(guān)于H2的強(qiáng)關(guān)聯(lián)規(guī)則中,在支持度相近的情況下,包含PD的關(guān)聯(lián)規(guī)則置信度大于55.35%,均高于不含PD的規(guī)則,H2的出現(xiàn)通常伴隨著PD,這表明H2的發(fā)生與PD有著緊密的聯(lián)系。關(guān)于H3(重度內(nèi)澇)的關(guān)聯(lián)規(guī)則12~14前件也均包含PD項(xiàng)集,表明大多數(shù)洪澇災(zāi)害與PD有較高的關(guān)聯(lián)性。
由于中度內(nèi)澇和重度內(nèi)澇的發(fā)生率較高,初次挖掘只提取到關(guān)于H2或H3的關(guān)聯(lián)規(guī)則,對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,提取H1(輕度內(nèi)澇)、H4(極重度內(nèi)澇)事件,構(gòu)建新的數(shù)據(jù)庫(kù)(database 2),minSup=0.37,minConf=0.80,生成16條強(qiáng)關(guān)聯(lián)規(guī)則,見(jiàn)表4。
表4 深層挖掘多降雨指標(biāo)的關(guān)聯(lián)規(guī)則 %Tab.4 Association rules based on multiple rainfall indices after sampling
由表4可見(jiàn),這些規(guī)則的前件均包含PD,且置信度均達(dá)98%;規(guī)則9~16意味著H4的出現(xiàn),必然伴隨著PD的發(fā)生。然而值得注意的是,規(guī)則前件的降雨指標(biāo)中,災(zāi)害更嚴(yán)重的“H4”相比“H1”,降雨量級(jí)反而更小,降雨對(duì)于災(zāi)害的發(fā)生固然重要,但推動(dòng)H4的發(fā)生可能還存在其他關(guān)鍵因素。這一結(jié)論與前人的研究成果相符[18],洪澇與一定時(shí)間內(nèi)降雨總量有關(guān),幾小時(shí)的短歷時(shí)強(qiáng)降雨,由于總量較小,一般難以形成大洪水;此外,降雨閾值對(duì)于洪水產(chǎn)生至關(guān)重要[19],不同區(qū)域成災(zāi)的降雨歷時(shí)不同。結(jié)合表3分析,與其他降雨指標(biāo)相比,PD是分析赤坎區(qū)洪澇災(zāi)害成災(zāi)機(jī)制最適合的降雨指標(biāo)。
不同研究區(qū)域的地形地貌、水文氣象和社會(huì)經(jīng)濟(jì)條件不同,造成洪澇災(zāi)害發(fā)生的機(jī)制也不同,單風(fēng)險(xiǎn)因素對(duì)一個(gè)地區(qū)的洪澇發(fā)生影響可能較小,與其他因素耦合則可能產(chǎn)生重要影響。將上一節(jié)最適降雨指標(biāo)PD與環(huán)境因素、歷史洪澇災(zāi)害數(shù)據(jù)結(jié)合構(gòu)成新的數(shù)據(jù)庫(kù)(database 3),按照同樣的方法調(diào)試出關(guān)聯(lián)規(guī)則閾值,minSup=0.10,minConf=0.50,如表5所示生成風(fēng)險(xiǎn)指標(biāo)的頻繁項(xiàng)集。
表5 風(fēng)險(xiǎn)指標(biāo)的頻繁項(xiàng)集 %Tab.5 Frequent item sets for risk indicators
如表5所示,赤坎區(qū)洪澇災(zāi)害的等級(jí)主要為中度和重度,結(jié)合圖3可知,赤坎地勢(shì)較為平緩,整體起伏不大,城鎮(zhèn)居民用地居多,徑流系數(shù)大導(dǎo)致坡面匯流增加,坡度大小又影響匯流時(shí)間,坡度緩容易積水,在臺(tái)風(fēng)、風(fēng)暴潮等極端事件的驅(qū)使下,洪澇災(zāi)害發(fā)生的機(jī)率將大幅提高。以IR(不透水率)為例,(IR-4,H2)和(IR-4,H3)均為頻繁項(xiàng)集,支持度分別為32.60%和24.13%,表明洪澇災(zāi)害常發(fā)生在不透水率高的地方。
當(dāng)minSup=0.10,minConf=0.50,database 3挖掘到關(guān)于H2的17條關(guān)聯(lián)規(guī)則;為獲取其他等級(jí)災(zāi)害的關(guān)聯(lián)規(guī)則,對(duì)其抽樣構(gòu)成數(shù)據(jù)庫(kù)database 4,新閾值當(dāng)minSup=0.12,minConf=0.55,提取到關(guān)于H3的30條強(qiáng)關(guān)聯(lián)規(guī)則,多指標(biāo)的關(guān)聯(lián)規(guī)則風(fēng)險(xiǎn)分布見(jiàn)圖5。圖5(a)規(guī)則前件大部分包含PD-2,其中{PD-2}→{H2}支持度最高,sup=33.29%,conf=55.35%,表明PD-2作為前因與H2一同出現(xiàn)的可能性是最高的,再次證明PD是洪澇事件發(fā)生的最直接驅(qū)動(dòng)要素;{PD-2,DR-1}→{H2}置信度最高,conf=76.34%,說(shuō)明環(huán)境因素中,DR-1致中度內(nèi)澇災(zāi)害的作用最大。如圖6所示,設(shè)minSup=0.10,minConf=0.37,獲取的14條關(guān)于H2關(guān)聯(lián)規(guī)則,支持度相差不大的情況下,前件包含PD-2的規(guī)則置信度均有不同程度的提升,提升幅度為7.65%~25.74%,其中DR-1的提升幅度最大,印證PD是中度洪澇事件發(fā)生的最直接驅(qū)動(dòng)要素,環(huán)境因素中DR-1的致災(zāi)效果最顯著。
圖5 多指標(biāo)關(guān)聯(lián)規(guī)則分布Fig.5 Distribution of multi-factor association rules
圖6 降雨對(duì)單指標(biāo)關(guān)聯(lián)規(guī)則的影響Fig.6 Effects of rainfall on association rules for single factors
圖5(b)相較于(a),PD-2作為H2的最直接驅(qū)動(dòng)要素,在關(guān)于H3的規(guī)則中,其地位有所下降,PD-1和PD-2作為規(guī)則前件,出現(xiàn)的頻數(shù)分別為6次和8次,意味著重度內(nèi)澇發(fā)生機(jī)制更為復(fù)雜;規(guī)則{PD-2,DE-1}→{H3}和{PD-2,SD-1}→{H3}置信度較高,分別為86.8%和80.71%,重度內(nèi)澇發(fā)生機(jī)制中,DE-1(高程-7~8 m)和SD-1(坡度≤1.72°)更為敏感;由圖5(b)可知,前件無(wú)PD的規(guī)則{SD-1}→{H3}和{SD-2}→{H3}支持度相近,隨著坡度的平緩,置信度提高12%,且前件包含SD-1的規(guī)則置信度均超過(guò)70%。
總的來(lái)說(shuō),赤坎區(qū)城鎮(zhèn)居民地區(qū)多,離河距離≤284.61 m是中度內(nèi)澇高發(fā)地,坡度≤1.72°或高程-7~8 m的區(qū)域是重度災(zāi)害的易發(fā)地。究其原因,PD是造成當(dāng)?shù)睾樗闹苯釉?,?duì)于沿海區(qū)域,持續(xù)時(shí)間長(zhǎng)的強(qiáng)降雨和風(fēng)暴潮的都是誘發(fā)洪水的重要因素[20],離河較近的地方自然更易受到兩者耦合作用,直接導(dǎo)致沿海洪水。加上赤坎區(qū)內(nèi)部地勢(shì)低洼平緩,容易積水,外部潮位影響排水系統(tǒng)[21],海水倒灌,在多因素耦合情況下,易引發(fā)嚴(yán)重的洪澇災(zāi)害。
以沿海地區(qū)——廣東省湛江市赤坎區(qū)為例,構(gòu)建了基于kmeans聚類(lèi)和Apriori算法的城市洪澇災(zāi)害成因分析框架,提取強(qiáng)關(guān)聯(lián)規(guī)則,探索風(fēng)險(xiǎn)因素與洪澇災(zāi)害的因果關(guān)系。主要結(jié)論如下:
(1)多年平均最大24 降雨(PD)是分析赤坎區(qū)洪澇災(zāi)害成因最合適的降雨指標(biāo)。降雨作為洪澇災(zāi)害最直接的驅(qū)動(dòng)因素,關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn),與其他降雨強(qiáng)度指標(biāo)相比,各等級(jí)災(zāi)害均與PD指標(biāo)有緊密聯(lián)系。
(2)災(zāi)害多發(fā)生于不透水率高的居民區(qū),沿海區(qū)域由于風(fēng)暴潮原因,更易發(fā)生沿海洪水,潮位影響海水倒灌,地勢(shì)平緩低洼地區(qū)容易引發(fā)更嚴(yán)重的洪澇災(zāi)害。
(3)PD-2作為中度洪澇事件發(fā)生的最直接驅(qū)動(dòng)要素,在重度內(nèi)澇成災(zāi)機(jī)制中其地位有所下降,環(huán)境因素的重要性可能提升。由于受到資料的限制,數(shù)據(jù)庫(kù)未考慮排水管網(wǎng)密度、潮汐等重要因子,后續(xù)的研究可以此進(jìn)行深入分析,Apriori算法挖掘出的結(jié)論可為城市洪澇成因分析提供參考。