舒 展 陳建偉 王樹春
(1.浙江墨煌信息科技有限公司,浙江 嘉興 314000;2.杭州今奧信息科技股份有限公司,浙江 杭州 310000;3.鄞州浙江清華長三角研究院寧波創(chuàng)新中心,浙江 寧波 315000)
我國是世界上自然災(zāi)害受損最嚴(yán)重的國家之一,其中我國地質(zhì)構(gòu)造復(fù)雜,工程活動(dòng)頻繁,尤其是沿海地區(qū),巖石風(fēng)化、降水量大、臺(tái)風(fēng)頻發(fā),地質(zhì)災(zāi)害防治問題需要重點(diǎn)關(guān)注。隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展和科學(xué)技術(shù)的不斷進(jìn)步,物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)得到了廣泛應(yīng)用。傳統(tǒng)的地質(zhì)災(zāi)害防治工作模式和技術(shù)已經(jīng)不能適應(yīng)當(dāng)前需要,因此,依托新一代互聯(lián)網(wǎng)技術(shù)進(jìn)行科學(xué)、高效、直觀、智能的地質(zhì)災(zāi)害監(jiān)測、預(yù)警預(yù)報(bào)以及應(yīng)急指揮研究成為當(dāng)務(wù)之急。
該文分析了國內(nèi)外自然地質(zhì)災(zāi)害研究工作發(fā)展現(xiàn)狀的基礎(chǔ)上,研究了涉及互聯(lián)網(wǎng)+自然災(zāi)害風(fēng)險(xiǎn)普查與應(yīng)急管理協(xié)同云平臺(tái)構(gòu)建的大量舉證照片視頻數(shù)據(jù)包的快速解析入庫、大量作業(yè)終端及在線用戶的訪問平臺(tái)的可靠性和穩(wěn)定性、海量數(shù)據(jù)的存儲(chǔ)等關(guān)鍵技術(shù),從而為相關(guān)自然災(zāi)害風(fēng)險(xiǎn)普查云平臺(tái)建設(shè)提供一定的指導(dǎo)與借鑒?;ヂ?lián)網(wǎng)+自然災(zāi)害風(fēng)險(xiǎn)普查與應(yīng)急管理協(xié)同云平臺(tái)構(gòu)建可以科學(xué)高效地評(píng)估災(zāi)害、降低防災(zāi)減災(zāi)成本,并為自然災(zāi)害綜合風(fēng)險(xiǎn)普查提供快速高效的作業(yè)路線,降低成本提高產(chǎn)出,最大程度地為減少人員傷亡和財(cái)產(chǎn)損失發(fā)揮重要作用,保障人民群眾生命和財(cái)產(chǎn)安全。
在20 世紀(jì)60 年代以前,針對(duì)地質(zhì)災(zāi)害的研究工作主要是重點(diǎn)調(diào)查分析災(zāi)害形成條件與地質(zhì)活動(dòng)過程[1]。到了20 世紀(jì)70 年代,地質(zhì)活動(dòng)加劇,地質(zhì)災(zāi)害損失增加,防災(zāi)減災(zāi)工作受到前所未有的重視,在一些發(fā)達(dá)國家,開始對(duì)地質(zhì)災(zāi)害進(jìn)行評(píng)估預(yù)判。這期間,以美國為代表的一些國家開展了大量地質(zhì)災(zāi)害危險(xiǎn)性區(qū)劃分級(jí)研究工作。到了20 世紀(jì)80 年代,世界各國均意識(shí)到地質(zhì)災(zāi)害研究工作的重要性,紛紛加大對(duì)地質(zhì)災(zāi)害研究工作的投入。1965 年,WI.Garrison 提出了“地理信息系統(tǒng)”(GIS)的概念。從20世紀(jì)80 年代后期到90 年代,GIS 開始大量應(yīng)用于地質(zhì)災(zāi)害研究工作。
近年來,基于GIS 系統(tǒng),世界各國的專家們廣泛開展地質(zhì)災(zāi)害數(shù)據(jù)管理與信息集成、地質(zhì)災(zāi)害分析與評(píng)價(jià)、地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)估與防治決策、地質(zhì)災(zāi)害網(wǎng)絡(luò)通信與成果發(fā)布等工作研究[2]。國外對(duì)地質(zhì)災(zāi)害的研究工作主要集中在3 個(gè)方面:①使用先進(jìn)的科學(xué)技術(shù),多角度地研究地質(zhì)災(zāi)害致災(zāi)機(jī)理,同時(shí)對(duì)單體地質(zhì)災(zāi)害的特征、分類、成因、預(yù)測、防治等工作進(jìn)行深入研究;②依托“3S”技術(shù)(即遙感技術(shù)、地理信息系統(tǒng)和全球定位系統(tǒng))對(duì)地質(zhì)災(zāi)害進(jìn)行區(qū)域性監(jiān)測、評(píng)價(jià),并對(duì)其劃分等級(jí),展開防治工作和土地利用規(guī)劃工作;③地質(zhì)災(zāi)害管理信息系統(tǒng)和監(jiān)測預(yù)警系統(tǒng)建設(shè)取得了重大進(jìn)展。
20 世紀(jì)30 年代~20 世紀(jì)70 年代,我國的地質(zhì)災(zāi)害研究工作以地震災(zāi)害研究工作為主。20 世紀(jì)90 年代,我國開始全面開展地質(zhì)災(zāi)害調(diào)查工作,主要圍繞滑坡、崩塌、泥石流、地面沉降、巖溶塌陷、土壤侵蝕、土地荒漠化和礦山災(zāi)害等。后來,我國研究者們對(duì)我國地質(zhì)災(zāi)害的類型、特征、分布、成災(zāi)條件以及發(fā)展規(guī)律展開了全面研究,提出了許多新的方法和理論,特別是定量化方法,如灰色系統(tǒng)模型、遺傳算法、元胞自動(dòng)機(jī)和神經(jīng)網(wǎng)絡(luò)等方法。隨著對(duì)地質(zhì)災(zāi)害研究的深入,非線性分析模型被引入地質(zhì)災(zāi)害預(yù)測預(yù)報(bào),如神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)算法、細(xì)胞自動(dòng)機(jī)模型等。同時(shí),“3S”技術(shù)在地質(zhì)災(zāi)害數(shù)據(jù)采集、更新、查詢、分析和可視化等方面表現(xiàn)出了巨大的優(yōu)勢[2]。
目前我國對(duì)地質(zhì)災(zāi)害的研究主要體現(xiàn)在4 個(gè)方面:①基于大規(guī)模、全方位的調(diào)查研究,基本查清了我國地質(zhì)災(zāi)害的總體分布和發(fā)展規(guī)律,并對(duì)地質(zhì)災(zāi)害的成災(zāi)條件和演化機(jī)制有了清晰認(rèn)知。②在全國范圍內(nèi)開展“縣市地質(zhì)災(zāi)害調(diào)查”,逐步查清全國地質(zhì)災(zāi)害情況,并大力建設(shè)相應(yīng)的管理信息系統(tǒng)和監(jiān)測預(yù)警系統(tǒng)。③在地質(zhì)災(zāi)害分級(jí)評(píng)價(jià)和監(jiān)測防治方面取得了巨大進(jìn)步,完成了對(duì)地質(zhì)災(zāi)害從定性向定量、從線性向非線性的研究和描述。④新一代互聯(lián)網(wǎng)技術(shù)如大數(shù)據(jù)技術(shù)等在地質(zhì)災(zāi)害研究中得到了廣泛應(yīng)用和深入研究。
互聯(lián)網(wǎng)+自然災(zāi)害風(fēng)險(xiǎn)普查與應(yīng)急管理協(xié)同云平臺(tái)(以下簡稱:互聯(lián)網(wǎng)+普查云平臺(tái)),涉及3 個(gè)關(guān)鍵問題:一是大量舉證照片視頻數(shù)據(jù)包的快速解析入庫,二是大量作業(yè)終端及在線用戶的訪問平臺(tái)的可靠性和穩(wěn)定性,三是海量數(shù)據(jù)的存儲(chǔ)問題。本次運(yùn)用消息隊(duì)列機(jī)制解決大量數(shù)據(jù)包的解析問題,通過對(duì)舉證數(shù)據(jù)的流量削峰,使平臺(tái)可以持續(xù)穩(wěn)定地處理解析任務(wù);運(yùn)用緩存技術(shù),解決高并發(fā)下的平臺(tái)響應(yīng)速度和保障服務(wù)的穩(wěn)定性;運(yùn)用分布式數(shù)據(jù)庫解決海量數(shù)據(jù)存儲(chǔ)問題。
互聯(lián)網(wǎng)+普查云平臺(tái)在每天 22:00 到 8:00 時(shí)運(yùn)行平穩(wěn),每秒并發(fā)請求數(shù)量約 50 個(gè),但是到 8:00~ 22:00 工作時(shí)間的高峰期某時(shí)段每秒并發(fā)請求數(shù)量突然會(huì)暴增到 3000條以上。如果平臺(tái)是直接基于Postgresql 發(fā)送請求,大量的請求涌入Postgresql,每秒鐘Postgresql 執(zhí)行約3 000 條SQL,而一般的 Postgresql 每秒處理約1 000 個(gè)請求,如果每秒請求數(shù)超標(biāo),可能就直接鎖死Postgresql 導(dǎo)致系統(tǒng)崩潰,用戶無法正常使用系統(tǒng)。
經(jīng)過研究和試驗(yàn),該平臺(tái)采用MQ 消息隊(duì)列處理機(jī)制可有效緩解本平臺(tái)壓力。消息隊(duì)列是一種異步的服務(wù)間通信方式,采用先進(jìn)先出原理,是分布式系統(tǒng)中重要的組件,主要解決應(yīng)用耦合、異步消息、流量削鋒等問題,實(shí)現(xiàn)高性能,可伸縮和最終一致性架構(gòu),在一些大型電商平臺(tái)的下單和秒殺活動(dòng)中廣泛應(yīng)用消息隊(duì)列。該平臺(tái)使用消息隊(duì)列的應(yīng)用場景如圖1 所示:在高峰期間大量的用戶提交數(shù)據(jù),每秒3000 個(gè)請求寫入MQ,而PostgreSql 每秒鐘最多處理1000 個(gè)請求,該平臺(tái)從MQ 中勻速獲取請求數(shù)據(jù),每秒鐘最多獲取1000 個(gè)請求,不要超過自己每秒能處理的最大請求數(shù)量,這樣即使高峰期的時(shí)候,平臺(tái)也不會(huì)崩潰。
圖1 消息隊(duì)列工作過程
目前國內(nèi)網(wǎng)絡(luò)異常復(fù)雜,跨運(yùn)營商的網(wǎng)絡(luò)訪問會(huì)很慢,很容易造成用戶體驗(yàn)差而導(dǎo)致客戶流失。為了解決跨運(yùn)營商或各地用戶訪問問題,CDN 廠商在重要的城市部署CDN 服務(wù)器,使用戶就近快速獲取所需內(nèi)容,降低網(wǎng)絡(luò)擁塞,提高用戶訪問響應(yīng)速度和命中率。其工作原理是CDN將數(shù)據(jù)緩存到離用戶最近的位置,緩存靜態(tài)資源文件(頁面,腳本,圖片,視頻,文件等),用戶向源站域名發(fā)起請求時(shí),請求會(huì)被調(diào)度至最接近用戶的服務(wù)節(jié)點(diǎn),直接由服務(wù)節(jié)點(diǎn)直接快速響應(yīng),有效降低用戶訪問延遲,提升可用性。
2.2.1 未部署CDN 應(yīng)用前
此時(shí)網(wǎng)絡(luò)請求詳細(xì)路徑如圖2 所示。
圖2 未部署CDN 時(shí)網(wǎng)絡(luò)請求路徑
請求:本機(jī)網(wǎng)絡(luò)(局域網(wǎng))——》運(yùn)營商網(wǎng)絡(luò)——》應(yīng)用服務(wù)器機(jī)房
響應(yīng):應(yīng)用服務(wù)器機(jī)房——》運(yùn)營商網(wǎng)絡(luò)——》本機(jī)網(wǎng)絡(luò)(局域網(wǎng))
在不考慮復(fù)雜網(wǎng)絡(luò)的情況下,從請求到響應(yīng)需要經(jīng)過3 個(gè)節(jié)點(diǎn),6 個(gè)步驟完成一次用戶訪問操作。
2.2.2 部署CDN 應(yīng)用后
當(dāng)部署CDN 后,網(wǎng)絡(luò)請求路徑如圖3 所示。
圖3 部署CDN 時(shí)網(wǎng)絡(luò)請求路徑
請求:本機(jī)網(wǎng)絡(luò)(局域網(wǎng))——》運(yùn)營商網(wǎng)絡(luò)
響應(yīng):運(yùn)營商網(wǎng)絡(luò)——》本機(jī)網(wǎng)絡(luò)(局域網(wǎng))
在不考慮復(fù)雜網(wǎng)絡(luò)的情況下,從請求到響應(yīng)需要經(jīng)過2 個(gè)節(jié)點(diǎn),2 個(gè)步驟完成一次用戶訪問操作。與不部署CDN服務(wù)相比,減少了1 個(gè)節(jié)點(diǎn),4 個(gè)步驟的訪問。極大地提高了系統(tǒng)的響應(yīng)速度。
2.2.3 普查數(shù)據(jù)云+端數(shù)據(jù)存儲(chǔ)技術(shù)
大數(shù)據(jù)壓縮傳輸技術(shù):該平臺(tái)作業(yè)人員在外業(yè)普查時(shí),需要參考地圖影像數(shù)據(jù)和采集實(shí)地照片,由于地圖影像數(shù)據(jù)量比較大,一個(gè)縣的影像數(shù)據(jù)高達(dá)幾十G,傳統(tǒng)的模式對(duì)于下載大數(shù)據(jù)影像數(shù)據(jù)已經(jīng)不能滿足需求,為此,需要采用大數(shù)據(jù)壓縮技術(shù)對(duì)影像數(shù)據(jù)和照片進(jìn)行壓縮,影像數(shù)據(jù)壓縮后容量減小10 倍以上,照片由傳統(tǒng)的JPG 格式經(jīng)過壓縮后采用WebP 格式,容積減少40%。數(shù)據(jù)經(jīng)過壓縮后用戶在下載地圖影像數(shù)據(jù)時(shí)傳輸速度得到大幅度提高,以及移動(dòng)端采集的照片經(jīng)過壓縮后減少了手機(jī)占用空間和加速了照片成果上傳的速度。
云存儲(chǔ)技術(shù):由于手機(jī)端采集的照片和視頻數(shù)據(jù)存儲(chǔ)量巨大,傳統(tǒng)的服務(wù)器存儲(chǔ)已經(jīng)無法滿足需求,存在照片訪問速度慢、存儲(chǔ)成本高的問題。該平臺(tái)采用國內(nèi)主流的華為云或阿里云存儲(chǔ),將普查的海量照片和視頻上傳至云存儲(chǔ)可解決上述問題,云存儲(chǔ)提供了海量、安全、高可靠、低成本的數(shù)據(jù)存儲(chǔ)能力,可以通過REST 接口或者Web 管理界面對(duì)數(shù)據(jù)進(jìn)行管理和使用。
端的數(shù)據(jù)處理技術(shù):在普查數(shù)據(jù)采集過程中,可能會(huì)存在拍攝照片或視頻偽造的情況,為解決普查數(shù)據(jù)真實(shí)性的問題,在移動(dòng)端采集數(shù)據(jù)時(shí)生成綜合加密舉證包,上傳到互聯(lián)網(wǎng)+普查云平臺(tái)管理端,通過解密解包入庫后可在地圖上聯(lián)動(dòng)查看普查照片或視頻的五要素屬性,即照片的經(jīng)緯度、方位角、采集時(shí)間、采集設(shè)備、采集人員,管理員在審核照片時(shí)根據(jù)五要素進(jìn)行綜合評(píng)判確保普查數(shù)據(jù)的真實(shí)性。
2.2.4 海量數(shù)據(jù)管理及多級(jí)數(shù)據(jù)檢索
自然災(zāi)害風(fēng)險(xiǎn)普查數(shù)據(jù)量龐大,通過估算,省級(jí)數(shù)據(jù)量靜態(tài)數(shù)據(jù)量達(dá)到TB 級(jí),地市級(jí)的靜態(tài)數(shù)據(jù)量達(dá)到百GB級(jí)。數(shù)據(jù)的快速檢索調(diào)用技術(shù)成為制約信息的共享和系統(tǒng)集成的主要因素,在基于ArcSDE 的高效空間索引技術(shù)和空間運(yùn)算算法的基礎(chǔ)上,進(jìn)一步使用海量數(shù)據(jù)動(dòng)態(tài)空間索引技術(shù)和智能化空間檢索技術(shù)。
面對(duì)如此巨大的數(shù)據(jù),在進(jìn)行數(shù)據(jù)庫操作時(shí)不可能將全庫數(shù)據(jù)同時(shí)裝載,而要根據(jù)工作區(qū)的變化進(jìn)行數(shù)據(jù)的裝載與釋放。為此要首先按行政區(qū)劃范圍進(jìn)行分塊,在各分塊里再建立格網(wǎng)索引,記錄各空間實(shí)體在整個(gè)區(qū)域中的位置;在進(jìn)行數(shù)據(jù)庫操作時(shí),根據(jù)空間位置索引與用戶工作區(qū)進(jìn)行匹配,確定裝載與釋放的圖幅。將圖形顯示中最頻繁使用的空間數(shù)據(jù)的索引數(shù)據(jù)裝入內(nèi)存,可以提高空間數(shù)據(jù)的讀取效率。但一次性將空間索引數(shù)據(jù)裝入內(nèi)存的方法并不是最佳的方法,它還要受比例尺和內(nèi)存容量的限制。中心點(diǎn)最遠(yuǎn)原則和空間相關(guān)最久未用原則是完成空間數(shù)據(jù)動(dòng)態(tài)裝載內(nèi)存的兩種策略。
通過海量空間數(shù)據(jù)快速檢索技術(shù)的應(yīng)用,有效地減少海量空間數(shù)據(jù)的調(diào)度次數(shù),提高空間數(shù)據(jù)的管理效率和處理速度,可以有效解決普查基礎(chǔ)數(shù)據(jù)集成應(yīng)用中由于數(shù)據(jù)量龐大造成調(diào)用速度降低的問題,能夠快速顯示感興趣的信息,滿足普查數(shù)據(jù)管理應(yīng)用的需要。
2.2.5 基于“大數(shù)據(jù)”的管理、分析技術(shù)
地質(zhì)災(zāi)害數(shù)據(jù)量龐大、數(shù)據(jù)類型和種類繁多,滿足大數(shù)據(jù)的條件,如果使用原始的方式進(jìn)行管理和分析,就會(huì)帶來很多問題。首先傳統(tǒng)的數(shù)據(jù)存儲(chǔ)介質(zhì)已無法滿足海量數(shù)據(jù)的存儲(chǔ),即便現(xiàn)有數(shù)據(jù)庫有集群的概念,也無法滿足TB 級(jí)別數(shù)據(jù)的處理分析;其次傳統(tǒng)的數(shù)據(jù)庫技術(shù)并沒有考慮數(shù)據(jù)的多類別,只能存儲(chǔ)結(jié)構(gòu)化的數(shù)據(jù),顯然是不滿足當(dāng)前存儲(chǔ)需求的;再次無法高效地進(jìn)行實(shí)時(shí)性的技術(shù)挑戰(zhàn),對(duì)于地質(zhì)災(zāi)害來說,實(shí)時(shí)性就顯得尤為重要,數(shù)據(jù)所產(chǎn)生的價(jià)值,會(huì)隨著時(shí)間的流逝,價(jià)值會(huì)大大降低,所以當(dāng)數(shù)據(jù)產(chǎn)生后,要盡可能快地對(duì)數(shù)據(jù)進(jìn)行處理,充分挖掘數(shù)據(jù)的價(jià)值;最后隨著數(shù)據(jù)量的日益增多,會(huì)帶來網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心、運(yùn)維的挑戰(zhàn)。針對(duì)以上問題,有必要構(gòu)建大數(shù)據(jù)體系。
從數(shù)據(jù)處理分析的角度,采用MapReduce。mapreduce是hadoop 中一個(gè)批量計(jì)算的框架,在整個(gè)mapreduce 作業(yè)的過程中,包括從數(shù)據(jù)的輸入,數(shù)據(jù)的處理,數(shù)據(jù)的數(shù)據(jù)輸入這些部分,而其中數(shù)據(jù)的處理部分就要map,reduce,combiner 等操作組成。
從存儲(chǔ)的角度,采用HDFS。HDFS 具有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上。而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合具有超大數(shù)據(jù)集的應(yīng)用程序。HDFS 放寬了POSIX 的要求,這樣可以實(shí)現(xiàn)流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。HDFS 采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS 集群是由一個(gè)NameNode 和若干個(gè)DataNode 組成的。其中NameNode 作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問操作;集群中的DataNode 管理存儲(chǔ)的數(shù)據(jù)。
互聯(lián)網(wǎng)+自然災(zāi)害風(fēng)險(xiǎn)普查與應(yīng)急管理協(xié)同云平臺(tái)充分應(yīng)用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)手段,有效組織地質(zhì)災(zāi)害歷史數(shù)據(jù)、現(xiàn)狀數(shù)據(jù)、監(jiān)測數(shù)據(jù)等,突破了時(shí)間、空間的限制,幫助工作人員有效且高效地開展地質(zhì)災(zāi)害防治工作,并為所有注冊用戶提供站立點(diǎn)一定范圍內(nèi)監(jiān)測點(diǎn)、隱患點(diǎn)相關(guān)數(shù)據(jù)的快速查詢,隨時(shí)隨地掌控地質(zhì)災(zāi)害信息的目標(biāo)。但是在平臺(tái)構(gòu)建過程中存在大量物聯(lián)網(wǎng)設(shè)備、終端人員同時(shí)在線上傳普查成果,存在大數(shù)據(jù)并發(fā)需求[3]。該文深入研究了涉及互聯(lián)網(wǎng)+自然災(zāi)害風(fēng)險(xiǎn)普查與應(yīng)急管理協(xié)同云平臺(tái)構(gòu)建的大量舉證照片視頻數(shù)據(jù)包的快速解析入庫、大量作業(yè)終端及在線用戶的訪問平臺(tái)的可靠性和穩(wěn)定性、海量數(shù)據(jù)的存儲(chǔ)等關(guān)鍵技術(shù),從而為相關(guān)自然災(zāi)害風(fēng)險(xiǎn)普查云平臺(tái)建設(shè)提供一定的指導(dǎo)與借鑒。