柳一航 沈航先
摘? 要:為探究區(qū)域交通事故時(shí)空特征,精準(zhǔn)預(yù)測(cè)事故嚴(yán)重程度,給交通運(yùn)輸主管部門(mén)提供決策支持,以英國(guó)交通事故統(tǒng)計(jì)數(shù)據(jù)作為研究基礎(chǔ),首先,將交通事故時(shí)空特征數(shù)據(jù)轉(zhuǎn)化為網(wǎng)格化數(shù)據(jù),并對(duì)空間特征進(jìn)行二維卷積,利用時(shí)間特征合并二維卷積為三維卷積,解決網(wǎng)格沖突問(wèn)題;其次,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)模型的工作原理建立Stacking模型的基學(xué)習(xí)器和元學(xué)習(xí)器;最后,輸出結(jié)果傳入分類(lèi)與回歸樹(shù)(CART),構(gòu)建完整的事故嚴(yán)重程度預(yù)測(cè)集成學(xué)習(xí)模型。研究結(jié)果表明,集成學(xué)習(xí)模型較單一模型對(duì)預(yù)測(cè)效果更優(yōu),其AUC比CNN、LSTM和Conv-LSTM單一模型預(yù)測(cè)分別提升0.02、0.04和0.01;最終決策樹(shù)選擇中,CART決策樹(shù)比隨機(jī)森林(RF)和梯度提升決策樹(shù)(GBDT)預(yù)測(cè)效果更優(yōu);預(yù)測(cè)結(jié)果在時(shí)間緯度上,“嚴(yán)重事故”事件占比較實(shí)際低3.95%,在空間緯度上,預(yù)測(cè)熱力區(qū)域在0.5~1區(qū)間范圍內(nèi)與實(shí)際接近。
關(guān)鍵詞:交通安全;交通事故;事故嚴(yán)重程度預(yù)測(cè);機(jī)器學(xué)習(xí);集成學(xué)習(xí)模型
中圖分類(lèi)號(hào):U491.3? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號(hào):2095-2945(2024)08-0028-08
Abstract: In order to explore the spatio-temporal characteristics of regional traffic accidents, accurately predict the severity of accidents, and provide decision support to the competent departments of transportation. Based on the British traffic accident statistical data, firstly, the spatio-temporal characteristic data of traffic accidents are transformed into gridded data, and the spatial features are convoluted in two dimensions, and the temporal features are combined into two-dimensional convolution into three-dimensional convolution to solve the grid conflict problem; secondly, the basic learner and meta-learner of Stacking model are established using the working principle of convolutional neural network (CNN) and long-term and short-term memory artificial neural network (LSTM) model. Finally, the output results are passed into the classification and regression tree (CART) to build a complete integrated learning model for accident severity prediction. The results show that the prediction effect of integrated learning model is better than that of single model, and its AUC is 0.02, 0.04 and 0.01 higher than that of CNN, LSTM and Conv-LSTM single model, respectively, and in the final decision tree selection, CART decision tree is better than random forest (RF) and gradient lifting decision tree (GBDT). In terms of time latitude, the proportion of "serious accident" events is 3.95% lower than that of reality. In terms of spatial latitude, the predicted thermal area is close to the reality in the range of 0.5~1.
Keywords: traffic safety; traffic accident; accident severity prediction; machine learning; integrated learning model
根據(jù)世界衛(wèi)生組織2018年《全球道路安全現(xiàn)狀報(bào)告》顯示,每年約有135萬(wàn)人死于道路交通事故[1]。由道路交通事故導(dǎo)致的死亡已經(jīng)成為全球人員死亡的第八大原因,交通安全問(wèn)題已然成為需重點(diǎn)關(guān)注的全球性公共健康問(wèn)題。事實(shí)上,交通事故的發(fā)生雖受諸多因素影響,但仍有跡可循,基于道路交通事故歷史數(shù)據(jù)開(kāi)展事故安全評(píng)估研究(包括影響因素、評(píng)價(jià)模型、事故預(yù)測(cè)等)對(duì)降低道路交通事故的發(fā)生率和嚴(yán)重程度,提升道路交通安全管理水平等具有重要意義。
國(guó)內(nèi)外學(xué)者針對(duì)于交通事故的安全評(píng)估研究主要集中于事故嚴(yán)重程度的預(yù)測(cè)和影響因素的辨識(shí),研究方法大致為三類(lèi)。第一類(lèi)是傳統(tǒng)預(yù)測(cè)方法,包括統(tǒng)計(jì)回歸法[2]、Logit模型[3]等,主要適用于樣本量較少、短期數(shù)據(jù)變化的情況,模型較為簡(jiǎn)單,存在針對(duì)于隨機(jī)性較大、可靠性不強(qiáng)等問(wèn)題;第二類(lèi)是利用機(jī)器學(xué)習(xí)方法,包括隨機(jī)森林[4]、GBRT[5]、XGboost[6]等決策樹(shù)算法,適用于高維數(shù)據(jù)處理,但存在對(duì)特定數(shù)據(jù)集依賴較強(qiáng)的問(wèn)題;第三類(lèi)是基于深度學(xué)習(xí)的事故嚴(yán)重程度預(yù)測(cè),包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7]、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[8]等深度學(xué)習(xí)算法,這些模型應(yīng)用場(chǎng)景較為特定,如CNN常用于圖像方面,LSTM往往應(yīng)用于存在時(shí)間序列特征的數(shù)據(jù)中。
對(duì)于事故空間空間分布,國(guó)內(nèi)外學(xué)者主要采用2種方式,其中一部分學(xué)者多借助地理信息系統(tǒng)(GIS)等空間分析技術(shù),尋找交通事故在空間上的集群特征,如通過(guò)熱點(diǎn)分析[8]、密度分析、聚類(lèi)分析[9]等手段尋找城市交通事故熱點(diǎn)時(shí)空分布特性;另一部分學(xué)者從數(shù)理統(tǒng)計(jì)交通辨別事故發(fā)生特征,如早晚高峰、季節(jié)和具體路段等[10],或利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法預(yù)測(cè)事故發(fā)生黑點(diǎn)[11-13]。這些分析方法更注重微觀層面解決實(shí)際問(wèn)題,往往對(duì)其他事故特征因素考慮較少,難以做到對(duì)區(qū)域整體的預(yù)測(cè)。
綜合上述分析,現(xiàn)有的交通事故嚴(yán)重程度預(yù)測(cè)方法較為全面,但在算法應(yīng)用層面多以單一模型進(jìn)行擬合,少采用模型組合的方式預(yù)測(cè)事故嚴(yán)重程度。理論上,組合模型相比于單一模型具有一定的優(yōu)勢(shì)。單一模型具有唯一的模型結(jié)構(gòu)和全局固定的模型參數(shù),但對(duì)于某一數(shù)據(jù)子集并不一定是最優(yōu)的模型結(jié)構(gòu)和最優(yōu)的模型參數(shù)。對(duì)于組合模型,在模型訓(xùn)練時(shí)可以在不同的數(shù)據(jù)子集中選取更優(yōu)的局部預(yù)測(cè)模型,相比于單一的并且具有全局固定模型參數(shù)的預(yù)測(cè)模型,具有更多的靈活性和適應(yīng)性,很有可能在全局表現(xiàn)出更優(yōu)的預(yù)測(cè)精度和預(yù)測(cè)穩(wěn)定性。同時(shí),現(xiàn)有的交通事故嚴(yán)重程度預(yù)測(cè)方法對(duì)于事故空間分布多偏向于微觀層面,缺少?gòu)恼麄€(gè)區(qū)域?qū)用娴念A(yù)測(cè)模型。因此,本文根據(jù)不同模型的應(yīng)用特征,構(gòu)建了一種基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度預(yù)測(cè)方法,充分考慮時(shí)間、空間和其他可能影響事故發(fā)生的特征數(shù)據(jù),發(fā)揮組合模型對(duì)不同特征數(shù)據(jù)的應(yīng)用效能,深度挖掘區(qū)域道路交通事故數(shù)據(jù),提升事故嚴(yán)重程度的預(yù)測(cè)精度。
1? 交通事故嚴(yán)重程度預(yù)測(cè)模型
1.1? 問(wèn)題定義
在正式選用方法建立模型之前,首先根據(jù)所要研究的問(wèn)題,給出一些本文中所要使用的名稱和變量的定義。本文的目標(biāo)在于基于時(shí)空特征對(duì)交通事故的嚴(yán)重程度進(jìn)行預(yù)測(cè),因此通過(guò)給出一些對(duì)所需要用到的諸如網(wǎng)格單元、時(shí)間單元等自定義變量的基本的定義,逐步給出本文所要研究的“基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度預(yù)測(cè)”問(wèn)題的具體含義。
首先,給出網(wǎng)格單元和時(shí)間單元的定義。
定義1:(網(wǎng)格單元)設(shè)一個(gè)區(qū)域分布在一定經(jīng)緯度范圍內(nèi),則經(jīng)度范圍可以被劃分為m個(gè)等長(zhǎng)的區(qū)間,緯度范圍可以被劃分為n個(gè)等長(zhǎng)的區(qū)間。位于第i個(gè)(i=1,2,3,…,m)經(jīng)度區(qū)間和第j個(gè)緯度區(qū)間(j=1,2,3,…,n)的所有經(jīng)緯度所組成的集合稱為第ij個(gè)網(wǎng)格單元,記作uij。
定義2:(時(shí)間單元)設(shè)一類(lèi)事件區(qū)域分布在一定時(shí)間范圍內(nèi),則時(shí)間范圍可以被劃分為m個(gè)等長(zhǎng)的區(qū)間(時(shí)間段)。位于第i個(gè)(i=1,2,3,…,m)時(shí)間區(qū)間的所有時(shí)間點(diǎn)所組成的集合稱為第i個(gè)時(shí)間單元,記作tui。
其次,一個(gè)事件有許多影響因素,把這些影響因素稱之為特征。為了運(yùn)用現(xiàn)有代數(shù)學(xué)方法研究這些影響因素,將其排列為矩陣。一般,為了能夠用量化方法研究這些特征,往往會(huì)把這些特征數(shù)值化,得到一個(gè)數(shù)值矩陣。下面給出這種本文中專(zhuān)用矩陣的定義。
定義3:(事件特征矩陣)設(shè)一類(lèi)事件有m個(gè)需要研究的影響因素e1,e2,…,em,這些影響因素均有n條觀測(cè)記錄,則e1,e2,…,em均為n維列向量。我們稱m×n維矩陣E=[e1,e2,…,em]為事件的特征矩陣。
定義4:(學(xué)習(xí)器)設(shè)有一個(gè)映射f:(E0,T,E)→P,其中E0為待預(yù)測(cè)事件中用作訓(xùn)練集部分的事件特征矩陣,T為待預(yù)測(cè)事件中訓(xùn)練集部分已經(jīng)觀測(cè)到的值,E為待預(yù)測(cè)事件中需要預(yù)測(cè)(作為測(cè)試集)的部分的事件特征矩陣。P為f的輸出,即通過(guò)學(xué)習(xí)器f產(chǎn)生的預(yù)測(cè)值。如果P中有一半以上的值與實(shí)際情況相符,則稱f為一個(gè)弱學(xué)習(xí)器。
下面,給出本文中所使用的“集成學(xué)習(xí)模型”的大致思路。
定義5:(集成學(xué)習(xí)模型)設(shè)一個(gè)模型g由多個(gè)學(xué)習(xí)器f1,f2,…,fn組成。g為一個(gè)映射(E0,T,E)→P。下列等式
(1)
成立,其中Ei為第i個(gè)模型中用作測(cè)試集而輸入的事件特征矩陣,Pi為第i個(gè)模型的輸出,Ti為第i個(gè)模型中認(rèn)為已經(jīng)觀測(cè)到的待預(yù)測(cè)事件的標(biāo)簽,則稱g為由多個(gè)學(xué)習(xí)器f1,f2,…,fn組合而成的集成學(xué)習(xí)模型。
因?yàn)楸疚牡难芯糠矫嫱怀隽私煌ㄊ鹿实臅r(shí)空特性,故專(zhuān)門(mén)定義了一類(lèi)包含時(shí)空特征的時(shí)間,以區(qū)別于一般的事件,方便后續(xù)研究。下面給出定義,具體說(shuō)明本文中把什么叫做“具有時(shí)空特征的事件”。
定義6:(具有時(shí)空特征的事件)設(shè)待研究事件的事件特征矩陣為E,且該事件具有時(shí)間特征和空間特征。設(shè)該事件被劃分了m×n個(gè)網(wǎng)格單元和p個(gè)時(shí)間單元,若對(duì)于?坌1≤i≤m,1≤j≤n,1≤k≤p,有uij∈E,tuk∈E,其中i、j、k均為正整數(shù),則稱該事件具有時(shí)空特征。
最后,綜合上面的定義,可以給出本文所要研究的問(wèn)題的一般定義了。
定義7:(基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度時(shí)空預(yù)測(cè))對(duì)于一類(lèi)交通事故事件,其需要預(yù)測(cè)的特征為其嚴(yán)重程度。“嚴(yán)重程度”這一特征被作為一個(gè)標(biāo)簽,有幾個(gè)代表了不同程度的已數(shù)量化的取值,且此標(biāo)簽預(yù)測(cè)值P=g(E0,T1,E)。選擇合適的集成學(xué)習(xí)模型g的問(wèn)題稱作基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度時(shí)空預(yù)測(cè)問(wèn)題。
根據(jù)定義7中“基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度時(shí)空預(yù)測(cè)”的含義,便可以對(duì)本文研究的預(yù)測(cè)類(lèi)問(wèn)題作出模型的建立了。
依據(jù)之前對(duì)數(shù)據(jù)集的處理方法,可見(jiàn)數(shù)據(jù)集中需要預(yù)測(cè)的“Accident Severity”特征,即“交通事故嚴(yán)重程度”特征只有0和1兩個(gè)取值,即“不太嚴(yán)重”和“嚴(yán)重”。因此,與其作一個(gè)普通的預(yù)測(cè),不如將此類(lèi)問(wèn)題轉(zhuǎn)化為一個(gè)針對(duì)性更強(qiáng)的二分類(lèi)問(wèn)題。
為了避免“特征工程”問(wèn)題,在分類(lèi)的過(guò)程中并不全部使用其中所有的特征。因?yàn)楸疚氖腔跁r(shí)空特征對(duì)交通事故嚴(yán)重程度進(jìn)行預(yù)測(cè)的,所以起初把數(shù)據(jù)集中的交通事故按照空間特征(經(jīng)緯度)分為網(wǎng)格單元。年(取2020)、月、日、時(shí)和分等能夠合并的時(shí)間特征將按照操作系統(tǒng)標(biāo)準(zhǔn)轉(zhuǎn)化為時(shí)間戳,并按照時(shí)間戳劃分為許多個(gè)時(shí)間單元。
為了應(yīng)用集成學(xué)習(xí)方法,以此來(lái)提高模型的分類(lèi)精度,首先從單模型的建立開(kāi)始。本文中運(yùn)用的單模型包括CNN網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)和Conv-LSTM網(wǎng)絡(luò),其基本原理和在本文中的具體配置都已經(jīng)在前文中敘述完畢。由于集成學(xué)習(xí)也基本服從“木桶理論”,可以知道集成學(xué)習(xí)的精度會(huì)受限于精度較低的那個(gè)模型,況且只有2個(gè)精度相近的模型,才能組建出精度有所提高的模型。其集成后的在測(cè)試完單模型以后,將根據(jù)單模型的表現(xiàn)來(lái)決定挑選何種模型來(lái)組建集成學(xué)習(xí)模型。
1.2? 研究思路
對(duì)于交通事故嚴(yán)重程度的時(shí)空預(yù)測(cè)問(wèn)題,傳統(tǒng)的機(jī)器學(xué)習(xí)算法存在參數(shù)尋優(yōu)困難和對(duì)高維度數(shù)據(jù)易過(guò)擬合的問(wèn)題。針對(duì)此問(wèn)題,本文提出基于集成學(xué)習(xí)模型的交通事故嚴(yán)重程度的時(shí)空預(yù)測(cè)模型。模型首先對(duì)多源交通事故特征數(shù)據(jù)集進(jìn)行正態(tài)化處理,隨后構(gòu)建以CNN網(wǎng)絡(luò)為基學(xué)習(xí)器,以LSTM網(wǎng)絡(luò)為元學(xué)習(xí)器的Stacking模型的具體運(yùn)行機(jī)制,最后選取CART決策樹(shù)輸出最終預(yù)測(cè)結(jié)果。具體模型結(jié)構(gòu)如圖1所示。
1.3? CNN模型
為匹配數(shù)據(jù)集中數(shù)據(jù)集特征,本文全連接層設(shè)置輸入一維張量為5,二維張量為31,以及128個(gè)神經(jīng)元;卷積層一維張量為112,二維張量為64,并不對(duì)邊界進(jìn)行全零填充。并設(shè)定卷積層的激活函數(shù)為ReLU函數(shù);為使神經(jīng)網(wǎng)絡(luò)自動(dòng)減少特征數(shù)量,同時(shí)加快訓(xùn)練速度,本文匯聚層一維張量設(shè)置為2,二維張量為1,并在匯聚層中添加了2個(gè)卷積核,其尺寸均為1,匯聚層的結(jié)構(gòu)簡(jiǎn)圖如圖2所示[14]。
在匯聚后,采用20%的丟棄率進(jìn)行正則化處理,并把二維數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù),即壓平處理。輸出層包含第二個(gè)全連接層和第三個(gè)全連接層,激活函數(shù)采用Sigmoid函數(shù),整體結(jié)構(gòu)如圖3所示。
1.4? LSTM模型
LSTM模型具有時(shí)序性特征,而交通事故的發(fā)生往往在一段時(shí)間內(nèi)能夠體現(xiàn)時(shí)序性特征,因此本文選取6個(gè)時(shí)間戳長(zhǎng)度作為時(shí)間序列輸入,輸出層仍然包括2個(gè)全連接層,第一個(gè)全連接層采用ReLU函數(shù)進(jìn)行激活,并利用20%的丟棄率對(duì)第一個(gè)全連接層的結(jié)果進(jìn)行正則化。對(duì)于第二個(gè)全連接層激活函數(shù),本文采用Sigmoid函數(shù)[15-17]。LSTM輸出層整體結(jié)構(gòu)如圖4所示。
1.5? Stacking模型
Stacking模型包括基學(xué)習(xí)器(Base-Learning Model)和元學(xué)習(xí)器(Meta-Learning Model)兩個(gè)部分[18],通過(guò)基學(xué)習(xí)器的輸出結(jié)果整合后傳入元學(xué)習(xí)器,最后得到元學(xué)習(xí)器的結(jié)果,其基本架構(gòu)如圖5所示。
1.6? 評(píng)價(jià)指標(biāo)
由于事故嚴(yán)重程度預(yù)測(cè)屬于二分類(lèi)問(wèn)題,因此本文選適用于二分類(lèi)問(wèn)題模型的AUC(Area Under Curve)作為評(píng)價(jià)指標(biāo)。AUC值表現(xiàn)模型的擬合能力,AUC值為受試者操作特征曲線(receiver operating characteris-tic,ROC)下圍成的面積,其值越接近于1,預(yù)測(cè)模型真實(shí)性越高[19-20],計(jì)算見(jiàn)式(2)。
式中:M和N分別為正樣本和負(fù)樣本的數(shù)量;rank?滋表示第μ條樣本的序號(hào)。
2? 交通事故影響因素的選擇
2.1? 數(shù)據(jù)來(lái)源
本文采用2020年英國(guó)統(tǒng)計(jì)的英國(guó)一年內(nèi)所有道路交通事故信息,共計(jì)129 983條。剔除不完整數(shù)據(jù)、無(wú)法識(shí)別數(shù)據(jù)和明顯錯(cuò)誤數(shù)據(jù),共選取交通事故樣本數(shù)據(jù)129 081條。數(shù)據(jù)集將“交通事故的嚴(yán)重程度”劃分為嚴(yán)重事故和一般事故兩類(lèi)。其中,嚴(yán)重事故為人員重傷和死亡事故,共發(fā)生104 871起,占比達(dá)81.2%;其他事故為一般事故,共發(fā)生24 210起,占比18.8%。
為進(jìn)一步探究事故嚴(yán)重程度和空間分布特征,根據(jù)數(shù)據(jù)集中經(jīng)緯度數(shù)據(jù)和交通事故嚴(yán)重程度數(shù)據(jù),繪制交通事故嚴(yán)重程度熱力圖,如圖6所示。英國(guó)的交通事故嚴(yán)重地區(qū)主要集中在英國(guó)東南部地區(qū),而愛(ài)爾蘭地區(qū)的交通事故往往不是很?chē)?yán)重。英國(guó)北部地區(qū)交通事故嚴(yán)重地區(qū)不是很集中,但是交通事故嚴(yán)重程度比南部地區(qū)略大。
2.2? 特征變量
英國(guó)交通事故數(shù)據(jù)集即包含事故經(jīng)緯度、事故傷亡人數(shù)、發(fā)生時(shí)間、道路類(lèi)型、光照條件和天氣狀況等30個(gè)特征,具體特征變量見(jiàn)表1。
3? 模型評(píng)估結(jié)果與檢驗(yàn)
3.1? 偏態(tài)數(shù)據(jù)集的正態(tài)化
為保證數(shù)據(jù)集呈現(xiàn)正態(tài)分布,提升模型運(yùn)算效率,對(duì)特征變量進(jìn)行博克斯-考克斯(Box-Cox)變換,以Latitude(緯度)特征為例,Box-Cox變換之前后的頻率分布直方圖、頻率密度分布曲線、正態(tài)密度擬合曲線和正態(tài)分布曲線的對(duì)比圖,如圖7、圖8所示。通過(guò)似然估計(jì),Latitude特征所選用的?姿為-6.239 5。
3.2? 數(shù)據(jù)集預(yù)處理
由于“一般事故”類(lèi)型樣本只占總體樣本的15.4%,本文采用上采樣(Oversampling)不均衡數(shù)據(jù)進(jìn)行處理,即對(duì)小樣本數(shù)據(jù)進(jìn)行多份復(fù)制,并分別利用CNN、LSTM和Conv-LSTM網(wǎng)絡(luò)測(cè)試其AUC表現(xiàn),且每次測(cè)試時(shí)都隨機(jī)采樣數(shù)據(jù)集,并采用5-折交叉驗(yàn)證,檢驗(yàn)結(jié)果如圖9所示。通過(guò)AUC測(cè)試結(jié)果表明,當(dāng)樣本復(fù)制5份后,3種模型網(wǎng)絡(luò)ACU性能均達(dá)到最佳。
(a)? 頻率分布直方圖、頻率密度分布曲線和正態(tài)密度擬合曲線
(b)? 正態(tài)分布曲線
(a) 頻率分布直方圖、頻率密度分布曲線和正態(tài)密度擬合曲線
(b)? 正態(tài)分布曲線
3.3? CNN、LSTM和Conv-LSTM網(wǎng)絡(luò)的調(diào)優(yōu)
本文首先對(duì)構(gòu)建的CNN、LSTM和Conv-LSTM網(wǎng)絡(luò)進(jìn)行時(shí)間切分的步長(zhǎng)的調(diào)整。本文設(shè)定時(shí)間切分步長(zhǎng)的搜索空間為{3,4,5,6,7,8}測(cè)試其AUC表現(xiàn),驗(yàn)證結(jié)果如圖10所示。
通過(guò)AUC測(cè)試結(jié)果表明,CNN網(wǎng)絡(luò)在時(shí)間切分步長(zhǎng)為7時(shí)AUC結(jié)果最佳,LSTM和Conv-LSTM網(wǎng)絡(luò)在時(shí)間切分步長(zhǎng)為6時(shí)AUC結(jié)果最佳,因此本文選取時(shí)間切分步長(zhǎng)為6作為模型預(yù)測(cè)參數(shù)。
采取同樣的方法,利用網(wǎng)格搜索的方法,設(shè)定學(xué)習(xí)率的搜索空間為{0.1,0.15,0.2,0.25}搜索,發(fā)現(xiàn)CNN網(wǎng)絡(luò)和Conv-LSTM網(wǎng)絡(luò)的學(xué)習(xí)率分別為0.15和0.2時(shí),其AUC表現(xiàn)最佳,分別為0.70和0.73。LSTM網(wǎng)絡(luò)中學(xué)習(xí)率為0.2時(shí),其AUC表現(xiàn)為0.70,與學(xué)習(xí)率設(shè)置為0.15時(shí)相差無(wú)幾,因此學(xué)習(xí)率設(shè)置為0.2。
3.4? Stacking模型調(diào)優(yōu)
為保證集成模型的性能最優(yōu),在未傳入決策樹(shù)之前,按照調(diào)整好的超參數(shù)把基學(xué)習(xí)器和元學(xué)習(xí)器進(jìn)行堆疊,并與單個(gè)基學(xué)習(xí)器進(jìn)行對(duì)比,其AUC表現(xiàn)見(jiàn)表2,小提琴圖如圖11所示。
由于CNN和Conv-LSTM網(wǎng)絡(luò)的性質(zhì)較為相似(都有卷積的性質(zhì)),所以堆疊后效果一般,而CNN和LSTM網(wǎng)絡(luò)性質(zhì)差異較大,所以堆疊后預(yù)測(cè)精度較高。因此,本文Stacking模型采用以CNN網(wǎng)絡(luò)為基學(xué)習(xí)器,LSTM網(wǎng)絡(luò)為元學(xué)習(xí)器的組合模型。
3.5? 集成學(xué)習(xí)模型調(diào)優(yōu)
本文將Stacking模型輸出結(jié)果作為輸入傳給決策樹(shù)模型,分別測(cè)試隨機(jī)森林(RF)、梯度提升決策樹(shù)(GBDT)和分類(lèi)與回歸樹(shù)(CART)3種決策樹(shù)模型。本文采用網(wǎng)格搜索法,獲取決策樹(shù)模型最優(yōu)超參數(shù),最終參數(shù)設(shè)置見(jiàn)表3。經(jīng)30次測(cè)試取平均值后,采用Stacking模型和CART決策樹(shù)集成擬合效果最佳,其AUC為0.74,模型對(duì)比如圖12所示。
4? 交通事故嚴(yán)重程度預(yù)測(cè)對(duì)比
在時(shí)間維度上,從全年和各季度預(yù)測(cè)結(jié)果上看,預(yù)測(cè)的“嚴(yán)重事故”整體數(shù)量較實(shí)際偏低。從全年角度,“嚴(yán)重事故”較實(shí)際低3.95%;從各季度來(lái)看,二季度和四季度預(yù)測(cè)效果較好,分別較實(shí)際低1.58%和1.65%,一季度和三季度預(yù)測(cè)較實(shí)際分別低6.5%和6.23%。全年和各季度預(yù)測(cè)結(jié)果和實(shí)際結(jié)果對(duì)比情況如圖13所示。
在空間維度上,將事故嚴(yán)重程度密度區(qū)域進(jìn)行歸一化處理,繪制實(shí)際交通事故嚴(yán)重程度熱力圖和預(yù)測(cè)熱力圖,如圖14所示??梢园l(fā)現(xiàn),預(yù)測(cè)后范圍在0.8~0.9的熱力區(qū)域減少,而范圍在0.6~0.7的熱力區(qū)域增加,說(shuō)明模型整體預(yù)測(cè)的事故嚴(yán)重程度偏低。
(a)? 原始交通事故嚴(yán)重程度熱力圖
(b)? 預(yù)測(cè)交通事故嚴(yán)重程度熱力圖
5? 結(jié)束語(yǔ)
1)充分考慮影響因素難以選擇和對(duì)高維度數(shù)據(jù)易過(guò)擬合的問(wèn)題,結(jié)合交通事故時(shí)間、空間特征,提出以CNN網(wǎng)絡(luò)為基學(xué)習(xí)器,LSTM網(wǎng)絡(luò)為元學(xué)習(xí)器的集成學(xué)習(xí)模型架構(gòu),形成交通事故嚴(yán)重程度的時(shí)空預(yù)測(cè)模型。
2)在模型選擇過(guò)程中,本文嘗試將CNN、LSTM和Conv-LSTM模型采用多種方式進(jìn)行組合,并與單個(gè)基學(xué)習(xí)模型進(jìn)行對(duì)比,最終發(fā)現(xiàn)CNN和LSTM模型組合后預(yù)測(cè)效果最佳,說(shuō)明根據(jù)數(shù)據(jù)特征分別選擇合適模型進(jìn)行組合后,整體預(yù)測(cè)效果有所提升。
3)將建立好的Stacking模型預(yù)測(cè)結(jié)果輸入RF、GBDT和CART決策樹(shù),通過(guò)驗(yàn)證發(fā)現(xiàn)CART作為輸出決策樹(shù)預(yù)測(cè)效果最佳,由此構(gòu)建了整個(gè)集成學(xué)習(xí)模型。
4)從時(shí)間緯度和空間緯度來(lái)看,本文構(gòu)建的集成學(xué)習(xí)模型對(duì)“嚴(yán)重事故”的預(yù)測(cè)相對(duì)偏低,存在影響事故嚴(yán)重程度的特征變量不足等原因,下一步應(yīng)加強(qiáng)對(duì)事故發(fā)生形態(tài)、事故發(fā)生的車(chē)輛類(lèi)型、交叉口類(lèi)型和信號(hào)控制方法等因素的挖掘。
參考文獻(xiàn):
[1] ZHANG Y L.World health organization releases“Global Road Safety Status Report 2018”[J].Chinese Journal of Disaster Medicine,2019,7(2):100.
[2] ABDEL-ATY M,UDDIN N,PANDE A, et al. Predicting free-way crashes from loop detector data by matched case-control logistic regression[J].Transportation Res-earch Record, 2004,7(189):88-95.
[3] 靳文舟,姚尹杰.多因素耦合作用下的車(chē)輛群事故傷害程度估計(jì)[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2021,42(3):1-7.
[4] PARSA A B, MOVAHEDI A, TAGHIPOUR H, et al. Toward safer highways, application of XGBoost and SHAP for real-time accident detection and feature analysis[J]. Accident Analysis & Prevention, 2020(136):1-8.
[5] 楊文忠,張志豪,柴亞闖,等.基于GBRT模型的交通事故預(yù)測(cè)[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,37(1):36-43.
[6] SUN Z, WANG J, CHEN Y, et al. Influence factors on injury severity of traffic accidents and differences in urban functional zones: the empirical analysis of Beijing[J]. International journal of environmental research and public health, 2018,15(12):2722-2738.
[7] 王慶榮,魏怡萌,朱昌鋒,等.基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的交通事故風(fēng)險(xiǎn)預(yù)測(cè)研究[J].計(jì)算機(jī)工程,2022,48(11):22-29.
[8] LE K G, LIU P, LIN L T. Determining the road traffic accident hotspots using GIS-based temporal-spatial statistical analytic techniques in Hanoi, Vietnam[J]. Geo-spatial Information Science, 2020,23(2):153-164.
[9] BENEDEK J, CIOBANU S M, MAN T C. Hotspots and social background of urban traffic crashes: A case study in Cluj-Napoca (Romania)[J]. Accident Analysis & Prevention, 2016(87):117-126.
[10] 劉堯,王穎志,王立君,等.交通事故的時(shí)空熱點(diǎn)分析[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2020,47(1):52-59.
[11] 張光南,鐘俏婷,楊清玄.交通違法事故時(shí)空分布特征及其影響因素——以廣州市為例[J].交通運(yùn)輸系統(tǒng)工程與信息,2019,19(3):208-214.
[12] 田準(zhǔn),張生瑞.優(yōu)化經(jīng)驗(yàn)貝葉斯事故黑點(diǎn)識(shí)別與排序方法[J].長(zhǎng)安大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,39(5):115-126.
[13] 萬(wàn)明,吳倩,嚴(yán)利鑫,等.道路交通安全研究的現(xiàn)狀與熱點(diǎn)分析[J].交通信息與安全,2022,40(2):11-21,37.
[14] ZHANG M,LI T,ZHU R,et al. Traffic accident's severity prediction: a deep-learning approach-based cnn network[J].IEEE access, 2019(7):39897-39910.
[15] 張志豪,楊文忠,袁婷婷,等.基于LSTM神經(jīng)網(wǎng)絡(luò)模型的交通事故預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(14):249-253,259.
[16] PAN Z B,TANG J,TJAHJADI T ,et al. A novel rapid method for viewshed computation on DEM through max-pooling and min-expected Height[J].ISPRS International Journal of Geo-Information,2020,9(11).
[17] ZHOU Z,HUANG K,QIU Y,et al. Morphology extraction of fetal electrocardiogram by slow-fast LSTM network[J].Biomedical Signal Processing and Control,2021,68(5):102664.
[18] 李朝輝,殷銘,王曉倩,等.雙機(jī)制Stacking集成模型在短時(shí)交通流量預(yù)測(cè)中的應(yīng)用[J].科學(xué)技術(shù)與工程,2021,21(11):4648-4655.
[19] 劉星良,單玨,劉唐志,等.基于交通流穩(wěn)定性系數(shù)的高速公路交通事故實(shí)時(shí)風(fēng)險(xiǎn)預(yù)測(cè)[J].交通信息與安全,2022,40(4):71-81.
[20] 呂通通,張湛,陸林軍,等.基于互信息貝葉斯網(wǎng)絡(luò)的交通事故嚴(yán)重程度分析[J].交通信息與安全,2021,39(6):36-43.
近年來(lái),隨著我國(guó)的石油勘探工作向復(fù)雜油氣藏[1]發(fā)展,對(duì)地下地質(zhì)體速度求取精度的要求越來(lái)越高,儲(chǔ)層預(yù)測(cè)的需求也日益增加。塔里木油田自2021年以來(lái),平均每年負(fù)責(zé)近20多個(gè)儲(chǔ)層預(yù)測(cè)數(shù)據(jù)的質(zhì)控工作,每個(gè)儲(chǔ)層預(yù)測(cè)項(xiàng)目包括15個(gè)以上過(guò)程成果數(shù)據(jù)體需要質(zhì)控,工作量巨大。傳統(tǒng)的人工質(zhì)控方式存在質(zhì)控過(guò)程繁瑣化、質(zhì)控結(jié)果主觀化、質(zhì)控效率低等問(wèn)題。為此,本文提出了一種基于分布式處理的儲(chǔ)層預(yù)測(cè)質(zhì)控系統(tǒng)。本系統(tǒng)在確保數(shù)據(jù)在傳輸過(guò)程中的安全性和完整性的同時(shí),提高處理效率和保證結(jié)果質(zhì)量。
傳統(tǒng)的儲(chǔ)層預(yù)測(cè)項(xiàng)目通常由單獨(dú)的承包商來(lái)閉環(huán)處理其對(duì)應(yīng)的儲(chǔ)層預(yù)測(cè)全流程工作,包括巖石物理、正演模擬以及特殊處理及屬性分析等其他過(guò)程[2]。其中,特殊處理主要用于儲(chǔ)層預(yù)測(cè)數(shù)據(jù)增強(qiáng),而其他過(guò)程則用于信息分析和解釋。工區(qū)閉環(huán)的處理模式能滿足一般的石油勘探工作,但其存在“木桶效應(yīng)”,在探索成熟區(qū)域鄰近區(qū)及新區(qū)時(shí),面臨著解釋周期不可控以及結(jié)果質(zhì)量低等問(wèn)題[3]。
儲(chǔ)層預(yù)測(cè)數(shù)據(jù)的安全傳輸方面,由于儲(chǔ)層預(yù)測(cè)數(shù)據(jù)[4]的保密性,確保項(xiàng)目雙方網(wǎng)絡(luò)通暢的同時(shí),需要保障數(shù)據(jù)在傳輸過(guò)程中的安全性和完整性。虛擬專(zhuān)用網(wǎng)絡(luò)(Virtual Private Network,VPN)是一種通過(guò)在客戶機(jī)與網(wǎng)關(guān)之間建立加密的點(diǎn)對(duì)點(diǎn)連接的虛擬技術(shù),可以確保數(shù)據(jù)在經(jīng)過(guò)網(wǎng)絡(luò)傳輸時(shí)的安全性。然而,對(duì)于非頁(yè)面端的數(shù)據(jù)訪問(wèn),傳統(tǒng)的質(zhì)控平臺(tái)通常依賴額外的應(yīng)用軟件進(jìn)行轉(zhuǎn)換,無(wú)法實(shí)現(xiàn)端到端的安全傳輸。
針對(duì)以上原因,本文基于儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理新模式,結(jié)合GeoEast-iEco[5]數(shù)據(jù)解釋和處理平臺(tái),構(gòu)建了網(wǎng)頁(yè)端一體化智能質(zhì)控平臺(tái)。該平臺(tái)實(shí)現(xiàn)了儲(chǔ)層預(yù)測(cè)數(shù)據(jù)處理的在線質(zhì)控功能,能夠一鍵生成質(zhì)檢表和質(zhì)量控制報(bào)告,并支持質(zhì)控項(xiàng)目的在線作業(yè)。同時(shí),平臺(tái)建立了三級(jí)質(zhì)檢在線管理等功能,實(shí)現(xiàn)了儲(chǔ)層預(yù)測(cè)質(zhì)控流程的一體化和智能化。此外,通過(guò)建立項(xiàng)目專(zhuān)用的內(nèi)部網(wǎng)絡(luò)部署,遠(yuǎn)程用戶可以獲得安全接入地址,確保數(shù)據(jù)訪問(wèn)的安全性和保密性。
1? 儲(chǔ)層預(yù)測(cè)數(shù)據(jù)質(zhì)控新模式
隨著勘探工作的持續(xù)進(jìn)行,所面臨的工作環(huán)境日益復(fù)雜,其難度也在不斷增加[6]。為了更有效地質(zhì)控這些數(shù)據(jù),本文提出了一種基于分布式處理平臺(tái)的儲(chǔ)層預(yù)測(cè)質(zhì)控系統(tǒng)。這種系統(tǒng)通過(guò)將儲(chǔ)層預(yù)測(cè)全流程劃分為5個(gè)工序、15個(gè)質(zhì)控任務(wù),實(shí)現(xiàn)了儲(chǔ)層預(yù)測(cè)質(zhì)控流程的一體化和智能化。
1.1? 儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理
在本系統(tǒng)中,儲(chǔ)層預(yù)測(cè)包括5個(gè)主要步驟:巖石物理、正演模擬、特殊處理及屬性分析、疊后反演和疊前反演。在巖石物理階段,采用先進(jìn)的數(shù)據(jù)清洗和校正技術(shù),以確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。在正演模擬、特殊處理及屬性分析階段,利用大數(shù)據(jù)技術(shù)和分布式計(jì)算框架,處理儲(chǔ)層預(yù)測(cè)數(shù)據(jù)。在其他解釋階段,對(duì)數(shù)據(jù)進(jìn)行深入學(xué)習(xí)和復(fù)雜的數(shù)據(jù)分析,以更準(zhǔn)確地獲取層速度等信息。最后,在質(zhì)控階段,使用基于分布式處理平臺(tái)的儲(chǔ)層預(yù)測(cè)質(zhì)控系統(tǒng),監(jiān)控和控制數(shù)據(jù)處理的質(zhì)量和效率。
1.2? 儲(chǔ)層預(yù)測(cè)質(zhì)控系統(tǒng)處理技術(shù)與精度要求
儲(chǔ)層預(yù)測(cè)質(zhì)控系統(tǒng)基于分布式處理平臺(tái),實(shí)現(xiàn)了儲(chǔ)層預(yù)測(cè)的全流程質(zhì)控。系統(tǒng)在每個(gè)處理階段設(shè)置質(zhì)控點(diǎn),并通過(guò)質(zhì)控任務(wù)對(duì)數(shù)據(jù)解釋進(jìn)行監(jiān)控和優(yōu)化。通過(guò)這種方式,保證數(shù)據(jù)解釋質(zhì)量的同時(shí),提高項(xiàng)目周轉(zhuǎn)的效率。
根據(jù)多年的儲(chǔ)層預(yù)測(cè)項(xiàng)目經(jīng)驗(yàn)[7],針對(duì)塔里木盆地的實(shí)際勘探場(chǎng)景,本文在儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理的基礎(chǔ)上,制定了總體處理技術(shù)要求和過(guò)程質(zhì)控要求,并從定性和定量2方面對(duì)工作精度要求制定了具體的質(zhì)控標(biāo)準(zhǔn)。針對(duì)塔里木盆地的實(shí)際場(chǎng)景需求,結(jié)合以往的儲(chǔ)層預(yù)測(cè)經(jīng)驗(yàn)[8],制定了適用于該地區(qū)的儲(chǔ)層預(yù)測(cè)質(zhì)控流程,并梳理了重點(diǎn)試驗(yàn)參數(shù)。此外,還統(tǒng)一規(guī)定了相應(yīng)的測(cè)試范圍和區(qū)域的基準(zhǔn)參數(shù)[9]。表1展示了儲(chǔ)層預(yù)測(cè)技術(shù)的部分要求,從而保障儲(chǔ)層預(yù)測(cè)的高質(zhì)量,對(duì)各個(gè)質(zhì)控模塊的實(shí)現(xiàn)進(jìn)行具體化和模塊化。
1.3? 過(guò)程質(zhì)控要求
對(duì)于儲(chǔ)層預(yù)測(cè)數(shù)據(jù),以往質(zhì)控方式人為主觀判斷的因素較多,對(duì)質(zhì)控結(jié)果存在一定程度干擾。通過(guò)三級(jí)質(zhì)檢的方式,可以極大降低人為因素所帶來(lái)的影響,以改善抽檢的質(zhì)量[10]。為了確保儲(chǔ)層預(yù)測(cè)的高質(zhì)量,針對(duì)每個(gè)項(xiàng)目采用三級(jí)質(zhì)檢的方式完成項(xiàng)目檢驗(yàn),明確規(guī)定各個(gè)任務(wù)的關(guān)鍵步驟的檢驗(yàn)點(diǎn),制定合格標(biāo)準(zhǔn)以及不同級(jí)別的抽檢率標(biāo)準(zhǔn),具體質(zhì)檢流程如下。
一級(jí)質(zhì)檢:由項(xiàng)目承包商自行進(jìn)行自檢,確保自檢率達(dá)到100%。
二級(jí)質(zhì)檢:由項(xiàng)目監(jiān)督方進(jìn)行抽檢,抽檢率不低于工序中定義的抽檢率要求。
三級(jí)質(zhì)檢:由專(zhuān)業(yè)化小組進(jìn)行抽檢,抽檢率不低于工序中定義的抽檢率要求。
同時(shí),對(duì)每個(gè)質(zhì)控點(diǎn)賦予不同的權(quán)重,以便根據(jù)各個(gè)質(zhì)控點(diǎn)的考核情況進(jìn)行綜合量化評(píng)價(jià)。按照從上到下逐級(jí)抽檢的方式,最終的合格率將根據(jù)三級(jí)質(zhì)檢的合格率相乘得出。
2? 智能質(zhì)控平臺(tái)建設(shè)
基于儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理的組織模式,在降低勘探工作難度的同時(shí),縮短了整體工作周期。然而,在質(zhì)控方面,傳統(tǒng)的質(zhì)控工作由于沒(méi)有統(tǒng)一的處理軟件,數(shù)據(jù)需要在不同平臺(tái)軟件之間進(jìn)行傳輸[11],造成資源浪費(fèi)的同時(shí),也大大影響了工作人員的質(zhì)控效率以及項(xiàng)目的進(jìn)度。同時(shí),現(xiàn)有的質(zhì)檢方式大都采用線下的方式進(jìn)行,這導(dǎo)致了質(zhì)控流程冗長(zhǎng)、數(shù)據(jù)遷移困難等問(wèn)題。為了解決以上問(wèn)題,本文基于儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理的組織模式搭建一體化智能質(zhì)控平臺(tái),以實(shí)現(xiàn)儲(chǔ)層預(yù)測(cè)數(shù)據(jù)處理項(xiàng)目的在線遠(yuǎn)程質(zhì)控,保障整個(gè)質(zhì)控流程的質(zhì)量和效率。
2.1? 總體設(shè)計(jì)
一體化智能質(zhì)控平臺(tái)的搭建從數(shù)據(jù)載入、功能構(gòu)建、用戶定制以及應(yīng)用效果四個(gè)方面進(jìn)行考慮。在數(shù)據(jù)載入方面,對(duì)于GeoEast-iEco平臺(tái)所處理的數(shù)據(jù)進(jìn)行在線載入,而其他處理軟件則需要離線載入;在功能構(gòu)建方面,實(shí)現(xiàn)質(zhì)檢進(jìn)度管理、質(zhì)控報(bào)告及質(zhì)檢記錄等功能;在用戶定制方面,實(shí)現(xiàn)項(xiàng)目承包商、監(jiān)督方以及監(jiān)督用戶聯(lián)合保障質(zhì)檢;在應(yīng)用效果方面,實(shí)現(xiàn)在線遠(yuǎn)程質(zhì)控、質(zhì)控結(jié)果展示和定量評(píng)價(jià)。
2.2? 技術(shù)框架
為了提高儲(chǔ)層預(yù)測(cè)數(shù)據(jù)質(zhì)控的效率,本文基于GeoEast-iEco平臺(tái)搭建了一個(gè)并行計(jì)算結(jié)構(gòu),該結(jié)構(gòu)包括存儲(chǔ)層、資源管理與作業(yè)調(diào)度層、并行框架層、質(zhì)檢算法層以及交互層。
在存儲(chǔ)層方面,采用了多維度動(dòng)態(tài)道頭索引機(jī)制、緩存機(jī)制以及分布式讀寫(xiě)機(jī)制,以實(shí)現(xiàn)高速數(shù)據(jù)讀取的能力。資源管理與作業(yè)調(diào)度層利用集群資源管理技術(shù),確保算法能夠快速執(zhí)行。并行框架層負(fù)責(zé)批量計(jì)算各類(lèi)質(zhì)檢模塊。質(zhì)檢算法層則負(fù)責(zé)進(jìn)行質(zhì)檢的定量計(jì)算。最后,交互層采用GeoToolkit組件[12]為用戶提供各類(lèi)地震成像展示、質(zhì)檢報(bào)告生成等交互功能。
通過(guò)這樣的并行計(jì)算結(jié)構(gòu),能夠提高儲(chǔ)層預(yù)測(cè)數(shù)據(jù)處理的效率,使得儲(chǔ)層預(yù)測(cè)數(shù)據(jù)的質(zhì)檢工作更加高效準(zhǔn)確。
為確保儲(chǔ)層預(yù)測(cè)數(shù)據(jù)的安全性和完整性,采取了一系列安全措施。首先,部署了一個(gè)專(zhuān)用的內(nèi)部網(wǎng)絡(luò),使甲方員工能夠安全地訪問(wèn)乙方公司的內(nèi)部質(zhì)控平臺(tái)服務(wù)器和Geoeast服務(wù)器,同時(shí)滿足甲方質(zhì)檢員異地訪問(wèn)的需求。
在實(shí)現(xiàn)這一目標(biāo)時(shí),乙方公司在公網(wǎng)IP上部署一個(gè)VPN路由器[13],以便快速、便捷地實(shí)現(xiàn)異地用戶對(duì)乙方公司內(nèi)網(wǎng)的訪問(wèn)。不論用戶是在手機(jī)終端還是其他區(qū)域局域網(wǎng)用戶,都可以通過(guò)PPTP/L2TP協(xié)議進(jìn)行訪問(wèn),并且訪問(wèn)數(shù)據(jù)會(huì)進(jìn)行加密,直接進(jìn)入公司內(nèi)網(wǎng)的質(zhì)控平臺(tái)服務(wù)器,從而實(shí)現(xiàn)協(xié)同工作。
通過(guò)這樣的安全措施,能夠確保儲(chǔ)層預(yù)測(cè)數(shù)據(jù)在項(xiàng)目雙方網(wǎng)絡(luò)中的暢通無(wú)阻,同時(shí)保證數(shù)據(jù)的安全性和完整性。用戶可以安心地進(jìn)行遠(yuǎn)程訪問(wèn),并參與質(zhì)控工作。
2.3? 質(zhì)控作業(yè)批處理
對(duì)于質(zhì)控作業(yè)的批處理,基于MapReduce框架[14]Map階段負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行分塊處理,而Reduce階段負(fù)責(zé)數(shù)據(jù)的歸并處理。通過(guò)這種方式,可以有效地完成質(zhì)控作業(yè)的批處理。
用戶可以通過(guò)前端界面監(jiān)管作業(yè)參數(shù)和狀態(tài),查看儲(chǔ)層預(yù)測(cè)數(shù)據(jù)和質(zhì)控項(xiàng)目的展示等功能。通過(guò)這個(gè)前端網(wǎng)頁(yè),用戶可以方便地管理和監(jiān)控質(zhì)控作業(yè)的進(jìn)度,并且查看相關(guān)數(shù)據(jù)和項(xiàng)目的展示。
3? 實(shí)現(xiàn)效果
3.1? 全量質(zhì)控
根據(jù)質(zhì)控指標(biāo)以及定量檢測(cè)質(zhì)控要求,從點(diǎn)、線、面及切片4個(gè)維度對(duì)儲(chǔ)層預(yù)測(cè)數(shù)據(jù)進(jìn)行效果的對(duì)比分析。圖1的左側(cè)展示了執(zhí)行波場(chǎng)分離后的Z分量在去噪前后時(shí)的對(duì)比,圖的右側(cè)展示了Z分量[15]在去噪前后的單炮信噪比,從圖中可以看出,Z分量的噪聲在去噪后從53.88%降低為44.07%,而信號(hào)占比從45.61%提高到55.32%?;谂幚硭惴K和內(nèi)置信噪比計(jì)算模塊,實(shí)現(xiàn)儲(chǔ)層預(yù)測(cè)數(shù)據(jù)的快速信噪比分析計(jì)算;同時(shí)在Web前端頁(yè)面,實(shí)現(xiàn)分布式遠(yuǎn)程信噪比分析計(jì)算功能,滿足了儲(chǔ)層預(yù)測(cè)數(shù)據(jù)處理解釋過(guò)程質(zhì)量控制對(duì)信噪比分析計(jì)算的需求。
在測(cè)井時(shí)獲得的曲線,可反映出不同巖性、層位特征,相同區(qū)域測(cè)井曲線反映了本區(qū)域的地質(zhì)特征,具有一定的規(guī)律性,通過(guò)定性展示特定區(qū)域的聯(lián)井曲線可以對(duì)測(cè)井曲線質(zhì)量進(jìn)行定性質(zhì)控。圖2展示了巖石物理質(zhì)控中的測(cè)井曲線[16]圖,其中,數(shù)據(jù)源為縱波層速度、橫波層速度、密度曲線等,可以定性分析測(cè)井曲線特征與巖性的吻合程度,為后續(xù)處理解釋工作提供了質(zhì)量參考。
3.2? 三級(jí)質(zhì)檢在線管理
經(jīng)由本平臺(tái)創(chuàng)建的質(zhì)控項(xiàng)目支持三級(jí)質(zhì)檢的線上管理,質(zhì)控項(xiàng)目信息包括油田質(zhì)檢人員、項(xiàng)目承包人員以及專(zhuān)業(yè)監(jiān)督人員,由甲方提供質(zhì)檢需求,乙方進(jìn)行質(zhì)控意見(jiàn)的在線反饋,數(shù)據(jù)經(jīng)由內(nèi)部專(zhuān)用網(wǎng)絡(luò)進(jìn)行存儲(chǔ)和轉(zhuǎn)發(fā),并通過(guò)質(zhì)控平臺(tái)查看相關(guān)質(zhì)控?cái)?shù)據(jù)報(bào)告以進(jìn)行在線審核。
3.3? 質(zhì)控報(bào)告在線生成
傳統(tǒng)的質(zhì)控記錄工作通常是線下進(jìn)行的,工作人員需要依賴專(zhuān)業(yè)軟件來(lái)記錄質(zhì)檢數(shù)據(jù),例如質(zhì)檢數(shù)量、合格率等,并且需要進(jìn)行線下的人工簽字。為了解決這個(gè)問(wèn)題,智能質(zhì)控平臺(tái)構(gòu)建了一個(gè)網(wǎng)頁(yè)端的系統(tǒng),可以在線生成質(zhì)檢記錄和質(zhì)控報(bào)告。
針對(duì)質(zhì)檢過(guò)程的在線記錄,系統(tǒng)能夠自動(dòng)獲取質(zhì)檢用戶的信息以及所有的操作,并生成質(zhì)檢記錄表。在這個(gè)過(guò)程中,系統(tǒng)會(huì)完成定量質(zhì)控,而質(zhì)檢人員則負(fù)責(zé)定性判斷。質(zhì)檢表中的關(guān)鍵字段由平臺(tái)根據(jù)相應(yīng)的數(shù)據(jù)自動(dòng)生成,這不僅提高了質(zhì)控處理的效率,也避免了人為主觀因素的影響。
另外,針對(duì)質(zhì)控報(bào)告的在線生成,平臺(tái)會(huì)將質(zhì)控點(diǎn)的處理數(shù)據(jù)進(jìn)行存儲(chǔ),并按照指定的模板生成相應(yīng)的質(zhì)控報(bào)告文檔。報(bào)告中會(huì)說(shuō)明檢驗(yàn)標(biāo)準(zhǔn)以及質(zhì)控結(jié)果是否合格,從而簡(jiǎn)化了工作人員的報(bào)告流程。
4? 結(jié)束語(yǔ)
通過(guò)對(duì)儲(chǔ)層預(yù)測(cè)數(shù)據(jù)分布式處理組織模式的探索,成功地制定了質(zhì)控處理技術(shù)體系,并在此基礎(chǔ)上搭建了一體化智能質(zhì)控平臺(tái)。平臺(tái)實(shí)現(xiàn)了在線質(zhì)控、遠(yuǎn)程質(zhì)控、三級(jí)質(zhì)檢在線管理、質(zhì)控報(bào)告和質(zhì)檢記錄的在線生成等功能,大大提高了質(zhì)量和效率。研究結(jié)果表明,智能質(zhì)控平臺(tái)對(duì)于改善質(zhì)控流程、提升效率和質(zhì)量具有重大價(jià)值。后續(xù)將進(jìn)一步探索這個(gè)領(lǐng)域,包括利用深度學(xué)習(xí)技術(shù)如ResNet和GAN等深度神經(jīng)網(wǎng)絡(luò),來(lái)提高質(zhì)控處理結(jié)果的精度。
參考文獻(xiàn):
[1] 滕吉文,司薌,王玉辰.我國(guó)化石能源勘探,開(kāi)發(fā)潛能與未來(lái)[J].石油物探,2021,60(1):1-12.
[2] 李虹,蔡希玲,王學(xué)軍,等.海量地震數(shù)據(jù)處理方案與技術(shù)發(fā)展趨勢(shì)[J].中國(guó)石油勘探,2014,19(4):48-55.
[3] 李鐵柱,韓文娜,王鐵成.VSP數(shù)據(jù)管理質(zhì)量控制方法探討[J].中國(guó)信息界,2012(10):41-43.
[4] HORNBY B E, YU J, SHARP J A, et al. VSP: Beyond time-to-depth[J]. The Leading Edge, 2006,25(4):446-452.
[5] 王子蘭,王仕儉,李素閃,等.GeoEast處理解釋一體化應(yīng)用[J].天然氣工業(yè),2007(S1):222-224.
[6] WANG X-W, QIN G-S, ZHAO W-F, et al. The application of forward modeling technique in seismic acquisition de-sign[J]. Progress in Geophysics, 2012,27(2):642-650.
[7] WANG H, LI M, SHANG X. Current developments on micro-seismic data processing[J]. Journal of Natural Gas Science and Engineering, 2016(32):521-537.
[8] 王喜雙,趙邦六,董世泰,等.油氣工業(yè)地震勘探大數(shù)據(jù)面臨的挑戰(zhàn)及對(duì)策[J].中國(guó)石油勘探,2014,19(4):43.
[9] LONGDE S, CHAOLIANG F, LIMING S, et al. Innovation and prospect of geophysical technology in the exploration of deep oil and gas[J]. Petroleum Exploration and Development, 2015,42(4):454-465.
[10] 郭樹(shù)祥,王立歆,韓文功.疊前地震數(shù)據(jù)優(yōu)化處理技術(shù)分析[J].石油物探,2006,45(5):497-502.
[11] 冷廣升.地震數(shù)據(jù)采集質(zhì)量控制方法研究與應(yīng)用[J].中國(guó)煤炭地質(zhì),2010,22(S1):67-72,76.
[12] BALOVNEV O, BODE T, BREUNIG M, et al. The story of the GeoToolKit-an object-oriented geodatabase kernel system[J]. GeoInformatica, 2004,8(1):5-47.
[13] SINGH K K V, GUPTA H. A New Approach for the Se-curity of VPN[C]//Proceedings of the Second International conference on Information and Communication Technology for Competitive Strategies, 2016:1-5.
[14] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107-113.
[15] LU J, WANG Y, CHEN J, et al. P-and S-mode separation of three-componentdata[J]. Exploration Geophysics, 2019,50(4):430-448.
[16] MATEEVA A, ZWARTJES P. Depth calibration of DAS channels: A new data-driven method[C]//79th EAGE Conference and Exhibition 2017,2017:1-5.