米石云 牛 敏 吳珍珍 李大偉 張 倩
(中國石油勘探開發(fā)研究院)
長期、大規(guī)模利用海外油氣資源是保障國家能源安全的重大戰(zhàn)略[1-6]。自“十一五”以來,國家持續(xù)設立全球油氣資源評價重大專項,通過攻關研究,形成了一系列自主創(chuàng)新成果:一是創(chuàng)新古板塊位置原型盆地、巖相古地理與成藏要素重建技術(shù),對油氣進行溯源定位,揭示了全球油氣富集規(guī)律[7-8];二是創(chuàng)建以“成藏組合”為單元的油氣資源評價技術(shù)體系,實現(xiàn)對全球常規(guī)、非常規(guī)油氣資源的定量評價,獲得擁有自主知識產(chǎn)權(quán)的全球油氣資源潛力數(shù)據(jù)[7,9];三是開創(chuàng)了資源、經(jīng)濟和風險評估于一體的海外油氣資產(chǎn)快速評價體系,實現(xiàn)了海外油氣資源的規(guī)模化利用[10-11];四是首次建成集資源評價數(shù)據(jù)庫與資源評價應用軟件于一體的全球油氣地質(zhì)與資源評價數(shù)據(jù)平臺,有力支撐了中國石油天然氣集團有限公司(簡稱中國石油)的全球油氣資源評價與選區(qū)選帶研究[12]。為方便廣大社會公眾有效共享使用全球油氣資源評價國家專項研究成果,便捷準確地查詢中國石油勘探開發(fā)研究院一年一度發(fā)布的《全球油氣勘探開發(fā)形勢及油公司動態(tài)》報告、全球油氣資源潛力數(shù)據(jù)及全球行業(yè)動態(tài)信息,從而更好地促進中國油氣公司與民營企業(yè)對海外油氣資源的開發(fā)與利用,中國石油首次建成包含全球含油氣盆地知識庫的全球油氣資源信息系統(tǒng)發(fā)布網(wǎng)站,并于2020年9月22日在國家能源局主持下公開發(fā)布上線。
為了讓廣大社會公眾更好地熟悉了解全球油氣資源信息系統(tǒng),促進對該系統(tǒng)中豐富且珍貴的全球油氣資源知識、信息的有效利用,本文從學術(shù)與技術(shù)層面介紹該系統(tǒng)的研制建設思路、發(fā)布的主要知識信息內(nèi)容、創(chuàng)新與實現(xiàn)的關鍵技術(shù)、推廣應用前景等,以期給中國油氣行業(yè)管理層、各油氣公司和社會公眾提供更完善的全球油氣地質(zhì)與資源相關信息服務,助推海外資源的獲取與利用。
人類社會早已進入互聯(lián)網(wǎng)時代,通過互聯(lián)網(wǎng)上的大型綜合門戶網(wǎng)站及各類專業(yè)網(wǎng)站查詢獲取最新的信息資訊及專業(yè)知識,早已成為人們最常用、最主要的信息獲取方式。因此,為了向全社會公開與持續(xù)發(fā)布全球油氣資源評價項目成果及相關信息,應采用在公網(wǎng)環(huán)境下可自由訪問的專業(yè)網(wǎng)站方式。研制與建設外網(wǎng)環(huán)境下獨立運行的全球油氣資源信息系統(tǒng)發(fā)布網(wǎng)站(圖1),內(nèi)含與嵌入所要發(fā)布的各項內(nèi)容及相應應用軟件成為必然的技術(shù)選擇。作為專門發(fā)布油氣資源信息的專業(yè)網(wǎng)站,全球油氣資源信息系統(tǒng)的研制與建設,應實現(xiàn)以下四方面的總體目標:
圖1 全球油氣資源信息系統(tǒng)首頁面示意圖Fig.1 Homepage of the Global Petroleum Resources Information System
(1)提供并發(fā)布全球、各大區(qū)、海外主要含油氣盆地的油氣地質(zhì)特征、油氣富集規(guī)律、油氣資源潛力的知識與認識。
(2)發(fā)布與不斷更新全球油氣資源評價項目中關于全球常規(guī)/非常規(guī)資源潛力評價的具體結(jié)果數(shù)據(jù)。
(3)持續(xù)跟蹤分析全球油氣勘探開發(fā)動態(tài)、國際大油公司經(jīng)營策略與發(fā)展方向,發(fā)布與更新中國石油勘探開發(fā)研究院相應專題研究成果。
(4)持續(xù)收集、整理與上載全球油氣行業(yè)新聞信息、已公開發(fā)布可共享使用的油氣行業(yè)政策、法律合同、行業(yè)標準等實用資料,為海外油氣資產(chǎn)獲取提供有益的輔助信息。
通常,以新聞信息為主的資訊網(wǎng)站(如新浪網(wǎng)、搜狐網(wǎng))大都以單一的圖、文結(jié)合網(wǎng)頁來展現(xiàn)單個主題內(nèi)容,用戶交互操作極為簡單(鼠標單擊相應鏈接,直接打開對應網(wǎng)頁閱讀、瀏覽)[13]。但作為專業(yè)的全球油氣資源知識與行業(yè)資訊查詢應用網(wǎng)站,為了更好地滿足用戶對相應專業(yè)數(shù)據(jù)查詢、分析的應用需求,清晰展現(xiàn)不同層級對象、不同專題知識間的隸屬與關聯(lián)關系等,必須具備通用的數(shù)據(jù)庫查詢應用功能[14],如樹導航、多參數(shù)組合查詢、專業(yè)圖形顯示工具、智能報表生成、多量綱展示、WebGIS地圖導航等,而且還應具有專門針對油氣地質(zhì)與資源潛力知識的規(guī)范化、卡片式/百科式展示功能。為此,特別采用了基于網(wǎng)絡的油氣地質(zhì)知識管理應用系統(tǒng)與專業(yè)網(wǎng)站研制構(gòu)建相結(jié)合的技術(shù)方案:首先,研制構(gòu)建網(wǎng)站主體框架,在該框架下逐一實現(xiàn)結(jié)構(gòu)層次相對簡單、交互操作較少的應用模塊;其次,單獨研制開發(fā)專門用來管理與展示全球、大區(qū)、盆地各層級對象油氣地質(zhì)與資源潛力知識的專業(yè)應用系統(tǒng)——全球含油氣盆地知識庫;最后在統(tǒng)一用戶管理機制下將該應用系統(tǒng)嵌入到網(wǎng)站主體框架中,再整體部署上線。
全球油氣資源信息系統(tǒng)網(wǎng)站從功能結(jié)構(gòu)角度可大體劃分為數(shù)據(jù)層、業(yè)務邏輯層、表現(xiàn)層3層結(jié)構(gòu)(圖2)。
圖2 全球油氣資源信息系統(tǒng)網(wǎng)站層次架構(gòu)圖Fig.2 Hierarchical structure of the Global Petroleum Resources Information System
2.1.1 數(shù)據(jù)層
數(shù)據(jù)層即數(shù)據(jù)存儲平臺,采用關系型數(shù)據(jù)庫與全文數(shù)據(jù)庫相結(jié)合的方式實現(xiàn)對所有資源數(shù)據(jù)的存儲和管理。利用關系型數(shù)據(jù)庫的業(yè)務處理能力、全文數(shù)據(jù)庫的海量存儲和檢索性能,采用全文檢索技術(shù)實現(xiàn)對關系型數(shù)據(jù)庫中數(shù)據(jù)資源的全文索引創(chuàng)建,由全文數(shù)據(jù)庫提供統(tǒng)一的全文檢索功能。
2.1.2 業(yè)務邏輯層
業(yè)務邏輯層是整個網(wǎng)站系統(tǒng)建設的核心?;诘讓訑?shù)據(jù)庫系統(tǒng),采用VSB(Visual Site Builder)網(wǎng)站群管理技術(shù)[15]、全文檢索技術(shù)、內(nèi)容管理技術(shù)、安全和防火墻技術(shù)、工作流技術(shù)及統(tǒng)一認證技術(shù)來搭建網(wǎng)站總體業(yè)務應用服務,包括網(wǎng)站內(nèi)容管理、信息發(fā)布、信息采集、搜索引擎服務等,并通過統(tǒng)一身份認證服務對網(wǎng)站內(nèi)所有業(yè)務應用進行統(tǒng)一用戶數(shù)據(jù)整合。
2.1.3 表現(xiàn)層
表現(xiàn)層為統(tǒng)一門戶網(wǎng)站提供交流互動、子站服務等直接面向訪問者的服務功能,實現(xiàn)信息展示、應用服務等人機交互功能,為系統(tǒng)管理員、信息維護員、瀏覽者等提供系統(tǒng)操作界面。
全球含油氣盆地知識庫是基于已有的全球油氣資源信息系統(tǒng)(企業(yè)內(nèi)部版)開發(fā)平臺研制建設的,是專門針對全球、大區(qū)、主要含油氣盆地油氣地質(zhì)與資源潛力相關的各類數(shù)據(jù)、信息、知識進行規(guī)范化、卡片式在線管理、展示與應用的系統(tǒng)。該知識庫主要內(nèi)容與功能包括對全球、大區(qū)、盆地三級對象的管理;油氣地質(zhì)與資源知識管理、展示與應用;油氣地質(zhì)與資源知識內(nèi)容整理、制作與入庫。其中知識管理定義了所有知識的層次構(gòu)成與具體內(nèi)容組成,對知識管理系統(tǒng)研制與知識庫資源建設具有關鍵的統(tǒng)領作用。
全球含油氣盆地知識庫是具有完整知識管理功能并基于網(wǎng)絡運行的應用系統(tǒng),具體由GIS導航、系統(tǒng)管理、知識采集、知識審核、知識展示、知識檢索、數(shù)據(jù)統(tǒng)計、個人中心、數(shù)據(jù)查看共九大功能模塊組成(圖3)。
圖3 全球含油氣盆地知識庫功能架構(gòu)圖Fig.3 Functional architecture of knowledge database of global petroliferous basins
全球油氣資源信息系統(tǒng)主要發(fā)布全球油氣資源評價項目及與之相關的中國石油勘探開發(fā)研究院自主研究成果、油氣行業(yè)動態(tài)信息和油氣行業(yè)內(nèi)已公開發(fā)布的政策法規(guī)、標準等可供共享的資料三大方面。其中研究成果是核心內(nèi)容,具體又分為全球含油氣盆地知識庫、全球油氣資源評價成果數(shù)據(jù)、《全球油氣勘探開發(fā)形勢及油公司動態(tài)》報告3個方面。
3.1.1 全球含油氣盆地知識庫
全球含油氣盆地知識庫是全球油氣資源信息系統(tǒng)的核心內(nèi)容,從常規(guī)與非常規(guī)資源兩方面按全球、大區(qū)、盆地3個層級,發(fā)布與提供相應對象的油氣地質(zhì)特征及資源潛力認識(圖4)。由于實現(xiàn)了各知識單元的碎片化、數(shù)據(jù)庫管理,所以能以知識主題樹、規(guī)范報告、GIS專題圖等多種方式靈活展現(xiàn)相應知識信息。
圖4 全球含油氣盆地知識庫展示界面Fig.4 Display interface of knowledge database of global petroliferous basins
3.1.1.1 全球知識子庫
全球知識子庫包含全球油氣地質(zhì)與常規(guī)資源知識及全球非常規(guī)資源知識兩大部分。
(1)全球油氣地質(zhì)與常規(guī)資源知識。
全球油氣地質(zhì)與常規(guī)資源知識系統(tǒng)總結(jié)與概述全球油氣資源評價項目中關于全球油氣地質(zhì)與常規(guī)油氣分布規(guī)律、油氣資源潛力評價成果,主要包括(全球)盆地概況、構(gòu)造背景、沉積體系、成藏要素、資源潛力五大方面(圖4)。其中,盆地概況分為全球主要含油氣盆地的地理分布與類型分布(主要為克拉通盆地、大陸裂谷盆地、被動陸緣盆地、前陸盆地、弧后盆地、弧前盆地六大類[16])。構(gòu)造背景分為構(gòu)造特征(全球主要板塊構(gòu)造劃分、全球主要地質(zhì)歷史時期縫合造山帶分布及特征)、構(gòu)造演化(板塊構(gòu)造演化歷史及階段劃分、主要地質(zhì)歷史時期板塊構(gòu)造格局、主要地質(zhì)歷史時期原型盆地形成與分布)兩大方面。沉積體系分為巖相古地理分布和巖相古地理演化。成藏要素則從烴源巖、儲層、蓋層三方面揭示全球油氣成藏基本要素與總體規(guī)律。資源潛力則在全球?qū)用嫔峡偨Y(jié)全球油氣資源評價項目中關于油氣儲量、產(chǎn)量統(tǒng)計與資源量評價結(jié)果,包括全球已發(fā)現(xiàn)油氣儲量分布、已發(fā)現(xiàn)油氣田儲量增長、待發(fā)現(xiàn)油氣資源分布和最終可采油氣資源分布。
(2)全球非常規(guī)資源知識。
全球非常規(guī)資源知識首先總述全球油氣資源評價項目中關于重油、油砂、致密油(頁巖油)、油頁巖油、頁巖氣、致密氣和煤層氣7類非常規(guī)油氣資源類型定義及相應的資源評價方法,以及全球?qū)用娴姆浅R?guī)油氣資源評價結(jié)果與資源分布特征;然后按重油、油砂、致密油(頁巖油)、油頁巖油、頁巖氣、致密氣和煤層氣分別介紹每種資源類型的勘探開發(fā)利用現(xiàn)狀,以及該資源類型分大區(qū)、分國家、分盆地、分層系的評價結(jié)果,并總結(jié)其全球資源富集規(guī)律[17]。
3.1.1.2 大區(qū)知識子庫
大區(qū)知識子庫包含全球范圍內(nèi)劃分的非洲、中東、中亞、俄羅斯、南美、北美、亞太、歐洲8個大區(qū)相應的油氣地質(zhì)與常規(guī)資源知識及各大區(qū)非常規(guī)資源知識。
(1)各大區(qū)油氣地質(zhì)與常規(guī)資源知識。
全球油氣資源評價項目將全球含油氣盆地分別納入8個大區(qū)中進行評價。在完成各大區(qū)內(nèi)所有盆地地質(zhì)研究與常規(guī)資源評價基礎上,在大區(qū)層面上對基本概況、基礎地質(zhì)特征、石油地質(zhì)條件、常規(guī)資源潛力進行歸納總結(jié),形成對應的各大區(qū)常規(guī)資源評價專題報告。
(2)各大區(qū)非常規(guī)資源知識。
與各大區(qū)常規(guī)資源知識基本類似,在完成各大區(qū)內(nèi)主要盆地的非常規(guī)資源評價基礎上,在大區(qū)層面上對大區(qū)內(nèi)非常規(guī)資源總體情況、資源分布進行歸納總結(jié),形成對應的各大區(qū)非常規(guī)資源評價專題報告,其中資源分布包括礦種類型分布、盆地分布、盆地類型分布及重點盆地礦種勘探開發(fā)現(xiàn)狀4個方面。
3.1.1.3 盆地知識子庫
盆地知識子庫是含油氣盆地知識庫最重要的主體內(nèi)容,包含了全球主要含油氣盆地相應的盆地油氣地質(zhì)與常規(guī)資源知識及盆地非常規(guī)資源知識兩大部分。
(1)盆地油氣地質(zhì)與常規(guī)資源知識。
盆地油氣地質(zhì)與常規(guī)資源知識是盆地知識子庫的主體內(nèi)容。根據(jù)盆地的勘探開發(fā)成熟度、資源富集程度及資料獲取與掌握情況,按重點、詳細、一般3個評價層次進行石油地質(zhì)條件與資源潛力評價,從而形成對應的各盆地研究報告[18]。研究報告主要分為以下七大方面:(1)盆地概況;(2)勘探開發(fā)概況;(3)基本地質(zhì)特征;(4)成藏條件;(5)成藏組合;(6)典型油氣田;(7)資源潛力。其中基本地質(zhì)特征及成藏條件是研究重點,基本地質(zhì)特征從構(gòu)造、地層和沉積兩大方面揭示盆地的成盆演化歷史;成藏條件從烴源巖、儲層、蓋層、含油氣系統(tǒng)、圈閉條件五大方面總結(jié)盆地油氣成藏過程與分布規(guī)律。
(2)盆地非常規(guī)資源知識。
對盆地中發(fā)育的各類非常規(guī)資源的地質(zhì)特征進行分析總結(jié),并在此基礎上選用相適應的評價方法評價其資源潛力。比如北美大區(qū)的阿爾伯塔盆地,該盆地除了蘊含豐富的常規(guī)油氣資源外,非常規(guī)油氣資源也很發(fā)育,該盆地非常規(guī)資源知識包括油砂、頁巖氣、煤層氣3類礦種的地質(zhì)特征與潛力知識信息。
3.1.2 全球油氣資源評價成果數(shù)據(jù)
全球油氣資源評價成果數(shù)據(jù)包含全球油氣資源評價項目中關于全球油氣儲量、產(chǎn)量、資源量評價結(jié)果的詳細數(shù)據(jù),是對全球油氣資源評價項目最直接、最重要成果的數(shù)字化展現(xiàn)[19]。該數(shù)據(jù)分為常規(guī)資源數(shù)據(jù)與非常規(guī)資源數(shù)據(jù)兩大方面,其中常規(guī)資源數(shù)據(jù)包括從各盆地成藏組合到盆地,再到國家、大區(qū)直至全球各級別的相應數(shù)據(jù);非常規(guī)資源數(shù)據(jù)則包括重油、油砂、致密油(頁巖油)、油頁巖油、頁巖氣、致密氣、煤層氣共7個礦種的從盆地到國家、大區(qū)直至全球的各級別數(shù)據(jù)。用戶可以利用系統(tǒng)提供的數(shù)據(jù)庫查詢界面,交互、便捷地查閱瀏覽各類數(shù)據(jù);也可以將所選定的特定數(shù)據(jù)以自動生成Excel數(shù)據(jù)表或自動生成數(shù)據(jù)報表的方式輸出。
全球油氣資源評價成果數(shù)據(jù)具有以下4個特點:(1)包含基于中國石油海外現(xiàn)有項目、新項目評價第一手資料及商業(yè)數(shù)據(jù)庫等來源的基礎資料;(2)以成藏組合為單元,按不同勘探程度選用相適應的資源評價方法;(3)常規(guī)資源數(shù)據(jù)按石油、凝析油、天然氣分別提供包括已發(fā)現(xiàn)油氣田儲量增長量、待發(fā)現(xiàn)油氣資源量及待發(fā)現(xiàn)油氣儲量、產(chǎn)量在內(nèi)的各類別數(shù)據(jù);(4)在后臺數(shù)據(jù)管理中采用數(shù)據(jù)驅(qū)動的更新技術(shù),保證所有數(shù)據(jù)的自動更新及一致性。
3.1.3 《全球油氣勘探開發(fā)形勢及油公司動態(tài)》報告
中國石油勘探開發(fā)研究院一年一度發(fā)布的《全球油氣勘探開發(fā)形勢及油公司動態(tài)》報告,目前已上載發(fā)布2017年度[20]、2018年度[21]、2019年度報告[22],隨著該報告發(fā)布的常態(tài)化,將逐年更新上載。
《全球油氣勘探開發(fā)形勢及油公司動態(tài)》報告以全球油氣資源評價結(jié)果及全球勘探開發(fā)動態(tài)數(shù)據(jù)信息為基礎,系統(tǒng)梳理全球常規(guī)及非常規(guī)油氣資源、儲量、產(chǎn)量數(shù)據(jù),跟蹤全球油氣勘探開發(fā)形勢,解剖國際油公司勘探開發(fā)戰(zhàn)略與投資方向,從全球資源、行業(yè)形勢、油公司動態(tài)及觀察思考4個方面按年度發(fā)布研究報告。報告系統(tǒng)論述了全球油氣勘探開發(fā)形勢、全球油氣勘探開發(fā)發(fā)展趨勢、油公司發(fā)展動態(tài)與策略,形成了對全球油氣勘探開發(fā)形勢、發(fā)展方向及油公司動向的認識與判斷,提出了對中國油氣公司的啟示和建議。
主要是從中國石油新聞中心的門戶網(wǎng)站上抓取最新行業(yè)信息,經(jīng)智能篩選與自動排版處理后,實時分類上載到國內(nèi)新聞與國際新聞欄目中,以便第一時間給用戶提供查詢最新行業(yè)資訊的渠道。
資料共享模塊目前包括兩個欄目:一是資源國法律與合同,共整理收錄了中國石油20多年來在海外油氣合作中所收集到的129個國家3400多份油氣法規(guī)與合同文件;二是油氣行業(yè)標準、規(guī)范,共包含國內(nèi)油氣行業(yè)國家標準108個、行業(yè)標準428個、企業(yè)標準181個。
全球油氣資源評價知識碎片化管理與規(guī)范報告自動生成技術(shù)包涵資源評價知識碎片化管理體系、基于數(shù)據(jù)庫的碎片化知識管理與交互展示技術(shù)、油氣資源評價規(guī)范報告自動生成技術(shù)三大方面,為全球含油氣盆地知識庫建設與應用、資源評價知識資源重用與高效更新等方面提供了系統(tǒng)的理論指導與堅實的技術(shù)保障[23]。
4.1.1 資源評價知識碎片化管理體系
資源評價知識碎片化管理體系包括知識主題分類管理體系和知識描述管理體系兩方面。知識主題分類管理體系是指組成特定專題知識的知識框架,具體由不同級別的標題及標題嵌套組成。如在盆地油氣地質(zhì)與常規(guī)資源知識管理體系中,首先劃分出盆地概況、勘探開發(fā)概況、基本地質(zhì)特征、成藏條件、成藏組合、典型油氣田、資源潛力7個一級標題,在各一級標題下可劃分出次一級標題或不再細分,如基本地質(zhì)特征標題下劃分出構(gòu)造、地層和沉積兩個次級標題,依此類推。知識描述管理體系則規(guī)定了不同知識主題下知識實體所存放的位置(一般大都存放在末級標題下)及知識實體所應包含的具體內(nèi)容與形式。比如對盆地概況的知識描述管理體系中規(guī)定,盆地概況由介紹該盆地總體基本情況的文字段落、盆地及油氣田地理位置圖、盆地基礎數(shù)據(jù)表三大部分組成,其中的文字段落一般應包括盆地的地理位置、大地構(gòu)造位置、面積、邊界、類型、主要沉積巖層的層位和厚度、盆地資源概況等相關信息。
4.1.2 基于數(shù)據(jù)庫的碎片化知識管理與交互展示技術(shù)
按照所建立的不同對象的知識體系建設與之相適應的數(shù)據(jù)庫,并開發(fā)實現(xiàn)相應的碎片化知識錄入、排版及按知識主題交互展示功能,從而實現(xiàn)基于數(shù)據(jù)庫的碎片化資源評價知識管理與交互展示應用。基于數(shù)據(jù)庫的碎片化知識管理與交互展示技術(shù)具體包括與知識碎片化管理體系相對應的數(shù)據(jù)庫結(jié)構(gòu)與數(shù)據(jù)存儲、碎片化知識內(nèi)容實體的錄入、碎片化知識內(nèi)容實體排版、碎片化知識內(nèi)容實體標簽與檢索實現(xiàn)、不同知識主題的知識交互展示等技術(shù)。
4.1.3 油氣資源評價規(guī)范報告自動生成技術(shù)
由于實現(xiàn)了對不同級別對象(全球/大區(qū)/盆地)常規(guī)/非常規(guī)資源評價知識基于數(shù)據(jù)庫的碎片化存儲管理,每一條基本知識單元(文字片段/圖件/數(shù)據(jù)表格)均得以在數(shù)據(jù)庫中獨立存放,因此通過調(diào)用與相應對象的知識體系相配套的預設文檔模板,抽提與實現(xiàn)每一條基本知識單元的對應展示樣式,就能自動生成不同級別對象的規(guī)范化資源評價報告(Word版或PDF版)[24],如全球常規(guī)資源評價報告、全球非常規(guī)資源評價報告、某大區(qū)常規(guī)資源評價報告、某盆地常規(guī)資源評價報告、某盆地非常規(guī)資源評價報告等。
油氣行業(yè)實時資訊的獲取和展示是基于全球油氣資源信息系統(tǒng)的動態(tài)信息庫子系統(tǒng),該子系統(tǒng)主要由網(wǎng)絡爬蟲模塊(主要由HTTP下載模塊、鏈接分析模塊和下載控制模塊組成)、網(wǎng)頁分析器(包括非結(jié)構(gòu)化數(shù)據(jù)抽取模塊和結(jié)構(gòu)化數(shù)據(jù)抽取模塊)、文本分類器組成,通過深度集成動態(tài)信息管理與內(nèi)容管理實現(xiàn)。動態(tài)信息管理負責獲取新聞資訊,內(nèi)容管理負責自動將這些內(nèi)容排版、關聯(lián)并發(fā)布,從而形成一整套閉環(huán)的操作流程來支持油氣行業(yè)實時資訊的獲取與展示。
資訊獲取工作流程分為非結(jié)構(gòu)化數(shù)據(jù)抽取流程和結(jié)構(gòu)化數(shù)據(jù)抽取流程。其中非結(jié)構(gòu)化數(shù)據(jù)抽取流程相對復雜:網(wǎng)絡爬蟲從訪問隊列中取得資源鏈接地址下載后,進行鏈接分析,將分析結(jié)果存入鏈接地址數(shù)據(jù)庫,下載的網(wǎng)頁經(jīng)過網(wǎng)頁分析器的非結(jié)構(gòu)化數(shù)據(jù)抽取,自動分析出解析模板,并通過模版去除無用的噪聲數(shù)據(jù),形成結(jié)果數(shù)據(jù)[25],結(jié)果數(shù)據(jù)再經(jīng)過文本分類器按照分類體系分類后,存入到后臺數(shù)據(jù)庫中。
由此可見,行業(yè)動態(tài)信息的自動獲取與發(fā)布,采用與實現(xiàn)了網(wǎng)絡爬蟲、數(shù)據(jù)萃取與清理、自動排版與發(fā)布等系列配套新技術(shù)。
數(shù)據(jù)驅(qū)動的更新就是以數(shù)據(jù)庫結(jié)構(gòu)中每條數(shù)據(jù)記錄中的每個數(shù)據(jù)項為原點,當該數(shù)據(jù)項取值發(fā)生變化后,系統(tǒng)發(fā)散性地驅(qū)動與其有關聯(lián)關系的所有數(shù)據(jù)項進行自動同步更新。也就是說,當一個數(shù)據(jù)項改變后,將自動觸發(fā)所有與其有關聯(lián)關系的數(shù)據(jù)項同步進行計算與更新。
全球油氣資源評價匯總結(jié)果數(shù)據(jù)中充斥著非常繁雜的數(shù)據(jù)計算與更新過程,關聯(lián)關系復雜,給手動管理數(shù)據(jù)更新及其一致性帶來了巨大困難。而由于其關聯(lián)關系可固定、計算公式可統(tǒng)一,使自動化更新管理成為維護資源評價匯總數(shù)據(jù)的最佳手段。
為此,將全球油氣資源評價成果數(shù)據(jù)庫中的所有數(shù)據(jù)表分為基礎數(shù)據(jù)表和統(tǒng)計關聯(lián)更新數(shù)據(jù)表兩大類。其中的統(tǒng)計關聯(lián)更新數(shù)據(jù)表是通過特定規(guī)則匯總相應基礎數(shù)據(jù)表中的數(shù)據(jù)來實時生成的數(shù)據(jù)表。全球油氣資源評價成果數(shù)據(jù)庫的數(shù)據(jù)表中,包含了非常多的表內(nèi)計算和關聯(lián)數(shù)據(jù)表計算。僅以大區(qū)常規(guī)資源量數(shù)據(jù)表為例,表內(nèi)計算數(shù)據(jù)項就有10余個,必須通過認真梳理數(shù)據(jù)項及數(shù)據(jù)表之間的關聯(lián)關系、計算關系、更新關系,使其成為數(shù)據(jù)驅(qū)動更新的可靠依據(jù)。
在確定了基礎數(shù)據(jù)表和統(tǒng)計關聯(lián)更新數(shù)據(jù)表及其數(shù)據(jù)轉(zhuǎn)換關系的基礎上,再進行數(shù)據(jù)驅(qū)動處理。數(shù)據(jù)驅(qū)動處理包括訂閱數(shù)據(jù)更新、同步更新數(shù)據(jù)兩大步驟。
訂閱數(shù)據(jù)更新采用ORACLE數(shù)據(jù)庫內(nèi)嵌的CDC(Change Data Capture,改變數(shù)據(jù)捕獲)技術(shù)[26]。當用戶對基礎數(shù)據(jù)表進行插入、更新或刪除等操作的同時就可以提取數(shù)據(jù),并且變化的數(shù)據(jù)被保存在數(shù)據(jù)庫的變化表中,這樣就可以捕獲發(fā)生變化的數(shù)據(jù);然后利用數(shù)據(jù)庫視圖,就可以一種可控的方式提供給目標程序進行操作。
同步更新數(shù)據(jù)本質(zhì)就是建立一個訂閱者角色,首先獲取訂閱數(shù)據(jù)更新的數(shù)據(jù),之后結(jié)合數(shù)據(jù)轉(zhuǎn)換的規(guī)則同步進行所有關聯(lián)數(shù)據(jù)的更新。
當全球油氣資源評價成果數(shù)據(jù)庫基礎數(shù)據(jù)表中的某一個或一條記錄發(fā)生了數(shù)據(jù)變化,就會立即跨數(shù)據(jù)表更新所有關聯(lián)數(shù)據(jù)字段,從而實現(xiàn)全球油氣資源評價成果數(shù)據(jù)從最基本對象單元(成藏組合)自動匯總到盆地、大區(qū)、全球各級別對象并自動維護更新的目標,保證了結(jié)果數(shù)據(jù)的準確性與一致性(圖5)。
圖5 數(shù)據(jù)驅(qū)動的自動更新技術(shù)流程圖Fig.5 Flow chart of data driven automatic updating technology
全球油氣資源評價成果數(shù)據(jù)發(fā)布欄目中,除了提供將不同級別(盆地、國家、大區(qū)、全球)資源量結(jié)果數(shù)據(jù)導出到Excel表格輸出外,對最終的各級別匯總結(jié)果數(shù)據(jù)表還提供了規(guī)范報表輸出功能,用戶可以直接打印或?qū)氲狡渌臋n中使用。為了減少對各種類型報表的開發(fā)工作量及在導出報表操作時計算機系統(tǒng)產(chǎn)生的實時計算處理壓力,從而提高響應速度,在報表開發(fā)中采用與實現(xiàn)了模板化報表自動生成技術(shù)。
模板化報表的自動生成就是先定義報表文檔樣式,然后通過系統(tǒng)自動識別出報表框架,再結(jié)合自定義的報表具體數(shù)據(jù)解析標簽或具體的接入程序代碼形成對應的報表模板,并預存在系統(tǒng)中,當實際導出報表時實時將數(shù)據(jù)填充到對應單元格而自動生成報表的過程[27]。使用模板自動生成報表的技術(shù)優(yōu)勢主要體現(xiàn)在兩個方面:一是能快速定義報表結(jié)構(gòu);二是系統(tǒng)只需要專注報表的數(shù)據(jù)處理,從而提高報表生成效率。
全球油氣資源信息系統(tǒng)的研制建成并正式上線運行,為中國油氣公司及社會公眾共享使用國家專項研究成果提供了可靠途徑,為全球油氣資源評價研究、海外油氣資源戰(zhàn)略研究、海外新項目評價研究、海外資產(chǎn)區(qū)勘探開發(fā)綜合研究等相關科學研究及決策提供數(shù)據(jù)、信息、知識等多方面支持服務,具有良好的應用前景。
(1)公開發(fā)布并將不斷更新的全球油氣資源評價結(jié)果數(shù)據(jù),明確了全球、大區(qū)、國家、盆地、成藏組合等不同級別對象的常規(guī)、非常規(guī)資源潛力,為中國油氣公司制定海外業(yè)務發(fā)展戰(zhàn)略、合理評估海外項目與資產(chǎn)價值提供資源依據(jù)。
(2)持續(xù)發(fā)布與更新的全球油氣勘探開發(fā)動態(tài)、國際大油公司經(jīng)營策略與發(fā)展動向信息,持續(xù)收集與整理上載的全球油氣行業(yè)新聞信息及可供共享使用的多方面政策法規(guī)資料,能為油公司海外業(yè)務發(fā)展及動態(tài)調(diào)整提供啟示與參照。
(3)全球含油氣盆地知識庫中首次公開發(fā)布的關于全球、各大區(qū)、海外各主要含油氣盆地的油氣地質(zhì)特征、油氣富集規(guī)律的知識與認識,能為中國制定海外業(yè)務發(fā)展戰(zhàn)略、明確油氣合作與投資方向等宏觀決策提供依據(jù), 并能為中國油公司在全球范圍內(nèi)優(yōu)選盆地、區(qū)塊或已進入?yún)^(qū)塊的勘探?jīng)Q策提供系統(tǒng)的盆地背景知識。
全球油氣資源信息系統(tǒng)自2020年9月上線以來,已有來自全國80多家單位的500多名注冊用戶開展信息查詢應用。隨著全球油氣資源信息系統(tǒng)軟件功能的不斷完善與升級,數(shù)據(jù)資源建設工作的持續(xù)推進,必將使該系統(tǒng)數(shù)據(jù)資源更豐富、使用更方便,從而使該系統(tǒng)得到更廣泛、更充分的應用,在中國石油及國家的海外業(yè)務發(fā)展中發(fā)揮更大的基礎支撐作用。
(1)采用基于網(wǎng)絡的油氣地質(zhì)知識管理應用系統(tǒng)與專業(yè)網(wǎng)站研制構(gòu)建相結(jié)合技術(shù),是構(gòu)建全球油氣資源信息系統(tǒng)這類具有復雜交互需求信息系統(tǒng)的可行方案。
(2)全球油氣資源信息系統(tǒng)所公開發(fā)布的不同層次的信息、數(shù)據(jù)及研究成果,能為全球戰(zhàn)略選區(qū)和海外油氣業(yè)務發(fā)展提供重要的資料支持。
(3)系統(tǒng)構(gòu)建過程中所創(chuàng)新與實現(xiàn)的多項關鍵技術(shù),如全球油氣資源評價知識碎片化管理與規(guī)范報告自動生成技術(shù)、基于數(shù)據(jù)驅(qū)動的資源評價結(jié)果自動匯總與更新技術(shù)等,能為同類或類似信息系統(tǒng)的構(gòu)建提供有益借鑒與指導。