楊春穎 王赟 張致付
【摘要】隨著學(xué)科間交叉以及大數(shù)據(jù)方法在地球物理學(xué)科的不斷滲透,需要培養(yǎng)具有地球物理和大數(shù)據(jù)知識(shí)的綜合型人才。傳統(tǒng)地球物理專(zhuān)業(yè)向油氣勘探開(kāi)發(fā)各個(gè)階段輸送了大批人才,但在大數(shù)據(jù)方面的教學(xué)模型設(shè)計(jì)方面尚未形成對(duì)應(yīng)的培養(yǎng)方案。本文從大數(shù)據(jù)的技術(shù)體系出發(fā),分析了數(shù)據(jù)采集、存儲(chǔ)管理、計(jì)算模式、數(shù)據(jù)挖掘分析等流程,并介紹了數(shù)據(jù)挖掘方法在油氣勘探開(kāi)發(fā)中的應(yīng)用。以此為基礎(chǔ),設(shè)計(jì)了面向地球物理專(zhuān)業(yè)的數(shù)據(jù)挖掘教學(xué)模型,介紹了具體內(nèi)容,希望以此教學(xué)模型為起點(diǎn),設(shè)計(jì)教學(xué)大綱,開(kāi)展教學(xué)探索。
【關(guān)鍵詞】大數(shù)據(jù)? 地球物理? 數(shù)據(jù)挖掘? 教學(xué)模型
【中圖分類(lèi)號(hào)】P3-4;G642.423【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2020)26-0116-03
大數(shù)據(jù)起源于互聯(lián)網(wǎng)并迅速發(fā)展,在各個(gè)行業(yè)得以應(yīng)用。油田勘探開(kāi)發(fā)行業(yè)采集并管理著龐大的數(shù)據(jù)體:從三維寬方位采集、四維地震、生產(chǎn)數(shù)據(jù)到測(cè)井、巖心、生產(chǎn)測(cè)井,再到光纖實(shí)時(shí)數(shù)據(jù)傳輸。國(guó)內(nèi)含油氣盆地具有多樣化、多期次的構(gòu)造特征,有海相碳酸鹽巖孔縫儲(chǔ)層,又有陸相碎屑巖和隱蔽油氣藏,諸多復(fù)雜構(gòu)造、復(fù)雜儲(chǔ)層的勘探開(kāi)發(fā)需要高精度地球物理方法,利用大數(shù)據(jù)方法進(jìn)行生產(chǎn)決策,可以充分利用發(fā)揮已有地震數(shù)據(jù)的優(yōu)勢(shì),提高并推動(dòng)地球物理核心技術(shù)的發(fā)展。而大數(shù)據(jù)方法在能源行業(yè)的發(fā)展和應(yīng)用,需要懂專(zhuān)業(yè)和大數(shù)據(jù)知識(shí)的綜合型人才,該背景下地球物理專(zhuān)業(yè)學(xué)生培養(yǎng)的投入相對(duì)薄弱。
1.大數(shù)據(jù)技術(shù)體系
大數(shù)據(jù)流程(圖1)涉及數(shù)據(jù)采集和預(yù)處理,存儲(chǔ)和管理,計(jì)算模式,大數(shù)據(jù)挖掘和分析,以及可視化等五個(gè)方面[1,2]。數(shù)據(jù)采集主要包括以下幾個(gè)方面:(1)科學(xué)實(shí)驗(yàn)采集,是在預(yù)先假定條件下觀測(cè)到并用于研究和學(xué)術(shù)的信息系統(tǒng);(2)物理信息,可以是對(duì)各種物理現(xiàn)象或物理過(guò)程的監(jiān)控和檢測(cè),是關(guān)于介質(zhì)物性、化學(xué)性質(zhì)的測(cè)量數(shù)據(jù);(3)管理信息,為日常管理和經(jīng)營(yíng)過(guò)程中產(chǎn)生的數(shù)據(jù),例如,辦公和事務(wù)處理系統(tǒng);(4)Web信息系統(tǒng),通常指互聯(lián)網(wǎng)產(chǎn)生的各種數(shù)據(jù)信息。這些數(shù)據(jù)是對(duì)某一過(guò)程或某周期狀態(tài)或某種現(xiàn)象的描述,這些數(shù)據(jù)的質(zhì)量決定了可用性,能否精確的描述生產(chǎn)過(guò)程、學(xué)術(shù)問(wèn)題均受到數(shù)據(jù)質(zhì)量的影響。
采集的大規(guī)模數(shù)據(jù),可能是結(jié)構(gòu)化的,也可能是非結(jié)構(gòu)化的,均需要存儲(chǔ)技術(shù)支撐;根據(jù)用戶需求,數(shù)據(jù)的處理方式和結(jié)果也多種多樣。因此數(shù)據(jù)的存儲(chǔ)和管理,是大數(shù)據(jù)的另一個(gè)重要環(huán)節(jié)。將PB(1000TB)級(jí)甚至更高的EB(1000PB)級(jí)數(shù)據(jù)分散到各個(gè)節(jié)點(diǎn)或者設(shè)備上,是分布式存儲(chǔ)的基本特征,目前常用的技術(shù)包括分布式文件系統(tǒng),分布式數(shù)據(jù)庫(kù),大數(shù)據(jù)索引查詢等。大數(shù)據(jù)計(jì)算模式(圖2)有批處理、內(nèi)存計(jì)算、流式計(jì)算、迭代計(jì)算、查詢分析計(jì)算和圖計(jì)算[3]。以常見(jiàn)的批處理為例,其對(duì)應(yīng)的計(jì)算系統(tǒng)有Hadoop、MapReduce和Spark,采用的是分而治之的并行思路,是目前最為主流、較為成功的并行計(jì)算模式,具有簡(jiǎn)單易用的特點(diǎn),很多企業(yè)內(nèi)部使用這種批處理方法計(jì)算大數(shù)據(jù)。
大數(shù)據(jù)的優(yōu)勢(shì)在于數(shù)據(jù)的體量大,通過(guò)數(shù)據(jù)挖掘,可以克服觀測(cè)數(shù)據(jù)的個(gè)體波動(dòng),從而揭示更多可信賴的深層次的模式和規(guī)律,發(fā)現(xiàn)更潛在的數(shù)據(jù)價(jià)值,數(shù)據(jù)挖掘是通過(guò)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)等實(shí)現(xiàn)數(shù)據(jù)聚類(lèi)的過(guò)程。在TB級(jí)別的數(shù)據(jù)體上迭代查找有用信息,需要深入理解和扎實(shí)的數(shù)據(jù)挖掘方法。該方法本身經(jīng)過(guò)了很多年的發(fā)展,已經(jīng)出現(xiàn)了很多較為成熟的挖掘算法[4],而傳統(tǒng)的算法較難直接應(yīng)用到MapReduce、Spark等分布計(jì)算系統(tǒng)上,需要開(kāi)發(fā)新的方法,挖掘算法可以分為聚類(lèi)算法、預(yù)測(cè)回歸算法、索引排序法和關(guān)聯(lián)規(guī)則分析法[5],可實(shí)現(xiàn)知識(shí)的提取。這些方法可以在分布式存儲(chǔ)系統(tǒng)框架下,并行的執(zhí)行大數(shù)據(jù)挖掘任務(wù),在準(zhǔn)確率和效率方面大大提升。
從大數(shù)據(jù)的技術(shù)體系可見(jiàn),與數(shù)據(jù)的存儲(chǔ)方式、計(jì)算系統(tǒng)研究相比,數(shù)據(jù)挖掘是面向用戶需求的一種計(jì)算過(guò)程,可服務(wù)各行各業(yè),對(duì)油氣行業(yè)的發(fā)展將有很大的幫助。大數(shù)據(jù)在能源行業(yè)的發(fā)展和應(yīng)用,需要懂專(zhuān)業(yè)和大數(shù)據(jù)知識(shí)的綜合型人才,此類(lèi)人才缺口較大,僅美國(guó)就需要14萬(wàn)到19萬(wàn)名擁有數(shù)據(jù)深度分析專(zhuān)長(zhǎng)的從業(yè)者。近年來(lái),像中石油這樣的大型央企未雨綢繆,也在加大數(shù)據(jù)專(zhuān)業(yè)人才的培養(yǎng)力度,開(kāi)始大數(shù)據(jù)的人才儲(chǔ)備;廣海局在可燃冰技術(shù)方向走在國(guó)內(nèi)外前列,近兩年也開(kāi)始招聘數(shù)據(jù)挖掘方向,招聘專(zhuān)業(yè)限制為測(cè)繪和地球物理這兩個(gè)專(zhuān)業(yè),可見(jiàn),企業(yè)和科研高校對(duì)這方面人才的需求趨勢(shì);尋求數(shù)據(jù)挖掘和地球物理專(zhuān)業(yè)的結(jié)合點(diǎn),將是未來(lái)人才培養(yǎng)的一個(gè)新方向。
2.大數(shù)據(jù)對(duì)地球物理技術(shù)的影響
勘探地球物理旨在圈定油氣藏邊界,需要采集和分析大量數(shù)據(jù),例如:野外寬方位、節(jié)點(diǎn)式采集產(chǎn)生海量地震數(shù)據(jù),時(shí)延地震通過(guò)對(duì)有利區(qū)塊重復(fù)三維采集,產(chǎn)生的大數(shù)據(jù)等。隨著技術(shù)的發(fā)展,采集1000平方公里的三維數(shù)據(jù)是500TB,1.92萬(wàn)次覆蓋,道數(shù)已高達(dá)700億道。通過(guò)大數(shù)據(jù)和云技術(shù)實(shí)現(xiàn)數(shù)據(jù)快速傳輸,并實(shí)現(xiàn)野外與室內(nèi)的實(shí)時(shí)互動(dòng),這些工作的展開(kāi)都要圍繞大數(shù)據(jù)技術(shù)。很多工作者已經(jīng)嘗試采用數(shù)據(jù)挖掘方法開(kāi)展油田解釋和反演工作。例如,通過(guò)關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法,統(tǒng)計(jì)分析油田勘探開(kāi)發(fā)數(shù)據(jù)庫(kù),并研究水淹層自動(dòng)識(shí)別技術(shù)[6];通過(guò)貝葉斯方法和聚類(lèi)分析技術(shù)實(shí)現(xiàn)油田數(shù)據(jù)庫(kù)監(jiān)控,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量、靜態(tài)、動(dòng)態(tài)數(shù)據(jù)跟蹤等[7]。
國(guó)內(nèi)外公司也已經(jīng)開(kāi)始布局大數(shù)據(jù)在油田勘探方面的應(yīng)用,像國(guó)外大型油服公司CGG、Schlumberger,都在開(kāi)發(fā)大數(shù)據(jù)應(yīng)用平臺(tái)。Schlumberger推出了認(rèn)知勘探開(kāi)發(fā)環(huán)境,利用了數(shù)據(jù)挖掘方法,例如,機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)等來(lái)提供生產(chǎn)率,同時(shí),也發(fā)布了數(shù)字化井建設(shè)規(guī)劃方案,以便能夠在統(tǒng)一的系統(tǒng)內(nèi)訪問(wèn)鉆井?dāng)?shù)據(jù),并將此項(xiàng)技術(shù)逐漸應(yīng)用到勘探開(kāi)發(fā)的其他環(huán)節(jié)。中石化自主開(kāi)發(fā)了π-frame地震數(shù)據(jù)處理和解釋軟件,是處理和解釋一體化平臺(tái),實(shí)現(xiàn)了數(shù)據(jù)IO和處理的并行化,在業(yè)界首次使用MapReduce和Hadoop等分布式大數(shù)據(jù)技術(shù),能夠支撐PB級(jí)別海量地震數(shù)據(jù)的高效組織和管理。π-frame的功能不僅局限于此,未來(lái)還將包括鉆井、測(cè)井等勘探開(kāi)發(fā)技術(shù),該平臺(tái)與現(xiàn)在主流軟件相比,已經(jīng)具備了明顯的優(yōu)勢(shì)。此外,中石油也在開(kāi)展油田生產(chǎn)管理系統(tǒng)。隨著技術(shù)的不斷發(fā)展,以及生產(chǎn)效率的不斷提高,數(shù)據(jù)挖掘技術(shù)在油氣行業(yè)將展現(xiàn)出廣泛的應(yīng)用前景,對(duì)具有地球物理背景的綜合型人才需求較大。
而地球物理專(zhuān)業(yè)對(duì)人才的培養(yǎng)多集中在地震勘探方法、地震數(shù)據(jù)處理和解釋、數(shù)字信號(hào)處理等傳統(tǒng)科學(xué)的建設(shè),在學(xué)時(shí)安排方面?zhèn)鹘y(tǒng)專(zhuān)業(yè)課的比重較大,作為高校的教學(xué)工作者,對(duì)行業(yè)動(dòng)態(tài)和最新發(fā)展趨勢(shì)的認(rèn)知,利于探索地球物理專(zhuān)業(yè)學(xué)生的培養(yǎng)方式,以適應(yīng)能源行業(yè)的新時(shí)代特征,加大這方面人才培養(yǎng)的力度。在國(guó)內(nèi)外能源需求降低,人才競(jìng)爭(zhēng)激烈的背景下,培養(yǎng)高素質(zhì)畢業(yè)生,可以提高專(zhuān)業(yè)的核心競(jìng)爭(zhēng)力,保證人才的輸送質(zhì)量。
3.地球物理專(zhuān)業(yè)培養(yǎng)方式
經(jīng)過(guò)多年教學(xué)和實(shí)踐,地球物理專(zhuān)業(yè)傳統(tǒng)課程設(shè)置的教學(xué)模型優(yōu)勢(shì)在:大學(xué)一年級(jí)基礎(chǔ)知識(shí)學(xué)習(xí),奠定學(xué)科基礎(chǔ),包括高等數(shù)學(xué)、大學(xué)物理、地球物理概論等基礎(chǔ)課程;同時(shí),學(xué)科講座貫穿整個(gè)學(xué)年,新生對(duì)專(zhuān)業(yè)有較為清晰的認(rèn)識(shí)。大學(xué)二年級(jí)開(kāi)始較為深入的數(shù)理學(xué)習(xí),包括線性代數(shù)、復(fù)變函數(shù)、概率論等專(zhuān)業(yè)基礎(chǔ)課學(xué)習(xí),為下一年度專(zhuān)業(yè)課學(xué)習(xí)打下基礎(chǔ);此外,還將系統(tǒng)學(xué)習(xí)C++語(yǔ)言程序設(shè)計(jì),算法基礎(chǔ)編程實(shí)踐;也有專(zhuān)業(yè)課學(xué)習(xí),例如,數(shù)字信號(hào)處理等。第三年將集中學(xué)習(xí)彈性動(dòng)力學(xué)、場(chǎng)論、地震、測(cè)井、地磁等多種物探方法,從課程設(shè)置來(lái)看,學(xué)生將接受較為全面的專(zhuān)業(yè)課學(xué)習(xí)。第四年是對(duì)專(zhuān)業(yè)課的一個(gè)系統(tǒng)學(xué)習(xí)??紤]學(xué)科特點(diǎn),探索數(shù)據(jù)挖掘課程模式,需要整合分析現(xiàn)有課程設(shè)置特點(diǎn)、采取分層階梯優(yōu)化的原則,整體推進(jìn)教學(xué)模型設(shè)計(jì):
(1)基礎(chǔ)層:學(xué)科基礎(chǔ)課是大數(shù)據(jù)分析的基本工具,以常規(guī)大數(shù)據(jù)處理方法為依據(jù),研究學(xué)科基礎(chǔ)課程內(nèi)容設(shè)置,設(shè)計(jì)基于大數(shù)據(jù)分析(數(shù)據(jù)挖掘)技術(shù)的教學(xué)內(nèi)容:
①數(shù)據(jù)挖掘基本概念:包括定義、方法的價(jià)值和目的,即輸出的是一個(gè)預(yù)測(cè)模型,并改善預(yù)測(cè)模型;地震海量數(shù)據(jù)引起的生產(chǎn)需求;挖掘技術(shù)分類(lèi):按照功能分為預(yù)測(cè)和描述兩種,又可細(xì)分為聚類(lèi)算法、分類(lèi)與預(yù)測(cè)、關(guān)聯(lián)分析法;挖掘算法的特征;異常檢測(cè)的應(yīng)用以及異常檢測(cè)分類(lèi)。
②分類(lèi)與預(yù)測(cè):每條記錄都包含一組屬性,其中的一個(gè)屬性就是類(lèi),若根據(jù)類(lèi)屬性獲得一個(gè)模型,則這個(gè)模型就是其他屬性的函數(shù);預(yù)測(cè)是根據(jù)某些變量預(yù)測(cè)未知或其他變量在將來(lái)的值,或者,根據(jù)已知數(shù)據(jù)集和類(lèi)屬性,構(gòu)建預(yù)測(cè)模型并分類(lèi)現(xiàn)有數(shù)據(jù),并使用分類(lèi)的新數(shù)據(jù),預(yù)測(cè)未知對(duì)象??蓪?shí)現(xiàn)非線性樣本學(xué)習(xí),進(jìn)行非線性函數(shù)預(yù)測(cè)。
分類(lèi)法包括決策樹(shù)分類(lèi)法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和樸素貝葉斯分類(lèi)法[8],都是通過(guò)學(xué)習(xí)算法確定分類(lèi)模型,能夠很好的擬合輸入數(shù)據(jù)和屬性之間的關(guān)系[8]。重點(diǎn)講述廣泛使用的決策樹(shù)分類(lèi)技術(shù):基本原理,建立決策樹(shù)流程,決策樹(shù)歸納設(shè)計(jì),屬性測(cè)試條件,屬性劃分度量的合理選擇。最后介紹模型的過(guò)擬合問(wèn)題:訓(xùn)練誤差、過(guò)擬合原因等。
③聚類(lèi)算法:按照某種標(biāo)準(zhǔn)把一個(gè)數(shù)據(jù)集分割成不同的類(lèi),使得類(lèi)內(nèi)相似性盡可能大,同時(shí)類(lèi)間區(qū)別也盡可能大。最終每個(gè)分類(lèi)在空間上是個(gè)相對(duì)稠密的空間。和分類(lèi)的區(qū)別在于聚類(lèi)不依賴于預(yù)先定義的類(lèi)。如圖3所示。教學(xué)內(nèi)容主要包括分類(lèi)、劃分方法、基于模型的聚類(lèi)、異常分析。
④案例分析:儲(chǔ)層性質(zhì)橫向變化大,采用聚類(lèi)分析可以有效、準(zhǔn)確地建立儲(chǔ)層預(yù)測(cè)流程。而地震屬性是地震反射波的任一屬性,從數(shù)據(jù)驅(qū)動(dòng)的角度,將屬性和特定儲(chǔ)層特征聯(lián)系起來(lái),可以建立合理預(yù)測(cè)模型。例如,碳酸鹽巖油層含水和裂縫分布,通過(guò)裂縫和油井分類(lèi)統(tǒng)計(jì)含水飽和度,進(jìn)而制定潛在有價(jià)值的生產(chǎn)策略,整個(gè)數(shù)據(jù)分析流程如圖4所示:
以上是根據(jù)現(xiàn)今大數(shù)據(jù)和地球物理的結(jié)合點(diǎn),設(shè)計(jì)的教學(xué)內(nèi)容和案例分析,希望通過(guò)課上講解,激發(fā)學(xué)生的積極性,提高學(xué)生基本學(xué)習(xí)能力。課程安排方面,可以安排在
C++和算法基礎(chǔ)編程實(shí)踐課程后,或者安排在大學(xué)四年級(jí),作為作業(yè)的新方法新技術(shù)。雖然課程和傳統(tǒng)專(zhuān)業(yè)課略有差異,但可以充分發(fā)揮大數(shù)據(jù)方法在引導(dǎo)學(xué)生興趣中的作用,并可以依托傳統(tǒng)專(zhuān)業(yè)課的優(yōu)勢(shì),普及“大數(shù)據(jù)+專(zhuān)業(yè)”在尋找能源、國(guó)民經(jīng)濟(jì)發(fā)展中的重要方法和技術(shù)。
(2)專(zhuān)業(yè)層:學(xué)生通過(guò)課堂學(xué)習(xí),逐漸對(duì)學(xué)科專(zhuān)業(yè)課:如地震數(shù)據(jù)處理、解釋方法課程,融會(huì)貫通。在這個(gè)層面,可以整合理論教學(xué)和實(shí)踐內(nèi)容,學(xué)習(xí)SAS Data Mining(SAS 數(shù)據(jù)挖掘軟件)、Software-R等軟件,設(shè)計(jì)一些實(shí)驗(yàn)流程,增強(qiáng)學(xué)生對(duì)課程的認(rèn)知。也可以設(shè)計(jì)一些小微課題,任課老師指導(dǎo),從文獻(xiàn)查閱、方案制定、流程設(shè)計(jì)開(kāi)始組織學(xué)生獨(dú)立開(kāi)展學(xué)習(xí),解決實(shí)驗(yàn)設(shè)計(jì)與調(diào)試過(guò)程中遇到的問(wèn)題,培養(yǎng)學(xué)生的創(chuàng)新意識(shí)。
4.結(jié)束語(yǔ)
通過(guò)介紹大數(shù)據(jù)處理的基本體系,詳細(xì)分析了適合地球物理專(zhuān)業(yè)的大數(shù)據(jù)方向——數(shù)據(jù)挖掘,該項(xiàng)技術(shù)在國(guó)內(nèi)外大型單位都具有很好的前景,而且人才需求很大。將地球物理和大數(shù)據(jù)進(jìn)行融合,優(yōu)化課程內(nèi)容,設(shè)計(jì)符合地球物理專(zhuān)業(yè)的教學(xué)模型,可以形成較為完整的大數(shù)據(jù)地球物理課程,幫助課程大綱撰寫(xiě),也有助于教學(xué)探索。此外,設(shè)計(jì)合理的教學(xué)內(nèi)容,可以適應(yīng)學(xué)科和行業(yè)發(fā)展,拓展了人才培養(yǎng)空間可以提高學(xué)生的綜合競(jìng)爭(zhēng)力,推動(dòng)我校地球物理專(zhuān)業(yè)學(xué)科建設(shè)。
參考文獻(xiàn):
[1]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國(guó)科學(xué):信息科學(xué),2015(45):1-44.
[2]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2014(31):1612-1616.
[3]李秋虹.基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D].復(fù)旦大學(xué),2013.
[4]孟小峰,慈祥.大數(shù)據(jù)管理: 概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2016(50): 146-169.
[5]Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier,2011.
[6]王宏威.油田數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[D].大慶石油學(xué)院,2005.
[7]樊嘉麒.基于大數(shù)據(jù)的數(shù)據(jù)挖掘引擎[D].北京郵電大學(xué),2015.
[8]李欣.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法研究[D].大慶石油學(xué)院,2003.
作者簡(jiǎn)介:
楊春穎,女,講師,主要從事地球物理教學(xué)與研究工作。