張中慧
(中國石化勝利油田分公司石油工程技術研究院,山東 東營 257000)
抽油機井作為油田的核心生產(chǎn)單元,深入分析其免修期的內(nèi)在影響因素和影響規(guī)律至關重要。這不僅有助于降低作業(yè)工作量,更能有效延長免修期,為油田的穩(wěn)定生產(chǎn)提供有力保障[1,2]。
徐麗萍[3]針對游梁式抽油機的平衡度問題,提出了電流平衡法和功率平衡法,旨在提升其工作性能,進而延長油井壽命。楊凱瀾等[4]在油田現(xiàn)場進行了實證研究,對比了多種防蠟、除蠟技術,并從生產(chǎn)管理制度層面提出了改進措施,進一步提高了井筒治理的有效性,延長了抽油機井的免修期。劉春杰[5]則關注清防蠟措施,結合熱洗和井口加藥等方法,有效地延長了抽油機井的免修期。F.A.Aliev[6]開發(fā)了一種計算機模型,該模型能監(jiān)測泵的主要運行參數(shù)和儲層系統(tǒng)的特性,進而確定油井-油藏系統(tǒng)中沉積物的主要特征和有桿抽油機的參數(shù)。而T.A.Aliev[7]則基于傳感器數(shù)據(jù),提出了一種檢測算法,用以觀察采油器械的老化損失情況,及時采取措施延長免修期。
長期以來,研究人員從采油工程理論出發(fā),對油井免修期過短的原因進行了深入研究,并提出了一系列延長免修期的措施。這些措施在油田的機采管理工作中起到了一定的推動作用,但由于免修期影響因素的復雜性,問題并未得到根本解決。近年來,隨著大數(shù)據(jù)和人工智能技術的迅猛發(fā)展,取得了大量突破性成果[8]。在油田中,抽油機井數(shù)量眾多,長期開發(fā)過程中積累了大量運行數(shù)據(jù)。這些數(shù)據(jù)中蘊含著豐富的價值信息。如果能夠利用先進的數(shù)據(jù)挖掘技術對這些數(shù)據(jù)進行充分挖掘,從海量的油井歷史數(shù)據(jù)中探索免修期的內(nèi)在因素,并輔助配套工藝措施的決策[9],將有力地支持采油工程的技術革新。為此,本研究將抽油機井作為研究對象,廣泛搜集油井免修期相關數(shù)據(jù),通過數(shù)據(jù)挖掘方法探究影響抽油機井免修期的各種因素,以期為抽油機井長壽運行提供支撐。
針對油井設計任務需求,結合專家經(jīng)驗,設計了面向油井設計的指標體系,并從數(shù)據(jù)庫中搜集各油井數(shù)據(jù)(表1),形成特征樣本庫,包含抽油機井34000 余口,涵蓋稠油油藏、低滲透油藏、復雜斷塊油藏、海上油藏、特殊巖性油藏、中高滲透整裝油藏這6種不同類型的油藏。搜集的數(shù)據(jù)指標方面,包括地質(zhì)數(shù)據(jù)、流體數(shù)據(jù)、機采數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、作業(yè)數(shù)據(jù)等多個維度。
表1 原始數(shù)據(jù)表
為了提升數(shù)據(jù)的可靠性,將指標體系中的數(shù)據(jù)進行了數(shù)據(jù)清洗。對于缺失數(shù)據(jù),通過填補、插補的方式進行了補充。其中包括數(shù)據(jù)異常點監(jiān)測,并結合專家經(jīng)驗對數(shù)據(jù)進行核對和校正,對類別型的數(shù)據(jù)進行數(shù)字化處理,對指標體系中的廠名等類別數(shù)據(jù)進行數(shù)字化,使得任意兩個類別數(shù)據(jù)之間的距離相同;制備得到規(guī)范化的抽油機井運行大數(shù)據(jù)集。
我們采用孤立森林算法[10]等進行數(shù)據(jù)異常點監(jiān)測,孤立森林是一種基于集成學習的異常檢測算法,它可以高效地識別出數(shù)據(jù)集中的異常點。其核心思想是將正常點分割成不同的區(qū)域所需要的路徑長度比異常點少,因此可以通過路徑長度來判斷樣本是否為異常點。孤立森林算法通過隨機選擇特征,然后隨機選擇特征的分割值,遞歸地生成數(shù)據(jù)集的分區(qū)。和數(shù)據(jù)集中正常的點相比,要隔離的異常值所需的隨機分區(qū)更少,因此異常值是樹中路徑更短的點,路徑長度是從根節(jié)點經(jīng)過的邊數(shù)。識別出異常數(shù)據(jù)后,結合專家認識對這些數(shù)據(jù)進行了核對和校正。
運用孤立森林算法,對區(qū)塊1 的116 口油井免修期數(shù)據(jù)進行篩選,識別出10 口免修期異常低井,如圖1 所示。通過識別出免修期異常低的油井,并將其納入免修期異常井樣本庫,共得到1311 個樣本集,從而更好地分析和管理油井的免修期情況。
圖1 區(qū)塊1 異常井篩選
從地質(zhì)、流體、生產(chǎn)、舉升系統(tǒng)、配套工藝等多角度開展參數(shù)分析,選取22 個指標,應用指標相關性統(tǒng)計方法對分析結果進行歸納統(tǒng)計,找出特異參數(shù)與免修期異常之間的相關程度,明確免修期的主要影響因素。我們利用皮爾遜相關性與斯皮爾曼相關性的分析方法對兩者進行分析,其中皮爾遜適于正態(tài)分布或近似正態(tài)分布的數(shù)據(jù)[11],斯皮爾曼適于非正態(tài)分布的數(shù)據(jù)[12],皮爾遜相關系數(shù)僅評估線性關系,斯皮爾曼相關系數(shù)用來評估指標的單調(diào)關系。相關系數(shù)是最常用的統(tǒng)計度量,用一個數(shù)來描述兩個變量之間的相關聯(lián)的程度。相關系數(shù)的取值范圍為[-1,1]。負值表示隨著一個變量值的增大另一個則減?。徽当硎倦S著一個變量值的增大另一個也跟著增大;0 則表示一個變量的增大減小對另一個的取值沒有影響。
2.1.1 皮爾遜相關性
通過對皮爾遜相關性系數(shù)的研究,現(xiàn)將樣本值代入進行檢驗,22 種指標間的皮爾遜相關系數(shù)如圖2所示。
圖2 皮爾遜相關系數(shù)熱力圖
依據(jù)圖2 可以得出以下認識:與免修期呈正相關的指標共有15 個,呈負相關的指標共7 個;與其相關性強度由大到小排序依次為日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵徑、沖次、泵效、泵深、含水、下行最小負荷、動液面、上行最大負荷、沖程、年產(chǎn)氣量、月產(chǎn)油量、年產(chǎn)油量、日油能力、套壓、系統(tǒng)效率、原油黏度、原油密度、未動管柱天數(shù)。
2.1.2 斯皮爾曼相關性
通過對斯皮爾曼秩相關系數(shù)的研究,將樣本值代入進行檢驗,具體22 種指標間的斯皮爾曼相關系數(shù)如圖3 所示。
圖3 斯皮爾曼相關系數(shù)熱力圖
依據(jù)圖3 可以得出以下認識:與免修期呈正相關的指標共有16 個,呈負相關的指標共6 個;與其相關性強度由大到小排序依次為日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深、下行最小負荷、系統(tǒng)效率、上行最大負荷、動液面、原油黏度、原油密度、沖程、月產(chǎn)油量、年產(chǎn)氣量、年產(chǎn)油量、套壓、日油能力、未動管柱天數(shù)。
2.1.3 差異分析
根據(jù)皮爾遜相關系數(shù)研究的結論,與免修期呈中等相關及以上的指標有6 個,分別是日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵徑、沖次。而根據(jù)斯皮爾曼相關系數(shù)研究的結論,與免修期呈中等相關及以上的指標有9 個,分別是日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深。兩種方法產(chǎn)生差異的原因在于皮爾遜相關系數(shù)更適用于符合線性分布的數(shù)據(jù),對不符合線性關系或不滿足正態(tài)分布的數(shù)據(jù),皮爾遜相關系數(shù)難以準確描述其相關關系。而斯皮爾曼相關系數(shù)是基于秩次進行計算,不容易受到異常值的影響,具有更好的魯棒性。綜合來看,日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標對免修期影響較為明顯。
基于皮爾遜算法和斯皮爾曼算法的相關性分析明確了各參數(shù)與免修期的相關程度,而其參數(shù)在免修期異常井中的體現(xiàn)模式尚不直觀,為此加入基于箱型圖的定量分析。我們繪制區(qū)塊各指標箱型圖,圖中包含了六個數(shù)據(jù)節(jié)點,將一組數(shù)據(jù)從大到小排列,分別計算出他的上邊緣,上四分位數(shù),中位數(shù),下四分位數(shù),下邊緣,橙色橫線為平均數(shù),綠色三角為中位數(shù),空心圓點是異常值,紅色點為所選井數(shù)據(jù)。
樣本中的參數(shù),有些參數(shù)的數(shù)據(jù)很大,有些參數(shù)的數(shù)據(jù)則相對很小,難以將其直接整合到一起進行比對,于是將其進行標準化和歸一化處理。經(jīng)過數(shù)據(jù)處理,繪制出標準化后的箱型圖,如圖4 所示。
圖4 標準化后的箱型圖
定義對于各個指標繪制的箱型圖,大于上四分位數(shù)的數(shù)據(jù)作為異常高的值,小于下四分位數(shù)的數(shù)據(jù)作為異常低的值,在上下四分位之間的視為正常值。例如圖5 所示某井中的參數(shù),所選井沖次數(shù)據(jù)介于下四分位數(shù)和下邊緣之間,可知該參數(shù)為異常低。而所選井年產(chǎn)氣量參數(shù)介于上四分位數(shù)和上邊緣之間,則該參數(shù)即為異常高。同樣地,統(tǒng)計各個指標異常值與正常值的個數(shù),對比免修期異常油井與常規(guī)油井在各參數(shù)上差異性,找出免修期異常油井的特異性參數(shù)。
圖5 免修期異常低井統(tǒng)計數(shù)據(jù)
分析了22 個指標出現(xiàn)異常高、正常、異常低的頻次,計算了3 種情況的標準差,用于確定主控因素。
結合圖6 和表2 分析可知,標準差小于6 的指標有5 個:上行最大負荷、日油能力、未動管柱天數(shù)、系統(tǒng)效率、泵效;各個指標異常值與正常值的個數(shù),無太大區(qū)別,對免修期影響不大。沖次、套壓、年產(chǎn)油量、年產(chǎn)水量、年產(chǎn)氣量、日油能力、月產(chǎn)油量、排量、泵徑、月產(chǎn)水量這10 個指標異常低,對免修期異常低有影響。下行最小負荷、原油密度、動液面、原油黏度、泵深這5 個指標異常高,對免修期異常低有影響。沖程、含水這2 個指標不在正常區(qū)間,對免修期異常低有影響。泵徑出現(xiàn)頻次92 次,在統(tǒng)計的10 個異常低指標對免修期異常低有影響中最高,泵徑指標越低,對免修期異常低影響越大。泵深出現(xiàn)頻次83 次,在統(tǒng)計的5 個異常高指標對免修期異常低有影響中最高,泵深該指標越高,對免修期異常低影響越大。
圖6 免修期異常低井各指標標準差
表2 免修期異常低井各指標出現(xiàn)頻次
兩種指標相關性定量分析方法明確了各參數(shù)與免修期的相關程度,即日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標對免修期影響較為明顯。而基于箱型圖的定量分析在明確各參數(shù)相關性的基礎上,進一步展現(xiàn)了參數(shù)對免修期的影響模式,從中可以看出沖次、套壓等10 個指標異常低和下行最小負荷、原油密度等5 個指標異常高對免修期異常低有影響;沖程、含水這2 個指標不在正常區(qū)間,對免修期異常低有影響;另外,泵徑、泵深等指標也對免修期異常低影響顯著。皮爾遜相關系數(shù)和斯皮爾曼相關系數(shù)都是通過衡量變量之間的相關性程度來探究其變化趨勢,而箱型圖定量分析則是在大量的數(shù)據(jù)積累上對其進行加工處理,進而整合到一張張直觀的圖中,來總結其數(shù)據(jù)的分布規(guī)律。這兩類方法各有長短,綜合來看,日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關,而泵深與免修期呈負相關。
針對各區(qū)塊免修期異常的油井,通過搜集其相關數(shù)據(jù),并使用算法對其進行處理。利用這些數(shù)據(jù),我們從地質(zhì)、流體、生產(chǎn)、舉升系統(tǒng)、配套工藝等多角度開展參數(shù)分析,重點對比免修期異常油井與常規(guī)油井在各參數(shù)上差異性,在此基礎上統(tǒng)計歸納,明確免修期影響因素及影響規(guī)律。通過箱型圖定量分析,結合皮爾遜相關性和斯皮爾曼相關性分析方法,從中發(fā)現(xiàn),對免修期影響較為明顯的因素有日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深等,其中日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關,而泵深與免修期呈負相關。