劉志鋒,鄒學(xué)鋼,唐嘯虎,魏振華,劉偉真,李潤欽
(1.東華理工大學(xué)核技術(shù)應(yīng)用教育部工程研究中心,江西 南昌 330013;2.東華理工大學(xué)信息工程學(xué)院,江西 南昌 330013;3.江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心,江西 南昌 330013;4.上海金泓信息科技有限公司,上海 200233)
鈾礦中子測井技術(shù)是鈾礦資源量估算領(lǐng)域的研究熱點(diǎn)之一。鈾礦中子測井?dāng)?shù)據(jù)在采集過程中易受到井液成分、地層孔隙度、巖性等因素的影響[1],存在大量的數(shù)據(jù)噪聲,其數(shù)據(jù)矩陣具體表現(xiàn)為真實(shí)數(shù)據(jù)矩陣與噪聲矩陣之和。在應(yīng)用測井?dāng)?shù)據(jù)進(jìn)行礦層定位、含量解析、開采價值判斷等工作前,必須對測井?dāng)?shù)據(jù)進(jìn)行去噪處理,以提高數(shù)據(jù)分析結(jié)果的精度[2],這對于鈾礦資源量的準(zhǔn)確估算以及后續(xù)的開采工作具有十分重要的意義[3]。為了解決噪聲或異常值的影響,眾多科研工作者對于如何從受到噪聲影響、損壞的數(shù)據(jù)集中精確地恢復(fù)出真實(shí)數(shù)據(jù),開展了深層次的研究,提出了低秩矩陣恢復(fù)(LRMR)[4]。LRMR 在處理數(shù)據(jù)缺失、損壞和異常值污染等情況時,具有重要的實(shí)用性;在原始數(shù)據(jù)欠采樣的情況下,LRMR 依然可以精確或近似精確地恢復(fù)出真實(shí)數(shù)據(jù)矩陣[5]。LRMR 的提出,是在處理向量的稀疏表示基礎(chǔ)上的深入研究,該理論主要用于解決滿足低秩條件的矩陣如何恢復(fù)出真實(shí)數(shù)據(jù)的問題[6]。常用的LRMR 模型在對含有噪聲的數(shù)據(jù)進(jìn)行去噪時,只有當(dāng)噪聲矩陣滿足嚴(yán)格的稀疏性要求時,才能表現(xiàn)出較好的去噪效果,因此在實(shí)際應(yīng)用中有一定的局限性[7]。鈾礦中子測井?dāng)?shù)據(jù)中的噪聲數(shù)據(jù)來源復(fù)雜,不一定滿足稀疏性的要求,傳統(tǒng)的LRMR 模型對鈾礦測井原始數(shù)據(jù)去噪效果不是很理想[8]。本文在傳統(tǒng)LRMR 模型的基礎(chǔ)上,引入加權(quán)范數(shù)的思想對模型進(jìn)行改進(jìn),并應(yīng)用LRMR 模型常見求解算法中表現(xiàn)效果較好的非精確增廣拉格朗日乘子法(IALM)[9]對模型進(jìn)行求解,使其在處理含有復(fù)雜噪聲的中子測井?dāng)?shù)據(jù)時,表現(xiàn)出了良好的去噪效果。
對于一個矩陣A,矩陣A中的數(shù)據(jù)受到矩陣E的干擾和損壞,得到矩陣D∈Rm×n,D=A+E。矩陣E是一個稀疏矩陣,其元素值較大。如何從矩陣D中恢復(fù)出矩陣A,這就是LRMR 理論要解決的問題,可轉(zhuǎn)換成如式(1)所示的優(yōu)化問題[7]。
式(1)中:‖ ‖*為矩陣的核范數(shù),等于矩陣的奇異值之和;為矩陣(s×n矩陣)的L1范數(shù),;在實(shí)際計(jì)算中,平衡參數(shù)λ的建議取值為[4]λ=,s.t.表示受約束于。
在常用的LRMR 模型求解算法中,IALM 的運(yùn)算效果最佳[9]。對于優(yōu)化問題式(1)的增廣拉格朗日函數(shù),可以使用增廣拉格朗日乘子法來求解[10]。構(gòu)造一個拉格朗日函數(shù),將有約束問題轉(zhuǎn)化為無約束問題:
式(2)中,Y為拉格朗日乘子,為了使A+E更精確的趨近于D,使上述拉格朗日函數(shù)更加精確,Y要足夠大;μ>0 為懲罰參數(shù);‖ ‖F(xiàn)為矩陣的F范數(shù)。假設(shè),Y=Yk,μ=μk,IALM 在迭代的過程中,對計(jì)算結(jié)果的精確度不做要求,因此,矩陣A和矩陣E在進(jìn)行迭代更新的時候,可以通過如下的計(jì)算方式進(jìn)行更新:
要使LRMR 有效地發(fā)揮去噪的作用,噪聲矩陣E就必須是一個嚴(yán)格稀疏的矩陣,在實(shí)際工程中是難以達(dá)到的。本文通過在傳統(tǒng)LRMR模型中引入加權(quán)范數(shù)[11],把加權(quán)核范數(shù)的思想應(yīng)用到矩陣的奇異值上面,賦予較小奇異值一個較大權(quán)重值,可以提高值較小的奇異值的影響,賦予較大奇異值一個較小的權(quán)重值,可以降低值較大的奇異值的影響,這種賦予權(quán)重值的方式,使得加權(quán)后的核范數(shù)與矩陣的秩非常接近。用加權(quán)核范數(shù)確保算法所得結(jié)果中矩陣A滿足低秩性要求,用加權(quán)m1范數(shù)確保算法所得結(jié)果中矩陣E滿足稀疏性要求。在算法模型中引入F范數(shù),用F范數(shù)確保真實(shí)數(shù)據(jù)矩陣具有穩(wěn)定性。經(jīng)過上述處理,不但提高了算法去噪的效果,還平衡了去噪結(jié)果的稀疏性和穩(wěn)定性。改進(jìn)的加權(quán)低秩矩陣恢復(fù)模型如式(5)所示。
式(5)中,m={m1,m2,…,mn}是與矩陣A的奇異值σ={σ1,σ2,…,σn}一一對應(yīng)的權(quán)重值,W中的元素wij是與稀疏矩陣E中的元素eij一一對應(yīng)的權(quán)重,值?運(yùn)算表示兩個矩陣中對應(yīng)元素相乘(wij×eij),對矩陣E的m1范數(shù)進(jìn)行加權(quán)處理,可以使矩陣E的m1范數(shù)跟矩陣E的零范數(shù)非常接近?!珹‖F(xiàn)是矩陣A的F范數(shù),是F范數(shù)約束項(xiàng),t>0。
要對改進(jìn)的加權(quán)低秩矩陣恢復(fù)模型進(jìn)行求解,第一步工作,是把權(quán)重m={m1,m2,…,mn}和W的取值確定下來。W中每一個分量的取值和稀疏矩陣E中對應(yīng)的非零元素成反比關(guān)系,m={m1,m2,…,mn}中每一個分量mi的取值和低秩矩陣A的奇異值σi成反比關(guān)系[12]。
當(dāng)權(quán)重值m={m1,m2,…,mn}和W確定了之后,把它們代入式(5)中,就可以把m={m1,m2,…,mn}和W看作兩個常數(shù)。接下來計(jì)算優(yōu)化問題式(5),得到它的增廣拉格朗日函數(shù),如式(6)所示。
在式(6)中,Y是拉格朗日乘子,Y∈Rm×n,μ表示懲罰參數(shù),μ>0。使用變量分裂的方法,對式(6)進(jìn)行交替求解;令Y=(Y1,Υ2),μ=(μ1,μ2),得到拉格朗日函數(shù)的無約束形式,接著對式子進(jìn)行變形,得到式(7)。
由IALM 可知,奇異值收縮算子和軟閾值可以分別近似代替核范數(shù)和m1范數(shù)中的最小值。以秩為60 的矩陣為例,收斂條件設(shè)置為1e-7,改進(jìn)的加權(quán)低秩矩陣算法模型可以用圖1 的流程進(jìn)行求解:
圖1 改進(jìn)的低秩矩陣恢復(fù)模型求解流程Fig.1 Solution process of modified LRMR
在鈾礦資源勘查領(lǐng)域,鈾礦中子測井是鈾礦資源量估算的重要研究方向之一[13]。在鈾礦床的鈾含量分析工作中,必須保證分析結(jié)果的準(zhǔn)確性和可靠性,為解決數(shù)據(jù)噪聲對鈾礦識別的影響,使用傳統(tǒng)的LRMR 模型、改進(jìn)的LRMR 模型分別對鈾礦中子測井原始數(shù)據(jù)進(jìn)行去噪,再使用支持向量機(jī)、決策樹算法對去噪后的數(shù)據(jù)進(jìn)行分類[14],根據(jù)分類效果比較兩個模型的去噪能力。本文使用的原始數(shù)據(jù)來源于某礦山的野外鈾礦中子測井實(shí)驗(yàn),中子測井每米大約取10 個測量點(diǎn)[15]。中子測井?dāng)?shù)據(jù)模型如表1 所示。
表1 中子測井?dāng)?shù)據(jù)模型Table 1 Neutron log data model
表1 中的m 行n 列的數(shù)據(jù)可看成待去噪的原始數(shù)據(jù)矩陣D;
中子測井?dāng)?shù)據(jù)容易受到井下井液、地層孔隙度、巖性等因素的影響,在現(xiàn)場難以對這些影響因素進(jìn)行修正。原始數(shù)據(jù)矩陣D中的噪聲矩陣E形式如下;
原始數(shù)據(jù)矩陣D可看成真實(shí)數(shù)據(jù)矩陣A與噪聲矩陣E的和,即D=A+E,其中,矩陣A如下所示:
對鈾礦中子測井?dāng)?shù)據(jù)進(jìn)行去噪的工作,就是根據(jù)原始數(shù)據(jù)矩陣D恢復(fù)出真實(shí)的未受噪聲影響的數(shù)據(jù)矩陣A。
本文列出了某鈾礦的部分中子測井實(shí)驗(yàn)數(shù)據(jù),如表2 所示。
表2 某鈾礦部分中子測井?dāng)?shù)據(jù)Table 2 Some neutron log data from a uranium deposit
分別使用傳統(tǒng)的、改進(jìn)的LRMR 模型對鈾礦中子測井原始數(shù)據(jù)集進(jìn)行去噪處理,將得到的真實(shí)數(shù)據(jù)樣本集作為輸入集用于模型訓(xùn)練,得到分類模型,再利用分類模型對測試集進(jìn)行分類。對鈾礦中子測井原始數(shù)據(jù)去噪、礦層分類的處理流程見圖2。
圖2 數(shù)據(jù)去噪、分類流程圖Fig.2 Process of data denoising and classification
3.2.1 支持向量機(jī)對測試集進(jìn)行分類
首先從鈾礦中子測井?dāng)?shù)據(jù)集中選擇182 條數(shù)據(jù)作為訓(xùn)練集,使用IALM 求解傳統(tǒng)和改進(jìn)后的LRMR 模型,并應(yīng)用兩個模型分別對這182 條數(shù)據(jù)進(jìn)行去噪。用經(jīng)過去噪的數(shù)據(jù)作為支持向量機(jī)(SVM)的訓(xùn)練集,建立分類模型。另外從鈾礦中子測井?dāng)?shù)據(jù)集中選擇120 條數(shù)據(jù)作為測試集,用相同的方法對測試集中的數(shù)據(jù)進(jìn)行去噪。收斂條件設(shè)置為1e-7,最大迭代次數(shù)設(shè)置為2 000 次。
使用支持向量機(jī)對未去噪的、經(jīng)過傳統(tǒng)LRMR模型和改進(jìn)的LRMR模型去噪的測試集進(jìn)行分類,實(shí)驗(yàn)結(jié)果如圖3~圖5 所示。圖中,x軸表示測試集樣本編號,y軸的0 表示非礦層,1 表示礦層,三角形表示數(shù)據(jù)的真實(shí)類別,正方形表示支持向量機(jī)的預(yù)測結(jié)果,如果橫坐標(biāo)對應(yīng)數(shù)據(jù)點(diǎn)的三角形和正方形重合,表示預(yù)測結(jié)果和真實(shí)結(jié)果一致,該條數(shù)據(jù)被正確分類,如果三角形和正方形不重合,表示該條數(shù)據(jù)沒有被正確分類。
圖3 SVM 對未去噪的數(shù)據(jù)分類結(jié)果Fig.3 Classification results of SVM for the original data
圖4 SVM 對經(jīng)過傳統(tǒng)模型去噪后的數(shù)據(jù)的分類結(jié)果Fig.4 Classification results of SVM with data denoised by LRMR
圖5 SVM 對經(jīng)過改進(jìn)的模型去噪后的數(shù)據(jù)的分類結(jié)果Fig.5 Classification results of SVM with the data denoised by the modified LRMR
3.2.2 決策樹算法對測試集進(jìn)行分類
使用IALM 算法求解傳統(tǒng)和改進(jìn)后的LRMR模型,利用兩個模型對測試集中的數(shù)據(jù)去噪,然后使用決策樹算法分別對未去噪的、經(jīng)過傳統(tǒng)LRMR 模型、改進(jìn)的LRMR 模型去噪的數(shù)據(jù)進(jìn)行分類,所得結(jié)果如圖6~圖8。圖中,x軸表示測試集樣本編號,y軸的0 表示非礦層,1 表示礦層,三角形表示數(shù)據(jù)的真實(shí)類別,正方形表示決策樹的預(yù)測結(jié)果,如果橫坐標(biāo)對應(yīng)數(shù)據(jù)點(diǎn)的三角形和正方形重合,表示預(yù)測結(jié)果和真實(shí)結(jié)果一致,該條數(shù)據(jù)被正確分類,如果三角形和正方形不重合,表示該條數(shù)據(jù)沒有被正確分類。
圖6 決策樹對未去噪數(shù)據(jù)的分類結(jié)果Fig.6 Classification results of decision tree with the original data
圖7 決策樹對經(jīng)過傳統(tǒng)LRMR 模型去噪的數(shù)據(jù)的分類結(jié)果Fig.7 Classification results of decision tree with the data denoised by traditional LRMR model
圖8 決策樹對經(jīng)過改進(jìn)的LRMR 模型去噪的數(shù)據(jù)的分類結(jié)果Fig.8 Classification results of Decision tree with the data denoised by the modified LRMR model
由圖3 至圖8 以及表3 中的數(shù)據(jù)可知,SVM和決策樹對經(jīng)過改進(jìn)的LRMR 模型去噪的數(shù)據(jù)分類結(jié)果準(zhǔn)確率最高,準(zhǔn)確率分別是79.17%,85.37%。由此可知,改進(jìn)的LRMR 模型較傳統(tǒng)的LRMR 模型去噪能力有明顯提升。
表3 SVM、決策樹對測井?dāng)?shù)據(jù)分類性能指標(biāo)對比Table 3 Comparison of logging data classification performance indexes by different methods
本文分析了傳統(tǒng)LRMR 模型在鈾礦測井?dāng)?shù)據(jù)去噪應(yīng)用中的局限性,即當(dāng)待去噪矩陣中的噪聲矩陣不滿足稀疏性要求時,模型的去噪效果不理想。針對模型的局限性,提出了一種改進(jìn)的LRMR 模型,引入加權(quán)核范數(shù)與加權(quán)m1范數(shù),結(jié)合待恢復(fù)矩陣的核范數(shù)與F范數(shù)作為懲罰項(xiàng)。使用傳統(tǒng)LRMR、改進(jìn)的LRMR 模型對某鈾礦野外中子測井原始數(shù)據(jù)進(jìn)行去噪處理,并使用支持向量機(jī)、決策樹算法對經(jīng)過去噪處理的數(shù)據(jù)進(jìn)行礦層分類,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的LRMR 模型去噪能力有明顯提高,分類結(jié)果符合實(shí)際測井情況,在鈾礦資源量估算具有重要意義。但是,本文改進(jìn)的模型在處理存在數(shù)據(jù)缺失的數(shù)據(jù)集時,準(zhǔn)確率還有待提高,針對不同迭代次數(shù)和迭代時間對分類準(zhǔn)確率的影響,還有待深入研究。