摘要:為解決傳統(tǒng)糾錯方法無法完全校正錯誤數(shù)據(jù)組的問題,設(shè)計了一種基于貝葉斯糾錯的礦山地質(zhì)勘測數(shù)據(jù)糾錯方法,使用貝葉斯字典設(shè)計統(tǒng)計勘測數(shù)據(jù)流程,通過使用貝葉斯糾錯器生成候選數(shù)據(jù)集合,并在此基礎(chǔ)上按照層次的隸屬關(guān)系,設(shè)定礦山地質(zhì)勘測錯誤數(shù)據(jù)編碼規(guī)則,對數(shù)據(jù)組進(jìn)行逐層編碼排序。為進(jìn)一步實現(xiàn)對錯誤數(shù)據(jù)序列的校正,引進(jìn)了k-spectrum算法,重組錯誤數(shù)據(jù)序列,以此實現(xiàn)對勘測錯誤數(shù)據(jù)的有效糾錯。
關(guān)鍵詞:貝葉斯糾錯;礦山;地質(zhì);勘測數(shù)據(jù);糾錯方法
中圖分類號:TP311? ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)07-0085-04
Error Correction Method of Mine Geological Survey Data Based on
Bayesian Error Correction
CHEN Gong
(Geological Information Center,East China Geological Exploration Bureau,Nonferrous Metals,Jiangsu province,
Nanjing? 210000,China)
Abstract:In order to solve the problem that the traditional error correction methods can not completely correct the wrong data group,a mine geological survey data error correction method based on Bayesian error correction is designed. The Bayesian dictionary is used to design the process for counting survey data,and the candidate data set is generated by using the Bayesian error corrector,and on this basis,according to the hierarchical membership relationship,set the coding rules of mine geological survey error data,and code and sort the data groups layer by layer. In order to further achieve the correction of the error data sequence,the k-spectrum algorithm is introduced to reorganize the wrong data sequence,so as to realize the effective error correction of the survey error data.
Keywords:Bayesian error correction;mine;geology;survey data;error correction method
收稿日期:2021-03-12
0? 引? 言
礦山地質(zhì)勘測是開采礦產(chǎn)資源前期的重要工作之一,只有獲取大量的礦山地質(zhì)勘測數(shù)據(jù),才能確保礦產(chǎn)資源開采工作的安全實施。由于礦山地質(zhì)結(jié)構(gòu)復(fù)雜,并且不同區(qū)域的地質(zhì)環(huán)境是隨著地殼變遷而相應(yīng)變化的,因此,地質(zhì)勘測單位對礦山地質(zhì)勘測工作的實施,在精準(zhǔn)度方面提出了要求[1]。為了滿足此方面的需求,相關(guān)地質(zhì)勘測單位設(shè)計一種針對勘測數(shù)據(jù)的糾錯方法,此方法以增強(qiáng)現(xiàn)實技術(shù)作為支撐,將所獲取的勘測數(shù)據(jù)進(jìn)行集成與融合,并呈現(xiàn)在終端計算機(jī)顯示屏幕中,將從多個渠道獲取的相同位置信息進(jìn)行疊加,以更為真實地將礦山地質(zhì)環(huán)境表現(xiàn)出來。在對勘測數(shù)據(jù)進(jìn)行顯式處理的過程中,一旦所勘測的數(shù)據(jù)存在偏差或失真問題,在終端的成像中便會清晰地顯示出來。相比人工糾錯數(shù)據(jù)的方式,此方式具有更高的糾錯效率,并極大地簡化了記憶數(shù)據(jù)處理的復(fù)雜程度。但此種糾錯方法在實際應(yīng)用中,需要以智能化設(shè)備作為輔助,并在生成礦山地質(zhì)圖像時,要求以高清的計算機(jī)顯示屏幕作為支撐,否則將影響到成像的分辨率與清晰度,從而干預(yù)到地質(zhì)勘測錯誤數(shù)據(jù)的判斷。因此,在本文的研究中,引進(jìn)了貝葉斯糾錯器,結(jié)合貝葉斯概率計算,得到字符串最大候選結(jié)果,并通過對數(shù)據(jù)的推導(dǎo),達(dá)到對勘測數(shù)據(jù)糾錯的目的。
1? 基于貝葉斯糾錯的礦山地質(zhì)勘測數(shù)據(jù)糾錯方法
1.1? 基于貝葉斯糾錯生成候選數(shù)據(jù)集合
為了實現(xiàn)對礦山地質(zhì)勘測數(shù)據(jù)的準(zhǔn)確糾錯,本文引進(jìn)貝葉斯糾錯器,生成礦山地質(zhì)勘測候選數(shù)據(jù)集合[2]。在此過程中,需要獲取礦山地質(zhì)勘查中不同維度的數(shù)據(jù),并將勘測的數(shù)據(jù)從計算機(jī)終端導(dǎo)入貝葉斯糾錯器,結(jié)合貝葉斯概率計算公式,對勘測數(shù)據(jù)集合中的最高正確率進(jìn)行預(yù)測,計算公式為:
(1)
其中,P(wc|wi)表示所獲取的礦山地質(zhì)勘測數(shù)據(jù)集合中,數(shù)據(jù)最高正確率,wc為糾正數(shù)據(jù),wi為前端輸入的勘測數(shù)據(jù)。考慮到在前端輸入的勘測數(shù)據(jù)中,可能含有大量的重復(fù)數(shù)據(jù)或冗余數(shù)據(jù),此種數(shù)據(jù)會影響計算結(jié)果,因此需要通過貝葉斯字典對數(shù)據(jù)集合進(jìn)行統(tǒng)計。統(tǒng)計過程如圖1所示。
按照如圖1所示的流程,對勘測數(shù)據(jù)進(jìn)行初步統(tǒng)計,但在統(tǒng)計過程中,涉及對數(shù)據(jù)編輯距離的設(shè)計。因此,可將此作為數(shù)據(jù)糾錯的依據(jù),采用狀態(tài)隨機(jī)轉(zhuǎn)變的方式,生成一個隨機(jī)字符串[3]。在此過程中,對勘測的礦山地質(zhì)數(shù)據(jù)進(jìn)行一次編輯,可以實現(xiàn)字符的替換、刪除、增加等操作,在編輯中每一個經(jīng)過處理后的字符均可以作為候選集合中的新字符。在完成對字符串的初步處理后,打亂字符串,對其進(jìn)行隨機(jī)匹配,并使用貝葉斯糾錯器輸出最佳匹配項,將此數(shù)據(jù)項表示為argmaxlgP(wc|wi),此時最佳匹配字符串在統(tǒng)計集合中出現(xiàn)的概率,可以作為候選集合生成時貝葉斯糾錯器的迭代處理次數(shù)。
在完成了對候選數(shù)據(jù)集合生成前提條件的準(zhǔn)備之后,以不同類型的勘測數(shù)據(jù)字符串長度作為先檢驗概率,使用常規(guī)的噪聲通道進(jìn)行混淆字符串?dāng)?shù)量的統(tǒng)計[4]。例如,在糾錯器前端輸入d1→f1,后端便可能將“d1”識別為“f1”,或是將“d1→f1”識別為“f1→d1”,按照此種方式,可以得到一個編碼混亂的候選數(shù)據(jù)集合。為了確保將打亂格式的勘測數(shù)據(jù)全部導(dǎo)入貝葉斯糾錯器中,需要提前掌握勘測數(shù)據(jù)的字符串總數(shù),并按照如圖1所示的流程,在將勘測數(shù)據(jù)完全導(dǎo)入后,進(jìn)行導(dǎo)入字符串的統(tǒng)計,對比導(dǎo)入后字符串總數(shù)與統(tǒng)計的字符串總數(shù)是否存在差異。假定前者與后者一致,此時可直接從貝葉斯終端輸出混淆的數(shù)組集合。數(shù)組集合表達(dá)式為:
(2)
其中,len表示礦山地質(zhì)勘測數(shù)據(jù)的字符串可編輯長度,i為數(shù)據(jù)編碼;j為字符串首列字母。按照上述方式,生成候選數(shù)據(jù)集合。反之,當(dāng)導(dǎo)入字符串總數(shù)與統(tǒng)計字符串總數(shù)存在差異時,需要再次對矩陣進(jìn)行混淆處理,在不改變勘測數(shù)據(jù)中核心數(shù)據(jù)與權(quán)重數(shù)據(jù)的前提下,進(jìn)行數(shù)組的二次處理,直到數(shù)組滿足計算需求,便可按照標(biāo)準(zhǔn)輸出候選數(shù)據(jù),以此完成候選集合的生成。
1.2? 設(shè)定礦山地質(zhì)勘測錯誤數(shù)據(jù)編碼規(guī)則
在完成候選數(shù)據(jù)集合的生成后,需要對勘測的數(shù)據(jù)進(jìn)行編碼,結(jié)合編碼次序,掌握勘測數(shù)據(jù)的規(guī)范性。為滿足這種需求,需要設(shè)定一個符合礦山地質(zhì)勘測錯誤數(shù)據(jù)的編碼規(guī)則[5]。在編碼過程中,應(yīng)當(dāng)對候選集合中每個數(shù)據(jù)組的類目進(jìn)行外延,細(xì)分知識層次,并嚴(yán)格遵循各類目對數(shù)據(jù)分的要求,將字符串進(jìn)行平鋪,此過程中,可允許字符串存在突出或合并的列類,并按照層次的隸屬關(guān)系,進(jìn)行逐層編碼排序。同時,應(yīng)當(dāng)明確編碼規(guī)則是由字符串識別編號、標(biāo)識號與序列編號構(gòu)成,每個不同的編號在規(guī)則中所代表的含義是不同的。例如,“W6300”表示字符串識別編號,其中“W”表示對礦山地質(zhì)的勘測行為;“2020R”表示標(biāo)識號,其中“2020”表示地質(zhì)勘測工作實施的年限,“R”表示勘測過程中對不同區(qū)域的劃分依據(jù);“18,15,180BL”表示序列編號,其中“BL”表示對指定地質(zhì)勘測區(qū)域內(nèi)地質(zhì)類型的劃分,其中“18,15,180”可用來表示勘測點在空間中的坐標(biāo)。通過上述方式,在完成對數(shù)據(jù)的編碼后,可基本掌握數(shù)據(jù)集合的輸出標(biāo)準(zhǔn)及規(guī)則。
在掌握礦山地質(zhì)勘測錯誤數(shù)據(jù)輸出標(biāo)準(zhǔn)后,應(yīng)當(dāng)明確礦山地質(zhì)勘測過程中,不同文件格式信息的表達(dá)是使用字母進(jìn)行描述的。因此,在設(shè)定字符串編碼規(guī)則后,需要對常見的字母或符號編碼規(guī)則進(jìn)行編輯,具體內(nèi)容如表1所示。
綜合表1中提出的內(nèi)容,對礦山地質(zhì)勘測錯誤數(shù)據(jù)進(jìn)行編碼,此過程可參照如圖2所示的流程進(jìn)行。
按照表1中提出的編碼規(guī)則,輸出圖2終端導(dǎo)出的字符串序列碼,以此作為礦山地質(zhì)勘測數(shù)據(jù)結(jié)果。
1.3? 基于k-spectrum算法重組錯誤數(shù)據(jù)序列
通過前期的相關(guān)研究,已完成了對礦山地質(zhì)勘測數(shù)據(jù)的基本處理,為校正數(shù)據(jù)序列,利用k-spectrum算法對數(shù)據(jù)進(jìn)行重組。在此過程中,考慮到原始數(shù)據(jù)集合與生成的候選數(shù)組集合,其中含有質(zhì)量參差不齊的reads,因此,需要在糾錯前,對數(shù)據(jù)進(jìn)行前端預(yù)處理,即過濾數(shù)據(jù)并調(diào)整其格式,使數(shù)據(jù)在終端的輸出更加規(guī)范化。在預(yù)處理過程中,應(yīng)明確k-spectrum算法中k表示為可信度系數(shù),是指數(shù)據(jù)集合中不同數(shù)據(jù)集的規(guī)范化操作可能性。在此基礎(chǔ)上,在計算機(jī)終端導(dǎo)入礦山地質(zhì)圖示,將前端的數(shù)組按照編碼順序,依次輸入計算機(jī)中,根據(jù)處理的圖像,對勘測區(qū)域進(jìn)行切割[6]。切割過程中,按照堿基序列,將其劃分為多個k-mers,其中mers的字符串長度決定了重組序列的長度,k值的大小表示數(shù)組的復(fù)雜度。而重組錯誤數(shù)據(jù)序列的過程,便是求取一個針對k-mers中k的最優(yōu)值。為了區(qū)分冗余數(shù)據(jù)類型,可設(shè)定一個基因值G,G也可以表示勘測數(shù)據(jù)中的核心值,即數(shù)組中不發(fā)生變化的數(shù)值,為了實現(xiàn)對k最優(yōu)解的計算,應(yīng)首先對數(shù)組中的單次勘測周期進(jìn)行描述。表達(dá)式為:
(3)
其中,t為礦山地質(zhì)單次數(shù)據(jù)勘測周期,e為最佳閾值范圍。將e的實際值代入計算過程中,并根據(jù)錯誤可能發(fā)生的概率性,將t代入k的計算公式中,計算過程為:
(4)
其中,G為礦山地質(zhì)勘測數(shù)組中的基因值,ρ為散列表。按照上述計算公式,輸入k值,得到勘測數(shù)組中的可信度數(shù)據(jù)集合。刪除可信度較低的數(shù)據(jù)值,按照邏輯層數(shù)據(jù)編碼規(guī)則,對可信度較低的數(shù)組與礦山地質(zhì)成像中的信息進(jìn)行光學(xué)描述。為了確保數(shù)組對應(yīng)的數(shù)組滿足勘測需求,可將對應(yīng)的數(shù)組與圖像進(jìn)行計算機(jī)終端成像放大處理,并在Web端檢查數(shù)組序列與圖像是否匹配,對于不匹配的數(shù)據(jù),可通過旋轉(zhuǎn)、重疊、縮放等處理方式進(jìn)行校正。通過這種方式完成對礦山地質(zhì)勘測數(shù)據(jù)的糾錯。
2? 實驗論證分析
上文結(jié)合貝葉斯糾錯器的使用,設(shè)計了一種針對礦山地質(zhì)勘測數(shù)據(jù)的糾錯方法,在完成對方法的設(shè)計后,本章介紹了基于ASEC算法的糾錯方法,將此方法與本文設(shè)計的方法進(jìn)行對比,并希望通過此次實驗可以證明本文所設(shè)計方法的糾錯結(jié)果更為準(zhǔn)確。
為確保實驗結(jié)果的真實可靠,選擇某地質(zhì)勘測工作單位近三個月的地質(zhì)勘測數(shù)據(jù),作為此次實驗的數(shù)據(jù)組。對實驗數(shù)據(jù)的描述如表2所示。
在完成對礦山地質(zhì)勘測錯誤數(shù)組的描述后,將表1提出的錯誤數(shù)組與正確數(shù)組進(jìn)行打亂處理,控制輸入端的數(shù)組數(shù)量為50 000.0 bit。將數(shù)據(jù)集合上傳到終端計算機(jī)設(shè)備,在相同的操作環(huán)境下,分別使用本文設(shè)計的方法與傳統(tǒng)方法對數(shù)據(jù)集合中的錯誤數(shù)據(jù)組進(jìn)行糾錯處理。并根據(jù)終端輸出的錯誤數(shù)組與糾錯結(jié)果,對方法進(jìn)行可行性評估,實驗結(jié)果如表3所示。
綜合表3的結(jié)果可知,兩種糾錯方法均可以實現(xiàn)對錯誤數(shù)組的識別,但基于ASEC算法的糾錯方法,在校正錯誤數(shù)組時,僅能校正部分錯誤數(shù)組,無法完全校正錯誤數(shù)據(jù)組,而本文設(shè)計的糾錯方法在進(jìn)行錯誤數(shù)組糾錯時,可以實現(xiàn)對所有錯誤數(shù)組的準(zhǔn)確校正。
3? 結(jié)? 論
本文從生成候選數(shù)據(jù)集合、設(shè)定錯誤數(shù)據(jù)編碼規(guī)則、重組錯誤數(shù)據(jù)序列三個方面,對基于貝葉斯糾錯的礦山地質(zhì)勘測數(shù)據(jù)糾錯方法展開設(shè)計,并通過對比實驗證明,本文設(shè)計的糾錯方法可以實現(xiàn)對所有錯誤數(shù)組的準(zhǔn)確校正,而傳統(tǒng)方法僅能實現(xiàn)對錯誤數(shù)組的校正。
參考文獻(xiàn):
[1] 文豐,雷武偉,劉東海.基于CY7B923/933的可糾錯HOTLink數(shù)據(jù)傳輸方案設(shè)計 [J].兵器裝備工程學(xué)報,2020,41(2):134-138.
[2] 李貴良,歐陽琴,唐標(biāo),等.基于反饋糾錯機(jī)制的數(shù)據(jù)遠(yuǎn)程傳輸優(yōu)化技術(shù)研究 [J].信息技術(shù),2021(5):141-146+152.
[3] 肖文磊,鄒捷,馮江偉,等.基于貝葉斯糾錯的AR輔助飛機(jī)裝配數(shù)據(jù)糾錯方法 [J].航空制造技術(shù),2020,63(6):14-22.
[4] 景文芳.嵌入式光網(wǎng)絡(luò)傳輸數(shù)據(jù)自動糾錯系統(tǒng)設(shè)計 [J].激光雜志,2020,41(1):181-184.
[5] 鄭穆,羅鐵威.一種用于光盤數(shù)據(jù)存儲的冗余恢復(fù)碼糾錯方法 [J].光電工程,2019,46(3):110-117.
[6] 寇馬可,鐘升,唐磊.一種基于小波變換的數(shù)據(jù)位迭代糾錯算法設(shè)計與Matlab實現(xiàn) [J].微電子學(xué)與計算機(jī),2019,36(6):60-63.
作者簡介:陳弓(1988—),男,漢族,江蘇南京人,工程師,學(xué)士,研究方向:測繪、地理信息系統(tǒng)、信息化。