摘要:隨著人工智能技術(shù)的發(fā)展,信息化測(cè)繪正逐漸邁向智能化。為了對(duì)信息化測(cè)繪數(shù)據(jù)進(jìn)行清洗,研究采用了堆疊降噪自編碼器,并引入了粒子群算法來對(duì)該自編碼器中的超參數(shù)進(jìn)行尋優(yōu),以降低超參數(shù)對(duì)堆疊降噪自編碼器性能的影響。結(jié)果顯示,尋優(yōu)后堆疊降噪自編碼器的相對(duì)誤差百分比、均方根誤差、平均絕對(duì)誤差和平均百分比誤差分別為1.06%、0.525%、0.315%和0.570%。該自編碼器能夠?qū)y(cè)繪數(shù)據(jù)進(jìn)行更好的清洗,誤差更小,提高數(shù)據(jù)質(zhì)量。
關(guān)鍵詞:自編碼器堆疊降噪測(cè)繪數(shù)據(jù)清洗
中圖分類號(hào):TM377
EfficientInformationizationSurveyingandMappingProcessingBasedonAutoencoderLIUYing
SouthChinaNormalUniversity
SurveyingandMappingInstituteLandsandResourceDepartmentofGuangdongProvince,Guangzhou,GuangdongProvince,510663China
Abstract:Withthedevelopmentofartificialintelligencetechnology,information-basedsurveyingandmappingisgraduallymovingtowardsintelligence.Inordertocleaninformationsurveyingandmappingdata,astackeddenoisingautoencoderwasadoptedinthestudy,andparticleswarmoptimizationalgorithmwas3Ad3W7Y4CnnzxqNPHCBZiZLwOPu7ZqE1KaXzxuaCXGU=introducedtooptimizethehyperparametersintheautoencodertoreducetheimpactofhyperparametersontheperformanceofthestackeddenoisingautoencoder.Theresultsshowedthattherelativeerrorpercentage,rootmeansquareerror,averageabsoluteerror,andaveragepercentageerrorofthestackeddenoisingautoencoderafteroptimizationwere1.06%,0.525%,0.315%,and0.570%,respectively.Thisautoencodercanperformbettercleaningonsurveyingdata,reduceerrors,andimprovedataquality.
KeyWords:Autoencoder;Stacking;Noisereduction;Surveyingandmapping;Dataclean
隨著城市的發(fā)展和自然災(zāi)害的頻繁發(fā)生,測(cè)繪工作的重要性也在逐漸凸顯。在計(jì)算機(jī)和物聯(lián)網(wǎng)等技術(shù)的發(fā)展下,測(cè)繪工作也逐漸進(jìn)入了信息化。尤其是人工智能技術(shù)的發(fā)展,給信息化測(cè)繪帶來了極大的變革[1-2]。人工智能技術(shù)不僅可以提升測(cè)繪信息化的準(zhǔn)確率和速度,而且能夠?qū)π畔⒒瘻y(cè)繪數(shù)據(jù)進(jìn)行處理。在信息化測(cè)繪數(shù)據(jù)清洗方面,常用的人工智能方法有聚類算法、關(guān)聯(lián)分析、多層神經(jīng)網(wǎng)絡(luò)和自編碼器等[3]。然而,這些方法都存在一定的不足,如堆疊降噪自編碼器(StackedDenoisingAutoEncoder,SDAE)對(duì)算法中的超參數(shù)過于依賴、聚類算法對(duì)計(jì)算量和內(nèi)存的要求過高等[4]。因此,為了降低超參數(shù)對(duì)SDAE算法的影響,研究引入了粒子群算法(ParticleSwarmOptimization,PSO)來對(duì)SDAE算法中的超參數(shù)進(jìn)行尋優(yōu),之后再通過SDAE算法來進(jìn)行數(shù)據(jù)清洗。
1堆疊降噪自編碼器改進(jìn)設(shè)計(jì)
為了對(duì)信息化測(cè)繪下的數(shù)據(jù)進(jìn)行清洗,研究采用了SDAE算法,并通過PSO來對(duì)其進(jìn)行改進(jìn)。自編碼器是一種無監(jiān)督學(xué)習(xí)算法,其核心組成是編碼器和解碼器[5]。為了提高自編碼器的性能,避免出現(xiàn)過擬合的情況,降噪自編碼器便被設(shè)計(jì)出來。然而,降噪自編碼器難以對(duì)大規(guī)模的數(shù)據(jù)集進(jìn)行處理,因此SDAE便被設(shè)計(jì)出來。SDAE的建立和訓(xùn)練過程如圖1所示。
從圖1可以看出,構(gòu)建的第一步是添加噪聲數(shù)據(jù),第二步是把只有部分損壞的數(shù)據(jù)當(dāng)作輸入。第三步是對(duì)輸入數(shù)據(jù)進(jìn)行編碼,第四步是獲取第一層降噪自編碼器的特征。第五步是進(jìn)行解碼,第六步是重構(gòu)隱藏特征。第七步是獲取重構(gòu)結(jié)果,第八步是確定損失函數(shù)。第九步是獲取第一層降噪自編碼器的權(quán)重和偏置系數(shù),第十步把上一層獲取到的隱藏層特征當(dāng)作下一層降噪自編碼器的輸入,并繼續(xù)返回執(zhí)行第三步,直到全部的降噪自編碼器都訓(xùn)練完畢。研究設(shè)計(jì)的SDAE模型主要由三層降噪自編碼器組成。
在測(cè)繪數(shù)據(jù)采集和傳輸過程中,因?yàn)樵O(shè)備故障原因而導(dǎo)致數(shù)據(jù)出現(xiàn)孤立點(diǎn)或缺失值的現(xiàn)象是較為常見的。為了通過SDAE來對(duì)孤立點(diǎn)和缺失值進(jìn)行處理,研究首先構(gòu)建了損壞數(shù)據(jù),其次獲取了測(cè)繪數(shù)據(jù)的特征,之后再對(duì)數(shù)據(jù)損壞前的值進(jìn)行預(yù)估,最后獲取重構(gòu)值。
SDAE模型中包含多個(gè)超參數(shù),但是不恰當(dāng)?shù)某瑓?shù)取值會(huì)對(duì)SDAE模型的性能造成影響。針對(duì)這個(gè)問題,研究采用了PSO算法來對(duì)SDAE模型的超參數(shù)進(jìn)行尋優(yōu)。PSO算法作為一種全局優(yōu)化算法,在生產(chǎn)調(diào)度和路徑規(guī)劃等領(lǐng)域都有著較為廣泛的應(yīng)用。因此研究將采用PSO算法來進(jìn)行超參數(shù)優(yōu)化?;赑SO算法改進(jìn)后SDAE模型的構(gòu)建步驟如圖2所示。
從圖2可以看出,改進(jìn)后SDAE模型構(gòu)建的第一步是選取訓(xùn)練集和測(cè)試集,并對(duì)其進(jìn)行歸一化處理。第二步是對(duì)SDAE模型和PSO算法中的參數(shù)進(jìn)行初始化。第三步是基于粒子來對(duì)SDAE進(jìn)行逐層訓(xùn)練,第四步是對(duì)適應(yīng)度函數(shù)值進(jìn)行求解和對(duì)比,第五步是更新個(gè)體最優(yōu)和全局最優(yōu)。第六步是更新粒子的位置和速度,第七步是判斷是否達(dá)到最大迭代次數(shù),若判斷為是,則輸出最佳的SDAE超參數(shù),否則便回到第四步。第八步是在SDAE中輸入測(cè)試數(shù)據(jù),并獲取最終的重構(gòu)結(jié)果。
2測(cè)繪數(shù)據(jù)清洗方法的結(jié)果分析
為了對(duì)改進(jìn)后SDAE模型的性能進(jìn)行驗(yàn)證,研究選取了某省地理數(shù)據(jù)庫近5年的測(cè)繪數(shù)據(jù),并將其命名為Set original數(shù)據(jù)集,且該數(shù)據(jù)集大小為3000。研究選取了Setoriginal數(shù)據(jù)集中前2100條數(shù)據(jù)當(dāng)作訓(xùn)練集,剩下的900條數(shù)據(jù)當(dāng)作測(cè)試集,并在測(cè)試集的數(shù)據(jù)上隨機(jī)添加噪聲。PSO算法的種群規(guī)模被設(shè)置為10,最大迭代次數(shù)被設(shè)置為100。性能驗(yàn)證采用的操作系統(tǒng)為Windows11,處理器為IntelCorei7-12700K,最大內(nèi)存為128G。PSO算法的適應(yīng)度曲線和SDAE超參數(shù)尋優(yōu)結(jié)果如圖3所示。
通過圖3(a)可以看出,PSO算法自適應(yīng)度的取值范圍是在0.084~0.052之間,且該算法在迭代了將近23次后便趨于平緩??梢钥闯觯琍SO算法能夠較快地收斂到最小值,具有良好的性能。由圖3(b)可知,在通過PSO算法對(duì)SDAE模型進(jìn)行超參數(shù)尋優(yōu)之后,第一個(gè)到第三個(gè)隱藏層的節(jié)點(diǎn)數(shù)量分別為44個(gè)、68個(gè)和33個(gè),而噪聲覆蓋率為32.7%。基于尋優(yōu)后的超參數(shù),研究對(duì)測(cè)試集的數(shù)據(jù)進(jìn)行了清洗。為了更好地驗(yàn)證改進(jìn)后SDAE算法的性能,研究也選取了其他算法來進(jìn)行對(duì)比。對(duì)比算法有反向傳播(BackPropagation,BP)神經(jīng)網(wǎng)絡(luò)、結(jié)合PSO和支持向量機(jī)(SupportVectorMachine,SVM)的PSO-SVM算法和改進(jìn)前的SDAE算法。對(duì)比指標(biāo)有相對(duì)誤差百分比、均方根誤差、平均絕對(duì)誤差和平均百分比誤差,對(duì)比結(jié)果如圖4所示。
由圖4(a)可知,BP神經(jīng)網(wǎng)絡(luò)、PSO-SVM算法和改進(jìn)前后SDAE算法的相對(duì)誤差百分比分別為13.28%、8.10%、2.55%和1.06%。平均百分比誤差的最大值為1.45%,出現(xiàn)在BP神經(jīng)網(wǎng)絡(luò)上,最小值為0.570%,出現(xiàn)在改進(jìn)后的SDAE算法上。通過圖4(b)可以看出,均方根誤差的最大值和最小值分別出現(xiàn)在BP神經(jīng)網(wǎng)絡(luò)和改進(jìn)后SDAE算法上,分別為2.543%和0.525%。BP神經(jīng)網(wǎng)絡(luò)、PSO-SVM算法和改進(jìn)前后SDAE算法的平均絕對(duì)誤差分別為0.729%、0.624%、0.364%和0.315%??梢钥闯?,研究所設(shè)計(jì)的基于PSO改進(jìn)的SDAE算法性能更好,測(cè)繪數(shù)據(jù)清洗效果更佳,處理后的數(shù)據(jù)更接近真實(shí)數(shù)據(jù),誤差更小。
3結(jié)論
為了對(duì)信息化測(cè)繪數(shù)據(jù)進(jìn)行清洗,研究采用了SDAE算法,并引入PSO算法來對(duì)其進(jìn)行改進(jìn)。結(jié)果顯示,PSO算法迭代了將近23次后便趨于平緩,收斂速度較快。尋優(yōu)后,SDAE算法第一個(gè)到第三個(gè)隱藏層的節(jié)點(diǎn)數(shù)量分別為44個(gè)、68個(gè)和33個(gè),而噪聲覆蓋率為32.7%。尋優(yōu)后SDAE算法的相對(duì)誤差百分比、均方根誤差、平均絕對(duì)誤差和平均百分比誤差分別為1.06%、0.525%、0.315%和0.570%。改進(jìn)后的SDAE算法能夠?qū)π畔⒒瘻y(cè)繪數(shù)據(jù)進(jìn)行更好的清洗,誤差更小。
參考文獻(xiàn)
[1] 楊宏山,鄧國慶.自然資源管理中測(cè)繪地理信息工作的若干思考[J].測(cè)繪科學(xué),2020,45(12):181-190.
[2] 梁慧琳,張青萍.園林文化遺產(chǎn)三維數(shù)字化測(cè)繪與信息管理研究進(jìn)展[J].南京林業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2020,44(5):9-16.
[3] 朱建軍,宋迎春,胡俊,等.測(cè)繪大數(shù)據(jù)時(shí)代數(shù)據(jù)處理理論面臨的挑戰(zhàn)與發(fā)展[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2021,46(7):1025-1031.
[4] 王懷遠(yuǎn),陳啟凡.基于代價(jià)敏感堆疊變分自動(dòng)編碼器的暫態(tài)穩(wěn)定評(píng)估方法[J].中國電機(jī)工程學(xué)報(bào),2020,40(7):2213-2220,2400.
[5] 謝勝利,陳泓達(dá),高軍禮,等.基于分布對(duì)齊變分自編碼器的深度多視圖聚類[J].計(jì)算機(jī)學(xué)報(bào),2023,46(5):945-959.