王 維
東華理工大學(xué)測(cè)繪工程學(xué)院,江西 南昌 330013
如今,城市建設(shè)已經(jīng)步入數(shù)字城市發(fā)展階段,開(kāi)始向著智慧城市邁進(jìn)。隨著大數(shù)據(jù)時(shí)代來(lái)臨,城市空間下的各種數(shù)據(jù)在獲取方式、方法及來(lái)源等各方面都發(fā)生了巨大的變化。與此同時(shí),隨著數(shù)據(jù)體量越來(lái)越大,領(lǐng)域部門數(shù)據(jù)越來(lái)越多,數(shù)據(jù)的集成和共享變得愈發(fā)困難。從長(zhǎng)遠(yuǎn)發(fā)展來(lái)看,數(shù)據(jù)孤島問(wèn)題不會(huì)輕易消失,如何解決數(shù)字城市發(fā)展當(dāng)中的數(shù)據(jù)融合、共享及集成,是數(shù)字城市建設(shè)中不可忽視的問(wèn)題。
對(duì)于這個(gè)問(wèn)題,已有方法大都面向特定領(lǐng)域之間的數(shù)據(jù)互通,并沒(méi)有從本質(zhì)上解決數(shù)據(jù)孤島問(wèn)題。由于數(shù)字城市的終極目標(biāo)是數(shù)字地球,而數(shù)字城市的本質(zhì)是將各種信息根據(jù)位置進(jìn)行融合與共享,所以如何通過(guò)位置最大程度的完成不同領(lǐng)域之間的數(shù)據(jù)互通成為一個(gè)值得研究的問(wèn)題。
位置信息的形式多種多樣,包括坐標(biāo)、郵政編碼、電話號(hào)碼、IP、地名、地址等。在這幾種數(shù)據(jù)類型當(dāng)中,地址是一種相對(duì)規(guī)范且使用場(chǎng)景豐富的數(shù)據(jù)形式。交通、郵政、規(guī)劃、稅務(wù)、公安等眾多領(lǐng)域業(yè)務(wù)中都存在的大量的地址數(shù)據(jù),通過(guò)將地址定位到城市地理空間體系下,可以有效完成基于位置的數(shù)據(jù)共享,對(duì)數(shù)字城市而言意義重大。但由于我國(guó)地名地址管理體系混亂,地址的區(qū)域差異性顯著等問(wèn)題,不同部門和領(lǐng)域所包含的地址數(shù)據(jù)通常不屬于標(biāo)準(zhǔn)地址,現(xiàn)有的GIS解決方案并不能用于解析這些地址數(shù)據(jù),更無(wú)法對(duì)其進(jìn)行定位。
針對(duì)數(shù)字城市空間體系下非標(biāo)準(zhǔn)地址的解析和定位問(wèn)題,論文基于現(xiàn)有地址編碼解決方案,提出了一種基于地址元素結(jié)構(gòu)的地址編碼方案,通過(guò)構(gòu)建地址元素和位置之間的關(guān)系,提升原有地址編碼解決方案在非標(biāo)準(zhǔn)地址上的解析和定位能力,輔助實(shí)現(xiàn)數(shù)字城市空間體系下基于位置的信息共享。論文主要包含3部分研究?jī)?nèi)容。
(1)非標(biāo)準(zhǔn)地址的自動(dòng)化解析、識(shí)別及切分。方法從地址結(jié)構(gòu)特性出發(fā),利用統(tǒng)計(jì)特征從原始非標(biāo)準(zhǔn)地址庫(kù)中提取地址的實(shí)體名稱及模型要素,結(jié)合規(guī)則方法對(duì)地址元素進(jìn)行識(shí)別和切分。圍繞這一關(guān)鍵問(wèn)題,介紹分析了現(xiàn)有中文地址分詞方法的發(fā)展?fàn)顩r,討論了各種方法的優(yōu)缺點(diǎn),詳細(xì)論證了現(xiàn)有方法在不依賴額外地址庫(kù)情況下對(duì)非標(biāo)準(zhǔn)地址進(jìn)行解析時(shí)存在的不足。設(shè)定了對(duì)比試驗(yàn),詳細(xì)分析了基于統(tǒng)計(jì)、基于規(guī)則及基于混合方法的切分效果,方法相互之間的影響及其優(yōu)劣。試驗(yàn)結(jié)果說(shuō)明了本文提出的基于統(tǒng)計(jì)和規(guī)則方法的切分效果較好,可以達(dá)到80%的切分正確率,明顯高于單獨(dú)方法的結(jié)果。
(2)非標(biāo)準(zhǔn)地址庫(kù)的標(biāo)準(zhǔn)化過(guò)程。在回顧國(guó)內(nèi)外標(biāo)準(zhǔn)地址庫(kù)技術(shù)發(fā)展現(xiàn)狀基礎(chǔ)上,提出基于語(yǔ)義位置網(wǎng)模型結(jié)構(gòu)的非標(biāo)準(zhǔn)地址庫(kù)的標(biāo)準(zhǔn)化流程框架。對(duì)語(yǔ)義位置網(wǎng)構(gòu)建過(guò)程中存在的問(wèn)題進(jìn)行了分析,并給出了具體修正方法,詳細(xì)介紹了相應(yīng)索引的構(gòu)建方法。對(duì)語(yǔ)義位置網(wǎng)中包含的對(duì)象和關(guān)系進(jìn)行了詳細(xì)介紹,提出了基于語(yǔ)義位置網(wǎng)的城市地址空間體系,論述說(shuō)明了地址元素、語(yǔ)義位置網(wǎng)以及空間定位的關(guān)系。
(3)地址庫(kù)中缺失地址的定位問(wèn)題。根據(jù)語(yǔ)義位置網(wǎng)單元節(jié)點(diǎn)包含的語(yǔ)義關(guān)系,提出一種位置推理方法,論述了方法的推理依據(jù)及參數(shù)策略,詳細(xì)分析和研究了各種策略對(duì)位置推理精度的影響。針對(duì)點(diǎn)狀要素?cái)?shù)據(jù)集進(jìn)行了試驗(yàn)驗(yàn)證,與標(biāo)準(zhǔn)地址匹配方法進(jìn)行了對(duì)比。試驗(yàn)結(jié)果表明,最優(yōu)策略組合的位置精度提高了約18.34%。