葛 燕,楊海杰
(1.廣州市工業(yè)和信息化產(chǎn)業(yè)發(fā)展中心,廣東 廣州 510030;2.廣州市數(shù)字政府運(yùn)營中心,廣東 廣州 510630)
地名地址數(shù)據(jù)作為最常用的社會(huì)公共信息資源之一,不僅與人們的日常生活息息相關(guān),而且是政府行政管理、經(jīng)濟(jì)建設(shè)、國內(nèi)外信息交往不可或缺的基礎(chǔ)信息資源。目前城市地址信息主要分散在公安、規(guī)劃、住建、網(wǎng)格管理等多個(gè)部門,民政部門負(fù)責(zé)道路街巷命名,公安部門負(fù)責(zé)門樓號(hào)牌管理,規(guī)劃部門負(fù)責(zé)建筑物、小區(qū)審批,網(wǎng)格管理部門負(fù)責(zé)實(shí)有人口、房屋信息采集。由于不同部門之間的地址信息資源相對(duì)獨(dú)立,遵循各自的行業(yè)標(biāo)準(zhǔn),地址格式和命名規(guī)范缺乏統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),難以進(jìn)行關(guān)聯(lián)整合。此外,政府各職能部門信息系統(tǒng)在采集地址時(shí)大多采用手工錄入,地址的規(guī)范性和準(zhǔn)確性得不到保證,給城市管理和社會(huì)治理帶來諸多困難和不便。
標(biāo)準(zhǔn)地址不僅是表達(dá)清晰、規(guī)范、準(zhǔn)確的地點(diǎn),而且歸屬于特定的行政區(qū)、街鎮(zhèn)、社區(qū)、網(wǎng)格,甚至歸屬于具體的責(zé)任人,根據(jù)業(yè)務(wù)地址找到與之對(duì)應(yīng)的標(biāo)準(zhǔn)地址就能把對(duì)應(yīng)數(shù)據(jù)、問題劃歸到特定的行政區(qū)、街鎮(zhèn),甚至是負(fù)責(zé)人員,方便有關(guān)政府部門采取即時(shí)查證、處置、評(píng)估、預(yù)防等干預(yù)措施,進(jìn)而讓城市網(wǎng)格化管理落到實(shí)處,讓城市生活變得更便捷、更美好。
標(biāo)準(zhǔn)地址是某個(gè)地址的唯一標(biāo)識(shí),包括地址編碼和標(biāo)準(zhǔn)的地址文本描述。標(biāo)準(zhǔn)地址與其他標(biāo)準(zhǔn)數(shù)據(jù)一樣,一般是由某個(gè)權(quán)威部門發(fā)布的、形式規(guī)范的、滿足規(guī)則和管理要求的數(shù)據(jù),不同之處在于標(biāo)準(zhǔn)地址還標(biāo)記了所屬的行政區(qū)劃、街鎮(zhèn)、社區(qū)、網(wǎng)格、經(jīng)緯度,甚至還有標(biāo)準(zhǔn)建筑物,而這部分?jǐn)?shù)據(jù)既是地址標(biāo)準(zhǔn)化的價(jià)值,也是地址標(biāo)準(zhǔn)化之目的所在。
通過整合公安、民政、規(guī)劃、住建等現(xiàn)有地址標(biāo)準(zhǔn),基于網(wǎng)格化服務(wù)和管理工作,建立貫穿市、區(qū)(縣)、街道(鄉(xiāng)鎮(zhèn))、社區(qū)(村)、工作網(wǎng)格、基礎(chǔ)網(wǎng)格、建筑物、房屋(戶室)等多層結(jié)構(gòu)的空間地理與地址體系,形成統(tǒng)一的地址標(biāo)準(zhǔn)。
標(biāo)準(zhǔn)地址雖然也是一個(gè)字符串,但是非常規(guī)整,具有良好的層級(jí)結(jié)構(gòu),如下圖1所示。標(biāo)準(zhǔn)地址存儲(chǔ)應(yīng)采用多表存儲(chǔ)、關(guān)聯(lián)表達(dá)完整的標(biāo)準(zhǔn)地址。
圖1 城市地址數(shù)據(jù)標(biāo)準(zhǔn)表述
業(yè)務(wù)地址是人們在工作中、生活中使用的地址,是業(yè)務(wù)系統(tǒng)地址數(shù)據(jù)的統(tǒng)稱,也泛指所有的非標(biāo)準(zhǔn)地址。
首先,業(yè)務(wù)地址和身份證號(hào)碼、電話號(hào)碼等數(shù)據(jù)一樣,如通過公眾口述錄入或公眾直接填寫登記,則容易導(dǎo)致出現(xiàn)全角數(shù)字、全角符號(hào)、空格、回車、換行、特殊字符的情況,有時(shí)也有某側(cè)、左右、路口、入口、出口、附近、與、和、多少米等模糊的定位詞。因此,在地址數(shù)據(jù)治理時(shí)應(yīng)該先對(duì)數(shù)據(jù)進(jìn)行清洗,如檢查、修復(fù),替換為半角字符,剔除特殊字符,去除模糊詞。
其次,經(jīng)過初步治理的業(yè)務(wù)地址也不能簡單的和標(biāo)準(zhǔn)地址進(jìn)行連接匹配。在實(shí)際業(yè)務(wù)中統(tǒng)計(jì)發(fā)現(xiàn),兩個(gè)地址一模一樣的概率相對(duì)較低,甚至可能低于20%。這個(gè)概率遠(yuǎn)遠(yuǎn)不滿足治理目標(biāo)和分析應(yīng)用的需要。
業(yè)務(wù)地址和標(biāo)準(zhǔn)地址匹配治理的本質(zhì)是語義相同或相近,也可解釋為是字符串的相似。但是對(duì)于語義相同或相近的判斷往往是非常困難的,即使是字符串相似也需要耗時(shí)巨大的運(yùn)算,因此通過一條業(yè)務(wù)地址和全部標(biāo)準(zhǔn)地址進(jìn)行相似性比較是行不通的。
業(yè)務(wù)地址雖然不能直接和標(biāo)準(zhǔn)地址進(jìn)行運(yùn)算,但可以抽取標(biāo)準(zhǔn)地址、業(yè)務(wù)地址的摘要信息,同時(shí)對(duì)摘要信息進(jìn)行匹配,匹配成功后將業(yè)務(wù)地址和對(duì)應(yīng)的標(biāo)準(zhǔn)地址進(jìn)行字符串相似性或語義比較,取兩者相同或最相似的,這就是地址摘要匹配的原理。如下圖2所示,這樣不僅能夠找到目標(biāo)地址,而且可以大幅降低地址匹配運(yùn)算的數(shù)據(jù)規(guī)模,滿足了政務(wù)應(yīng)用的需要。
圖2 摘要匹配原理示意
摘要是地址的濃縮,也是地址的子串。不論標(biāo)準(zhǔn)地址還是業(yè)務(wù)地址都可以生成多個(gè)摘要,生成摘要的過程首先就是分詞,摘要是分詞的目的,分詞是摘要生成的手段。
分詞不是新概念,在自然語言處理(NLP)技術(shù)中,分詞是一項(xiàng)基礎(chǔ)能力。不論英文、中文文本都有多種分詞算法、框架、產(chǎn)品,借助詞庫的和不借助詞庫的,分詞實(shí)現(xiàn)的選擇空間很大,分詞效果也對(duì)地址匹配結(jié)果有很大、很直接的影響。
因此,摘要生成越多,越容易實(shí)現(xiàn)業(yè)務(wù)地址與標(biāo)準(zhǔn)地址的連接,從而保證地址標(biāo)準(zhǔn)化治理的匹配度指標(biāo)。摘要生成后也應(yīng)進(jìn)行質(zhì)量評(píng)估,拋棄過短、分異性差的摘要。
幾百萬條標(biāo)準(zhǔn)地址在業(yè)務(wù)地址匹配前全部完成分詞,便于以高速查找方式進(jìn)行存儲(chǔ),需要構(gòu)造倒排索引結(jié)構(gòu)、全部數(shù)據(jù)駐留內(nèi)存、支持散列查找、鏈接雷同摘要的多地址。其中,摘要和標(biāo)準(zhǔn)地址是多對(duì)多關(guān)系,即一個(gè)摘要可以指向多個(gè)不同的標(biāo)準(zhǔn)地址,少則幾十個(gè),多則幾十萬個(gè)。且一個(gè)地址也可以產(chǎn)生很多摘要,通常是幾十個(gè)。
文章實(shí)現(xiàn)的高效倒排索引結(jié)構(gòu)、散列表、鏈接關(guān)系如下圖3所示,Value存儲(chǔ)體存放標(biāo)準(zhǔn)地址數(shù)據(jù),其中也按需存放行政區(qū)、街鎮(zhèn)、網(wǎng)格、經(jīng)緯度,一個(gè)標(biāo)準(zhǔn)地址一條記錄,Idx、Hash存儲(chǔ)體沒有冗余,因此整體內(nèi)存占用不大,長駐內(nèi)存,支持多線程并發(fā)的只讀訪問。
圖3 摘要倒排索引散列表結(jié)構(gòu)
存儲(chǔ)結(jié)構(gòu)必須用散列表,因?yàn)槠淦骄檎议L度是小于2的常數(shù),與查找的數(shù)據(jù)規(guī)模無關(guān),而且數(shù)據(jù)規(guī)模越大優(yōu)勢越明顯。標(biāo)準(zhǔn)地址幾百萬條,衍生的摘要有幾千萬條,一條業(yè)務(wù)地址查找?guī)资危梅巧⒘胁檎倚阅軣o法保證。散列表構(gòu)造資料很多,java的hashmap、Redis實(shí)現(xiàn)均可參考。
摘要技術(shù)能夠使一個(gè)業(yè)務(wù)地址和多個(gè)標(biāo)準(zhǔn)地址連接起來,但如果還要找出最接近的那個(gè),需要利用語義或字符串相似算法進(jìn)行判定。
與前述的分詞類似,字符串相似算法也很多,文章主要采用BM25。BM是Best Match的縮寫,25指的是第25次算法迭代,該算法也是Elastic Search采用的一種用來評(píng)價(jià)搜索詞和文檔之間的相似度算法。它是一種基于概率檢索模型提出的算法,借鑒了詞頻、逆向文檔頻率和向量空間模型。詞頻即分詞單元在文檔中出現(xiàn)的頻率,由于每個(gè)文本的長度不同,一個(gè)單詞在長文檔中出現(xiàn)的次數(shù)可能比短文檔中出現(xiàn)的次數(shù)要多得多,相當(dāng)于一個(gè)詞出現(xiàn)的次數(shù)越多,它的得分就越高。通過對(duì)地址通用詞語“街道、路、巷,樓、幢、棟、小區(qū)”的加權(quán)處理,可突出多層級(jí)地址要素的重要性,有效提高重點(diǎn)關(guān)鍵詞在地址匹配的權(quán)重,大大提高準(zhǔn)確度。
業(yè)務(wù)系統(tǒng)本身缺少地址標(biāo)準(zhǔn)化治理能力,如果能將地址標(biāo)準(zhǔn)化治理能力封裝為一個(gè)服務(wù)器,可以簡單集成到各種業(yè)務(wù)系統(tǒng)中,使得業(yè)務(wù)系統(tǒng)可以方便地調(diào)用地址標(biāo)準(zhǔn)化治理功能,從而將地址標(biāo)準(zhǔn)化治理研究成果應(yīng)用推廣,實(shí)現(xiàn)廣泛、快速治理地址數(shù)據(jù),并享受標(biāo)準(zhǔn)地址標(biāo)記準(zhǔn)確的行政區(qū)劃、街鎮(zhèn)、社區(qū)、網(wǎng)格、經(jīng)緯度、標(biāo)準(zhǔn)建筑物等信息帶來的好處,讓業(yè)務(wù)系統(tǒng)變得更加智能化、人性化。
地址標(biāo)準(zhǔn)化治理服務(wù)器提供常用功能包括:單條業(yè)務(wù)地址標(biāo)準(zhǔn)化匹配治理、批量業(yè)務(wù)地址標(biāo)準(zhǔn)化匹配治理、業(yè)務(wù)地址關(guān)聯(lián)地址查詢、POI(Place Of Information 興趣點(diǎn))匹配標(biāo)準(zhǔn)地址、經(jīng)緯度匹配標(biāo)準(zhǔn)地址、地址查經(jīng)緯度、多邊形查標(biāo)準(zhǔn)地址等功能。
地址標(biāo)準(zhǔn)化治理服務(wù)可以以服務(wù)或SDK的方式使用,服務(wù)可以是HTTP、socket、命名管道等形式,SDK則支持c、c++、java、python等開發(fā)語言。
地址標(biāo)準(zhǔn)化治理服務(wù)器除穩(wěn)定、可靠外,還要有較好的性能,才能保證可用性。摘要技術(shù)能夠使一個(gè)業(yè)務(wù)地址和多個(gè)標(biāo)準(zhǔn)地址連接起來,一個(gè)摘要可能導(dǎo)致一個(gè)業(yè)務(wù)地址和幾千、幾萬個(gè)標(biāo)準(zhǔn)地址連接,連接還要通過耗時(shí)的相似性計(jì)算求出唯一目標(biāo)地址,而且摘要生成目標(biāo)非常多,造成一條業(yè)務(wù)地址的匹配治理產(chǎn)生很大計(jì)算量,批量業(yè)務(wù)地址標(biāo)準(zhǔn)化匹配治理的開銷更大。
文章實(shí)踐中采用pthread的多線程、無鎖緩沖區(qū)等技術(shù),充分利用了硬件資源,實(shí)現(xiàn)批量業(yè)務(wù)地址的并發(fā)計(jì)算,較好解決了性能和實(shí)用性問題。
在地址標(biāo)準(zhǔn)化治理精度、匹配度指標(biāo)充分保證和地址標(biāo)準(zhǔn)化服務(wù)器功能完備的前提下,業(yè)務(wù)系統(tǒng)可以在短時(shí)間內(nèi)完成地址標(biāo)準(zhǔn)化治理能力構(gòu)建。比如某市城中村專項(xiàng)數(shù)據(jù)治理項(xiàng)目,僅用兩周時(shí)間就完成了全部業(yè)務(wù)地址治理。特定重點(diǎn)人群的業(yè)務(wù)地址與標(biāo)準(zhǔn)地址匹配率為33.58%,使用本文地址治理方式,匹配率提升到80.90%,增長47%。水電氣用戶地址與標(biāo)準(zhǔn)地址匹配率從原來的25.48%提升到71.43%,增長46%。
應(yīng)用城中村專項(xiàng)數(shù)據(jù)治理項(xiàng)目的經(jīng)驗(yàn),某市人口庫的地址標(biāo)準(zhǔn)化治理能力得到極大提升,實(shí)有人口地址數(shù)據(jù)治理標(biāo)準(zhǔn)化率達(dá)到95%以上,形成人口基礎(chǔ)底數(shù)“一本明白賬”,有效支撐了城市實(shí)有人口的精細(xì)化管理。
基于分詞技術(shù)的地址標(biāo)準(zhǔn)化治理方法是一種很實(shí)用的數(shù)據(jù)治理方法,該方法思路巧妙且易于實(shí)現(xiàn),充分利用計(jì)算機(jī)并行計(jì)算能力,有效降低計(jì)算任務(wù)的時(shí)間開銷,使業(yè)務(wù)系統(tǒng)在獲得地址數(shù)據(jù)時(shí),即時(shí)進(jìn)行地址標(biāo)準(zhǔn)化治理成為可能。
地址標(biāo)準(zhǔn)化治理是智慧城市運(yùn)營管理的空間塊數(shù)據(jù)基礎(chǔ)技術(shù),有著廣闊的應(yīng)用前景,諸如AI、語義相關(guān)摘要生成方法、方向值得深入研究,歡迎感興趣的同仁、朋友共同參與、探討,推動(dòng)基礎(chǔ)數(shù)據(jù)治理技術(shù)的快速發(fā)展和廣泛應(yīng)用。