孫 輝, 任 穎, 由永橋
(1. 煙臺市大數(shù)據(jù)中心, 山東 煙臺 264000;2. 海軍航空大學(xué) 航空基礎(chǔ)學(xué)院, 山東 煙臺 264000)
隨著市民卡項目的不斷推進(jìn),市民卡工程建設(shè)前期的數(shù)據(jù)信息會涉及到公安、人社、民政、教育、衛(wèi)健、殘聯(lián)等多個部門,也包括各個社區(qū)填報的市民卡申領(lǐng)登記信息。由于各部門間業(yè)務(wù)系統(tǒng)的物理隔斷,造成關(guān)聯(lián)信息無法及時更新,存在差異。而社區(qū)報送的登記信息,在多個環(huán)節(jié)均存在由人為因素造成的有誤信息[1]。因此,在市民卡發(fā)放前必須與信息產(chǎn)權(quán)部門進(jìn)行比對確認(rèn),對部門與部門之間的歷史數(shù)據(jù)進(jìn)行比對、分析,實時交換、共享新增數(shù)據(jù)。本文主要目的是通過對采集的數(shù)據(jù)及共建部門的現(xiàn)有數(shù)據(jù)進(jìn)行產(chǎn)權(quán)劃分,明確數(shù)據(jù)的實際歸屬和數(shù)據(jù)的產(chǎn)權(quán)關(guān)系,從而建立一套數(shù)據(jù)更新機(jī)制,以便獲取最權(quán)威、最真實的數(shù)據(jù),為應(yīng)用系統(tǒng)的建設(shè)提供可靠的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)歸集比對不僅僅是獲取最權(quán)威的數(shù)據(jù),更深層次的作用在于消除信息孤島和信息煙囪,保證共享數(shù)據(jù)的準(zhǔn)確性和及時性,對城市信息化建設(shè)過程中跨部門的數(shù)據(jù)歸集、比對和數(shù)據(jù)共享具有重要意義。
1.1.1 個人采集數(shù)據(jù)
個人數(shù)據(jù)是市民基礎(chǔ)數(shù)據(jù)庫的重要組成,是市民卡數(shù)據(jù)比對的重要數(shù)據(jù)來源,因此采集的個人數(shù)據(jù)的數(shù)量和質(zhì)量將直接關(guān)系到數(shù)據(jù)比對的成敗、比對成本及市民卡的發(fā)放等環(huán)節(jié)[2]。根據(jù)申領(lǐng)登記表的要求,抽象出相關(guān)數(shù)據(jù)規(guī)格需求及數(shù)據(jù)項的產(chǎn)權(quán)歸屬情況。
1.1.2 共建部門數(shù)據(jù)
市民卡工程的前期建設(shè)數(shù)據(jù)信息可能會涉及到公安、人社、民政、教育、衛(wèi)健、殘聯(lián)等多個部門,數(shù)據(jù)項的抽取和提供主要以市民卡工程建設(shè)的實際數(shù)據(jù)需求確定。
1.2.1 自產(chǎn)權(quán)數(shù)據(jù)
自產(chǎn)權(quán)數(shù)據(jù)由該部門的相關(guān)專屬業(yè)務(wù)決定,由該部門發(fā)布或?qū)徍说?具有絕對或相對的權(quán)威性的數(shù)據(jù)。如:身份證號、姓名、性別、出生日期等以公安局?jǐn)?shù)據(jù)為準(zhǔn),是公安局的自產(chǎn)權(quán)數(shù)據(jù);婚姻狀況以民政局?jǐn)?shù)據(jù)為準(zhǔn),是民政局的自產(chǎn)權(quán)數(shù)據(jù)[3]。
1.2.2 他產(chǎn)權(quán)數(shù)據(jù)
他產(chǎn)權(quán)數(shù)據(jù)是相對自產(chǎn)權(quán)數(shù)據(jù)而言的,是部門間在相互引用或業(yè)務(wù)關(guān)聯(lián)過程中產(chǎn)生的數(shù)據(jù),即涉及到的其他部門的自產(chǎn)權(quán)信息,但由于多種原因,在本部門中又不具有權(quán)威性的數(shù)據(jù)。由于各部門間業(yè)務(wù)系統(tǒng)的物理隔斷[4],造成產(chǎn)權(quán)部門寄生在他部門的信息無法及時更新,寄主部門中的他產(chǎn)權(quán)數(shù)據(jù)無法時時與產(chǎn)權(quán)部門保持一致,存在差異[5]。數(shù)據(jù)來源分類及產(chǎn)權(quán)關(guān)系示意圖如圖1所示。
1.3.1 個人采集數(shù)據(jù)
在各共建部門的業(yè)務(wù)系統(tǒng)中,由于歷史遺留或其他人為因素,造成部分產(chǎn)權(quán)數(shù)據(jù)與事實不符存在差異的問題。而市民卡數(shù)據(jù)比對的目的之一就是通過數(shù)據(jù)采集和數(shù)據(jù)比對,將市民自己掌握的信息與業(yè)務(wù)部門的產(chǎn)權(quán)信息進(jìn)行雙向的核對,查漏補(bǔ)缺,糾正偏差,提高各業(yè)務(wù)部門數(shù)據(jù)的正確率[6]。
1.3.2 共建部門數(shù)據(jù)
共建部門數(shù)據(jù)一般包括自產(chǎn)權(quán)數(shù)據(jù)和他產(chǎn)權(quán)數(shù)據(jù),而且均包含姓名和身份證號信息(除公安局信息外,其他部門的此2項信息均為他產(chǎn)權(quán)數(shù)據(jù),可用于檢索)和各部門的業(yè)務(wù)系統(tǒng)可作為索引項的產(chǎn)權(quán)數(shù)據(jù)(如人社數(shù)據(jù)的醫(yī)保個人帳號等)[7]。因此,部門提供的數(shù)據(jù)必須保證姓名、身份證號及系統(tǒng)索引產(chǎn)權(quán)數(shù)據(jù)非空。
圖1 跨部門數(shù)據(jù)來源及產(chǎn)權(quán)關(guān)系示意圖Fig.1 Schematic illustration of cross sectoral data sources and property relations
2.1.1 身份證號的分析
身份證在各個業(yè)務(wù)單位的個人基礎(chǔ)信息中,都有相應(yīng)的字段,如果身份證號能夠唯一,并且公安部門能保證身份證號在以后也保持唯一,使用身份證號作為市民基礎(chǔ)信息數(shù)據(jù)庫的檢索關(guān)鍵字是最好的選擇,這樣各家業(yè)務(wù)單位的業(yè)務(wù)系統(tǒng)將作比較小的改造,并有可能簡化原來系統(tǒng)的復(fù)雜性,比對系統(tǒng)的設(shè)計也將會大大簡化[8]。但是,考慮到身份號保持唯一在公安部門業(yè)務(wù)工作上的難度,身份證號不能夠獨(dú)立作為市民基礎(chǔ)信息數(shù)據(jù)庫的檢索關(guān)鍵字[9]。
2.1.2 姓名的分析
姓名在各個業(yè)務(wù)單位的個人基礎(chǔ)信息中,都有相應(yīng)的字段,但是由于市民的姓名并沒有相應(yīng)的規(guī)則限制,市民重名現(xiàn)象很突出。因此不能單獨(dú)使用姓名作為市民基礎(chǔ)信息數(shù)據(jù)庫的檢索關(guān)鍵字。
2.1.3 姓名+身份證號的分析
姓名和身份證號在各個業(yè)務(wù)單位的個人基礎(chǔ)信息中,都有相應(yīng)的字段。據(jù)統(tǒng)計數(shù)據(jù)顯示,隨著我國身份證號的升位,及二代身份證的普及,出現(xiàn)姓名+身份證號同時標(biāo)識多個市民的概率大大下降,姓名+身份證號標(biāo)識多個市民的情況將不會存在[10]。因此,系統(tǒng)可以使用姓名+身份證號作為市民基礎(chǔ)信息數(shù)據(jù)庫的檢索關(guān)鍵字。
2.1.4 市民卡號的分析
市民卡號是由市民卡系統(tǒng)統(tǒng)一生成和管理的,是唯一碼,不存在一對多的關(guān)系,因此市民卡號具備作為市民基礎(chǔ)信息數(shù)據(jù)庫檢索關(guān)鍵字的條件。但是根據(jù)市民卡的建設(shè)需求,市民卡號的產(chǎn)生時序在數(shù)據(jù)比對業(yè)務(wù)流程之后,而且在數(shù)據(jù)比對之前不可能對未經(jīng)核實和比對的數(shù)據(jù)產(chǎn)生市民卡號[11]。市民卡號可以作為市民基礎(chǔ)信息數(shù)據(jù)庫的索引關(guān)鍵字。
2.2.1 基本比對策略
基本的比對策略使用姓名+身份證號碼作為采集數(shù)據(jù)和共建部門數(shù)據(jù)之間進(jìn)行記錄匹配的主要檢索字段,如果找到記錄,則進(jìn)行下一步的數(shù)據(jù)比對;如果未找到唯一對應(yīng)記錄,則采用擴(kuò)展比對策略[12]。
2.2.2 擴(kuò)展比對策略
擴(kuò)展比對是在基本比對失敗的情況下進(jìn)行的。擴(kuò)展比對策略一般采取使用共建單位中其他可以作為檢索字段的數(shù)據(jù)項,即業(yè)務(wù)單位的內(nèi)碼(如醫(yī)保數(shù)據(jù)中的“醫(yī)保個人帳號”等),進(jìn)行2次檢索比對,甚至3次、4次檢索比對[13]。
3.1.1 自產(chǎn)權(quán)數(shù)據(jù)比對
共建部門自產(chǎn)權(quán)數(shù)據(jù)比對,即是用共建部門的自產(chǎn)權(quán)數(shù)據(jù)與個人采集數(shù)據(jù)中包含的對應(yīng)數(shù)據(jù)項進(jìn)行比對,并將有疑義數(shù)據(jù)項通過采取市民本人與產(chǎn)權(quán)部門進(jìn)行核對的方式來更改和確認(rèn)的比對過程。其目的主要是進(jìn)行部門和市民之間的數(shù)據(jù)核準(zhǔn)[14]。
3.1.2 他產(chǎn)權(quán)數(shù)據(jù)比對
共建部門他產(chǎn)權(quán)數(shù)據(jù)比對,即是用共建部門的他產(chǎn)權(quán)數(shù)據(jù)與相關(guān)的產(chǎn)權(quán)部門的自產(chǎn)權(quán)數(shù)據(jù)進(jìn)行核準(zhǔn)或更改的比對過程。其目的主要是實現(xiàn)部門間的數(shù)據(jù)共享。
數(shù)據(jù)比對就是將個人采集數(shù)據(jù)和共建部門的數(shù)據(jù),按照預(yù)定的策略,進(jìn)行匯總、比對、整合,求同改異,最后形成一套內(nèi)容最全面、信息最準(zhǔn)確的數(shù)據(jù),進(jìn)入市民基礎(chǔ)數(shù)據(jù)庫[15]。
按照比對的功能需求,整個數(shù)據(jù)比對流程分為3個階段,即標(biāo)準(zhǔn)檢索數(shù)據(jù)生成階段、共建部門自產(chǎn)權(quán)數(shù)據(jù)比對階段和共建部門他產(chǎn)權(quán)數(shù)據(jù)比對階段。
3.2.1 標(biāo)準(zhǔn)檢索數(shù)據(jù)生成階段
標(biāo)準(zhǔn)檢索數(shù)據(jù)生成是數(shù)據(jù)比對工作進(jìn)行的前提條件,也是一個比對檢索依據(jù),該過程以公安數(shù)據(jù)為比對的一個對象,將從市民采集的第一手資料和公安提交的數(shù)據(jù)進(jìn)行姓名+身份證號的比對[16],形成正確的具有權(quán)威性的檢索字段姓名+身份證號。
3.2.2 共建部門自產(chǎn)權(quán)數(shù)據(jù)比對階段
共建部門自產(chǎn)權(quán)數(shù)據(jù)比對流程是對各個共建部門提交的數(shù)據(jù)中的產(chǎn)權(quán)數(shù)據(jù)與上一過程形成的標(biāo)準(zhǔn)檢索數(shù)據(jù)進(jìn)行比對,比對時用“標(biāo)準(zhǔn)檢索數(shù)據(jù)生成階段”中產(chǎn)生的具有權(quán)威性的姓名+身份證號作為檢索條件,定位檢索的記錄。將各個共建部門的自產(chǎn)權(quán)數(shù)據(jù)進(jìn)行核實,使其具有一定的權(quán)威性,為下一階段建立比對基礎(chǔ)。
3.2.3 共建部門他產(chǎn)權(quán)數(shù)據(jù)比對階段
本階段主要是將各個共建部門中比對成功表的他產(chǎn)權(quán)數(shù)據(jù)進(jìn)行核實,確保各個共建部門的數(shù)據(jù)保持一定程度的一致性,實現(xiàn)跨部門的數(shù)據(jù)共享。比對過程中首先確定某一共建部門,然后以姓名+身份證號作為檢索標(biāo)準(zhǔn),定位一條記錄,依次對該記錄中的他產(chǎn)權(quán)數(shù)據(jù)項與產(chǎn)權(quán)部門進(jìn)行遍歷和比對,其他記錄同理進(jìn)行比對,直到該共建部門的所有他產(chǎn)權(quán)數(shù)據(jù)比對結(jié)束。其中比對一致的記錄保持不變,比對不一致的記錄以產(chǎn)權(quán)部門為依據(jù)更新本部門的比對成功表。
市民卡比對系統(tǒng)的建設(shè)主要包括:數(shù)據(jù)交換子系統(tǒng)、數(shù)據(jù)比對子系統(tǒng)和各業(yè)務(wù)部門接口子系統(tǒng)。系統(tǒng)的總體結(jié)構(gòu)如圖2所示。
圖2 系統(tǒng)總體結(jié)構(gòu)Fig.2 System Overall Structure
4.1.1 各業(yè)務(wù)部門接口子系統(tǒng)
業(yè)務(wù)接口子系統(tǒng)采用統(tǒng)一的數(shù)據(jù)訪問規(guī)范,直接與業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)交換。通過安全可靠的數(shù)據(jù)抽取和訪問形式,為各類應(yīng)用系統(tǒng)提供信息共享和數(shù)據(jù)整合的手段,為應(yīng)用系統(tǒng)實現(xiàn)“數(shù)據(jù)庫無關(guān)”“操作系統(tǒng)無關(guān)”“網(wǎng)絡(luò)環(huán)境無關(guān)”的數(shù)據(jù)交換和異構(gòu)數(shù)據(jù)訪問提供平臺基礎(chǔ)。
4.1.2 數(shù)據(jù)交換子系統(tǒng)
除了完成基本的數(shù)據(jù)分析、任務(wù)轉(zhuǎn)發(fā)外,交換子系統(tǒng)還需要有豐富的配置管理和監(jiān)控的功能,讓使用者能夠方便地使用和控制。通過監(jiān)控與管理工具可以得知系統(tǒng)當(dāng)前的運(yùn)行狀況和歷史的運(yùn)行狀況;交換平臺的管理工具對配置文件的修改將直接影響交換核心的運(yùn)行。
4.1.3 數(shù)據(jù)比對子系統(tǒng)
由交換子系統(tǒng)獲得的數(shù)據(jù)首先要對數(shù)據(jù)格式、代碼等進(jìn)行簡單的轉(zhuǎn)換,再根據(jù)預(yù)定義的數(shù)據(jù)清洗規(guī)則進(jìn)行數(shù)據(jù)的過濾、清洗和語義轉(zhuǎn)換,最后根據(jù)定義的比對策略進(jìn)行數(shù)據(jù)比對。
包括部門數(shù)據(jù)交換網(wǎng)絡(luò)、市民卡管理中心網(wǎng)絡(luò)和綜合信息平臺網(wǎng)絡(luò)3個部分。部門數(shù)據(jù)交換網(wǎng)絡(luò)采用放置在各部門的數(shù)據(jù)前置機(jī)與部門業(yè)務(wù)系統(tǒng)相連接,采用VPN等專網(wǎng)形式與市民卡管理中心網(wǎng)絡(luò)連接。數(shù)據(jù)到達(dá)市民卡管理中心經(jīng)過數(shù)據(jù)匯總后進(jìn)行數(shù)據(jù)的清洗和比對,然后經(jīng)過專網(wǎng)與綜合信息平臺進(jìn)行數(shù)據(jù)的上傳。最后以門戶網(wǎng)站和信息亭等形式進(jìn)行發(fā)布,如圖3所示。
圖3 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 System network structure
4.3.1 數(shù)據(jù)庫規(guī)劃
市民基礎(chǔ)數(shù)據(jù)庫是市民卡系統(tǒng)的重要部分。它集中存放與每一個市民相關(guān)的各個領(lǐng)域(包括公安、人社、民政、衛(wèi)健等)的信息資料,并通過綜合信息平臺和分系統(tǒng)的服務(wù)窗口向社會、政府機(jī)構(gòu)及個人提供及時準(zhǔn)確的信息共享和訪問。
4.3.2 數(shù)據(jù)庫配置
對于服務(wù)器端,軟件方面,數(shù)據(jù)庫使用IBM UDB DB2(V11.1)服務(wù)器端,操作系統(tǒng)采用windows 10;硬件方面,由于涉及的數(shù)據(jù)處理量較大,集中處理峰值時的硬件要求較高,所以處理器使用4顆8核CPU,128G內(nèi)存,根據(jù)數(shù)據(jù)量大小選擇1T硬盤。
對于客戶端,軟件方面,數(shù)據(jù)庫使用IBM UDB DB2(V11.1)運(yùn)行時客戶端,操作系統(tǒng)采用windows 10;硬件方面,處理器使用4核CPU,32G內(nèi)存,500G硬盤。
4.4.1 功能模塊
比對功能主要包括前期的數(shù)據(jù)導(dǎo)入和預(yù)處理,數(shù)據(jù)的清洗格式轉(zhuǎn)換,以及對數(shù)據(jù)字典、比對任務(wù)的設(shè)定,比對后,按照比對狀態(tài)、比對的結(jié)果進(jìn)行展示和結(jié)果統(tǒng)計。具體功能如圖4所示。
圖4 比對功能模塊Fig.4 Comparison function module
4.4.2 數(shù)據(jù)導(dǎo)入
將不同數(shù)據(jù)報文按照約定格式導(dǎo)入數(shù)據(jù)庫。對于數(shù)據(jù)庫數(shù)據(jù)文件、數(shù)據(jù)庫備份文件等有針對性的數(shù)據(jù)文件,必須先通過人工轉(zhuǎn)換為規(guī)定格式后再導(dǎo)入。
4.4.3 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要包括:存在導(dǎo)致SQL語句出錯的記錄;按照約定建主鍵(在非關(guān)系型數(shù)據(jù)存儲時很難對主鍵進(jìn)行約束);按照約定提供相應(yīng)的字段(在業(yè)務(wù)單位提供數(shù)據(jù)時有可能沒有按照約定的字段提供);對非空字段的檢查;設(shè)置問題數(shù)據(jù)過濾規(guī)則,清洗掉存在明顯錯誤的數(shù)據(jù);按照數(shù)據(jù)比對預(yù)定的數(shù)據(jù)格式進(jìn)行相應(yīng)的數(shù)據(jù)轉(zhuǎn)換;對可能出現(xiàn)的雖然表述內(nèi)容相同,但表示形式不統(tǒng)一的數(shù)據(jù)項,預(yù)設(shè)定轉(zhuǎn)換規(guī)則,進(jìn)行有針對性的轉(zhuǎn)換。
4.4.4 數(shù)據(jù)字典設(shè)定
對數(shù)據(jù)庫中的元數(shù)據(jù)(表、字段)進(jìn)行說明性的描述,建設(shè)數(shù)據(jù)字典。
4.4.5 比對任務(wù)設(shè)定
比對過程設(shè)定,并保存比對設(shè)定任務(wù)。從數(shù)據(jù)庫系統(tǒng)中提取相應(yīng)的元數(shù)據(jù)對象描述信息(圖5),確定比對源表和目標(biāo)表,指定一個或多個組合比對關(guān)鍵字,設(shè)定數(shù)據(jù)映射關(guān)系(圖6),確定比對數(shù)據(jù)范圍,將設(shè)定信息以XML格式保存(圖7),并確定為相應(yīng)部門的比對任務(wù),留以備用。
圖5 獲取數(shù)據(jù)庫表、字段等元數(shù)據(jù)信息
圖6 設(shè)定比對數(shù)據(jù)的映射關(guān)系Fig.6 Set the mapping relationship of comparison data
4.4.6 比對過程的狀態(tài)位表示
對每條數(shù)據(jù)進(jìn)行過程狀態(tài)的設(shè)定,在每步操作結(jié)束后,狀態(tài)標(biāo)志也相應(yīng)地變化,而且狀態(tài)標(biāo)志有權(quán)數(shù)大小限制。對于低級狀態(tài)標(biāo)志的數(shù)據(jù)不可進(jìn)行跨級別的數(shù)據(jù)比對,這樣對有比對先后順序的數(shù)據(jù)可以進(jìn)行有效的順序控制。
4.4.7 比對結(jié)果設(shè)定與統(tǒng)計
按照比對過程中可能出現(xiàn)的錯誤,預(yù)置結(jié)果代碼,并按照代碼進(jìn)行比對結(jié)果統(tǒng)計。
大數(shù)據(jù)是未來智慧城市、城市大腦建設(shè)的基礎(chǔ),而面向政務(wù)服務(wù)的跨部門數(shù)據(jù)應(yīng)用則是解決市民“一站辦理”“一窗辦好”“讓數(shù)據(jù)多跑路,市民少跑腿”的關(guān)鍵。面對眾多部門的多種業(yè)務(wù)領(lǐng)域的既有業(yè)務(wù)流程和專業(yè)數(shù)據(jù),如何消除信息孤島和信息煙囪,保證共享數(shù)據(jù)的準(zhǔn)確性和及時性,都將是數(shù)據(jù)歸集和數(shù)據(jù)共享工作面臨的重要問題。針對此問題,借助對市民卡工程建設(shè)過程中出現(xiàn)的數(shù)據(jù)比對和跨部門的數(shù)據(jù)共享問題的深入研究和分析,提出了跨部門數(shù)據(jù)之間存在的產(chǎn)權(quán)關(guān)系,形成了模式化的比對流程,建立了基礎(chǔ)的比對模型,為市民卡系統(tǒng)的數(shù)據(jù)建設(shè)奠定了基礎(chǔ)并提出了理論依據(jù)。這對跨部門的數(shù)據(jù)歸集和共享,及對其他城市信息化建設(shè)的數(shù)據(jù)處理起到了借鑒和參考作用。
圖7 比對任務(wù)設(shè)定文件(XML)Fig.7 Comparison task setting file(XML)