鄭偉平 言專藝 唐曉紅
(廣州市公安局科技通信處大數(shù)據(jù)項(xiàng)目組,廣東 廣州510030)
數(shù)據(jù)元標(biāo)準(zhǔn)在大數(shù)據(jù)平臺(tái)關(guān)聯(lián)庫(kù)建設(shè)中的應(yīng)用研究*
鄭偉平言專藝唐曉紅
(廣州市公安局科技通信處大數(shù)據(jù)項(xiàng)目組,廣東 廣州510030)
數(shù)據(jù)元作為對(duì)數(shù)據(jù)項(xiàng)的一種標(biāo)準(zhǔn)化描述方式,對(duì)數(shù)據(jù)資源規(guī)范與整合、信息資源共享服務(wù)和業(yè)務(wù)協(xié)同等具有重要意義,本文從公安信息資源服務(wù)平臺(tái)以及大數(shù)據(jù)平臺(tái)的關(guān)聯(lián)庫(kù)建設(shè)角度入手,分析在關(guān)聯(lián)庫(kù)構(gòu)建過(guò)程中遇到的問(wèn)題,以數(shù)據(jù)元標(biāo)準(zhǔn)建設(shè)為出發(fā)點(diǎn),提出一套對(duì)數(shù)據(jù)資源進(jìn)行分類篩選、冗余分析、數(shù)據(jù)檢查及規(guī)范化設(shè)計(jì)的方法,并提出構(gòu)建主數(shù)據(jù)的思路,服務(wù)于關(guān)聯(lián)庫(kù)建設(shè)過(guò)程,將數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)成果與公安信息資源服務(wù)平臺(tái)以及大數(shù)據(jù)平臺(tái)的建設(shè)相結(jié)合以發(fā)揮實(shí)效。
數(shù)據(jù)元關(guān)聯(lián)庫(kù)主數(shù)據(jù)公安信息資源服務(wù)平臺(tái)數(shù)據(jù)整合
隨著金盾工程建設(shè)的開展,公安科技信息化整體水平迅速提升,在各級(jí)公安機(jī)關(guān)和業(yè)務(wù)警種手中積累了豐富的業(yè)務(wù)數(shù)據(jù)資源。信息資源的種類不斷豐富、總量呈現(xiàn)爆發(fā)性增長(zhǎng),已逐漸成為繼警力資源、裝備資源之后的新一類公安核心資源。
當(dāng)前建立的眾多公安信息化系統(tǒng),雖然基本覆蓋了公安各業(yè)務(wù)的工作,但是實(shí)際工作中又面臨著數(shù)據(jù)資源分散、不規(guī)范、管理共享困難以及大數(shù)據(jù)應(yīng)用缺乏等新問(wèn)題。[1]隨著業(yè)務(wù)系統(tǒng)建設(shè)的逐漸深化,對(duì)信息資源的質(zhì)量和共享要求也在不斷提高,來(lái)自單一業(yè)務(wù)部門和單一領(lǐng)域的數(shù)據(jù)越來(lái)越不能滿足實(shí)戰(zhàn)的需要,迫切需要圍繞關(guān)聯(lián)庫(kù)進(jìn)行數(shù)據(jù)資源的梳理整合,構(gòu)建公安大數(shù)據(jù)資源的存儲(chǔ)管理和共享服務(wù)體系。要打破部門間信息壁壘,提供更廣泛的信息共享渠道,有效提高各警種綜合應(yīng)用信息資源的效能,需要著力解決信息資源中對(duì)人、地、案件等信息“看不全,看不準(zhǔn),管不了,用不好”的問(wèn)題。為此,公安部規(guī)劃了公安信息資源服務(wù)平臺(tái)的建設(shè)工作。其中,公安信息資源庫(kù)的建設(shè)是基礎(chǔ)性工作,其以基礎(chǔ)庫(kù)、關(guān)聯(lián)庫(kù)、專題庫(kù)等為主體,實(shí)現(xiàn)各類信息資源的匯集和整合,為公安各警種的業(yè)務(wù)開展提供數(shù)據(jù)資源支撐。
在這個(gè)過(guò)程中,數(shù)據(jù)的標(biāo)準(zhǔn)化程度直接關(guān)系到數(shù)據(jù)交換、共享、服務(wù)和應(yīng)用的水平,特別是在實(shí)施更大范圍和更高層次的一體化信息整合中,數(shù)據(jù)的標(biāo)準(zhǔn)化程度越加顯現(xiàn)出重要性。[2]數(shù)據(jù)元作為對(duì)數(shù)據(jù)的一種“元”描述,可最大限度地保證信息交換的一致性和信息的共享,數(shù)據(jù)元理論研究和實(shí)踐活動(dòng)正在成為信息化建設(shè)中的研究熱點(diǎn)。公安數(shù)據(jù)元標(biāo)準(zhǔn)體系的研究可以為公安行業(yè)數(shù)據(jù)共享提供統(tǒng)一的數(shù)據(jù)元標(biāo)準(zhǔn),有利于公安信息資源的整合、共享與統(tǒng)一管理。
數(shù)據(jù)元通過(guò)標(biāo)識(shí)符、對(duì)象類詞、表示詞、值域等一系列屬性對(duì)數(shù)據(jù)項(xiàng)進(jìn)行了規(guī)范性描述和定義,在特定的語(yǔ)義環(huán)境中被認(rèn)為是不可再分的最小數(shù)據(jù)單元。數(shù)據(jù)元是稱之為數(shù)據(jù)的一個(gè)廣義概念的特殊成員。
早在2004年,國(guó)家標(biāo)準(zhǔn)化委員會(huì)就已發(fā)布了《電子政務(wù)數(shù)據(jù)元標(biāo)準(zhǔn)》,包括設(shè)計(jì)與管理規(guī)范,詳細(xì)約定了數(shù)據(jù)元的表示規(guī)范、數(shù)據(jù)元的屬性提取和分析過(guò)程、命名規(guī)則、分配規(guī)則、使用規(guī)則,以及數(shù)據(jù)元的提交注冊(cè)。隨后各個(gè)政府主管部門發(fā)布的各自領(lǐng)域的數(shù)據(jù)元目錄,包括公安、工商、船舶、稅務(wù)等。
為了對(duì)公安數(shù)據(jù)進(jìn)行有效的表示和建模,公安部發(fā)布了一系列的公安數(shù)據(jù)元標(biāo)準(zhǔn),包括GA/T543公安數(shù)據(jù)元、GA/T541公安業(yè)務(wù)數(shù)據(jù)元素管理規(guī)程;GA/T542公安業(yè)務(wù)數(shù)據(jù)元素編寫規(guī)則;GA/T543公安業(yè)務(wù)基礎(chǔ)數(shù)據(jù)元素集;GA/Z02公安業(yè)務(wù)基礎(chǔ)數(shù)據(jù)元素代碼集。[3-6]這些數(shù)據(jù)元標(biāo)準(zhǔn)規(guī)范的發(fā)布,對(duì)公安科技信息化建設(shè)具有重要意義,可以有效的提升數(shù)據(jù)資源質(zhì)量及規(guī)范性,降低數(shù)據(jù)整合和共享難度。
公安領(lǐng)域的數(shù)據(jù)元由核心數(shù)據(jù)元以及擴(kuò)展數(shù)據(jù)元構(gòu)成,擴(kuò)展數(shù)據(jù)元又按照不同領(lǐng)域劃分為若干個(gè)集合,包括刑偵、經(jīng)偵、治安、交管、消防等業(yè)務(wù)領(lǐng)域。
2.1關(guān)聯(lián)庫(kù)在數(shù)據(jù)資源建設(shè)中的作用
在公安信息資源服務(wù)平臺(tái)建設(shè)過(guò)程中,數(shù)據(jù)資源主要匯集在基礎(chǔ)庫(kù)、關(guān)聯(lián)庫(kù)和專題庫(kù)這幾個(gè)邏輯庫(kù)體中,是數(shù)據(jù)資源建設(shè)的幾個(gè)主要階段,其具有不同的作用:
(1)基礎(chǔ)庫(kù):基礎(chǔ)庫(kù)的作用主要是按業(yè)務(wù)來(lái)源對(duì)數(shù)據(jù)進(jìn)行匯集,建立數(shù)據(jù)增量抽取更新機(jī)制,實(shí)現(xiàn)數(shù)據(jù)資源的分類組織管理。
(2)關(guān)聯(lián)庫(kù):對(duì)數(shù)據(jù)進(jìn)行規(guī)范化、數(shù)據(jù)清洗、質(zhì)量提升和數(shù)據(jù)整合處理,圍繞公安五要素構(gòu)建數(shù)據(jù)的關(guān)聯(lián)關(guān)系,是數(shù)據(jù)資源對(duì)外共享的核心,并支撐專題庫(kù)的建設(shè)。
(3)專題庫(kù):又稱主題庫(kù),在關(guān)聯(lián)庫(kù)的基礎(chǔ)上,面向公安業(yè)務(wù)建設(shè)的需要,通過(guò)多種技術(shù)手段,對(duì)數(shù)據(jù)進(jìn)行再組織,例如人口專題庫(kù)、電話號(hào)碼專題庫(kù)等。
以上幾個(gè)邏輯庫(kù)體中,關(guān)聯(lián)庫(kù)起到了承上啟下的核心作用,是實(shí)現(xiàn)“數(shù)據(jù)”向“信息”價(jià)值提升的關(guān)鍵,也是公安信息資源服務(wù)平臺(tái)和大數(shù)據(jù)平臺(tái)數(shù)據(jù)資源建設(shè)的核心。關(guān)聯(lián)庫(kù)產(chǎn)生的具有邏輯一致性、完備性和權(quán)威性的數(shù)據(jù)資源,是開展數(shù)據(jù)共享服務(wù)、研判分析、數(shù)據(jù)挖掘、實(shí)戰(zhàn)應(yīng)用的基礎(chǔ)。
2.2數(shù)據(jù)元標(biāo)準(zhǔn)對(duì)關(guān)聯(lián)庫(kù)建設(shè)的意義
關(guān)聯(lián)庫(kù)是以基礎(chǔ)庫(kù)數(shù)據(jù)資源為支撐的,其面向的是大量來(lái)自公安、社會(huì)、政務(wù)、互聯(lián)網(wǎng)等來(lái)源的數(shù)據(jù)資源,數(shù)據(jù)質(zhì)量參差不齊,存在大量冗余信息,在這些原始數(shù)據(jù)資源的基礎(chǔ)之上要實(shí)現(xiàn)數(shù)據(jù)資源的規(guī)范性提升、質(zhì)量提升、數(shù)據(jù)融合、關(guān)聯(lián)關(guān)系建立的目標(biāo),存在極大的難度,[7]具體體現(xiàn)在以下一些方面:不同來(lái)源數(shù)據(jù)存在大量冗余信息,如何整合取舍缺乏頭緒;對(duì)來(lái)源數(shù)據(jù)的分析耗費(fèi)大量人工工作,缺乏有效的數(shù)據(jù)分析方法和手段;各種來(lái)源數(shù)據(jù)的屬性項(xiàng)實(shí)際含義不清,對(duì)數(shù)據(jù)整合造成較大困難;數(shù)據(jù)字典異常復(fù)雜,涉及業(yè)務(wù)眾多,缺乏統(tǒng)一標(biāo)準(zhǔn)。
基于數(shù)據(jù)元標(biāo)準(zhǔn)開展的數(shù)據(jù)標(biāo)準(zhǔn)化工作,正是支撐關(guān)聯(lián)庫(kù)建設(shè)的有效手段,其對(duì)關(guān)聯(lián)庫(kù)建設(shè)的重要意義體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)元對(duì)數(shù)據(jù)規(guī)范化的意義。
數(shù)據(jù)元對(duì)數(shù)據(jù)項(xiàng)的名稱、類型、長(zhǎng)度、含義、值域(數(shù)據(jù)字典)等制訂了明確的規(guī)范,其不但覆蓋公安核心要素人、地、事、物品、組織等對(duì)象的基本屬性,而且向治安、刑偵等業(yè)務(wù)領(lǐng)域進(jìn)行延伸,是關(guān)聯(lián)庫(kù)建設(shè)過(guò)程中理想的參照標(biāo)準(zhǔn)。
(2)數(shù)據(jù)元對(duì)基礎(chǔ)數(shù)據(jù)資源梳理的意義。
在信息資源整合中,如果涉及到的數(shù)據(jù)資源數(shù)量非常多,傳統(tǒng)的數(shù)據(jù)資源目錄組織方式具有其優(yōu)勢(shì),但同時(shí)其主要面向系統(tǒng)管理員使用,難以在不同場(chǎng)合滿足信息資源的查找與快速搜索需求。
數(shù)據(jù)元標(biāo)準(zhǔn)的出現(xiàn)使得對(duì)不同來(lái)源警種的數(shù)據(jù)資源字段進(jìn)行統(tǒng)一描述成為可能,實(shí)際上提供了從數(shù)據(jù)元反向搜索數(shù)據(jù)資源的能力,并且可以通過(guò)多項(xiàng)數(shù)據(jù)元來(lái)對(duì)數(shù)據(jù)資源進(jìn)行自動(dòng)分配,將數(shù)量眾多的數(shù)據(jù)資源按照數(shù)據(jù)元快速進(jìn)行分類梳理,從而找到需要的數(shù)據(jù)資源,為以五要素為核心的關(guān)聯(lián)庫(kù)設(shè)計(jì)提供依據(jù)。
(3)數(shù)據(jù)元對(duì)數(shù)據(jù)質(zhì)量分析的意義。
數(shù)據(jù)元對(duì)數(shù)據(jù)的長(zhǎng)度、類型均有約束作用,其可以通過(guò)與傳統(tǒng)的數(shù)據(jù)質(zhì)檢手段結(jié)合,在數(shù)據(jù)質(zhì)量分析中發(fā)揮很大作用,對(duì)了解基礎(chǔ)庫(kù)數(shù)據(jù)資源的質(zhì)量、規(guī)范性具有重要意義,可用于分析基礎(chǔ)庫(kù)數(shù)據(jù)資源的數(shù)據(jù)標(biāo)準(zhǔn)符合程度。
(4)數(shù)據(jù)元對(duì)數(shù)據(jù)冗余分析及消除的意義。
數(shù)據(jù)元確定了一個(gè)屬性項(xiàng)的真正含義,在基礎(chǔ)庫(kù)數(shù)據(jù)資源分析中,可以將同名但不同含義的屬性區(qū)分開,并確定真正存在冗余的屬性項(xiàng),這些屬性項(xiàng)在實(shí)際應(yīng)用中有可能會(huì)導(dǎo)致存在信息沖突的情況出現(xiàn),因此通過(guò)數(shù)據(jù)元的分析可以對(duì)信息冗余情況進(jìn)行全面了解并制訂數(shù)據(jù)整合策略。
2.3結(jié)合數(shù)據(jù)元標(biāo)準(zhǔn)的關(guān)聯(lián)庫(kù)建設(shè)方式
綜合以上分析,在關(guān)聯(lián)庫(kù)建設(shè)過(guò)程中,數(shù)據(jù)標(biāo)準(zhǔn)化體系具有重要意義,也是數(shù)據(jù)資源建設(shè)前期的一項(xiàng)重要工作內(nèi)容。本節(jié)將結(jié)合廣州市公安局大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè)經(jīng)驗(yàn),以建設(shè)“人”的關(guān)聯(lián)庫(kù)為例,提出一套以數(shù)據(jù)標(biāo)準(zhǔn)化為支撐的關(guān)聯(lián)庫(kù)建設(shè)步驟和思路,以說(shuō)明數(shù)據(jù)元標(biāo)準(zhǔn)在構(gòu)建關(guān)聯(lián)庫(kù)過(guò)程中的作用。
2.3.1數(shù)據(jù)元分類
為了實(shí)現(xiàn)對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源的有效梳理和分析,在廣州公安大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè)前期,通過(guò)軟件批量導(dǎo)入公安數(shù)據(jù)元標(biāo)準(zhǔn),并對(duì)現(xiàn)有數(shù)據(jù)元按照其發(fā)布機(jī)構(gòu)、對(duì)象類詞、特性詞進(jìn)行進(jìn)一步梳理,按照人、地、事件、物品、組織等要素,以及數(shù)據(jù)元的描述對(duì)象進(jìn)行了分類整理。通過(guò)對(duì)數(shù)據(jù)元進(jìn)行歸類整理,可更清晰了解不同數(shù)據(jù)元的作用領(lǐng)域,為基于數(shù)據(jù)元對(duì)數(shù)據(jù)資源的篩選做好了準(zhǔn)備。
2.3.2數(shù)據(jù)元對(duì)標(biāo)
數(shù)據(jù)元的對(duì)標(biāo)工作在公安數(shù)據(jù)元和現(xiàn)有數(shù)據(jù)表的屬性項(xiàng)之間建立了對(duì)應(yīng)關(guān)系,為了輔助數(shù)據(jù)元的對(duì)標(biāo)工作,在廣州公安大數(shù)據(jù)平臺(tái)項(xiàng)目中,為此專門研發(fā)了數(shù)據(jù)元的對(duì)標(biāo)軟件,在本地?cái)?shù)據(jù)標(biāo)準(zhǔn)管理軟件的支撐之上,可以基于屬性項(xiàng)的名稱、描述、取值范圍等與公安數(shù)據(jù)元進(jìn)行自動(dòng)匹配,并結(jié)合人工審核開展數(shù)據(jù)元對(duì)標(biāo)工作。當(dāng)前已完成基礎(chǔ)庫(kù)全部屬性項(xiàng)的梳理工作,以姓名、身份證、性別、出生日期、學(xué)歷、籍貫、職業(yè)、政治面貌等常用的與人相關(guān)的數(shù)據(jù)元為例,已和幾十個(gè)甚至上百個(gè)字段建立了關(guān)聯(lián)關(guān)系。其具體過(guò)程包括:
(1)數(shù)據(jù)元的批量匹配:在基礎(chǔ)庫(kù)匯集的大量數(shù)據(jù)資源中,對(duì)所有的數(shù)據(jù)項(xiàng)進(jìn)行分析,并與數(shù)據(jù)元進(jìn)行批量匹配,將不規(guī)范的字段與數(shù)據(jù)元建立關(guān)聯(lián)關(guān)系。
(2)審核確認(rèn):對(duì)批量匹配的結(jié)果進(jìn)行人工審核確認(rèn),將一些匹配率低的字段與數(shù)據(jù)元做準(zhǔn)確的映射,以便提高后續(xù)數(shù)據(jù)資源分類的準(zhǔn)確性。
(3)擴(kuò)充上報(bào):在現(xiàn)有數(shù)據(jù)元對(duì)標(biāo)的基礎(chǔ)之上,結(jié)合市局、分局和派出所的一些特色數(shù)據(jù)資源進(jìn)行數(shù)據(jù)元的擴(kuò)充梳理,建立本地?cái)?shù)據(jù)元標(biāo)準(zhǔn),并經(jīng)過(guò)本地?cái)?shù)據(jù)標(biāo)準(zhǔn)化機(jī)構(gòu)的內(nèi)部審核向公安部進(jìn)行上報(bào)。
2.3.3基礎(chǔ)數(shù)據(jù)資源分析
在前面數(shù)據(jù)元分類及數(shù)據(jù)元對(duì)標(biāo)的成果之上,首先結(jié)合公安五要素的劃分,并根據(jù)分類的需要對(duì)數(shù)據(jù)元進(jìn)行篩選,挑選出用于數(shù)據(jù)資源歸納的相關(guān)數(shù)據(jù)元項(xiàng)。然后按照數(shù)據(jù)元分類的結(jié)果,對(duì)對(duì)標(biāo)后的基礎(chǔ)庫(kù)數(shù)據(jù)資源進(jìn)行分級(jí)歸納、循環(huán)遞歸,按照五要素梳理出來(lái)相關(guān)的數(shù)據(jù)資源。為實(shí)現(xiàn)這一過(guò)程,在數(shù)據(jù)管控平臺(tái)研發(fā)專門的數(shù)據(jù)元分析軟件,輔助對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源進(jìn)行分析和梳理。
以人要素為例,基于數(shù)據(jù)元的對(duì)標(biāo)成果,可以快速篩選出來(lái)提供人要素信息的150多類數(shù)據(jù)資源,這些數(shù)據(jù)資源也就是“人”類別關(guān)聯(lián)庫(kù)建設(shè)的主要數(shù)據(jù)來(lái)源。將這些數(shù)據(jù)資源進(jìn)一步歸類分析,可發(fā)現(xiàn)其主要提供人員的背景信息、狀態(tài)信息、行為信息,此外其它一些數(shù)據(jù)資源僅作為一種信息來(lái)源,統(tǒng)計(jì)如下所示:
2.3.4數(shù)據(jù)冗余分析
利用數(shù)據(jù)元對(duì)字段含義建立準(zhǔn)確描述的特性,可以對(duì)從基礎(chǔ)庫(kù)梳理出來(lái)的150多個(gè)數(shù)據(jù)資源進(jìn)行進(jìn)一步分析,研究來(lái)源數(shù)據(jù)中的數(shù)據(jù)冗余情況,以了解這些數(shù)據(jù)資源實(shí)際應(yīng)用中可能會(huì)導(dǎo)致存在信息沖突的風(fēng)險(xiǎn)。通過(guò)了解不同數(shù)據(jù)資源中存在的數(shù)據(jù)冗余情況,為關(guān)聯(lián)庫(kù)設(shè)計(jì)提供依據(jù),并針對(duì)性的制訂數(shù)據(jù)冗余的消除、融合策略。
為實(shí)現(xiàn)此過(guò)程,在數(shù)據(jù)管控平臺(tái)專門開發(fā)了數(shù)據(jù)元分析模塊,可以準(zhǔn)確的分析信息冗余情況,了解基礎(chǔ)庫(kù)各類數(shù)據(jù)資源的信息重復(fù)情況。
2.3.5數(shù)據(jù)質(zhì)量檢查
數(shù)據(jù)元對(duì)數(shù)據(jù)的長(zhǎng)度、類型、值域等均有約束作用,其可以通過(guò)與傳統(tǒng)的數(shù)據(jù)質(zhì)檢手段結(jié)合,在數(shù)據(jù)質(zhì)量分析中發(fā)揮很大作用。通過(guò)引入數(shù)據(jù)元質(zhì)檢功能,對(duì)數(shù)據(jù)項(xiàng)的規(guī)范性以及值域的符合性進(jìn)行檢測(cè),實(shí)現(xiàn)了對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源規(guī)范性和數(shù)據(jù)質(zhì)量的檢測(cè)。這些檢測(cè)結(jié)果為基礎(chǔ)庫(kù)數(shù)據(jù)資源向關(guān)聯(lián)庫(kù)轉(zhuǎn)換和整合制訂策略提供了依據(jù)。并且在本次關(guān)聯(lián)庫(kù)建設(shè)過(guò)程中,針對(duì)公民身份號(hào)碼、姓名、外文姓名等核心數(shù)據(jù)元,建立了針對(duì)性的檢測(cè)驗(yàn)證規(guī)則,以確保這些核心屬性的質(zhì)量。
2.3.6關(guān)聯(lián)庫(kù)設(shè)計(jì)
在實(shí)現(xiàn)對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源的分析之后,對(duì)來(lái)源數(shù)據(jù)的信息冗余情況、數(shù)據(jù)質(zhì)量已經(jīng)有了全面的掌握,可開展對(duì)關(guān)聯(lián)庫(kù)的存儲(chǔ)及整合規(guī)則設(shè)計(jì)工作。通過(guò)對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源的全面分析,為了實(shí)現(xiàn)關(guān)聯(lián)庫(kù)的建設(shè)目標(biāo),在項(xiàng)目建設(shè)過(guò)程中提出了建設(shè)人員主數(shù)據(jù)的思路,并以主數(shù)據(jù)為核心,對(duì)人員數(shù)據(jù)進(jìn)行規(guī)范化梳理和建立索引,并以關(guān)系數(shù)據(jù)庫(kù)、列式數(shù)據(jù)庫(kù)為主要物理支撐,構(gòu)建人要素的關(guān)聯(lián)庫(kù)混合存儲(chǔ)體系。
整個(gè)人要素關(guān)聯(lián)庫(kù)的構(gòu)成包括以下幾個(gè)邏輯結(jié)構(gòu):
(1)人員主數(shù)據(jù):按照公安數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行設(shè)計(jì),含有人的基本信息及各種擴(kuò)展信息項(xiàng),包括證件號(hào)碼、常用證件代碼、姓名、性別、民族、學(xué)歷等信息,同時(shí)將數(shù)據(jù)的密級(jí)機(jī)制等落實(shí)到人員主數(shù)據(jù)上,實(shí)現(xiàn)面向具體人員的記錄級(jí)密級(jí)訪問(wèn)控制和維護(hù)機(jī)制。在列式數(shù)據(jù)庫(kù)的支撐之上,人員主數(shù)據(jù)的屬性項(xiàng)具有良好的可擴(kuò)充性,未來(lái)可結(jié)合數(shù)據(jù)資源的匯集情況及實(shí)際業(yè)務(wù)需要,進(jìn)行方便的擴(kuò)充。
(2)人員索引信息:通過(guò)對(duì)基礎(chǔ)庫(kù)數(shù)據(jù)資源的分析,可以為人員建立各種背景、狀態(tài)、登記、職業(yè)、出行軌跡等索引記錄,在主數(shù)據(jù)整合過(guò)程中同時(shí)維護(hù)人員的各種索引標(biāo)志位,通過(guò)索引信息建立與基礎(chǔ)庫(kù)數(shù)據(jù)資源之間的關(guān)聯(lián)關(guān)系,并制成檔案的應(yīng)用體系的建立。
(3)整合來(lái)源信息:在主數(shù)據(jù)整合過(guò)程中,記錄主數(shù)據(jù)每一個(gè)屬性項(xiàng)的整合來(lái)源,通過(guò)整合來(lái)源信息可以直接了解關(guān)聯(lián)庫(kù)的數(shù)據(jù)源頭情況,不但在關(guān)聯(lián)庫(kù)內(nèi)部建立關(guān)聯(lián)關(guān)系,同時(shí)在關(guān)聯(lián)庫(kù)和基礎(chǔ)庫(kù)的數(shù)據(jù)之間建立追溯關(guān)系。
(4)規(guī)范化基礎(chǔ)數(shù)據(jù)資源:按照公安數(shù)據(jù)元標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行清洗整合之后,形成的數(shù)據(jù)資源,與基礎(chǔ)庫(kù)數(shù)據(jù)資源進(jìn)行對(duì)應(yīng),通過(guò)人員索引信息可以直接將這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)展現(xiàn)。
按照以上思路,整個(gè)關(guān)聯(lián)庫(kù)以主數(shù)據(jù)為核心,實(shí)現(xiàn)了所有數(shù)據(jù)資源的匯集和整合,并建立了較強(qiáng)的內(nèi)在關(guān)聯(lián)關(guān)系,同時(shí)與基礎(chǔ)庫(kù)建立了數(shù)據(jù)的追溯關(guān)系。此外,通過(guò)對(duì)數(shù)據(jù)元的分析,將主數(shù)據(jù)表中數(shù)據(jù)項(xiàng)進(jìn)行了進(jìn)一步劃分,分為需要整合的數(shù)據(jù)項(xiàng)(與人建立一對(duì)一關(guān)聯(lián))和僅需要規(guī)范化的數(shù)據(jù)項(xiàng)(與人建立一對(duì)多關(guān)聯(lián)),在物理層分別采用不同的技術(shù)進(jìn)行存儲(chǔ)和組織,以滿足數(shù)據(jù)快速分析檢索的需要。
2.3.7主數(shù)據(jù)整合
按照關(guān)聯(lián)庫(kù)的設(shè)計(jì)方式,當(dāng)前廣州公安局正在開展人類別主數(shù)據(jù)的整合工作,并開發(fā)了專門的主數(shù)據(jù)整合軟件,實(shí)現(xiàn)主數(shù)據(jù)下載、分析、生成報(bào)告、整合的一整套流程,將數(shù)據(jù)元標(biāo)準(zhǔn)體系建設(shè)成果、數(shù)據(jù)對(duì)標(biāo)成果直接應(yīng)用于主數(shù)據(jù)整合流程中。
目前通過(guò)對(duì)150多張數(shù)據(jù)資源表制訂整合策略,現(xiàn)已匯集1.8億人員證件信息,整合了來(lái)自公安數(shù)據(jù)資源的4000萬(wàn)人員姓名等核心屬性,同時(shí)對(duì)公安、社會(huì)等數(shù)據(jù)資源形成數(shù)據(jù)質(zhì)量分析報(bào)告。
本文以公安數(shù)據(jù)元為基礎(chǔ),從數(shù)據(jù)元標(biāo)準(zhǔn)化建設(shè)的角度,提出了一種結(jié)合數(shù)據(jù)元標(biāo)準(zhǔn)的數(shù)據(jù)資源分類篩選、冗余分析、質(zhì)量檢查等方法,應(yīng)用于公安信息資源服務(wù)平臺(tái)以及大數(shù)據(jù)等項(xiàng)目的關(guān)聯(lián)庫(kù)建設(shè)中,可以和數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)以及基礎(chǔ)庫(kù)建設(shè)成果相結(jié)合,有效提升數(shù)據(jù)資源質(zhì)量及規(guī)范性,為公安數(shù)據(jù)資源整合和應(yīng)用提供了借鑒思路和方法指導(dǎo)。隨著公安信息化建設(shè)的不斷深入,數(shù)據(jù)元的研究和應(yīng)用領(lǐng)域?qū)⒉粩嘌由?,必將在公安?shù)據(jù)中心建設(shè)等領(lǐng)域發(fā)揮越來(lái)越重要的作用。
[1]王斌君,王永紅,孫巫龍.數(shù)據(jù)元標(biāo)準(zhǔn)在信息化中作用的再認(rèn)識(shí)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(3).
[2]高貴錦,龍翔.基于數(shù)據(jù)元的交換數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)[J].吉林大學(xué)學(xué)報(bào),2005.
[3]中華人民共和國(guó)公安部[S].GA/T541—2011公安業(yè)務(wù)數(shù)據(jù)元素管理規(guī)程,2011.
[4]中華人民共和國(guó)公安部[S].GA/T542—2011公安業(yè)務(wù)數(shù)據(jù)元素編寫規(guī)則,2011.
[5]中華人民共和國(guó)公安部[S].GA/T543—2011公安業(yè)務(wù)基礎(chǔ)數(shù)據(jù)元素集,2011.
[6]中華人民共和國(guó)公安部[S].GA/Z02—2005公安業(yè)務(wù)基礎(chǔ)數(shù)據(jù)元素代碼集,2005.
[7]楊永強(qiáng),馬世龍,靳文.一種保持?jǐn)?shù)據(jù)完整性的數(shù)據(jù)集成機(jī)制的探討[J].北京航空航天大學(xué)學(xué)報(bào),2008,34(9).
*第二屆公安信息化建設(shè)與應(yīng)用優(yōu)秀論文評(píng)選活動(dòng)優(yōu)秀論文