孟慶昕
(中國電子科技集團(tuán)公司電子科學(xué)研究院,北京100041)
全國一體化國家大數(shù)據(jù)中心頂層設(shè)計(jì)和應(yīng)用示范工作,基于系統(tǒng)形態(tài)的創(chuàng)新,連接政府和社會(huì)現(xiàn)有數(shù)據(jù)中心,整合數(shù)據(jù)資源,通過“數(shù)據(jù)即服務(wù)、平臺(tái)即服務(wù)、應(yīng)用即服務(wù)”等服務(wù)形式,構(gòu)建“跨層級(jí)縱向匯集、跨部門橫向共享”的數(shù)據(jù)集中共享環(huán)境,推動(dòng)全國數(shù)據(jù)資源在國家安全和社會(huì)治理等方面的深度開發(fā)和綜合運(yùn)用,形成“全網(wǎng)一體、全域覆蓋、全維應(yīng)用”的大數(shù)據(jù)服務(wù)體系,實(shí)現(xiàn)從“有形”的國家大數(shù)據(jù)中心實(shí)體到“無形”的國家大數(shù)據(jù)中心體系的轉(zhuǎn)變。解決全國層面數(shù)據(jù)統(tǒng)籌管理和數(shù)據(jù)資源共享問題,突破異地多源數(shù)據(jù)一致性查詢、異地多中心間資源共享調(diào)度等關(guān)鍵技術(shù),研制數(shù)據(jù)中心準(zhǔn)入驗(yàn)證環(huán)境和數(shù)據(jù)交換平臺(tái),建設(shè)國家大數(shù)據(jù)共享調(diào)度節(jié)點(diǎn),集成接入電子政務(wù)、智慧城市、、空管、電磁等業(yè)務(wù)域大數(shù)據(jù)中心,其中電子政務(wù)數(shù)據(jù)體系研究涉及了從各政府部門獲取的格式化數(shù)據(jù)和非格式化數(shù)據(jù),包括文本、圖片、視頻等多類數(shù)據(jù)。目前已模擬形成了政務(wù)服務(wù)事項(xiàng)目錄(1400 多條)、證照數(shù)據(jù)(200 多條)、企業(yè)基本信息(200 多條);智慧城市有6 大基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)和5 大業(yè)務(wù)領(lǐng)域標(biāo)準(zhǔn)的267348條城市數(shù)據(jù)的數(shù)據(jù)目錄,龐大的數(shù)據(jù)量,急需實(shí)現(xiàn)對(duì)全國層面的數(shù)據(jù)統(tǒng)籌管理、一致性智能查詢等功能。
數(shù)據(jù)倉庫技術(shù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的和反映歷史變化的數(shù)據(jù)集合組織技術(shù)。建立大數(shù)據(jù)存儲(chǔ)模型,建立全網(wǎng)統(tǒng)一編碼規(guī)則及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系描述,支持有效對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、索引及追溯,以及面向大數(shù)據(jù)分析應(yīng)用主題的數(shù)據(jù)組織。數(shù)據(jù)倉庫系統(tǒng)是一個(gè)信息提供平臺(tái),它從各個(gè)業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要采取星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。數(shù)據(jù)倉庫的關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理,數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理、并有效的集成,按照主題進(jìn)行組織。
通過采用“Hadoop+關(guān)系型數(shù)據(jù)庫“混合架構(gòu),實(shí)現(xiàn)了大數(shù)據(jù)存儲(chǔ)模型,建立了全平臺(tái)統(tǒng)一編碼規(guī)則及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系描述,抽取了原始監(jiān)測(cè)數(shù)據(jù),預(yù)處理監(jiān)測(cè)數(shù)據(jù),設(shè)備狀態(tài)數(shù)據(jù),環(huán)境監(jiān)控?cái)?shù)據(jù),業(yè)務(wù)應(yīng)用數(shù)據(jù)。支持對(duì)數(shù)據(jù)有效存儲(chǔ)、索引及追溯,以及面向大數(shù)據(jù)分析應(yīng)用主題的數(shù)據(jù)組織。解決了多格式、多種類、多來源的數(shù)據(jù)標(biāo)準(zhǔn)化問題,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)架構(gòu)。
對(duì)于海量數(shù)據(jù)清洗過程中需要強(qiáng)大的計(jì)算能力,特別是在一致性查詢,更是提出了更高的要求,該技術(shù)充分利用集群強(qiáng)大的計(jì)算、存儲(chǔ)能力,采用分層的設(shè)計(jì)思想,在底層將集群作為數(shù)據(jù)格式統(tǒng)一的存儲(chǔ)平臺(tái),將各種異構(gòu)數(shù)據(jù)源統(tǒng)一到集群的存儲(chǔ)系統(tǒng)中,并采用集群來分析處理巨大的待清洗數(shù)據(jù),在集群層之上則為相應(yīng)的并行核心清洗模塊,包括數(shù)據(jù)加載模塊、分布式孤立點(diǎn)挖掘模塊、結(jié)果分析及存儲(chǔ)模塊,透明的調(diào)用集群底層的計(jì)算和存儲(chǔ)能力。通過研究空值、數(shù)值型、日期型、字符串型等多種異構(gòu)數(shù)據(jù)清洗技術(shù),對(duì)多種類型的異構(gòu)數(shù)據(jù)都能完成清洗工作,為后期的一致性查詢做好基礎(chǔ)準(zhǔn)備,同時(shí)在數(shù)據(jù)清洗中引入數(shù)據(jù)挖掘方法,如用于檢驗(yàn)異常記錄的聚類方法、用于發(fā)現(xiàn)不符合現(xiàn)有模式的異常記錄的模型方法、用于發(fā)現(xiàn)數(shù)據(jù)集中不符合具有支持度規(guī)則和高置信度的異常數(shù)據(jù)的關(guān)聯(lián)規(guī)則方法。
元數(shù)據(jù)索引加速在大數(shù)據(jù)的應(yīng)用過程中,用于解決關(guān)系型數(shù)據(jù)庫百億級(jí)數(shù)據(jù)量級(jí)全文檢索及數(shù)據(jù)計(jì)算時(shí)效問題,實(shí)現(xiàn)快速定位及數(shù)據(jù)集抽象。通過倒排算法,完成“單詞-文檔矩陣”的存儲(chǔ)形式,目標(biāo)是為了可以根據(jù)單詞快速獲取包含這個(gè)單詞的文檔列表,并進(jìn)行比對(duì)。倒排索引包括單詞字典、倒排文件列表和倒排文件物理實(shí)體。
單詞詞典:索引單位是單詞,單詞詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合,單詞詞典內(nèi)每條索引項(xiàng)記載單詞本身的一些信息以及指向“倒排列表”的指針。
倒排文件列表:記載出現(xiàn)過得某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息,每條記錄成為一個(gè)倒排項(xiàng)(Posting)。根據(jù)倒排列表,即可獲知哪些文檔包含某個(gè)單詞。
倒排文件物理實(shí)體:所有單詞的倒排列表往往順序地存儲(chǔ)在磁盤的某個(gè)文件里,這個(gè)文件即被稱之為倒排文件,倒排文件是存儲(chǔ)倒排索引的物理文件。經(jīng)過測(cè)試驗(yàn)證,元數(shù)據(jù)索引加速技術(shù)可以加速響應(yīng)bolt計(jì)算組元的查詢命中,例如用戶輸入查詢?cè)~“114.067222,87.234543”,搜索系統(tǒng)查找倒排索引,從中可以讀出包含這個(gè)單詞的文檔,這些文檔就是提供給Bolt 的搜索結(jié)果,而利用單詞頻率信息、文檔頻率信息即可以對(duì)這些候選搜索結(jié)果進(jìn)行排序,計(jì)算文檔和查詢相似性,按照相似性得分由高到低排序輸出,從而替代到傳統(tǒng)關(guān)系型數(shù)據(jù)庫全文檢查,提升數(shù)據(jù)快速檢索的命中率
并行計(jì)算機(jī)引擎技術(shù)是大數(shù)據(jù)中心運(yùn)行計(jì)算的核心,實(shí)現(xiàn)將大數(shù)據(jù)級(jí)處理任務(wù)拆解成批量子計(jì)算組集合的計(jì)算框架,將一次一百億數(shù)據(jù)集合計(jì)算任務(wù)拆分為百十子進(jìn)程計(jì)算,對(duì)子計(jì)算進(jìn)程進(jìn)行過程狀態(tài)監(jiān)管,最終子進(jìn)程全集完成計(jì)算后由統(tǒng)一局和計(jì)算進(jìn)行統(tǒng)計(jì)結(jié)果,并進(jìn)行調(diào)度。
結(jié)合全國一體化國家大數(shù)據(jù)中心能力需求,通過原型系統(tǒng)建設(shè)和示范應(yīng)用建設(shè),搭建形成南京空管大數(shù)據(jù)中心、深圳智慧城市大數(shù)據(jù)中心、貴陽電子政務(wù)大數(shù)據(jù)中心、北京電子政務(wù)大數(shù)據(jù)中心。其中,深圳智慧城市大數(shù)據(jù)中心已匯集公安局、發(fā)改委、地稅局、民政局等24 種數(shù)據(jù)資源,接入120 張數(shù)據(jù)表1650 個(gè)數(shù)據(jù)項(xiàng),共計(jì)262 億條記錄,同時(shí)還匯聚10 余萬路視頻數(shù)據(jù),支撐公共服務(wù)、城市運(yùn)營管理等業(yè)務(wù),有效提升數(shù)據(jù)處理效率15%左右。貴陽電子政務(wù)大數(shù)據(jù)中心服務(wù)器規(guī)模已達(dá)到50 臺(tái),成功匯集貴陽市政府各委辦局共享交換數(shù)據(jù),這其中多源一致性智能查詢技術(shù)起到了關(guān)鍵作用。
基于大數(shù)據(jù)的精準(zhǔn)與主題服務(wù)分析實(shí)現(xiàn)了政務(wù)服務(wù)業(yè)務(wù)分析系統(tǒng),精準(zhǔn)推送和辦事人相關(guān)的服務(wù)和信息,優(yōu)化辦事體驗(yàn)。主要包括政務(wù)數(shù)據(jù)采集、精準(zhǔn)搜索、服務(wù)檔案、精準(zhǔn)服務(wù)推送和主題服務(wù)分析?;趯?duì)經(jīng)信委、統(tǒng)計(jì)局、稅務(wù)局、財(cái)政局、工商局等部門的經(jīng)濟(jì)運(yùn)行相關(guān)數(shù)據(jù)采集,通過對(duì)區(qū)域經(jīng)濟(jì)、企業(yè)經(jīng)營數(shù)據(jù)、投資、財(cái)政等重點(diǎn)主題分析和消費(fèi)、能源運(yùn)行形勢(shì)等常規(guī)主題分析實(shí)現(xiàn)了經(jīng)濟(jì)運(yùn)行業(yè)務(wù)分析系統(tǒng),及時(shí)發(fā)現(xiàn)區(qū)域經(jīng)濟(jì)運(yùn)行的異常,給宏觀調(diào)整產(chǎn)業(yè)發(fā)展政策提供數(shù)據(jù)依據(jù),為工業(yè)經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)預(yù)警奠定基礎(chǔ),使對(duì)工業(yè)經(jīng)濟(jì)發(fā)展的趨勢(shì)判斷和預(yù)測(cè)更加科學(xué)、更加準(zhǔn)確,為宏觀決策提供可靠依據(jù),保持和促進(jìn)工業(yè)經(jīng)濟(jì)的健康、持續(xù)發(fā)展。
數(shù)據(jù)目錄訂閱系統(tǒng)&審批系統(tǒng)基于配置文件形式進(jìn)行數(shù)據(jù)交互,完成數(shù)據(jù)解析入庫,提供數(shù)據(jù)目錄展示、數(shù)據(jù)目錄檢索、數(shù)據(jù)目錄訂閱功能以及數(shù)據(jù)操作審批流程,其中審批系統(tǒng)能夠提供服務(wù)接口供其他系統(tǒng)調(diào)用,審批系統(tǒng)功能涵蓋數(shù)據(jù)接入審批、數(shù)據(jù)使用審批以及數(shù)據(jù)刪除審批,實(shí)現(xiàn)了智慧城市敏感數(shù)據(jù)保護(hù)。同時(shí)正在結(jié)合脫敏設(shè)備,對(duì)敏感字段加工處理。
建設(shè)全市統(tǒng)一的通訊庫,實(shí)現(xiàn)跨行業(yè)、跨區(qū)域、跨業(yè)務(wù)、跨機(jī)構(gòu)的基礎(chǔ)通訊方式的整合及互聯(lián)互通。以全市統(tǒng)一通訊庫為核心,關(guān)聯(lián)人口、法人、房屋部件、事件等業(yè)務(wù)庫,將業(yè)務(wù)及能力封裝成服務(wù),統(tǒng)一調(diào)度,供上層業(yè)務(wù)應(yīng)用使用。
貴陽電子政務(wù)大數(shù)據(jù)中心典型應(yīng)用是數(shù)據(jù)融合在民生領(lǐng)域的綜合應(yīng)用,應(yīng)用基于自有數(shù)據(jù)和仿真模擬數(shù)據(jù)匯聚融合了全國不同地區(qū)、不同行業(yè)和不同系統(tǒng)的數(shù)據(jù)。全景式立體化展現(xiàn)了民生領(lǐng)域,特別是旅游行業(yè)的綜合態(tài)勢(shì),數(shù)據(jù)來源包括貴陽本地電子政務(wù)中心、南京空管大數(shù)據(jù)中心、智慧城市大數(shù)據(jù)中心、電磁大數(shù)據(jù)中心,完成共計(jì)3 大類,18 小類的數(shù)據(jù)融合分析應(yīng)用。
本文介紹了以基于數(shù)據(jù)倉庫技術(shù),大數(shù)據(jù)清洗技術(shù)、元數(shù)據(jù)索引加速技術(shù)和并行計(jì)算機(jī)引擎技術(shù)為核心的異地多源數(shù)據(jù)一致性智能查詢的實(shí)現(xiàn)方法,并成功運(yùn)用在全國一體化國家大數(shù)據(jù)中心項(xiàng)目中,在實(shí)際的電子政務(wù)場(chǎng)景中得到了檢驗(yàn),從綜合性能來考慮,是目前實(shí)現(xiàn)異地多源數(shù)據(jù)一致性檢驗(yàn)技術(shù)的有效方法。