摘要:在對(duì)北京市城市規(guī)劃和國(guó)土資源管理專業(yè)檔案管理現(xiàn)狀和數(shù)據(jù)庫管理系統(tǒng)進(jìn)行詳細(xì)分析的基礎(chǔ)上,論文選擇Elasticsearch搜索引擎技術(shù)建立檢索平臺(tái)來實(shí)現(xiàn)這兩種專業(yè)檔案異構(gòu)數(shù)據(jù)庫的整合,使專業(yè)檔案數(shù)據(jù)能夠被統(tǒng)一檢索和集中展現(xiàn),從而為用戶提供一站式集成的檔案信息服務(wù)。
關(guān)鍵詞:專業(yè)檔案 異構(gòu)數(shù)據(jù)庫 檢索
城市規(guī)劃和國(guó)土資源管理專業(yè)檔案是城市規(guī)劃部門、國(guó)土資源管理部門在各項(xiàng)業(yè)務(wù)活動(dòng)中形成的,作為歷史記錄保存起來以備查考的資料。近年來,該類檔案的管理隨著檔案標(biāo)準(zhǔn)建設(shè)、檔案信息化建設(shè)的發(fā)展取得了一定的成就,但也存在一些問題。例如,在很長(zhǎng)一段時(shí)間內(nèi),國(guó)內(nèi)大部分地區(qū)城市規(guī)劃和國(guó)土資源管理專業(yè)檔案的管理隸屬不同的機(jī)構(gòu),制度建設(shè)和信息化建設(shè)缺乏統(tǒng)一規(guī)劃,專業(yè)檔案信息資源共享利用困難。新一輪機(jī)構(gòu)改革后,城市規(guī)劃和國(guó)土資源管理機(jī)構(gòu)進(jìn)行合并,并將相關(guān)的業(yè)務(wù)和資源進(jìn)行整合,而現(xiàn)有的專業(yè)檔案管理方式顯然不能滿足城市規(guī)劃和國(guó)土資源管理工作對(duì)專業(yè)檔案數(shù)據(jù)利用的更高要求。為了使專業(yè)檔案數(shù)據(jù)信息資源增值并提高服務(wù)效率,對(duì)已有的城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)進(jìn)行整合是十分必要的。
下面將以機(jī)構(gòu)改革后的北京市規(guī)劃和自然資源委員會(huì)城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)庫整合為例,探索專業(yè)檔案數(shù)據(jù)資源整合的方法和技術(shù),以期為新形勢(shì)下城市規(guī)劃和國(guó)土資源管理專業(yè)檔案管理提供借鑒。
北京市規(guī)劃和自然資源委員會(huì)機(jī)構(gòu)整合后,原城市規(guī)劃和國(guó)土資源管理專業(yè)檔案的管理職責(zé)統(tǒng)一由北京市城市建設(shè)檔案館(以下簡(jiǎn)稱“北京市城建檔案館”)承擔(dān)。目前,北京市規(guī)劃和自然資源委員會(huì)主要業(yè)務(wù)檔案體系中并行存在著兩個(gè)專業(yè)檔案體系,即原北京市規(guī)劃委員會(huì)所屬的城市規(guī)劃管理專業(yè)檔案體系和原北京市國(guó)土局所屬的國(guó)土資源管理專業(yè)檔案體系。在本文中,城市規(guī)劃管理專業(yè)檔案主要包括建設(shè)用地規(guī)劃許可、建設(shè)工程規(guī)劃許可、規(guī)劃審批過程材料、建設(shè)工程規(guī)劃核驗(yàn)意見和資質(zhì)審批、招投標(biāo)審批管理等類別的檔案;國(guó)土資源管理專業(yè)檔案主要包括土地利用規(guī)劃、建設(shè)用地、土地市場(chǎng)、土地監(jiān)察、礦業(yè)權(quán)、耕地保護(hù)、資源調(diào)查等類別的檔案。
對(duì)于城市規(guī)劃管理專業(yè)檔案,目前采用市區(qū)兩級(jí)管理方式,即北京市城建檔案館接收、管理委機(jī)關(guān)和部分委屬單位產(chǎn)生的檔案,各區(qū)分局城建檔案機(jī)構(gòu)接收、管理各區(qū)分局產(chǎn)生的檔案,且北京市城建檔案館和各區(qū)分局城建檔案機(jī)構(gòu)負(fù)責(zé)對(duì)各自接收的專業(yè)檔案進(jìn)行整理編目和數(shù)字化加工處理等工作。城市規(guī)劃管理專業(yè)檔案數(shù)據(jù)資源通過北京市城建檔案管理信息系統(tǒng)進(jìn)行管理。該系統(tǒng)分為市館版和區(qū)級(jí)版,兩版采用的數(shù)據(jù)標(biāo)準(zhǔn)和系統(tǒng)架構(gòu)完全一致,分別被部署在北京市城建檔案館和各區(qū)分局檔案機(jī)構(gòu)的內(nèi)部局域網(wǎng)機(jī)房,同互聯(lián)網(wǎng)物理隔離。國(guó)土資源管理專業(yè)檔案市區(qū)兩級(jí)的管理方式同前所述。國(guó)土數(shù)字檔案館系統(tǒng)對(duì)所有相關(guān)數(shù)據(jù)資源進(jìn)行統(tǒng)一管理,包括數(shù)字化加工、存儲(chǔ)及網(wǎng)絡(luò)化利用。該系統(tǒng)于2014年建成,被部署在北京市政務(wù)外網(wǎng)上。北京市城建檔案管理信息系統(tǒng)使用的操作系統(tǒng)為Win? dows Server 2012 Standard,數(shù)據(jù)庫管理軟件為SQL Server 2012;國(guó)土數(shù)字檔案館系統(tǒng)使用的操作系統(tǒng)為Windows Server 2008/2012 Standard,數(shù)據(jù)庫管理軟件為SQL Server 2008。
綜上,北京市城市規(guī)劃和國(guó)土資源管理專業(yè)檔案分別采用不同的數(shù)據(jù)庫系統(tǒng)和應(yīng)用平臺(tái)進(jìn)行管理。其中,兩個(gè)應(yīng)用平臺(tái)由不同的軟件開發(fā)商開發(fā),采用不同的專業(yè)檔案數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和技術(shù)管理體系。用戶利用這兩類專業(yè)檔案時(shí)需登錄各自所屬的系統(tǒng),因此查詢同一事項(xiàng)關(guān)聯(lián)的城市規(guī)劃和國(guó)土資源管理專業(yè)檔案時(shí),相關(guān)結(jié)果不能集中展現(xiàn),利用專業(yè)檔案費(fèi)時(shí)費(fèi)力。此外,因管理城市規(guī)劃專業(yè)檔案數(shù)據(jù)的市區(qū)兩級(jí)北京市城建檔案管理信息系統(tǒng)都被部署在各自的局域網(wǎng)環(huán)境中,與政務(wù)外網(wǎng)上的業(yè)務(wù)系統(tǒng)物理隔離,所以各系統(tǒng)之間的數(shù)據(jù)共享存在障礙,數(shù)據(jù)交互只能通過線下人工方式進(jìn)行;管理國(guó)土資源管理專業(yè)檔案數(shù)據(jù)的國(guó)土數(shù)字檔案館系統(tǒng)則因建設(shè)時(shí)間較早,系統(tǒng)兼容性差,專業(yè)檔案數(shù)據(jù)查詢利用量大時(shí)存在使用瓶頸,影響用戶體驗(yàn)。
“數(shù)字檔案資源整合是對(duì)現(xiàn)有檔案數(shù)字資源進(jìn)行重組,依據(jù)一定的需要,對(duì)各個(gè)相對(duì)獨(dú)立的信息系統(tǒng)中的檔案數(shù)字資源、功能結(jié)構(gòu)及其互動(dòng)關(guān)系進(jìn)行融合、類聚和重組,重新結(jié)合為一個(gè)新的有機(jī)整體,形成一個(gè)效能更好、效率更高的新的資源系統(tǒng)”。[1]檔案數(shù)據(jù)庫整合強(qiáng)調(diào)在充分利用現(xiàn)有資源配置的條件下,對(duì)分散的、不統(tǒng)一的檔案數(shù)字資源庫基于一定的機(jī)制進(jìn)行優(yōu)化和多資源的無縫鏈接,最終實(shí)現(xiàn)檔案數(shù)字資源的合理管理、高效服務(wù)及檔案本身價(jià)值的增值。[2]
基于此,如何實(shí)現(xiàn)前面提到的兩個(gè)異構(gòu)專業(yè)檔案數(shù)據(jù)庫的整合,從而為用戶提供一步到位的城市規(guī)劃和國(guó)土資源管理專業(yè)檔案信息服務(wù)是本文需要研究的關(guān)鍵。
通過研究發(fā)現(xiàn),對(duì)不同數(shù)據(jù)庫進(jìn)行檢索并提供統(tǒng)一的操作界面是異構(gòu)數(shù)據(jù)庫整合研究的一個(gè)重要方向。檢索包括兩個(gè)核心過程,首先按檢索關(guān)鍵詞查找并生成結(jié)果集,其次對(duì)查找結(jié)果進(jìn)行進(jìn)一步選擇處理,生成檢索結(jié)果。
元搜索引擎技術(shù)是一項(xiàng)高效的檢索技術(shù),具有全局控制機(jī)制的特點(diǎn)。被應(yīng)用于數(shù)據(jù)庫整合時(shí),它并不對(duì)數(shù)據(jù)庫中的信息進(jìn)行搜索,而是對(duì)控制范圍內(nèi)的搜索引擎進(jìn)行集成,是在子搜索引擎基礎(chǔ)上發(fā)展起來的、為用戶提供統(tǒng)一檢索入口的異構(gòu)數(shù)據(jù)庫整合方式。相對(duì)于傳統(tǒng)的檔案搜索引擎,元搜索引擎能夠提供跨庫檢索功能,進(jìn)而實(shí)現(xiàn)對(duì)各種檔案異構(gòu)數(shù)據(jù)庫資源的互操作,用戶無須逐個(gè)登錄檔案數(shù)據(jù)庫檢索界面進(jìn)行訪問。[3]
對(duì)不同數(shù)據(jù)庫進(jìn)行檢索還有一個(gè)關(guān)鍵,即要保證檔案數(shù)據(jù)資源和數(shù)據(jù)庫功能在不受破壞的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)的集成管理。網(wǎng)格技術(shù)具有此功能,可以將地理位置上分散的、異構(gòu)的信息資源集成在一起,是一種集計(jì)算、存儲(chǔ)和服務(wù)為一體的異構(gòu)數(shù)據(jù)庫整合技術(shù),能實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)庫信息資源的透明訪問。網(wǎng)格將散落在各地的檔案異構(gòu)數(shù)據(jù)庫信息資源整合進(jìn)數(shù)據(jù)庫網(wǎng)格,然后將數(shù)據(jù)庫網(wǎng)格中存放的檔案數(shù)據(jù)庫檢索界面進(jìn)行整合,將各個(gè)檔案異構(gòu)數(shù)據(jù)庫中的檔案管理業(yè)務(wù)流程進(jìn)行集成,并使其在不同的應(yīng)用網(wǎng)格上運(yùn)行,從而為用戶提供一體化的檔案信息服務(wù)平臺(tái)。[4]
Elasticsearch搜索引擎技術(shù)集成了元搜索引擎技術(shù)、網(wǎng)格技術(shù)等異構(gòu)檔案數(shù)據(jù)庫整合技術(shù)的優(yōu)點(diǎn),[5]能夠達(dá)到穩(wěn)定、可靠、快速的實(shí)時(shí)搜索和呈現(xiàn)。首先,Elasticsearch搜索引擎技術(shù)支持分布式存儲(chǔ),其搜索功能建立在海量數(shù)據(jù)之上,本身可以作為海量數(shù)據(jù)的存儲(chǔ)工具。在本研究中,可將城市規(guī)劃和國(guó)土資源管理專業(yè)檔案等異構(gòu)數(shù)據(jù)同步到Elasticsearch里存儲(chǔ)。其次,使用該技術(shù)搜索時(shí)采取倒排方式,異構(gòu)數(shù)據(jù)庫中的每個(gè)字段都可以被用于搜索,然后根據(jù)字段出現(xiàn)的頻次信息對(duì)檔案信息進(jìn)行排序,使相關(guān)性越高的搜索結(jié)果排序越靠前。另外,該技術(shù)還提供了包括模糊查詢、前綴查詢、通配符查詢等在內(nèi)的多種查詢手段,幫助用戶快速高效地進(jìn)行檢索。與此同時(shí),該技術(shù)還提供大數(shù)據(jù)量分析能力,支持在海量數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)的分析和處理,為用戶提供最相關(guān)、最可靠的檢索結(jié)果。
通過對(duì)北京市城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)管理現(xiàn)狀與專業(yè)檔案數(shù)據(jù)庫整合方法進(jìn)行分析,本文提出了以下整合方案,并采用Elasticsearch搜索引擎技術(shù)建立統(tǒng)一的檢索平臺(tái),以實(shí)現(xiàn)城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)庫的整合。
(一)城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)庫整合方案
根據(jù)前期調(diào)研的北京市規(guī)劃和自然資源委員會(huì)業(yè)務(wù)整合現(xiàn)狀、城市規(guī)劃和國(guó)土資源管理專業(yè)檔案市區(qū)兩級(jí)管理現(xiàn)狀,為最大限度地利用已有的專業(yè)檔案數(shù)據(jù)資源和軟硬件設(shè)備,并提供最便捷的專業(yè)檔案信息服務(wù),本文確定了物理整合和邏輯整合相結(jié)合的專業(yè)檔案數(shù)據(jù)庫整合方案。
1.將市區(qū)兩級(jí)城市規(guī)劃和國(guó)土資源管理專業(yè)檔案資源進(jìn)行集成管理和分布式存儲(chǔ)。首先使用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)建庫和補(bǔ)全專業(yè)檔案數(shù)據(jù)。對(duì)于城市規(guī)劃專業(yè)檔案,由北京市城建檔案館建立委機(jī)關(guān)專業(yè)檔案數(shù)據(jù)庫,各區(qū)分局建立自己的專業(yè)檔案數(shù)據(jù)庫;對(duì)于國(guó)土資源管理專業(yè)檔案,則按照傳統(tǒng)采用統(tǒng)一的數(shù)據(jù)庫進(jìn)行管理。建立專業(yè)檔案數(shù)據(jù)庫并補(bǔ)全專業(yè)檔案數(shù)據(jù)后,所有的專業(yè)檔案數(shù)據(jù)庫被移植到政務(wù)外網(wǎng)。
2.建立專業(yè)檔案統(tǒng)一檢索平臺(tái),提供唯一的信息檢索頁面,完成城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)庫的最終整合。在檢索平臺(tái)上,通過Elastic? search搜索引擎技術(shù),使城市規(guī)劃和國(guó)土資源管理異構(gòu)專業(yè)檔案數(shù)據(jù)庫的海量信息能夠快速被統(tǒng)一檢索和集中呈現(xiàn),為專業(yè)檔案用戶提供一站式集成的檔案信息服務(wù)。
(二)基于Elasticsearch搜索引擎技術(shù)的專業(yè)檔案統(tǒng)一檢索的實(shí)現(xiàn)
用Elasticsearch搜索引擎技術(shù)實(shí)現(xiàn)統(tǒng)一檢索的關(guān)鍵包括數(shù)據(jù)層的管理、定時(shí)任務(wù)數(shù)據(jù)同步的調(diào)度和搜索引擎的設(shè)置。
1.使用Elasticsearch搜索引擎技術(shù)進(jìn)行檢索時(shí),數(shù)據(jù)層使用雙數(shù)據(jù)源模式(即以SQL Server作為數(shù)據(jù)庫管理系統(tǒng)和Elasticsearch作為搜索引擎兼數(shù)據(jù)容器),將城市規(guī)劃和國(guó)土資源管理專業(yè)檔案數(shù)據(jù)存放在Elasticsearch中,以便其底層的搜索引擎采用倒排索引技術(shù)進(jìn)行搜索。
2.通過配置定時(shí)任務(wù)的方式實(shí)現(xiàn)數(shù)據(jù)同步。對(duì)于定時(shí)任務(wù)數(shù)據(jù)同步采用Quartz調(diào)度,使搜索數(shù)據(jù)資源時(shí)專業(yè)檔案數(shù)據(jù)能被同步至Elasticsearch,并對(duì)有問題的數(shù)據(jù)進(jìn)行標(biāo)記。
3.搜索引擎使用倒排方式,使城市規(guī)劃和國(guó)土資源管理異構(gòu)專業(yè)檔案數(shù)據(jù)庫中的每個(gè)字段都可以被用于搜索,最終將城市規(guī)劃和國(guó)土資源管理專業(yè)檔案中具有相關(guān)性的數(shù)據(jù)全部檢索出來。
在專業(yè)檔案統(tǒng)一檢索實(shí)現(xiàn)的基礎(chǔ)上搭建城市規(guī)劃和國(guó)土資源管理專業(yè)檔案統(tǒng)一檢索平臺(tái)后,市區(qū)兩級(jí)專業(yè)檔案用戶可以登錄平臺(tái)的統(tǒng)一檢索界面,檢索城市規(guī)劃和國(guó)土資源管理專業(yè)檔案的所有數(shù)據(jù)資源。平臺(tái)能同時(shí)調(diào)閱多個(gè)分布式存儲(chǔ)的專業(yè)檔案數(shù)據(jù)庫,根據(jù)統(tǒng)一權(quán)限控制用戶訪問不同的專業(yè)檔案數(shù)據(jù)庫和數(shù)據(jù)資源,并提供多種專業(yè)檔案信息的瀏覽、下載、打印等功能。
城市規(guī)劃和國(guó)土資源管理專業(yè)檔案在城市規(guī)劃建設(shè)管理中具有重要的地位,是現(xiàn)在和未來城市規(guī)劃建設(shè)管理的參考依據(jù)。本文通過專業(yè)檔案數(shù)據(jù)庫的整合實(shí)現(xiàn)了大體量、多類別的城市規(guī)劃和國(guó)土資源管理檔案數(shù)據(jù)“云服務(wù)”利用,更好地發(fā)揮了此類檔案在北京市城市規(guī)劃建設(shè)管理工作中的輔助決策作用。如何進(jìn)一步將云計(jì)算、大數(shù)據(jù)等技術(shù)運(yùn)用于專業(yè)檔案數(shù)據(jù)整合工作中,通過海量信息提取與分析,實(shí)現(xiàn)檔案結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)編研分析及產(chǎn)品定制,為城市規(guī)劃建設(shè)管理用戶提供更精準(zhǔn)的、更高質(zhì)量的專業(yè)檔案信息服務(wù)是下一步研究的方向。
*本文系北京市檔案局科研項(xiàng)目“北京市規(guī)劃和自然資源系統(tǒng)專業(yè)檔案數(shù)據(jù)庫整合研究”(項(xiàng)目編號(hào):2020-13)的研究成果之一。
注釋及參考文獻(xiàn):
[1]安小米,宋懿,張斌.國(guó)家數(shù)字檔案資源整合與服務(wù):概念、路徑和機(jī)制[J].檔案學(xué)研究,2018(3):81-88.
[2]張占武.高校檔案信息資源整合探究[J].北京檔案,2021(6):25-26.
[3]王海鷗.檔案信息資源整合與利用探討[J].蘭臺(tái)內(nèi)外,2020(7):42-43.
[4]王雪萍.淺談檔案異構(gòu)數(shù)據(jù)庫整合與服務(wù)集成的技術(shù)實(shí)現(xiàn)[C]//中國(guó)檔案學(xué)會(huì).檔案與文化建設(shè):2012年全國(guó)檔案工作者年會(huì)論文集(上),2012:421-429.
[5]裘紫陽.面向Elasticsearch的監(jiān)控管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2019.
作者單位:北京市城市建設(shè)檔案館