文·王偉
數(shù)據(jù)治理(Data Governance)是涉及數(shù)據(jù)使用的一整套管理行為。國際數(shù)據(jù)管理協(xié)會對數(shù)據(jù)治理的定義是對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合。具體講數(shù)據(jù)治理就是對存量數(shù)據(jù)治理、增量數(shù)據(jù)管控的一個過程,對存量數(shù)據(jù)實現(xiàn)由亂到治、規(guī)范貫標(biāo),對增量數(shù)據(jù)實現(xiàn)嚴(yán)格把控、履行標(biāo)準(zhǔn)規(guī)范。檔案數(shù)字化是隨著計算機技術(shù)、掃描技術(shù)、掃描線性CCD技術(shù)、OCR技術(shù)、數(shù)字攝影技術(shù)(錄音、錄像)、數(shù)據(jù)庫技術(shù)、多媒體技術(shù)、存儲技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),它把傳統(tǒng)載體的檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息,以數(shù)字化的形式存儲,網(wǎng)絡(luò)化的形式連接,并對檔案信息資源進行數(shù)據(jù)治理與服務(wù)開發(fā)利用,以期滿足新時期用戶高效化、知識化和個性化需求。近年來,檔案的數(shù)字化工作在機關(guān)和企事業(yè)單位推進較快,為機關(guān)企事業(yè)單位檔案信息化建設(shè)奠定了良好的基礎(chǔ)。目前由于檔案數(shù)字化工作中數(shù)據(jù)質(zhì)量檢測環(huán)節(jié)不夠理想,已成為檔案數(shù)字化工作乃至整個檔案數(shù)字化轉(zhuǎn)型過程中的短板和瓶頸。解決好檔案數(shù)字化轉(zhuǎn)型過程中存在的數(shù)據(jù)質(zhì)量問題,需要從源頭提升數(shù)據(jù)資源質(zhì)量,做好數(shù)據(jù)治理體系建設(shè),以助力實現(xiàn)檔案數(shù)據(jù)資產(chǎn)增值、挖掘利用、質(zhì)量提升的發(fā)展戰(zhàn)略。
檔案數(shù)字化質(zhì)量檢測工作是指對數(shù)字化檔案信息資源的質(zhì)量檢測,從源頭上解決數(shù)據(jù)權(quán)責(zé)不清、數(shù)據(jù)重復(fù)錄入、數(shù)據(jù)質(zhì)量規(guī)范參差不齊等問題,從而達到提升數(shù)據(jù)質(zhì)量目的,做到事前預(yù)防、事中控制、事后檢查追溯,從而實現(xiàn)檔案數(shù)據(jù)質(zhì)量、檢查、分析、提升的目標(biāo)。依據(jù)檔案信息化的程度,可將檔案數(shù)字化工作的質(zhì)量檢測,可分為治理前質(zhì)量檢測和治理后質(zhì)量檢測。
治理前質(zhì)量檢測包括,一是對計算機處理及掃描處理等技術(shù)完成后信息進行檢測,對檔案掃描處理以及文本和圖像頁的匹配等質(zhì)量進行檢驗;二是對文本域錄入與文本入域的標(biāo)引、文件的頁號和頁數(shù)進行對比;三是對圖像質(zhì)量的檢查,確保圖像版面清晰、干凈、大小一致、方向一致;四是對影像文件是否重頁、缺頁、漏頁、頁面信息不完整的檢測;五是對件內(nèi)文件排序規(guī)則存在問題檢測等。
檔案數(shù)字化工作的治理后質(zhì)量檢測,主要包括符合性質(zhì)量檢測和適用性質(zhì)量檢測。符合性質(zhì)量是指數(shù)據(jù)符合國家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)的程度;適用性質(zhì)量是指數(shù)據(jù)適合業(yè)務(wù)需求目的、使用要求的程度。對數(shù)字化檔案治理后質(zhì)量檢測可以從兩個維度進行處理,一級維度可包括規(guī)范性、完整性、準(zhǔn)確性、一致性、及時性、可用性;二級維度可根據(jù)一級維度進行指標(biāo)細化,例如在規(guī)范性方面進行進一步質(zhì)量檢測,可包括數(shù)據(jù)模型、數(shù)據(jù)標(biāo)準(zhǔn)、業(yè)務(wù)規(guī)則、內(nèi)容格式等細顆粒的檢測。在完整性維度可細化為非空檢查、內(nèi)容完整性、參照完整性、接受完整性等,如圖1所示。對檢測后的數(shù)據(jù)質(zhì)量進行評分,形成基于業(yè)務(wù)維度的數(shù)據(jù)質(zhì)量分析報告和基于系統(tǒng)維度的數(shù)據(jù)質(zhì)量分析報告。
檔案數(shù)字化質(zhì)量檢測的重點,應(yīng)在于檔案數(shù)字化治理后的質(zhì)量檢測。治理后的質(zhì)量檢測由評估維度管理、質(zhì)量規(guī)則管理、初步質(zhì)量分析、數(shù)據(jù)質(zhì)量檢查、問題數(shù)據(jù)處理、質(zhì)量評估報告等部分組成。通過管理數(shù)據(jù)質(zhì)量評估規(guī)則,構(gòu)建數(shù)據(jù)質(zhì)量評估模型,建立質(zhì)量規(guī)則庫、提供數(shù)據(jù)標(biāo)準(zhǔn)化清洗和質(zhì)量稽核服務(wù),實現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化應(yīng)用,逐步實現(xiàn)對檔案數(shù)字化質(zhì)量的檢測和管控。
根據(jù)對部分省直單位檔案數(shù)字化工作的調(diào)研,其數(shù)據(jù)質(zhì)量檢測情況和治理水平現(xiàn)狀如下。
一是掃描文件和影像數(shù)據(jù)質(zhì)量檢測簡單化,只完成圖片本身和著錄項目的質(zhì)量檢測,沒有進行檔案數(shù)字化治理后的檢測,大多存在著重復(fù)存儲,價值密度低,不能形成多維度檔案數(shù)據(jù)質(zhì)量報告和檔案數(shù)據(jù)的進一步應(yīng)用開發(fā)。
二是檔案數(shù)字化質(zhì)量檢測能力不足,數(shù)據(jù)治理水平不高。這是因為在檔案數(shù)字化質(zhì)量檢測過程中,缺乏統(tǒng)一的數(shù)據(jù)質(zhì)量管理流程體系,缺少對檔案數(shù)據(jù)質(zhì)量的檢查、有效管理及考核,造成大量臟數(shù)據(jù)、多源數(shù)據(jù)等現(xiàn)象存在,影響了應(yīng)用效果。同時,缺少問題數(shù)據(jù)管控,也會在發(fā)現(xiàn)問題數(shù)據(jù)后,不能進行合理的問題數(shù)據(jù)處理,導(dǎo)致在跨部門跨領(lǐng)域檔案數(shù)據(jù)集成與共享時的數(shù)據(jù)質(zhì)量難以保證。
三是數(shù)據(jù)治理前的質(zhì)量檢測信息服務(wù)功能單一,對后期檔案數(shù)字化綜合開發(fā)利用、協(xié)同性和共享性等不足,很難改變檔案單一的使用功能,無法實現(xiàn)檔案數(shù)字化的數(shù)據(jù)圖譜建設(shè),構(gòu)建圖譜模型和標(biāo)簽?zāi)P?,并進行加工建模分析,關(guān)聯(lián)量化,將檔案的數(shù)據(jù)資源轉(zhuǎn)變?yōu)楣芾碣Y源、決策資源。
一是建立數(shù)據(jù)質(zhì)量管理流程體系(見圖2),建立數(shù)據(jù)質(zhì)量稽核制度,形成數(shù)據(jù)質(zhì)量評估報告。
數(shù)據(jù)質(zhì)量稽核由數(shù)據(jù)質(zhì)量檢查服務(wù)對數(shù)據(jù)進行指定規(guī)則檢查,并分別根據(jù)不同規(guī)則特點提供不同的檢查方法,包括但不限于格式檢查、范圍檢查、相似重復(fù)記錄檢查、缺失記錄檢查等。經(jīng)過數(shù)據(jù)質(zhì)量稽核生成問題數(shù)據(jù)清單,并根據(jù)數(shù)據(jù)確權(quán)進行問題數(shù)據(jù)分派,方便數(shù)據(jù)操作者修改問題數(shù)據(jù),形成閉環(huán)的問題數(shù)據(jù)管理體系。數(shù)據(jù)質(zhì)量評估報告包括查看檔案數(shù)字化的數(shù)據(jù)質(zhì)量匯總情況及評分,查看各表質(zhì)量評估的明細信息,數(shù)據(jù)質(zhì)量檢查的規(guī)則引用情況、問題數(shù)據(jù)檢測情況、問題記錄占比(包括但不限于按列、評測維度、檢查方法等維度的問題記錄占比情況)、問題數(shù)據(jù)修正情況等。
根據(jù)數(shù)據(jù)質(zhì)量檢測、監(jiān)控,跟蹤質(zhì)量評估測量結(jié)果、發(fā)現(xiàn)質(zhì)量變化趨勢,及時對質(zhì)量異常問題進行預(yù)警。定期對增量數(shù)據(jù)的質(zhì)量進行分析,形成數(shù)據(jù)質(zhì)量關(guān)鍵指標(biāo)數(shù)據(jù)和檢測監(jiān)控報告,一旦檢測到數(shù)據(jù)質(zhì)量檢測、監(jiān)控異常情況,及時進行處理或人工干預(yù)。
二是建立一體化大數(shù)據(jù)治理與服務(wù)平臺(數(shù)據(jù)底座平臺)。該平臺能夠?qū)崿F(xiàn)全鏈路、全生命周期的檔案數(shù)據(jù)設(shè)計、管理、應(yīng)用的敏捷化、協(xié)同化、一體化,既能從業(yè)務(wù)、職責(zé)事項、質(zhì)量、安全、分布、可信來源等角度了解數(shù)據(jù)資源,又能通過數(shù)據(jù)管理建立包含標(biāo)準(zhǔn)、質(zhì)量、安全、標(biāo)簽、來源、確權(quán)、編目、規(guī)則等八個維度的數(shù)據(jù)模型,通過數(shù)據(jù)模型驅(qū)動數(shù)據(jù)服務(wù)平臺提供數(shù)據(jù)采集、交換、加工、共享、協(xié)同等數(shù)據(jù)服務(wù),實現(xiàn)“知曉全局,摸清家底;管好數(shù)據(jù),運籌帷幄;用好數(shù)據(jù),發(fā)揮價值;敏捷開發(fā),降低風(fēng)險”的目的。
三是要踐行“數(shù)字賦能、融合發(fā)展”的檔案服務(wù)理念,積極推動檔案部門與其他部門開展數(shù)據(jù)、技術(shù)、業(yè)務(wù)協(xié)同合作,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、接口規(guī)范、調(diào)用規(guī)則,為實現(xiàn)輕量化、協(xié)同化、區(qū)域化的數(shù)據(jù)對接與共享奠定基礎(chǔ);完善檔案信息資源區(qū)域共享機制,建設(shè)互聯(lián)互通、數(shù)據(jù)共享、綜合利用的公共檔案資源數(shù)據(jù)服務(wù)平臺,構(gòu)建全方位、全覆蓋的服務(wù)體系,以高質(zhì)量的檔案數(shù)字化質(zhì)量檢測工作推動擴展檔案數(shù)據(jù)資源的綜合利用。