文 / 路宏偉 楊蓬勃
2017年12月27日,國(guó)家檔案局局長(zhǎng)李明華在全國(guó)檔案局長(zhǎng)館長(zhǎng)會(huì)議上強(qiáng)調(diào),當(dāng)前屬于“大數(shù)據(jù)”時(shí)代,我國(guó)要加速檔案工作轉(zhuǎn)型升級(jí)。據(jù)館藏檔案數(shù)據(jù)顯示,“十一五”末我國(guó)館藏檔案已達(dá)到3.92億余卷(件),絕大多數(shù)檔案數(shù)據(jù)存留于政府機(jī)關(guān)和社會(huì)各行各業(yè),形成了海量檔案數(shù)據(jù)。由于目前檔案數(shù)據(jù)采取雙軌制管理,大多數(shù)檔案數(shù)據(jù)的采集和抽取難以滿(mǎn)足大數(shù)據(jù)時(shí)代要求,檔案大數(shù)據(jù)的金融價(jià)值難以實(shí)現(xiàn)。
檔案大數(shù)據(jù)是指檔案業(yè)務(wù)活動(dòng)中與檔案及檔案業(yè)務(wù)活動(dòng)密切相關(guān)的各種有價(jià)值、難以在短時(shí)間分析處理的數(shù)據(jù)集[1]。檔案大數(shù)據(jù)包括在檔案數(shù)據(jù)交換、存儲(chǔ)和處理過(guò)程中產(chǎn)生的三類(lèi)檔案數(shù)據(jù):第一,在檔案數(shù)據(jù)爆炸式增長(zhǎng)過(guò)程中,短時(shí)間內(nèi)每個(gè)參與信息交換的檔案數(shù)據(jù)節(jié)點(diǎn)都接收并存儲(chǔ)大量數(shù)據(jù);第二,在國(guó)家檔案局頒布的《紙質(zhì)檔案數(shù)字化規(guī)范》的實(shí)施過(guò)程中,紙質(zhì)檔案數(shù)字化存儲(chǔ)帶來(lái)了大量可被利用的檔案數(shù)據(jù);第三,隨著人工智能等技術(shù)的發(fā)展,檔案數(shù)據(jù)二次處理會(huì)產(chǎn)生更多全新、高價(jià)值的檔案數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)與檔案工作的交匯融合持續(xù)加深,檔案大數(shù)據(jù)已取代傳統(tǒng)概念上的檔案數(shù)據(jù)信息化。
目前國(guó)內(nèi)檔案大數(shù)據(jù)采集和抽取存在諸多問(wèn)題,大量檔案數(shù)據(jù)難以被人工智能深度學(xué)習(xí)和利用,導(dǎo)致檔案大數(shù)據(jù)無(wú)法被商業(yè)化利用而失去應(yīng)有的金融價(jià)值。
首先,檔案大數(shù)據(jù)采集缺乏統(tǒng)一標(biāo)準(zhǔn)[2],導(dǎo)致檔案大數(shù)據(jù)系統(tǒng)處理困難。當(dāng)前新檔案數(shù)據(jù)采集已基本實(shí)現(xiàn)自動(dòng)化,但各家檔案館仍遵循“所需即所用”的觀念,根據(jù)自身發(fā)展需要與設(shè)想進(jìn)行檔案數(shù)據(jù)采集,導(dǎo)致各家檔案館數(shù)據(jù)采集內(nèi)容和格式的標(biāo)準(zhǔn)不一致,未能實(shí)現(xiàn)檔案大數(shù)據(jù)的標(biāo)準(zhǔn)化采集。而在舊檔案數(shù)據(jù)的處理過(guò)程中,為便于永久保存和快捷抽取,檔案館需將重要的紙質(zhì)版檔案轉(zhuǎn)化為電子檔案,此過(guò)程中各家檔案館電子檔案格式也存在不統(tǒng)一的問(wèn)題,致使人工智能難以識(shí)別、讀取和分析上述檔案大數(shù)據(jù),可能出現(xiàn)檔案數(shù)據(jù)采集遺漏現(xiàn)象。檔案大數(shù)據(jù)采集標(biāo)準(zhǔn)的缺乏既不利于檔案大數(shù)據(jù)資源開(kāi)放共享,也不利于人工智能系統(tǒng)對(duì)海量檔案數(shù)據(jù)的深入挖掘,導(dǎo)致檔案數(shù)據(jù)資源無(wú)法被充分利用。
其次,檔案大數(shù)據(jù)抽取工作中存在“信息孤島”現(xiàn)象[3],導(dǎo)致檔案大數(shù)據(jù)的交換和共享困難。在檔案大數(shù)據(jù)抽取過(guò)程中存在兩個(gè)問(wèn)題:第一,并非所有檔案大數(shù)據(jù)源都對(duì)外提供開(kāi)放的檔案數(shù)據(jù)抽取接口;第二,提供接口的檔案大數(shù)據(jù)源對(duì)外抽取接口標(biāo)準(zhǔn)也不一致,難以實(shí)現(xiàn)檔案大數(shù)據(jù)的交換和共享。此外,不同檔案系統(tǒng)供應(yīng)商的硬件和軟件系統(tǒng)也互不兼容,各檔案館間難以實(shí)現(xiàn)檔案數(shù)據(jù)的交換與共享,導(dǎo)致檔案大數(shù)據(jù)無(wú)法實(shí)時(shí)抽取到有效數(shù)據(jù),阻礙檔案大數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合,最終致使各檔案數(shù)據(jù)源如同散落的“信息孤島”。
再次,紙質(zhì)檔案難以與電子檔案大數(shù)據(jù)實(shí)時(shí)同步,無(wú)法滿(mǎn)足檔案大數(shù)據(jù)對(duì)紙質(zhì)檔案的實(shí)時(shí)抽取和追溯需求。運(yùn)用雙軌制檔案管理,將紙質(zhì)檔案和電子檔案進(jìn)行整合管理,既是對(duì)傳統(tǒng)歷史檔案或社會(huì)記憶的一種重構(gòu)和維系,也是對(duì)電子檔案文件的一種保守和折中管理辦法[4]。紙質(zhì)檔案對(duì)檔案大數(shù)據(jù)而言具有重要意義。它可對(duì)電子檔案數(shù)據(jù)進(jìn)行追溯、核準(zhǔn)、備份、監(jiān)督和糾偏。因此,檔案大數(shù)據(jù)的真實(shí)性和可靠性遠(yuǎn)高于其它大數(shù)據(jù)系統(tǒng),具有獨(dú)特的商業(yè)價(jià)值。但各檔案館在實(shí)際管理過(guò)程中,因資金、技術(shù)等原因?qū)е挛锫?lián)網(wǎng)、區(qū)塊鏈等新型軟硬件技術(shù)未能用于紙質(zhì)檔案管理,紙質(zhì)檔案的存放狀態(tài)、位置和內(nèi)容信息難以與電子檔案大數(shù)據(jù)實(shí)時(shí)同步,仍需人工輔助完成,難以體現(xiàn)檔案大數(shù)據(jù)的獨(dú)特商業(yè)價(jià)值,最終影響其金融價(jià)值。
第四,檔案大數(shù)據(jù)的金融價(jià)值未能深入挖掘,導(dǎo)致檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn)化建設(shè)資金缺乏。檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn)化建設(shè)需要大量人力、財(cái)力和物力,僅靠政府財(cái)政撥款難以完成,阻礙了檔案大數(shù)據(jù)系統(tǒng)的發(fā)展,亟需金融資本支持。研究表明,目前對(duì)檔案數(shù)據(jù)的利用主要是出于工作需要進(jìn)行統(tǒng)計(jì)分析,僅是對(duì)檔案數(shù)據(jù)進(jìn)行直接反映,無(wú)法利用大數(shù)據(jù)及相關(guān)技術(shù)對(duì)檔案資源進(jìn)行充分挖掘。究其原因,主要是缺乏統(tǒng)一的檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn),難以構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,導(dǎo)致檔案大數(shù)據(jù)的商業(yè)和盈利模式缺乏而無(wú)法實(shí)現(xiàn)金融價(jià)值。
第五,檔案大數(shù)據(jù)的抽取缺乏國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng)支持,導(dǎo)致檔案大數(shù)據(jù)抽取受限。一方面,如果檔案大數(shù)據(jù)所涉及的信息可直接或間接連接查詢(xún)追溯到某人,則此類(lèi)信息就能定位到個(gè)人隱私信息,如身份、肖像、姓名、個(gè)人消費(fèi)習(xí)慣以及宗教信仰等,而上述信息均涉及個(gè)人隱私問(wèn)題;另一方面,檔案數(shù)字資源是國(guó)家和社會(huì)充分挑選并保存下來(lái)的真實(shí)歷史記錄,其中涉及大量國(guó)家機(jī)密。由于檔案大數(shù)據(jù)涉及國(guó)家安全和個(gè)人隱私問(wèn)題,因此建立完善的檔案大數(shù)據(jù)國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng)勢(shì)在必行[5]。
“檔案數(shù)據(jù)正在成為一種重要的戰(zhàn)略資產(chǎn)”已是檔案行業(yè)共識(shí),擁有檔案數(shù)據(jù)的部門(mén)和企業(yè)也必然成為檔案大數(shù)據(jù)的直接受益者。但由于檔案大數(shù)據(jù)采集、抽取標(biāo)準(zhǔn)不一致以及檔案大數(shù)據(jù)國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng)的缺乏,檔案大數(shù)據(jù)難以變成戰(zhàn)略資產(chǎn),導(dǎo)致檔案數(shù)據(jù)擁有者無(wú)法獲益。為了解決上述問(wèn)題,亟需構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,明確商業(yè)模式和盈利模式,吸引金融資本參與建設(shè)檔案大數(shù)據(jù)平臺(tái),在保障檔案大數(shù)據(jù)國(guó)家安全和個(gè)人隱私前提下,實(shí)現(xiàn)檔案大數(shù)據(jù)的經(jīng)濟(jì)效益和社會(huì)效益。
在檔案大數(shù)據(jù)平臺(tái)價(jià)值挖掘的過(guò)程中,隨著檔案大數(shù)據(jù)采集和抽取流程不斷復(fù)雜化,檔案大數(shù)據(jù)與互聯(lián)網(wǎng)的結(jié)合進(jìn)一步增加了國(guó)家機(jī)密泄漏風(fēng)險(xiǎn)和個(gè)人隱私暴露風(fēng)險(xiǎn)。因此,必須通過(guò)建立各類(lèi)檔案大數(shù)據(jù)的國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng),針對(duì)各類(lèi)檔案大數(shù)據(jù)需求設(shè)立不同權(quán)限,實(shí)現(xiàn)檔案大數(shù)據(jù)的合規(guī)性采集和抽取。此外,檔案大數(shù)據(jù)國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng)應(yīng)定期得到維護(hù)和完善,確保與時(shí)俱進(jìn),滿(mǎn)足政府對(duì)檔案大數(shù)據(jù)的國(guó)家安全和個(gè)人隱私監(jiān)管要求。
在國(guó)家相關(guān)檔案管理和隱私保護(hù)等法規(guī)的基礎(chǔ)上,通過(guò)建立檔案大數(shù)據(jù)的國(guó)家安全和個(gè)人隱私評(píng)級(jí)系統(tǒng),持續(xù)探索合理隱私保護(hù)前提下的檔案大數(shù)據(jù)挖掘和共享商業(yè)模式,既是檔案大數(shù)據(jù)平臺(tái)建設(shè)的必備前提,也是實(shí)現(xiàn)檔案大數(shù)據(jù)金融價(jià)值的重要基礎(chǔ)。
構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,在核心企業(yè)引領(lǐng)下,上下游企業(yè)互動(dòng),有助于真正實(shí)現(xiàn)檔案大數(shù)據(jù)的商業(yè)價(jià)值和金融價(jià)值。
1.明確檔案大數(shù)據(jù)數(shù)據(jù)的采集者和提供者。目前檔案館作為檔案大數(shù)據(jù)的合法采集者、提供者和擁有者,屬于檔案大數(shù)據(jù)產(chǎn)業(yè)鏈的核心企業(yè)之一,但受制于事業(yè)單位身份,難以將檔案數(shù)據(jù)轉(zhuǎn)變?yōu)榻?jīng)營(yíng)性資產(chǎn)。首先,檔案館應(yīng)創(chuàng)新檔案數(shù)據(jù)的管理模式,將檔案數(shù)據(jù)的所有權(quán)和經(jīng)營(yíng)權(quán)分離,在滿(mǎn)足國(guó)家檔案管理相關(guān)法規(guī)的前提下,將合規(guī)性檔案數(shù)據(jù)有償授權(quán)給關(guān)聯(lián)企業(yè)和第三方平臺(tái)經(jīng)營(yíng)。其次,應(yīng)針對(duì)不同行業(yè)和部門(mén)的檔案信息,統(tǒng)一檔案大數(shù)據(jù)的采集標(biāo)準(zhǔn),實(shí)現(xiàn)有償標(biāo)準(zhǔn)化采集。最后,應(yīng)鼓勵(lì)檔案大數(shù)據(jù)源提供標(biāo)準(zhǔn)化數(shù)據(jù)交換接口,并通過(guò)第三方平臺(tái)完成檔案數(shù)據(jù)源的抽取和共享,整合全國(guó)的檔案大數(shù)據(jù),快速建設(shè)我國(guó)的檔案大數(shù)據(jù)平臺(tái)。
2.明確檔案大數(shù)據(jù)軟硬件設(shè)施提供者。檔案大數(shù)據(jù)軟件系統(tǒng)提供者主要包括“檔案大數(shù)據(jù)軟件技術(shù)集成商”“云存儲(chǔ)服務(wù)商”和“大數(shù)據(jù)挖掘服務(wù)商”。檔案大數(shù)據(jù)軟件技術(shù)集成商負(fù)責(zé)提供檔案大數(shù)據(jù)采集和抽取的軟件技術(shù)服務(wù),檔案大數(shù)據(jù)云存儲(chǔ)服務(wù)商負(fù)責(zé)對(duì)內(nèi)提供檔案大數(shù)據(jù)云存儲(chǔ)服務(wù)、對(duì)外提供檔案大數(shù)據(jù)交換服務(wù),而檔案大數(shù)據(jù)挖掘服務(wù)商負(fù)責(zé)提供檔案大數(shù)據(jù)分析和決策服務(wù)。
檔案大數(shù)據(jù)硬件設(shè)施供應(yīng)者主要包括“紙質(zhì)檔案數(shù)據(jù)采集設(shè)備生產(chǎn)商”“紙質(zhì)檔案狀態(tài)監(jiān)測(cè)與位置定位設(shè)備生產(chǎn)商”以及“紙質(zhì)檔案數(shù)據(jù)與電子數(shù)據(jù)自動(dòng)追溯與同步設(shè)備生產(chǎn)商”,三者分別負(fù)責(zé)提供“紙質(zhì)檔案的電子數(shù)據(jù)自動(dòng)采集設(shè)備”“紙質(zhì)檔案狀態(tài)與定位的低功耗物聯(lián)網(wǎng)設(shè)備”以及“追溯與同步原始紙質(zhì)檔案數(shù)據(jù)的自動(dòng)化設(shè)備”。
3.構(gòu)建檔案大數(shù)據(jù)商業(yè)模式。伴隨著檔案數(shù)據(jù)商業(yè)價(jià)值的挖掘,檔案大數(shù)據(jù)商業(yè)模式將會(huì)對(duì)檔案產(chǎn)業(yè)鏈的發(fā)展產(chǎn)生巨大影響。借鑒其他大數(shù)據(jù)平臺(tái)的商業(yè)模式,檔案大數(shù)據(jù)商業(yè)模式可分為“檔案數(shù)據(jù)交易模式”“檔案信息服務(wù)模式”和“第三方檔案數(shù)據(jù)服務(wù)模式”。
(1)檔案數(shù)據(jù)交易模式。檔案數(shù)據(jù)交易模式主要指檔案數(shù)據(jù)采集者通過(guò)直接買(mǎi)賣(mài)檔案大數(shù)據(jù)獲利,進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的當(dāng)期金融價(jià)值,而檔案數(shù)據(jù)的反復(fù)銷(xiāo)售則是檔案數(shù)據(jù)采集者不斷完善檔案大數(shù)據(jù)的主要?jiǎng)恿?。通過(guò)建立檔案數(shù)據(jù)交易模式,促使各檔案數(shù)據(jù)源采集者自發(fā)按照統(tǒng)一標(biāo)準(zhǔn)采集檔案大數(shù)據(jù),進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的交換和共享,最終實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)效益。
(2)檔案信息服務(wù)模式。檔案信息服務(wù)模式是指檔案大數(shù)據(jù)供應(yīng)者深入挖掘檔案大數(shù)據(jù)的潛在價(jià)值獲利,進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的遠(yuǎn)期金融價(jià)值,如提供其他大數(shù)據(jù)平臺(tái)無(wú)法提供的精準(zhǔn)“征信服務(wù)”。檔案信息服務(wù)模式要求檔案數(shù)據(jù)擁有者同時(shí)具備檔案數(shù)據(jù)采集和挖掘能力,促使檔案數(shù)據(jù)擁有者最大限度地挖掘檔案大數(shù)據(jù)的潛在價(jià)值。
(3)第三方檔案數(shù)據(jù)服務(wù)模式。第三方檔案數(shù)據(jù)服務(wù)模式是指檔案數(shù)據(jù)采集者和數(shù)據(jù)挖掘者之外的第三方平臺(tái)通過(guò)專(zhuān)注提供第三方檔案數(shù)據(jù)獲利。第三方檔案數(shù)據(jù)服務(wù)平臺(tái)不但通過(guò)各種渠道搜集、交換、聚合和加工檔案大數(shù)據(jù),而且整合與檔案大數(shù)據(jù)相關(guān)的其他行業(yè)數(shù)據(jù),最終通過(guò)該平臺(tái)提供檔案數(shù)據(jù)交易和挖掘服務(wù),以輕資產(chǎn)方式運(yùn)營(yíng)檔案大數(shù)據(jù)平臺(tái)獲利。
4.構(gòu)建檔案大數(shù)據(jù)盈利模式。檔案大數(shù)據(jù)平臺(tái)既可從檔案大數(shù)據(jù)的消費(fèi)市場(chǎng)實(shí)現(xiàn)當(dāng)期獲利,也可通過(guò)資本市場(chǎng)股權(quán)增值實(shí)現(xiàn)遠(yuǎn)期獲利。由于缺乏建設(shè)檔案大數(shù)據(jù)平臺(tái)的資金,應(yīng)當(dāng)在資本市場(chǎng)吸引風(fēng)險(xiǎn)投資,快速整合檔案大數(shù)據(jù),建設(shè)全國(guó)性的檔案大數(shù)據(jù)平臺(tái),盡快占領(lǐng)檔案大數(shù)據(jù)消費(fèi)市場(chǎng)。此方式既有利于檔案大數(shù)據(jù)的快速整合與檔案大數(shù)據(jù)產(chǎn)業(yè)鏈的快速構(gòu)建,又有利于檔案大數(shù)據(jù)商業(yè)模式的快速確立,最終實(shí)現(xiàn)檔案大數(shù)據(jù)的金融價(jià)值。