文/遼寧省大連市沙河口區(qū)中心醫(yī)院醫(yī)務(wù)部 張春景
目前需要做什么才能確保檔案在未來和不斷發(fā)展的數(shù)字環(huán)境中得到用戶的信任?在新修訂的《檔案法》中,增設(shè)“檔案信息化建設(shè)”一章,進一步推動了檔案信息化工作。筆者認為應(yīng)與國內(nèi)和國際不同的部門和學(xué)科的學(xué)術(shù)研究團體合作,利用跨學(xué)科專業(yè)知識來圍繞這些重點進行研究。檔案界的學(xué)者應(yīng)以創(chuàng)造一個數(shù)字檔案館的研究環(huán)境,來幫助解決國家數(shù)字檔案館的重大問題和挑戰(zhàn)。
(一)數(shù)字環(huán)境的發(fā)展。在發(fā)展快速的數(shù)字環(huán)境中,像國家檔案館這樣的檔案機構(gòu)正在尋求走向一個可持續(xù)發(fā)展的數(shù)字未來,并繼續(xù)成為我們記憶中值得信賴的“監(jiān)護人”。隨著環(huán)境的變化,檔案館提供未經(jīng)篡改、可靠的公共檔案的任務(wù)始終不變。世界各地的收藏機構(gòu)現(xiàn)在都在集中精力進行數(shù)字化建設(shè),以保證他們跟上時代的步伐,并保證對所采集、保存、背景化和展示的檔案賦予其合法性。在人工智能輔助檔案收集的時代,突出檔案的適應(yīng)性、價值和可持續(xù)性的需求越來越高。數(shù)字化的挑戰(zhàn)使“信任”成為焦點,但同時也是一個機會,將檔案館信任的基礎(chǔ)作為一個機構(gòu)的權(quán)威,轉(zhuǎn)變?yōu)閷n案實踐的透明度和問責(zé)制。
數(shù)字化是我們最大的挑戰(zhàn)。然而,我們并不孤單。在最近的一篇短文中,Luciano Floridi教授討論了我們?nèi)找鎻?fù)雜的環(huán)境不可持續(xù)的脆弱性,這只是數(shù)字給現(xiàn)代社會帶來的挑戰(zhàn)之一。在該文中,弗洛里迪提出了認識數(shù)字脆弱性風(fēng)險的方法,并通過強調(diào)數(shù)字世界的所有成員,在保護信息方面發(fā)揮出的關(guān)鍵作用。文章最后認為,從好的一面來看,數(shù)字脆弱性有一些特別有用的東西,即它促使了信息社會對脆弱性的了解,并通過從上到下更開放、更負責(zé)任的方式,協(xié)同工作,為控制數(shù)字故障做好更充分的準備。
在檔案界,數(shù)字檔案正在從根本上改變著檔案的面貌以及檔案工作者和檔案機構(gòu)的作用。數(shù)字環(huán)境的發(fā)展是導(dǎo)致檔案學(xué)科迅速轉(zhuǎn)變的一個因素,或者用托馬斯-庫恩的話說這是一場科學(xué)革命,“從一個相對固定的科學(xué)框架轉(zhuǎn)向需要對其原則、方法和實踐進行深刻了解的變革”。更具體地說,數(shù)字環(huán)境的發(fā)展給檔案領(lǐng)域帶來了各種復(fù)雜的情況和挑戰(zhàn),正需要檔案人員運用新的技術(shù)和方法。
(二)新興技術(shù)的使用。毫無疑問,新興技術(shù)的使用,如Snapchat、Google Docs、神經(jīng)網(wǎng)絡(luò)、區(qū)塊鏈、散列算法、密碼學(xué)和云計算深刻地改變了檔案的性質(zhì)與信息的創(chuàng)建、記錄、捕獲、編碼、策展、共享、提供和使用方式。這些轉(zhuǎn)變要求在捕捉信息方面要有全新的技術(shù)和方法。越來越多的數(shù)字檔案的保存、背景化和展示,使得檔案工作者必須把新興技術(shù)作為自己的行業(yè)工具來配備。我們需要了解數(shù)字景觀,以及在新一代技術(shù)下社會將如何創(chuàng)造和分享檔案。當重新思考檔案的性質(zhì)和如何將數(shù)字檔案應(yīng)用到實踐時,就可以借鑒文化遺產(chǎn)、學(xué)術(shù)界和相關(guān)行業(yè)的創(chuàng)新,與基礎(chǔ)設(shè)施、方法、工具、技術(shù)和用戶需求的探索性研究結(jié)合起來。只有通過在檔案保存實踐中嵌入新一代技術(shù),幫助我們在捕捉、保存、情境化和展示數(shù)字檔案的過程中管理我們的權(quán)利和責(zé)任,才能實現(xiàn)新一代數(shù)字檔案館的愿景。因此,在這個越來越依賴人工智能的時代,我們需要徹底考慮數(shù)字檔案的保存、描述、表現(xiàn)和使用有關(guān)的實際問題。
在未來,人工智能和新興技術(shù)將成為我們?nèi)粘S涗泴嵺`的一部分,在使用的過程中,圍繞信任的問題就成為了根本。例如,社會對算法決策的依賴性越來越大,這從根本上改變了證據(jù)的格局。利用數(shù)據(jù)創(chuàng)建和訓(xùn)練算法的人工智能正變得越來越廣泛和多元。人工智能的不確定性和無限制性要求我們重新思考如何保存系統(tǒng)和決策的證據(jù)。因此,人工智能要求我們重新思考在這種情況下,“檔案”是什么。在應(yīng)對這些挑戰(zhàn)的過程中,國內(nèi)對館藏管理、檔案學(xué)科、檔案部門和圍繞檔案的跨學(xué)科進行了高質(zhì)量的研究。在這些研究中,以尋求發(fā)現(xiàn)創(chuàng)新的新模式和方法、技術(shù)和工具為目的,避免數(shù)字時代檔案保存的風(fēng)險。
數(shù)字化轉(zhuǎn)型改變了檔案館作為權(quán)威機構(gòu)的傳統(tǒng)界限,并在保護檔案和數(shù)據(jù)方面帶來了新的挑戰(zhàn)。在快速變化的檔案保存環(huán)境中,了解并有效管理所有相關(guān)風(fēng)險是檔案工作的核心。
(一)分布式賬本技術(shù)建立信任。數(shù)字檔案具備的基本挑戰(zhàn)之一,是我們?nèi)绾伪WC今天進行歸檔的記錄與20年甚至100年后向公眾發(fā)布的檔案是一樣的。目前嘗試使用的分布式賬本技術(shù)(DLT),如區(qū)塊鏈,正作為一種工具來維持對數(shù)字檔案的長期信任。DLT使用加密技術(shù)和分布式存儲模型,通過制作多個公開可用的證明實例,即創(chuàng)建可驗證的證據(jù),證明一個存檔對象沒有被篡改。這就意味著,如果一個數(shù)字文件以某種方式被改變,就可以通過數(shù)字檔案現(xiàn)在與它在分布式分類賬本登記時不同的情況來識破。目前,DLT已在國內(nèi)大型互聯(lián)網(wǎng)公司得到廣泛應(yīng)用,但在數(shù)字檔案領(lǐng)域應(yīng)用較少。隨著信息化的快速發(fā)展,國家電網(wǎng)、神華集團、華能、華電、中石油等已逐漸認識到檔案內(nèi)容真實的重要性,并陸續(xù)使用DLT對企業(yè)檔案進行集中存儲和統(tǒng)一管理。
在數(shù)字世界里,我們會提供原始數(shù)字文件的編輯和重新格式化版本。一個過時的文字處理文件可能會被轉(zhuǎn)換為PDF格式,以達到兼容的目的;個別的電子郵件可以從電子郵件檔案中提??;高清晰度的視頻可以減少到com-pressed格式,以減少對下載帶寬的影響。這些程序中的每一個程序,雖然不會從根本上影響對象的內(nèi)容,但仍會創(chuàng)造出與原件不同的加密內(nèi)容。
我們的重點是確保數(shù)字檔案的可持續(xù)性,以保證用戶對數(shù)字檔案的信任,因此,在數(shù)字檔案中建立一個以DLT為中心的可審計性和透明度系統(tǒng),強調(diào)用于操作原始數(shù)字對象的功能的可追溯性。其核心原則是:每個用于操作數(shù)字文件的函數(shù)都在分布式賬本中注冊,只有可驗證的函數(shù)才可以被使用。這樣一來,一個數(shù)字對象的演示副本可以通過所有用于創(chuàng)建或操作它的函數(shù)集,在其整個生命周期內(nèi)追溯到它的原始版本。相信,使用這種技術(shù)可以改變數(shù)字檔案的可持續(xù)性,同時也可以讓檔案館共享檔案的管理權(quán),并通過共享來保證他們所持有檔案的完整性。
(二)貝葉斯網(wǎng)絡(luò)處理保存風(fēng)險。對數(shù)字保存產(chǎn)生的風(fēng)險應(yīng)該運用新的方法。在一個不斷變化的數(shù)字環(huán)境中,定性風(fēng)險評估方法不能為數(shù)字檔案館提供足夠的保證。在嘗試使用一種統(tǒng)計方法來量化數(shù)字保存風(fēng)險時,我們發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)可以解決這個問題。
貝葉斯網(wǎng)絡(luò)是建立在貝葉斯推理之上的概率模型。1980年,隨著人工智能的發(fā)展,Pearl提出了貝葉斯網(wǎng)絡(luò),將貝葉斯網(wǎng)絡(luò)成功地應(yīng)用于專家系統(tǒng),成為不確定和推理的一種流行方法。貝葉斯網(wǎng)絡(luò)技術(shù)已廣泛應(yīng)用在模擬軍事對抗、信號檢測、金融風(fēng)險分析等。
對于檔案領(lǐng)域來講,數(shù)字化保存亦是一項長期的活動,由于許多風(fēng)險事件和故障發(fā)生的頻率太低,我們無法收集到許多硬數(shù)據(jù)來為經(jīng)驗方法提供依據(jù),這導(dǎo)致我們難以用定量技術(shù)對風(fēng)險進行預(yù)測。然而,檔案行業(yè)在多年的數(shù)字保存中積累了豐富的經(jīng)驗,而且從行業(yè)和檔案館的知識中獲得的信息,在此基礎(chǔ)上應(yīng)用貝葉斯方法。應(yīng)用貝葉斯方法建立一個預(yù)測模型,當發(fā)布用于研究的數(shù)據(jù)文件時,惡意用戶可能試圖破壞機密性,貝葉斯風(fēng)險評估用于預(yù)測披露風(fēng)險,使我們能夠判斷某一特定數(shù)據(jù)是否安全,當被認定為不安全時,采取保護措施。結(jié)合不同的信息來源,在有硬數(shù)據(jù)的地方使用硬數(shù)據(jù),在沒有硬數(shù)據(jù)的地方用我們的最佳判斷來補充。這種方法還使檔案工作者能夠在面對不確定和不完善的信息時進行操作,并能適應(yīng)不斷變化的環(huán)境。
在未來,我們應(yīng)努力建立一個新的數(shù)字保存風(fēng)險模型,它將以數(shù)據(jù)為基礎(chǔ),以適應(yīng)數(shù)字環(huán)境的不斷變化。數(shù)字保存風(fēng)險模型將包括廣泛的威脅因素,從格式的多樣性到系統(tǒng)的依賴性、軟件、技術(shù)能力和組織政策,進行風(fēng)險建模。這意味著我們可以有效地規(guī)劃干預(yù)措施,平衡風(fēng)險的可能性增加對數(shù)字檔案保存的影響。通過預(yù)測性的風(fēng)險模型,能夠以經(jīng)驗為基礎(chǔ)做出有關(guān)保存行動的決策,同時能夠闡明不同保存方案的效益和成本。利用數(shù)字團隊的專業(yè)知識,通過應(yīng)用風(fēng)險情景來驗證正在開發(fā)的模型,并利用這項工作來發(fā)展研究合作,以進一步擴展該模型。特別感興趣的是將如何開發(fā)統(tǒng)計模型,能夠幫助了解和量化風(fēng)險,并投入資源、成本以取得最大效果,以及這些風(fēng)險模型如何與更廣泛的檔案部門結(jié)合起來。此外,對這些問題的回答將更有助于了解和處理與檔案相關(guān)的法律、社會和道德環(huán)境。闡明風(fēng)險并指出對“風(fēng)險偏好”需要放在哪里,這無疑是圍繞數(shù)字檔案保存基礎(chǔ)設(shè)施的重要一步。
(三)記錄鏈接解決不確定性。數(shù)字檔案館的又一挑戰(zhàn)是如何有效地處理檔案館收藏檔案的模糊性和不確定性,同時為混亂、不完整和不一致的歷史數(shù)據(jù)創(chuàng)建一種模糊鏈接的方法。為了回答這個問題,我們一直在積極嘗試用記錄鏈接讓用戶能夠做出穩(wěn)健的、數(shù)據(jù)驅(qū)動的訪問決策。
不同數(shù)據(jù)源的數(shù)據(jù)的合并過程稱為記錄鏈接(record linkage)就是利用統(tǒng)計學(xué)原理,識別不同文件中的相關(guān)記錄是否描述同一個體的一種數(shù)據(jù)處理技術(shù)。目前國外記錄鏈接技術(shù)已廣泛應(yīng)用于醫(yī)藥、商業(yè)管理、官方統(tǒng)計等領(lǐng)域。
應(yīng)用記錄連接技術(shù)不是試圖清理和標準化數(shù)據(jù),而是旨在通過量化和繞過大規(guī)模集合中發(fā)現(xiàn)的“模糊性”的形式,利用模糊匹配,通過對兩條記錄的多個識別符號進行匹配,并對不同識別符號分別賦予權(quán)重,將匹配結(jié)果加權(quán)重求和就得到兩條記錄代表相同個體的概率。
在檔案鏈接算法中使用概率,為遺產(chǎn)藏品開辟了新的獲取途徑,并提供了一個從業(yè)者對檔案描述的視角。我們最初的工作是在本館的藏品中建立鏈接,現(xiàn)在也可以擴展,因為現(xiàn)在可以建立一個由人、地點、事件和思想組成的連接網(wǎng),即對這些因素進行賦值進行權(quán)重加和,而不是一個僅由檔案背景連接的紙盒目錄。然而,還有更多的工作要做,來擴展和發(fā)展這一方法,以管理模糊的大數(shù)據(jù),并將結(jié)果呈現(xiàn)給用戶。我們?nèi)匀恍枰剿髯屝吕嫌脩舳寄塬@得這些鏈接的方法,將鏈接數(shù)據(jù)方面的進步與現(xiàn)代可視化和數(shù)據(jù)挖掘技術(shù)相結(jié)合,以提供新的見解。
向用戶開放檔案是國家檔案館職責(zé)的一個重要部分,這也帶來了許多機遇和挑戰(zhàn)。作為數(shù)字檔案的保管者,無論是數(shù)字化還是原始數(shù)字記錄,在保持數(shù)字檔案館公開性和透明度方面要做到:一是控制開放規(guī)模、安全地在法律范圍內(nèi)提供數(shù)據(jù)的使用和再利用;二是在開發(fā)新的服務(wù)和創(chuàng)新的內(nèi)容時,檔案工作者的決定和程序要透明。
(一)通過改變我們對訪問的思考方式,實現(xiàn)大而復(fù)雜的數(shù)據(jù)分析。傳統(tǒng)的檔案利用概念主要反映了用戶在閱覽室或研究室進行的文獻研究。今天,閱覽室仍然是一個物理空間,用戶主要是去探索模擬記錄和物質(zhì)手工藝品,但同樣,也有各種數(shù)字空間,如網(wǎng)站、在線目錄或檔案館、文化機構(gòu)和其他公司的其他數(shù)字基礎(chǔ)設(shè)施,用于制作或存放數(shù)字檔案。毫無疑問,數(shù)字化改變了檔案收藏的獲取方式,帶來了新的機遇和挑戰(zhàn)。
為了尋求在訪問、分析和研究方面的創(chuàng)新,我們正在開發(fā)數(shù)字基礎(chǔ)設(shè)施,以解鎖檔案內(nèi)容,并實現(xiàn)數(shù)據(jù)分析方法的應(yīng)用。通過應(yīng)用自然語言處理和結(jié)構(gòu)感知搜索等技術(shù),實現(xiàn)了對復(fù)雜的大規(guī)模收藏的高級研究。例如,英國國家檔案館開發(fā)一個新的網(wǎng)站供研究人員使用,通過新的數(shù)據(jù)集列出幾年以上的所有立法,以及一套高級工具,使其易于查詢立法內(nèi)容,并實現(xiàn)結(jié)構(gòu)和時間感知搜索。此外,當我們將數(shù)字服務(wù)轉(zhuǎn)移到云端時,可以讓研究人員方便地訪問政府網(wǎng),他們可以對我們的政府存檔網(wǎng)站、政府部門視頻和社交媒體活動進行大規(guī)模的再搜索。將光學(xué)字符識別(OCR)技術(shù)與新的先進技術(shù)相結(jié)合,用于捕捉和保存政府在網(wǎng)絡(luò)上發(fā)布的信息,使大規(guī)模數(shù)字收藏(包括PDF格式的數(shù)字化文件以及出生的數(shù)字)可用于研究和探索。
(二)利用算法和人工智能公開大規(guī)模的檔案。檔案館的收藏規(guī)模是我們的挑戰(zhàn)之一,當涉及到檔案開放,包括數(shù)字化的收藏品供研究和實驗時,當規(guī)模的挑戰(zhàn)與如何抄寫印刷和手寫歷史檔案的問題結(jié)合在一起時,圍繞數(shù)據(jù)的獲取和使用的問題就需要新的方法。將OCR和手寫文本識別(HTR)與高性能的計算技術(shù)相結(jié)合,使用戶能夠以新的方式解開檔案中印刷和手寫的歷史內(nèi)容。在手寫歷史內(nèi)容方面,應(yīng)用HTR技術(shù)的挑戰(zhàn)之一是準確性。這就解決了如何最好地將HTR與人工干預(yù)(潛在的眾包)相結(jié)合,以產(chǎn)生大規(guī)模的內(nèi)容轉(zhuǎn)錄的問題。隨著記錄轉(zhuǎn)化為數(shù)據(jù)潛力的開放,檔案研究者將目標放在了跨學(xué)科研究中,能夠通過多種方式操縱該數(shù)據(jù),以追蹤檔案和檔案之間的模式,重新組合我們的數(shù)據(jù)以講述新的故事。
預(yù)計未來將越來越多地依靠算法來幫助我們完成從保存到展示的過程。在涉及算法和人工智能輔助決策的所有檔案保存的過程中,必須注意確保公平、問責(zé)和透明,這一點至關(guān)重要。在一個大規(guī)模數(shù)據(jù)分析和人工智能輔助檔案學(xué)科的時代,打開人工智能系統(tǒng)的“黑匣子”也將幫助我們解決重要的實踐和倫理問題,如檔案與社會正義。這些領(lǐng)域與整個過程中使用的訓(xùn)練數(shù)據(jù)和統(tǒng)計數(shù)據(jù)的不確定性有關(guān)。對決策中使用算法和人工智能所發(fā)生的結(jié)果在所有階段和所有層次的依賴關(guān)系的理解,將幫助我們對這種背景下的檔案的倫理含義產(chǎn)生新的認識。